GB T 17532-1998 术语工作 计算机应用 词汇.pdf
《GB T 17532-1998 术语工作 计算机应用 词汇.pdf》由会员分享,可在线阅读,更多相关《GB T 17532-1998 术语工作 计算机应用 词汇.pdf(20页珍藏版)》请在麦多课文档分享上搜索。
1、GB/T 17532 1998 前兰主忆二本标准等效采用ISO/DIS1087-2-2,1996 定义引用的术语用黑体标出,并在后面用括号注明条目编号例i注除了条日编号之外.优先术语和定义仅在适当的地j出现。1 范围本标准规定了在术语工作和术语编寨中用于语言和信息处理的术语。本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及术语数据处理的工作中也可参考使用。2 引用标准下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订.使用本标准的各方应探讨使用下列标准最新版本的可能性。GB/T 12200.2一1994汉语信息处理词汇
2、02部分z汉语和汉字GB/T 12991-1991 信息处理系统数据库语言SQL(idtISO/IEC 9075: 1989) GB/T 15237 1994 术语学基本词汇(neqISO 1087: 1990) GB/T 527 1. 8-1993 数据处理词汇08部分:控制、完整性和安全性(eqvISO 2382-8: 1986) I50/IEC 2382-1:1993信息技术词汇第1部分z基本术语I50 2382-4: 1987信息处理系统词汇第4部分.数据的组织I50 2382-6: 1987信息处理系统词汇第6部分:数据的准备和处理I50/IEC 2382-9 :1994信息技术词汇
3、第9部分:数据通信ISO/IEC 2382-23: 1994信息技术词汇第23部分文本处理国家质量技术监督局1998-11-05批准518 1999- 06-01实施GB/T 17532-1998 3 一般概念3. 1 信息information 信息处理关于客体(如事实、概念、事件、思想、过程等)的知识.它在定的土下文中具有特定的患义。注1丰条引自ISO/IEC2382-1。2在其他的应用领域,信息的定义,卜间。3. 2 数据data 为进行通信、解释和处理而使用的信息(3.1)的形式化表现形式。注z本条改自IS0/IEC2382- , 3.3 数据处理data processing DP
4、对数据(3.2)进行的系统操作。例:对数据进行算术运算或逻辑运算,数据的归并(9.5)或分类(9.1),程序的汇编或编译,以及对文本(3.6)的操作,如文本编辑(12.3)、分类、归并、存储、检索、显示(9.6)、打印等。注:本术语不能作为信息处理(3,4)的同义术语。3. 4 信息处理informatlon processng 对信息(3.1)进行的系统操作,它包含数据处理(3.3)。?于l本条改自IS0/IEC2382- 1, 2本术语不能作为数据处理。,3)的同义术语。3. 5 语言处理language processing X1语言进行的系统操作,官包括数据处理(3.3)巴3. 6 文
5、本lexl 以字符(6.1)、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据(3.2)。其解释主要根据阅读文本的人对于某种自然语言或人五语言的知识来进行。?占.本条引自IS0!lF.C2382- 1, 3.7 文本语料库text corpus 语料库corpus 根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7.4)或文本的某些部分的有组织集合。l:t文本语料库可按专业领域、容量或时代做不同的限定,例如,从1986年以来的某些特定的期刊、数学文本等。文本语料库可用作进一步的语言分析或术语工作的原材料。3.8 类型type 文本(3.6)中代表丰个确定
6、类别的语言单位。注2这种语言单位通常是未用定界符(3,10)隔开的不间断的字符串。3.9 类例token 自然语言处理类型(3.的在文本中的具体表现形式。例:在英语中,如果把good的所有词形定义为类型,那么good,better和best等都是词形good的类例。3. 10 定界符delimiter 分隔符separator 用于指明一个字符串(6.13)的ff始或结尾的一个或多个字符(6.!)。510 GB/T 17532-1998 注1本条寻l自ISO2382一4,2空白或标点符号经常用作定界符。3- 11 词形word form 给定词的任何形态句法变体。例:在英语中,indicate
7、 : indica tes , visitor: visitor s. 注I在屈折语中,i司形经常是屈折形式.例如,英语的go.gOf:S;以及go.went. gone 0 2这个定义不包含正词法方面的变体e3. 12 词形变化范型paradigm 自然语言处理属于某一给定i司的各个词形(3.11)的类聚。3- 13 基本词形base form 参照词形reference form 根据词典编篡学的惯例选出的用以表示个词形变化范型(3.12)中的各个形式的词形(3.11)。例:在英语中.bind是bi时,bound,bin巾,binding等的基本词形。往I本条改自GIl/T15237-19
8、940 2术语基本词形也可以应用于词组型术语u3. 14 词组型术语multi-word term 包括两个以上词的术语。3.15 压缩形compressed form 规定形normalized form (拒用)缩减形red uced form (拒用)经过压缩(8.4)的字符串。例E字符串叮In呻pu川t/outpu山t-a剖19伊orithm旷变成其压缩形1mnp阳utou川tp归utalgo旧r口lt由hm旷注z术语缩减形和规定形可能会导致误解,建议避免使用这两个术语。3- 16 取消屈折deioflectioo 取消词形(3.11)中的屈折成分。J 17 取消屈折的词形deiofl
9、ected word form 在取消屈折(3.16)之后余下的词段(3.18)。3. 18 词段word part 词片word segment 为了某种特殊用途从一个词形(3.11)中取出的字符串(6.13)。3. 19 词形还原lemmatizatioo 从某-给定词形(3.11)生成基本词形(3.13)的过程。例.在英语中,飞。是goes通过取消屈折(3.16)而得到的基本词形(3.13);而自。是went通过不规则动词变换得到的基本词形(3.13),这种变换不符合标准的屈折规则。注2这样的结果也称为词形还原。3.20. 剖析parsing 根据给定的算法,将给定的结构分解为其组成成分
10、的操作。例:在英语句子allunsaturated atty a口dsare not degradable by biological methods中电allunsaturated fatty acids和biologicalmethods可看成是词组型术语(3.4),它们可以被抽取(8阜9)。520 GB!T 17532-1998 注:剖析不定必须提供对某句子的完整分析。3.21 术语数据集合terminological data collection 包含特定专业领域有关各种概念的信息(3.1)数据(3.2)集合。3. 22术语条目terminological entry 术语数据集合(
11、3.21)中所包含的关于4个概念的术语数据(3.2)。注z个术i吾条目可以包含两个以上的记录(7.9)。3. 23 罔形词homograph 两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。例z在英语中,lead(铅Pb)和lead(领导hbark(吠)和bark(树皮。在汉语中,仪表(人的外表)和仪表(测量温度、压力等的仪器); 杜鹊(布谷鸟)和杜鹊(映山红)。应2具有不同书写形式但经过压缩(8.4)之后变为同形的词形(3.11)不算同形词e3.24 歧义消解disambiguation 通过赋予同形词贴切的概念或贴切的句法功能从而分化同形词(3.
12、23)的过程,或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。例:在汉语中,分化白跑和自纸中的白分别为副词和形容词P分化学习文件的句法结构分别为动宾结构和偏正结构。4 数据组织4.1 分类值sort value 排序值sorting value 根据预先确定的顺序,字符集(6.2)中某一元素的位置。例:在法语中,字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字母具有相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时按不同的字母来处理。4.2 分类关键字sort key 排序键用于满足分类(9.4)和归并(9.5)操作要求的字符串(6
13、.13)。例2当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关键字。如果间J个作者有两个题目,则把出版年份或题目作为附加的分类关键字e4.3 字母排序alphabetical ordering 在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串(6.12)头部开始的分类值(4. 1)来确定。注l带有发音符号和连音符号的字母以及带有数字上标、下标的其他符号都可以作为特殊的分类值。2字母排序的规则可以因语言的不同而不同。4.4 逆字母排序reverse alphabetlcal ordering 在组织字符串(6.13)时,表中的每一个串(
14、6.12)的位置唯一地由从该串(6.12)尾部开始的分类值(4. 1)来确定。4.5 频度顺序frequency order 在特定的文本(3.6)或文本语料库(3.7)中,根据类fJJJ(3.引出现频度上升或F降的顺序来排列的521 GB!T 17532-1998 类型(3.8)的顺序。7主2在;常情况F.表的类型是词形(3.11)频度表或!原形词频度表。4.6轮排permutation 使词组型术语:扣每个实i司都作为关键词进行的排序。例:在英语中.X、I字符串millionsof instructions per second MIPS轮排时,inst ru r: t ions , mi
15、l 110ns of per seconds, second , mllimns of mstruetlormper等形式分别出现在instrumor刊和HCOnd等实词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。注牛二条政自GB!T15237 -1994 4.7 毗连concatenation 两个以上的字符串(6.13)按特定的顺序fT并,形成一个新的串(6.12).其长度等于各个字符串(6.13)长度的丰1105 术语数据的筛选5. 1 非用词表exclusion Iist 停用词表stop word list 在数据处理(3.3)中任意选择的不予考虑的字
16、符串(6.13)组成的表。注l在术语工作中,产生忽略功能词(代词、冠词等)的词在可能是有益的。2有时,非用词表中的字符串可以被保留下来(例如在词语索引(5.4)中).但是不注明其频度。5.2 拟用词表inclusion Iist 加用词表plus word list 要保存或认为要进一步数据处理(3.3)的字符串(6.13)组成的衰。例:凡包含bank(银行)或creditins1tution气信用机构)的所有的句子都抽出;凡以M起头的所有的条目在名字索引中都检索出来?凡以ant卜开头的所有的单词都选出来。注2如果适合的话,拟用词表也可以包含词段(3.18)或其他的字符串(6.13),5.3
17、自由文本搜索free-text search 在文本语料库(3.7)中进行的,能够检索任何类型(3.别的搜索(8.7)。5.4 词语索引concordance 从一个出处摘出的并属于同一类数据元的有序字符串(6.13)汇集表。住:本条改自GB(T15237-1994. 5.6 术语索引term index 参照词汇或术语数据库(7.6)中的术语条目(3.22)而编制的索引(5.5)。注z术语索引中的术语可以按照字母来排序,也可以按照其他系统来排序。5. 7 字母索引alphabetical index 按字母顺序排列的索引(5.5)。5.8 系统索引Isystematic index 所有的术
18、语排列能反映特定专业领域中概念之间的系统关系的索引(5.5)。5.9 轮排索冒Ipermuted index 522 GB/T 17532-1998 按轮排(4.6)方式列出的术语索引(5.6)。5.10 逆序索I reverse index 按避字母排序(4.4)列出的索引(5.5)。5. 11 倒排索引inverted index 列出文本(3.6)中的全部类型(3.的以及全部对应类例(3.9)的索引(5.5)05.12 词形索I word f orm index 词索引word index 文本(3.6)中所有词形(3.11)的索引,其中在文本(3.6)中出现两次以上的词形(3.11)用
19、一个单独的类型(3.8)来代表,并指出其出现次数(p相应的类例(3.9)以及它们的原文参照。5.13 还原词索引lemmatized word index 用词形(3.11)的基本词形(3.13)来代表的词形索引(5.12)。6字符6. 1 字符character用于表示、组织或控制数据(3.2)的元素集中的成员。注l本条引自ISO2382-40 2字符可以分为图形字符和控制字符。6.2 字符集character set 不同字符(6.1)的有限集合,它对于一定的目的而言是完整的。例,ISO646的国际参照本,128个ASCn字符。注本条寻|自ISO2382-40 6.3 享母表alphabe
20、t 按公认的线性次序排列的字母字符(6.6)集。注l本条改自I以)2382-40 2这个定义也覆盖了由字符(6.1)组成的自然语言的字母表,这些字符(6.1)包含带发音符号的字母。6.4 图形字符graphlc character 种具有视觉表示的,通常可以书写、印刷或显示(9.6)的字符(6.1),它不同于控制字符(6.5)。注1本条引自ISO2382-4. 2图形字符可以是字母字符佣的,报字(6.7)或特殊牢符(6.9).6.5 控制字符control character 在特定上下文中并实现某种控制功能的字符(6.1)。注l本条引自ISO2382-4。2控制字符(6.1)启动、修改和停止
21、戴帽处理(3.3)的操作.6.6 字母字符alphabetlc character 图形事符(6.4)中用于书面表示给定语言的字母。注B它包括带发音符号的字母.6. 7数字dlglt 数字字符numeric character 表示非负整数的字符(6.1)。523 GB/T 17532 -1998 注:本条例自ISO2382-40 6. 8 字母数字字符alphanumeric character 或者是字母字符(6.6) ,或者是数字(6.7)的任何字符(6.1)。6.9 特殊字符speciaI character 不是字母数字字符(6.们的图形字符(6.4)。9IJ ,任何标点符号,and
22、符号&丁,百分符号%J,加号+J等都是特殊字符。注:本条改白IS()2382-40 6. 10 间隔字符space character 引起打印或显示位霞沿着直线向前移动一个位置的控制字符(6.5)。注本条改自ISO2382-4. 6.11 空白blank 在图形字符(6.4)串中表示一个空位置的字符(6.1)。注本条引自ISO2382-4。6.12串string由具有相同性质的元素组成的作为总体来看的序列。例:字符(6.1)、二进制位或脉冲等组成的序列。注:本条改自己o2382-40 6.13 字符串character string 未被空白隔开的由多个字符(6.1)组成的序列。注z一个字符
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 17532 1998 术语 工作 计算机 应用 词汇
