GB T 23829-2009 辞书条目XML格式.pdf
《GB T 23829-2009 辞书条目XML格式.pdf》由会员分享,可在线阅读,更多相关《GB T 23829-2009 辞书条目XML格式.pdf(64页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 01. 020 A 22 道里中华人民=H工./、不日国国家标准GB/T 23829-2009/ISO 1951 : 2007 辞书条目XML格式XML Representation of dictionary entries CISO 1951 :2007 Presentation/representation of entries in dictionaries-Req uiremen ts , recommenda tions and informa tion, IDT) 2009-05-06发布2009-11-01实施曹I且如中华人民共和国国家质量监督检验检菇总局中国国家标准化
2、管理委员会发布G/T 23829-2009/ISO 1951 :2007 目次前言.1 1 范围-2 规范性引用文件3 术语和定义4 基于XML的辞书条目描述方法25 词条的排版.22 附录A(资料性附录)词条编码实例M附录B(资料性附录)词条版式与省略形式的辅助置标.47 参考文献GB/T 23829-2009/ISO 1951 :2007 刚自本标准等同采用ISO1951: 2007 Presentation/representation of entries in dictionaries-Require ments,recommendations and information 。本标
3、准在制定过程中,除对ISO1951 :2007中附录A(资料性附录)和附录B(资料性附录)的内容未予考虑外,其余内容均等同采用。ISO1951 :2007中附录A(资料性附录)和附录B(资料性附录)的内容属于GB/T11617-2000(辞书编寨符号OSO1951:1997 , NEQ)o GB/T 11617-2000非等效采用ISO 1951: 1997,而ISO1951:1997不包含目前本标准所采用的ISO1951 :2007的内容。本标准由全国术语标准化技术委员会提出。本标准由全国术语标准化技术委员会归口。本标准由中国标准化研究院、上海辞书出版社、中国大百科全书出版社、人民教育出版社
4、、南京大学辞书研究中心、商务印书馆、中国社科院语言所等单位起草。本标准主要起草人E周长青、程永红、肖玉敬、高莹、王海涛等。I GB/T 23829-2009/ISO 1951 :2007 辞书条目XML格式1 范围本标准涉及各种辞书的编寨,提出了一个通用规范数据结构,适用于辞书内容信息,且不受出版媒介限制。该数据结构和辞书中实际条目呈现形式之间的关系,在本标准资料性附录中以实例的形式予以描述。该数据结构采用了XML(即可扩展标记语言)的描述形式。本标准克分考虑了辞书的各种使用方式,特别是电子文档的超链接功能,以及建立单一的、充分结构化的辞书信息数据源或数据存储系统,使辞书的信息内容能够以不同的
5、印制形式或电子格式得以开发利用。本标准有助于辞书信息数据的制作、合并、比较、抽取、交换、发布和查询。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。ISO 1087-1 :2000术语工作词汇第1部分:理论与应用ISO 704: 2000术语工作原则与方法3 术语和定义ISO 1087-1 :2000 , ISO 704 :2000中确立的以及下列术语和定义适用于本标准。3
6、. 1 解释说明comment 用辞书编篡所需的数据元素(3.3)或复合元素(3.2),对词汇单位(3.8)予以描述的基本语言学信息。3.2 复合数据元素compositional element 由多个元素组成的复合信息单位。注:有三种复合元素族:块元素J(3.2.D、容器元素J(3.2. 2)和组元素J(3.2. 3)。3.2. 1 块元素,分解结构block 一种复合元素(3.2),用来列举其他一些元素,这些元素是起详细描述限定作用的功能单位,在另外某个特定元素的多个实例间共享。3.2.2 容器元素,细化修饰结构container 一种复合元素(3.2),通过所包含的一些其他元素(3.5
7、)来为单个特定数据元素(3.3)提供补充信息。示例z条头需要的容器元素或细化修饰结构一般给出条头的发音、词性等细节信息。条头本身此时则是被细化修饰的数据元素。1 GB/T 23829-2009/ISO 1951 :2007 3.2.3 组元素group 一种复合元素(3.2),用来把几个独立元素(3.5)结合在一起。示例2一个义项由诸如定义、学科领域等一些元素构成的组来描述.3.3 数据元素,数据类目data element , data category 信息数据单位,其定义、标识、表现形式以及可允许的信息数据值等是通过使用一组属性特征来规定的。3.4 条目,词条dictionary ent
8、ry, lexicograpbical entry, entry 辞书中由作为标题或开始标志的字、词或短语及其各种变体形式,以及针对该字、词或短语的全部释文两部分组成的内容单位。3.5 元素element 信息数据单位,既可以是数据元素(3.3)也可以是复合元素(3.2)。3.6 条头beadword , entry word 辞书中条目(3.4)的标题,标志条目开始位置或引出条目内容的字、词或短语。3. 7 词目,主词lemma , base word 根据辞书学传统选择出来,标志条目开始位置或引出条目内容的词汇单位(3.8)。注:主词是其所在各种词形变化形式列表的代表。例如sell是sel
9、ls,sold , selling等词形的代表a3.8 词汇单位lexical unit 属于特定语言的字、词或短语。3.9 辞书编集符号lexicographicaJ symbol 在单独或以组合的形式显示或输出辞书信息时,用来表述某些辞书信息数据或术语学信息数据的字母、标点符号、其他排版符号或图形符号。3. 10 主副条结掏nested entry 用于表现具有共同词目的多个相关条目的组合结构。4 基于XML的辞书条目描述方法4. 1 慨述以下阐述的描述方法模式叫做XmLex模式。在本标准的附录A中还通过示例对其进行了详细说明。4.2 辞书条目中的数据元素和复合鼓据元素词条可以被看成是对作
10、为标题的词汇单位(3.8)进行的解释说明(3.1)。每个词条都有一个主要标题,即条头(3.6),以及其他一些相关标题内容。诸如西文中词的屈折变化形式、条头在其他语言中的对应形式等内容,都应属于这种相关标题内容。各种标题内容和各类解释说明都是构成词条的数据元素。每个元素都有自己的内容模型。多个数据元素组合形成各种复合元素,进而构成元歧义的、可以完全进行计算处理的辞书条目。本章提供了相关数据元素和复合数据元素的清单。清单的内容是开放GB/T 23829-2009/ISO 1951 :2007 的,允许用户根据特定的目的进行扩展。印刷辞书通常利用印刷排版体例(正体/黑体/斜体)、空间位置设定(在前/
11、在后)和标点符号(逗号或分号)来表明词条标题与其解释说明之间的关系。但是在XrnLex模式中,一一不会通过元素的位置来表示两个元素之间的关系;一一不会有与排版印刷符号和体例一样的标记。复合数据元素(3.2)有块元素(3.2.1)、容器元素(3.2.2)和组元素(3.2.3)三种类型,一般用来对条头与其各种解释说明之间的逻辑关系进行编码。这样做的结果,一方面是能够自动生成印刷式的表现形式;另一方面是可以对所有元素间的各种关系进行自动计算处理,用于数据的转换或者把相同的数据再次用于其他场合。如双语辞书中语种顺序的置换、将辞书数据用于翻译软件或词汇数据库等。本标准的这部分内容将:-一描述编制常见词条
12、形式时所需要的数据元素,以及由这些元素组合形成的各种复合元素;对数据元素的描述最大限度地遵循了1S012620 :1999中的规定。一些不在1S012620之列的自由数据元素用户可自行定义,这样允许了对本方法模式的扩展,以便进行有条件的数据交换。一-详细说明一种适用于辞书的形式模型。该形式模型将用扩展巴克斯-诺尔范式(BNF:Backus-Naur forrn)来表述。巴克斯-诺尔范式经常用作对给定语言的句法进行规范描述,且该描述与上下文元关。一一给出通过使用XML、Xpointer、XSL和XHTML规范技术来实现该形式模型,并对之进行有效性验证的方法。4.2.1 数据元素4. 2. 1.
13、1 词汇单位表1给出了一个典型的辞书条目中应该使用的各种词汇单位类型。第一栏包括信息要素的名称。第二栏给出了该形式模型中所使用的通用标识符。第三栏给出了一个简要的说明;第四栏的内容(如果存在)指示的是附录A中第一个有关该信息元素的示例,其中第一个数字是示例编号,第二个数字是代码行号。表1词汇单位类型名称类型标识符说明示例缩略形式AbbreviatedForm 通过省略较长形式中的字、词或者字母得到的词汇单位。根据A 1501087-1 :2000,定义3.4.9改写7 3 近义词Analogy 有着与目前的词汇单位的意义有近似之处的词汇单位。A 根据1501087-1:2000,定义3.4.2
14、0改写10 4 反义词Antonym 其概念与目前的词汇单位所代表的概念相反的词汇单位。A 根据15012620: 1999 , A. 10. 18. 6改写5 45 复合短语CompositionalPhrase 经常重复出现并形成定式的任何词语并置形式,比如搭配、谚A 语、格言等等4 15 派生Derivation 词汇单位的形式变化,通常是对词根的修饰或增加词缀,这些A 改变常意味着词性的变化5 9 一二一3 GB/T 23829一2009/ISO1951 :2007 表1(续)名称类型标识符说明示例|例证Example 代表词汇单位某一意义的用例A 4 10 假同义词FalseFrie
15、nd 一种语言中的一个词汇单位,仅仅与另外一种语言中的一个词A 汇单位在形式或意义上有相似之处,但是并不代表同一概念15 6 自由内容FreeTopic 其类型在本标准中没有界定的词汇单位A 18 5 完整形式FullForm 一个词汇单位的完整形式,它有一个缩啼形式。A 根据15012620: 1999,人2.1.7改写20 3 词臼Headword 引领词条的标题A 1 4 屈折变化Inflection 词语形式的变化,以表达不同的语法意义和语法关系A 22 5 国际科学术语Internationa15cientific-所采纳的符合国际科学命名法的术语。A Term 根据15012620
16、: 1999.人2.1.4改写39 12 多词单位MultiWordU nit 由两个或更多的字、词组成,且具有单一个含义的词汇单位A 1 42 符号5ymbol 用字母、数字、图画文字或其任意组成指明一个概念的名称。A 根据15012620: 1999. A. 2. 1. 13改写23 7 同义词5ynonym 与词条的词目代表相同或非常相似概念的词汇单位。A 根据15012620:1999 ,A. 2. 1. 2改写5 27 翻译对应词Translation 翻译对应词目的语中的相等的词汇单位A 1 15 变体Variant 变体词汇单位的可替换形式之一。A 根据15012620: 199
17、9,人2.1.9改写32 5 4.2. 1. 2 解释说明表2给出了一个典型的辞书条目中应该使用的各种解释说明类型。第一栏包括信息要素的名称。第二栏给出了该形式模型中所使用的通用标识符。第三栏给出了一个简要的说明F第四栏的内容(如果存在)指示的是附录A中第一个有关该信息元素的示例,其中第一个数字是示例编号,第二个数字是代码行号。4 GB/T 23829-2009/ISO 1951 :2007 表2解释说明类型名称类型标识符说明示例证明Attestation 证明观察到一个词汇单位的年份或时期A 11 8 格Case 表明一个词汇单位与从句或句子中其他词语的语法关系的形A 式(名词、代词或修饰词
18、24 7 引文Citation 引自书籍、文章或文件的词语A 4 25 补足语Cornplernent 词汇单位的附属部分(比如英语动词后的介词to根据IS016642:2003 , C. 4.10. 2改写规范程度NorrnativeStatus 具有管理职能的诸如标准机构或政府团体等权威机构所分配A 地位限定语。26 根据IS012620:1999 , A. 2. 9.1改写4 注释Note 与信息集里面的任何其他要素有关的补充信息。A 根据IS012620:1999,人8改写3 24 词性PartOfSpeech 在语法和语义特征基础上分配给词汇单位的类别.A 根据IS012620:19
19、99 , A. 2. 2.1改写1 11 人称Person 与特定的屈折变化的词汇单位有关的人称(第一人称、第二人A 称、第三人称的标示。25 7 发音Pronunciation 一个词汇单位的发音方式的呈现。A 根据IS012620: 1999 , A. 2. 5改写11 可以用音韵学或音系学的方式呈现出来3 应用范围RangeOfApplication 某一意义的正确范围A 1 14 语域Register 分配给词汇单位的、表明其对语言水平的分类。A 根据IS012620: 1999,人2.3.3改写24 9 搜索形式SearchForrn 为检索目的而登陆进词条的词汇单位。A 根据IS0
20、12620: 1999 , A. 10. 6. 3改写1 16 参见See 指向一个词目的符号,该词目是当前词目的同义词A 3 5 参考SeeAlso 指向相关词目的参见A 6 19 5 G/T 23829-2009/150 1951 :2007 表2(续名称类型标识符说明示例意义限定语SenseQualifier 任何关于tit义的标示(比喻、文学,(日)A 1 45 排序键SortKey 当词条的朋序没有按字符集指定的顺序时,为了便于排序而加到词条中的词汇单位。原语SourceLanguage 将被翻译成另外一种语言的词汇单位的语言。A 1 1 亚分类Subca tegorisa tion
21、 将词汇单位指派为其词性的小类,尤其是跟与其结合的句法要A 素有关。21 注2这种元宗仅出现于描述语法信息的容器元索中。4 学科领域SubjectField 人类知识的领域。A 根据IS012620: 1999 , A. 4改写2 11 音节划分5yllabifica tion 反映词语发音的按照音节的划分。A 根据15012620: 1999 , A. 2. 6改写34 4 目的语TargetLanguage 词汇单位翻译成的语言。A 1 1 时态Tense 动词的形式的区分,用来表达时间或动作持续或其所指代的状A 态的区别。31 5 4.2.2 层组结构z辞书和词条辞书内容是由词条或者嵌套
22、的主副条结构词条所组成。表3高层结构名称类型标识符说明示例辞书Dictionary 词条或内词条的集合A 1 1 词条Dictionaryentry 见定义3.4A 1 2 主副条结构NestEntry 见定义3.10D 1 8 辞书中的词条由一些独立的或者是结合在一些复合元素之中的数据元素组成。6 GB/T 23829-2009/ISO 1951 :2007 4.2.3 复合元素4.2.3. 1 容器元素按照ISO16642 :2003 Annex C. 4. 5中给出的定义,容器元素是一种结构,当某个元素须用其他元素来进一步修饰时使用。如一个条头需要有词性、一段引语需要有作者信息、一个符号
23、需要有来源信息等。示例:在某德-英对照辞书中有如下内容(选自附录A-一例23)F (phys (unit of capacity : As:八f) Farad n (F) DIN 1301 虽然其中Farad飞飞飞F和DIN1301等内容在印刷形式上呈线性排列,但是他们之间存在着相互依存关系,即一-Farad是名词词性一-Farad的符号是F一一符号F的文献来源是DIN1301 对这个内容进行编码的结果如下:(选自附录A-一例23)1. 2. 3. 4. !). 6. 7. Farad DI 1301 8. 2. figurative 3. 4. feeling5. refonler 6. r
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 23829 2009 辞书 条目 XML 格式
