GB Z 21025-2007 XML使用指南.pdf
《GB Z 21025-2007 XML使用指南.pdf》由会员分享,可在线阅读,更多相关《GB Z 21025-2007 XML使用指南.pdf(50页珍藏版)》请在麦多课文档分享上搜索。
1、囝亘中华人民共和国国家标准化指导性技术文件GBZ 2 1 025-20072007-06-29发布XML使用指南XML useP7s guide宰瞀粥鬻瓣警襻瞥篓发布中国国家标准化管理委员会仪1”GBZ 21025-2007前言引言1范围2规范性引用文件3术语和定义4标准的符合性原则5国际化和本地化原则6组件命名原则7命名空间使用原则8词汇表编写原则9类型、元素与属性的使用原则10版本与注释的使用原则11实例的编写原则12 XML解析器及其选择13应用开发过程14注册规程附录A(资料性附录)使用实例:附录B(资料性附录) 指定机构的有关信息参考文献目 次j,00,8n孙驰孙卯四帖拍刚 置GBZ
2、 21025-2007本指导性技术文件仅供参考。有关对本指导性技术文件的建议和意见,请向国务院标准化行政主管部门反映。本指导性技术文件的附录A和附录B为资料性附录。本指导性技术文件由中华人民共和国信息产业部提出。本指导性技术文件由中国电子技术标准化研究所归口。本指导性技术文件起草单位:中国电子技术标准化研究所、北京信息工程学院、万达信息技术公司、北京航天航空大学、方正电子技术公司。本指导性技术文件主要起草人:李宁、顾晓毅、林学练、王国印、吴志刚、赵菁华。GBZ 2 1 025-2007引 言本指导性技术文件规定了使用可扩展置标语言(XML)应该遵循的原则和注意事项,适用于XML应用的开发者、管
3、理者、使用者和其他关心XMI,使用的人员。在GBT 18793 2002信息技术可扩展置标语言(XML)10中,描述了可扩展置标语言(eXtensible Markup Language,XMI)。它是标准通用置标语言(Standard Generic Markup Language,SGMI。)的一个子集,其目的是使SGMI。文档在web应用中可以像HTML文档一样进行发送、接收和处理。为此,XML的设计力求易于实现,并能与SGML和HTML很好地互操作。它针对web应用,简化了一些sGML的不常用的内容。GBT 18793-2002所定义的XML是一组用来构造语义置标的规则集合,通过这些置
4、标文档的各个部分可按预先定义的语义结构组织起来并进行结构化验证。GBT 187932002的重点在于对以DTD为核心的XML本身的语法进行描述,并不包括Schema的内容,具体的使用方法在那里也少有涉及,这些将在本指导性技术文件中做出解释,以帮助XML的推广使用。本指导性技术文件还给出了部分使用XMI的例子。本指导性技术文件为设计一致性的、合理的DTD和Schema提供了一个指导性框架,将有助于更好地理解XML,重用XMI。组件,并达到良好的互操作性。本指导性技术文件的重点在于如何采用元语言标准和基础标准来定义应用标准,核心是行业应用词汇表的设计。在本指导性技术文件中,部分内容仅适用于Sche
5、ma或仅适用于DTD,将特别标出。未被特殊标出的部分两者都适合。另外为了查阅方便,本指导性技术文件的大部分条目标题直接采用了原则性陈述的形式。XML使用指南GBZ 2 1 025-20071范围本指导性技术文件给出了指导XML文档的编写的原则,包括标准的符合性原则,国际化和本地化原则,组件命名原则,命名空间使用原则,词汇表编写原则,类型、元素与属性的使用原则,版本与注释的使用原则,实例的编写原则,XMI。解析器及选择,应用开发过程和注册规程等内容。本指导性技术文件适用于XMl。的各类开发人员和使用人员。2规范性引用文件下列文件中的条款通过本指导性技术文件的引用而成为本指导性技术文件的条款。凡是
6、注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本指导性技术文件,然而,鼓励根据本指导性技术文件达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本指导性技术文件。GBT 19881 998信息技术信息交换用七位编码字符集(eqv 1SO 646:1991)GB 23121 980信息交换用汉字编码字符集基本集GBT 130001 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面(GBT 1300011993,idt 1S0IEC 106461:1993)GBT 14814 1993信息技术 文本和办公
7、系统 标准通用置标语言(-SGRMI)(idt ISO 8879:1986)GB 18030-2000信息技术 信息交换用汉字编码字符集 基本集的扩充GBT】839】(所有部分) 信息技术数据元的规范和标准化GBT 18793 2002信息技术 可扩展置标语言(XML)10(neq W3C RFC xml一19980210:1 998)3术语和定义GBT 18793-2002中确定的以及下列术语和定义适用于本指导性技术文件。31文档对象模型Document 0bject Model;DOMW3C制定的XMI。应用程序接口。它将XMI。文档表示成一个树形的结构。DOM规定了一系列编程指令,允许应
8、用程序多次访问并操作文档树的组件。32元数据metadata定义和描述其他数据的数据。33资源目录描述语盲Resource Directory Description Language;RDDL一种符合XHTMI格式的资源目录和描述,用于为用户提供目标资源的相关信息。34XHTMLW3C为HTMI制定的XMI。词汇表。GBZ 2 1 025-200735XML的简单API Sample API for XML;SAX为序列化存取XMI。文档信息所制定的一种接口。SAX处理器在处理XML文档的时候,随着遇见开、关标记和字符数据等内容,不断触发事件,调用应用程序(事件处理程序)处理,能够达到比较快
9、的速度和效率。36式样单stylesheet一套指令集合,主要用于规定XML文档显现格式,也可以将一个XMI文档转换成另一个文档。37XML组件XML componentXMI。元素、元素属性和XMI。词汇表的统称。38XML schemaSchema一种用于限定文档结构(如元素的顺序、出现次数、属性等)的机制,用于描述一类实例文档的结构。解析器可以根据schema来验证文档。本指导性技术文件中,用小写字母开头的schema统称这一概念,其中也包括DTD。用大写字母开头的Schema特指W3C制定的Schema标准(REcxmlschema一020010502 Part O2)。39XML命名
10、空间XML namespace为了解决命名冲突,为元素和属性命名引入的逻辑空间,是在XML文档中通过URI引用声明的,并采用限定性前缀将元素和属性与命名空间联系起来。3一10XML词汇表XML vocabulary在特定领域给特定用户群使用、有确定的功能的数据元集合以及数据模型,是表示一类文件的结构的schema的统称。311XML作品XML artifacts具有独立保存价值的各种XML数据,包括schema、式样单以及XMI实例文档等。312可扩展式样语言eXtensible Stylesheet Language;XSL由W3C组织制定的用于定义XMI,文档转换和显现的系列标准,包括:X
11、SLT、XPath、XSL FO三部分。313可扩展式样语言转换eXtensible Stylesheet Language Transformations;XSLT由W3C组织制定的用于转换XML文档的语言。314统一建模语言Unified Modeling Language;UML为创建商业和技术模型定义的一种语言和图形表示法,它定义了多种模型种类,涵盖了从功能需求定义、事务处理活动工作流模型到逻辑和物理层次等软件开发的各个方面。315上驼峰形式大小写Upper Camel Case;UCC把单词拼接在一起的一种方式,不使用含下划线“一”和句点“”等的连字符,每个单词的首字母大写,其余字母
12、均小写。在有大写缩写字母或数字的时候,后面的单词首字母小写。9GBZ 21025-2007例如:NameUsedInXMI。schema。316下驼峰形式大小写Lower Camel Case;LCCLCC与UCC的唯一区别是整个名称的首字母用小写,例如:attributeValue。317统建模方法Unified Modeling Methodology;UMMUNCEFACT为事务处理建模,支持下一代电子数据交换(Electronic Data Interchange,EDI)开发而推出的一套建议的方法。它基于Rational统一过程理论,使用UML作为建模语言。318Unicode由Un
13、icode协会(Unicode consotium)制定的通用字符。其主要目的是为纯文本内容提供一套无歧义的编码,以方便全球各种语言文字的转换。319统一资源定位符统一资源指示符统一资源名称 URL(Uniform Resource Locators)URI(Uni-form Resource Indicators)URN(Uniform Resource Names)网络环境下三种不同的,但又相关的引用资源的统一的方法。4标准的符合性原则所有XMI。文档的编制和所有的处理工具或处理器,包括解析器、文档生成器、验证工具,以及所有使用XMI的软件应符合GBT 18793 2002,同时也应该考虑
14、符合国际权威标准化组织订立的其他正式标准。对于标准未涉及到的,而应用中需要的对XMI。的扩充,原则上仅限于在组织内部使用,不宜公开传播,除非经过正式的审查和注册。5 国际化和本地化原则51 XML文档编码GBT 18793-2002规定,XML文档可以使用以下编码字符集:GB 18030 2000:GB 130001:GB 2312 1980:其他XMI。处理器支持的编码字符集。在GBT 18793 2002中,缺省字符集规定为GB 130001,亦称为通用字符集(Universal Character Set,UCS)。注:Unicode是由Unicode协会(Unicode Consotu
15、m)制定的通用字符集。其主要目的是为纯文本内容提供一套无歧义的编码,以方便全球各种语言文字的转换。在WaC的XMI,10中,大量使用了Unicode。其2004年发布的XMI,1 1中作了更新,使XMI。不再依赖于Unicode的特定版本。由于GBT 130001-1993与Unicode(20版本以上)是完全兼容的,本指南中除非特殊需要不涉及Unicode。在XMI,文档交换中经常用到UCS-4、ucS_2以及uTF一8、uTF 16等编码形式,简要介绍如下。UCS的双八位的BMP形式(ucS_2)规定每个字符用两个字节编码,这种形式仅适用于基本多语种平面。如“一”的双八位形式为4E00。U
16、CS的肆八位的正则形式(UCS一4)规定每个字符用四个字节编码,例如:汉字“一”的正则形式为0000 4E00。在UCS中,编码点在065535的字符归属第0平面,也称基本多语种平面(Basic MuhilingualPlane,BMP)。这个平面中包含大部分全世界正在使用的公用字符,包括来自罗马字母、西里尔字母、阿3GBZ 2 1 025-2007拉伯语、希腊语、希伯来语、常用汉字和其他语言的文字。编码点在65536131071的字符归属第1平面。这个平面包括音乐符号、数学符号和一些已经不再使用的语言(如古意大利语)的文字。编码点在131072196607的字符归属第2平面,收录了很多不常用
17、汉字。第14平面包含了一些语言标记,因为XMI。有xml:lang属性可用而完全不需理会这些标记。其他的平面至今都没有很好地定义。在实际使用中更多采用的是uTF 8和uTF一16。制定uTF 8的目的是为了与原8比特系统向下兼容;制定uTF一16的目的是为了向上发展和扩充。UTF一8(Unicode Transformation Format,8-bit encoding form)是一种变长编码。编码点为0127的每一个字符(GBT 1988 1998字符)占一个字节,编码点为1284095的每一个字符占据两个字节,第0平面的其他字符每一个占据3个字节,从第1至第15平面的每一个字符占据4个
18、字节。UTF一8有很多优点,列举如下:它是GBT 19881998的超集,因此对于纯英文的文本,一个uTF 8文件与GBT 19881998文件完全一样,非常利于兼容,因此XML把uTF一8选作缺省的编码形式。所有的GBT 19881998字符都不会成为其他字符编码的一部分,因此非常容易分辨GBT 1988 1998字符。uTF_8与字节顺序无关。在计算机系统中,大数值类型(如整型)使用多个字节表示,不同体系结构采用的字节排列顺序不同。其中,部分采用由高字节到低字节的排列顺序,称为bigendian;其他则采用由低字节到高字节的排列顺序,称little endian。对于大多数big endi
19、an的UNIX系统和littleendian的Windows系统对同一个文档uTF一8可以做到每个字符一一对应,因此,没有必要在XML文档开头放置字节顺序标记。从单一字节就可以判断字符边界。只观察单一字节,程序就可以判断该字节是下列哪种情形之一:单字节字符、双字节字符的第一个字节,三字节字符的第一、二、三字节。对于常见字符组成的文档,uTF一8占用空间最节省。uTF一1 6(Unicode Transformation Format,16 bit encoding form)也是一种变长编码。在UTF 16中,编码点为065535的字符使用单一的1 6位编码单元表示;而编码点为65536111
20、4111的字符使用一对1 6位编码单元表示(RCelement或surrogate pair)。UTF-16最大的好处是优化了基本多语种平面的字符表示,每个字符只需要2个字节,可作为定长编码来有效使用。对于大量使用中、日、韩文字的文本,其占用空间比UTF-8约节省13。然而比起uTF一8,UTF-16丧失了很多优点,最主要的是UTF一16是字节顺序相关的,为解决字节顺序问题,要在XML文档开头加一个字节顺序标志(#xFEFF)。如果程序读出的是FE和FF,则可以断定文档的编码是hig-endian uTF一16;如果读出的是FF和FE,则文档的编码是little endian uTF 16。由
21、于#xFEFF不是一个合法的GBT 13000字符,所以不会与其他内容混淆。uTF 16的另一个缺点是检测字符边界比较麻烦。除了uTF一8和uTF 16,GBT 130001还有uTF一32编码形式,与UCS一4一致。然而常用的只有UTF一8和UTFl 6。一般原则是,如果文档不含大量的中、日、韩文字,XML应该使用UTF 8作为缺省的编码,否则应该使用UTF一1 6。如果难以判断,仍可采用UTF 8。但是,除非特别必要,xML置标标记(包括元素名和属性名)应该尽量采用GBT 1 988 1998字符集,以适应当前很多工具对GB 130001和其他编码字符集支持不够完善的现况。尽量不要使用GB
22、 130001以外的字符集,如果确实必要应该考虑采用编码转换,将其他字符集编码映射到GB 130001再处理。注:在使用GBl3000的时候,应该遵照XMI,11标准的建议先将XMI。文本规格化。因为在GBl3000中,一些文本成分即可使用静态的预先组合好的形式,也可使用动态组合的形式。例如“”可以表达为单个字符“#xE9”,也可以表达为两个字符连用,即“#x65”和“#x301”。为了进行字符比较,需要进行规格化,即使用一种规范化的、单一的GBT13000文本形式来表示这些成分。Unicode定义了四种规范化形式:Normalization Form D(NFD),Normalization
23、 Form KD(NFKD),Normalization Form C(NFC)和Normalization Form KC(NFKC)。GBZ 21025-2007其中NFD和NFKD将可能的字符进行分解,而NFC和NFKC将可能的字符进行组合。XMLt1规定规范化的文本应该采用NFC的形式。52 URI字符集使用统一资源指示器(uRI)用于定位系统中的某项资源。统一资源定位器(URL)(较URI更为人所熟知)是URI的子集。XMI。通常使用URl指定链接中的资源,定义命名空间等。以往的URl基于GBT 1988 1 998的基本集,无法在URI中直接表示扩展字符,但可以通过转义机制来进行。
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 21025 2007 XML 使用指南
