GB T 18793-2002 信息技术 可扩展置标语言(XML)1.0.pdf
《GB T 18793-2002 信息技术 可扩展置标语言(XML)1.0.pdf》由会员分享,可在线阅读,更多相关《GB T 18793-2002 信息技术 可扩展置标语言(XML)1.0.pdf(37页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240.30 L 74 GB 中华人民共和国国家标准GB/T 18793-2002 信息技术可扩展量标语言(XML)1.0Information technology-Extensible Markup Language (XML) 1. 0 2002 - 07 -18发布2002 -12 -01实施中华人民共和国发布国家质量监督检验检瘦总局GB/T 18793-2002 目次前言.DI 引言.N I范围2引用标准.3定义.2 4文件.3 5逻辑结构.6物理结构.16 7一致性.23 8记法249中文处理.25 附录A(标准的附录)字符类别.27 附录B(提示的附录)XML和SG
2、ML m 附录以提示的附录)实体引用和宇符引用的展开.29 附录D(提示的附录)确定性内容模型.30 附录E(提示的附录)字符编码的自动检测GB/T 18793-2002 前本标准非等效采用W3C(WorldWide Web Consortium)RFC-xml-19980210(可扩展置标语言(XML)1. 0)。同时参考了截至2000年7月W3C对RFC-xml-19980210的勘误(XML1. 0 Specification Errata ,JR. http:/www . w3. org/XML/xml-19980210-errata)。在充分吸收、尊重RFC-xml-19980210
3、的基础上,以基于巳颁布的国家标准的内容替换了部分国际标准的内容,增加了中文处理的内容。本标准的附录A是标准的附录,附录B、附录C、附录D和附录E是提示的附录。本标准由中华人民共和国信息产业部提出。本标准由信息产业部电子工业标准化研究所归口。本标准起草单位:北京信息工程学院、信息产业部电子技术标准化研究所。本标准主要起草人:李宁、王凌、高健。E GB/T 18793-2002 寻l本标准完整地描述了可扩展置标语言CExtensiblemarkup language ,XML),它是标准通用置标语言CStandardgeneric markup language ,SGML)的一个子集。其目的在于
4、使得在Web上能以现有超文本置标语言CHypertextmarkup language ,HTML)的使用方式提供、接收和处理通用的SGML成为可能。XML的设计既考虑了实现的方便性,同时也顾及了与SGML和HTML的互操作性。XML描述了一类称为XML文件的数据对象,同时也部分地描述了处理这些数据对象的计算机程序的行为。XML是一个SGML的具体应用或受限形式。从构造来看.XML文件是合乎规范的SGML文件。XML文件由称为实体的存储单元组成,实体中包含分析的或不分析的数据。分析的数据由宇符组成,其中某些字符形成字符数据,还有一些字符形成置标。置标对文件存储总体布局和逻辑结构的描述进行编码。
5、XML提供了一种机制,对文件的存储布局和逻辑结构加以约束。一个称为XML处理器的软件模块用来读入XML文件,存取其中的内容和结构。这里假定XML处理器代表另外一个称为应用程序的模块进行工作。本标准描述了XML处理器应有的行为:即它必须怎样读入XML数据,以及它必须提供给应用程序什么信息。N 中华人民共和国国家标准信息技术可扩展置标语言(XML)1.0GB/T 187932002 Information technology Extensible Markup Language (XML) 1.。1 范围本标准完整地描述了可扩展置标语言(XML)oXML是SGML的一个子集。XML的设计目的如下
6、:a) XML应在因特网上直接使用;b) XML支持的应用应十分广泛;c) XML应与SGML兼容;d)应易于编写处理XML文件的程序;e) XML中可选特性的数目应降至最低,最好没有;f) XML文件应是可读的并适度清晰为宜;g)应能快速进行XML设计;h) XML的设计应是形式化的和简明的;i) XML文件应易于创建;j) XML置标的简洁性的重要程度最低。2 引用标准下列标准中的条文,通过在本标准中引用而成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。GB/T 19881998 信息技术信息交换用七位编码字符集(e
7、qvIS0 646: 1991) GB/T 2311 2000 信息处理字符代码结构与扩充技术(idtIS0/IEC 2022: 1994) GB 23121980 信息交换用汉字编码字符集基本集GB/T 26592000 世界各国和地区名称代码(eqvIS0 3166-1: 1997) GB/T 48801991 语种名称代码CeqvIS0 639 :1 988) GB 13000. 1 1993 信息技术通用多八位编码字符集(UCS)第部分:体系结构与基本多文种平面(idtIS0/IEC 10646-1:1993) GB/T 148141993 信息技术文本和办公系统标准通用置标语言CSG
8、ML)(idt 1S0 8879: GB/T 15273. 11994信息技术八位单字节编码图形字符集第1部分:拉丁字母一(idt1S0 8859-1:1987) GB/T 15273.2一1995信息技术八位单字节编码图形字符集第2部分:拉丁字母二(idtIS0 8859-2: 1987) GB/T 169651997 信息技术超媒体/时基结构化语言CHyTime)Cidt IS0 /IEC 10744: 1992) GB 180302000 信息技术信息交换用汉字编码字符集基本集的扩充中华人民共和国国家质量监督检验检擅总局2002- 07 -18批准2002 -12 -01实施G/T 18
9、793-2002 ISO 8859-9: 1999 信息技术八位单字节编码图形字符集第九部分:拉丁字母五IAN A -CHARSETS 字符集的正式名称IANA-LANGCODES 语种标记注册IETF RFC 1766: 1995 IETF (In ternet Engineering Task F orce) IETF RFC 2141: 1997 URN句法IETF RFC 2279: 1998 UTF息,GB13000的一种转换格式IETF RFC 2376:1998 XML媒体类型IETF RFC 2396:1998 统一资源标识符(URI):通用语法IETF RFC 2732: 1
10、999 URL表示的IPv6地址字面格式IETF RFC 2781:2000 UTF-16 ,GB 13000的一种编码3 定义用于描述XML文件的术语在标准的正文中定义。下列术语用来构造这些定义,并描述XML处理器的动作:3. 1 错误error 对本标准中的某一规则的冲突,其结果未作定义。符合标准的软件可检测并报告错误,并可以排除错误。3. 2 致命错误fatal error 必须由一个符合标准的XML处理器检测出来并向应用程序报告的一类错误。该处理器遇到致命错误后,可以继续处理数据以便进一步查出更多的错误,并可向应用程序报告这些错误。为了支持对错误的更正,该处理器可以向应用程序提供(字符
11、数据和置标混用的)文件中尚未处理的数据。然而,当检测到致命错误后,该处理器不得继续进行正常的处理(即,它不得按正常方式继续向应用程序传送字符数据和有关文件逻辑结构的信息)。3. 3 由(如)用户选择at user option 符合标准的软件行为可以或必须(取决于句中的能愿动词)与所描述的相同;如果确实如此,该软件必须提供一种手段使得用户能够启用或禁用所描述的行为。3.4 有效性约束validity constraint 适用于所有有效的XML文件的一条规则。与有效性约束相冲突属于错误;如用户选择,XML有效性验证型处理器必须报告这些错误。3. 5 格式良好的约束well-formedness
12、 constraint 适用于所有格式良好的XML文件的一条规则。与格式良好的约束相冲突属于致命错误。3.6 匹配(相同)match(对于字符串或名字)进行比较的两个字符串或两个名字必须完全相同。对于那些在GB13000中可能有多种表示形式的字符(如,同时具有预制形式和基本字形加变音符号形式的字符),仅当它们在两个字符串中具有相同的表示时才匹配。西文字符元大小写转换。3. 7 匹配(属于)matchC对于语法中的字符串和规则)如果一个字符串属于一个语法产生式产生的语言,则该字符串与该语法产生式相匹配。3. 8 匹配match(对于内容和内容模型)当一个元素符合元素有效约束中的描述时,该元素与它
13、的声明匹配。3.9 为了兼容for compatibility 注明描述仅用来确保XML与SGML兼容的一种XML的特性的修饰语。3.10 为了互操作for interoperability 注明描述一个不具约束性的XML建议的修饰语。目的是加大目前安装的SGML处理器处理2 GB/T 18793-2002 XML文件的机会,而这些SGML处理器的出现先于GB/T14814附录中的WebSGML改编本。4 文件按本标准的定义,一个数据对象若是格式良好的,则它是一个XML文件。一个格式良好的XML文件若满足更强的约束,则可进一步成为有效的。XML文件具有逻辑和物理两种结构。物理上,文件由称为实体
14、的单元组成。实体可以引用其他实体,将它们包含在文件中。一个文件开始于根或文件实体。逻辑上,文件由声明、元素、注释、字符引用和处理指令组成,所有这些都在文件中用显式置标指出。文件的逻辑结构和物理结构必须按6.3.2格式良好的被分析实体中的描述正确嵌套。4.1 格式良好的XML文件如果一个文本对象满足下列条件,则是个格式良好的XML文件:a)整体上与标有document的产生式匹配;b)满足本标准中格式良好的所有约束;c)文件中直接或间接引用的每个分析的实体都是格式良好的。文件川1Jdocument : - prolog element Misc养与document产生式相匹配是指:a)它包含一个
15、或多个元素;b)只有一个元素称为根或文件元素,该元素的任何部分都不出现在其他元素的内容中。而对所有其它元素,若开始标记出现在另一个元素的内容中,则结束标记也要出现在该元素的内容中。简单地说,由开始和结束标记定界的各个元素之间互相正确地嵌套。结果是,对文件中的每个非根元素C,在文件中都有另一元素p.使C在P的内容中,但不在P的内容中的任何其他元素的内容中。P称为C的父亲,而C为P的孩子。4.2 字符个分析的实体由正文,即一个字符序列组成,字符序列可以表示置标或字符数据。字符依GB 13000规定是正文的最小单位,合法的字符包括制表符、回车符、换行符以及GB13000中的合法图形字符。由于将来可能
16、会通过修正将新字符加入到这两个标准中去,XML处理器必须接受产生式Char所规定的范围内的任何字符。由用户选择,XML处理器可以检查文件中的数据字符是否为GB13000 特定版本中的合法字符。不鼓励使用GB13000中定义的兼容性字符。字符泡围2J Char := :t:t: x9 ! :t:t: xA I :t:t: xD I :t:t: x20- :t:t: xD7FFJ I :t:t: xEOOO- :t:t: xFFFDJ I :t:t: x10000- :t:t: x10FFFFJ /头除替代块、FFFE和FFFF之外的任何GB13000字符。关/将字符代码位编码成位模型的机制可能依
17、实体的不同而有所不同。所有XML处理器都必须支持GB 13000中的UTF-8及UTF-16编码;指出两种编码究竟哪一个正在使用的机制,以及引人其他编码的机制,将在后面的6.3.3实体中的字符编码中讨论。4.3 公用语法构造本条定义了语法中广泛使用的一些符号。S(空白)由一个或多个空格(:t:t:x20)、回车、换行或制表符组成。3 GB/T 18793-2002 |空白|3J S := (:t+ x20 I :t+ x9 I :t+ xD I :t+ xA)+ 为方便起见,把字符分为字母、数字或其他宇符。字母由字母表中的一个字母、一个音节基字符或一个表意字符组成。各类特定字符的完整定义见附录
18、A字符类别。名字是一个记号,以字母或某个标点符号字符开始,后跟若干字母、数字、连字符、下划线符、冒号或句号等,统称为名字字符。以字符串xml开始的名字,或以与(XI x) (M 1 m) (L 1汀,)相匹配的任意字符串开始的名字,都作为本标准当前或未来版本的保留字。注:保留XML名字内的冒号字符,供命名空间(namespace)试验用。它的含义有待日后标准化,那时,使用了冒号的用于试验文件可能需要更新。(并不保证XML采用的任何命名空间机制实际上都会用冒号来做命名空间的定界符。)实际上,这意味着作者在XML名字中不应使用冒号,除非用于命名空间试验,但XML处理器应接受冒号作为名字字符。Nmt
19、okenC名字记号)是名字字符的任意混合体。名字和记号4J NameChar : = Letter I Digit I . I , I气,I : 1 CombiningChar I Extender 5J Name : = CLetter尸,I :) CNameChar)头6J Names : = Name C :t+ x20 Name)祷7J Nmtoken : = (NameChar) + 8J Nmtokens : = Nmtoken (:t+ x20 Nmtoken)头字面数据是放在引号内的任何字符串,不包括用作该字符串定界符的引号。字面数据用来规定内部实体的内容CEntityValu
20、e)、属性值CAttValue)以及外部标识符(SystemLiteral)。注意,可以对SystemLiteral进行分析而无需置标扫描。字面数据9J EntityValue :- ( %&.J I PEReference 1 Reference)关I? ( % &. J 1 PEReference I Reference)兴口OJAttValue :- C ),本标准强烈建议不要这样做,因为对该实体的任何引用都会导致一个格式良好方面的错误。4.4 字符数据和置标正文由字符数据和置标混合组成。置标的形式有:开始标记、结束标记、空元素标记、实体引用、字符引用、注释、CDATA节定界符、文件类型
21、声明、处理指令、XML声明、文本声明以及文件实体顶层的空白(即不在文件元素和其他置标之内的空白)除置标外的所有正文构成文件的字符数据。字符&4和可用&.gt;表示,而当它在内容中的字符串J丁中出现,但此字符串不表示一个CDATA段的结束时,出于兼容性考虑,必须用&.gt;或一个字符引用转义得到。4 GB/T 187932002 在各元素内容中,字符数据是不含置标起始定界符的任何字符串。在CDATA节中,字符数据是不含CDATA节结束定界符JJ的任何字符串。为使属性值既能包含单引号又能包含双引号,撇号可表示为&apos户,双引号字符可表示为"。宇符数据14J CharData : =
22、仁注释举例:!&. 注意,本语法不允许注释以-结束。下面的例子不是格式良好的:| Char头)? 17J PITarget : = Name- (x I x) (M I m) (L I l ) PI不属于文件的字符数据,但必须传递给应用程序。PI以目标(PITarget)作为开始,该目标用来标识指令所指向的应用程序。在本标准的当前或今后版本中,目标名XML、xml等均作为标准保留字。XML的记法机制可以用做PI目标的形式化声明。在处理指令中不识别参数实体引用。4.7 CDATA节CDATA节可以出现在字符数据可能出现的任何地方;用于将含有可能会被识别成置标的字符的正文块做转义处理。CDATA节
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 18793 2002 信息技术 扩展 标语 XML 1.0
