DB13 T 2351 1-2016 标准文献结构化数据规范第1部分:全文元数据.pdf
《DB13 T 2351 1-2016 标准文献结构化数据规范第1部分:全文元数据.pdf》由会员分享,可在线阅读,更多相关《DB13 T 2351 1-2016 标准文献结构化数据规范第1部分:全文元数据.pdf(25页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 01.140.20 A 14 DB13 河 北 省 地 方 标 准 DB 13/T 2351.12016 标准文献结构化数据规范 第1部分:全文元数据 Structured data specifications of standard documents Part 1:Full-text Metadata 2016 - 05 - 23发布 2016 - 07 - 01实施 河北省质量技术监督局 发 布DB13/T 2351.12016 I 目 次 前言 II 引言 . III 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 全文元数据的属性 2 5 全文元数据模型 2
2、6 全文元数据描述 3 7 全文元数据字典描述 . 14 8 全文元数据扩展原则和方法 . 14 附录A(规范性附录) 标准文献全文结构化元数据代码集 . 15 附录B(规范性附录) 篇章条编号、表号和图号说明 . 16 附录C(资料性附录) 标准文献结构化全文元数据-字典描述 18 参考文献 22 DB13/T 2351.12016 II 前 言 本部分按照GB/T 1.1-2009给出的规则起草。 DB13/T 2351标准文献结构化数据规范包括了3部分: 第1部分:全文元数据; 第2部分:指标元数据; 第3部分:元数据著录规则。 本部分是第1部分,本部分与第3部分配套使用。 本部分由河北
3、省标准化研究院提出并归口。 本部分起草单位:河北省标准化研究院。 本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、郭天强、安姣。 DB13/T 2351.12016 III 引 言 标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过数据处理将非结构化文档转换为结构化或半结构化文
4、档方能解决上述问题。 为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此基础上,2013年又承担了国家标准化委员会标准化信息中心的“双打”重点产品标准文献结构化内容数据库项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规范要求,方能满足与原始标准文本内容的一致性的需求。 解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现; 解决第二个问题,需要建立数据的著录规则,实现数据的规范性。 项目组在确定文献结构化抽取技术的基
5、础上,对4000余项强制性国家标准的内容要素逐一进行了分析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据的规范要求,形成了标准文献结构化数据规范。 目前,在行业内广泛使用的GB/T 22373-2008标准文献元数据是针对标准文献题录的元数据标准,侧重的是标准文献形式特征,而此次制定的标准文献结构化数据规范是关于标准内容结构化的全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进标准文献信息资源的开发利用。 DB13/T
6、 2351.12016 1 标准文献结构化数据规范 第1部分:全文元数据 1 范围 本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、属性、模型、描述以及扩展原则和方法。 本部分适用于标准文献结构化数据的处理。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 74088 数据元和交换格式信息交换 日期和时间表示法(GB/T 7408-2005,ISO 8601:2000,IDT) GB/T 18391.3-2009 信息
7、技术 元数据注册系统(MDR) 第3部分:注册系统元模型与基本属性(ISO/IEC 11179-3:2003,IDT) GB/T 19710-2005 地理信息 元数据(ISO 19115-2003,MOD) GB/T 26816-2011 信息资源核心元数据 3 术语和定义 下列术语和定义适用于本部分。 3.1 信息资源 information resource 在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。 GB/T 26816-2011,定义3.1 3.2 元数据 metadata 定义和描述其他数据的数据。 GB/T 18391.3-2009,定义3.2.18 3.
8、3 元数据元素 metadata element 元数据的基本单元。 注:元数据元素在元数据实体中是唯一的。 GB/T 19710-2005,定义4.61 3.4 元数据实体 metadata entity 一组说明信息资源相关特性的元数据元素。 注:可以包含一个或一个以上元数据实体。 GB/T 19710-2005,定义4.71 3.5 核心元数据 core metadata DB13/T 2351.12016 2 描述信息资源基本属性的元数据元素和元数据实体。 GB/T 26816-2011,定义3.5 4 全文元数据的属性 4.1 中文名称 指元数据元素或元数据实体的中文名称,用本部分第
9、6章中各条的标题来表达。 4.2 英文名称 元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。 元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。 4.3 缩写名 应符合GB/T 26816-2011中4.6的要求。 4.4 定义 应符合GB/T 26816-2011中4.2的要求。 4.5 数据类型 应符合GB/T 26816-2011中4.4的要求。 4.6 值域 应符合GB/T 26816-2011中4.5的要求。 4.7 约束/条件 应符合GB/T 26816-2011中4.7的要求,约束/条件代码见附录A 表A.1。 4.8 最大出
10、现次数 应符合GB/T 26816-2011中4.8的要求。 5 全文元数据模型 标准文献结构化全文元数据模型见图1。 DB13/T 2351.12016 3 图1 全文元数据模型 6 全文元数据描述 6.1 全文元数据 中文名称: 全文元数据 英文名称: Full-text Metadata 缩写名: FulTxtMdata 定义: 描述结构化标准中全文数据的元数据。 数据类型: 复合型 约束/条件: M 最大出现次数: 1 6.2 标识符 中文名称: 标识符 英文名称: identifier 缩写名: ID DB13/T 2351.12016 4 定义: 名称空间中对象的唯一标识符。 数据
11、类型: 字符串 值域: UUID 约束/条件: M 最大出现次数: 1 6.3 全文 中文名称: 全文 英文名称: Full Text 缩写名: FulTxt 定义: 以篇章条形式描述的标准内容。 数据类型: 复合型 约束/条件: M 最大出现次数: 1 6.4 标准号 中文名称: 标准号 英文名称: document reference 缩写名: docRef 定义: 由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。 数据类型: 字符串 值域: 标准代号+1 个空格+顺序号+1 个连字符“-“+4 位发布年份 约束/条件: M
12、最大出现次数: 1 6.5 标准名称 中文名称: 标准名称 英文名称: document name in Chinese 缩写名: docNmCN 定义: 标准的中文名称 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.6 篇章条编号 中文名称: 篇章条编号 英文名称: chapter number 缩写名: chapNo 定义: 标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见附录 B.1.1)。 数据类型: 字符串 值域: 见附录 B.1.2 约束/条件: O 最大出现次数: 1 6.7 篇章条名称 中文名称: 篇章条名称 英文名称: chapte
13、r name DB13/T 2351.12016 5 缩写名: chapNm 定义: 标准中篇章条的标题名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.8 篇章条内容 中文名称: 篇章条内容 英文名称: Charpter Content 缩写名: ChapCont 定义: 标准中篇章条的段落内容。 数据类型: 复合型 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.9 篇章条类型 中文名称: 篇章条类型 英文名称: chapter type 缩写名: chapTyp 定义: 描述篇章条类别。 数据类型: 字符串 值域: 字典(篇章条类型代码见
14、附录 表 A.2)。 约束/条件: O 最大出现次数: N 6.10 篇章条所在页码 中文名称: 篇章条所在页码 英文名称: charpter page number 缩写名: chapPNo 定义: 同一标准篇章条首次出现所在的页码。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.11 篇章条父章节 中文名称: 篇章条父章节 英文名称: parent chapter number 缩写名: parChpNo 定义: 当前篇章条的上一级章节的编号。 数据类型: 字符串 值域: 条层级最多4层的篇章条编号 约束/条件: C 最大出现次数: 1 6.12 篇章条顺序
15、号 中文名称: 篇章条顺序号 DB13/T 2351.12016 6 英文名称: charpter order number 缩写名: chpOrdNo 定义: 篇章条的顺序号 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.13 文字 中文名称: 文字 英文名称: word 缩写名: wrd 定义: 以文字形式描述的标准内容。 数据类型: 自由文本 约束/条件: O 最大出现次数: 1 6.14 表格 中文名称: 表格 英文名称: Table 缩写名: Tab 定义: 以表格形式描述的标准内容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.15
16、 表号 中文名称: 表号 英文名称: table number 缩写名: tabNo 定义: 标准内容中表格按特定规则的顺序编号。(表号定义说明见附录 B.2.1)。 数据类型: 字符串 值域: 见附录 B.2.2 约束/条件: O 最大出现次数: 1 6.16 表名 中文名称: 表名 英文名称: table name 缩写名: tabNm 定义: 描述表格主题的名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.17 表格图像路径 中文名称: 表格图像路径 英文名称: table image path DB13/T 2351.12016 7 缩写名: ta
17、bImgPath 定义: 表格图像文件存储的路径。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.18 表注 中文名称: 表注 英文名称: table note 缩写名: tabNote 定义: 标准内容中表格的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.19 表格所在页码 中文名称: 表格所在页码 英文名称: table page number 缩写名: tabPNo 定义: 标准内容中同一表格首次出现所在页码。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.20 同一表格顺序号 中
18、文名称: 同一表格顺序号 英文名称: same table order number 缩写名: tabOrdNo 定义: 跨页表格图像文件的顺序号。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.21 表格HTML格式 中文名称: 表格HTML格式 英文名称: table HTML code 缩写名: tabHTML 定义: 用HTML描述的表格信息。 数据类型: 字符串 值域: 自由文本 约束/条件: C 最大出现次数: 1 6.22 图像 中文名称: 图像 DB13/T 2351.12016 8 英文名称: Image 缩写名: Img 定义: 以图形式描述
19、的标准内容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.23 图号 中文名称: 图号 英文名称: image number 缩写名: imgNo 定义: 标准内容中图像按特定规则的顺序编号。(图号定义说明见附录 B.3.1)。 数据类型: 字符串 值域: 见附录 B.3.2 约束/条件: O 最大出现次数: 1 6.24 图名 中文名称: 图名 英文名称: image name 缩写名: imgNm 定义: 描述图的主题的名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.25 图像路径 中文名称: 图像路径 英文名称: image pa
20、th 缩写名: imgPath 定义: 图像文件存储的路径。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.26 图注 中文名称: 图注 英文名称: image note 缩写名: imgNote 定义: 标准内容中图像的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.27 图像所在页码 中文名称: 图像所在页码 DB13/T 2351.12016 9 英文名称: image page number 缩写名: imgPNo 定义: 标准内容中同一图像首次出现的页码。 数据类型: 数值型 值域: 正整数 约束/条件: M
21、最大出现次数: 1 6.28 同一图像顺序号 中文名称: 同一图像顺序号 英文名称: same image order number 缩写名: imgOrdNo 定义: 同一图号的图像在不同页赋予的顺序编号。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.29 公式 中文名称: 公式 英文名称: Formula 缩写名: Fmla 定义: 以公式形式描述的标准内容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.30 公式名称 中文名称: 公式名称 英文名称: formula name 缩写名: fmlaNm 定义: 描述公式的主题的名称。 数据
22、类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.31 公式所在页码 中文名称: 公式所在页码 英文名称: formula page number 缩写名: fmlaPNo 定义: 标准内容中同一公式首次出现所在页码。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.32 公式图像路径 中文名称: 公式图像路径 DB13/T 2351.12016 10 英文名称: formula image path 缩写名: fmlaImgPath 定义: 公式图像文件存储的路径。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数:
23、 1 6.33 公式注 中文名称: 公式注 英文名称: formula note 缩写名: fmlaNote 定义: 公式的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.34 术语 中文名称: 术语 英文名称: Term 缩写名: Term 定义: 在本标准中需要规范的用词。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.35 术语中文名称 中文名称: 术语中文名称 英文名称: term name in Chinese 缩写名: termNmCN 定义: 术语的中文标题名。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出
24、现次数: 1 6.36 术语英文名称 中文名称: 术语英文名称 英文名称: term name in English 缩写名: termNmEN 定义: 术语的英文标题名。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.37 术语内容 中文名称: 术语内容 DB13/T 2351.12016 11 英文名称: term definition 缩写名: termDef 定义: 术语的定义内容。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.38 术语缩略语 中文名称: 术语缩略语 英文名称: term abbriviation
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB13T235112016 标准 文献 结构 数据 规范 部分 全文 PDF
