DB13 T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据.pdf
《DB13 T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据.pdf》由会员分享,可在线阅读,更多相关《DB13 T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据.pdf(28页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 01.140.20 A 14 DB13 河 北 省 地 方 标 准 DB 13/T 2351.12016 标准文献结构化数据规范 第1部分:全文元数据 Structured data specifications of standard documents Part 1:Full-text Metadata 2016 - 05 - 23发布 2016 - 07 - 01实施 河北省质量技术监督局 发 布 DB13/T 2351.12016 I 目 次 前言 . II 引言 . III 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 全文元数据的属性 . 2 5
2、 全文元数据模型 . 2 6 全文元数据描述 . 3 7 全文元数据字典描述 . 14 8 全文元数据扩展原则和方法 . 14 附录A(规范性附录) 标准文献全文结构化元数据代码集 . 15 附录B(规范性附录) 篇章条编号、表号和图号说明 . 16 附录C(资料性附录) 标准文献结构化全文元数据-字典描述 . 18 参考文献 . 22 DB13/T 2351.12016 II 前 言 本部分按照GB/T 1.1-2009给出的规则起草。 DB13/T 2351标准文献结构化数据规范包括了3部分: 第1部分:全文元数据; 第2部分:指标元数据; 第3部分:元数据著录规则。 本部分是第1部分,本
3、部分与第3部分配套使用。 本部分由河北省标准化研究院提出并归口。 本部分起草单位:河北省标准化研究院。 本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、 郭天强、安姣。 DB13/T 2351.12016 III 引 言 标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定 位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献 电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元 存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过
4、数据处理将非结构化文档转换为结构化 或半结构化文档方能解决上述问题。 为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此 基础上,2013年又承担了国家标准化委员会标准化信息中心的“双打”重点产品标准文献结构化内容 数据库项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言 之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规 范要求,方能满足与原始标准文本内容的一致性的需求。 解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现; 解决第二个问题,需要建立数据的著录规则
5、,实现数据的规范性。 项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分 析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准 进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据 的规范要求,形成了标准文献结构化数据规范。 目前,在行业内广泛使用的GB/T 22373-2008标准文献元数据是针对标准文献题录的元数据标 准,侧重的是标准文献形式特征,而此次制定的标准文献结构化数据规范是关于标准内容结构化的 全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献
6、信息资源的统一描述,促进 标准文献信息资源的开发利用。 DB13/T 2351.12016 1 标准文献结构化数据规范 第1部分:全文元数据 1 范围 本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、 属性、模型、描述以及扩展原则和方法。 本部分适用于标准文献结构化数据的处理。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 74088 数据元和交换格式信息交换 日期和时间表示法(GB/T 7408-2005,ISO
7、 8601:2000,IDT) GB/T 18391.3-2009 信息技术 元数据注册系统(MDR) 第3部分:注册系统元模型与基本属性 (ISO/IEC 11179-3:2003,IDT) GB/T 19710-2005 地理信息 元数据(ISO 19115-2003,MOD) GB/T 26816-2011 信息资源核心元数据 3 术语和定义 下列术语和定义适用于本部分。 3.1 信息资源 information resource 在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。 GB/T 26816-2011,定义3.1 3.2 元数据 metadata 定义和描述其
8、他数据的数据。 GB/T 18391.3-2009,定义3.2.18 3.3 元数据元素 metadata element 元数据的基本单元。 注:元数据元素在元数据实体中是唯一的。 GB/T 19710-2005,定义4.61 3.4 DB13/T 2351.12016 2 元数据实体 metadata entity 一组说明信息资源相关特性的元数据元素。 注:可以包含一个或一个以上元数据实体。 GB/T 19710-2005,定义4.71 3.5 核心元数据 core metadata 描述信息资源基本属性的元数据元素和元数据实体。 GB/T 26816-2011,定义3.5 4 全文元数
9、据的属性 4.1 中文名称 指元数据元素或元数据实体的中文名称,用本部分第6章中各条的标题来表达。 4.2 英文名称 元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。 元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。 4.3 缩写名 应符合GB/T 26816-2011中4.6的要求。 4.4 定义 应符合GB/T 26816-2011中4.2的要求。 4.5 数据类型 应符合GB/T 26816-2011中4.4的要求。 4.6 值域 应符合GB/T 26816-2011中4.5的要求。 4.7 约束/条件 应符合GB/T 26816-
10、2011中4.7的要求,约束/条件代码见附录A 表A.1。 4.8 最大出现次数 应符合GB/T 26816-2011中4.8的要求。 5 全文元数据模型 标准文献结构化全文元数据模型见图1。 DB13/T 2351.12016 3 图1 全文元数据模型 6 全文元数据描述 6.1 全文元数据 中文名称: 全文元数据 英文名称: Full-text Metadata 缩写名: FulTxtMdata 定义: 描述结构化标准中全文数据的元数据。 数据类型: 复合型 约束/条件: M 最大出现次数: 1 6.2 标识符 DB13/T 2351.12016 4 中文名称: 标识符 英文名称: ide
11、ntifier 缩写名: ID 定义: 名称空间中对象的唯一标识符。 数据类型: 字符串 值域: UUID 约束/条件: M 最大出现次数: 1 6.3 全文 中文名称: 全文 英文名称: Full Text 缩写名: FulTxt 定义: 以篇章条形式描述的标准内容。 数据类型: 复合型 约束/条件: M 最大出现次数: 1 6.4 标准号 中文名称: 标准号 英文名称: document reference 缩写名: docRef 定义: 由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号 由标准代号、顺序号、发布年份及有关标识符组成。 数据类型: 字符串 值域: 标准代号
12、+1 个空格+顺序号+1 个连字符-+4 位发布年份 约束/条件: M 最大出现次数: 1 6.5 标准名称 中文名称: 标准名称 英文名称: document name in Chinese 缩写名: docNmCN 定义: 标准的中文名称 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.6 篇章条编号 中文名称: 篇章条编号 英文名称: chapter number 缩写名: chapNo DB13/T 2351.12016 5 定义: 标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见附录 B.1.1)。 数据类型: 字符串 值域: 见附录 B.1
13、.2 约束/条件: O 最大出现次数: 1 6.7 篇章条名称 中文名称: 篇章条名称 英文名称: chapter name 缩写名: chapNm 定义: 标准中篇章条的标题名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.8 篇章条内容 中文名称: 篇章条内容 英文名称: Charpter Content 缩写名: ChapCont 定义: 标准中篇章条的段落内容。 数据类型: 复合型 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.9 篇章条类型 中文名称: 篇章条类型 英文名称: chapter type 缩写名: chapTyp 定义
14、: 描述篇章条类别。 数据类型: 字符串 值域: 字典(篇章条类型代码见附录 表 A.2)。 约束/条件: O 最大出现次数: N 6.10 篇章条所在页码 中文名称: 篇章条所在页码 英文名称: charpter page number 缩写名: chapPNo 定义: 同一标准篇章条首次出现所在的页码。 数据类型: 数值型 值域: 正整数 DB13/T 2351.12016 6 约束/条件: M 最大出现次数: 1 6.11 篇章条父章节 中文名称: 篇章条父章节 英文名称: parent chapter number 缩写名: parChpNo 定义: 当前篇章条的上一级章节的编号。 数
15、据类型: 字符串 值域: 条层级最多4层的篇章条编号 约束/条件: C 最大出现次数: 1 6.12 篇章条顺序号 中文名称: 篇章条顺序号 英文名称: charpter order number 缩写名: chpOrdNo 定义: 篇章条的顺序号 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.13 文字 中文名称: 文字 英文名称: word 缩写名: wrd 定义: 以文字形式描述的标准内容。 数据类型: 自由文本 约束/条件: O 最大出现次数: 1 6.14 表格 中文名称: 表格 英文名称: Table 缩写名: Tab 定义: 以表格形式描述的标准内
16、容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.15 表号 中文名称: 表号 DB13/T 2351.12016 7 英文名称: table number 缩写名: tabNo 定义: 标准内容中表格按特定规则的顺序编号。(表号定义说明见附录 B.2.1)。 数据类型: 字符串 值域: 见附录 B.2.2 约束/条件: O 最大出现次数: 1 6.16 表名 中文名称: 表名 英文名称: table name 缩写名: tabNm 定义: 描述表格主题的名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.17 表格图像路径 中文名称: 表
17、格图像路径 英文名称: table image path 缩写名: tabImgPath 定义: 表格图像文件存储的路径。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.18 表注 中文名称: 表注 英文名称: table note 缩写名: tabNote 定义: 标准内容中表格的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.19 表格所在页码 中文名称: 表格所在页码 英文名称: table page number 缩写名: tabPNo 定义: 标准内容中同一表格首次出现所在页码。 DB13/T 2351.120
18、16 8 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.20 同一表格顺序号 中文名称: 同一表格顺序号 英文名称: same table order number 缩写名: tabOrdNo 定义: 跨页表格图像文件的顺序号。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.21 表格HTML格式 中文名称: 表格HTML格式 英文名称: table HTML code 缩写名: tabHTML 定义: 用HTML描述的表格信息。 数据类型: 字符串 值域: 自由文本 约束/条件: C 最大出现次数: 1 6.22 图像 中文名称
19、: 图像 英文名称: Image 缩写名: Img 定义: 以图形式描述的标准内容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.23 图号 中文名称: 图号 英文名称: image number 缩写名: imgNo 定义: 标准内容中图像按特定规则的顺序编号。(图号定义说明见附录 B.3.1)。 数据类型: 字符串 值域: 见附录 B.3.2 约束/条件: O 最大出现次数: 1 DB13/T 2351.12016 9 6.24 图名 中文名称: 图名 英文名称: image name 缩写名: imgNm 定义: 描述图的主题的名称。 数据类型: 字符串 值域: 自由文
20、本 约束/条件: M 最大出现次数: 1 6.25 图像路径 中文名称: 图像路径 英文名称: image path 缩写名: imgPath 定义: 图像文件存储的路径。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.26 图注 中文名称: 图注 英文名称: image note 缩写名: imgNote 定义: 标准内容中图像的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.27 图像所在页码 中文名称: 图像所在页码 英文名称: image page number 缩写名: imgPNo 定义: 标准内容中同一图像
21、首次出现的页码。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.28 同一图像顺序号 中文名称: 同一图像顺序号 DB13/T 2351.12016 10 英文名称: same image order number 缩写名: imgOrdNo 定义: 同一图号的图像在不同页赋予的顺序编号。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.29 公式 中文名称: 公式 英文名称: Formula 缩写名: Fmla 定义: 以公式形式描述的标准内容。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.30 公式名称 中文名
22、称: 公式名称 英文名称: formula name 缩写名: fmlaNm 定义: 描述公式的主题的名称。 数据类型: 字符串 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.31 公式所在页码 中文名称: 公式所在页码 英文名称: formula page number 缩写名: fmlaPNo 定义: 标准内容中同一公式首次出现所在页码。 数据类型: 数值型 值域: 正整数 约束/条件: M 最大出现次数: 1 6.32 公式图像路径 中文名称: 公式图像路径 英文名称: formula image path 缩写名: fmlaImgPath 定义: 公式图像文件存储的路径。
23、 数据类型: 字符串 DB13/T 2351.12016 11 值域: 自由文本 约束/条件: M 最大出现次数: 1 6.33 公式注 中文名称: 公式注 英文名称: formula note 缩写名: fmlaNote 定义: 公式的注释。 数据类型: 字符串 值域: 自由文本 约束/条件: O 最大出现次数: 1 6.34 术语 中文名称: 术语 英文名称: Term 缩写名: Term 定义: 在本标准中需要规范的用词。 数据类型: 复合型 约束/条件: O 最大出现次数: N 6.35 术语中文名称 中文名称: 术语中文名称 英文名称: term name in Chinese 缩写
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB13 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据 2351.1 2016 标准 文献 结构 数据 规范 部分 全文
