DB13 T 2351 3-2016 标准文献结构化数据规范第3部分:元数据著录规则.pdf
《DB13 T 2351 3-2016 标准文献结构化数据规范第3部分:元数据著录规则.pdf》由会员分享,可在线阅读,更多相关《DB13 T 2351 3-2016 标准文献结构化数据规范第3部分:元数据著录规则.pdf(30页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 01.140.20 A 14 DB13 河 北 省 地 方 标 准 DB 13/T 2351.32016 标准文献结构化数据规范 第3部分:元数据著录规则 Structured data specifications of standard documents Part 3:Descriptive rules of metadata 2016 - 05 - 23发布 2016 - 07 - 01实施 河北省质量技术监督局 发 布DB13/T 2351.32016 I 前 言 本部分按照GB/T 1.1-2009给出的规则起草。 DB13/T DB13/T 2351标准文献结构化数据规范
2、包括了3部分: 第1部分:全文元数据; 第2部分:指标元数据; 第3部分:元数据著录规则。 本部分是第3部分,本部分与第1、2部分配套使用。 本部分由河北省服务业标准化技术委员会提出并归口。 本部分起草单位:河北省标准化研究院。 本部分主要起草人:卢艳芳、施健、马星晓、谢燕、闫志强、张园园、陈南、李建勋、赵倩、安姣、郭天强、李朴。 DB13/T 2351.32016 II 引 言 标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献电子文档为非结构化文档,这一特
3、性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元存储无法实现小颗粒度的指标数据的检索、比对分析。只有通过数据处理将非结构化文档转换为结构化或半结构化文档方能解决上述问题。 为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此基础上,2013年又承担了国家标准化委员会标准化信息中心的“双打”重点产品标准文献结构化内容数据库项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言之,标准结构化加工抽取出的数据是哪些数据?2)抽取出来的数据进行加工应符合什么样的数据规范要求,方能满足与原始标准文本内容的一致性的需求。 解决
4、第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现; 解决第二个问题,需要建立数据的著录规则,实现数据的规范性。 项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据的规范要求,形成了标准文献结构化数据规范。 目前,在行业内广泛使用的GB/T 22373-2008标准文献元数据是针对标准文献题录的元数据标准,侧重的是标准文献形式特征,而此次制定的标准文献结构化数
5、据规范是关于标准内容结构化的全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进标准文献信息资源的开发利用。 DB13/T 2351.32016 1 标准文献结构化数据规范 第3部分:元数据著录规则 1 范围 本部分规定了标准文献结构化全文(全文、术语、图像、表格、公式)、指标元数据加工的术语和定义、著录项目、著录总则和著录细则等内容。 本部分适用于标准文献结构化数据的处理。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB
6、/T 1.1 标准化工作导则 第1部分:标准的结构和编写 GB/T 7408 数据元和交换格式信息交换 日期和时间表示法(GB/T 7408-2005,ISO 8601:2000,IDT) GB 18030 信息技术 中文编码字符集 GB/T 22373-2008 标准文献元数据 DB13/T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据 DB13/T 2351.2-2016 标准文献结构化数据规范 第2部分:指标元数据 汉语分类主题词表 中国科学技术信息研究所与北京图书馆主编(1980年) 3 术语和定义 下列术语和定义适用于本文件。 3.1 著录descriptio
7、n 对文献的内容和形式特征进行分析、选择和记录的过程。 GB/T 22373-2008,定义 第3.10 3.2 著录项目 elements 用以揭示标准文献形式特征和内容特征的记录事项。 3.3 核心元数据 core metadata 描述信息资源基本属性的元数据元素和元数据实体。 GB/T 26816-2011,定义3.5 4 著录项目和核心元数据 DB13/T 2351.32016 2 4.1 全文元数据著录项目和核心元数据 全文元数据著录项目和核心元数据见表1。 表1 全文元数据著录项目、定义和核心元数据 序号 著录项目 定义 核心元数据 0 标识符 名称空间中对象的唯一标识符。 *
8、1 标准号 由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。 * 2 标准名称 标准的中文名称 * 3 篇章条编号 标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见DB13/T 2351.1-2015中的附录 B.1.1)。 * 4 篇章条名称 标准中篇章条的标题名称。 * 5 篇章条内容 标准中篇章条的段落内容。 * 6 篇章条类型 描述篇章条类别。 7 篇章条所在页码 同一标准篇章条首次出现所在的页码。 8 篇章条父章节 当前篇章条的上一级章节的编号。 9 篇章条顺序号 篇章条顺序号。 10 文字 以文字形式描述的标
9、准内容。 * 11 表号 标准内容中表格按特定规则的顺序编号。(表号定义说明见DB13/T 2351.1-2015中的附录 B.2.1)。 * 12 表名 描述表格主题的名称。 * 13 表格图像路径 表格图像文件存储的路径。 * 14 表注 标准内容中表格的注释。 * 15 表格所在页码 标准内容中同一表格首次出现所在页码。 16 同一表格顺序号 跨页表格图像文件的顺序号。 17 表格HTML格式 用HTML描述的表格信息。 18 图号 标准内容中图像按特定规则的顺序编号。(图号定义说明见附录 B.3.1)。 * 19 图名 描述图的主题的名称。 * 20 图像路径 图像文件存储的路径。 *
10、 21 图注 标准内容中图像的注释。 * 22 图像所在页码 标准内容中同一图像首次出现的页码。 23 同一图像顺序号 同一图号的图像在不同页赋予的顺序编号。 24 术语中文名称 术语的中文标题名。 * 25 术语英文名称 术语的英文标题名。 * 26 术语内容 术语的定义内容。 * DB13/T 2351.32016 3 表1全文元数据著录项目、定义和核心元数据(续) 序号 著录项目 定义 核心元数据 27 术语缩略语 为了使用方便,使术语称谓中的成分进行有规律的节缩或者省略形成的词。 28 术语同义词 表达意义相同或相近,但是表达形式不同的词汇。 29 术语禁用词 禁止使用的术语。 30
11、术语注 术语条款的注释。 31 术语所在页码 标准内容中该术语首次出现所在页码。 32 公式名称 描述公式的主题的名称。 * 33 公式图像路径 公式图像文件存储的路径。 * 34 公式注 公式的注释。 * 35 公式所在页码 标准内容中同一公式首次出现所在页码。 36 更新时间 描述全文数据修改更新的时间。 * 37 记录状态 关于标准文献全文元数据库中记录所处的状态(修改、删除、新增)的说明。 * 38 版本 描述全文数据更新的版本编号。 * 39 加工单位 描述全文数据加工单位的信息。 注:标星号“*”的数据项为核心元数据。 4.2 技术指标元数据著录项目和核心元数据 技术指标元数据著录
12、项目和核心元数据见表2。 表2 技术指标元数据著录项目和核心元数据 序号 著录项目 定义 核心元数据 0 标识符 名称空间中对象的唯一标识符。 * 1 标准号 由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。 * 2 标准名称 标准的中文名称。 * 3 标准对象 描述一个实体的标准化活动的作用对象。 * 4 指标对象 描述一个实体的质量特征的作用对象。 * 5 指标对象属性名称 描述指标对象的特性、特征的名称。如:形状、颜色、气味、优劣、用途等都是指标对象的性质。 * 6 指标对象属性值 描述指标对象属性的内容。 * 7 指标对象
13、属性类型 描述指标对象的类别。 8 指标影响因素名称 对指标数据产生有一定约束关系的因素名称。如:环境因素、测试方法、工具、工艺、作用对象等。 * 9 指标影响因素值 指标影响因素的具体内容描述。 * DB13/T 2351.32016 4 表2 技术指标元数据著录项目和核心元数据(续) 序号 著录项目 定义 核心元数据 10 指标影响因素类型 描述指标影响因素的类别。 11 指标名称 描述实体质量特征属性的技术要求名称。 * 12 指标内容 某项技术要求的具体内容描述。 * 13 计量单位 技术要求的量值单位。 14 指标注 指标的注释。 * 15 表注 标准内容中表格的注释。 16 试验方
14、法 验证指标的试验方法的一组信息。 * 17 指标组ID 一组指标数据的唯一识别符。 18 篇章条编号 标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见DB13/T 2351.1-2015中附录 B.1.1)。 19 表号 标准内容中表格按一定规则的顺序编号。(表号定义说明见DB13/T 2351.1-2015中附录 B.2.1)。 20 表名 描述表格主题的名称。 21 更新时间 描述指标数据修改更新的时间。 * 22 记录状态 关于标准文献指标元数据库中记录所处的状态(修改、删除、新增)的说明。 * 23 版本 描述指标数据更新的版本编号。 * 24 加工单位 描述指标数据加工单
15、位的信息。 25 指标状态 描述指标有效性的特征。一般分为3种状态:现行、作废、未实施。 * 26 是否强制 描述指标所在篇章条是否为强制性条款。 * 27 指标类型 指标的分类编码(体系)。 28 指标性质 描述指标内容的类型是定性亦或定量。 注:标星号“*”的数据项为核心元数据。 5 著录总则 5.1 著录依据可靠性 标准结构化著录的依据应为标准文献本身,包括出版社标准文本数字版PDF文件或纸质印刷品扫描件。 5.2 著录数据完整性 标准结构化著录的数据项不可短缺,著录的数据项内容信息应完整。 5.3 著录数据准确性 标准结构化著录的数据项应真实反映所对应的标准内容。标引数据项应符合标引规
16、则。 DB13/T 2351.32016 5 5.4 著录数据有效性 结构化标准著录数据应与标准更新内容保持一致,随时依据标准修订单信息,修改结构化数据;依据公告信息、文本信息修改篇章条的状态信息和强制性信息。 5.5 著录数据规范性 5.5.1 著录用字符集 应符合GB 18030的要求。 注:在所有著录项目中有公式、图、表和超出GB 18030字符集范围的特殊字符或者其组合的,均以图像文件的形式加工著录。 5.5.2 著录格式 5.5.2.1 文字格式 5.5.2.1.1 日期和时间 日期和时间格式应符合GB/T 7408的要求。 5.5.2.1.2 上下角标 在数据项中有上下角标的,应按
17、下列要求转化:上角标为XX,下角标为XX,当上下角标同时存在同一个文字、符号或数据时,应遵循“先上后下”的著录原则,优先著录上角标后,再著录下角标。 示例1:SO2 著录为:SO2 示例2:SO42- 著录为:SO2-4 示例3: 著录为:25.5+1.5-1.5 5.5.2.1.3 多值分隔符 标准结构化数据项为多值时,多值之间用半角分号“;”隔开。 5.5.2.1.4 空格处理 著录时应删除不必要的空格,下列情况除外: a) 篇章条编号和篇章条名称之间保留的半角空格; b) 标准号中标准代号与标准顺序号之间的半角空格; c) 标准名称中引导要素、主体要素和补充要素之间的空格; d) 英文单
18、词间的半角空格; e) 去掉容易引起歧义和混淆的空格(见示例)。 示例:1ml 0.5mol/L HCL 中的“L HCL”之间的空格去掉后成为了“LHCL”,容易产生混淆,所以不可去除。 5.5.2.2 图像格式 图像格式应符合以下要求: a) 图像应以图号或图名为单位进行截取,有分图的(见图 1 含有分图的图像示例)应以总图的图号为截取单位,不应单独截取分图(跨页图片除外); b) 截取的图像不应包括图号、图名、图注、图脚注和图说明等文字内容; DB13/T 2351.32016 6 c) 图像分辨率应为600dpi; d) 图像的边框应完整,图像的倾斜度应为1 ; e) 图像截取应在PD
19、F为100%情况下截图(图像截取的大小以可以辨识为标准),保存格式为jpg; f) 图像完整、无污渍、不应留太多的空白; g) 表格作为图像截取时,截取的图像,不应包含表号、表名; h) 所有“图像”“表格”“公式”的注(含脚注和图说明)的每个列项,均应单独另起一行左对齐(无论原始PDF是否换行); i) 图、表的标题名称应居中显示。 图1 含有分图的图像示例 5.5.2.3 公式格式 公式格式一般有图像格式和LaTex 2.0代码两种表达方式,无论何种方式,均应符合下列a)的要求,但当公式格式为图像格式时,还应符合下列b)、c)的要求: a) 当公式带有公式编号时(见图2),著录应包含公式编
20、号; b) 截取的图像不应包括公式注等文字内容; c) 截取的公式图像应符合本部分第5.5.2.2 c)、d)、e)、f)的要求。 DB13/T 2351.32016 7 图2 带公式编号的公式示例 5.5.2.4 表格格式 表格应用HTML等语句描述。 5.5.2.5 概念规范化 标准对象、指标对象、指标对象属性名称、指标影响因素名称需要在数据映射处理以后进行一次统一的调整、规范。概念的选择应使用汉语分类主题词表中最近一层或其上位类概念进行规范。 6 全文元数据著录细则 6.1 标识符 标识符由系统自动生成。 6.2 标准号 标准号的著录应符合GB/T 22373-2008中6.2.3的值域
21、要求,按照“标准代号+1 个空格+顺序号+1 个连字符“-“+4 位发布年份”的形式著录(见示例1、示例2)。 示例1:GB 2760-2014 示例2:NY/T 1153.2-2013 注:标准代号由标准代号的字典表统一进行管理,当标准代号未收录在该字典表时,需要先在字典表中添加然后方能进行标准号的著录。 6.3 标准名称 应著录标准的中文名称,名称中空格的处理应符合5.5.2.1.4的规定。 6.4 篇章条编号 6.4.1 标准正文中的篇章条编号已在标准原文中被赋予的,应按照标准原文中的篇章条编号来著录,见表3中示例1、示例3、示例8。 6.4.2 当标准原文中的内容(例如前言、引言、公告
22、、附加说明、编制说明、参考文献等内容)未被赋予篇章条编号时,篇章条编号可著录为空值,见表3中示例2、示例6。 6.4.3 篇章条编号和篇章条名称不允许同时为空值。 DB13/T 2351.32016 8 表3 全文结构化数据著录示例 示例 标准原文 标准原文内容 篇章条编号 篇章条名称 篇章条内容 示例1 见附录A 图A.1 “1 范围 本标准规定了” 1 范围 见附录A 图A.2 示例2 见附录A 图A.3 “中华人民共和国环境保护部公告 2012年第7号 为贯彻” 中华人民共和国环境保护部公告 2012年第7号 见附录A 图A.4 示例3 见附录A 图A.5 “3.3 颗粒物(粒径小于等于
23、10m)(PM10) 指环境空气” 3.3 颗粒物(粒径小于等于10m)(PM10) 见附录A 图A.6 示例4 见附录A 图A.7 “3.2 海水水质 各类海水” 3.2 海水水质 见附录A 图A.8 示例5 见附录A 图A.9 “8.2.1 挥发性盐基氮:按GB/T 5009.44规定的方法规定” 8.2.1 挥发性盐基氮 见附录A 图A.10 示例6 见附录A 图A.11 “本标准适用于交流50赫兹、60赫兹,电压500V以下或直流400V以下各种熔断器内作熔断体用的保险铅丝。” 适用范围 见附录A 图A.12 示例7 见附录A 图A.13 “7.2.1.1 增加: ” 7.2.1.1
24、见附录A 图A.14 示例8 见附录A 图A.15 “附录B (提示的附录) 安瓿耐碱性试验方法” 附录B (提示的附录)安瓿耐碱性试验方法 见附录A 图A.16 6.5 篇章条名称 6.5.1 标准原文中的篇章条名称已在标准原文中被赋予的,应按照标准原文中的篇章条名称来著录,见表3中示例4、示例8。 注:在标准原文中被赋予的名称有时是隐含的,如篇章条内容起始部分的概括性语句,往往以空格或者冒号字符与其他内容分隔,这些语句也应著录为篇章条名称,见表3中示例5;但是并非符合这种情况的语句均可被视为篇章条名称,如表3中示例7,“增加”不能作为篇章条名称。 6.5.2 当标准原文中的内容未被赋予篇章
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB13T235132016 标准 文献 结构 数据 规范 部分 著录 规则 PDF
