DA T 82—2019 基于文档型非关系型数据库的档案数据存储规范.pdf
《DA T 82—2019 基于文档型非关系型数据库的档案数据存储规范.pdf》由会员分享,可在线阅读,更多相关《DA T 82—2019 基于文档型非关系型数据库的档案数据存储规范.pdf(15页珍藏版)》请在麦多课文档分享上搜索。
1、ICS01.140.20 A14 中华人民共和国档案行业标准 DA/T822019 基于文档型非关系型数据库的档案 数据存储规范 Specificationforstorageofarchivaldatabasedondocument-oriented non-relationaldatabase 2019-12-16发布2020-05-01实施 国家档案局发布 49 DA/T822019 前 言 本标准按照G B / T 1 . 1 2 0 0 9给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由国家档案局档案科学技术研究所提出。 本标
2、准由国家档案局归口。 本标准起草单位:国家档案局档案科学技术研究所。 本标准主要起草人:聂曼影、陶光毅、张淑霞、晏杰、王熹、刘春阳、陈吉。 59 DA/T822019 引 言 目前,我国档案部门大都采用关系型数据库存储和管理档案数据。关系型数据库通常将数据存储 在二维表中,高度结构化,对数据的规范性要求高。关系型数据库能够很好地管理和存储结构化数据, 使用简单、功能强大。 非关系型数据库突破了关系型数据库严格的表结构,解决了关系型数据库模型简单、不易表达复杂 嵌套数据结构的问题,存储的数据对象包括非结构化数据、半结构化数据和结构化数据。视处理数据对 象而言,目前非关系型数据库主要有键值存储、列
3、存储、文档型和图形四大类。 本标准基于文档型数据库具备的功能编制。文档型数据库允许创建不同类型的字段,存储任意格 式的数据。在文档型数据库中,文档是处理信息的基本单位。文档型数据库存储每个对象的所有信息, 并且每一个被存储的对象可与任一其他对象不同。采用文档型数据库,能够简单地将不同类型、不同格 式的档案数据装入或映射到数据库。 从业务角度看,档案数据主要来自于各类业务系统产生的数据和传统载体档案数字化副本。每条 记录一次写入、多次访问且几乎不可更改,适宜采用文档型数据库存储。 文档型数据库与关系型数据库不相互排斥,它们之间可以相互交换数据,从而相互补充、扩展。为 了解决大规模档案数据集合多重
4、数据种类带来的挑战,优化档案数据存储,推动档案数据科学管理,鉴 于关系型数据库和文档型数据库各自的特点和优势,档案部门可以将文档型数据库、关系型数据库共同 作为档案数据存储和管理的工具。 69 DA/T822019 基于文档型非关系型数据库的档案数据存储规范 1 范围 本标准规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存储和管理 档案数据的基本功能和实施方法。 本标准适用于各级各类档案馆以及机关、团体、企事业单位对档案数据的存储。 2 术语和定义 下列术语和定义适用于本文件。 2.1 数据 data 适合传输、诠释或者手动、自动处理,以一种规范的方式表达的事实或指令。
5、G B / T 3 4 8 4 0 . 3 - 2 0 1 7 ,表A . 1 注:档案数据包括电子档案的内容数据、传统载体档案数字化副本的内容数据以及两者的元数据(含目录数据) 。 2.2 元数据 metadata 描述电子档案的内容、背景、结构及其管理过程的数据。 D A / T 5 8 - 2 0 1 4 ,定义2 . 1 6 2.3 内容数据 contentdata 电子档案和传统载体档案数字化副本固有的信息。 2.4 数据库 database 按照概念结构组织的数据的汇集,它描述这些数据的特征及与数据对应的实体间的关系并支持一 个或多个应用领域。 G B / T 5 2 7 1 .
6、1 - 2 0 0 0 ,定义0 1 . 0 8 . 0 5 2.5 关系型数据库 relationaldatabase 数据按关系模型来组织的数据库。 G B / T 5 2 7 1 . 1 7 - 2 0 0 0 ,定义1 7 . 0 4 . 0 5 注:关系模型指用二维表的形式表示实体和实体间联系的数据模型,而一个关系型数据库就是由二维表及其之间的 联系所组成的一个数据组织。 2.6 非关系型数据库 non-relationaldatabase 数据不按关系模型来组织的数据库。 注: N o S Q L泛指非关系型数据库。非关系型数据库去掉了关系型数据库的关系型特性,数据之间无关系,没有
7、关 系型数据库严格的表结构,随时可以存储自定义的数据格式。视处理数据对象而言,目前非关系型数据库主要 有键值存储、列存储、文档型和图形四大类。文档型数据库允许创建不同类型的字段,存储任意格式的数据。 79 DA/T822019 在文档型数据库中,文档是处理数据的基本单位。 2.7 结构化数据 structureddata 能够用统一的结构加以表示的数据,或者说能用二维表结构进行逻辑表达的数据。 2.8 半结构化数据 semi-structureddata 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例: X M L文档内容,每项都被一对标记封起来,如 ,表面
8、上看是结构化数据,但 之间的数据却是千变万化,这是典型的半结构化数据。 2.9 非结构化数据 unstructureddata 不能用数字或者统一的结构表示的数据,或没有固定结构的数据。这些数据不能用二维表存放。 2.10 文档型数据库的拆分 document-orienteddatabasesplitting 一个数据库被分成若干个数据完整的子数据库。 2.11 文档型数据库的合并 document-orienteddatabasemerging 若干个子数据库合成一个数据完整的数据库。 3 总则 3.1 适用性 文档型数据库应适用于大规模、多种类、多种格式档案数据的存储、备份和管理。 3.
9、2 规范性 文档型数据库结构应满足档案数据存储的要求。使用文档型数据库存储档案数据应将内容数据和 元数据按照规范结构装入或映射到数据库中,保障两者之间的可靠联系。 3.3 开放性 文档型数据库结构应具有开放性,能与搜索引擎及相关工具软件集成,能与其他类型数据库和系统 交换与共享档案数据及相关信息。 3.4 互补性 基于文档型数据库的档案数据存储与基于关系型数据库的档案数据存储和管理可形成互补。文档 型数据库是内容数据的存储方法之一,元数据的存储可采用文档型数据库和关系型数据库,日志等的存 储和管理宜采用关系型数据库,建立由关系型数据库和文档型数据库组成的数据库系统。 4 文档型数据库字段 4.
10、1 字段要求 文档型数据库应能创建不同类型的字段,存储任意格式的档案数据,并能根据用途和需求变化对字 段进行增加、删除和修改。 89 DA/T822019 4.2 字段类型 文档型数据库字段类型宜包括字符串、数值、日期、时间、文本、二进制等,并符合以下规定: a ) 字符串字段:用于存储定长字符串和变长字符串; b ) 数值字段:用于存储整数和实数; c ) 日期字段:用于存储日期类型数据; d ) 时间字段:用于存储时间类型数据; e ) 文本字段:用于存储文本中的句子和段落; f ) 二进制字段:用于存储任何类型的字符,包括A S C I I字符,以及图像、视频、音频等二进制数据。 5 文
11、档型数据库存储 5.1 存储对象 文档型数据库的存储对象包括内容数据等非结构化数据、 X M L文件等半结构化数据以及元数 据等。 5.2 存储方式 文档型数据库存储方式包括: a ) 将内容数据和元数据全部装入数据库,按照与元数据的匹配关联关系,内容数据存储在文档型 数据库的二进制字段中; b ) 将元数据装入数据库,将内容数据映射到数据库; c ) 同一数据库可存储多种格式的内容数据,不同记录(行)的内容数据的格式可不同; d ) 同一条记录可存储一个或多个内容数据,同一条记录(行)中多个内容数据的格式可不同。 5.3 存储介质 5.3.1 文档型数据库可存储在磁盘、固态硬盘、光盘等存储介
12、质上。 5.3.2 文档型数据库可在不同的存储介质之间转移。 5.4 存储信息管理 文档型数据库存储档案数据的过程中,应显示以下信息: 存储档案数据进度和存储完成的信息; 存储过程中出现的问题或错误的信息。 5.5 存储安全 存储档案数据的文档型数据库应保存在安全的存储系统中和存储介质上,防止被非授权改动数据 库存储位置的设置,并保障档案数据不被非授权修改、访问、删除、复制和破坏,对授权修改、访问、删除 和复制要做审计跟踪。涉密档案数据在线存储应加密,涉密档案数据导出和备份应采取数字签名等安 全措施。 6 档案数据导入 6.1 导入对象 导入对象包括内容数据等非结构化数据、 X M L文件等半
13、结构化数据以及元数据等。 99 DA/T822019 6.2 导入方法 6.2.1 在线录入数据 在线录入是借助录入表单,将内容数据和元数据直接录入到文档型数据库,一次建立一条记录。 6.2.2 批量导入数据 批量导入是按照内容数据与元数据的匹配关联关系,通过导入程序,将内容数据和元数据批量导入 文档型数据库。 6.2.3 导入XML文件 将X M L文件和内容数据通过导入程序导入文档型数据库。 6.2.4 导入数据库数据 将关系型数据库中的数据,通过导入程序导入文档型数据库,并将挂接在关系型数据库的内容数据 装入或映射到文档型数据库;或将一个文档型数据库中的数据,通过导入程序导入另一个文档型
14、数 据库。 6.2.5 导入其他系统的数据 从其他系统导出的数据按照原有的数据类型和文件格式导入文档型数据库。其他系统包括: 电子档案管理系统; 档案管理的其他相关系统; 形成电子文件的业务系统等。 6.3 档案数据导入质量控制 6.3.1 对导入文档型数据库的档案数据的字段类型和文件格式进行设置,并在导入文档型数据库时按 照设置自动进行检查,对不合格的字段类型和文件格式显示提示信息。 6.3.2 记录档案数据导入文档型数据库的数量、时间、载体、处理人员、格式转换等处理过程相关信息。 6.3.3 自动监测和过滤错误数据,进行数据完整性校验,日志文件自动记录档案数据导入文档型数据 库产生的错误,
15、对错误显示提示信息。 6.3.4 对内容数据、元数据重复导入文档型数据库进行识别。 6.3.5 允许不同归档单位的相同档案数据导入文档型数据库。 6.3.6 设置记录档案数据导入文档型数据库过程的日志,确保能够跟踪、审计、检索(参见附录A ) 、统 计分析(参见附录B ) 。 6.4 档案数据导入的维护 档案数据导入的维护包括: a ) 增加、删除、撤回/恢复、批量修改文档型数据库中的记录; b ) 增加、删除、修改文档型数据库中记录的内容等。 7 文档型数据库的拆分与合并 7.1 文档型数据库的拆分 拆分以记录为单位。拆分的方法包括: 001 DA/T822019 a ) 建立若干个结构相同
16、的子数据库,确定分配给各子数据库的原数据库的起始记录号和终止记 录号,从原数据库中提取相应的记录,按顺序将记录导入各子数据库; b ) 建立若干个结构相同的子数据库,确定各子数据库的最大容量,计算各记录的容量和分配给 各子数据库的容量(分别小于各子数据库的最大容量) ,从原数据库中提取相应的记录,按顺 序将记录导入各子数据库; c ) 建立若干个结构相同的子数据库,利用检索(参见附录A )和统计分析(参见附录B ) ,从原数据 库中提取相应的记录,按照记录的数量或数据库容量要求导入各子数据库; d ) 建立若干个结构相同、但与原数据库结构不同的子数据库,利用字段读写访问限制功能,从原 数据库中
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DA 822019 基于文档型非关系型数据库的档案数据存储规范 82 2019 基于 文档 关系 数据库 档案 数据 存储 规范
