DB52 T 1541.2-2020 政务数据平台 第2部分:数据归集规范.pdf
《DB52 T 1541.2-2020 政务数据平台 第2部分:数据归集规范.pdf》由会员分享,可在线阅读,更多相关《DB52 T 1541.2-2020 政务数据平台 第2部分:数据归集规范.pdf(14页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1541.22020 政务数据平台 第 2 部分:数据归集规范 Government data platform Part 2:data ingestion specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施 贵州省市场监督管理局 发布 DB52/T 1541.22020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . . 1 3 术语和定义 . . 1 4 缩略语 . . 3 5 总体要求 . . 3 6 网络环境 . . 3 7 归集流程
2、. . 4 8 数据采集 . . 4 9 数据清洗加工 . . 5 10 数据整合 . . 6 11 数据更新 . . 6 DB52/T 1541.22020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1541的第2部分。 DB52/T 1541已经发布了以下部分: 第 2 部分:数据归集规范; 第 3 部分:数据存储规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位
3、:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:王嘉卉、宿睿智、刘彦嘉、田野、武波、徐凯琳、文小成、杨德康、朱小洪、 冯丹尼、郑如顺、杨建雄、黄明锋、秦晓东、邵建平、戚玉峰、赵飞、张洋、孙瑾。 DB52/T 1541.22020 1 政务数据平台 第 2 部分:数据归集规范 1 范围 本文件规定了政务数据平台数据归集的术语和定义、缩略语、总体要求、网络环境、归集流程、数 据采集、数据清洗加工、数据整合及数据更新。 本文件适用于政务数据平台可共享政务数据和可开放公共数据的归集。 2 规范性引用文件
4、 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本 (包括所有的修改单)适用于本 文件。 GB/T 38664.2-2020 信息技术 大数据政务数据开放共享 第2部分:基本要求 DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 DB52/T 1541.3-2020 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据归集 data ingestion 面向特定场景或领域对数据进行采集、清洗加工和整合的活动。 3.2 贴源
5、层 operationa l data store 存储由源系统采集而来、未经处理的原始数据。 3.3 公共层 common data model 存储经过清洗加工后符合质量要求的可复用的公共数据。 3.4 主题层 data mart 存储整合后面向业务、应用的数据集合。 DB52/T 1541.22020 2 3.5 (国家电子政务网)政务外网 NEGN e xtranet 满足各级政务部门面向社会提供服务和管理的业务网络,简称政务外网。 来源:GB/T 256472010,3.4.3 3.6 政务数据 governme nt data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、
6、生成、存储、管理的各类数据资源。 注: 根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T 38664.12020,3.1 3.7 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 来源:GB/T352952017,2.2.13 3.8 半结构化数据 semi-struc tured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例: XML 文档内容,每项都被一对标记封起来,如,表面上看是结构
7、化数据,但 之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 822019,2.8 3.9 非结构化数据 unstruct ured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T352952017,2.1.25 3.10 数据剖析 data profiling 对数据的结构、内容、关系和来源进行调研,以达到认识数据的目的。 3.11 数据采集定义 data collect ion definition 基于数据剖析结果,明确待采集数据的存储结构、存储位置和采集策略。 DB52/T 1541.22020 3 3.12 数据读取 data extracti
8、on 将待采集数据从其原始存储区域读到临时存储区域的过程。 3.13 数据写入 data l oading 将数据读取过程中临时存储的数据最终持久化存储的过程。 3.14 全量更新 full update 使用新的数据对历史数据进行完全覆盖。 3.15 增量更新 incremen tal update 将两次更新间隔发生变更的数据同步到存储区域。 4 缩略语 下列缩略语适用于本文件。 ACID:数据库事务特征原子性、一致性、隔离型和持久性(Atomicity Consistency Isolation Durability) CSV:逗号分隔文件格式(Comma-Sepa rated Valu
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB52 1541.2-2020 政务数据平台 第2部分:数据归集规范 1541.2 2020 政务 数据 平台 部分 规范
