DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf
《DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf》由会员分享,可在线阅读,更多相关《DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf(17页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.020 L 70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 1873 2020 大数据 平台 数据接入质量规范 Data access quality specification for big data platform 2020-04-03发布 2020-05-03实施 内蒙古自治区市场监督管理局 发布 DB15/T 1873 2020 I 目 次 前言 . II 1 范围 . 1 2 规范性 引用文件 . 1 3 术语和 定义 . 1 4 概述 . 2 5 数据 质量评价维度 . 2 6 数据 接入质量技术要求 . 3 7 数据质量 评 分方法 . 8
2、 附录 A(资料 附录 )数据质量 评价维度 . 10 DB15/T 1873 2020 II 前 言 本标准按照 GB/T 1.1 2009给出的规则起草。 本标准由 内蒙古自治区大数据发展管理局提出。 本标准由内蒙古自治区大数据发展管理局归口。 本标准起草单位:内蒙古自治区大数据发展管理局、新华三 技术有限公司、 中国 电子技术标准化研 究院、 内蒙古自治区大数据与云计算标准化委员会、内蒙古自治区标准化院、内蒙古银保监局、内蒙古 自治区地图院、内蒙古自治区电子信息产品质量检验院、内蒙古大学、 浪潮软件集团有限公司 、内蒙古 跃晨科技有限公司 、 北京 东方金信科技有限公司、北京东方国信科技
3、股份有限公司、天 帆 创新 (北京) 科技 发展有限公司、同方知网( 北京 ) 技术 有限公司 、内蒙古纵横 云技术有限公司 。 本标准主要起草人:张建军、崔连伟、孙卫、石彦龙、周佳琪、李向前、石建军、巩韶飞、顾君、 武茂春、卫凤林、马学彬、徐小强、万磊、张晓磊、王楠、李建文 、刘玉坤、冯国忠。 DB15/T 1873 2020 1 大数据 平台 数据接入 质量 规范 1 范围 本标准 规定了大数据平台数据接入过程中 数据质量保障的规范及技术要求 。 本标准适用于内蒙古自治区各 数据提供单位接入 大数据平台过程 中的数据质量保障工作 。 2 规范性 引用文件 下列文件对于本文件的应用是必不可少
4、的。凡是注日期的引用文件,仅所注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件; GB/T 5271.1 信息技术词汇 第 1部分:基本术语 GB/T 36344 信息技术 数据质量评价指标 3 术语和 定义 GB/T 5271.1、 GB/T 36344和 SY/T 6227-2005界定 的术语和定义适用于本文件 。 为了便于使用, 以 下 重复列出 以上 标准的一些术语和定义 。 3.1 数据 data 信息 的可再解释的形式化表示,以适用于 通信 、解释 或 处理。 注 : 可以通过人工或自动手段处理数据 。 GB/T 5271.1-200
5、0, 定义 01.01.02 3.2 元数据 metadata 关于 数据或数据元素的数据( 可能 包括其数据描述) , 以及关于数据拥有权、 存取路径 、 访问权限 和数据易变性的数据。 GB/T 5271.1-2000, 定义 17.06.05 3.3 数据 质量 data quality 在指 定条件下使用时,数据的特性满足明确的和隐含的要求程度。 GB/T 36344-2018, 定义 2.3 DB15/T 1873 2020 2 3.4 原始 数据 raw data 终端 用户所存储使用的各种未经过处理 或 简化的数据。 注 : 原始 数据有 多种 存在形式,如文本数据、图像数据、音
6、频数据或者 几种 数据混合存在。 GB/T 36344-2018, 定义 2.4 3.5 数据生命 周期 data life cycle 将 原始数据转化为可用于行动的知识的一组过程。 GB/T 36344-2018, 定义 2.5 3.6 数据集 data set 具有 一定主题,可以标识 并 可以 被 计算机化处理的数据集合。 GB/T 36344-2018, 定义 2.6 3.7 数据 标准 data standard 数据 的命名、定义、结构和取值规范方面的规则和基准。 GB/T 36344-2018, 定义 2.8 3.8 检核 任务 inspection task 数据核查 的最小
7、调度单位 。 4 概述 大数据平台支持结构化数据、半结构化数据和非结构化数据等异构数据源采集数据,实现各类离线 数据、实时数据的采集与接入。针对 大数据平台的数据接入, 执行相应的 质量 评价标准,保证数据质量, 为各 数据 使用单位提供 优质 的 数据服务 。 5 数据 质量评价维度 数据质量是保证数据应用和 提供优质数据服务 的基础,数据 质量 的评估标准主要包括八个维度:完 整性、规范性 、 一致性、准确性、唯一性 、关联性、时效性、 可访问性, 本 标准 从以上八个维度评价数 据质量,详细请参考附录 A。 DB15/T 1873 2020 3 6 数据 接入质量技术要求 大数据平台为了
8、保障数据质量,须从四个层面进行数据质量控制,数据标准体系质量控制、数据采 集质量控制、数据存储质量控制、数据使用质量控制进行全流程数据质量管控。数据 接入质量 整 体框架 图见 图 1: 图 1 整体 流程图 6.1 数据 标准体系 质量 控制 6.1.1 数据标准制定 数据标准的制定按照数据标准管理的业务分类和定义规范指导要求,基于行业数据管控需求,进行 数据标准规范的制定 ,要求大数据平台按照该标准规范进行统一的数据管理。 数据标准制定包括数据标准的编制、数据标准的审核、数据标准的发布。数据标准化管理组织将数 据标准以正式发文的方式在内部进行发布,并在发布后将数据标准、版本说明保存备案。最
9、终将发布的 数据标准更新至数据标准管理模块中,数据 标准制定流程见 图 2: 标准制定 标准执行 标准维护 标准监控 数据 采集 质量 检核 数据 缓冲区 数据 标准层 数据 监控 血缘分析 系统 审计 问题 告警 资产 管控 检核 方案创建 检核任务 创建 检核 任务调度 检核 日志 数据 质量报告 数据标准 体系质量控制 数据采集质量 控制 数据存储质量 控制 数据 使用质量控制 DB15/T 1873 2020 4 图 2 数据 标准制定流程 数据标准制定流程描述如下 : a) 数据标准管理组织协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,并按 照协商一致的原则形成数据标
10、准初稿; b) 数据标准初稿进行多次的讨论和丰富后,形成数据标准送审稿提交给数据标准管理决策者; c) 经过数据标准管理决策者的讨论审核后,由数据标准管理组织协调者再次进行数据标准的修改 完善,并完成数据标准的发布。 6.1.2数据标准执行 数据标准管理执行流程见 图 3。 图 3 数据 标准执行流程 数 据 标 准 管 理 执 行 者 提 供 数 据 属 性 信 息 数 据 标 准 属 性 收 集 整 理 数 据 标 准 送 审 稿 征 求 意 见 数 据 标 准 初 稿 数 据 标 准 变 更 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准
11、编 制 数 据 标 准 审 查 数 据 标 准 发 布 数 据 标 准 、 版 本 发 布 数 据 标 准 发 布 数 据 标 准 录 入 数 据 质 量 管 理 数 据 标 准 管 理 执 行 者 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准 监 控 数 据 标 准 执 行 结 果 制 定 数 据 标 准 接 口 标 准 执 行 效 果 DB15/T 1873 2020 5 数据标准执行的流程步骤描述如下: a) 数据标 准制定发 布后,将数据标准录入到数据标准管理模块; b) 数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口;
12、c) 数据标准管理模块将标准要求提供给数据质量管理,根据已录入系统的数据标准形成稽查规则, 对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控; d) 将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执行 者。 6.1.3 数据标准维护 数据标准的维护指数据标准建立后,根据业务需求的发展变化或外部数据标准要求不一致时,对数 据标准的内容进行变更和版本管理,见 图 4: 图 4 数据 标准维护 流程 数据标准维护流程描述 如下 : a) 对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维者进行 讨论和变更需求汇总;
13、b) 由数据标准管理组织协调机构进行标准变更的审核; c) 讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策层进行 审批; d) 决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护。 6.1.4 数据标准监控 数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执 行、效果、问题进行监控管理, 为后期数据标准维护管理提供依据。数据标准的监控通过数据标准管理和元数据管理、数据质量管理协 同实现落地。 发 起 数 据 标 准 变 更 需 求 数 据 标 准 变 更 需 求 汇 总 在 变 更 需 求 审 批 表 中 签 署 意 见 审 议
14、数 据 标 准 变 更 项 数 据 标 准 变 更 数 据 标 准 管 理 执 行 者 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准 、 版 本 发 布 DB15/T 1873 2020 6 6.2 数据 采集 质量 控制 为了 保证数据质量,根据数据仓库建设的总体 目标 和设计对数据的采集阶段提出严格、明确的质量 要求及必要的标准, 具体 要求如下 : a) 待 采集数据字段长度、精度、类型等应 优先 遵循遵循国家 标准 、 行业 标准的约定; b) 采集 过程支持元数据的保留,包含技术元数据和业务元数据; c) 支持 对元数据的 监控 ,
15、控制 数据库和表结构的异常修改 , 保证数据质量; d) 支持采集 阶段初步数据检核; 采集 阶段 具体 流程图见图 5: 图 5 采集 阶段流程 6.3 数据 存储质量 控制 在数据 存储阶段 需 通过多种检核规则及任务调度 方式 对数据进行检核, 数据 存储阶段要求如下: a) 支持 从 5个 维度、 7种 检核规则和自定义检核规则 对数据 进行数据质量检核; 1) 5个维度 包含完整性、规范性、准确性、唯一性、关联性; 2) 7种 检核规则包含 空值 校验、值域校验、格式校验、长度校验、精度校验、唯一性 约 束 校验、主外键校验; 3) 自定义 检核规则指根据具体业务场景,用户可以通过自
16、定义 SQL语句 的方式完成 对 数 据质量的检核; b) 支持检核 任务的创建,检 核规则的设定; c) 支持 检核任务的创建和检核 任务 调度方式的设定; d) 检核 任务调度支持自动调度和手动调度; e) 支持对 数据质量报告 的 查看的下载; f) 支持 数据的全生命周期管理; g) 支持 对元数据的版本管理 。 基于 检核规则对数据检核流程图 见 图 6: 开始 实时采集 定时 采集 全量 采集 增量 采集 初 步 质 量 检 核 源 数 据 缓 冲 区 源 数 据 标 准 层 数 据 源 接 入 结束 DB15/T 1873 2020 7 图 6 数据 检核 质量 检核流程说明:
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB15 18732020 大数据平台 数据接入质量规范 1873 2020 数据 平台 接入 质量 规范
