DB37 T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对.pdf
《DB37 T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对.pdf》由会员分享,可在线阅读,更多相关《DB37 T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对.pdf(16页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.240 CCS L 67 37 山东省地方标准 DB37/T 4646.22023 公共数据 数据治理规范 第 2 部分:数据清洗比对 Public dataData governance specificationPart 2:Data cleaning and comparison2023-12-28 发布2024-01-28 实施山东省市场监督管理局发 布 DB37/T 4646.22023 I 目次 前言.II 引言.III 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 概述.1 5 数据探查.1 6 数据质量检查.1 检查规则制定.1 6.1 质量检查
2、实施.2 6.2 7 问题数据修正.2 数据修正要求.2 7.1 数据修正方法.2 7.2 8 数据转换.6 9 数据安全.6 附录 A(规范性)数据清洗比对流程.7 附录 B(资料性)数据探查清单示例.8 附录 C(资料性)数据质量检查规则示例.9 附录 D(资料性)数据质量检查报告示例.10 附录 E(资料性)数据转换规则示例.11 参考文献.12 DB37/T 4646.22023 II 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件是DB37/T 4646公共数据 数据治理规范的第2部分。DB37/T 4646已经发布了以
3、下部分:第1部分:数据归集;第2部分:数据清洗比对;第3部分:数据返还;第4部分:资源服务目录。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出、归口并组织实施。DB37/T 4646.22023 III 引言 为构建完善全省一体化数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山东省先后印发山东省“十四五”数字强省建设规划(鲁政字2021128号)等一系列政策文件,对全省一体化数据资源体系建设和管理提出要求。为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、数据清洗比对、数据返还、资源服
4、务目录等工作存在的普遍问题,制定DB37/T 4646公共数据 数据治理规范系列标准。DB37/T 4646拟由以下四个部分构成。第 1 部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平台的流程和要求。第 2 部分:数据清洗比对。目的在于规范对归集至省一体化大数据平台的数据开展数据清洗比对工作的流程、方法和要求。第 3 部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展数据返还工作的流程和要求。第 4 部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展资源服务目录管理和应用的工作要求。DB37/T 4646.2
5、2023 1 公共数据 数据治理规范 第 2 部分:数据清洗比对 1 范围 本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全等要求。本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机构数据清洗比对工作参照执行。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 2261.12003 个人基本信息分类与代码 第1部分:个人性别代码 GB/T 222392019 信
6、息安全技术 网络安全等级保护基本要求 GB/T 352732020 信息安全技术 个人信息安全规范 GB/T 363442018 信息技术 数据质量评价指标 DB37/T 4646.12023 公共数据 数据治理规范 第1部分:数据归集 3 术语和定义 DB37/T 4646.12023界定的以及下列术语和定义适用于本文件。3.1 数据标准 data standard 数据的命名、定义、结构和取值范围方面的规则和基准。来源:GB/T 363442018,2.8 4 概述 对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正和数据转换,提升数据质量。数据清洗比对
7、流程应符合附录A。5 数据探查 应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录5.1 B。如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。5.2 6 数据质量检查 检查规则制定 6.1 DB37/T 4646.22023 2 6.1.1 数据质量检查规则应基于 GB/T 36344 中的数据质量评价指标制定,数据质量检查规则应符合国家标准、行业标准和地方标准。6.1.2 数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量检查规则示例见附录 C。6.1.3 数据质量检查规则应通过数据质量检查规则库统
8、筹管理并进行动态更新维护。质量检查实施 6.2 应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量检查报告示例见附录D。7 问题数据修正 数据修正要求 7.1 7.1.1 对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删除处理和填充处理;b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理和修改处理;c)对于存在字段重复
9、和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依关键字段的记录排重和依重复度的记录排重;d)对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;e)对于未及时更新的数据,应对数据尽快进行更新。7.1.2 应将完成修正的数据重新归集至省一体化大数据平台。数据修正方法 7.2 7.2.1 缺失值修正 7.2.1.1 删除处理 出现以下情况可删除空缺记录:a)某条记录的一个或多个关键字段空缺;b)某条记录字段缺失率超过设定的值,且缺失值字段重要性低。7.2.1.2 填充处理 7.2.1.2.1 线下人工校验填充 缺失字段重要性高时可通过线下人工校验等方法
10、进行填充,以保证填充值的准确率,如人工对接相关机构获取信息进行填充。7.2.1.2.2 常量填充 可对空缺值进行常量填充,即使用一个常量填充该字段所有空缺值。7.2.1.2.3 统计填充 DB37/T 4646.22023 3 可对该字段中非空缺值进行统计,根据统计结果选择空缺值填充内容,要求包括但不限于:a)字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行填充;b)字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、最远日期或时间等进行填充;c)字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或占比选择
11、如最大量、最小量等进行填充。7.2.1.2.4 条件填充 可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充的含空缺值的字段,B为关联字段,要求包括但不限于:a)B 字段与 A 字段存在强关联关系,可通过 B 字段推理出 A 字段的内容,如学位为硕士的记录,对应学历为研究生;b)B 字段对 A 字段有约束关系,可通过 B 字段推导出 A 字段内容,如通过身份证件号码可推导出年龄、出生日期、性别等。7.2.1.2.5 分析填充 可选择分析字段,设置分析方法进行分析并填充,方法包括但不限于:a)关联分析:使用关联分析的挖掘方法,寻找出强关联的字段,根据强关联字段
12、关联情况寻找最可能的值;b)聚类分析:使用聚类分析的挖掘方法,将非空数据记录聚类成若干簇,根据簇中字段特点选择最可能的值;c)回归分析:使用回归分析的挖掘方法计算最可能的值。7.2.1.2.6 规则填充 可按照相关国家标准、行业标准和地方标准等规范文件中的规则和要求或者预设的规则进行填充,如人的性别名称为缺失值,性别代码为1,按照GB/T 2261.12003规则,对应填充性别名称为男性。7.2.2 违规值修正 7.2.2.1 删除处理 7.2.2.1.1 记录删除 出现以下情况可删除违规记录:a)关键字段存在违规值,且无法恢复,如自然人身份证件号码为“330*1420”,无法识别到具体人员时
13、可删除记录;b)编码错误导致大量违规值存在,且无法恢复,如因编码错误导致行驶证中车牌号数据存在大量“00000”时可删除记录;c)字段取值不符合逻辑,如存在幼儿园儿童入学年龄大于 18 岁的记录时可删除记录。7.2.2.1.2 内容删除 可删除违规值字段内容,作为空缺值处理,如自然人出生年月为违规值“2099-12-12”、自然人身高字段超过3 m等,可删除该字段的内容。7.2.2.1.3 字符删除 DB37/T 4646.22023 4 可设置规则后删除违规字符,或直接将违规字符替换为空,出现以下情况可删除违规字符:a)日期型或日期时间型数据中含有如“()”等违规字符;b)姓名等字段中含有空
14、格;c)身份证件号码等字段中含有 X 以外的其它字母或字符。7.2.2.2 修改处理 7.2.2.2.1 人工校验 数据量较小,违规值较少的情况可采用人工校验修改方式,如自然人出生日期为“2010-12/12”,可人工修改为“2010-12-12”,人工修改违规值应保证修正值的准确度。7.2.2.2.2 字符替换 可将违规字符进行替换,替换方法包括但不限于:a)规则替换:设定替换规则,将不同的违规字符对应替换为规则内字符,如设定截取自然人身份证件号码第 714 位为自然人出生日期的替换规则;b)精确替换:设置匹配规则做精确替换,如“&”替换为“和”;c)模糊替换:设置匹配规则做模糊替换,如“&
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB37 4646.22023 公共数据 数据治理规范 第2部分:数据清洗比对 4646.2 2023 公共 数据 治理 规范 部分 清洗
