DB5120 T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.pdf
《DB5120 T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.pdf》由会员分享,可在线阅读,更多相关《DB5120 T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.pdf(12页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.040CCS L 71DB5120四 川 省(资 阳 市)地 方 标 准DB5120/T 19.32023数据资源体系技术指南第 3 部分:数据清洗加工规范2023-12-22 发布2023-12-29 实施资阳市市场监督管理局发 布DB5120/T 19.32023I目 次前 言.II1范围.12规范性引用文件.13术语和定义.14缩略语.15清洗目的.26管理职责.27清洗流程.28具体操作.2附录 A(规范性)典型业务数据清洗规则表.7参考文献.8DB5120/T 19.32023II前 言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草
2、规则的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。DB5120/T 19.320231数据资源体系技术指南第 3 部分:数据清洗加工规范1范围本文件规定了资阳市域数据清洗加工相关术语和定义、缩略语、清洗目的、管理职责、清洗流
3、程、具体操作等工作规范。本文件适用于资阳市域政务组织、非政务组织和个人信息资源数据清洗加工。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1信息技术 词汇 第 1 部份:基本术语GB/T 11457信息技术 软件工程术语GB/T 18492信息技术 系统及软件完整性级别GB/T 22032系统工程 系统生存周期过程GB/T 25000系统与软件工程(所有部分)GB/T 29264信息技术服务 分类与代码GB/T 35295
4、信息技术 大数据 术语GB/T 36625.3智慧城市 数据融合 第 3 部分:数据采集规范GB/T 38667信息技术 大数据 数据分类指南GB/T 40094.2电子商务数据交易 第 2 部分:数据描述规范GB/T 42450信息技术 大数据 数据资源规划DB51/T 3056政务数据 数据分类分级指南3术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 25000、GB/T 29264、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用
5、于本文件。3.1数据清洗加工 data cleaning and processing运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据的过程。4缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换和加载(Extract Transform Load)DB5120/T 19.3202325清洗目的数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。其中不符合要求的数据主要有三类:a)残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。b)错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。c)重复数据:出现多
6、条相同的记录或多条记录代表同一实体。6管理职责数据提供方:a)数源单位需要参与数据清洗规则和错误处理策略的制定。b)数源单位需要参与数据转换规则的制定。c)数源单位针对重要数据缺失的错误,需要凭借业务经验对缺失数据进行补全。数据管理方:a)数据管理方需要参与数据清洗规则和错误处理策略的制定。b)数据管理方需要参与数据转换规则的制定。7清洗流程资阳市数据资源中心的数据清洗加工采用 ETL 架构的清洗流程,流程如附录 A 所示。8具体操作8.1定义规则分析抽取目标数据的范围体量、类型、内容、关系、质量等信息,全面识别数据情况。以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要
7、求或用户和其他相关方的需求、期望,定义切实可操作的数据清洗加工目标及规则。8.2数据过滤数据过滤的任务是过滤那些不符合要求的数据,数据过滤包括以下操作:a)将非结构化和半结构化数据转化为结构化数据。b)对噪声数据进行删除。c)对业务数据中不符合应用规则的数据进行删除。d)过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。注:噪声数据指存在错误或异常的数据,这些数据对数据的分析造成了干扰。8.3数据检核8.3.1检核要求数据检核应包括以下操作:a)非空检核:应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。b)长度检核:数据长度应满足转换要求的字段长度。c)数据量检核:过滤
8、后的数据总量应与原始抽取的数据总量吻合。DB5120/T 19.320233d)数据类型和数据值检核:数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检核时间字符串类型的数据,应符合时间格式。8.3.2检核步骤数据检核步骤如下:a)按检核要求检核数据资源是否满足要求。b)当不满足检核要求时,应进行数据错误标识和错误处理。c)当满足检核要求时,直接进行数据转换。8.4错误标识8.4.1识别方法可采用统计学方法、数据挖掘方法、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。8.4
9、.2标识步骤错误标识步骤如下:a)按识别方法推荐的方法,分析筛选出数据资源中存在的数据问题。b)按错误的类型,对数据问题进行分类并标识错误。8.5错误处理8.5.1由数源单位进行错误处理的情况,建议数源单位在业务系统中更正数据,并把更正后的数据更新推送到前置库。8.5.2残缺数据处理8.5.2.1处理策略按照字段缺失比例和字段重要性,分别制定策略:a)对重要性高、缺失率高的残缺数据,采用以下策略:1)尝试从其他渠道取数据补全;2)使用其他字段通过计算获取;3)去除该字段,并在结果中标明。b)对重要性低、缺失率高的残缺数据,去除该字段。c)对重要性高、缺失率低的残缺数据,采用以下策略:1)通过计
10、算进行填充;2)通过经验或业务知识估计。d)对重要性低、缺失率低的残缺数据,不做处理或进行简单填充。注:重要性高指该数据如果残缺了会导致业务中断;缺失率按数据质量指标要求应小于 10%,因此大于 10%可认为是缺失率高。8.5.2.2处理方法去除字段:备份当前数据,直接删除不需要的字段。填充缺失内容:按以下方式填充缺失内容:a)不同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列拆分、列计算等方式得到缺失内容,如年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数据。b)同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充,如时间序列缺失,可使DB5120/T
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB5120 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范 19.3 2023 数据 资源 体系 技术 指南 部分 清洗 加工 规范
