DB52 T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.pdf
《DB52 T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.pdf》由会员分享,可在线阅读,更多相关《DB52 T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.pdf(18页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1540.32020 政务数据 第 3 部分:数据清洗加工规范 Government dataPart 3:Data cleaning and processing specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施 贵州省市场监督管理局 发布 DB52/T 1540.32020 I 目 次 前言 . . II 1 范围 . . 1 2 规范性引用文件 . . 1 3 术语和定义 . . 1 4 缩略语 . . 2 5 环境要求 . . 2 6 过程要求 . . 3
2、 附录 A(资料 性) 典型业务数据转换规则表 . 10 DB52/T 1540.32020 II 前 言 本文件按照GB/T 1.1 2020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1540的第3部分。 DB52/T 1540已经发布了以下部分: 第3部分:数据清洗加工规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展
3、有限公司、信通达智能科技有限公司。 本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、 秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。 DB52/T 1540.32020 1 政务数据 第 3 部分:数据清洗加工规范 1 范围 本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。 本文件适用于政务数据的清洗加工。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 D
4、B52/T 11262016 政府数据 数据脱敏工作指南 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据清洗加工 data cle aning and processing 运用一定方法修正识别到的数据问题,提高数据质量的过程。 3.2 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T 38664.1 2020,3.1 3.3 噪声数据 noisy data 无意义数据,或所有难以被机器正确理解和
5、翻译的数据。 3.4 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 来源:GB/T 35295 2017,2.2.13 DB52/T 1540.32020 2 3.5 非结构化数据 unstruct ured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T 35295 2017,2.1.25 3.6 半结构化数据 semi-struc tured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例: XML 文档内容,每
6、项都被一对标记封起来,如,表面上看是结构化数据,但 之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 82 2019,2.8 3.7 表结构 table st ructure 为主体层内容提供表示语义的一种存储范例。 来源:GB/T 35295 2017,2.2.14 4 缩略语 下列缩略语适用于本文件。 ETL:数据的抽取、转换和加载(Extract Tr ansform Load) ELT:数据的抽取、加载和转换(Extract Lo ad Transform) 5 环境要求 5.1 敏感数据脱敏处理应按 DB52/T 1126 2016 的规定进行,并在保证数据安全不被泄
7、露的环境下进 行清洗加工。 5.2 应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工 作应符合贵州省“一云一网一平台”安全技术的相关规定,并确保数据的机密性和完整性。 5.3 数据清洗加工人员应经过相应的技术和安全培训,具有数据清洗加工的能力,并能按照数据安全 处理相关制度完成清洗加工过程。 DB52/T 1540.32020 3 6 过程要求 6.1 清洗加工流程 6.1.1 数据清洗加工 ETL 流程见图 1。 图1 数据清洗加工 ETL 流程 DB52/T 1540.32020 4 6.1.2 对于海量数据,宜使用数据清洗加工 ELT 流程见图 2。
8、图2 数据清洗加工 ELT 流程 6.2 数据抽取 6.2.1 应具备全量抽取和增量抽取两种方式。 6.2.2 抽取来源应能支撑抽取操作,使用生产库,或通过前置库等方式进行抽取。 6.2.3 应支持结构、半结构和非结构等不同类型数据的抽取。 6.2.4 抽取目的地的存储容量应能支持抽取来源的数据总量,数据抽取目的地的表结构应与抽取来源 的表结构保持一致。 6.2.5 增量抽取(更新)应确定增量更新的方式,抽取的数据应有字段可区分,如更新时间等。 DB52/T 1540.32020 5 6.3 定义规则 6.3.1 应分析抽取目标数据的范围、体量、类型、内容、关系、质量等信息,全面认识数据情况。
9、 6.3.2 以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和 其他相关方的需求、期望,确定切实可操作的数据清洗加工目标及规则。 6.4 数据过滤 数据过滤包括以下操作: a) 将非结构化和半结构化数据转化为结构化数据; b) 对噪声数据进行删除; c) 对业务数据中不符合应用规则的数据进行删除; d) 过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。 6.5 数据检核 6.5.1 检核要求 6.5.1.1 非空检核 应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。 6.5.1.2 长度检核 数据长度应满足转换要求的字段长度。 6.5
10、.1.3 数据量检核 过滤后的数据总量应与原始抽取的数据总量吻合。 6.5.1.4 数据类型和值检核 数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间 类型时,还需检验时间字符串类型的数据,应符合时间格式。 6.5.2 检核步骤 数据检核步骤如下: a) 按 6.5.1 规定检核数据资源是否满足要求; b) 当不满足检核要求时,应进行数据错误标识; c) 当满足检核要求时,直接进行数据转换。 6.6 错误标识 6.6.1 错误类型 常见数据的错误类型如下: a) 残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺; b) 错误数据:数据没有严格
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB52 1540.3-2020 政务数据 第3部分:数据清洗加工规范 1540.3 2020 政务 数据 部分 清洗 加工 规范
