DB21 T 3893-2023 工业数据流通 数据清洗规范.pdf
《DB21 T 3893-2023 工业数据流通 数据清洗规范.pdf》由会员分享,可在线阅读,更多相关《DB21 T 3893-2023 工业数据流通 数据清洗规范.pdf(18页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 25.040.40CCS L 7021辽宁省地方标准DB21/T 38932023工业数据流通数据清洗规范2023-12-30 发布2024-01-30 实施辽宁省市场监督管理局发布DB21/T 38932023I目 次前言.III1范围.12规范性引用文件.13术语和定义.14缩略语.25清洗目的.26清洗范围.27过程要求.37.1清洗流程.37.2数据抽取.37.3定义规则.37.4数据过滤.47.5数据校验.47.6错误标识.47.7修正处理.57.8数据转换.67.9结果检验.67.10数据加载.88环境要求.88.1数据脱敏.88.2数据安全.108.3人员能力.109质量
2、要求.10参考文献.12DB21/T 38932023III前 言本文件按照GB/T 1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由辽宁省工业和信息化厅提出并归口。本文件起草单位:沈阳华睿博信息技术有限公司、国家计算机网络应急技术处理协调中心辽宁分中心、辽宁艾特斯智能交通技术有限公司、辽宁职业学院、东北大学、上海数据交易所、辽宁省大数据管理中心、北京赛迪时代信息产业股份有限公司、辽宁省先进装备制造业基地建设工程中心。本文件主要起草人:邵华、李凯、黄书鹏、王宇飞、宋宪辉、王义刚、申翔
3、宇、谭振华、杨成实、张翔宇、魏国伟、刘洋。本文件发布实施后,任何单位和个人如有问题和意见建议,均可以通过来电和来函等方式进行反馈,我们将及时答复并认真处理,根据实际情况依法进行评估及复审。归口管理部门通信地址:沈阳市辽宁省沈阳市皇姑区北陵大街45-2号。归口管理部门联系电话:024-86913384。文件起草单位通讯地址:辽宁省沈阳市和平区青年大街386号华阳国际大厦2396。文件起草单位联系电话:18698849086。DB21/T 389320231工业数据流通数据清洗规范1范围本文件规定了工业数据清洗的过程要求、环境要求和质量要求。本文件适用于数据流通中的工业数据清洗。2规范性引用文件下
4、列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 22239-2019信息安全技术网络安全等级保护基本要求GB/T 35274-2017信息安全技术大数据服务安全能力要求GB/T 35295-2017信息技术大数据术语GB/T 37973-2019信息安全技术大数据安全管理指南GB/T 39477-2020信息安全技术政务信息共享数据安全技术要求GB/T 42128-2022智能制造工业数据分类原则DA/T 82-2019基于文档型非关系型数据库的档案数
5、据存储规范3术语和定义下列术语和定义适用于本文件。3.1数据清洗data cleaning运用一定方法识别并修正数据问题,提高数据质量的过程。3.2工业数据industrial data在工业领域中,涉及企业的所有生产活动和服务所产生的数据。来源:GB/T 42128-2022,3.1.13.3结构化数据structured data一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。来源:GB/T 35295-2017,2.2.133.4非结构化数据unstructured data不具有预定义模型或未以预定义方式组织的数据。来源:GB
6、/T 35295-2017,2.1.25DB21/T 3893202323.5半结构化数据semi-structured data具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。示例:XML文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。来源:DA/T 82-2019,2.83.6表结构table structure为主体层内容提供表示语义的一种存储范例。来源:GB/T 35295-2017,2.2.143.7敏感数据sensitive data由权威机构确定的受保护的信息数据。注:敏感信息数据的泄露、修
7、改、破坏或丢失会对人或事产生可预知的损害。来源:GB/T 35295-2017,2.2.144缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换、加载(Extract Transform Load)5清洗目的工业数据涉及到各种传感器、监测设备和生产设备,具有多样性和异构性,由于传感器和设备的不稳定性、及环境变化等因素影响,工业数据中存在大量错误数据、缺失数据和异常数据。工业数据清洗目的是清除或修正错误数据、缺失数据、异常数据或其他有问题的数据,提高工业数据在建模分析、应用开发、资源调度和监测管理等方面的应用价值,保障流通的工业数据质量。6清洗范围清洗范围涵盖工业领域产品和服务全生命周期产生
8、和应用的数据,包括但不限于工业企业在研发设计、生产制造、供应链物流、营销、运维、管理及金融等环节中生成和使用的数据,以及工业互联网平台企业在设备接入、平台运行、工业应用程序使用等过程中生成和使用的数据。各类型数据说明如下:a)研发设计数据:包括研发设计数据、开发测试数据等;b)生产制造数据:包括控制信息、工况状态、工艺参数、系统日志、生产质量数据、生产实绩数据等;c)供应链物流数据:包括供需计划数据、仓储物流数据等;d)营销数据:包括投标次数、订单数量、交易金融、客户异议数据等;e)运维数据:包括产品运行状况数据、产品售后服务数据等;f)管理数据:包括客户基本信息、业务合作数据、人事财务数据、
9、系统设备资产信息、产品基本信息、项目进度数据、业务统计数据(如资源量数据、能耗监测数据等);g)金融数据:包括信贷数据、融资租赁数据、征信数据等;DB21/T 389320233h)平台运营数据:接入的设备数据、工业模型数据、工业应用程序数据、平台运行数据等。7过程要求7.1清洗流程工业数据清洗流程包括数据抽取、定义规则、数据过滤、数据校验、错误标识、修正处理、数据转换、结果检验及数据加载等环节。工业数据清洗可采取ETL流程。工业数据清洗ETL流程图见图1。图1工业数据清洗ETL流程图7.2数据抽取数据抽取应符合以下要求:a)应具备全量抽取和增量抽取两种方式;b)数据抽取来源应能支撑抽取操作,
10、使用生产库,或通过前置库等方式进行抽取;c)应支持结构化数据、半结构化数据和非结构化数据等不同类型数据的抽取;d)数据抽取目的地的存储容量应能支持数据抽取来源的数据总量,数据抽取目的地的表结构应与数据抽取来源的表结构保持一致;e)增量抽取应确定增量更新的方式,抽取的数据应有字段可区分,如更新时间等。7.3定义规则DB21/T 389320234应分析抽取目标数据的范围、体量、类型、内容、关系、质量等信息,全面认识数据情况。数据清洗针对的对象主要有缺失值、异常值、重复值和无用值,针对不同对象的不同形式,结合应用需求,确定数据清洗目标和规则,从而得到期望的数据。针对不同的清洗对象,清洗规则包括:a
11、)缺失值清洗:按照缺失比例和缺失字段重要性,制定清洗策略;b)异常值清洗:针对取值错误、格式错误和逻辑错误制定不同的清洗策略;c)重复值:重复数据可以去重或作出标记;d)无用值:无用数据字段可以直接进行删除。但在进行该过程的时候,要注意备份原始数据。7.4数据过滤数据过滤应包括以下操作:a)将非结构化数据和半结构化数据转换为结构化数据;b)对噪声数据进行删除;c)对业务数据中不符合应用规则的数据进行删除;d)过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。7.5数据校验7.5.1基本要求应对工业数据进行非空校验、长度校验、数据量校验、数据类型和值校验。当不满足校验要求时,应进行数据
12、错误标识;当满足校验要求时,直接进行数据转换。7.5.2非空校验应在字段为非空的情况下,对该字段数据进行校验,数据不能为空值。7.5.3长度校验数据长度应满足转换要求的字段长度。7.5.4数据量校验过滤后的数据总量应与原始抽取的数据总量吻合。7.5.5数据类型和值校验数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检验时间字符串类型的数据是否符合时间格式。7.6错误标识7.6.1错误类型工业数据的错误类型包括但不限于:a)残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺;b)错误数据:数据没有严格按照规范记录,包括格式内容错误、逻
13、辑错误、不合规等;c)重复数据:相同的记录出现多条或多条记录代表同一实体。7.6.2识别方法DB21/T 389320235可采用统计学方法、数据挖掘、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。7.6.3标识步骤错误标识步骤如下:a)按 7.6.2 推荐的识别方法,分析筛选出工业数据资源中存在的数据问题;b)按 7.6.1 给出的错误类型,对数据问题进行分类,标识错误。7.7修正处理7.7.1残缺数据处理7.7.1.1处理策略残缺数据按照字段缺失率和字段重要性,分别制定处理策略。残缺数据处理策略制定应满足以下内容:a)
14、重要性高、缺失率低:通过计算进行填充;通过经验或业务知识估计;b)重要性高、缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;去除字段并在结果中标明;c)重要性低、缺失率低:不做处理或简单填充;d)重要性低、缺失率高:去除该字段。7.7.1.2去除字段处理数据中如有多余字段,应备份当前数据,直接删除掉不需要的字段。7.7.1.3填充缺失内容处理应采用以下方式填充缺失内容:a)同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列项拆分、列计算等方式得到缺失内容;b)同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充;c)重新获取:当缺失率高且非常重要的数据项,
15、应采取重新抽取不同数据源的数据进行关联对比填充。7.7.1.4取数补全处理应通过线下收集、业务知识或经验推测补全缺失值。7.7.2错误数据处理7.7.2.1格式内容问题处理格式内容问题数据处理应采用以下方法:a)全、半角处理:通过正则表达式将全、半角符号按照事先定义的规则进行全、半角符号统一;b)有不该存在的字符:以半自动校验结合半人工方式来找出存在的问题,自动去除不需要的字符,将数据自动化统一或人工修正为正确字符;c)内容与字段不匹配:详细识别问题类型,如人工填写错误、前端没有校验、导入数据时部分或全部存在列没有对齐、数据源端业务系统缺陷等,不能直接删除,应按照清洗规则,采取加入更多数据源进
16、行数据关联,找到匹配的相应字段进行填补。7.7.2.2逻辑问题处理DB21/T 389320236逻辑问题数据处理应采用以下方法:a)了解数据潜在的逻辑规则,采取逻辑推理法,直接去掉一些使用简单逻辑推理即可发现问题的数据;b)对于不重要的不合理数据应过滤,形成错误数据集由数源部门进行确认是否可删除;c)通过字段间相互验证的方法修正矛盾内容,如根据字段的数据来源,判定哪个字段提供的信息更可靠,去除或重构不可靠字段;d)通过分箱、聚类、回归等方法识别离群值(异常值),按照经验和业务流程判断其合理性,若合理,则保留该数值;若不合理,对重要性较高而无法重新采集的数值,按缺失数据处理,对重要性较低的数值
17、,可直接删除;e)对于复杂逻辑数据问题应咨询了解该数据的产生原因,按照协商的清洗加工规则进行处理。7.7.2.3不合规问题处理不合规问题数据处理应采用以下方法:a)设定判定规则:设定强制合规条件,对于不在规则范围内的数据,应强制设置最大值及最小值,或剔除、判断为无效字段;b)设定警告规则:对于不在规则范围内的数据,应进行警告及人工处理。7.7.3重复数据处理重复数据处理步骤如下:a)通过元数据血缘关系查询到重复数据的各个来源;b)通过数据主键或寻找相关信息识别重复数据的含义,不是相同含义的数据不能界定为重复数据进行去重处理,应分别保留;c)查询到确定的重复数据,根据权威性和应用场合,选择最恰当
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB21 3893-2023 工业数据流通 数据清洗规范 3893 2023 工业 数据 流通 清洗 规范
