DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf
《DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf》由会员分享,可在线阅读,更多相关《DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf(17页珍藏版)》请在麦多课文档分享上搜索。
1、 I ICS 35.020 CCS L 70 35 福建省地方标准 DB35/T 19522020 公共信息资源开放 数据质量评价规范 Open dataSpecification for quality evaluation 2020 - 12 - 30 发布 2021 - 03 - 30 实施 福建省市场监督管理局 发布 DB35/T 19522020 I 目 次 前 言 . . II 1 范围 . . 1 2 规范性引用文件 . 1 3 术语和定义 . . 1 4 数据集元数据描述 . 2 5 数据质量评价原则 . 3 6 数据质量评价方法 . 3 6.1 重复值分析法 . . 3 6.
2、2 缺失值分析法 . . 4 6.3 值域分析法 . . 4 6.4 逻辑关系分析法 . 4 6.5 词组比对分析法 . 4 6.6 实验观察法 . . 4 6.7 经验分析法 . . 4 7 数据质量评价指标 . 4 7.1 完整性 . . 4 7.2 一致性 . . 5 7.3 唯一性 . . 6 7.4 可机读性 . . 7 7.5 规范性 . . 8 7.6 及时性 . . 9 7.7 原始性 . . 9 7.8 非歧视性 . . 9 7.9 安全性 . . 10 8 数据质量评价步骤 . 10 8.1 步骤 . . 10 8.2 选择评价指标 . . 11 8.3 初步评价 . .
3、11 8.4 数据集元数据评价 . 11 8.5 标识数据记录评价 . 11 8.6 内容数据记录评价 . 11 8.7 形成评价结果 . . 12 附 录 A (资料性) 评价结果应用示例 . 13 DB35/T 19522020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建省经济信息中心提出。 本文件由福建省信息化标准化技术委员会归口。 本文件起草单位:福建省经济信息中心、浪潮软件股份有限公司。 本文件主要起草人:阙天豪、何坤山、郑
4、清溪、吴阳、戴起飞、张兆勇、鲍庆峰、许剑雄。 DB35/T 19522020 1 公共信息资源开放 数据质量评价规范 1 范围 本文件给出了公共信息资源开放数据集元数据描述,确立了数据质量评价的原则、方法、指标和步 骤。 本文件适用于公共信息资源管理、开放、开发和质量评价等活动中的数据质量评价。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 740820 05 数据元和交换格式 信息交换 日期和时间表示法 GB/T 1
5、97102005 地理信息 元数据 GB/T 363442 018 信息技术 数据质量评价指标 3 术语和定义 GB/T 197102 005、GB/T 363442018界定的以及下列术语和定义适用于本文件。 3.1 政务部门 governme nt department 国家机关、经法律法规授权或者受委托管理公共事务的事业单位和团体组织。 3.2 公共信息资源 public infor mation resources 政务部门、公共服务企业在履行职责或经营过程中制作或获取的,以一定形式记录、保存的,与企 业和公众息息相关的文件、资料、图表和数据等各类信息资源。 3.3 公共信息资源开放
6、opening of public information resources 经过数据加工处理后,将不涉及国家秘密、商业秘密和个人隐私的公共信息资源,通过公共信息资 源开放平台,提供给社会使用的过程。 3.4 数据质量 dat a quality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 DB35/T 19522020 2 来源:GB/T 363 442018,2.3 3.5 数据质量评价 data quali ty evaluation 按照数据质量评价指标体系,采用适当的方法对数据质量进行评估,并形成数据质量评价结果的过 程。 3.6 数据集 dataset 具有一定
7、主题,可以标识并可以被计算机化处理的数据集合。 来源:GB/T 363 442018,2.6 3.7 元数据子集 metada ta section 元数据的子集合,由相关的元数据实体和元素组成。 来源:GB/T 197 102005,4.8 3.8 数据项 data item 数据的不可分割的最小单位。 4 数据集元数据描述 数据集元数据包括标识子集和内容子集,描述见表1。 表1 数据集元数据 序号 子集 元素 填写说明 填写建议 1 标识子集 名称 缩略描述公共信息资源内 容的标题 由概括公共信息资源内容的标题和“信息”字 样组成 2 摘要 对公共信息资源内容进行 概要说明的文字 与公共信
8、息资源名称相对应 3 开放类型 公共信息资源面向社会开 放的类型 根据公共信息资源开放的实际情况,选择“授 权开放、普遍开放”之一 4 提供单位名称 公共信息资源提供单位的 名称 以公共信息资源提供单位的全称表示 5 提供单位统一社会 信用代码 公共信息资源提供单位的 统一社会信用代码 18位统一社会信用代码 6 提供单位地址 公共信息资源提供单位的 物理地址 省市区街号 7 提供单位联系方式 公共信息资源提供单位的 联系方式 电子邮箱或办公电话号码 DB35/T 19522020 3 表1 数据集元数据 (续) 序号 子集 元素 填写说明 填写建议 8 标识子集 更新周期 提供单位更新公共信
9、息 资源的周期 根据公共信息资源更新实际情况,选择“每 年、每半年、每季度、每月、每周、每日、 实时、其他”等周期之一; 属于结构化数据资源的,按更新频率较快的 数据项进行描述; 属于非结构化数据资源的, 则对公共信息资源整体进行描述 9 发布日期 提供单位发布公共信息 资源的日期 按照GB/T 7408-2005执行,格式为 YYYY-MM-DD 10 更新日期 提供单位更新公共信息 资源的日期 按照GB/T 7408-2005执行,格式为 YYYY-MM-DD 11 内容子集 数据集摘要 数据表名称;一个数据 集下可以有多个数据表 名称清晰、无歧义 12 数据集特征数据元 数据项名称、数据
10、项格 式、数据项是否脱敏 数据集特征数据元填写建议如下: a)数据项名称: 描述结构化信息资源中具体 数据项的标题,适用于格式为数据库、 电子 表格类等的信息资源 b)数据项格式:应依据数据类型,选择“字 符串型、数值型、货币型、日期型、日期时 间型、逻辑型、通用型、整型、双精度型、 浮点型、长文本、二进制”之一 c)数据项是否脱敏:选择“是、否”之一 5 数据质量评价原则 5.1 系统性 综合考虑各要素对数据质量的影响,全面评价公共信息资源开放应具备的条件、要求和优化提高数 据质量的要素。 5.2 通用性 根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重。 5.3 可操作性 评价
11、内容和指标可量化,评价步骤和方法可操作,评价结果可使用。 6 数据质量评价方法 6.1 重复值分析法 DB35/T 19522020 4 在非冗余的情况下,将每条数据记录中的部分数据项或者所有数据项的取值,与所有的数据记录进 行逐一比对,识别重复记录。 6.2 缺失值分析法 对每条数据记录的所有数据项进行逐一检查,识别数据记录的数据项是否为空。 6.3 值域分析法 将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。 6.4 逻辑关系分析法 通过对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。 6.5 词组比对分析法 将数据记录目标数据项的取值与目标敏感
12、词、常见错词等词库内容进行比对,识别与词库相同的数 据记录。 6.6 实验观察法 设置某些条件,通过控制行为过程,观察符合条件的结果是否出现。 6.7 经验分析法 对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。 经验分析法常与逻辑关系分析法、词组比对分析法联合使用。 7 数据质量评价指标 7.1 完整性 完整性评价指标见表2。 表2 完整性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 完 整 性 数据集 完整性 一个数据集是否碎片化,是 否人为拆分成多个数据集 经验 分析 数据集不完整得0 数据集完整得1 同一数据集按时间、地域、
13、 产品类型等属性,拆分成多 个数据集 2 标识子 集元数 据完整 性 标识子集元数据是否完整 缺失 值分 析 标识子集元数据填 写不完整得0 标识子集元数据填 写完整得1 标识子集元数据完整性示例 /说明如下: a)信息资源摘要为空 b)信息资源提供单位为空 DB35/T 19522020 5 表2 完整性评价指标 (续) 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 3 完 整 性 内容子 集元数 据完整 性 内容子集元数据是否完 整。 a 经验 分析 内容子集元数据 填写不完整得0 内容子集元数据 填写完整得1 内容子集元数据完整性示 例/说明如下: a)旅行社
14、名称、旅行社地 址是“旅行社名录”数据 集内容子集元数据; 如果缺 失“旅行社名称”这一元数 据, 数据集的使用价值明显 降低 b)一个内容子集仅有一个 元数据视为元数据不完整 4 标识数 据记录 数据项 完整性 标识数据记录的所有数据 项填写完整、无缺失 缺失 值分 析 数据项缺失得0 数据项完整得1 在 “旅行社名录” 数据集里, 标识数据记录的信息资源 摘要内容为空 5 内容数 据记录 完整性 一个数据集涵盖有效日期 内产生的所有数据记录 经验 分析 有效日期内数据 记录缺失得0 有效日期内数据 记录完整得1 在“天气预报信息”数据集 里, 若其一年内开放的数据 记录内容无法覆盖365天
15、, 视为数据记录不完整 6 内容数 据记录 数据项 完整性 每条数据记录的数据项填 写完整、无缺失 缺失 值分 析 A=数据项填写完 整的数据记录条 数 B=数据记录总数 在 “旅行社名录” 数据集里, 一条数据记录包括旅行社 名称、 旅行社地址基础数据 项; 所有旅行社名称取值缺 失, 或者旅行社地址取值缺 失的数据记录都是不完整 的 注: X代表评价值。 a 内容子集元数据保存了数据集的最基本、最重要信息,直接决定本数据集是否可用,每一个数据集的内容 子集元数据均有不同。数据质量评价时,根据数据集名称、内容、产生此数据集的业务、可能的应用场景等综合 确定数据集的内容子集元数据。 7.2 一
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB35 1952-2020 公共信息资源开放 数据质量评价规范 1952 2020 公共 信息资源 开放 数据 质量 评价 规范
