DB37 T 4646.1-2023 公共数据 数据治理规范 第1部分:数据归集.pdf
《DB37 T 4646.1-2023 公共数据 数据治理规范 第1部分:数据归集.pdf》由会员分享,可在线阅读,更多相关《DB37 T 4646.1-2023 公共数据 数据治理规范 第1部分:数据归集.pdf(22页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.240 CCS L 67 37 山东省地方标准 DB37/T 4646.12023 公共数据 数据治理规范 第 1 部分:数据归集 Public dataSpecification of data governancePart 1:Data collection2023-08-22 发布2023-09-22 实施山东省市场监督管理局发 布 DB37/T4646.12023 目次 前言.II 引言.III 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.1 5 数据归集流程.2 明确归集范围.2 5.1 明确归集方式.2 5.2 开展数据归集.2 5.3 归
2、集结果确认.3 5.4 6 数据归集要求.3 库表归集.3 6.1 文件归集.4 6.2 服务接口归集.6 6.3 7 数据更新要求.6 8 数据归集安全.7 附录 A(资料性)库表归集相关数据表约束及示例.8 A.1 业务数据表约束及示例.8 A.2 对账数据表约束及示例.8 附录 B(资料性)文件归集相关数据表约束及示例.10 B.1 文件信息表约束及示例.10 B.2 文件拆分信息表约束及示例.10 B.3 对账数据表约束及示例.11 附录 C(资料性)服务接口数据示例及内容描述.13 C.1 XML 格式数据示例.13 C.2 增加信息服务接口.13 C.3 删除信息服务接口.14 C
3、.4 修改信息服务接口.14 C.5 只增信息服务接口.15 参考文献.16 DB37/T 4646.12023 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件是DB37/T 4646公共数据 数据治理规范的第1部分。DB37/T 4646已经发布了以下部分:第1部分:数据归集;第2部分:数据清洗比对;第3部分:数据返还;第4部分:资源服务目录。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出、归口并组织实施。DB37/T 4646.12023 III 引言 为构建完善全省一体化
4、数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山东省先后印发山东省“十四五”数字强省建设规划(鲁政字2021128号)等一系列政策文件,对全省一体化数据资源体系建设和管理提出要求。为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、数据清洗比对、数据返还、资源服务目录等工作存在的普遍问题,制定DB37/T 4646公共数据 数据治理规范系列标准。DB37/T 4646拟由以下四个部分构成。第 1 部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平台的流程和要求。第 2 部分:数据清洗比对。目的在于规范各级公共管理和
5、服务机构依托省一体化大数据平台开展数据清洗比对工作的流程、方法和要求。第 3 部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展数据返还工作的流程和要求。第 4 部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展资源服务目录管理和应用的工作要求。DB37/T 4646.12023 1 公共数据 数据治理规范 第 1 部分:数据归集 1 范围 本文件规定了公共数据的数据归集流程、数据归集要求、数据更新要求、数据归集安全等。本文件适用于指导各级公共管理和服务机构归集数据至省一体化大数据平台。2 规范性引用文件 下列文件中的内容通过文中的规范性
6、引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 222392019 信息安全技术 网络安全等级保护基本要求 GB/T 352732020 信息安全技术 个人信息安全规范 GB/T 379732019 信息安全技术 大数据安全管理指南 DB37/T 4646.22023 公共数据 数据治理规范 第2部分:数据清洗比对 3 术语和定义 下列术语和定义适用于本文件。3.1 公共数据资源目录 directory of public data resources 按照一定的分类方法进行排序和
7、编码的一组信息,用于描述各个公共数据特征及组织方式,便于公共数据的组织、检索、定位、发现与获取。来源:DB37/T 35202019,3.2,有修改 3.2 省一体化大数据平台 provincial integrated big data platform 全省公共数据管理、共享开放的统一基础支撑平台,由省级枢纽、市级节点和县级节点组成。3.3 公共管理和服务机构 public administration and services organization 国家机关、法律法规授权的具有管理公共事务职能的组织,以及供水、供电、供气、公共交通等公共服务运营单位。4 缩略语 下列缩略语适用于本文件
8、。CSV:逗号分隔文件格式(Comma-Separated Values)FTP:文件传输协议(File Transfer Protocol)GZIP:文件压缩程序(GNUZIP)HTTP:超文本传输协议(Hypertext Transfer Protocol)HTTPS:超文本传输安全协议(Hypertext Transfer Protocol Secure)IP:网络互联协议(Internet Protocol)DB37/T 4646.12023 2 PDF:可携带文档格式(Portable Document Format)SFTP:安全文件传送协议(Secret File Transfe
9、r Protocol)TXT:文本(Text)URI:统一资源标识符(Uniform Resource Identifier)UTF-8:Unicode的可变长度字符编码(8-bit Unicode Transformation Format)UUID:通用唯一识别码(Universally Unique Identifier)XML:可扩展标记语言(Extensible Markup Language)5 数据归集流程 明确归集范围 5.1 公共管理和服务机构应根据业务职责,编制并动态维护公共数据资源目录,按照“按需归集、应归尽归”的原则,将本机构所有可归集公共数据持续归集至省一体化大数据平
10、台。明确归集方式 5.2 5.2.1 应结合归集数据的范围、数据传输要求等,确定数据的归集方式。5.2.2 公共数据的归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。注:以服务接口方式归集数据时,有公共管理和服务机构推送待归集数据、大数据工作主管部门拉取待归集数据两种方式,本文件以公共管理和服务机构推送待归集数据方式为主。开展数据归集 5.3 5.3.1 应将数据库表结构发送至大数据工作主管部门,并根据数据归集方式和数据实际情况,做好数据归集前准备工作并开展数据归集。5.3.2
11、以库表方式开展数据归集的要求应符合 6.1,主要工作包括:a)应在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置库;b)应在前置库中建设业务数据表、对账数据表,业务数据表存储待归集的业务数据,对账数据表存储数据的更新情况。注:前置机主要部署在公共管理和服务机构端,用于实现库表、文件数据的批量传输。5.3.3 以文件方式开展数据归集的要求应符合 6.2,主要工作包括:a)应在前置机中建设文件系统,用于临时存储待归集的文件;b)在前置库中建设文件信息表、文件拆分信息表、对账数据表,文件信息表、文件拆分信息表分别存储非结构化文件的详细信息和拆分信息,对账数据表存
12、储文件的更新情况。5.3.4 以服务接口方式开展数据归集主要工作包括:a)大数据工作主管部门应根据提供的库表结构开发服务接口,挂载到相关公共数据资源目录下,通过省一体化大数据平台发布,服务接口的命名、服务方法、请求类型、输入参数和输出参数等应符合 DB37/T 42252020 中第 5 章的规定;b)应依据服务接口要求,开发服务接口调用程序,调用服务接口推送本机构数据至省一体化大数据平台,可采用压缩等技术实现数据高速传输,服务接口相关要求应符合 6.3。5.3.5 以库表和文件方式归集数据时,大数据工作主管部门应依据业务数据表结构、对账数据表内容等开展数据归集。DB37/T 4646.120
13、23 3 归集结果确认 5.4 5.4.1 大数据工作主管部门应通过对账数据等对已归集数据进行核对,确保公共管理和服务机构提供的数据与已归集的数据、公共数据资源目录一致。5.4.2 大数据工作主管部门应对已归集数据开展数据清洗比对等数据治理工作,反馈问题数据和数据质量报告,公共管理和服务机构对问题数据开展源头治理,对修正数据重新进行归集。其中,数据清洗比对应符合 DB37/T 4646.22023 的要求。6 数据归集要求 库表归集 6.1 6.1.1 前置库 前置库应支持国产数据库,字符编码应为UTF-8。6.1.2 业务数据表 业务数据表除业务字段外应包含记录ID、批次号、业务操作标识、更
14、新时间字段等扩展信息。业务数据表扩展信息的字段名称和说明见表1,业务数据表的约束和示例见A.1。表1 业务数据表扩展信息 字段名称 字段说明 记录ID 记录ID为业务数据主键,是业务数据的唯一记录标识,宜使用UUID主键策略。批次号 批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从00000001顺序递增。以2022051000000003为例,该数据序号表示2022年5月10日第3批次数据。业务操作标识 业务操作标识用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删
15、除为“D”。更新时间 更新时间为业务数据写入业务数据表的时间,格式为YYYY-MM-DD hh:mm:ss。6.1.3 对账数据表 对账数据表见表2,约束和示例见A.2。表2 对账数据表 字段名称 字段说明 对账记录唯一标识 对账记录唯一标识为对账表主键,宜使用UUID主键策略。表名 表名为该批次更新数据所在业务数据表的名称。批次号 批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从00000001顺序递增。以2022051000000003为例,该数据序号表示2022年5月10日第3批次
16、数据。批次条数 批次条数为该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致。批次时间 批次时间为对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DD hh:mm:ss。DB37/T 4646.12023 4 表 2 对账数据表(续)字段名称 字段说明 批次状态 批次状态为本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账数据表批次数量与业务数据表实际数量不一致。文件归集 6.2 6.2.1 文件系统 文件系统可采用FTP、SFTP等。6.2.2 文件 6.2.2.1 命名约束 文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件
17、的命名应由阿拉伯数字(09)、英文字符(az、AZ)、下划线“_”组成。6.2.2.2 文件大小 应设置文件大小阈值,文件超出阈值应拆分成多个小文件。6.2.2.3 文件格式 结构化文件格式包括CSV、TXT、XLS、XLSX等,非结构化文件格式包括PDF、DOC、DOCX、WPS、ZIP,以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX的首行数据应为列名,字符编码应为UTF-8,且不应存在特殊字符,其他约束包括但不限于:a)TXT、CSV 文件格式的数据应以半角逗号作分隔符;b)XLS、XLSX 文件格式的约束主要包括:1)应只包括一个表单页,如存在多个表单页应拆分成多个文件;
18、2)不应存在行或列的合并;3)不应存在相同列名;4)不应有空白行。6.2.2.4 文件内容 结构化文件中除业务字段外,应包含记录ID、批次号、业务操作标识和更新时间等字段,应符合6.1.2要求。6.2.3 文件信息表 文件信息表见表3,约束和示例见B.1。表3 文件信息表 字段名称 字段说明 记录ID 记录ID为业务数据主键,是业务数据的唯一记录标识,宜使用UUID主键策略。批次号 批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从00000001顺序递增。以202205100000000
19、3为例,该数据序号表示2022年5月10日第3批次数据。DB37/T 4646.12023 5 表 3 文件信息表(续)字段名称 字段说明 文件名 文件名为该文件的存储名称。文件路径 文件路径为该文件的存储路径。文件大小 文件大小为该文件占用的存储空间,单位为KB。文件格式 文件格式为文件的格式,如JPEG等。文件中文名 文件中文名为该文件的中文名称。文件完整性校验 文件完整性校验为该文件对账使用的完整性校验码。业务操作标识 业务操作标识用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除为“D”。文件是否拆分标识 文件是否拆分标识用于标识该文件是否进行了拆分,1为已拆分,
20、0为未拆分。拆分数量 拆分数量为该文件被拆分的数量。更新时间 更新时间为业务数据写入业务数据表的时间,格式为YYYY-MM-DD hh:mm:ss。6.2.4 文件拆分信息表 文件拆分信息表见表4,约束和示例见B.2。表4 文件拆分信息表 字段名称 字段说明 记录ID 记录ID为业务数据主键,是业务数据的唯一记录标识,宜使用UUID主键策略。文件信息表记录ID 文件信息表记录ID为拆分文件对应文件信息表的记录ID。文件名 文件名为拆分文件的存储名称。文件路径 文件路径为拆分文件的存储路径。文件大小 文件大小为拆分文件占用的存储空间。文件完整性校验 文件完整性校验为该文件对账使用的完整性校验码。
21、更新时间 更新时间为业务数据写入业务数据表的时间,格式为YYYY-MM-DD hh:mm:ss。6.2.5 对账数据表 文件的对账数据表应包括对账记录唯一标识、文件路径、批次号、批次时间、批次状态等字段,其中结构化文件对账数据表还应包括批次条数等字段,字段标识符以“SD”开头,非结构化文件对账数据表还应包括批次个数、批次大小等字段,字段标识符以“UD”开头,对账数据表见表5,约束和示例见B.3。表5 对账数据表 字段名称 字段说明 对账记录唯一标识 对账记录唯一标识为对账表主键,宜使用UUID主键策略。文件路径 文件路径为拆分文件的存储路径。批次号 批次号为业务数据按批次更新时生成,是数据日期
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB37 4646.1-2023 公共数据 数据治理规范 第1部分:数据归集 4646.1 2023 公共 数据 治理 规范 部分
