DB3209 T 1258-2023 公共数据平台 数据归集规范.pdf
《DB3209 T 1258-2023 公共数据平台 数据归集规范.pdf》由会员分享,可在线阅读,更多相关《DB3209 T 1258-2023 公共数据平台 数据归集规范.pdf(14页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.020 CCS L 70 盐城市地方标准 公共数据平台 数据归集规范 2023-12-15 发布 2024-03-15 实施 盐城市市场监督管理局 发布 DB3209/T 12582023 DB3209DB3209/T 1258-2023 I 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件由盐城市工业和信息化局提出并归口。本文件起草单位:盐城市工业和信息化局、盐城市大数据管理中心。本文件主要起草人:朱照伟、袁爱娣、戴祥、施晓波、李德志、齐文辉、张亮亮、薛步高、韦应虎、田永艳、董玉伟、李兴儒。DB3209/T 125
2、8-2023-1-公共数据平台 数据归集规范 1 范围 本文件界定了公共数据平台数据归集的术语和定义,规定了归集流程、数据归集要求、数据更新要求及数据归集安全。本文件适用于指导盐城市各级公共管理和服务机构归集数据至盐城市公共数据平台。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 22239 信息安全技术 网络安全等级保护基本要求GB/T 35273 信息安全技术 个人信息安全规范GB/T 35295 信息技术 大数据 术语GB/
3、T 37973 信息安全技术 大数据安全管理指南3 术语和定义 GB/T 35295-2017 界定的以及下列术语和定义适用于本文件。3.1 数据归集 data ingestion 指将来源于不同数据源的数据按照一定的规则进行采集、清洗加工、整合和更新,以支持公共数据平台的数据分析和应用。3.2 公共数据 common data 指各级行政机关、法律法规授权的具有管理公共事务职能的组织、公共企事业单位为履行法定职责,提供公共服务收集、产生的各类数据资源,包括文件、资料、图表、图像、音频、视频、电子证照、电子档案等。3.3 结构化数据 structured data 一种数据表示形式,按此种形式
4、,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。来源:GB/T 35295-2017,2.2.13 3.4 结构化文件 structured file 按照特定结构或格式组织的文件,并便于机器解析和读取。结构化文件通常用于存储和组织大量的数据,如数据库文件、CSV 文件、JSON 文件等。DB3209/T 1258-2023-2-3.5 非结构化文件 unstructured file 不具有预定义模型或未以预定义方式组织的文件,通常以二进制格式或自由文本形式存储,没有固定的结构和格式,如办公文档、图片、HTML、各类报表、图像和音频/视频等。4 归集流程 4.
5、1 明确归集范围 按照“按需归集、应归尽归”的原则,将相关部门及机构所有可归集的公共数据持续归集至公共数据平台。4.2 明确归集方式 结合归集数据的范围、数据传输要求等,确定数据的归集方式。归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。4.3 开展数据归集 应将数据库表结构发送至公共数据主管部门,并根据数据归集方式和数据实际情况,做好数据归集前准备工作并开展数据归集:a)将原始数据不进行处理地采集存放在公共数据平台的贴源层中;b)对贴源层中的数据进行清洗加工使其满足公共数据平台
6、使用的质量要求,清洗加工后的数据存放在公共数据平台的公共层中;c)对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在公共数据平台的主题层。4.4 归集结果确认 数据归集结果确认应包含:a)数据清洗加工:对采集到的数据进行清洗加工,去除无效和冗余数据,对缺失数据进行填补,确保数据的准确性和完整性;b)数据整合:将清洗加工后的数据进行整合,将不同来源的数据进行融合和映射,形成统一的数据格式和标准;c)数据更新:定期对数据进行更新,通过数据采集、清洗加工、整合等环节,保障数据的实时性和准确性。5 数据归集要求 5.1 总体要求 在数据归集过程中,明确数据的归集要求,从数据完整性、及时性、
7、安全性等方面确保数据归集的质量和高效。a)数据完整性:确保所归集的数据准确、完整且没有重复。在数据归集过程中,需要对数据源进行充分的调研和验证,确保数据被完整地收集并没有遗漏,同时,需要进行数据清洗和数据校验,排除无效数据和错误数据,保持数据的准确性和一致性;DB3209/T 1258-2023-3-b)数据安全性:采取相关安全防护措施,确保归集的数据不会受到未经授权的访问、篡改或泄露的风险。采用严格的身份认证、权限控制和脱敏加密技术,保障数据的安全;c)数据及时性:建立高效的数据归集机制,需定期检查数据源的更新频率,设置合理的数据归集周期,确保数据能够及时归集和更新,确保归集的数据始终具备实
8、时性和可信度,满足各级部门和公众对数据的需求。5.2 库表归集 5.2.1 前置库 在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置库。前置库应支持国产数据库,字符编码应支持包括但不限于:UTF-8、GB2312、UTF-16。5.2.2 业务数据表 5.2.2.1 业务数据表存储待归集的业务数据,包含记录 ID、批次号、业务操作标识、更新时间及业务字段,字段说明如下:a)记录 ID:业务数据的唯一记录标识,使用 UUID 主键策略;b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为 YYY
9、YMMDD:数据序号为 8 位数字,每日从 00000001 顺序递增;c)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除为“D”;d)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.2.2.2 业务数据表字段名称和数据格式见表 A.1。5.2.3 对账数据表 5.2.3.1 对账数据表存储数据的对账情况,包含对账记录唯一标识、表名、批次号、批次条数、批次时间、批次状态字段,字段说明如下:a)对账记录唯一标识:对账表主键,使用 UUID 主键策略;b)表名:该批次更
10、新数据所在业务数据表的名称;c)批次号:与业务数据表中批次号一致;d)批次条数:该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致;e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为 YYYY-MM-DD hh:mm:ss;示例:2023-10-01 08:10:56。f)批次状态:本批次数据归集状态,0 为初始默认值,1 为完成归集,-1 为对账数据表批次数量与业务数据表实际数量不一致。5.2.3.2 对账数据表字段名称和数据格式见表 C.1。5.3 文件归集 DB3209/T 1258-2023-4-5.3.1 文件系统 在前置机中建设文件系统,用于临时存
11、储待归集的文件。文件系统可采用 FTP、SFTP 等。5.3.2 文件要求 5.3.2.1 命名约束 文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(09)、英文字符(az、AZ)、下划线“_”组成。示例:文件夹命名:/公司资料/销售数据/2023/12/05/,文件命名:daily_sales_report_20231205.xlsx。5.3.2.2 文件大小 需设置文件大小阈值,文件超出阈值应拆分成多个小文件。5.3.2.3 文件类型 文件类型包括结构化文件和非结构化文件,结构化文件格式包括 CSV、TXT、XLS、XLSX 等,非结构化文件格式包
12、括 PDF、DOC、DOCX、WPS、ZIP 以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX的首行数据应为列名,字符编码应支持包括但不限于:UTF-8、UTF-16、GBK,且不应存在特殊字符,不应存在行或列的合并,不应存在相同列名,不应有空白行等。5.3.3 文件信息表 5.3.3.1 文件信息表用来存储待归集的文件信息,包含记录 ID、批次号、文件名、文件路径、文件大小、文件格式、业务操作标识、文件完整性校验、文件拆分标志、拆分数量、更新时间,字段说明如下:a)记录 ID:业务数据主键,是业务数据的唯一记录标识,使用 UUID 主键策略;b)批次号:业务数据按批次更新时生成
13、,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为 YYYYMMDD,数据序号为 8 位数字,每日从 00000001 顺序递增;示例:2023100100000001,表示 2023 年 10 月 1 日第 1 批次数据。c)文件名:该文件的存储名称;d)文件路径:该文件的存储路径;e)文件大小:该文件占用的存储空间,单位为 KB;f)文件格式:文件的格式;g)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除为“D”;h)文件完整性校验:该文件对账使用的完整性校验码;i)文件拆分标识:用于标识该文件是否进行了拆分,1 为已拆
14、分,0 为未拆分;j)拆分数量:该文件被拆分的数量;k)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.3.3.2 文件信息表字段名称和数据格式见表 B.1。5.3.4 文件拆分信息表 DB3209/T 1258-2023-5-5.3.4.1 文件拆分信息表用来存储文件拆分信息,包含记录 ID、文件信息表记录 ID、文件名、文件路径、文件大小、文件完整性校验、更新时间,字段描述如下:a)记录 ID:业务数据的唯一记录标识,使用 UUID 主键策略;b)文件信息表记录 ID:拆分文件对应文件信息表的记录 I
15、D;c)文件名:拆分文件的存储名称;d)文件路径:拆分文件的存储路径;e)文件大小:拆分文件占用的存储空间,单位为 KB;f)文件完整性校验:该文件对账使用的完整性校验码;g)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.3.4.2 文件拆分信息表字段名称和数据格式见表 B.1。5.3.5 对账数据表 5.3.5.1 文件的对账数据表包括对账记录唯一标识、文件路径、文件类型、批次号、批次时间、批次状态,其中结构化文件对账数据表还应包括批次条数等字段,文件类型字段以“SD”标识,非结构化文件对账数据表还应
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB3209 1258-2023 公共数据平台 数据归集规范 1258 2023 公共 数据 平台 规范
