1、ICS 35.040CCS L 71DB5120四 川 省(资 阳 市)地 方 标 准DB5120/T 19.22023数据资源体系技术指南第 2 部分:数据采集汇聚规范2023-12-22 发布2023-12-29 实施资阳市市场监督管理局发 布DB5120/T 19.22023I目 次前 言.II1范围.12规范性引用文件.13术语和定义.14缩略语.25数据采集原则.26数据采集.3附录 A(规范性)数据资源提供方名称规范表.7参考文献.8DB5120/T 19.22023II前 言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意
2、本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。DB5120/T 19.220231数据资源体系技术指南第 2 部分:数据采集汇聚规范1范围本文件规定了资阳市域数据采集汇聚相关术语和定义、缩略语、采集原则、采集等工作规范。本文件适用于资阳市域政
3、务组织、非政务组织和个人信息资源数据采集、汇聚、更新的管理和使用。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1信息技术 词汇 第 1 部份:基本术语GB/T 11457信息技术 软件工程术语GB/T 18492信息技术 系统及软件完整性级别GB/T 22032系统工程 系统生存周期过程GB/T 25000系统与软件工程(所有部分)GB/T 29264信息技术服务 分类与代码GB/T 35295信息技术 大数据 术语GB
4、/T 36625.3智慧城市 数据融合 第 3 部分:数据采集规范GB/T 38667信息技术 大数据 数据分类指南GB/T 40094.2电子商务数据交易 第 2 部分:数据描述规范GB/T 40094.3电子商务数据交易 第 3 部分:数据接口规范行GB/T 42450信息技术 大数据 数据资源规划DB51/T 3056政务数据 数据分类分级指南3术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 25000、GB/T 29264、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T 40094.3、G
5、B/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据采集 data acquisition从数据源中得到原始数据,通过标准化处理并转化为满足未来数据共享与利用需求的过程。3.2数据分类 data categorization把具有某种共同属性或特征的数据归并在一起,按照一定的原则和方法进行归类。3.3DB5120/T 19.220232数据分级 data classification根据数据的敏感程度,按照一定的原则对数据进行定级,从而为数据的开放和共享安全策略制定提供支撑的过程。3.4从数据库 compliance database从数据库是主数据库的备
6、份,当主数据库变化时从数据库要更新,数据库软件可以设计更新周期。3.5文件服务器 file server文件服务器,是指在计算机网络环境中,所有用户都可访问的文件存储设备,是一种专供其他电脑检索文件和存储的特殊电脑。3.6数据归集库 data collection database数据归集库指数据资源中心集中存储来自不同来源数据的位置。4缩略语下列缩略语适用于本文件。XML:可扩展标记语言(eXtensible Markup Language)JSON:对象标记(JavaScript Object Notation)ACID:数据库事务特征原子性、一致性、隔离型和持久性(Atomicity C
7、onsistency IsolationDurability)5数据采集原则5.1统一性数据的分类、编码、描述应选择通用性好、规范性强的方式进行编制,使其具有一定的统一性和兼容性,有利于数据的交换和共享。5.2真实性所采集的数据应与信息源对象的实际情况完全吻合,不应进行随意修改、删除或增加,要求能够准确地反映信息源对象的真实情况,不能弄虚作假。5.3完整性应明确数据采集的范围、内容及目标,采集的数据应能够完成采集项目规定内容,不应发生数据丢失或增加。5.4及时性应关注数据采集信息主体的现实状况,当主体信息发生变化时,应对发生变化的信息数据重新采集,并对原有数据做更新处理。5.5选择性应在保证数
8、据完整性的前提下,兼顾与己有数据的交换和共享,选择项目采集的数据内容,避免数据重复或范围扩大。5.6保密性DB5120/T 19.220233对采集的各类信息应确定保密级别,采取相应的管理措施或技术手段,保证信息数据在采集、保持及交换传输过程中的数据安全。6数据采集6.1管理职责6.1.1数据资源提供方a)负责本单位的数据治理,保证推送到从数据库的数据符合质量规范要求和安全要求,并满足应用需求。b)负责从数据库的部署、配置和运维,保证数据主从一致。c)负责接收本单位的数据质量报告,并修正问题数据。d)负责按要求挂载数据资源。6.1.2政务数据管理机构a)负责数据的采集和清洗加工,保证经过清洗和
9、转换后的数据符合相关质量规范和安全要求。b)负责提供从数据库服务器资源,并审核资源申请。c)负责出具数据质量报告,并推送给对应的数据资源提供方。d)负责从数据库巡查管理6.2数据采集框架根据数据的产生单位、存储状态、数据应用方法、数据类型等,结合资阳市数据资源中心建设规划以及业务场景需求,定义整体数据采集框架如图1所示。各数据提供方将结构化数据实时同步至从数据库,将非结构化数据同步至文件服务器,将对外接口开放给数据资源中心。图1数据采集总体框图6.3数据采集方式6.3.1数据采集分类原则根据数据的类型、共享服务方式、存储状态等,定义三种数据采集方式:库表交换、文件交换和接口交换。6.3.2库表
10、交换对于结构化数据,政务数据管理机构通过访问从数据库的方式实现数据共享。各数据资源提供方负责将本单位的数据库表和对应数据字典实时同步至从数据库,交换流程如图 2 所示。DB5120/T 19.220234图2库表交换流程6.3.3文件交换对于非结构化的文件数据,数据资源提供方通过将文件传输至政务数据管理机构的文件服务器的方式实现数据共享,文件传输可采用 FTP、SFTP 等协议,交换流程如图 3 所示。图3文件交换流程6.3.4接口交换政务数据管理机构可通过数据接口采集数据资源提供方的方式实现数据共享,接口传输可采用restful、webservice 等协议,交换流程如图 4 所示。图4接口
11、交换流程6.4数据接入规范6.4.1从数据库要求6.4.1.1从数据库命名规范a)有业务系统的名称为数据资源提供方简称的拼音首字母_业务系统拼音首字母。b)无业务系统的名称为数据资源提供方简称的拼音首字母_qt(qt 指“其他”)。c)如若出现名称重复时,采用在名称后追加阿拉伯数字的方式保证命名的唯一性。DB5120/T 19.220235示例:资阳市应急管理局(简称“市应急局”)的业务系统“应急指挥平台”,从数据库名称为“syjj_yjzhpt”;资阳市应急管理局(简称“市应急局”)无业务系统的数据资源,从数据库名称为“syjj_qt”。6.4.1.2从数据库建表要求从数据库的数据与原数据资
12、源提供方保持一致,数据结构增加操作标识和时间戳字段。其中,操作标识指增、删、改、NA(无操作)。6.4.1.3从数据库的表命名规范表名称原则上与原数据资源提供方提供的表名称保持一致。如若出现名称重复时,采用在名称后追加阿拉伯数字的方式保证命名的唯一性。6.4.2文件服务器要求每个数据资源提供方建立单独的文件服务器,依据文件服务器的 IP 地址命名。文件名称原则上与原数据资源提供方提供的名称保持一致。如果文件有更新,直接覆盖当前文件,无需新建目录。6.5数据采集流程数据采集流程如下:a)各数据资源提供方同步数据:1)向政务数据管理机构提供可供采集数据的详细数据字典或文件格式。2)申请文件服务器或
13、从数据库资源,经政务数据管理机构审核批准后,向数据资源提供方提供文件服务器或从数据库资源访问方式。3)指定数据专员,按照共享数据的更新频率,实时同步数据。b)分析数据:分析数据来源、数据结构、数据内容、数据之间存在的依赖关系(主外键关系等)、数据字典等。c)抽取数据:1)从文件服务器或从数据库抽取数据。2)海量数据采用并行方式分批或增量抽取数据。d)存储数据:存储数据与抽取数据应保持一致,具备异常回滚机制。1)存储结构:根据抽取数据选择合适的类型、长度、精度存储数据。2)存储类型:结构化数据以数据库方式存储;非结构化数据以文件方式存储。3)存储介质:按数据的访问频率选择读写性能不同的存储介质。
14、4)存储策略:根据数据读写频次和实时性要求制定不同的存储策略。访问频率较低的数据,宜将数据压缩后存储。6.6数据采集方法数据采集方法分为人工采集和自动采集,以自动采集为主。a)人工采集:通过手动录入、存储介质拷贝、电子表格导入等人工方式采集数据。b)自动采集:通过从文件服务器或从数据库自动抽取数据的方式采集数据。6.7数据校验审核采用校验、审核的手段审查所采集数据的一致性、完整性和及时性。经校验、审核合格的数据才能被采集使用,不合格的数据采取必要的改正措施后重新采集。6.8采集安全要求在数据采集的各个环节,应建立数据安全管理制度、应急事件处理机制、审查监督机制。DB5120/T 19.2202
15、36在数据采集的各个环节,应使用数据安全相关技术,包括但不限于数据安全监测、安全审计、数字签名、数据加密等技术或手段。DB5120/T 19.220237AA附录A(规范性)数据资源提供方名称规范表政府机构全称政府机构简称政府机构简拼资阳市人民政府办公室市政府办公室szfbgs资阳市发展和改革委员会市发展改革委sfzggw资阳市经济和信息化局市经济和信息化局sjjhxxhj资阳市教育和体育局市教育和体育局sjyhtyj资阳市科学技术局市科学技术局skxjsj资阳市公安局市公安局sgaj资阳市民政局市民政局smzj资阳市司法局市司法局ssfj资阳市财政局市财政局sczj资阳市人力资源和社会保障局
16、市人力资源社会保障局srlzyshbzj资阳市自然资源和规划局市自然资源规划局szrzyghj资阳市生态环境局市生态环境局ssthjj资阳市住房和城乡建设局市住房城乡建设局szfcxjsj资阳市交通运输局市交通运输局sjtysj资阳市水务局市水务局sswj资阳市农业农村局市农业农村局snyncj资阳市商务局市商务局sswj资阳市文化广播电视和旅游局市文化广电旅游局swhgdlyj资阳市卫生健康委员会市卫生健康委swsjkw资阳市退役军人事务局市退役军人事务局styjrswj资阳市应急管理局市应急管理局syjglj资阳市审计局市审计局ssjj资阳市政府国有资产监督管理委员会市国资委sgzw资阳市
17、市场监督管理局市市场监管局sscjgj资阳市统计局市统计局stjj资阳市城市管理行政执法局市城市管理行政执法局scsglxzzfj资阳市乡村振兴局市乡村振兴局sxczxj资阳市信访局市信访局sxfj资阳市金融工作局市金融工作局sjrgzj资阳市经济合作和外事局市经济合作和外事局sjjhzhwsj资阳市医疗保障局市医疗保障局sylbzj资阳市同城化发展工作局市同城化发展工作局stchfzgzj资阳市市政务服务大数据管理局市市政务服务大数据管理局szwfwhdsjglj资阳市政府研究室市政府研究室szfyjsDB5120/T 19.220238参考文献1 资阳市人民政府办公室关于印发资阳市人民政府机构简称的通知2资阳市政务信息化项目管理办法(试行)(资府办发202225号)