DB5120 T 19.4-2023 数据资源体系技术指南 第4部分:数据仓库建设指南.pdf
《DB5120 T 19.4-2023 数据资源体系技术指南 第4部分:数据仓库建设指南.pdf》由会员分享,可在线阅读,更多相关《DB5120 T 19.4-2023 数据资源体系技术指南 第4部分:数据仓库建设指南.pdf(14页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240.01CCS L 70DB5120四 川 省(资 阳 市)地 方 标 准DB5120/T 19.42023数据资源体系技术指南第 4 部分:数据仓库建设指南2023-12-22 发布2023-12-29 实施资阳市市场监督管理局发 布DB5120/T 19.42023I目 次前 言.II1范围.12规范性引用文件.13术语和定义.14缩略语.25综述.26命名规范.47开发规范.7参考文献.10DB5120/T 19.42023II前 言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本
2、文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。DB5120/T 19.420231数据资源体系技术指南第 4 部分:数据仓库建设指南1范围本文件规定了资阳市域数据仓库建设相关术语和定义、缩略语、综述、命名规范、开发规范等工作规范。本文件适用于资阳市域的数据仓库建设。2规范性
3、引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1信息技术 词汇 第 1 部份:基本术语GB/T 11457信息技术 软件工程术语GB/T 18492信息技术 系统及软件完整性级别GB/T 20270信息安全技术 网络基础安全技术要求GB/T 20271信息安全技术 信息系统通用安全技术要求GB/T 22032系统工程 系统生存周期过程GB/T 21062.3政务信息资源交换体系 第 3 部分:数据接口规范GB/T 25000系统与
4、软件工程(所有部分)GB/T 28452信息安全技术 应用软件系统通用安全技术要求GB/T 29264信息技术服务 分类与代码GB/T 29765信息安全技术 数据备份与恢复产品技术要求与测试评价方法GB/T 35295信息技术 大数据 术语GB/T 36625.3智慧城市 数据融合 第 3 部分:数据采集规范GB/T 38667信息技术 大数据 数据分类指南GB/T 40094.2电子商务数据交易 第 2 部分:数据描述规范GB/T 40094.3电子商务数据交易 第 3 部分:数据接口规范行GB/T 42450信息技术 大数据 数据资源规划DB51/T 3056政务数据 数据分类分级指南3
5、术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 20270、GB/T 20271、GB/T 21062.3、GB/T 25000、GB/T 28452、GB/T 29264、GB/T 29765、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T40094.3、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据仓库 data warehouse数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。DB5120/T 19.420
6、2323.2贴源层 operational data store数据准备区,与数据源的数据同构,是数据仓库层加工数据的来源,主要目的是简化后续数据加工处理的工作。3.3标准层 standard data贴源层的数据进行清洗、转化后的数据,为后续数据加工提供标准数据。3.4明细层 data warehouse detail保存通过标准层标准化之后的所有历史数据,为后续数据加工提供统一的、标准的数据视图。3.5汇聚层 data warehouse summary按主题对明细层数据进行综合、归类。3.6集市层 data mart在汇聚层的基础上,满足特定的部门或者用户的需求,按照多维的方式进行存储,
7、包括定义维度、需要计算的指标、维度的层次等,生成的面向决策分析需求的数据立方(一个全局数据表与其多个重要字段的索引组成的一个类似于立方体的数据组织结构)。4缩略语下列缩略语适用于本文件。ODS:贴源层(Operational Data Store)STD:标准层(STandard Dat)DWD:明细层(Data Warehouse Detail)DWS:汇聚层(Data Warehouse Summary)DM:集市层(Data Mart)5综述5.1目的本文件的拟制是为了规范数据仓库的建设过程,降低开发难度,保障开发质量,避免因开发不规范文档导致的重复开发及返工等问题。5.2原则数据仓库建
8、设的基本原则主要有三条:a)统一性:为了保持开发风格一致,使得各类命名、各类规则、各类数据格式、开发过程阶段、问题处理方式等保持统一,数据仓库的建设需符合“统一性”原则。DB5120/T 19.420233b)明确性:为了保证开发内容的可理解和易运维,数据仓库的建设需符合“明确性”的原则,命名明确、代码明确、规则明确、处理流程明确、各类分层明确等。c)可扩展性:为了保障后续数据仓库在各个维度的易扩展能力,需要遵循“可扩展性”原则,要求在模型设计、字段设计、代码设计等阶段关注此原则。5.3数据架构(数据采集过程与采集规范一致),如图 1 所示图1数据架构5.4分区选取原则5.4.1表分区原则:a
9、)有数据更新的表需要做分区,若表数据量少则每个分区存当前全量数据,数据量大则每个分区放增量数据;b)分区列尽量选择能够让数据均匀分布的列,避免数据倾斜;c)有必要时可以选择多级分区(如:地区/年/月/日);d)需要频繁查询且数据量较大的表。5.4.2表不分区原则:a)数据几乎不更新的表不需要做分区,如字典表;b)数据量少于 100 万条。5.5任务调度任务调度是配置任务的运行周期,主要基于数据资源中心数据开发平台或其他大数据平台的工作流配置。主要包括以下属性:a)调度周期:工作流调度频率,支持分钟/小时/天/周/月/年。b)起止时间:调度将在有效日期内生效并自动调度,每次调度生成工作流实例。c
10、)依赖上一周期:工作流的本次运行需要依赖上一周期的运行结果。如果上一周期运行失败,则需要手动将上一周期的工作流实例修复并重跑成功,才能继续进行下一周期。d)补数据:若设置的调度起始时间早于当前时间一个调度周期及以上,则缺失的调度周期会被立刻执行,实现补数据的目的。例如:如果调度起始时间早于当前时间 2 个小时,调度周期 1 个小时,会把之前 2 个小时的 2 个工作流实例也生成运行。DB5120/T 19.420234e)调度依赖:即只有指定的上游工作流实例已按依赖策略执行成功,才会调度执行本工作流实例。如果添加了多个上游工作流,则需要所有上游工作流同时满足。6命名规范6.1模型层命名命名要求
11、如表 1 所示。表 1模型层命名分层名英文全称中文名层次定义ODSOperationalData Store贴源层实现功能:业务源系统数据接入到此层,此层数据不做任何加工,禁止重复进入。数据来源范围:业务源系统。数据存储时长:永久。实施环境:数据资源中心数据开发平台或其他大数据平台STDStandard Data标准层实现功能:该层为标准数据层,主要是 ODS 层的数据进行清洗、转化后,导入到这一层,为 DWD 层提供标准数据,并把清洗后的脏数据保留到该层,反馈给业务系统进行修改。数据来源范围:ODS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台DWDData Wareh
12、ouseDetail明细层实现功能:该层为数据明细层,主要按主题对数据进行综合、归类。保留通过 STD 层标准经之后的所有历史数据,为 DWS、DM 层提供统一的、标准的数据视图。数据来源范围:此层数据来源于 STD。数据存储时长:根据业务需求保留。实施环境:数据资源中心数据开发平台或其他大数据平台DWSData WarehouseSummary汇聚层实现功能:该层为数据汇聚层,主要从 DWD 层的数据进行粗粒度聚合汇总;按业务需求对事实进行拉宽形成宽表,共性汇总加工。此次支持剪裁。数据来源范围:DWD。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他大数据平台DMDa
13、ta Mart集市层实现功能:该层为数据集市层,根据应用要求,生成相关结果数据,支撑应用使用数据来源范围:DWD、DWS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他大数据平台6.2数据表命名6.2.1ODS 层实体/表名命名形式:ods_数源单位简称的拼音首字母_业务系统拼音首字母_数源单位原有表名称,如表 2 所示。表 2ODS 层表名模型事实表名称模型事实表描述ods_sgaj_jzpt_czrkxxODS_市公安局_警综平台_常驻人口信息ods_sjj_frxxpt_fddbrODS_市监局_法人信息平台_法定代表人命名规则:a)使用英文小写字母,单词之间用
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB5120 19.4-2023 数据资源体系技术指南 第4部分:数据仓库建设指南 19.4 2023 数据 资源 体系 技术 指南 部分 数据仓库 建设
