Q GDW 11702-2017 《大数据平台总体架构和技术要求》.pdf
《Q GDW 11702-2017 《大数据平台总体架构和技术要求》.pdf》由会员分享,可在线阅读,更多相关《Q GDW 11702-2017 《大数据平台总体架构和技术要求》.pdf(22页珍藏版)》请在麦多课文档分享上搜索。
1、 大数据平台总体架构和技术要求 General architecture and technical requirements of big data platform Q/GDW Q/GDW 11702 2017 ICS 35.100.01 国 家 电 网 公 司 企 业 标 准 2018 - 03 - 05 发布 2018 - 03 - 05 实施 国家电网公司 发布 Q/GDW 11702 2017 I 目 次 前 言 . II 1 范围 . 1 2 术语和定义 . 1 3 缩略语 . 4 4 平台架构要求 . 5 4.1 总体架构 . 5 4.2 功能架构 . 5 5 平台功能要求 .
2、 6 5.1 数据接入 . 6 5.2 数据存储计算 . 7 5.3 统一分析服务 . 9 5.4 安全管理 10 5.5 运维管理 11 5.6 跨域协同 12 6 平台技术要求 12 6.1 总体要求 12 6.2 性能要求 12 6.3 可靠性要求 13 6.4 易用性要求 13 6.5 可扩展性要求 14 6.6 连续性要求 14 6.7 安全要求 14 编制说明 . 15 Q/GDW 11702 2017 II 前 言 为规范国家电网公司企业级大数据 平台(以下简称大数据平台)建设应用,明确大数据平台 总体 架构 和技术 要求,提升公司内外部数据资源整合处理和价值挖掘水平,支持公司一
3、体化、专业化、扁平化、集约化管理,增强数据价值创造力,制定本标准。 本标准由国家电网公司信息通信部提出并解释。 本标准由国家电网公司科技部归口。 本标准起草单位:全球能源互联网研究院、中国电力科学研究院、国网信息通信产业集团有限公司、南瑞集团有限公司、国家电网公司信息通信分公司、国网山东省电力公司、国网江苏省电力公司、国网浙江省电力公司、国网上海市电力公司。 本标准主要起草人:王继业 、曾楠 、高昆仑 、郑晓崑 、朱力鹏、胡斌、饶玮、周爱华、戴江鹏、杨佩、潘森 、蒋静 、王宇飞、刘贺 、邓春宇 、刘鹏 、季知祥、邹保平、陈宏、章剑涛、苏志勇 、潘兴棋 、季胜鹏 、唐胜 、 王璇、赵子岩 、李伟
4、良 、陈玉峰、 何金陵 、黄海潮、谢若承。 本标准首次发布。 本标准在执行过程中的意见或建议反馈至国家电网公司科技部。 Q/GDW 11702 2017 1 大数据平台 总体 架构 和技术 要求 1 范围 本标准规定了信息管理大区内 企业级 大数据平台的 总体 架构、功能要求和 技术 要求。 本标准适用于公司 企业级 大数据平台规划、设计、开发、建设、运维等环节。 2 术语和定义 下列术语和定义适用 于本文件。 2.1 采集 量测数据 acquired measurement data 由测量单元产生的带有时间标签的数据列。 2.2 大数据 big data 具有数量巨大、种类多样、流动速度快
5、、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。 2.3 大数据平台 big data platform 国家电网公司 IT架构的底层基础设施,实现数据存取中心、计算中心、分析中心和服务中心四大功能,提供海量数据存储处理、计算处理、分析挖掘等基础性 服务,支持公司 采集量测、在线监测、离线分析和实时计算等类型 业务应用 建设的 平台。 2.4 批量计算 batch computing 同时使用多种计算资源解决计算问题的过程 , 用于解决传统的离线数据处理问题 。 2.5 列式存储 columnar storage 按单列而不是多行进行的数据连续存储方式。 2.6 数据接
6、入 data access Q/GDW 11702 2017 2 利用某种装置或工具,将系统外部数据源输入到系统内部的一个过程。 2.7 数据集市 data mart 满足特定的部门或者用户的需求,按照多维的方式进行存储,生成面向决策分析的数据集合,根据数据来源可分为独立型和从属型。 2.7.1 独立型数据集市 independent data mart 不依赖企业级数据仓库而直接从操作型环境获取数据的一类数据集市。独立型数据集市增长到一定规模之后,由于没有统一的数据仓库协调,会导致信息孤岛的产生,同时也会加大维护的难度。 2.7.2 从属型数据集市 dependent data mart 从
7、企业级数据仓库获取数据的一类数据集市。从属型数据集市在体系架构上比独立型数据集市更稳定,国家电网公司大数据平台采用从属型架构建设数据集市。 2.8 明细 数据 层 detail data layer 在数据仓库中 用于存储将 贴源历史 区存储的数据经过编码统一、数据同源、数据 规范化后形成的企业级业务明细数据 。 2.9 数据挖掘 data mining 一种从大量、不完全、有噪声、模糊、随机的业务应用数据中,提取隐含的、事先未知的、具有潜在价值的信息和知识的过程。 2.10 数据仓库 data warehouse 针对企业数据整合和结构化数据存储需求而组织的集中化、一体化的数据存储区域,是由
8、覆盖多个主题域的企业信息组成,侧重于数据的存储和整合 。 2.11 分布式文件系统 distributed file system 一种文件管理系统,其物理存储资源通过计算机网络与节点相连,提供简化、高可用的方式来存 储、分析、处理 文件 。 2.12 贴源历史区 landing historical area 大数据平台 用于全量存储 公司总部 与 省(市)公司 两级纵向交换的数据 。 Q/GDW 11702 2017 3 2.13 纵向历史区 longitudinal historical area 大数据平台 用于全量存储来自源端业务系统的结构化数据,为后续清洗转换提供原始基础数据 。
9、2.14 机器学习 machine learning 使用某些算法指导计算机,利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。 2.15 大规模并行处理数据库 massively parallel processing database 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过网络互相连接,彼此协同计算,作为整体提供数据库服务 。 2.16 内存数据库 main memory database 全部或活动事务存取的数据放于内存中进行处理操作的数据组织。 2.17 内存计算 memory
10、computing 一种将位于硬盘中的待处理数据全部转移到内存中进行多次迭代计算、分析的处理方式,满足海量数据实时分析需求。 2.18 多维分析 multidimensional analysis 对数据进行维度化分析后的度量聚集统计,从而找出同类性质的统计项之间的数学联系的分析过程。 2.19 关系型数据库 relational database 关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法处理数据库中的数据 。 2.20 流计算 stream computing 一定时间窗口内的流动数据到达后不进行存储,而是直接导入内存进行业务逻辑计算、生成计算结果的处理方式
11、。 Q/GDW 11702 2017 4 2.21 结构化数据 structured data 存储在数据库里,可用二维表结构来逻辑表 达实现的行数据。 2.22 半结构化数据 semi-structured data 既不是完全无结构的,也不是传统数据库系统中有严格结构的数据。 2.23 轻度汇总层 summarized Data 在数据仓库中 用于存储将数据仓库明细数据层的数据进行数据轻量汇总、轻量合并等数据处理后的数据 。 2.24 非结构化数据 unstructured data 相对于结构化数据而言,无法用数据库二维逻辑表来表现的数据 ,如文本、图像、音频和视频等。 2.25 统一权
12、限管理平台 Identity and Safety Control Platform 国家电网公司实现对人员身份的统一认证、统一管理、统一授权、以及合规性管理、安全审计等功能的系统平台。 2.26 信息通信一体化调度运行支撑平台 SG-I6000 国家电网公司对信息通信基础环境、软硬件设备、信息系统进行实施运行监测,实现资源监测、资源管理、调度管理、运行管理、检修管理、客服管理、灾备管理及辅助分析等功能的统一运维作业平台 。 3 缩略语 下列缩略语适用于本文件。 API:应用程序编程接口( Application Programming Interface) FTP:文件传输协议( File
13、Transfer Protocol) GE:千兆以太网( Gigabit Ethernet) JDBC: Java数据库连接( Java Data Base Connectivity) MPP:大规模并行处理( Massively parallel processing) NFS:网络文件系统( Network File System) ODBC:开放数据库连接( Open DataBase Connectivity) OLAP:联机分析处理( On-Line Analytical Processing) PB:拍字节( Peta Byte) RPC:远程过程调用协议( Remote Proc
14、edure Call Protocol) Q/GDW 11702 2017 5 ROLAP:基于关系数据库的 OLAP( Relational On-Line Analytical Processing) SQL:结构化查询语言( Structured Query Language) 4 平台架构要求 4.1 总体架构 大数据平台为业务系统大数据存储、计算等运行提供统一的平台支撑,其总体架构包括数据接入、数据存储计算、统一分析服务、运维管理、安全管理、跨域协同等模块,并提供各种形式的服务对数据应用提供支撑。 大数据平台总体架构图如图 1所示 。 图 1 大数据平台总体架构示意图 4.2 功能架
15、构 4.2.1 概述 大数据平台功能架构如图 2所示,总体上应用包括数据接入、数据存储计算、分析服务、安全管理、运维管理和跨域协同六大功能。 Q/GDW 11702 2017 6 图 2 大数据平台功能框架 4.2.2 功能描述 大数据平台 各 功能 描述如下: a) 数据接入,通过结构化数据接入、采集量测数据接入、非结构化数据接入等数据接入手段从业务应用(如 : 营销系统、 ERP 系统)、日志文本文件、外部数据(如 : 气象数据、宏观经济数据等)接入大数据平台。 b) 数据存储计算,主要包括数据存储与数据计算两部分,其中数据存储 包括 贴源历史 区 、纵向历史区 、数据仓库、采集量测数据存
16、储、非结构化数据存储和数据集市;数据计算包括流计算、内存计算和批量计算。 c) 统一分析服务,面向各类分析应用提供统一的数据接口服务、数据挖掘服务、自助式分析服务。 d) 运维管理,实时监测大数据处理全过程中的整体运行状态、资源使用情况和接口调用情况等性能指标并对关键系统险情进行告警,支持大数据组件安装、配置和状态管理,可实时性监控和调度任务计划,可对大数据集群的计算资源和存储资源进行配置和管理。 e) 安全管理,解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的 诸如身份验证、授权过程和输入验证等安全问题,支持对访问的终端及客户端进行认证及操作日志审计等功能。 f) 跨域协同,通过
17、提供域资源管理、域作业管理等,实现跨域大数据的融合和协同计算 。 5 平台功能要求 5.1 数据 接入 5.1.1 概述 大数据平台应提供统一、规范的数据接入方法, 支持从 内外 数据源向平台导入结构化数据(如 : 关系库记录)、半结构化数据(如 : 日志、邮件等)、非结构化数据(如 : 文件、视频、音频、网络数据流等)等不同数据类型、不同时效的数据,并提供这些数据的整合方式 。 5.1.2 结构化数据接入 5.1.2.1 数据定时抽取 应支持关系型数据库与大数据平台 之间的数据交换与整合。具体功能应包括: Q/GDW 11702 2017 7 a) 数据源配置, 支持各种主流关系型数据库;
18、b) 全量或定量的数据抽取规则配置,支持手动触发和定时抽取; c) 数据转换,提供完整的数据加工、转换、处理功能; d) 数据加载,支持批量加载、并行加载等方式,支持加载过程中的事物控制; e) 高效数据传输,具备高比率的数据压缩,支持断点续传,支持数据传输过程中的安全加密。 f) 监控管理 ,支持对任务运行情况的动态监控 ,提供日志、告警等功能 。 5.1.2.2 数据库 同步 复制 应支持 从 关系型数据库 复制 增量数据到平台。具体功能应包括: a) 数据源配置,支持各种主流关系型数据库; b) 数据转换 ,支持关系型数据库和大数据平台之间的数据类型匹配转换; c) 在线日志或归档日志的
19、数据复制,不应依赖源数据库的触发器和规则,减少对源数据库的影响; d) 高效数据传输,具备 高比率的数据压缩 ,支持 断点续传 ,支持 数据传输过程中 的安全 加密。 e) 监控管理 ,支持对任务运行情况的动态监控,提供日志、告警等功能。 5.1.3 采集量测 数据接入 应至少提供 API接口和实时消息队列两种方式实现业务应用系统数据的实时 接入 。前者,业务系统通过 API接口将业务数据推送至大数据平台,后者,大数据平台通过统一分布式实时消息队列实时接收业务系统发送的业务 数据。 5.1.4 非结构化 数据接入 应支持对海量系统日志、数据交换文件、照片、视频等文件数据的 接入 。具体功能应包
20、括: a) 各类数据源的 接入 配置,至少应包括 console(控制台)、 RPC(远程调用)、 text(文本文件)、 tail( Linux 文件结尾显示命令)、 syslog(系统日志), exec(命令执行)等; b) 支持文件导入功能,实现数据导入至大数据平台的相应存储 ; c) 对数据存储目标的配置,至少应包括分布式文件系统、分布式列式存储等; d) 数据格式转换,支持对数据的简单格式转换,提供对 word 等文档转换为 pdf 文件、图片转换成 缩略图等功能 ; e) 文件排重,具备各类文件的排重能力 ,文件标识应唯一 ; f) 监控管理 , 对数据从采集、处理到存储的全过程监
21、控 ,提供日志、告警等功能 。 5.2 数据存储 计算 5.2.1 概述 大数据平台应 提供业务各类异构海量数据的存储功能 , 并 应提供不同计算方案以满足业务的不同需求 。 5.2.2 数据存储 5.2.2.1 采集量测数据存储 应提供海量采集量测数据的高效存储。具体功能应包括: a) 列式存储, 支持使用面向列的存储模型存放数据 ; b) 内存存储, 支持将数据加载至内存中,可直接进行数据的读写操作 ,同时内存中存放的数据定期同步至磁盘进行数据的持久化 ; c) 线性扩展 ,支持分布式 动态 扩展 ,同时保持 数据均衡分布 ; d) 在线快速读写 ,具备快速的数据读写操作能力 ; e) 监
22、控管理 ,节点状态管理和监测。 Q/GDW 11702 2017 8 5.2.2.2 非结构化 数据 存储 应提供基于分布式文件的非结构化数据 高效 存储。具体功能应包括: a) 文件存储 ,支持 文件 多副本、分块存储; b) 文件树管理 ,支持 层次型文件组织结构管理; c) 线性扩展 ,支持分布式 动态 扩展 ,同时保持 数据均衡分布 ; d) 批量加载 ,支持 批量加载 的 数据准备 方式 ; e) 监控管理 ,节点状态管理和监测。 5.2.2.3 贴源历史区 /纵向历史区 应提供 贴源历史区 ,用于 全量存储来自源端业务系统的结构化数据,为后续清洗转换提供原始基础数据; 应提供 纵向
23、历史区 ,用于全量 存储 公司总部 与 省(市)公司 两级纵向交换的数据 。具体功能应包括: a) 分片处理,提供分库、分表等数据分片处理功能; b) 数据闪回, 支持对 误操作造成的数据丢失 进行快速恢复; c) 批量数据导入 , 支持通过 ETL 工具、格式化文件加载、自定义脚本等方式,将数据批量导入到贴源历史区 或 纵向历史区 中 ; d) 连接池 , 应用程序可通过连接池获取与数据库的连接 ; e) 事务处理,提供事务处理及分布式事务处理功能; f) 数据备份与恢复,根据实际需求,提供手动和自动备份功能 。 5.2.2.4 数据仓库 按层级可分为明细数据层和轻度汇总层,应提供面向企业级
24、主题的各类结构化数据的高效存储,存储经过清洗转换后的结构化数据,为公司各类分析应用提供统一的结构化数据支撑。具体功能 应 包括: a) 数据存储 , 支持结构化数据分布式存储; b) 对象管理 , 提供数据库、表空间、表、索引、视图、存储过程、自定义函数等常用数据库对象的创建、修改和删除操作;支持数据库用户的创建、删除操作以及用户权限的分配与回收; c) 数据分析 , 支持 ROLAP 的星型模型、雪花模型等,内置常用的 OLAP 函数; d) 存储过程和自定义函数 , 支持基于存储过程和自定义函数的编程语 言实现数据库内的各类分析统计功能; e) 数据加载 , 支持以规范格式方式将数据导入到
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 2人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- QGDW117022017 数据 平台 总体 架构 技术 要求 PDF
