Q GDW 11704-2017 《大数据平台数据采集接入规范》.pdf
《Q GDW 11704-2017 《大数据平台数据采集接入规范》.pdf》由会员分享,可在线阅读,更多相关《Q GDW 11704-2017 《大数据平台数据采集接入规范》.pdf(45页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 29.240 Q/GDW 国 家 电 网 公 司 企 业 标 准 Q/GDW 11704 2017 大数据平台数据 采集接入 规范 The Data Acquisition and Access Standard for the Big Data Platform 2018 - 03 - 05 发布 2018 - 03 - 05 实施 国家电网公司 发布 Q/GDW 11704 2017 I 目 次 前 言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 1 5 概述 . 1 6 技术要求 . 2 6.1 关系型数据库抽取 . 2 6.
2、2 数据网关服务 . 3 6.3 实时消息队列 . 5 6.4 文件接收 FTP服务 . 6 6.5 文件接收 WebService 服务 7 6.6 文件拉取 HTTP服务 8 6.7 文件拉取 FTP服务 10 6.8 文件拉取 NFS服务 12 6.9 数据库实时复制 14 附录 A(资料性附录) 关系型数据库抽取应用 . 16 附录 B(资料性附录) 数据网关服务应用 . 17 附录 C(资料性材料) 实时消息队列应用 . 20 附录 D(资料性附录) 文件接收 FTP服务应用 . 28 附录 E(资料性附录) 文件接收 WebService服务应用 26 附录 F(资料性附录) 文件
3、 拉取 HTTP服务应用 28 附录 G(资料性附录) 文件 拉取 FTP服务应用 . 32 附录 H(资料性附录) 文件 拉取 NFC 服务应用 . 35 编制说明 . 38 Q/GDW 11704 2017 II 前 言 为 规范国家电网公司大数据平台 的 数据采集 , 指导 信息 管理大区业务系统在设计、开发 、 实施 各 阶段 与 大数据平台的 数据 接入,满足国家电网公司对大数据平台 规范化 数据采集的要求 , 制定本 标准 。 本标准由国家电网公司信息通信部提出并解释。 本标准由国家电网公司科技部归口。 本标准起草单 位:国网信息通信产业集团有限公司、国网浙江省电力公司、中国电力科
4、学研究院。 本标准主要起草人:王继业、曾楠、陈宏、邹保平、黄文思、郝悍勇、王晋雄、苏志勇、陈振。 本标准首次发布。 本标准在执行过程中的意见和建议反馈至国家电网公司科技部。 Q/GDW 11704 2017 1 大数据 平台数据采集 接入 规范 1 范围 本标准规定了大数据 平台 与业务 系统 进行数据接入 的技术要求 及数据 采集接口、方式。 本标准适用于电力 大数据平台 进行数据 采集功能研发 、数据 采集工具 选型及其数据 接入场景提供 规范 要求 。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期 的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其
5、最新版本(包括所有的修改单)适用于本文件。 GB/T 29262 面向服务的体系结构( SOA)术语 Q/GDW 11702 2017 大数据平台总体架构和技术要求 3 术语和定义 GB/T 29262和 Q/GDW 11702 2017界定 的术语和定义适用于本文件。 4 缩略语 下列缩略语适用于本文件。 FTP:标准的文件传输协议( File Transfer Protocol) HTTP:标准的超文件传输协议( HyperText Transfer Protocol) JDBC: Java数据库连接 (Java DataBase Connectivity) SHA:安全哈希算法( Sec
6、ure Hash Algorithm) 5 概述 大数据 平台 支持 从关系型数据库、文件、流数据等来源 采集 数据 , 实现 各类 离线数据及实时数据的采集与接入 ,包括 设备采集数据、 企业管理业务数据、 外部数据等 。 其中 离线数据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。其中关系数据库中的结构化数据可通过关系数据库抽取 、实时数据库复制及自定义数据网管服务接口程序等方式实现数据接入;非结构化文件数据可通过源端 FTP服务 拉取 及 NFS服务拉取数据方式、目标端 FTP服务 推送 及 NFS服务推送方
7、式、自定义数据网管接口程序、自定义 webservice服务程序等方式实现数据接入 ; 实时流数据主要通过 往 分布式消息队列 推送数据的方式进行实时接入。 总体采集框架见图 1: Q/GDW 11704 2017 2 图 1 总体 采集框架 6 技术 要求 6.1 关系型数据库抽取 6.1.1 功能要求 关系型数据库抽取 应 提供 业务系统关系型数据库中的结构化数据到大数据平台 数据 存储 的 定时批量 抽取 功能 。关系型 数据库数据抽取 应 具备以下主要功能: a) 支持对 主流的关系型数据库 进行 数据抽取 ,至少 包括 Oracle、 MySQL、 PostgreSQL、 达梦、金仓
8、 等 关系型数据库 ; 支持 对 数据库 中 常用的数据类型 进行 数据 抽取 , 至少 包括 数值型、字符型、日期 /时间型等数据 类型 ; b) 支持“全量” 和 “ 增量 ” 两种数据抽取模式 ;“全量” 模式是指 一次性 将关系型数据库中 物理表 的数据抽取到大数据平台。 “增量 ”模式 是指根据 设置 的 抽取 条件筛选符合条件的数据抽取到大数据 平台 ; c) 支持关系型 数据库中结构化数据抽取到 大数据 平台关系型数据存储、非关系型数据 存储 、 分布式 文件 存储 、实时数据 存储; d) 支持对关系型 数据库数据 的采集内容和类型 转换操作, 至少 包括 选择具体 的数据表、
9、 选择 表中具体的 字段、字段 类型 格式转换 等 操作 ; e) 支持 数据抽取操作的立即执行、定时调度运行。定时调度运行应提供多种调度策略, 至少 包括固定 时间间隔运行、 指定 时间点 运行 、 指定 时间范围运行、 一次或 指定次数运行等 策略; f) 应 提供 图形化管理界面, 应提供 数据 抽取模式设置、抽取源关系型数据库配置、 指定 数据表配置 、 表 字段 选择 配置 、字段类型转换配置 、 大数据平台目标 存储 位置配置 、 运行策略配置等 操作 界面 ; g) 应提供 完善的 日志 和审计能力, 可以 记录 数据 抽取操作 配置 、运行时 发生 的各种事件 。 Q/GDW
10、11704 2017 3 6.1.2 非功能性要求 关系型 数据库数据抽取 服务应满足 以下 非 功能 性要求 : a) 数据 抽取 速度: 不少于 2万条 /秒; b) 数据 抽取吞吐量: 在千兆带宽的网络条件下 , 数据 抽取吞吐量 不少于 100MB/秒。 6.1.3 应用场景 业 务 系 统大 数 据 平 台 数 据 抽 取服 务大 数 据 平 台 数 据 存 储a ) 抽 取 元 数 据 信 息b ) 配 置 数 据 传 输 任 务c ) 配 置 数 据 传 输 任 务 运 行 策 略d ) 平 台 运 行 数 据 传 输 任 务 , 抽 取 数 据信 息 流 数 据 流业 务 系
11、统 大 数 据 平 台 数 据 抽 取 服 务 大 数 据 平 台 数 据 存 储图 2 抽取服务应用场景 抽取服务过程见图 2,应用场景如下 : a) 关系型数据库抽取 服务 抽取 业务 系统中数据库的元数据信息,包括数据库用户所属的表、字段信息 ; b) 关系型数据库抽取 服务配置数据传输任务, 包括抽取的 业务系统数据库 的 源表和 大数据 平台对应的存储目标表 ; c) 关系型数据库抽取 服务配置数据传输任务运行策略,包括运行的 开始时间 、结束时间、运行频度 ; d) 关系型数据库抽取 服务运行数据传输任务, 从 业务系统关系型数据库抽取数据到平台 数据 存储中。 6.1.4 应用要
12、求 6.1.4.1 关系型数据库抽取 服务适用于关系型数据库 定时 批量抽取 场景, 详细应用流程 参 见附录 A.1。 6.1.4.2 业务系统须提供关系型 数据库的访问 链接, 包括 IP、端口、数据库实例名、用户名、密 码 。并且 , 业务 系统提供的数据库访问用户应具备数据库 的 元数据信息定义表的读取权限。 6.2 数据 网关服务 6.2.1 功能要求 Q/GDW 11704 2017 4 数据 网关服务为业务系统提供大数据平台中分布式文件系统 和非 关系型数据库的数据操作 接口。数据 网关服务 应 具备以下主要功能: a) 支持以 JDBC方式对外提供服务 ; b) 支持业务 系统
13、中结构化数据 、 非结构化数据的写入操作 ; c) 提供大数据 平台分布式文件系统和非关系型数据库的数据操作接口 。分布式 文件 数据 操作包括创建分布式文件 对应表 、 单 文件写入、 单 文件查询 。非 关系型数据库 数据 操作 包括创建 数据库表 、删除 数据库表、插入记录 、 更新记录、 删除记录 ; d) 提供图形化管理界面 , 用于业务系统数据存储位置、操作用户、目标存储位置的配置 ; e) 应提供 完善的 日志 和审计能力, 可以 记录 数据 抽取操作 配置 、运行时 发生 的各种事件 。 6.2.2 非功能性要求 数据网管服务 应满足 以下 非 功能 要求 : a) 数据写入速
14、率 : 在千兆带宽的网络条件下 , 数据 抽取吞吐量 不少于 50MB/秒; b) 操作 并发数: 并发数 大于 200个 /秒 。 6.2.3 应用 场景 业 务 系 统 大 数 据 平 台 数 据 网 关 服 务a ) 资 源 申 请b ) 创 建 数 据 库 、 用 户 , 分 配 权限返 回 数 据 访 问 链 接 、 用 户 名 、 密 码c ) 应 用 程 序 开 发d ) 配 置 访 问 链 接 参 数 , 建 立 链 接身 份 认 证 通 过 , 连 接 成 功e ) 进 行 权 限 范 围 内 数 据 操 作大 数 据 平 台 数 据 存 储图 3 数据 服务应用流程 数据服
15、务 应用场景 过程见图 3,应用场景如下 : a) 业务 系统 须 向大数据平台 申请 数据存储资源,包括 : 存储的位置、存储容量等 ; b) 大数据 平台根据业务系统资源申请,创建相应的数据库、 用户及其 存储容量配额并分配操作权限 ; c) 业务 系统 进行 应用程序开发 ,调用大数据 平台数据服务驱动进行 链接 访问和数据 操作; d) 业务 系统应用程序 配置 JDBC访问 链接参数,建立数据访问链接 ; Q/GDW 11704 2017 5 e) 业务 系统应用程序 连接 成功后,编写数据操作 SQL,进行数据操作。 6.2.4 应用要求 6.2.4.1 数据网关 服务适用于业务系
16、统主动将数据写入大数据平台存储 。 详细应用流程 参见 附录 B.1。 6.2.4.2 数据网关 服务中 SQL操作支持的数据 类型 包括 INTEGER、 DOUBLE、 NUMERIC、 VARCHAR、 CHAR、TIMESTAMP、 DATE、 BOOLEAN。 6.2.4.3 业务系统应依照大数据平台提供的数据 服务接口 完成自身数据 操作程序 的开发,具体 操作语法参见附录 B.2, 操作 错误提示信息 参见 附录 B.3。 6.3 实时 消息 队列 6.3.1 功能要求 实时 消息队列采集为业务系统提供实时消息推入和缓存功能。 实时 消息队列应 具备 以下主要功能 : a) 应
17、提供 分布式 消息队列的管理功能,支持消息主题的创建、删除、修改; b) 应 提供 支持“点 对点 ”和 “发布 -订阅 ”两个消息模式; c) 支持 消息的持久化 存储 操作 并且 支持持久 化 周期 设置 ; d) 应 提供消息 的 发送和消费接口, 包括链接建立 、 消息 发送、消息 消费 、链接 关闭。具体 操作接口详见附录 A.4; e) 应 提供分布式高可用的消息队列 操作 接口 , 支持消息的发送和 消费 ; 支持 消息分区和备份操作; f) 具有风格 统一的 图形化 管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作 ; g) 具备 完善的日志审计 能力 , 可以 记
18、录消息发送和消费 时发生 的各种事件。 6.3.2 非功能性要求 实时消息 队列应 满足 以下非功能 性 要求: a) 高 可行性 :支持 消息主题的分区和备份; b) 负载 均衡: 支持消息 发送和消费时的负载均衡操作; c) 消息 发送 速度 : 可 接受的 数据量 大于 10万 条 /秒。 6.3.3 应用场景 业 务 系 统 大 数 据 平 台 实 时 消 息 队 列 服 务 大 数 据 平 台 实 时 消 息 队 列a ) 申 请 实 时 消 息 队 列 接 入 服 务b ) 创 建 消 息 队 列 主 题c ) 业 务 系 统 开 发 业 务 处 理 程 序 , 发 送 或 接 入
19、 消 息信 息 流 数 据 流返 回 消 息 队 列 名图 4 实时 消息 队列 采集服务应用 Q/GDW 11704 2017 6 实时 消息队列采集服务应用 过程 见图 4, 应用场景如下 : a) 业务系统须 向大数据平台申请实时消息队列 接入 服务 ; b) 大数据 平台 根据 申请创建消息队列主题 , 返回 消息 队列名称 ; c) 业务系统 开发业务处理程序, 调用 平台实时消息队列 接口 ,发送数据或 接收 数据。 6.3.4 应用 要求 6.3.4.1 实时 消息队列采集适用于业务系统主动将数据封装为消息 , 发送到大数据平台的实时消息队列中 。 基于 实时 消息队列 的 消息
20、缓存 进行 数据分析,如 流 计算实时处理等。 具体 应用流程参见附录 C.1。 6.3.4.2 发送的消息内容格式支持字符串,发送的数据对象可以通过对象序列化机制转换为字符串格式的消息内容。 6.3.4.3 业务系统应依照大数据平台提供的实时 消息队列采集接口 完成自身数据发送或 接收接口 的开发。 具体 API接口 参见附录 C.2, 具体实现 逻辑 参见附录 C.3。 6.4 文件接收 FTP 服务 6.4.1 功能要求 文件接收 FTP服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系统功能。文件采集应具备以下主要功能: a) 支持标准 FTP协议接收数据; b) 支持
21、顺序型断 点续传功能; c) 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。 6.4.2 应用场景 大 数 据 平 台 F T P 文 件 接 收 服 务 大 数 据 平 台 分 布 式 文 件 系 统b ) 业 务 系 统 通 过 标 准 F T P 协 议连 接 大 数 据 平 台 服 务信 息 流 数 据 流a ) 大 数 据 平 台 配 置 应 用 账 号c ) 业 务 系 统 检 查 目 标 临 时 文 件 是 否存 在d ) 业 务 系 统 发 起
22、全 量 或 续 传 指 令e ) 业 务 系 统 发 送 数 据 到 大 数 据 平 台f ) 大 数 据 平 台 接 收 文 件 数 据g ) 业 务 系 统 发 送 改 名 命 令 修 改 文 件 为 带 校 验的 文 件 名h ) 大 数 据 平 台 校 验 文 件 内 容i ) 大 数 据 平 台 按 配 置 的 规 则 存 储 接 收 到的 文 件j ) 大 数 据 平 台 通 知 后 续 业 务 继 续 处 理业 务 系 统图 5 文件接收 FTP 服务 应用场景 Q/GDW 11704 2017 7 文件接收 FTP服务应用 过程 见图 5,应用场景如下: a) 大数据平台配置应
23、用账号、接收参数及存储位置; b) 业务系统通过标准 FTP协议连接大数据平台服务; c) 业务系统检查目标临时文件是否存在; d) 业务 系统发起全量或续传指令; e) 业务系统发送数据到大数据平台; f) 大数据平台接收文件数据; g) 业务系统发送改名命令修改文件为带校验的文件名; h) 大数据 平台 校验文件内容; i) 大数据平台按配置的规则存储接收到的文件; j) 大数据平台通知后续业务继续处理。 6.4.3 应用要求 6.4.3.1 业务系统须在大数据平台注册并申请账号。 6.4.3.2 业务系统须按平台协议规范开发上传功能。 6.4.3.3 业务系统生成文件数据时须 同时 生成
24、对应的完整性校验码。 6.4.3.4 文件数据校验算法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.4.3.5 具体 文件 接收 FTP服务 API 接口 参见附录 D.1, 具体实现 逻辑 参见附录 D.2。 6.5 文件接收 WebService 服务 6.5.1 功能要求 文件接收 WebService服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系统 功能。文件采集应具备以下主要功能: a) 支持标准 WebService 协议接收数据; b) 支持顺序型断点续传功能; c) 支持接收的文件的重命名及指定存储目录; d) 应支持对接
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 10人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- QGDW117042017 数据 平台 采集 接入 规范 PDF
