DB15 T 1872—2020 大数据平台 接入技术要求.pdf
《DB15 T 1872—2020 大数据平台 接入技术要求.pdf》由会员分享,可在线阅读,更多相关《DB15 T 1872—2020 大数据平台 接入技术要求.pdf(26页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.020 L 70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 1872 2020 大数据平台 接入技术要求 Technical specification of big data platform for access 2020-04-03发布 2020-05-03实施 内蒙古自治区市场监督管理局 发布 DB15/T 1872 2020 I 目 次 前言 . II 1 范围 . 1 2 规范 性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 2 5 概述 . 2 6 接入要求 . 3 6.1 关系数据库抽取 . 3 6.2 服务网关服务 . 5 6.
2、3 实时消息队列 . 6 6.4 文件接收 FTP服务 . 7 6.5 文件拉取 FTP服务 . 9 6.6 直报系统 . 10 7 安全要求 . 12 附录 A(资料性附录) 关系数据库抽取接入说明 . 13 附录 B(资料性附录) 服务网关服务接入说明 . 14 附录 C(资料性附录) 实时消息队列接入说明 . 15 附录 D(资料性附录) 文件接收 FTP服务接入说明 . 16 附录 E(资料性附录) 文件拉取 FTP服务接入说明 . 19 DB15/T 1872 2020 II 前 言 本 标准 按照 GB/T 1.1 2009给出的规则起草。 本 标准 由 内蒙古自治区大数据发展管理
3、局提出并归口。 本 标准 起草单位:内蒙古自治区大数据发展管理局、 新华三技术 有限 公司 、中国 电子技术标准化研 究院、 内蒙古大学、内蒙古电子信息职业技术学院、内蒙古自治区大数据与云计算 标准化委员会、中国 人民银行呼和浩特市中心支行、内蒙古自治区国土资源信息院、中信银行股份有限公司呼和浩特市分行、 内蒙古自治区标准化院、浪潮软件集团有限公司、 北京东方国信科技股份有限公司、 中通服咨询设计研 究院有限公司、 天 帆 创新 (北京)科技 发展有限公司、同方知网( 北京 ) 技术 有限公司 、北京东方棱镜 科技有限公司、内蒙古跃晨科技有限公司、内蒙古纵横 云技术有限公司 。 本标准主要起草
4、人:周佳琪、崔连伟、张建军、崔娜、赵逢波、卫凤林、屈强、崔波、胡大伟、汪 昆鹏、马逸群、王立权、王一丁、王海珠、徐小强、王楠、李敏、李建文、刘玉 坤、胡南磊、付先路、 王伟哲、冯国忠。 DB15/T 1872 2020 1 大数据 平台 接入技术 要求 1 范围 本标准 规定了 大数据平台 与 各数据 提供单位 管理支撑 系统进行数据接入的技术要求及数据采集接 口、方式。 本标准适用于内蒙古自治区大数据平台 进行数据采集功能研发、数据采集工具选型及其数据接入场 景提供 规范 要求 。 2 规范性 引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
5、件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 29262 信息技术 面向服务的体系结构( SOA) 术语 GB/T 35274 信息安全技术 大数据服务安全能力要求 GB/T 35295-2017 信息技术 大数据 术语 GB/T 37973 信息安全技术 大数据安全管理指南 3 术语和 定义 GB/T 35295和 GB/T 29262界定的术语和定义适用于本文件。 为了便于使用,以下重复列出 GB/T 35295 中的一些术语和定义。 3.1 大数据 big data 具有 体量巨大、来源多样、生成 极快、且 多变等特征并难以用传统 数据 体系 结构
6、有效处理的包含大 量数据集的数据。 注 : 国际上,大数据的 4个特征 普遍 不加 修饰地 直接 用 volume、 variety、 velocity和 variablility予以 表述,并分 别赋予 了它们 在大数据语境下的定义 : a) 体量 volume: 构成大数据的数据集的规模 ; b) 多样性 variety: 数据可能来自多个数据仓库、 数据领域 或多种数据类型 ; c) 速度 velocity: 单位时间的数据流量 ; d) 多变性 variability: 大数据其他特征,即体量、速度和多样性等特征都处于 多变 状态。 GB/T 35295-2017,定义 2.1.1 D
7、B15/T 1872 2020 2 3.2 非结构化数据 unstructured data 不具有预定义 模型或未以预定义方式组织的数据。 GB/T 35295-2017,定义 2.1.25 3.3 静态数据 data at rest 处于 静止状态,有 典型 特征表现为大数据的体量和多样性特征的数据。 GB/T 35295-2017,定义 2.1.37 3.4 关系数据库 relational database 数据 按关系模型来组织的数据库。 GB/T 35295-2017,定义 2.2.5 3.5 管理 信息系统 management information system 是一个以人为
8、主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集、 传输、加工、储存、更新、拓展和维护的系统。 3.6 元数据 metadata 关于数据或 数据元素的数据 (可能 包括其数据描述 ), 以及关于 数据 拥有权、存取路径、访问权和 数据 易变性的数据。 GB/T 35295-2017,定义 2.2.7 4 缩略语 下列缩略语适用于本文件 。 FTP: 标准 的文件传输协议( File Transfer Protocol) JDBC: java数据库连接( Java DataBase Connectivity) HTTPS:超文本传输安全协议( Hyper Text Tr
9、ansfer Protocol over Secure Socket Layer 或 Hypertext Transfer Protocol Secure) Kafka: Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作 流数据。 5 概述 大数据平台作为多维数据的处理平台,支持各类数据源的采集与接入。以下是大数据平台六种常用 数据源的接入方式: DB15/T 1872 2020 3 a) 关系数据库抽取 ; b) 服务网关 服务 ; c) 实时消息 队列; d) 文件 接收 FTP服务; e) 文件拉取 FTP服务; f) 直报系统 。 具体数据 接入 总
10、体框架见图 1: 文件 接口数据 关系数据库 流数据 管理信息 系统 F T P 服务 管理信息 系统 关系数据库抽取 服务网关服务 文件接收 F T P 服务 文件拉取 F T P 服务 实时消息队列 直报系统 结构化 数据存储 半结构化 数据存储 非结构化 数据存储 数据源 数据接入服务 数据仓库 大数据平台 图 1 数据接入总体 框架 6 接入要求 6.1 关系数据库 抽取 6.1.1 功能 要求 关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定时批 量抽取功能。关系数据库数据抽取应具备以下主要功能: a) 支持对主流的关系数据库进行数据抽取; 支持对数据
11、库中常用的数据类型进行数据抽取, 至少 包括数值型、字符型、日期 /时间型等数据类型; b) 支持“全量”和“ 增量”两种数据抽取模式;“全量”模式是指一次性将关系数据库中物理 表的数据抽取到大数据平台。“增量”模式是指根据设置的抽取条件筛选符合条件的数据抽取 到大数据平台; c) 支持关系数据库中结构化数据抽取到大数据平台 ,包含结构化数据存储、半结 构数据存储、非 结构数据存储的 数据仓库中 ; DB15/T 1872 2020 4 d) 支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具 体的字段、字段类型格式转换等操作; e) 支持数据抽取操作的立即执行
12、、定时调度运行。定时调度运行应提供多种调度策略,至少包括 固定时间间隔运行、指定时间点运行、指定时间范围运行、一次或指定次数运行等策略; f) 应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、 表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界 面; g) 应提供完善的日志和 审计能力,可以记录数据抽取操作配置、运行时发生的各种事件; h) 应提供完善 的监控机制, 运行 过程中 出现 异常可 快速 的定位及解决。 6.1.2 非功能 要求 关系数据库数据抽取服务应满足以下非功能性要求: a) 数据抽取速度:不少于 1 万条
13、/秒; b) 数据抽取吞吐量:在千兆带宽的网络条件下, 数据抽取吞吐量不少于 50 MB/秒。 6.1.3 应用 场景 关系数据库 抽取应用场景 见图 2: 关系数据库 大数据平台 关系数据库抽取 大数据平台 数据仓库 a ) 抽取元数据信息 b ) 配置数据传输任务 c ) 配置数据传输任务运行策略 d ) 平台运行数据传输任务 , 数据抽取 图 2 关系数据库抽取 应用 场景 应用场景描述如下 : a) 关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信 息; b) 关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标 表; c
14、) 关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度; d) 关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。 DB15/T 1872 2020 5 6.1.4 应用 要求 应用要求 如下: a) 关系数据库抽取服务适用于关系数据库定时批量抽取场景,详细说明参见附录 A; b) 数据源须提供关系数据库的访问链接,包括 IP、端口、数据库实例名、用户名、密码; c) 数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。 6.2 服务 网关服务 6.2.1 功能 要求 服务网关服务为数据源提供大数据平台中结构化数据 或
15、非结构化数据 的 接口 数据 接入 。服务网关服 务应具备以下主要功能: a) 支持接入 Webservice、 RESTful方式的 接口 ; b) 支持包括结构化数据、非结构化数据的接口; c) 支持接口编排,轻松实现多个接口的功能集成; d) 提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置; e) 应提供完善的日志和审计能力,可以记录接口 数据配置及 数据抽取操作配置、运行时发生的各 种事件; f) 应具备熔断管理机制, 保证服务整体可用,是接口访问异常情况下的处理策略。 6.2.2 非功能 要求 服务 网关 服务应满足以下非功能要求: a) 数据写入速率:在千兆
16、带宽的网络条件下 ,数据抽取吞吐量不少于 30 MB/秒; b) 操作并发数:并发数大于 200 个 /秒。 6.2.3 应用 场景 服务网关服务应用场景见图 3: 管理信息系统 大数据平台 服务网关服务 大数据平台 数据仓库 a ) 提供接口信息 b ) 接口编排 c ) 配置数据传输任务运行策略 d ) 平台运行数据传输任务 , 数据抽取 图 3 服务网关服务应用 场景 DB15/T 1872 2020 6 应用场景描述如下 : a) 数据源向大数据平台提供接口 信息 ,包括:接口访问 地址、输入参数、输出参数、验证方式等 接口 信息 ; b) 大数据平台根据数据源提供 的 数据 接口进行
17、 定义 及编排; c) 服务网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度; d) 服务网关服务运行数据传输任务,从数据源的数据 接口中 抽取数据到大数据平台数据仓库中。 6.2.4 应用 要求 a) 服务网关服务适用于提供接口类 数据的数据源 ,详细说明参见附录 B; b) 提供数据 接口的数据源需 做好自身数据操作接口程序的开发。 6.3 实时 消息队列 6.3.1 功能 要求 实时消息队列采集为管理信息系统提供实时消息推入和缓存功能。实时消息队列应具备以下主要功 能: a) 应提供分布式消息队列的管理功能,支持消息主题的创建、删除、修改; b) 应提供支持“点对
18、点”和“发布 -订阅”两个消息模式; c) 支持消息的持久化存储操作并且支持持久化周期设置; d) 应提供消息的发送和消费接口,包括链接建立、消息发送、消息消费、链接关闭; e) 应提供分布式高可用的消息队列操作接口,支持消息的发送和消费;支持消息分区和备份操作; f) 具有风格统一的图形化管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作; g) 具备完善的日志审计能力,可以记录消息发送和消费时发生的各种事件。 6.3.2 非功能 要求 实时消息队列应满足以 下非功能性要求: a) 高可行性:支持消息主题的分区和备份; b) 负载均衡:支持消息发送和消费时的负载均衡操作; c) 消
19、息发送速度:可接受的数据量大于 5 万条 /秒。 6.3.3 应用 场景 实时消息队列应用场景见图 4: DB15/T 1872 2020 7 管理信息系统 大数据平台 实时消息队列 大数据平台 数据仓库 a ) 申请实时消息队列服务 b ) 创建消息主题 返回消息配置信息 c ) 业务系统开发业务处理 程序 , 发送或接收消息 图 4 实时消息 队列 应用 场景 应用场景描述如下: a) 管理信息系统须向大数据平台申请实时消息队列接入服务; b) 大数据平台根据申请创建消息队列主题, 返回消息队列名称; c) 管理信息系统开发业务处理程序, 调用平台实时消息队列接口,发送数据或接收数据。 6
20、.3.4 应用 要求 应用要求 如下: a) 实时消息队列采集适用于管理信息系统主动将数据封装为消息 , 发送到大数据平台的实时消息 队列中。基于实时消息队列的消息缓存进行数据分析,如流计算实时处理等,详细说明参见附 录 C; b) 发送的消息内容格式支持字符串,发送的数据对象可以通过对象序列化机制转换为字符串格式 的消息内容; c) 管理信息系统应依照大数据平台提供的实时消息队列采集接口完成自身数据发送或接收接口 的开发。 6.4 文件 接收 FTP服务 6.4.1 功能 要求 文件接收 FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库 的 功能。文件采集 应具备以下主要功能
21、: a) 支持标 准 FTP 协议接收数据; b) 支持顺序型断点续传功能; c) 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。 DB15/T 1872 2020 8 6.4.2 应用 场景 文件接收 FTP服务应用场景见图 5: 管理信息系统 大数据平台 文件接收 F T P 服务 大数据平台 数据仓库 a ) 分配业务系统 f t p 账号 b ) 业务系统通过标准 F T P 协 议连接大数据平台服务 c ) 业务系统检查目标临时文件是否存在 d ) 业
22、务系统发起全量或续传命令 e ) 业务系统发送数据到大数据平台 f ) 大数据平台接收文件数据 g ) 业务系统发送数据校验文件 g ) 大数据平台接收校验文件 h ) 大数据平台校验内容 i ) 数据平台按配置的规则 存储接收到的数据文件 k ) 业务系统获取数据存储状态 j ) 大数据平台回写数据存储状态 图 5 文件接收 FTP服务 应用 场景 应用场景描述如下: a) 大数据平台配置应用账号、接收参数及存储位置; b) 管理信息系统通过标准 FTP 协议连接大数据平台服务; c) 管理信息系统检查目标临时文件是否存在; d) 管理信息系统发起全量或续传指令; e) 管理信息系统发送数据
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB15 18722020 大数据平台 接入技术要求 1872 2020 数据 平台 接入 技术 要求
