DB23 T 3304—2022 大数据平台数据接入规范.pdf
《DB23 T 3304—2022 大数据平台数据接入规范.pdf》由会员分享,可在线阅读,更多相关《DB23 T 3304—2022 大数据平台数据接入规范.pdf(37页珍藏版)》请在麦多课文档分享上搜索。
1、1 ICS 35.020 CCS L 70 DB23 黑龙江省地方标准 DB23/T 3304 2022 大数据平 台数据接 入规范 2022-07-07 发布 2022-08-06 实施 黑 龙 江 省 市 场 监 督 管 理 局 发布 I 目 次 前言.II 1 范围.1 2 规 范性 引用 文件.1 3 术 语和 定义.1 3.1 数据 接入.1 3.2 数据 采集.1 3.3 全量 采集 模式.1 3.4 增量 采集 模式.1 3.5 轮询 采集 模式.1 4 缩 略语.1 5 总 体框 架.2 5.1 总体 框架 描述.2 5.2 数据 源的 接入 和采 集 方式.3 6 接 入要
2、求.3 6.1 关系 数据 库抽 取.3 6.2 数据 库实 时复 制.4 6.3 网关 服务.5 6.4 消息 队列.6 6.5 文件 接收FTP 服务.8 6.6 文件 拉取FTP 服务.9 6.7 文件HTTP 服务.11 6.8 文件NFS 服务.13 附录A(资 料性)关系 数据库 抽取 接入 说明.16 附录B(资 料性)网关 服务接 入说 明.17 附录C(资 料性)消息 队列接 入说 明.18 附录D(资 料性)文件 接收 FTP 服 务接 入说 明.20 附录E(资 料性)文件 拉取 FTP 服务 接 入说 明.24 附录F(资 料性)文件HTTP 服 务接 入说 明.27
3、附录G(资 料性)文件NFS 服 务接 入说 明.31 II 前 言 本文件 依据GB/T 1.1-2020 标 准化 工作导 则 第1 部 分:标准 化文件 的结 构和 起草规 则 的规 定起草。请注意 本文 件的 某些 内容 可能涉 及专 利,本文 件的 发布机 构不 承担 识别 专利 的责任。本文件 由黑 龙江 省大 数据 产业协 会提 出。本文件 由黑 龙江 省工 业和 信息化 厅归 口。本文件 起草 单位:黑龙 江 省大数 据产 业协 会、哈 尔 滨财富 通科 技发 展有 限公 司、黑龙 江亿 林网 络股份有限 公司、黑 龙江 省网 络空间 研究 中心、黑 龙江 省标准 化研 究院、
4、黑 河市 特种设 备检 验研 究所、黑 龙江大数 据产 业发 展有 限公 司、黑龙 江省 信创 科技 有 限公司、黑龙 江交 投信 科 科技有 限责 任公 司、黑 龙 江交投千 方科 技有 限公 司、哈尔滨 智路 开发 有限 公司、黑 龙江 农投 大数 据公 司、黑龙江 省农 投云 产业 有限公司。本文件 主要 起草 人:李 璐 昆、孙传 友、杜 飞、孙 甲 子、张驰、王阳、陈要 武、杨大志、吕猛、王磊、唐丽、赵海 洋、李冰 冷、叶爽、王克 云、李森、周 全、何 晨龙、叶 爽、张新、关哲 刚、杨旭、王 晶。DB23/T 3304-2022 1 大 数据平 台数据接 入规范 1 范围 本文件 规
5、定 了大 数据 平台 数据接 入规 范的 术语 和定 义,缩 略语、总 体框 架和 接入要 求。本文件 适用 于黑 龙江 省内 大数据 平台 进行 数据 采集 功能研 发、数据 采集 工具 选 型及其 数据 接入 场 景提供规 范要 求。2 规范性 引用 文件 下列文 件中 的内 容通 过文 中的规 范性 引用 而构 成本 文件必 不可 少的 条 款。其 中,注日 期的 引用 文件,仅该日 期对 应的 版本 适用 于本文 件;不注 日期 的引 用文件,其 最新 版本(包 括所有 的修 改单)适 用 于 本文件。GB/T 29262 信 息技 术 面向服 务的 体系 结构(SOA)术语 GB/T
6、 35274 信 息安 全技 术 大 数据 服务 安全 能力 要求 GB/T 35295 信 息技 术 大数据 术语 GB/T 37973 信 息安 全技 术 大 数据 安全 管理 指南 3 术语和 定义 GB/T 29262、GB/T 35295 和GB/T 35274 界 定的 以及 下列术 语和 定义 适用 于本 文件。3.1 数据接 入 将数据 传输 进 入 数据 平台 所采用 的形 式。3.2 数据采 集 将数据 收集 进入 数据 平台 所采用 的形式。3.3 全量采 集模 式 是指一 次性 将关 系数 据库 中物理 表的 数据 抽取 到大 数据平 台。3.4 增量采 集模 式 是指
7、根 据设 置的 抽取 条件 筛选符 合条 件的 数据 抽取 到大数 据平 台。3.5 DB23/T 3304-2022 2 轮询采 集模 式 轮询采 集模 式是 增量 采集 模式的 一种。4 缩略语 下列缩 略语 适用 于本 文件。DTS:数 据传 输服 务(Data Transfer Service)。ETL:将 数据 从来 源端 经过 抽取、转换、加 载至 目的 端的过 程(Extract-Transform-Load)。FTP:文件 传输 协议(File Transfer Protocol)。HTTP:标准 的超 文件 传输 协 议(Hyper Text Transfer Protoco
8、l)。JDBC:java 数据 库连 接(Java DataBase Connectivity)。NFS:网络 文 件系 统(Network File System)。KQS:消息 集群 数据 接入(Kafka Queue Stream)。SHA:安全 哈希 算法(Secure Hash Algorithm)。5 总体框 架 5.1 总体框 架描 述 大数据 平台 支持 从关 系型 数据库、文件、数据 流等 来 源获取 数据,实现 各类 离 线数据 及实 时数 据的采集与 接入,包 括设 备采 集数据、企 业管 理业 务数 据、外 部数 据等。其 中离 线数据 主要 分为 关系 型 数 据库所
9、存 储的 结构 化数 据及 文件系 统所 存储 的非 结构 化文件 数据,实 时数 据主 要 是设备 采集 监控 及业 务 系统产生 的实 时流 数据。总 体框架 示意 图见 图1。DB23/T 3304-2022 3 关系数据库接口数据文件流数据管理信息系统FTP 服务管理信息系统关系数据库抽取网关服务文件接收FTP 服务文件拉取FTP 服务消息队列结构化数据存储非结构化数据存储数据源数据接入服务数据仓库大数据平台数据库Web接口服务HTTP 服务NFS 服务文件HTTP服务文件NFS服务数据库实时复制 图1 总体框 架示 意图 5.2 数据源 的接 入和 采集 方式 大数据 平台 作为 多
10、维 数据 的处理 平台,应 支持 各类 数据源 的接 入和 采集。常 用数据 源的 接入 和采 集包含但 不限 于以 下方 式:a)关系数 据库 抽取;b)数据库 实时 复制;c)网关服 务;d)消息队 列服 务;e)文件接 收FTP 服务;f)文件拉 取FTP 服 务;g)文件HTTP 服务;h)文件NFS 服 务。6 接入要 求 6.1 关系数 据库 抽取 DB23/T 3304-2022 4 6.1.1 功能要 求 关 系 数 据库 抽取 应 提 供管理 信 息 系统 关 系数 据 库中的 结 构 化数 据 到大 数 据平台 数 据 存储 的 定期 批量抽取 功能。关 系数 据库 数据抽
11、 取应 具备 以下 主要 功能:a)支持对 主流 的关 系数 据库 进行数 据抽 取;支持 对数 据库中 常用 的数 据类 型进 行数据 抽取,至 少包括数 值型、字 符型、日 期/时 间型 等数 据类 型;b)支持“全量”和“增 量”两种数 据抽 取模 式;c)支持关 系数 据库 中结 构化 数据抽 取到 大数 据平 台,包含结 构化 数据、半 结构 数据存 储的 数据 仓库中;d)支持对 关系 数据 库数 据的 采集内 容和 类型 转换 操作,至少 包括 选择 具体 的数 据表、选择 表中 具体的字 段、字段 类型 格式 转换等 操作;e)支持数 据抽 取操 作的 立即 执行、定 期调 度
12、运 行。定 期调度 运行 应提 供多 种调 度策略,至少 包 括固定期 间间 隔运 行、指定 期间点 运行、指 定期 间范 围运行、一 次或 指定 次数 运行等 策略;f)应提供 图形 化管 理界 面,应 提供数 据抽 取模 式设 置、抽 取源关 系数 据库 配置、指 定 数据表 配置、表字段 选择 配置、字段 类 型转换 配置、大数 据平 台 目标存 储位 置配 置、运 行 策略配 置等 操作 界面;g)应提供 完善 的日 志和 审计 能力,可以 记录 数据 抽取 操作配 置、运行 时发 生的 各种事 件;h)应提供 完善 的监 控机 制,运行过 程中 出现 异常 可快 速的定 位及 解决。
13、6.1.2 应用场 景描 述 应用场 景描 述如 下:a)关系数 据库 抽取 服务,抽 取数据 源中 数据 库的 元数 据信息,包括 数据 库用 户 所属的 表、字 段信息;b)关系数 据库 抽取 服务 配置 数据传 输任 务,包括 抽取 数 据库的 源表 和大 数据 平台 对应的 存储 目 标表;c)关系数 据库 抽取 服务 配置 数据传 输任 务运 行策 略,包 括运行 的开 始时 间、结束 时 间、运 行频 度;d)关系数 据库 抽取 服务 运行 数据传 输任 务,从数 据源 的数据 库抽 取数 据到 平台 数据存 储中。6.1.3 应用场 景图 关系数 据库 抽取 应用 场 景 见图2
14、。DB23/T 3304-2022 5 数据源 大数据平台数据抽取服务 大数据平台数据仓库b)配置数据传输任务a)抽取元数据信息c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流数据流 图2 关系数 据库 抽取 应用 场景 6.1.4 应用要 求 应用要 求如 下:a)关系数 据库 抽取 服务 适用 于关系 数据 库定 期批 量抽 取场景,详 细说 明见 附 录A;b)数据源 须提 供关 系数 据库 的访问 链接,包 括 IP、端 口、数 据库 实例 名、用户 名、密 码;c)数据源 提供 的数 据库 访问 用户应 具备 数据 库的 元数 据信息 定义 表的 读取 权限。6.
15、2 数据库 实时 复制 6.2.1 功能要 求 数 据 实 时复 制 应提 供 业务系 统 关 系型 数 据库 中 的结构 化 数 据到 大 数据 平 台数据 存 储 的增 量 低时 延复制功 能,数据 实时 复制 应具备 以下 主要 功能:a)支持对 主流 的 关 系型 数据 库进行 低时 延增 量复 制,至少包 括 Oracle、MySQL、PostgreSQL 等关系型数 据库;支 持对 数据 库中常 用的 数据 类型 进行 数据抽 取,至少 包括 数值 型、字 符型、日 期/时间 型等 数据 类型;b)支持秒 级时 延的 关系 型数 据库增 量复 制能 力;同时 支持在 全量 复制 的
16、基 础上,无缝 自动 切换 到增量复 制模 式;c)支持关 系型 数据 库中 结构 化数据 抽取 到大 数据 平台 关系型 数据 存储、非 关系 型数据 存储、分 布式文件 存储、实 时数 据存 储及消 息队 列;d)支持对 关系 型数 据库 数据 的内容 和类 型转 换操 作,至少包 括不 同数 据库 差异 转换、字段 类型 格式转换、时 区转 换等 操作;e)支持对 复制 对象 的过 滤,至少包 括模 式过 滤、表过 滤、字 段过 滤、数据 行过 滤;DB23/T 3304-2022 6 f)支持数 据复 制操 作的 手动 触发、定期 调度 及外 部触 发 运行。定期 调度 运行 应提 供
17、 多种调 度策 略,至少包 括固 定期 间间 隔运 行、指定 期间 点运 行、指 定期间 范围 运行、一次 或 指定次 数运 行等 策略;外 部触 发支 持标 准 webservice 接口;g)应提供 中心 图形 管理 界面,应提 供源 端元 数据 查看、数据复 制场 景管 理、数据 表配置、表 字段;h)选择配 置、字段 类型 转换 配置、触发 机制 配置、目 标端输 出配 置、运行 策略 配置、运行 监控 等操作界 面。6.2.2 应用场 景 应用过 程如 下:a)业务系 统关 系 型 数据 库服 务器上 部署 增量 捕获 程序;b)增量捕 获程 序捕 获到 增量 数据通 过 TCP 或
18、 消息 队列 发送到 大数 据平 台增 量接 收服务;c)大数据 平台 解析 增量 数据,并将 增量 数据 存储 到大 数据平 台中;d)大数据 平台 分发 增量 数据 到目标 数据 仓库 中。6.2.3 应用场 景图 数据库 实时 复制 应用 场景 见图3。关系数据库a增量捕获程序bc大数据平台接收、解析服务大数据平台数据仓库TCP/消息队列d 图3 数据库 实时 复制 应用 场景 6.2.4 应用要 求 应用要 求包 括:a)源数据 库应 是关 系型 数据 库;b)源数据 库表 应包 含主 键或 唯一索 引;c)源端数 据库 应开 启附 加日 志和强 制归 档模 式;d)源端数 据库 的在
19、 线日 志文 件、归 档日 志文 件应 存放 在文件 系统 上。6.3 网关服 务 6.3.1 功能要 求 网关服 务为 数据 源提 供大 数据平 台中 结构 化数 据或 非结构 化数 据的 接口 数据 接入。网关 服务 应具 备以下主 要功 能:a)支持接 入webservice、RESTful 方式 的接 口;b)支持包 括结 构化 数据、非 结构化 数据 的接 口;c)支持接 口编 排,轻松 实现 多个接 口的 功能 集成;d)提供图 形化 管理 界面,用 于接口 数据 存储 位置、操 作用户、目 标存 储位 置的 配置;e)提供完 善的 日志 和审 计能 力,应 记录 接口 数据 配置
20、 及数据 抽取 操作 配置、运 行时发 生的 各种 事件;DB23/T 3304-2022 7 f)具备熔 断管 理机 制,接口 访问异 常情 况下 的处 理策 略,保 证服 务整 体可 用。6.3.2 应用场 景 网关服 务应 用场 景描 述如 下:a)数据源 向大 数据 平台 提供 接口信 息,包括:接 口访 问地址、输 入参 数、输出 参数、验证 方式 等接口信 息;b)大数据 平台 根据 数据 源提 供的数 据接 口进 行定 义及 编排;c)网关服 务配 置数 据传 输任 务运行 策略,包 括运 行的 开始时 间、结束 时间、运 行频度;d)网关服 务运 行数 据传 输任 务,从 数据
21、 源的 数据 接口 中抽取 数据 到大 数据 平台 数据仓 库中。6.3.3 应用场 景图 网关服 务应 用场 景见 图4。数据源 大数据平台数据网关服务 大数据平台数据仓库b)创建数据库、用户,分配权限a)资源申请返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作 图4 网关服 务应 用场 景 6.3.4 应用要 求 网关服 务应 用要 求包 括:a)网关服 务适 用于 提供 接口 类数据 的数 据源,详 细说 明见附 录B;b)提供数 据接 口的 数据 源需 做好自 身数 据操 作接 口程 序的开 发。6.4 消息队
22、 列 6.4.1 功能要 求 消息队 列采 集为 管理 信息 系统提 供消 息推 送和 缓存 功能。消息 队列 应具 备以 下主要 功能:a)应提供 分布 式消 息队 列的 管理功 能,支持 消息 主题 的创建、删 除、修改;b)应提供 支持“点 对点”和“发布-订 阅”两个 消息 模 式;DB23/T 3304-2022 8 c)应支持 消息 的持 久化 存储 操作并 且支 持持 久化 周期 设置;d)应提供 消息 分布 式高 可用 的发送 和消 费接 口,包括 链接建 立、消息 发送、消 息 消费、链接 关闭,支持消 息分 区和 备份 操作;e)具有风 格统 一的 图形 化管 理界面,支
23、持消 息队 列主 题的创 建、删除、测 试、授权访 问的 操作;f)具备完 善的 日志 审计 能力,应记 录消 息发 送和 消费 时发生 的各 种事 件。6.4.2 应用场 景 应用场 景描 述如 下:a)管理信 息系 统应 向大 数据 平台申 请消 息队 列接 入服 务;b)大数据 平台 根据 申请 创建 消息队 列主 题,返回 消息 队列名 称;c)管理信 息系 统开 发业 务处 理程序,调 用平 台消 息队 列接口,发 送数 据或 接收 数据。6.4.3 应用场 景图 消息队 列应 用场 景见 图5。数据源 大数据平台实时消息队列服务 大数据平台数据仓库b)创建消息队列主题a)申请实时消
24、息队列接入服务c)业务系统开发业务处理程序,发送或接入消息信息流数据流 图5 消息队 列应 用场 景 6.4.4 应用要 求 应用要 求如 下:a)消息队 列采 集适 用于 管理 信息系 统主 动将 数据 封装 为消 息,发 送到 大数 据平 台的消 息队 列中。基于消 息队 列的 消息 缓存 进行数 据分 析,详细 说明 见附 录 C;b)发送的 消息 内容 格式 支持 字符串,发 送的 数据 对象 可 通过对 象序 列化 机制 转换 为字符 串格 式 的消息内 容;DB23/T 3304-2022 9 c)管 理 信 息 系统 应 依 照大 数据 平 台 提 供的 消 息 队列 采集 接
25、口 完 成自 身 数 据发 送或 接 收 接 口的 开发。6.5 文件接 收FTP 服务 6.5.1 功能要 求 文件接 收FTP 服务应 提供 外 部系统 文件数 据的 接收并 存入到 大数据 平台 数据仓 库的功 能。文 件采 集应具备 以下 主要 功能:a)支持标 准 FTP 协议 接收 数 据;b)支持顺 序型 断点 续传 功能;c)支持接 收的 文件 的重 命名 及指定 存储 目录;d)应支持 对接 收文 件的 完整 性校验;e)应支持 对客 户端 进行 认证;f)支持图 形管 理功 能,支持 认证配 置、文件 目标 位置 配置、校验 处理 配置。6.5.2 应用场 景 应用场 景描
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB23 33042022 大数据平台数据接入规范 3304 2022 数据 平台 接入 规范
