1、 ICS 35.240.99 CCS L 67 37 山东省地方标准 DB37/T 4529 2022 海洋大数 据分级存 储技术规 范 Technical specification for hierarchical storage of ocean big data 2022-07-25 发布 2022-08-25 实施 山东省市 场监督 管 理局 发 布 DB37/T 4529 2022 I 目 次 前言.II 1 范围.1 2 规 范性 引用 文件.1 3 术 语和 定义.1 4 缩 略语.1 5 数 据分 级.2 5.1 分级 要素.2 5.2 定级 规则.2 5.3 分级 等级 及
2、存 储要 求.2 6 分 级存 储技 术要 求.3 6.1 基本 要求.3 6.2 分级 存储 实现.3 6.3 数据 迁移.3 7 分 级存 储管 理要 求.4 7.1 设备 管理.4 7.2 资源 管理.5 7.3 策略 管理.5 7.4 监控 运维.5 参考文 献.6 DB37/T 4529 2022 II 前 言 本文件 按照GB/T 1.1 2020 标准 化工 作导则 第1 部分:标准化 文件 的结构 和起草 规则 的规 定起草。请注意 本文 件的 某些 内容 可能涉 及专 利。本文 件的 发布机 构不 承担 识别 专利 的责任。本文件 由山 东省 海洋 局提 出并组 织实 施。本
3、文件 由山 东省 海洋 标准 化技术 委员 会归 口。DB37/T 4529 2022 1 海 洋大数 据分级存 储技术 规范 1 范围 本文件 规定 了海 洋大 数据 的数据 分级 以及 分级 存储 的技术 要求 和管 理要 求。本文件 适用 于10 PB 级以 上 海洋大 数据 的分 级存 储与 管理。2 规范性 引用 文件 下列文 件中 的内 容通 过文 中的规 范性 引用 而构 成本 文件必 不可 少的 条款。其 中,注日 期的 引用 文件,仅该日 期对 应的 版本 适用 于本文 件;不注 日期 的引 用文件,其 最新 版本(包 括所有 的修 改单)适 用 于 本文件。GB/T 352
4、95 2017 信息 技术 大数 据 术语 3 术语和 定义 GB/T 35295 2017 界 定的 以及下 列术 语和 定义 适用 于本文 件。3.1 大数据 big data 具有数 据巨 大、种类 多样、流动 速度 快、特征 多变 等特性,并 且难 以用 传统 数据体 系结 构和 数 据 处理技术 进行 有效 组织、存 储、计 算、分析 和管 理的 数据集。来源:GB/T 37973 2019,3.1 3.2 海洋大 数据 ocean big data 具有大 数据 特征 的海 洋领 域数据 集。3.3 数据分 级 data classification 按照存 储效 能的 分级 规则
5、 对大数 据进 行定 级。3.4 分级存 储 hierarchical storage 采用相 应等 级的 存储 要求 对大数 据进 行存 储。3.5 迁移策 略 migration strategy 根据大 数据 的分 级等 级及 数据访 问量 要求 所建 立的 分级存 储实 施策 略。注:包括迁移触发条件、源存储设备、目标存储设备等。4 缩略语 下列缩 略语 适用 于本 文件。CPU:中央 处理 单元(Central Processing Unit)ETL:数据 提取、转 换和 加 载(Extract-Transform-Load)DB37/T 4529 2022 2 IOPS:每秒 读写
6、 次数(Input Output Operations Per Second)ORC:列式 存储(Optimized Row Columnar)PB:拍 字节,1PB=2 的50 次 方字节(Petabyte)RCFile:列 存储 文件(Record Columnar File)SQL:结构 化查 询语 言(Structured Query Language)5 数据分 级 5.1 分级要 素 海洋大 数据 分级 定级 主要 考虑的 要素 为海 洋大 数据 的访问 频率,即 根据 海洋 大 数据访 问量 从高 到 低来判断,可 分为 高频 率访 问的海 洋大 数据、一 般频 率访问 的海 洋
7、大 数据、低 频率访 问的 海洋 大数 据。5.2 定级规 则 海洋大 数据 分级 等级 分为 三级、二级、一 级,应按 照表1 进行 海洋 大数 据的 定 级。表1 海洋大 数据 等级 条件 及判 定规则 5.3 分级等 级及 存储 要求 相应等 级的 海洋 大数 据的 存储应 符合 表2 的规 定。表2 海洋大 数据 分级 等级 及存 储要求 数据分级等级 分级存储要求 三级 三级海洋大数据的存储应符合以下要求:1)应实现数据 实时访问,访问 延迟应小于5 ms;2)可扩展性:应采用可扩展的存储架构,当存储资源不足时应具备在线扩展能力,且不影响原存 储系统的正常运行;3)可靠性:多种手段保
8、护数据,确保数据100%不丢失,保证业 务99.999 99%高可用。二级 二级海洋大数据的存储应符合以下基本要求:1)可实现数据 实时访问,访问延迟应小于100 ms;2)可扩展性:具备一定的在线存储容量扩充能力,且不影响原存储系统的正常运行;3)可靠性:多种手段保护数据,确保数据100%不丢失,保证业 务99.999 9%高可用。等级条件 判定规则 判定等级 三级等级条件:高频率访问的海洋大数据。数据访问频次从高到低,排序前10%部分数据。三级 二级等级条件:一般频率访问的海洋大数据。数据访问频次从高到低,排序前10%30%部分数据。二级 一级等级条件:访问频率较低,或不经常被访 问的海洋
9、大数据,或归档的历史海洋大数据。数据访问频 次从高到 低,排 序30%100%部分数据。一级 注:根据对海洋大数据访问周期的统计结果,结合本机构的实际情况,对三级、二级、一级等级的存储空间比例进行适当调整。DB37/T 4529 2022 3 表2 海洋 大数 据分 级等 级及存 储要 求 数据分级等级 分级存储要求 一级 一级海洋大数据的存储应符合以下基本要求:1)可实现数据延迟访问,访问 延迟不高于5 min;2)可扩展性:应支持离线扩展能力,且不影响原存储系统的正常运行;3)可靠性:确保数据100%不丢失,保证业务99.999 9%高可用。6 分级存 储技 术要 求 6.1 基本要 求
10、海洋大 数据 存储 的基 本要 求:a)应提供 结构 化、非结 构化、半结 构化 数据 存储 和处 理等功 能;b)应 支 持分 布 式存 储,包 括分 布 式文 件 存储、分 布 式结 构 化数 据 存储、分 布 式列 式 数据 存储、分布式 图数 据存 储;c)应提供 时序 数据 存储 功能;d)应提供 实时 数据 存储 功能;e)应支持 批处 理计 算功 能,包括离 线批 量数 据处 理、在线批 量数 据处 理等 功能;f)应支持 实时 流处 理/计算 功 能;g)宜提供 数据 压缩 存储 功能,支持 压缩 存储 格式,包 括文本 格式、RCFile、ORC 等;h)宜提供 多副 本存
11、储功 能,并确保 数据 存储 完整 性和 多副本 一致 性;i)宜提供 多种 编程 语言 和脚 本语言 进行 数据 处理 功能。6.2 分级存 储实 现 海洋大 数据 的分 级存 储实 现:a)应事先 明确 海洋 大数 据的 数据分 级等 级,分级 等级 的判定 应根 据 5.2 的 要求 开展;b)应 支 持依 据 海洋 大数 据 的分 级 等级 将 海洋 大数 据 存储 在 相应 等 级的 存储 设 备或 系 统中,海洋大数据 分级 等级 及存 储要 求应符 合 5.3 的 要求;c)海 洋 大数 据 分级 存储 前 应事 先 进行 数 据处 理,应 对缺 失 值数 据 进行 补齐,支持
12、差 异数 据、脏数据、冗余 数据 的清 洗、去噪、过滤 等;d)应 定 期评 估 海洋 大数 据 的分 级 等级,分级 等级 发 生变 化 的,应 将海 洋大 数 据迁 移 至相 应等级的存储 设备 或系 统,包括 以下两 种方 式:1)归档的 历史 海洋 大数 据可 直接拷 贝至 磁带 库/光盘 库 等存储 介质 中;2)采用数 据抽 取方 式将 海洋 大数据 迁移 至相 应等 级的 存储设 备或 系统,应 按照 6.3 的规定开展数 据迁 移。e)应 支 持根 据 海洋 大数 据 的分 级 等级 及 存储 要求、数据 访 问量,进行 不同 存 储方 式 之间 的迁移策略的 设置、修 改、删
13、除 等操作;f)应支持 根据 迁移 策略 实现 对海洋 大数 据的 组合 查询;g)应支持 根据 海洋 大数 据的 迁移策 略实 现海 洋大 数据 的自动 迁移,自 动迁 移应 支持迁 移日 志。6.3 数据迁 移 6.3.1 迁移准 备 迁移准 备工 作应 包括 但不 限于:DB37/T 4529 2022 4 a)制定待 迁移 数据 源的 详细 说明,包括 数据 的存 储方 式、数 据量、数 据的 时间 跨度等;b)建立新 旧系 统数 据库 的数 据字典;c)旧系统 历史 数据 的质 量分 析;d)新旧系 统数 据结 构的 差异 分析;e)新旧系 统代 码数 据的 差异 分析;f)建立新
14、旧系 统数 据库 表的 映射关 系,并对 无法 映射 的字段 进行 处理;g)开发、部 署ETL 工具,编 写数据 转换 的测 试计 划和 校验程 序;h)制定数 据转 换的 应急 措施。6.3.2 迁移实 施 6.3.2.1 数据抽 取 应建立 新旧 系统 数据 库表 的映射 关系,采 用合 适的 数 据抽取 工具 将海 洋大 数据 从源存 储设 备或 系 统抽取至 目标 存储 设备 或系 统。6.3.2.2 数据转 换 应对迁 移至 新存 储设 备或 系统的 海洋 大数 据进 行数 据质量 分析,以 找出 存在 问题的 数据。应对重 复、错误、不 完整、违反 业务 或逻 辑规 则等 问题数
15、 据进 行相 应的 操作。6.3.2.3 数据装 载 通过装 载工 具或 自行 编写 的SQL 程序 将抽 取、转换 后 的结果 数据 加载 到目 标存 储系统 中的 存储 设 备。6.3.2.4 数据校 验 迁移后 的质 量校 验要 求:a)海 洋 大数 据 迁移 后,应 对迁 移 后的 海 洋大 数据 进 行数 据 校验,可通 过以 下 两种 方 式对 迁移后的海洋 大数 据进 行校 验:1)新 旧 系统 查 询数 据 对比 检查,通过 新 旧系 统各 自 的查 询 工具,对相 同指 标 的数 据 进行查询,并 比较 最终 的查 询结 果;2)将 新 系统 的 数据 恢 复到 旧系 统 迁
16、移 前 一天 的状 态,并 将 最后 一 天发 生在 旧 系统 上 的业务数据补 录到 新系 统,检查 有无异 常,并和 旧系 统比 较最终 产生 的结 果。b)数据校 验内 容应 包括 但不 限于:1)数据格 式检 查:检查 数据 的格式 是否 一致 和可 用;2)数据长 度检 查:检查 数据 的有效 长度;3)区间范 围检 查:检查 数据 是否包 含在 定义 的最 大值 和最小 值的 区间 中;4)空值、默认 值检 查:检查 新旧系 统定 义的 空值、默 认值是 否相 同;5)完整性 检查:检 查数 据的 关联完 整性;6)一致性 检查:检 查逻 辑上 是否存 在不 一致 的数 据。7 分
17、级存 储管 理要 求 7.1 设备管 理 DB37/T 4529 2022 5 支持分 级存储 系统 或设备 的磁盘、CPU、内存、电 源、风扇、网口 等信 息的查 询,以 便实时 了解 分级存储 系统 或设 备运 行状 态等;同时 及时 了解 运行 有误的 分级 存储 系统 或设 备,若 有必 要应 采 取 适 当 措施保证 其正 常运 行。7.2 资源管 理 海洋大 数据 分级 存储 资源 管理要 求:a)应 提 供分 级 存储 系统 的 各个 节 点的 服 务情 况的 查 询功 能,包 括 节点 的主 备、节 点 的容 量和性能(IOPS、读流 量、写流 量)等 信息,实 时了 解域 内
18、资源 信息,运 行状 态;b)应提供 用户 权限 范围 内的 节点管 理功 能,包 括 存储 信息的 添加、修 改、删除 等;c)应及时 了解 资源 的异 常,若有必 要应 采取 适当 措施 保证其 正常 运行;d)应提 供CPU、内 存、存储 等资源 的调 度和 配置 功能;e)应支持 静态 资源 分配 策略 和动态 资源 分配 策略;f)应提供 资源 视图 查看 功能,包括 可 用 CPU、内 存、存储等 的利 用率、分 占比 等;g)宜提供 设置 任务 优先 级的 功能,并按 任务 优先 级对 资源进 行调 度;h)宜提供 作业 自动 分配 或手 动分配 功能;i)宜提供 作业 运行 状
19、态 管理 功能,包括 开始、暂 停、转移和 重启 等;j)宜提供 资源 扩展 和预 留功 能,以 及资 源预 警、告警 功能。7.3 策略管 理 海洋大 数据 分级 存储 策略 管理要 求:a)分级存 储策 略管 理:1)应 提 供灵 活 的分 级 存储 策略,包括 异 地存 储、加 密存 储、压 缩 存储、同 步 或异 步 等存储方式,不同 分级 等级 海洋 大数据 的分 级存 储策 略应 符合 5.3 的 要求;2)应支持 对海 洋大 数据 分级 存储策 略的 设置、修 改、删除和 查询 等。b)迁移策 略管 理:应支 持对 海洋大 数据 迁移 策略 的设 置、修 改、删除 和查 询等;c
20、)应提供 海洋 大数 据分 级等 级、分 级存 储要 求和 迁移 策略三 者间 的映 射关 系。7.4 监控运 维 海洋大 数据 分级 存储 监控 运维要 求:a)应 定 期对 海 洋大 数据 的 分级 等 级进 行 监测,海 洋 大数 据 分级 等 级发 生变 化 时,应 实现 海 洋大数据的 自动 迁移 或人 工迁 移;b)应 实 时监 控 各分 级等 级 的存 储 设备 的 剩余 空间,当存 储 设备 剩 余空 间达 到 预先 设 定指 标时,应实现 海洋 大数 据的 自动 迁移或 人工 迁移;c)应定期 扫描 海洋 大数 据的 数据访 问量,可 根据 数据 访问量 对数 据进 行迁 移管 理;d)宜 充 分考 虑 海洋 大数 据 的增 长 速度,并定 期对 各 级别 存 储设 备 的容 量可 扩 展性 进 行分 析,确保各级 别的 存储 设备 有足 够的存 储容 量。DB37/T 4529 2022 6 参考文 献 1 GB/T 37722 2019 信息技 术 大数 据存 储与 处理系 统功 能要 求 2 GB/T 37973 2019 信息安 全技 术 大数 据安 全管理 指南 3 GB/T 39786 2021 信息安 全技 术 信息 系统 密码应 用基 本要 求