移动大数据平台架构设计方案.pdf
《移动大数据平台架构设计方案.pdf》由会员分享,可在线阅读,更多相关《移动大数据平台架构设计方案.pdf(39页珍藏版)》请在麦多课文档分享上搜索。
1、集 团 公 司 网 络 部大 数 据 技 术 网 络 部 网 管 支 撑 处2015年 12月集 团 公 司 网 络 部目 录- 2 - 一 、 大 数 据 的 背 景 与 定 义二 、 大 数 据 的 关 键 技 术三 、 网 管 领 域 应 用 展 望- 2 - 集 团 公 司 网 络 部数 据 管 理 技 术 发 展 历 史数 据 管 理 技 术 历 经 人 工 管 理 、 文 件 管 理 、 数 据 库 管 理 等 时 代 , 大 数 据 技 术 的 出 现 使该 领 域 进 入 了 一 个 新 的 发 展 阶 段- 3 - 1946 1951 1956 1961 1970 1974
2、1979 1991 2001 2003 2008 2011第 一 台 计算 机ENIAC面世 磁 带 +卡片人 工 管理 磁 盘 被发 明 ,进 入 文件 管 理时 代 网 络 型 SQLE-RGE公 司 发明 第 一 个 网络 模 型 数 据库 , 但 仅 限于 GE自 己的 主 机1960年 代 , IT系 统 规 模 和 复 杂 度 变 大 , 数 据 与 应 用 分离 的 需 求 开 始 产 生 , 数 据 库 技 术 开 始 萌 芽 并 蓬 勃 发 展 ,并 在 1990年 后 逐 步 统 一 到 以 关 系 型 数 据 库 为 主 导IBM E.F.Dodd提出 关 系模 型 SQ
3、L语言 被 发明 关 系 型数 据 库ORACLE发 布 第一 个 商用 SQL关 系 数据 库 ,后 续 快速 发 展 数 据 仓 库数 据 仓 库 开始 涌 现 , 关系 数 据 库 开始 全 面 普 及且 平 台 无 关 ,进 入 成 熟 期2001年 后 , 互 联 网 迅速 发 展 , 数 据 量 成 倍 递增 , 量 变 引 起 质 变 , 开始 对 数 据 管 理 技 术 提 出全 新 的 要 求1946年 , 电 脑 诞 生 , 数据 与 应 用 紧 密 捆 绑 在 文 件中 , 彼 此 不 分 Hadoop成为 Apache顶 级 项 目 ,重 点 支 持 海量 数 据 分
4、布式 管 理 和 分布 式 计 算GFS谷 歌 发 表论 文 介 绍分 布 式 计算集 团 公 司 网 络 部大 数 据 发 展 背 景全 球 信 息 化 发 展 已 步 入 大 数 据 时 代150亿 个 设 备 连 接 到 互 联 网全 球 每 秒 钟 发 送 290万 封 电 子 邮 件每 天 有 2.88 万 小 时 视 频 上 传 到 YoutubeFacebook 每 日 评 论 达 32亿 条 , 每 天 上 传 照 片 近 3亿 张, 每 月 处 理 数 据 总 量 约 130万 TB2011年 全 球 产 生 数 据 量 1.8ZB, 预 计 2020年 将 增 长 到35Z
5、B大 数 据 正 迅 速 成 为 最 值 得 关 注 的 IT领 域 之 一2011年 5月 , EMC World 2011大 会 主 题 “ 云 计 算 相 遇大 数 据 ” , EMC 除 了 一 直 倡 导 的 云 计 算 外 , 还 抛 出 “大数 据 “( BigData) 概 念2011年 6月 底 , IBM、 麦 肯 锡 等 众 多 国 外 机 构 发 布 “大 数据 “相 关 研 究 报 告 , 予 以 积 极 跟 进2011 年 10 月 , Gartner 认 为 2012 年 十 大 战 略 技 术 将 包括 “大 数 据 “2011 年 11 月 底 , IDC 将
6、 “大 数 据 “放 入 2012 年 信 息 通 信产 业 十 大 预 测 之 一- 4 - IDC全 球 数 据 量 预 测 ( 1ZB = 1百 万 PB = 10亿 TB)Google网 站 Big data关 键 词 搜 索 及 新 闻 引 用 量集 团 公 司 网 络 部大 数 据 的 定 义IDC对 大 数 据 的 定 义大 数 据 技 术 将 被 设 计 用 于 在 成 本 可 承 受 (economically) 的 条 件 下 , 通 过 非 常 快速 ( velocity) 的 采 集 、 发 现 和 分 析 , 从 大 体 量 ( volumes) 、 多 类 别 (v
7、ariety) 的 数 据 中 提 取 价 值 ( value) , 是 IT领 域 新 一 代 的 技 术 与 架 构解 读 大 数 据 定 义业 务 目 标 : 在 1E( 成 本 可 接 受 -economically)的 条 件 下 从 大 数 据 中 提 取 数 据 的 价 值 ( Value)技 术 要 求 : 满 足 3V ( 快 速 -Velocity、大 体 量 -Volumes、 多 类 别 -Variety) 的 特 征技 术 方 案 : 未 提 及 , 可 能 是 新 兴 技 术 与 传 统 技 术 的 混 搭- 5 - 集 团 公 司 网 络 部IT行 业 大 数 据
8、 相 关 动 向 和 举 措- 6 - 大 数 据 正 成 为 IT行 业 全 新 的 制 高 点 , 各 企 业 和 组 织 纷 纷 助 推 大 数 据 的 发 展 , 相 关 技 术 呈现 百 花 齐 放 局 面 , 并 在 互 联 网 应 用 领 域 崭 露 头 角商 业 解 决 方 案l HP 2011年 推 出 vertica数 据 库 l Oracle 2011年 推 出 noSQL数 据 库l EMC 2010年 收 购 Greenpluml Teradata 2011年 收 购 Asterdata, 并 推 出SQL-Mapreducel IBM 2010年 收 购 Netez
9、zal SAP 2011年 收 购 Sybase 开 源 解 决 方 案l 开 源 组 织 Apache在 2008年 将 Hadoop列 为 顶 级项 目 l 2010年 HBase自 Hadoop上 诞 生 l 开 源 组 织 GNU 2010年 发 布 Mongodb l Vmware 2010年 提 供 开 源 产 品 Redis l Twitter 2011年 提 供 开 源 产 品 Storm商 业 企 业 和 开 源 组 织 都 纷 纷 推 出 各 种 大 数 据 解 决 方 案 , 这 些 方 案 既 存 在 相 同 点 , 也 各 有 侧重 , 目 前 尚 无 统 一 的 行
10、 业 技 术 标 准 或 技 术 领 域 细 分 规 则互 联 网 企 业 IT实 力 强 且 海 量 数 据 处 理 需 求 最 为 迫 切 ,是 大 数 据 发 起 者 、 倡 导 者 、 开 发 者 和 最 终 使 用 者 ,大 数 据 应 用 场 景 十 分 清 晰l Google 研 发 Bigtable并 自 行 使 用l Yahoo发 起 Hadoop/Hbase开 源 并 自 用 ,FACEBOOK、 百 度 、 淘 宝 等 均 使 用l Twitter开 发 Storm自 用 并 提 供 开 源 传 统 企 业 IT能 力 有 限 , 数 据 处 理 工 作 主 要 依 赖
11、于 系统 集 成 商 , 重 点 在 应 用 实 现 , IT技 术 路 线 上 以 跟 随成 熟 技 术 ( 含 开 源 技 术 ) 为 主目 前 还 是 以 数 据 库 、 数 据 仓 库 技 术 为 主 , 对 大 数据 技 术 仍 处 于 认 知 或 小 范 围 摸 索 实 验 阶 段 , 应 用场 景 仍 在 分 析 梳 理 中互 联 网 企 业 传 统 企 业- 6 - 集 团 公 司 网 络 部目 录- 7 - 一 、 大 数 据 的 背 景 与 定 义二 、 大 数 据 的 关 键 技 术三 、 网 管 领 域 应 用 展 望集 团 公 司 网 络 部相 关 概 念 与 相 关
12、 技 术 概 览数 据 结 构 : 结 构 化 数 据 与 非 结 构 化 数 据数 据 库 数 据 模 型 : 关 系 型 数 据 库 与 非 关 系 型 数 据 库数 据 处 理 特 性 : OLTP与 OLAP数 据 一 致 性 : 强 一 致 性 与 最 终 一 致 性数 据 存 储 方 式 : 行 式 存 储 与 列 式 存 储数 据 库 存 储 与 处 理 架 构 : SMP与 MPP数 据 存 储 架 构 : 传 统 分 布 式 文 件 与 新 型 分 布 式 文 件数 据 处 理 架 构 : 基 于 并 行 计 算 的 分 布 式 数 据 处 理 技 术 ( MapReduce
13、)- 8 - 集 团 公 司 网 络 部数 据 的 结 构 结 构 化 、 非 结 构 化 、 半 结 构 化 数 据- 9 - 对 比 项 结 构 化 数 据 非 结 构 化 数 据 半 非 结 构 化 数 据定 义 有 数 据 结 构 描 述 信 息的 数 据 不 方 便 用 固 定 结 构 来表 现 的 数 据 介 于 完 全 结 构 化 数 据和 完 全 无 结 构 的 数 据之 间 的 数 据结 构 与 内 容 的 关 系 先 有 结 构 、 再 有 数 据 只 有 数 据 , 没 有 结 构 先 有 数 据 , 再 有 结 构示 例 各 类 表 格 图 形 、 图 像 、 音 频
14、、视 频 信 息 HTML文 档 , 它 一 般 是自 描 述 的 , 数 据 的 结构 和 内 容 混 在 一 起结 构 化 数 据 和 非 结 构 化 数 据 都 是 客 观 存 在 , 大 数 据 技 术 需 要 涵 盖 两 者集 团 公 司 网 络 部数 据 库 数 据 模 型 关 系 型 数 据 库 与 非 关 系 型 数 据 库在 大 数 据 技 术 中 “非 关 系 型 “数 据 库 技 术 是 必 不 可 少 的 , 但 关 系 数 据 库 也 是 不 可 或 缺 的- 10 - 对 比 项 关 系 型 数 据 库 非 关 系 型 数 据 库定 义 创 建 在 关 系 模 型
15、基 础 上 , 借 助 于 集 合 代 数等 数 学 概 念 和 方 法 来 处 理 数 据 库 中 的 数 据 关 系 模 型 由 关 系 数 据 结 构 、 关 系 操 作 集 合 、关 系 完 整 性 约 束 三 部 分 组 成 没 有 标 准 定 义 包 括 : 表 存 储 数 据 库 、 键 值 存 储数 据 库 、 面 向 文 档 的 数 据 库 等接 口 语 言 SQL( Structured Query Language,结 构 化 查 询 语 言 ) , 对 数 据 库 中 的 数 据 进行 查 询 、 操 作 和 管 理 无 统 一 标 准 包 括 : 各 自 定 义 的
16、API、 类 SQL、MR等典 型 案 例 Oracel、 DB2、 Sybase、 SQL Server、Mysql、 Postgresql等 新 型 的 MPP RDB( Greenplum) 也 属 于关 系 型 数 据 库 Hbase、 MongoDB、 Redis集 团 公 司 网 络 部数 据 处 理 特 性 OLTP与 OLAP- 11 - 比 较 项 联 机 事 务 处 理 OLTP( On-Line Transaction Processing ) 联 机 分 析 处 理 OLAP( On-Line Analytical Processing )基 本 类 型 业 务 操 作
17、 型 业 务 分 析 型数 据 特 性 对 一 条 记 录 数 据 会 多 次 修 改 , 支 持大 量 并 发 用 户 添 加 和 修 改 数 据 数 据 写 入 后 基 本 不 再 修 改 , 能 较 好 地 支 持大 量 并 发 用 户 进 行 大 数 据 量 查 询技 术 特 性 确 保 数 据 的 一 致 性确 保 事 务 的 完 整 性数 据 读 写 实 时 性 高 支 持 多 维 数 据 以 及 对 多 维 数 据 的 复 杂 分 析大 数 据 量数 据 量 GB-TB级 TB-PB级典 型 示 例 银 行 业 务 系 统 /数 据 库 各 类 决 策 分 析 系 统 /数 据
18、库OLTP以 业 务 操 作 型 为 主 , OLAP以 业 务 分 析 性 为 主 , 两 者 对 技 术 的 要 求 很 难 兼 顾- 11 - 集 团 公 司 网 络 部数 据 一 致 性 : 强 一 致 性 与 最 终 一 致 性- 12 - 强 一 致 性 和 最 终 一 致 性 都 是 指 客 户 端 向 数 据 库 系 统 写 入 数 据 后 , 数 据 库 系 统 能 够 提 供的 数 据 一 致 性 的 表 现对 比 项 强 一 致 性 ( 即 时 一 致 性 ) 最 终 一 致 性 弱 一 致 性场 景 定 义 假 定 三 个 进 程 A、 B、 C是 互 相 独 立 的
19、, 且 都 在 对 存 储 系 统 进 行 读 写 操 作数 据 一 致 性 表 现 A写 入 数 据 到 存 储 系统 后 , 存 储 系 统 能 够保 证 后 续 任 何 时 刻 发起 读 操 作 的 B、 C 可以 读 到 A写 入 的 数 据 A写 入 数 据 到 存 储 系统 后 , 经 过 一 定 时 间 ,或 者 在 某 个 特 定 操 作后 , B、 C最 终 会 读到 A写 入 的 数 据 A写 入 数 据 到 存 储 系统 后 , 存 储 系 统 不 能够 保 证 后 续 发 起 读 操作 的 B、 C可 以 读 到 A写 入 的 数 据示 例 OLTP需 要 强 一 致
20、性 OLAP需 最 终 一 致 性 绝 大 多 数 应 用 不 能 够容 忍 弱 一 致 性集 团 公 司 网 络 部数 据 存 储 方 式 行 式 存 储 与 列 式 存 储- 13 - 传 统 关 系 型 数 据 库 主 要 采 用 行 存 储 模 式 , 海 量 数 据 的 高 效 存 储 和 访 问 要 求 引 发 了 从行 存 储 模 式 向 列 存 储 模 式 的 转 变行 存 储用 户 生 日 聊 天 记 录 日 均 在 线 时 长用 户 1 1981-10-3 Xxxx yyyy. 2用 户 2 1990-5-15 Mm nnn 3.7用 户 1 1981-10-3 Xxxx
21、yyyy. 2用 户 2 1990-5-15 Mm nnn 3.7 列 存 储用 户 1 1 9 8 1 -1 0 -3用 户 2 1 9 9 0 -5 -1 5用 户 1 Xxxx yyyy 用 户 2 Mm nnn 用 户 1 2用 户 2 3 .7行 存 储 列 存 储存 储 一 行 中 各 列 一 起 存 放 ,单 行 集 中 存 储 一 行 中 各 列 独 立 存放 , 单 列 集 中 存 储索 引效 率 海 量 数 据 索 引 既 占 用大 量 空 间 , 且 索 引 效率 会 随 着 数 据 增 长 越来 越 低 基 于 列 自 动 索 引 ,海 量 数 据 查 询 效 率高 ,
22、 不 产 生 额 外 存储空 间效 率 同 一 行 不 同 列 数 据 类型 不 同 , 压 缩 效 率 低空 值 列 依 然 占 据 空 间 列 同 数 据 类 型 , 压缩 效 率 高空 值 不 占 空 间I/O 查 某 列 必 须 读 出 整 行 ,I/O负 荷 高 、 速 度 慢 只 需 读 出 某 列 数 据 ,I/O低 速 度 快结 构 表 结 构 改 变 影 响 很 大 可 随 时 动 态 增 加 列适 用场 景 数 据 写 入 后 需 要 修 改和 删 除 , 基 于 行 的 反复 查 询 , 多 用 于 OLTP数 据 库 批 量 数 据 一 次 写 入和 基 于 少 量 列
23、 的 反复 查 询 , 多 用 于OLAP数 据 库样 例 数 据 表集 团 公 司 网 络 部数 据 库 存 储 与 处 理 架 构 SMP与 MPP在 数 据 量 急 剧 膨 胀 的 背 景 下 , 数 据 库 处 理 要 求 超 出 了 单 机 或 SMP架 构 能 力 范 围 , 最 高 配 置 小 型机 也 无 法 满 足 , 所 以 在 大 数 据 技 术 中 , MPP架 构 ( 计 算 分 布 +存 储 分 布 ) 架 构 成 为 主 流- 14 - 计 算 分 布 ,存 储 集 中DB Serv共 享 磁 盘DB Serv DB ServDB Serv网 络SAN/FC计 算
24、 集 中 ,存 储 集 中DB Serv磁 盘 计 算 分 布 ,存 储 分 布DB ServDB Serv DB ServDB Serv高 速 通 信 网 络磁 盘 磁 盘 磁 盘 磁 盘Master如 : Oracle传 统单 机 数 据 库 如 : Oracle RAC小 型 机 +共 享 盘 阵 如 : Greenplum、 HbaseX86+本 地 硬 盘传 统 单 机 数 据 库 SMP架 构 数 据 库 MPP架 构 数 据 库对 称 多 处 理 , Symmetrical Multi-Processing有 两 台 以 上 的 服 务 器 , 各 主 机 之 间 共 享 总 线
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 移动 数据 平台 架构 设计方案 PDF
