基于Hadoop-HBase的一淘搜索离线系统.ppt
《基于Hadoop-HBase的一淘搜索离线系统.ppt》由会员分享,可在线阅读,更多相关《基于Hadoop-HBase的一淘搜索离线系统.ppt(30页珍藏版)》请在麦多课文档分享上搜索。
1、基于Hadoop/HBase的一淘搜索离线系统,莫 问,个人简介,花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系 毕业后加入阿里巴巴集团 雅虎中国 - 垂直搜索团队 阿里云 - 计算服务团队 淘宝/一淘 - 网页抓取团队 技术方向:分布式系统和大数据处理,提 纲,一淘搜索系统架构 基于HBase的分布式存储系统 基于Hadoop的分布式计算平台 一淘全网商品离线处理系统,抓取系统,存储系统,业务处理流程,索引构建,搜索引擎,Web,搜索前端,淘宝商品,一淘搜索系统架构,淘宝商品导入,基于HBase的分布式存储系统,HBase集群概述 HBase主要数据 HBase扩展开发 基于HBa
2、se的分布式消息队列,HBase集群概述,集群版本:0.94.x+扩展优化 集群规模:300台+ 存储量:300TB+ 每日更新量:10% 监控:Ganglia + JMX,HBase主要数据,电子商务网页库(几十亿) 全网B2C商品 全网导购信息(资讯、问答、论坛、点评等) 淘宝+天猫商品(40%) 精选优质商品 淘客返利商品,HBase扩展开发,定制Load Balance插件 定制Region Split/Merge插件和工具 扩展ThriftServer API 增强的MapReduce Lib支持 丰富更多的Metrics指标 多种Coprocessor插件,RegionServer
3、,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,RS-Level Balance,RegionServer,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,re
4、gion,region,Table-Level Balance,RegionServer,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,region,Both RS & Table Level Balance,Queue,Partition 1,Message 1,Message 2,Message 3,Partition 2,Message 1,Message 2,M
5、essage3,.,Column,Timesatamp,Rowkey,基于HBase的分布式消息队列(HQueue),Value,Partition ID + Message ID,Topic,Timestamp,Value,Queue is a HBase Table Partition is a HBase Region Message is a HBase KeyValue,RegionServer,Timestamp,Sequence ID,Topic,Value,Partition ID,RowKey,HQueue Writer,HTable Put API Wrapper,C O
6、P R O C E S S O r,2. Locate By Partition ID,Sort By TS,P A R T I T I O n,Message,Message,Message,Message,1. Create Message KV,3. Set MessageID By TS and SeqID,4. Append To Partition,RegionServer,C O P R O C E S S O r,P A R T I T I O n,Message,Message,Message,Message,MessageID,Message写入流程,RegionServe
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HADOOPHBASE 搜索 离线 系统 PPT
