欢迎来到麦多课文档分享! | 帮助中心 海量文档,免费浏览,给你所需,享你所想!
麦多课文档分享
全部分类
  • 标准规范>
  • 教学课件>
  • 考试资料>
  • 办公文档>
  • 学术论文>
  • 行业资料>
  • 易语言源码>
  • ImageVerifierCode 换一换
    首页 麦多课文档分享 > 资源分类 > PPT文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于Hadoop-HBase的一淘搜索离线系统.ppt

    • 资源ID:389232       资源大小:1.05MB        全文页数:30页
    • 资源格式: PPT        下载积分:2000积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    二维码
    微信扫一扫登录
    下载资源需要2000积分(如需开发票,请勿充值!)
    邮箱/手机:
    温馨提示:
    如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如需开发票,请勿充值!如填写123,账号就是123,密码也是123。
    支付方式: 支付宝扫码支付    微信扫码支付   
    验证码:   换一换

    加入VIP,交流精品资源
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于Hadoop-HBase的一淘搜索离线系统.ppt

    1、基于Hadoop/HBase的一淘搜索离线系统,莫 问,个人简介,花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系 毕业后加入阿里巴巴集团 雅虎中国 - 垂直搜索团队 阿里云 - 计算服务团队 淘宝/一淘 - 网页抓取团队 技术方向:分布式系统和大数据处理,提 纲,一淘搜索系统架构 基于HBase的分布式存储系统 基于Hadoop的分布式计算平台 一淘全网商品离线处理系统,抓取系统,存储系统,业务处理流程,索引构建,搜索引擎,Web,搜索前端,淘宝商品,一淘搜索系统架构,淘宝商品导入,基于HBase的分布式存储系统,HBase集群概述 HBase主要数据 HBase扩展开发 基于HBa

    2、se的分布式消息队列,HBase集群概述,集群版本:0.94.x+扩展优化 集群规模:300台+ 存储量:300TB+ 每日更新量:10% 监控:Ganglia + JMX,HBase主要数据,电子商务网页库(几十亿) 全网B2C商品 全网导购信息(资讯、问答、论坛、点评等) 淘宝+天猫商品(40%) 精选优质商品 淘客返利商品,HBase扩展开发,定制Load Balance插件 定制Region Split/Merge插件和工具 扩展ThriftServer API 增强的MapReduce Lib支持 丰富更多的Metrics指标 多种Coprocessor插件,RegionServer

    3、,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,RS-Level Balance,RegionServer,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,re

    4、gion,region,Table-Level Balance,RegionServer,RegionServer,RegionServer,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,region,Both RS & Table Level Balance,Queue,Partition 1,Message 1,Message 2,Message 3,Partition 2,Message 1,Message 2,M

    5、essage3,.,Column,Timesatamp,Rowkey,基于HBase的分布式消息队列(HQueue),Value,Partition ID + Message ID,Topic,Timestamp,Value,Queue is a HBase Table Partition is a HBase Region Message is a HBase KeyValue,RegionServer,Timestamp,Sequence ID,Topic,Value,Partition ID,RowKey,HQueue Writer,HTable Put API Wrapper,C O

    6、P R O C E S S O r,2. Locate By Partition ID,Sort By TS,P A R T I T I O n,Message,Message,Message,Message,1. Create Message KV,3. Set MessageID By TS and SeqID,4. Append To Partition,RegionServer,C O P R O C E S S O r,P A R T I T I O n,Message,Message,Message,Message,MessageID,Message写入流程,RegionServe

    7、r,HQueue Reader,HTable Scan API Wrapper,2. Locate By Partition ID,1. Create Message Scan,Partition ID MessageID(TS) Range Message Topic,Message读取流程,RegionServer,P A R T I T I O n,Message,Message,Message,Message,3. Scan Sequencially,Sort By TS,4. Return By Order,P A R T I T I O n,Message,Message,Mess

    8、age,Message,Sort By TS,HQueue特性,支持持久化压缩存储(继承HBase) 支持自动Failover(继承HBase) 支持动态负载均衡(继承HBase) 支持TTL设定,自动清理过期消息(继承HBase) 支持多语言客户端(扩展HBase ThriftServer) 可与HBase统一运维(本质都是HBase) 可与Hadoop MR无缝对接(开发HQueue MR Lib),电商网页库,URL选取,URL队列,抓取系统,Page队列,抽取系统,提链事件队列,Dump事件队列,图片、JS事件队列,提链系统,Dump系统,图片、JS处理系统,HQueue应用场景,基于

    9、Hadoop的分布式计算平台,Hadoop集群介绍 Hadoop集群业务流程 Hadoop-2.0 基于Hadoop YARN的定制计算服务,集群版本:2.0.X 集群规模:300台+ 存储量:1PB+ 每日运行Job数:2万+ 监控:Ganglia + JMX,Hadoop集群介绍,网页调度与选取 网页链接提取 网页内容抽取 全网商品各维度数据挖掘 一淘全网商品搜索数据Dump 一淘全网商品搜索Index Build,Hadoop集群业务流程,NameNode HA HDFS所有环节无单点 支持HDFS在线升级 YARN 引入二级调度,Not Only MR,可定制计算模型 Cgroups资

    10、源隔离方案更彻底,让系统更稳定,Hadoop-2.0,MapReduce-1.0,MapReduce-2.0(YARN),Resource Manager,Node Manager,App Worker,App Master,Node Manager,App Worker,Node Manager,App Worker,App Worker,App Master,Client,Node Status,Resource Request,App Status,Client,Service Submission,Fork / Monitor,Lanch,Service Worker,流式数据源(HQ

    11、ueue, MySQL DRC, TimeTunel),中转队列,Service Workers,InputFormat,InputFormat,OutputFormat,Service Master,Metrics,Service Worker,Service Worker,Service Worker,Service Workers,Service Worker,Service Worker,zookeeper,register,基于YARN的流式计算服务,Progress Checkpoint,Metrics,InputSplit,InputSplit,Service Worker,Se

    12、rviceMaster,1. Metrics(包括进度),InputSplit,InputSplit,Service Worker,Service Worker,2. 发现Worker处理进度太慢,3.分裂Worker,动态分裂计算Worker,ServiceMaster,InputSplit,InputSplit,Service Worker,Service Worker,Service Worker,InputSplit,InputSplit,1. Metrics(包括进度),2. 发现两个Worker比较空闲,3. 合并Worker,动态合并计算Worker,一淘全网商品离线处理系统,全

    13、网商品接入(淘宝+外网) 全网商品存储(HBase) 全网商品Dump(业务逻辑计算) 全网商品Index Build,HBase(全网商品库),一淘 抓取系统,Import Job,淘宝搜索 Hadoop/HBase集群,淘宝商品,外网商品,eHarmony API Service,前端运营工具,人工修正,修正商品 状态属性,Import Service,全量,增量,一淘全网商品接入,HBase(全网商品库),Dump Service,Dump Job,Index Build Job,HQueue,XML文件,问天搜索引擎,索引文件,实时消息,定期增量XML文件,全量XML文件,文件索引,HQueue,增量更新事件,商品入库/更新,一淘全网商品Dump + Index Build,Coprocessor,Coprocessor,一淘全网商品业务处理Pipeline,商家业务处理,运费业务处理,类目业务处理,促销业务处理,返利业务处理,排序业务处理,Dump Job,Dump Service,可插件化,全量流程,实时增量流程,业务处理Pipeline,新浪微博:淘莫问,Q &A,


    注意事项

    本文(基于Hadoop-HBase的一淘搜索离线系统.ppt)为本站会员(ideacase155)主动上传,麦多课文档分享仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文档分享(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
    备案/许可证编号:苏ICP备17064731号-1 

    收起
    展开