你好,游客 登录
背景:
阅读新闻

童小军:Hadoop原理、适用场景及核心思想

[日期:2013-09-26] 来源:CSDN  作者: [字体: ]
  童小军,EasyHadop 社区创始人、原暴风影音平台研发经理;国内首位获得美国Cloudera公司Apache hadoop开发工程师(CCDH)认证考试);中科院、工信部外聘Hadoop专家讲师;RedHadoop 红象云腾 创始人&首席架构师;多次在中国CIO年会、阿里云大会、北大CIO论坛发表大数据演讲,更是Data Wis 大数据Hadoop专家。在本次的大数据沙龙上,第一个发表了演讲。
  Hadoop使用原理
  Hadoop市场正在快速的发展,甚至在银行、电信各方面已经开始尝试。而童小军则主要从以下3个方面对Hadoop进行了剖析:
  Hadoop原理、工作原理和工作机制
  已证实及有待测试和探索的场景
  实际用例
  童小军集合了EasyHadop社区与RedHadoop(初创公司)的实践,描述了Hadoop、大数据、云计算之间的紧密联系:
  1.  诞生的新数据服务:类似百度、腾讯、阿里云等大公司,通过Hadoop这样平台构建更大的数据平台,收集数据进行分析,并通过其它方式推送出去,也就是数据服务的理念。
  2.  云计算带来竞争力:本质上其实是一种数据的开放。对比传统数据库,可以更好的进行个体分析,而Hadoop也正是做到了这一点。
  Hadoop与旧平台的对比
  大数据技术理念核心主要分为两个部分:虚拟化技术和类似Hadoop的技术。同样也是两个对立面,虚拟化更注重于将资源打造成一个大型机,而Hadoop恰恰相反,将各种资源池化。非Hadoop平台系统,均属核心的业务系统,比如代表性IOE,下面将分说两种系统的优劣:
  大型机:稳定性、源质性高,IO能力极强,可以管理较多的磁盘及数据资源,CPU数量也占优势。当然这里面,限制在于机器间传输,存储和内核需要共同带宽。机器间的相互传输导致大量磁盘IO,从而造成磁盘瓶颈,同样带宽也很成问题。同时多CPU利用差的问题也暴露无遗,总体来说IO成为整个系统的瓶颈所在。
  Hadoop:化整为零,文件被切开到不同层面,将计算移动到所在数据的节点上,通过节点实现并行化IO,因此需要挂很多层。而Map Reduce任务的数量跟CPU核数捆绑,因此CPU核数越多,Map配置就越快。通过移动计算取代移动数据,以获得更高的IO,这正是大数据存在的意义。
  在本节中,童小军以求和等例子入手,更详细剖析了MapReduce的运行机制,同时还讲解了HBase的作用和功能。
  Hadoop适用场景
  童小军认为当下Hadoop的主要应用场景在归档、搜索引擎(老本家)及数据仓库上面,各个机构使用Hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理,这块源于Hadoop 2.0可结合其他框架的特性,而在将来,Hadoop肯定会发展到联机数据处理。
  Hadoop核心思想
  Hadoop平台是能够推动企业内部的数据开放,能够让每个人参与到报表、数据的研发过程。能够实现企业的数据共享,特别是Hadoop队列,资源池,队列,任务调度器的机制,能让整个机型切换成多个资源,而不是以前的数据库,一层层的隔离去使用。最后,童小军还从实际出发,对多个实践进行了讲解。




收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款