你好,游客 登录
背景:
阅读新闻

Hadoop处理大数据的梦想与现实

[日期:2014-08-27] 来源:中国计算机行业网  作者:涂兰敬 [字体: ]

下篇:先机与商机

  在传统BI和数据仓库领域,很难再有新公司还能撼动现在的市场格局。在大数据需求旺盛的背景下,基于hadoop开源项目的新公司将获得得更多的新机遇。从Hadoop诞生的那一天起,国外如Cloudera、Hortonworks、MapR等新公司就相继成立,抢占了市场的先机。如今,它们都已经成为Hadoop领域的佼佼者,即使很多财大气粗的国际IT巨头要进入Hadoop领域,也会优先考虑与它们合作。

  Cloudera公司成立于2008年,CDH为其Hadoop发行版。对于Cloudera来说,2014年与英特尔深度合作是一次英明的决定,这次合作让Cloudera得以借助英特尔的渠道进行全球化营销。

  2009年成立的MapR公司,在Hadoop领域显得有点特立独行。MapR认为,Hadoop的缺陷来自于其架构设计本身,小修小补不能解决问题。于是,MapR用新架构重写了HDFS。结果证明,MapR是对的,HDFS的私有替代品比当前的开源版本快3倍,同时也通过API与其他 Hadoop 发行版保持兼容。

  Hortonworks公司创立于2011年,HDP是其Hadoop发行版。Hortonworks最为吸引合作伙伴和客户的地方是,公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,这些工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了Hadoop 80%的代码。

  2011年,刚刚成立的Hortonworks曾因为“谁对Hadoop贡献最大”的争论与Cloudera有一次小摩擦。不过,随后 Cloudera公布了一张各厂商贡献的Hadoop源代码百分比,显示了当时各厂商对Hadoop的贡献,同时也似乎在影射出各厂商在Hadoop领域的话语权。而国内一些基于Hadoop项目建立起来的大数据新公司,正在踏实地前行,为国内各行业的企业客户普及和应用Hadoop做出自己的努力。

  不过,孔宇华认为,国内基于Hadoop的创业公司还有很多机会,但是从基础平台的市场切入难度较大,而基于Hadoop做一些数据的应用开发机会更多一些。

  北京红象云腾系统技术有限公司(以下简称红象云腾)成立于2013年5月,2014年5月份获得百万级天使投资。EasyHadoop社区发起人和负责人、Cloudera CCDH认证中国区第一个通过者、红象云腾创始人童小军表示,红象云腾专注于企业大数据引擎研发,致力于将大数据(Hadoop/Spark等)技术带给更多的中国企业。基于Hadoop,红象云腾定制开发了RedHadoop Enterprise CRH企业版(红象大数据平台)。在这个平台上,红象云腾已经构建了相应的分析应用程序,例如,基于非结构化数据库技术构建安防的“视频分析系统”和基于实时分析查询技术构建商业智能的“数据工厂系统”。

  童小军透露,红象云腾即将在8月底发布集成批处理(MapReduce)、流处理(Storm)和内存计算(Spark)的三个引擎,并且提供一键式安装部署,而且可以做到安装过程清晰可见、简捷易懂。值得一提的是,童小军还有一个远大的计划,基于RedHadoop Enterprise CRH3打造一项面向移动APP的大数据云平台公有云服务——红象数据云(RedCloud.cn)。

  童小军表示:“未来,我们将在RedCloud.cn上做一个开放的平台,吸引更多的初学者进入社区,所有移动APP都可以直接调我们的API,租用我们的服务。”

  同时,Spark的出现也让星环科技CTO孙元浩看到了商机。孙元浩认为,Spark让中国的创业公司可以与国外一流公司站在同一个起跑线上竞争,并且有机会超越国外公司,是一次难得的机遇。在Spark出现前,孙元浩受Google Dremel的误导,开发新的MPP处理引擎。经过近一年的尝试,孙元浩还是回到MapReduce计算模式这个起点上。2011年底至2012年初,大数据产品竞争的焦点转移到SQL on Hadoop上,当时孙元浩正在寻找一种更高效的Hadoop MapReduce实现方案。

  孙元浩认为:“经过近10年的演化,MapReduce计算模式被证明是高可扩展和高度容错的,只是Hadoop MapReduce的实现比较低效。我们需要做的是重新实现MapReduce。”当Spark宣称比MapReduce快100倍时,一下就吸引了孙元浩的注意。经过仔细评估后,孙元浩认为,Spark是MapReduce计算模式的一个全新实现,Spark架构设计的巧妙、与Hadoop良好的兼容性成为最终促成孙元浩以Spark作为重点发展方向。孙元浩指出星环科技在Spark上的两点创新。

  创新之一是提出RDD(Resilient Distributed Dataset,弹性分布数据集)的概念,所有的统计分析任务由对RDD的若干基本操作组成。RDD可以被驻留在内存中,后续的任务可以直接读取内存中的数据,因此速度可以得到很大提升。创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图,根据数据之间的依赖性把相邻的任务合并,从而减少大量的中间结果输出,极大减少了磁盘I/O,使得复杂数据分析任务更高效。

  基于这两点创新,企业可以在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代MapReduce的地位。

  目前,星环科技提供的交互式分析引擎名叫Inceptor,从下往上有三层架构,最下面是一个分布式缓存(Transwarp Holodesk),可以建在内存或者SSD上,中间层是Spark计算引擎层,最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库,提供完整的R语言访问接口。

  无论是对企业用户还是对初创企业来说,Hadoop都是一个美丽的梦想,不过,摆在我们眼前的情况是,并非每个企业都有能力把这个梦想变为现实。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款