Hadoop处理大数据的梦想与现实第3页-Hadoop-@大数据资讯

下篇：先机与商机

　　在传统BI和数据仓库领域，很难再有新公司还能撼动现在的市场格局。在大数据需求旺盛的背景下，基于hadoop开源项目的新公司将获得得更多的新机遇。从Hadoop诞生的那一天起，国外如Cloudera、Hortonworks、MapR等新公司就相继成立，抢占了市场的先机。如今，它们都已经成为Hadoop领域的佼佼者，即使很多财大气粗的国际IT巨头要进入Hadoop领域，也会优先考虑与它们合作。

　　Cloudera公司成立于2008年，CDH为其Hadoop发行版。对于Cloudera来说，2014年与英特尔深度合作是一次英明的决定，这次合作让Cloudera得以借助英特尔的渠道进行全球化营销。

　　2009年成立的MapR公司，在Hadoop领域显得有点特立独行。MapR认为，Hadoop的缺陷来自于其架构设计本身，小修小补不能解决问题。于是，MapR用新架构重写了HDFS。结果证明，MapR是对的，HDFS的私有替代品比当前的开源版本快3倍，同时也通过API与其他 Hadoop 发行版保持兼容。

　　Hortonworks公司创立于2011年，HDP是其Hadoop发行版。Hortonworks最为吸引合作伙伴和客户的地方是，公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，这些工程师均在2005年开始协助雅虎开发Hadoop，这些工程师贡献了Hadoop 80%的代码。

　　2011年，刚刚成立的Hortonworks曾因为“谁对Hadoop贡献最大”的争论与Cloudera有一次小摩擦。不过，随后 Cloudera公布了一张各厂商贡献的Hadoop源代码百分比，显示了当时各厂商对Hadoop的贡献，同时也似乎在影射出各厂商在Hadoop领域的话语权。而国内一些基于Hadoop项目建立起来的大数据新公司，正在踏实地前行，为国内各行业的企业客户普及和应用Hadoop做出自己的努力。

　　不过，孔宇华认为，国内基于Hadoop的创业公司还有很多机会，但是从基础平台的市场切入难度较大，而基于Hadoop做一些数据的应用开发机会更多一些。

　　北京红象云腾系统技术有限公司(以下简称红象云腾)成立于2013年5月，2014年5月份获得百万级天使投资。EasyHadoop社区发起人和负责人、Cloudera CCDH认证中国区第一个通过者、红象云腾创始人童小军表示，红象云腾专注于企业大数据引擎研发，致力于将大数据(Hadoop/Spark等)技术带给更多的中国企业。基于Hadoop，红象云腾定制开发了RedHadoop Enterprise CRH企业版(红象大数据平台)。在这个平台上，红象云腾已经构建了相应的分析应用程序，例如，基于非结构化数据库技术构建安防的“视频分析系统”和基于实时分析查询技术构建商业智能的“数据工厂系统”。

　　童小军透露，红象云腾即将在8月底发布集成批处理(MapReduce)、流处理(Storm)和内存计算(Spark)的三个引擎，并且提供一键式安装部署，而且可以做到安装过程清晰可见、简捷易懂。值得一提的是，童小军还有一个远大的计划，基于RedHadoop Enterprise CRH3打造一项面向移动APP的大数据云平台公有云服务——红象数据云(RedCloud.cn)。

　　童小军表示：“未来，我们将在RedCloud.cn上做一个开放的平台，吸引更多的初学者进入社区，所有移动APP都可以直接调我们的API，租用我们的服务。”

　　同时，Spark的出现也让星环科技CTO孙元浩看到了商机。孙元浩认为，Spark让中国的创业公司可以与国外一流公司站在同一个起跑线上竞争，并且有机会超越国外公司，是一次难得的机遇。在Spark出现前，孙元浩受Google Dremel的误导，开发新的MPP处理引擎。经过近一年的尝试，孙元浩还是回到MapReduce计算模式这个起点上。2011年底至2012年初，大数据产品竞争的焦点转移到SQL on Hadoop上，当时孙元浩正在寻找一种更高效的Hadoop MapReduce实现方案。

　　孙元浩认为：“经过近10年的演化，MapReduce计算模式被证明是高可扩展和高度容错的，只是Hadoop MapReduce的实现比较低效。我们需要做的是重新实现MapReduce。”当Spark宣称比MapReduce快100倍时，一下就吸引了孙元浩的注意。经过仔细评估后，孙元浩认为，Spark是MapReduce计算模式的一个全新实现，Spark架构设计的巧妙、与Hadoop良好的兼容性成为最终促成孙元浩以Spark作为重点发展方向。孙元浩指出星环科技在Spark上的两点创新。

　　创新之一是提出RDD(Resilient Distributed Dataset，弹性分布数据集)的概念，所有的统计分析任务由对RDD的若干基本操作组成。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速度可以得到很大提升。创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。

　　基于这两点创新，企业可以在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代MapReduce的地位。

　　目前，星环科技提供的交互式分析引擎名叫Inceptor，从下往上有三层架构，最下面是一个分布式缓存(Transwarp Holodesk)，可以建在内存或者SSD上，中间层是Spark计算引擎层，最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。

　　无论是对企业用户还是对初创企业来说，Hadoop都是一个美丽的梦想，不过，摆在我们眼前的情况是，并非每个企业都有能力把这个梦想变为现实。