Spark取代MapReduce成为Apache顶级项目-其它-@大数据资讯

　　Apache Spark是一种内存数据处理框架，目前已经升级成为Apche的顶级项目，这有助于提高Spark的稳定性，在下一代大数据应用中取代MapReduce的地位。

　　Spark最近势头很猛，大有取代MapReduce的趋势。本周二Apache软件基金会宣布Spark升级成为顶级项目。

　　由于性能和速度由于MapReduce，且更加容易使用，Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求。

　　Spark的创建者来自加州伯克利大学，目前已经创办了一家名为Databricks的公司推动Spark的商业化。

　　从技术上来看，Spark是一个单独的项目，但被设计成能与hadoop分布式文件系统（HDFS）一起工作，可以直接在HDFS上运行，SIMR使用户无需管理员权限和安装就可MapReduce集群上运行，而且得益于YARN(下一代Hadoop资源规划器和资源管理器)，Spark如今能够与MapReduce在同一个集群上运行。Hadoop企业应用先驱Cloudera已经开始向客户提供Spark的企业应用支持。

　　虽然很多新的项目（例如Hortonworks的Stinger）采用了不同的处理框架，但是MapReduce和Spark还缺少很多工具（例如Pig和Casading），而对于一些特定的批处理任务来说，MapReduce依然是上佳的选择。正如Cloudera联合创始人Mike Olson指出的：MapReduce有大量的遗留工作负载，短时间内不会转移，即使Spark上位。