你好,游客 登录 注册 搜索
背景:
阅读新闻

YARN动摇了MapReduce对Hadoop的掌控

[日期:2013-11-27] 来源:网界网  作者: [字体: ]

  Hadoop被认为是运行在HDFS(分布式文件系统)上的MapReduce。通过YARN,Hadoop 2.0扩大了潜在应用的数量。

  Hadoop一直是各种或多或少整合了统一大数据架构的开源创新的统称。部分人认为,Hadoop的核心是一个分布式文件系统(HDFS),然而HBase和Cassandra等一系列可替代HDFS的数据库正在动摇这一主张。

  以往Hadoop有一个特殊的作业执行层——MapReduce,其在一个或多个可替代的大型并行数据持久层上执行,其中一个是HDFS。但是近期针对Hadoop推出的新一代执行层,即YARN(另一种资源协调者)消除了MapReduce上Hadoop环境严格的从属性。

  关键的是,YARN消除了一个从一开始就在制约MapReduce作业执行的瓶颈。在YARN出现之前,所有的MapReduce作业必须要通过一个后台程序(即JobTracker)作为批处理程序运行,这一制约限制了它们的扩展性和处理速度。这些MapReduce制约迫使许多厂商自己想办法提高速度,以避开MapReduce与生俱来的瓶颈,IBM的Adaptive MapReduce就是其中的代表。

  所有的这些可能会让人们想知道“Hadoop”与其他大数据与分析平台和工具在“堆栈”上的区别。YARN是大数据发展的一个基础性组件。YARN将传统的Hadoop放到了一个可组合的、契合目的(fit-to-purpose)的平台中,以处理数据管理、分析和交易计算等工作。

  YARN将Hadoop转变为一个开源创新的初始定义所提及的通用分布式作业执行层。虽然它们保留了对MapReduce API的向下兼容性,并继续执行MapReduce作业,但是YARN引擎能够执行大量由其他语言所开发的作业。

  重要的是,YARN能够成为针对大数据的不同Apache开源创新的统一线程。正如美国InfoWorld.com网站近期所指出的:“最大的胜利在于,MapReduce自身成为了一种利用Hadoop挖掘大数据的可能方式。”

  这是YARN的目标,不过要想实现这一目标需要行业重新设计能够与之协同工作的Hadoop堆栈和工具。Apache组织在其官方声明中称:“通过移植,任何分布式应用都能够在YARN上运行。为了这一目的,Apache将维护一张与YARN兼容的应用列表,例如Facebook正在使用的社交图形分析系统Apache Giraph。其他部分也将如此。”

  这听起来虽然不错,但是需要注意到相关的免责声明:即“通过移植”的字眼。Apache组织在声明中称,YARN的测试将达到厂商将分析开发工具移植到符合YARN输出工作的程度。将开发语言移植至YARN上并不是一件无关紧要的事情。

  在整个行业和不同的Apache社区以及其他开源社区中,这是否将会持续发生?如果是的话,范围有多大?这些因素将决定YARN,即Hadoop 2.0特定功能的接受程度。考虑到Hadoop 2.0保留了对MapReduce的向下兼容性,YARN需要让MapReduce应用了解最新的情况。这可能会大幅降低开发者接受这一新框架的速度。

  此外,从大数据应用开发所使用的替代语言(R语言)和替代平台(任何NoSQL解决方案)方面看,Hadoop 1.0或2.0版本是否能够长期保持其目前发展势头的前景仍不明朗。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款