你好,游客 登录 注册 搜索
背景:
阅读新闻

Hadoop系列文章之三:技术未来

[日期:2014-12-26] 来源:CSDN博客  作者:彤庆 [字体: ]
Hadoop
    Hadoop的未来如何,一个重要的影响因素是技术的更新和进步。从最近几年Hadoop和其他大数据相关技术的发展,我们可以看出一些端倪。 

数据存储 – 前景乐观 

    从文件存储技术来看,HDFS稳定而健壮,已然是海量文件存储的实际标准。当然也有一些分布式文件存储技术值得关注,如GlusterFS, Tachyon等等。但对HDFS尚不构成实质性的威胁。 

    相 比文件存储的一家独大,结构化数据的存储,目前呈现出的是百花齐放的局面。我们之前提到过,在Hadoop生态系统中,结构化数据存储最成熟的实现是 HBase。你可以把它想象成更灵活,可扩展性更强的MySQL。相比其他NoSQL数据库如MongoDB和Cassandra的风风火火,HBase 相对低调。但个人认为HBase适用的范围更广,前景依然十分乐观。对于NoSQL数据库,我就不展开讨论了,有兴趣的可以参考NoSQL精粹一书。 

数据处理 – 面临挑战 

    从 数据处理来看,MapReduce已不再热门。最本质的原因是MapReduce的模型过于简单。其后果是使得编程十分困难。一个简单的word count程序也需要编写很多MapReduce代码。虽然有Pig和Cascade等等更高层语言工具的支持,但MapReduce编程总是一件头疼的 事情。另外,简单地模型使得特定数据处理的性能优化十分困难。特别是像机器学习这样需要反复多遍处理数据的应用,文件读写成为瓶颈。目前,Spark以其 简单高效的特性,大有取代MapReduce,成为通用数据处理引擎之势。当然,Hadoop自己也推出了一些新的数据处理引擎,如 MRv2(YARN)、Tez,但未来恐怕还是Spark的。 

资源调配 – 充满机遇 

    老 的MapReduce 的另一个问题是它的资源配给机制存在性能缺陷。为从根本上解决旧 MapReduce 框架的性能瓶颈,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 YARN。 

    虽 然YARN是为了MapReduce而生的,但是它实际上也是一个独立的资源管理框架,所以理论上YARN上可以运行任何分布式应用,YARN只是配给 CPU,内存等资源。实际上,Spark,Storm等非Hadoop系的应用都支持在YARN的框架中运行。这使得YARN成为Hadoop“招安”其 他大数据应用成为可能。当然,YARN也不是稳坐泰山,Mesos是一个不可忽视的竞争者,Mesosphere很快就要发布他们的数据中心操作系统,看 看它的Demo就知道未来资源调配是这么回事了。 

    从Hadoop对文件存储和资源调配支持的发展趋势,我们可以想象,未来Hadoop应该像今天操作系统一样,成为更底层的基础设施。 

结语 

    Hadoop 作为大数据的平台和生态系统,已经过了疯涨期,步入稳步理性增长的阶段。未来,和其他技术一样,面临着自身新陈代谢和周遭新技术的挑战。开源社区能够繁荣 的不二法门是有更好的程序,更多人使用,更多人贡献,如此良性循环。希望Hadoop的持续繁荣,可以使各个领域的中小企业也能够轻松愉快地处理海量的数据。 
 
原文链接:http://blog.csdn.net/tongqqiu/article/details/42138329




收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款