你好,游客 登录 注册 搜索
背景:
阅读新闻

Hadoop vs Apache Spark 5件事需要了解

[日期:2015-12-16] 来源:中关村在线服务器频道   作者: [字体: ]

  讨论大数据的时候,你可能会听到提及Hadoop 和 Apache Spark的话题,这里有一些简单的知识,你需要了解他们之间的不同。

  1.他们做的事情不同

  Hadoop 和 Apache Spark都是大数据框架中用到的东西,但是他们并不是服务于同样的目的。

  Hadoop是本质上是一个分布式数据基础架构,他能够帮你利用商用服务器搭建一个集群,这意味着你不需要购买昂贵的专用硬件就能搭建横跨多个节点的海量数据集。他还能够跟踪索引这些数据,更有力的帮你实现大数据的处理和分析。

  Spark是一种数据处理工具,运行在这些分布式数据急群众,他不是用来做分布式存储的。

  2.你们可以单独的使用任何一个

  Hadoop被称为分布式文件系统,他不仅包含存储组件,同时还有MapReduce处理元件,所以你在处理数据的时候并不一定需要Spark。当然,你也可以使用Spark。

 

  Spark并不是只能在Hadoop中运行,他还可以运行在基于云的数据平台。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款