你好,游客 登录 注册 搜索
背景:
阅读新闻

适合大数据的分布式存储与计算平台—Hadoop

[日期:2014-11-19] 来源:CSDN  作者:Fortyone41 [字体: ]

1.Hadoop简介

1.1Hadoop系统生态图

关于这两张图的详细介绍参考以下两个网址!

http://blog.csdn.net/azhao_dn/article/details/6955635

http://www.tuicool.com/articles/rqq2Yn

1.2Hadoop是什么?

适合大数据的分布式存储与计算平台!

1.3Hadoop版本:

(1)Apache

官方版本(1.1.2)

(2)Cloudera

使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。

(3)Yahoo

 Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。

1.4Hadoop核心项目

(1)HDFS:Hadoop Distributed File System,分布式文件系统

  • 主从结构:主节点,只有一个:namenode;从节点,有很多个:datanodes;
  • Namenode负责:接收用户操作请求、维护文件系统的目录结构以及管理文件与block之间的关系、block与datanode之间的关系;
  • Datanode负责:存储文件,而文件被分成block存储在磁盘上,为了保证数据的安全,文件又会有多个副本!

 

(2)MapReduce:并行计算框架

  • 主从结构:主节点,只有一个:JobTracker,从节点也有很多个:TaskTrackers;
  • JobTracker负责:接收用户提交的计算任务、把计算任务分给TaskTrackers执行以及监控TaskTracker的执行情况;
  • TaskTracker负责:执行JobTracker分配的计算任务。

1.5Hadoop特点

(1)扩容能力(Scalable):

   能可靠地(reliably)存储和处理千兆字节(PB)数据。

(2)成本低(Economical):

        可以通过普通机器组成的服务器群来分发以及处理数据,这些服务器群总计科大数千个节点。

(3)高效率(Efficient):

        通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这样就使得处理非常的快速。

(4)可靠性(Reliable):

        Hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

 

1.6Hadoop集群的物理分布以及单节点物理结构

(1)Hadoop集群的物理分布

(2)单节点物理结构

原文链接:http://blog.csdn.net/mavs41/article/details/20659395




收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款