你好,游客 登录
背景:
阅读新闻

Hadoop生态系统与体系结构

[日期:2014-12-23] 来源:EMC中文支持论坛  作者: [字体: ]

介绍

    企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。原有的存储经扩展后缀让能勉强跟上计算容量增长的步伐,但是用来分析该大数据以得出宝贵见解的工具却落入后了。hadoop是一款经专门设计的创新性开源大数据分析引擎,旨在最大程度地缩短从企业的数据集到处宝贵见解的时间。本文为系列的第二篇,介绍Hadoop软件生态系统与体系结构。

更多信息

Hadoop版本:

    Hadoop的版本由开源Apached Foundationapache.org中维护。其他所有版本都是扩展Apache Hadoop或根据其构建的派生版本。下面是目前提供的常见Hadoop版本列表:

  • Apache Hadoop
  • Cloudera CDH3
  • Greenplum HD
  • Horonworks数据平台

    以上列表并未详尽列出目前提供的所有Hadoop版本,而只是简单列出了流行的选择。有关目前提供的Hadoop版本的详细列表,请访问:Distributions and Commercial Support

Hadoop生态系统:

    以下是客户为使用Hadoop分析数据而运行的软件堆栈。生态系统组件是Hadoop堆栈之上的附加组件,面向分析工作流提供附加功能和优势。该领域中一些流行的选择包括:

Hadoop_2_1.png

 

  • Hive:一个类似于SQL的查询接口,适用于HDFS中存储的数据。
  • HBase:一个面向随机读/写列的高性能结构化存储系统,位于HDFS之上。
  • Pig:高级数据流语言和执行框架,适合于并行计算
  • Manhout:使用Hadoop的可扩展的计算机学习算法
  • RRHIPE):细分并重组大型复杂数据集的统计分析

    以上并未详尽力促所有的Hadoop生态系统组件。

Hadoop体系结构

    下面是一个体系结构图,其中显示了在一个Hadoop计算集群上运行的所有核心Hadoop组件。

 

Hadoop_2_2.png

 

该计算环境中发生的常规交互包括:

  1. 必须将数据接收到HDFS层内。
  2. 使用MapReduce对数据进行计算或分析。
  3. HDFS或其他基础架构中存储或导出结果,以适应整个Hadoop工作流。

    上述体系结构还表明NameNode是该环境中的独立组件,如果它有任何问题,则整个Hadoop环境都将变得不可用。

 EMC中文支持论坛https://community.emc.com/go/chinese





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款