你好,游客 登录
背景:
阅读新闻

Hadoop处理大数据的梦想与现实

[日期:2014-08-27] 来源:中国计算机行业网  作者:涂兰敬 [字体: ]

中篇:挑战与融合

  Gartner预测,到2018年大数据将带来超过1000亿美元的IT开支。IDC也预测,2015年大数据市场规模将从2010年的32亿美元增长到170亿美元,年复合增长率为40%。

  我们总是听到大数据这个词,那么多大的数据算是大数据,hadoop适用于多大的数据量呢?麦肯锡曾经对大数据的范围进行定义:传统数据库有效工作的数据量一般在10TB至100TB,100TB被成为是大数据的门槛。

  IDC在给大数据做定义时也同样把阈值设在100TB。这两家分析机构认为,大数据大到传统数据分析工具已经无法进行正常采集、存储、管理和分析过程,这个时候恰恰就是Hadoop最适合的应用场景了。

  自从IBM、甲骨文、SAP等将排名靠前的BI厂商收入囊中后,BI市场保持相对稳定了很多年。在数据仓库领域,Teradata多次被 Gartner数据仓库DBMS(数据库管理系统)魔力象限列为领导者。同时,IDC的研究数据也表明,SAS在高级分析领域占有35.4%的市场份额,超过了排名第二的竞争者两倍以上。

  Hadoop的出现似乎为打破原有的市场格局做着铺垫。为了适应大数据时代的企业新需求,为了继续自己的领导者地位,很多国际IT巨头都在向Hadoop伸出橄榄枝。

  软件巨头拥抱Hadoop

  数据仓库领域的领导者Teradata在2011年收购了Aster公司。同时,Teradata开始与Hortonworks合作兼容其商用发行的Apatch Hadoop。并且,Teradata还推出了统一数据架构(Teradata Unified Data Architecture,UDA),包含三层架构:Hadoop作为数据存储和数据转换平台,Teradata数据仓库作为数据分析平台,Aster作为分析和探索平台。

  孔宇华表示,为了更增强Teradata统一数据架构的功能,Teradata新收购了一家公司Hadapt。收购Hadapt之后,Teradata可以把SQL数据库创建在Hadoop上,可以把Aster上的应用更好地与Hadoop结合,也可以让Teradata数据仓库和 Aster更好地配合,最终目的是实现原本独立的三个平台的数据共享。Teradata的QueryGrid可以从Teradata或Aster任意一个平台上发出指令,从其他平台抽取数据做集中分析。

  孔宇华强调,Teradata最大的愿景是在不同平台之间实现数据运作、数据管理和数据应用。

  作为一家传统的数据分析工具提供商,刘政表示,Hadoop项目和相关技术的广泛应用,并没有影响到SAS这类数据分析软件厂商。恰恰相反,由于Hadoop非常适合构建时效性不是很强的离线分析系统,Hadoop的广泛应用和成熟对擅长数据分析的SAS而言是一种福音。

  目前,SAS已经将Hadoop 作为下一代内存分析服务器系统的基础架构组件之一,并开发了相应的数据访问引擎。

  另外,SAS对Hadoop的主要商业发行版本都有支持,包括Cloudera、Hortonworks、BigInsights、Pivotal HD和Cloudera Impala等。可以说,Hadoop被业界越多的采用,SAS就会有越多的潜在用户。现在,SAS在Hadoop 平台上引入了Embedded Process技术。该技术将融合SAS自身的内存计算技术和Hadoop的各种服务,更好地支持Hadoop的作业调度和计算负载分配机制。

  刘政认为,对SAS的用户而言,并不存在所谓的数据和大数据的鸿沟,因为SAS 语言隔离了用户需要面对的纯粹技术性挑战,毕竟在分析领域,用户其实并不关心数据的存储架构和计算架构。

  SAS选择Hadoop作为下一代商业智能的基础支持组件,审慎地看待Hadoop技术的实质并不断挖掘Hadoop可能给用户带来的好处,降低用户从传统数据时代迈入大数据时代的技术门槛。

  刘政指出,Hadoop给SAS带来的直接挑战是:许多用户说要采用Hadoop来帮自己迈过大数据时代的门槛,但其实有些用户并不明白Hadoop能够给他们带来什么价值,甚至很多用户根本没有必要使用大数据技术。

  因此,SAS对应的策略是,让Hadoop对用户完全透明。用户只要知道他们的分析已经被SAS高性能分析服务器所集成和使用,哪怕将来Hadoop本身不断演进,用户也不必担心这种演进给用户带来的新挑战。

  刘政做了一个形象的比喻:“如果说Hadoop是一头日益强壮的小象,终有一天会在大数据分析领域恣意驰骋,那么我们希望SAS就是一位驯兽师。”

  何春涛表示,Hadoop和敏捷BI各自适用于不同的业务场景,两者是互补关系。在永洪科技的诸多客户中,有不少是采用Hadoop实现数据存储。要实现这些企业的敏捷BI,只需要把Hadoop的数据导入永洪科技基于分布式内存计算的高性能数据集市,然后进行敏捷可视化分析即可。

  由于现在Hadoop的应用相当广泛,永洪科技产品支持开箱即用的Hadoop数据源连接,以拥抱Hadoop生态体系,既能满足企业用户海量数据存储的需要,又能进行实时数据分析。

  事实上,IBM、微软、甲骨文等国际IT巨头在更早的时候就纷纷开始拥抱Apache Hadoop。

  2011年,IBM宣布在SmartCloud平台上新增一项基于Apache Hadoop的服务——InfoSphere BigInsights分析软件。该软件包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件和IBM BigSheets。

  2012年,IBM宣布与Cloudera合作,并开始支持其他Hadoop发行版本。与此同时,IBM收购大数据工具Vivisimo公司,将大数据的搜索和分析扩展到Hadoop之外的传统遗留应用和数据仓库。日前,IBM与Veristorm合作提供业内首个商业Hadoop for System z Linux,使得客户无需将数据搬离主机就可以更快更安全地进行基于Hadoop的各种分析。其中,zDoop软件则是其在Hadoop方面的新产品,利用新存储和Hadoop产品实现更佳的数据管理,获取实时洞察。

  为了更好地兼容Apache Hadoop,微软与Hortonworks合作,推出了自己的Hadoop发布版HDInsight。微软HDInsight平台也完全兼容其他 Apache Hadoop发行版,同时集成自己的商业智能工具,例如Excel、SQL Server和PowerBI。

  随后,微软通过HDInsight与Active Directory的集成来增强Hadoop的安全性,通过与System Center集成,简化Hadoop的管理,并支持IT部门在同一面板上管理Hadoop集群、SQL Server数据库和应用程序。

  Hadoop与SQL Server 2012兼容的特性是微软与Hortonworks合作开发的结果。基于这次合作,微软很快推出了基于SQL Server 2012的并行数据库一体机PDW布局大数据市场。更为积极的事情是,Hortonworks在2013年2月25日发布了Windows版 Hortonworks 大数据平台HDP(Hortonworks Data Platform)。

  2011年10月,甲骨文发布了新版NoSQL数据库企业版,这是运行于Hadoop 之上的大数据软件之一。2012年,甲骨文加强与Cloudera的合作,将Cloudera’s Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大数据机之中。

  甲骨文同时还推出了Oracle Big Data Connectors,该系列软件产品能够帮助客户轻松访问通过Oracle数据库11g集成存储在CDH Hadoop分布式文件系统或Oracle NoSQL数据库中的数据。

  硬件加速Hadoop

  硬件厂商走在Hadoop行列里面,似乎有些让人惊讶,但是,通过以往的经验来看,基于硬件的数据加速,往往比单纯软件加速更加有效。为何硬件巨头热衷于Hadoop发行版?那是因为,能够驾驭大数据的最佳方法就是亲自“玩”Hadoop。

  2013年2月,英特尔宣布推出自己的Hadoop发行版Intel Distribution for Apache Hadoop,其中囊括了英特尔提供的HDFS、YARN、HBase和Hive等增强套件。

  英特尔的想法是,通过硬件和软件的改善,让英特尔的芯片在预测分析、云数据收集和具体任务处理等领域有更好的性能,从而帮助客户打造一个面向大数据应用的Hadoop高效平台。

  不过,经过一年多的实践之后,英特尔最终还是在2014年3月停止发行自己的Hadoop发行版,转而支持在Hadoop领域资格更老的Cloudera的

  同时,英特尔投资部门前后向Cloudera投资了数亿美元。

  与英特尔一样的硬件厂商,还有EMC。2010年EMC通过收购Greenplum正式进入了数据仓库市场。EMC与Hadoop领域的翘楚Hortonworks合作,将自身存储技术和Apache Hadoop结合起来,发布了自己的发行版Greenplum HD。

  华为在Hadoop社区中的贡献者和提交者也是国内最多的,可谓是国内在Hadoop领域关注时间较早,投入人力最多的公司之一。华为多年来在Hadoop方面的投入,使得华为与国际IT巨头在大数据领域处于同一起跑线上。

  目前来看,华为推出了一款基于开放社区发布的Hadoop发行版FusionInsight Hadoop。该版本基于华为自主研发的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预。

  同时,该版本包含了开放社区的主要软件及其生态圈中的主流组件,并对这些组件在高可用性、安全、易管理、性能方面进行了大量优化。并且,该版本针对开放社区Hadoop增强了商务智能分析能力,集成各种数据分析组件的同时加强与传统商务智能分析平台的集成,让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中洞察商机。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款