你好,游客 登录
背景:
阅读新闻

Hadoop最佳实践案例分享

[日期:2014-10-22] 来源:TechTarget中国原创  作者: [字体: ]

      对很多公司而言,hadoop框架才刚刚开始启用,一些最佳实践的例子也是最近才显现出来。

      思科系统公司首席数据架构师Piyush Bhargava表示,如何选择Hadoop发行版,以及如何让Hadoop和MapReduce与现存系统融合是公司启用Hadoop时面临的主要困境。他建议公司在投入生产时,需要考虑可行性。

      Bhargava所从事的的开发Hadoop的工作是思科总体信息计划的一部分,有了Hadoop,公司就可以更有效地支持各种应用案例,管理者也能从数据中获取更大的价值。

Hadoop最佳实践

      Bhargava和他的团队已经开始了企业级Hadoop平台的创建。首要任务便是减轻数据仓库的工作负载。一些Hadoop用户案例已经投入市场,比如 集成线下和线上客户信息。虽然现在Hadoop的规模还很小,但在接下来两年里,它会呈指数增长。这需要开发人员把外部Hadoop资源集中到中央资源 池。

      Bhargava认为,今天的Hadoop就像90年代的ERP,终将成为企业的核心分析工具,因此现在就要把它集成到组织中来。

      经过努力,思科工作负载的管理取得了成功。Bhargava谈到,Hadoop的管理一定要从整个集群着眼,不能只管某个单独的工作。为了管理好Hadoop、传统数据仓库和其他系统,思科已经建立了一套数据管理日程。

      除了工作负载管理之外,云计算和人员的构建也是实现Hadoop最佳实践的关键。

      和其他所有工作一样,Hadoop也需要完善正确的团队建设。因为Hadoop很多工作需要团队合作完成,更像是大型机时代,所以团队对Hadoop来讲更重要。

      管理安全服务供应商Solutionary的软件工程师总监Scott Russom表示:“我的数据库团队正需要有编程头脑的人,从MapReduce来的COBOL(通用商务语言)编程人员很受欢迎。”

      同时,云计算是实现Hadoop的一种方式。美国气候股份有限公司在Hadoop中就部署了集成私有云和公有云的架构。其工程师总监Andrew Mutz表示,通过内部部署Hadoop集群,公司能够快速试验气候模型,尽快得出结论,同时了解如何安全地扩展。之后,Hadoop就可以移向云端了。

      他说:“这种内部部署与云计算结合的方式很有效。我们直接从数据来源开展工作,避免了延迟。”

      对于思科的Bhargava来说,Hadoop管理最佳实践来源于好的规划。“你经常会参加一些会议,看各种绚丽的产品,但最后,你需要脚踏实地的考量。需要考虑到它的可扩展性,在规划一开始,就要考虑到它日后如何增长。”

      上述公司采用的都是MapR发行的Hadoop,因为它更加关注Hadoop的管理。这是Apache基金会发行Hadoop之外,较早提供Hadoop发行版的公司。

玩转Hadoop工具

      Forrester的分析师Mike Gualtieri认为其他相应技术也需要随着Hadoop的发展而发展,比如安全、扩展性、高可用性等领域的技术。

      他提醒道,Hadoop还处在初级阶段。Gualtieri表示最近的一项Forrester调查显示,只有16%的受访者正在使用Hadoop,很多人还只是在观望。总体来讲,Hadoop还只是一个“很潮的工具”,只有一部分先行者在使用。

      《跨越鸿沟》(Crossing the Chasm)的作者Moore在书中指出,Hadoop软件生态系统有很多工具,包括Hive、Accumulo、Giraph、Cassandra和Spark等,要是你不能玩转这些工具,你就不能算是一个先行者。

      Moore认为,Hadoop现在还很像是业界领导者的资助项目。不过Hadoop已经势不可挡,大规模的使用指日可待。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款