你好,游客 登录 注册 搜索
背景:
阅读新闻

部署Hadoop的公司要慎重考虑

[日期:2013-11-01] 来源:看引擎  作者: [字体: ]

  近些年,Hadoop和“走向大数据分析引擎”一样,受到颇多赞誉。对很多人来说,Hadoop就意味着大数据技术。但其实开源的分布式处理框架未必能解决所有的大数据问题。这就要求想要部署Hadoop的公司慎重考虑——什么时候应用Hadoop,什么时候应用其他产品。

  举例来讲,用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余。但它处理小数据集的速度却鲜为人知。而这一点就限制了Hadoop在Metamarkets集团的应用。Metamarkets集团位于旧金山,为在线广告提供实时市场营销分析。

  Metamarkets CEO Michael Driscoll透露,在时间不紧的情况下,公司使用Hadoop处理庞大的分布式数据,包括运行日终报表以回顾一天的交易额,或浏览几个月前的历史数据。

  但在其提供给客户的核心业务——运行实时分析过程中,Metamarkets并没有用到Hadoop。Driscoll认为最佳的方法是在一个数据库中运行批处理作业查看每一个文件。归根结底,这是一种取舍:为了在数据点之间建立深度关联,Hadoop牺牲了速度。Driscoll表示:“使用Hadoop就像交了个笔友,你写封信给他,寄过去,过几天才得到回复。这和(短信)或邮件的体验相去甚远。”

  10gen公司的产品营销部经理、同时也是MongoDB NoSQL 数据库开发者Kelly Stirman表示,在线上,快速的反应是至关重要的,而Hadoop则受到时间的掣肘。例如,像产品推荐引擎这样的在线分析应用,依赖的是对少量信息的快速处理,但Hadoop却不能有效的做到这一点。

  不考虑置换数据库

  因为开源技术大大降低了技术成本,所以或许有些企业考虑报废传统数据仓库,去选择Hadoop集群。但IDC公司的市场研究分析师Carl Olofson则认为,这两者根本没有可比性。

  Olofson表示,关系数据库为大多数数据仓库提供动力,它用于容纳一段时间内以固定频率汇入的数据流,比如日常业务流程中的交易记录。另一方面,Hadoop擅长的是处理大量累积数据。

  相关阅读:

  Hadoop 2.0 安装向导 (0.23.x) http://www.linuxidc.com/Linux/2012-05/61463.htm

  Hadoop 1.2.1 单节点安装(Single Node Setup)步骤 http://www.linuxidc.com/Linux/2013-08/89377.htm

  在CentOS上安装Hadoop http://www.linuxidc.com/Linux/2013-08/88600.htm

  Ubuntu 12.04安装Hadoop http://www.linuxidc.com/Linux/2013-08/88187.htm

  CentOS 6.3 x86_64安装与配置Hadoop-1.0 http://www.linuxidc.com/Linux/2013-07/87959.htm

  Hadoop入门–Hadoop2伪分布式安装:http://www.linuxidc.com/Linux/2013-06/86403.htm

  Hadoop2.2.0单节点安装及测试:http://www.linuxidc.com/Linux/2013-10/91911.htm





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款