部署Hadoop的公司要慎重考虑-Hadoop-@大数据资讯

　　近些年，hadoop和“走向大数据分析引擎”一样，受到颇多赞誉。对很多人来说，Hadoop就意味着大数据技术。但其实开源的分布式处理框架未必能解决所有的大数据问题。这就要求想要部署Hadoop的公司慎重考虑——什么时候应用Hadoop，什么时候应用其他产品。

　　举例来讲，用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余。但它处理小数据集的速度却鲜为人知。而这一点就限制了Hadoop在Metamarkets集团的应用。Metamarkets集团位于旧金山，为在线广告提供实时市场营销分析。

　　Metamarkets CEO Michael Driscoll透露，在时间不紧的情况下，公司使用Hadoop处理庞大的分布式数据，包括运行日终报表以回顾一天的交易额，或浏览几个月前的历史数据。

　　但在其提供给客户的核心业务——运行实时分析过程中，Metamarkets并没有用到Hadoop。Driscoll认为最佳的方法是在一个数据库中运行批处理作业查看每一个文件。归根结底，这是一种取舍：为了在数据点之间建立深度关联，Hadoop牺牲了速度。Driscoll表示：“使用Hadoop就像交了个笔友，你写封信给他，寄过去，过几天才得到回复。这和（短信）或邮件的体验相去甚远。”

　　10gen公司的产品营销部经理、同时也是MongoDB NoSQL 数据库开发者Kelly Stirman表示，在线上，快速的反应是至关重要的，而Hadoop则受到时间的掣肘。例如，像产品推荐引擎这样的在线分析应用，依赖的是对少量信息的快速处理，但Hadoop却不能有效的做到这一点。

　　不考虑置换数据库

　　因为开源技术大大降低了技术成本，所以或许有些企业考虑报废传统数据仓库，去选择Hadoop集群。但IDC公司的市场研究分析师Carl Olofson则认为，这两者根本没有可比性。

　　Olofson表示，关系数据库为大多数数据仓库提供动力，它用于容纳一段时间内以固定频率汇入的数据流，比如日常业务流程中的交易记录。另一方面，Hadoop擅长的是处理大量累积数据。

　　相关阅读：

　　Hadoop 2.0 安装向导 (0.23.x) http://www.linuxidc.com/Linux/2012-05/61463.htm

　　Hadoop 1.2.1 单节点安装(Single Node Setup)步骤 http://www.linuxidc.com/Linux/2013-08/89377.htm

　　在CentOS上安装Hadoop http://www.linuxidc.com/Linux/2013-08/88600.htm

　　Ubuntu 12.04安装Hadoop http://www.linuxidc.com/Linux/2013-08/88187.htm

　　CentOS 6.3 x86_64安装与配置Hadoop-1.0 http://www.linuxidc.com/Linux/2013-07/87959.htm

　　Hadoop入门–Hadoop2伪分布式安装：http://www.linuxidc.com/Linux/2013-06/86403.htm

　　Hadoop2.2.0单节点安装及测试：http://www.linuxidc.com/Linux/2013-10/91911.htm