如何利用Mahout和Hadoop处理大规模数据-Hadoop-@大数据资讯

　　利用Mahout和hadoop处理大规模数据

　　规模问题在机器学习算法中有什么现实意义?让我们考虑你可能需要部署Mahout来解决的几个问题的大小。

　　据粗略估计，Picasa三年前就拥有了5亿张照片。这意味着每天有百万级的新照片需要处理。一张照片的分析本身不是一个大问题，即使重复几百万次也不算什么。但是在学习阶段可能需要同时获取数十亿张照片中的信息，而这种规模的计算是无法用单机实现的。

　　据报道，Google News每天都会处理大约350万篇新的新闻文章。虽然它的绝对词项数量看似不大，但试想一下，为了及时提供这些文章，它们连同其他近期的文章必须在几分钟的时间内完成聚类。

　　Netflix为Netflix Prize公布的评分数据子集中包含了1亿个评分。因为这仅仅是针对竞赛而公布的数据，据推测Netflix为形成推荐结果所需处理的数据总量与之相比还要大出许多倍。

　　机器学习技术必须部署在诸如此类的应用场景中，通常输入数据量都非常庞大，以至于无法在一台计算机上完全处理，即使这台计算机非常强大。如果没有 Mahout这类的实现手段，这将是一项无法完成的任务。这就是Mahout将可扩展性视为重中之重的道理，以及本书将焦点放在有效处理大数据集上的原因，这一点与其他书有所不同。

　　将复杂的机器学习技术应用于解决大规模的问题，目前仅为大型的高新技术公司所考虑。但是，今天的计算能力与以往相比，已廉价许多，且可以借助于 Apache Hadoop这种开源框架更轻松地获取。Mahout通过提供构筑在Hadoop平台上的、能够解决大规模问题的高质量的开源实现以期完成这块拼图，并可为所有技术团体所用。

　　Mahout中的有些部分利用了Hadoop，其中包含一个流行的MapReduce分布式计算框架。MapReduce被谷歌在公司内部得到广泛使用(http://labs.google.com/papers/mapreduce.html)，而Hadoop是它的一个基于Java的开源实现。MapReduce是一个编程范式，初看起来奇怪，或者说简单得让人很难相信其强大性。 MapReduce范式适用于解决输入为一组"键值对"的问题，map函数将这些键值对转换为另一组中间键值对，reduce函数按某种方式将每个中间键所对应的全部值进行合并，以产生输出。实际上，许多问题可以归结为MapReduce问题，或它们的级联。这个范式还相当易于并行化：所有处理都是独立的，因此可以分布到许多机器上。这里不再赘述 MapReduce，建议读者参考一些入门教程来了解它，如Hadoop所提供的http://hadoop.apache.org /mapreduce/docs/current/mapred_tutorial.html。

　　Hadoop实现了MapReduce范式，即便MapReduce听上去如此简单，这仍然称得上是一大进步。它负责管理输入数据、中间键值对以及输出数据的存储;这些数据可能会非常庞大，并且必须可被许多工作节点访问，而不仅仅存放在某个节点上。Hadoop还负责工作节点之间的数据分区和传输，以及各个机器的故障监测与恢复。理解其背后的工作原理，可以帮你准备好应对使用Hadoop可能会面对的复杂情况。Hadoop不仅仅是一个可在工程中添加的库。它有几个组件，每个都带有许多库，还有(几个)独立的服务进程，可在多台机器上运行。基于Hadoop的操作过程并不简单，但是投资一个可扩展、分布式的实现，可以在以后获得回报：你的数据可能会很快增长到很大的规模，而这种可扩展的实现让你的应用不会落伍。

　　鉴于这种需要大量计算能力的复杂框架正变得越来越普遍，云计算提供商开始提供Hadoop相关的服务就不足为奇了。例如，亚马逊提供了一种管理Hadoop集群的服务 Elastic MapReduce，该服务提供了强大的计算能力，并使我们可通过一个友好的接口在Hadoop上操作和监控大规模作业，而这原本是一个非常复杂的任务。