Hadoop 第98页-@大数据资讯

　"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。

日期：03/05/2015 10:35:53 作者：周旭龙

从今天开始，开始研究学习Hadoop Common相关的源码结构。Hadoop Common在Hadoop1.0中是在core包下面的。此包下面的内容供HDFS和MapReduce公用，所以作用还是非常大的。Hadoop Common模块下的内容是比较多的。本人打算在后面的学习中挑选部分模块进行分析学习，比如他的序列化框架的实现，RPC的实现等等。我对此模块截出了些图：

[查看全文]

日期：03/05/2015 09:50:43 作者：Android路上的人

浅谈Hadoop MapReduce

从今天开始，本人将会开始对另项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不列举了。但是Hadoop作为Apache的个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借个的力...

[查看全文]

日期：03/05/2015 09:49:20 作者：Android路上的人

Hadoop学习笔记—11.MapReduce中的排序和分组

、写在之前的 1.1 回顾Map阶段四大步凑
　　首先，我们回顾下在MapReduce中，排序和分组在哪里被执行：
从上图中可以清楚地看出，在Step1.4也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照key进行排序和分组。 1.2 实验场景数据文件
　　在些特定的数据文件中，不定都是类似于WordCount单次统计这种规范的数据，比如下面...

[查看全文]

日期：03/04/2015 10:34:23 作者：周旭龙

Hadoop学习笔记—10.Shuffle过程那点事儿

、回顾Reduce阶段三大步凑
　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Reduce阶段总共三个步凑，如下图所示：
其中，Step2.1就是个Shuffle操作，它针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，这个过程就称作为Shuffle。
PS：Hadoop的shuffle过程就是从map端输出到reduc...

[查看全文]

日期：03/04/2015 10:20:52 作者：周旭龙

Hadoop学习笔记—9.Partitioner与自定义Partitioner

、初步探索Partitioner 1.1 再次回顾Map阶段五大步凑

[查看全文]

日期：03/04/2015 10:14:01 作者：周旭龙

Hadoop学习笔记—8.Combiner与自定义Combiner

、Combiner的出现背景 1.1 回顾Map阶段五大步凑
　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步凑，如下图所示：
其中，step1.5是个可选步凑，它就是我们今天需要了解的 Map规约阶段。现在，我们再来看看前篇博文《计数器与自定义计数器》中的第张关于计数器的图：
我们可以发现，其中有两个计数器...

[查看全文]

日期：02/28/2015 10:59:29 作者：周旭龙

Hadoop学习笔记—7.计数器与自定义计数器

、Hadoop中的计数器
计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。
　　例如，我们有个文件，其中包含如下内容：
hello you hello me
　　它被WordCount程序执行后显示如下日志：
在上图所示中，计数器有1...

[查看全文]

日期：02/28/2015 10:58:53 作者：周旭龙

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

开篇：Hadoop 是个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的为了降低Hadoop的难度，开发出了Hadoop Eclipse插件，它可以直接嵌入到Hadoop开发环境中，从而实现了开发环境的图形界面化，降低了编...

[查看全文]

日期：02/28/2015 10:58:10 作者：Edison Chou

Hadoop学习笔记—5.自定义类型处理手机上网日志

、测试数据：手机上网日志 1.1 关于这个日志
　　假设我们如下个日志文件，这个文件的内容是来自某个电信运营商的手机上网日志，文件的内容已经经过了优化，格式比较规整，便于学习研究。
　　该文件的内容如下（这里我只截取了三行）：
1363157993044 18211575961 94-71-AC-CD-E6-18:CMCC-EASY 120.196.100.99 iface.qiyi.com 视频网站 15 12 1527 21...

[查看全文]

日期：02/28/2015 10:57:10 作者：Edison Chou