你好,游客 登录
rss订阅 手机访问 
Hadoop
Hadoop学习笔记—12.MapReduce中的常见算法
 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。
日期:03/05/2015 10:35:53 作者:周旭龙
Hadoop Common 结构学习
从今天开始,开始研究学习Hadoop Common相关的源码结构。Hadoop Common在Hadoop1.0中是在core包下面的。此包下面的内容供HDFS和MapReduce公用,所以作用还是非常大的。Hadoop Common模块下的内容是比较多的。本人打算在后面的学习中挑选部分模块进行分析学习,比如他的序列化框架的实现,RPC的实现等等。我对此模块截出了些图:
日期:03/05/2015 09:50:43 作者:Android路上的人
浅谈Hadoop MapReduce
从今天开始,本人将会开始对另项技术的学习,就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要,都纷纷用了此 平台。国内的比如BAT啦,国外的在这方面走的更加的前面,就不列举了。但是Hadoop作为Apache的个开源项目,在下面有非常多的子项目, 比如HDFS,HBase,Hive,Pig,等等,要先彻底学习整个Hadoop,仅仅凭借个的力...
日期:03/05/2015 09:49:20 作者:Android路上的人
Hadoop学习笔记—11.MapReduce中的排序和分组
、写在之前的 1.1 回顾Map阶段四大步凑
  首先,我们回顾下在MapReduce中,排序和分组在哪里被执行:
从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。 1.2 实验场景数据文件
  在些特定的数据文件中,不定都是类似于WordCount单次统计这种规范的数据,比如下面...
日期:03/04/2015 10:34:23 作者:周旭龙
Hadoop学习笔记—10.Shuffle过程那点事儿
、回顾Reduce阶段三大步凑
  在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Reduce阶段总共三个步凑,如下图所示:
其中,Step2.1就是个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。
PS:Hadoop的shuffle过程就是从map端输出到reduc...
日期:03/04/2015 10:20:52 作者:周旭龙
Hadoop学习笔记—9.Partitioner与自定义Partitioner
、初步探索Partitioner 1.1 再次回顾Map阶段五大步凑
日期:03/04/2015 10:14:01 作者:周旭龙
Hadoop学习笔记—8.Combiner与自定义Combiner
、Combiner的出现背景 1.1 回顾Map阶段五大步凑
  在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示:
其中,step1.5是个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前篇博文《计数器与自定义计数器》中的第张关于计数器的图:
我们可以发现,其中有两个计数器...
日期:02/28/2015 10:59:29 作者:周旭龙
Hadoop学习笔记—7.计数器与自定义计数器
、Hadoop中的计数器
计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。
  例如,我们有个文件,其中包含如下内容:
hello you hello me
  它被WordCount程序执行后显示如下日志:
在上图所示中,计数器有1...
日期:02/28/2015 10:58:53 作者:周旭龙
Hadoop学习笔记—6.Hadoop Eclipse插件的使用
开篇:Hadoop 是个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有些缺点,如编码、调试Hadoop程序的难度较 大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop开发环境中,从而实现了开发环境的图形界面化,降低了编...
日期:02/28/2015 10:58:10 作者:Edison Chou
Hadoop学习笔记—5.自定义类型处理手机上网日志
、测试数据:手机上网日志 1.1 关于这个日志
  假设我们如下个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了优化,格式比较规整,便于学习研究。
  该文件的内容如下(这里我只截取了三行):
1363157993044 18211575961 94-71-AC-CD-E6-18:CMCC-EASY 120.196.100.99 iface.qiyi.com 视频网站 15 12 1527 21...
日期:02/28/2015 10:57:10 作者:Edison Chou
  • 98/98
  • «
  • 1
  • ...
  • 95
  • 96
  • 97
  • 98