你好,游客 登录
背景:
阅读新闻

hadoop编程:分析CSDN注册邮箱分布情况

[日期:2014-07-10] 来源:csdn博客  作者:jdh99 [字体: ]

    环境:

    主机:Ubuntu10.04

    hadoop版本:1.2.1

    开发工具:eclipse4.4.0

    说明:

    要求:原始数据共6428632条,分析不同邮箱的注册情况,并按使用人数从大到小排序。

    分析:hadoop自带一个排序,是按key值来进行排序的。要按值(value)进行排序,需要二次排序。

 

步骤:

    1.job1:统计不同注册邮箱的使用人数,用默认的key值排序,保存在HDFS系统中

    2.job2:对job1的输出进行二次排序,按值从大到小排序

    结果输出:

    使用人数在1W以上的邮箱共有24个:

qq.com 1976196
163.com 1766927
126.com 807895
sina.com 351596
yahoo.com.cn 205491
hotmail.com 202948
gmail.com 186843
sohu.com 104736
yahoo.cn 87048
tom.com 72365
yeah.net 53295
21cn.com 50710
vip.qq.com 35119
139.com 29207
263.net 24779
sina.com.cn 19156
live.cn 18920
sina.cn 18601
yahoo.com 18454
foxmail.com 16432
163.net 15176
msn.com 14211
eyou.com 13372
yahoo.com.tw 10810

    源代码:

    JOB1:统计不同注册邮箱的人数

 

CsdnData.java

MapData.java

ReducerData.java

JOB2:对job1的输出进行二次排序,按值从大到小排序

SortSecond.java

MapSecond.java

ReduceSecond.java

KeyMy.java

SortMy.java





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款