你好,游客 登录
背景:
阅读新闻

【PDF】技术设计级的Hadoop平台海量数据并行分类_大数据云平台云计算最新技术

[日期:2014-07-31] 来源:宛 婉,周国祥  作者: [字体: ]

  在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。本文提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce 并行抽样算法。在hadoop 平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。

点击免费下载:【PDF】技术设计级的Hadoop平台海量数据并行分类_大数据云平台云计算最新技术





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款