你好,游客 登录 注册 搜索
背景:
阅读新闻

【PDF】基于大数据的数据挖掘引擎

[日期:2015-10-26] 来源:中国云计算  作者:樊嘉麒 [字体: ]

  本文完成了以下工作:(1)调研了两种主要的大数据并行计算模型一一以MapReduce为编程范式的编程模型和以内存计算算子为编程范式的编程模型。通过比较其计算效率、编程接口丰富程度和友好性等方面,确定了采用内存计算的方式,并以Spark作为大数据处理的核心引擎。(2)基于Spark的内存计算模型及其提供的若干个动作、转换算子,完成了两个传统数据挖掘算法一-Apriori和PageRank的并行化改造。通过实验验证了这两个算法的执行效率和并行化效果。(3)设计了大数据挖掘平台,以平台即服务的方式提供大数据计算资源,提供了远程过程调用的开发工具包(SDK)。解决了易用性、跨平台、多用户并发控制等问题。通过以上工作,实现了一个完整的大数据挖掘系统,为数据挖掘算法在大数据集上的实施提供了高效、易用的利器。

 

  
  下载:基于大数据的数据挖掘引擎





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款