你好,游客 登录 注册 搜索
背景:
阅读新闻

【PDF】面向大数据处理的并行计算模型及性能优化

[日期:2015-10-26] 来源:中国云计算  作者:骆涛 [字体: ]

  本文的主要研究内容、贡献和创新点可概况为以下几点:1.抽象出一个大数据计算模型:提出了一个面向大数据处理的并行计算模型p-DOT。 p-DOT模型分为p阶段,每个阶段都由数据层D、计算层O和通信层T共同组成,采用矩阵的形式化描述;选取输入数据规模w和机器数n作为主要的两个参数,依照模型所定义的计算、通信和I/O行为共同构造出时间成本函数,并以此推导出对一个给定的大数据任务和给定的环境负载,任务最短运行时间所需的机器数n*和输入数据规模的开方√w成正比。同时,p-DOT模型具有扩展性和容错性,对于一个软件框架,如果其任何一个任务均可用p-DOT模型表示,那么该框架的处理范式是可扩展和可容错的。2.证明模型的成本函数、扩展性和容错性:对于时间成本函数,通过对机器内存大小、机器数和任务执行时间的限制,使构造出的函数更接近于实际,并通过大规模的MPI和MapReduce实验证明该函数及其推论的正确性:对于扩展性,采用传统并行计算性能评测标准中的等效率函数,证明了基于p-DOT模型的处理范式是可扩展的,但不是强可扩展的;对于容错性,在输入数据D都存放在永久性存储设备的前提条件下,证明了基于p-DOT模型的处理范式是可容错的。3.设计基于模型的优化方法并应用:针对p-DOT模型的数据层D、计算层O和通信层T,分别设计了利用数据复本、利用多核技术和利用部分同步策略的性能优化方法。一方面,从理论上证明了1)利用数据复本不仅是大数据任务容错性的必要条件,也能有效地提高任务的I/O访存性能;2)利用多核技术能在不增大通信开销的同时,有效地提高任务的计算性能;3)在任务的收敛条件与原始的不超过阈值θ时,利用部分同步策略能有效地提高任务的通信性能。另一方面,选择了三个实际的大数据案例1)地震前兆台网系统中对关系型地震大数据的查询服务、2)人脸识别系统中利用SVM线性分类器的训练问题、3)深度学习系统中利用卷积神经网络的训练问题,在案例中应用基于模型的优化方法来提升性能,并通过实验证明优化后的加速性能。

 

  
  下载:面向大数据处理的并行计算模型及性能优化





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款