你好,游客 登录
背景:
阅读新闻

超越Hadoop的大数据分析之图形处理尺寸

[日期:2014-05-30] 来源:并发编程网  作者:许巧辉 [字体: ]

  另一个来自Google的重要工具,看起来超越了hadoop MR——Pregel框架实现了图形计算(Malewicez et al.2010)。在Pregel中的计算是由一系列迭代组成的,被称为supersteps。图上的每个顶点都与一个用户定义的计算函数相关联;Pregel确保每个superstep在图的每条边上并发调用用户定义的计算函数。顶点可通过边发送消息,并且顶点间可交换值。这也是个全局同步——所有操作必须在用户定义的函数结束后才能继续。熟悉BSP的读者可以看出为什么Pregel是BSP优秀的例子——一组实体在用户定义的函数中使用全局锁并行计算,并且能够进行消息交换。

  Apache Hama (Seo et al. 2010)相当于开源的Pregel,一种BSP的实现。Hama在HDFS和微软的Dryad引擎之上 实现了BSP。大概是因为他们不希望被认为他们与Hadoop的社区之间有所不同。但重要的是,BSP本质上是一种适合迭代计算的范例,而且Hama拥有CGD的并行实现,这是Hadoop不容易实现的。必须指出的是,Hama的BSP引擎是在MPI之上实现的,这是并行编程文学的鼻祖( www.mcs.anl.gov/research/projects/mpi/ )。Apache Giraph, Golden Orb, 还有Stanford GPS项目的灵感也来自Pregel。

  GraphLab (Gonzalez et al. 2012)已经成为现代化图形处理的范例。GraphLab起源于华盛顿大学和卡内基梅隆大学(CMU)的学术项目。GraphLab提供跨集群节点处理图形的有用抽象。PowerGraph,GraphLab的后续版,使得它有效地处理自然图形或幂律图——这是有大量不良连接点和少量良好连接点的图。Twitter上关于页面排名和三角形计数问题的性能评估已验证GraphLab比其他方法更有效率。本书的重点主要是Giraph,GraphLab及其相关方面。

  表1.1对各种范例的非功能特性进行了比较,如可扩展性、容错机制和已实现的算法。由此可推断出,尽管传统工具只工作在单个节点上,不可能做横向扩展,也有可能出现单点故障,近期重构方面的努力抢劫它们跨代迁移。值得注意的是,大多数图形处理范例并没有容错机制,然而Spark和Hadoop是其中提供容错机制的第三代工具。

QQ图片20140525183622

  (全文完)如果您喜欢此文请点赞,分享,评论。

  原创文章转载请注明出处:http://outofmemory.cn/wr/?u=http%3A%2F%2Fifeve.com%2Fbigdataanalyticsbeyondhadoop_graphprocessingdimension%2F





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款