你好,游客 登录 注册 搜索
背景:
阅读新闻

Spark 2.0面纱半揭,相关细节引人遐想

[日期:2016-02-24] 来源:51CTO.com  作者:核子可乐译 [字体: ]

  Spark已经以暴风骤雨之势席卷整个大数据领域。那么下一个内存内引擎选项会是什么?Spark背后的主要商业支持方Databricks对此给出了一点提示。

Spark

  在上周召开的Spark东部峰会上,Databricks公司发布了一系列相关提示,旨在探讨内存内数据处理工具Spark的未来发展方向。该公司作为Spark项目背后的核心商业支持方,在该项技术成果的演进道路上扮演着重要角色。

  Databricks的托管Spark平台Databricks Cloud目前已经提供订阅服务。为了进一步简化该云环境中的Spark上手难度,Databricks公布了一套免费层,即这套平台的社区版本。虽然目前此版本尚处于beta测试阶段,但其通用版本预计将在今年年中与广大用户见面。

  Databricks公司将该社区版本明确定位为付费产品版本的过渡手段,并指出其将“帮助用户以无缝化方式将自身原型设计过渡至完整Databricks平台之上的生产性应用程序。”

  Databricks公司亦决心始终紧跟Spark的发展步伐。通过此次Spark峰会主题演讲发布的一系列演示资料,Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0。其将包含以下三大核心转变:利用Tungsten项目的下一发展阶段解决Java内存处理局限,从而加快Spark运行速度; 将Spark改进为一套实时数据流系统; 将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

  不过此次演讲未被提及、但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与Apache Arrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。

  这一切都可谓真正令人兴奋且意义重大的改进。特别是Tungsten项目所代表的方案能够显著加快其它由Java语言编写而成的大数据项目的运行速度。

  目前,该公司宣称其已经拥有200家付费客户,并自信地表示其将专注于推动Databricks平台而非将精力分散至其它项目。

 

  不过Databricks公司并不是惟一一家Spark参与厂商。IBM公司就专门将Spark作为自身大数据发展战略中的核心组成部分,旨在立足于其Bluemix云提供“Spark即服务”方案。过去一年当中,Spark项目已经从Hadoop手中夺过了大数据首选引擎的桂冠,而Databricks公司也将在新的发展阶段面临更为严峻的项目演进竞争。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款