你好,游客 登录
背景:
阅读新闻

MapR试图将SQL-on-Hadoop推向新水平

[日期:2014-09-23] 来源:网界网  作者:邹铮编译 [字体: ]

  MapR今天更新了其hadoop发行版,新增了Apache Drill 0.5,以减少繁重的数据工程工作。

  Drill是开源分布式ANSI查询引擎,主要用于自助服务数据分析。这是谷歌的Dremel系统的开源版本,谷歌的这个系统主要用于交互式查询大型数据集—这支持其BigQuery服务器。Apache Drill项目的既定目标是使其能够扩展到1万服务器或者更多服务器,同时在数秒内处理PB级数据和万亿记录。

  Drill查询引擎可以实现以下功能:

  · 以其原本的格式(包括Parquet、JSON文件和 HBase表)分析数据,而不需要数据库管理员(DBA)的干预。

  · 分析不断变化的半结构化/嵌套数据,这些数字来自NoSQL数据存储,例如MongoDB和在线REST API。

  · 创建可同时结合不同Hadoop数据源的查询,例如文件、HBase表和Hive表。

  · 重复使用现有SQL技能集、BI工具和Apache Hive部署

  “我们对此非常激动,因为这打开了SQL-on-Hadoop的新时代,”MapR公司首席营销官Jack Norris表示,“重点在于Hadoop的自助数据分析,而不需要IT部门的参与。”

  因为Drill支持在各种不同格式运行SQL查询,它可以用来分析实时数据,而不需要花几周时间来准备和管理模式和设置ETL任务。这样,它可以跨多个数据来源提供瞬时、自助数据分析。

  “企业希望具有现有SQL分析技能的用户能够访问Hadoop和NoSQL数据库中存储的数据,”451研究公司数据平台和分析研究主管Matt Aslett表示,“Apache Drill能够提供对Hadoop中数据的访问,而不需要集中式模式(+本站微信networkworldweixin),也不需要具有复杂结构的 NoSQL数据集。”

  “每个其他SQL-on-Hadoop解决方案依赖于固定模式,无论是Hive或Tez,”Norris补充说,“无论你讨论的是MapReduce、 Hive或一些其他SQL-on-Hadoop解决方案,我们都需要做这种建模、数据转换和管道来支持分析。Drill能够发现数据,而不需要等待,为你提供速度和灵活性的优势。”

  MapR正在封装Drill与MapR 4.0.1,也是今天发布。新版本的Hadoop发行版为用例扩展了其实时功能,包括运营应用程序、交互式查询和流处理。

  这个新版本包括多个批处理框架,其中包括MapReduce 1.x和2.x (基于YARN)、以及Spark(0.9和1.0.2)。它还支持5个SQL-on-Hadoop技术:Hive(0.11、0.12、0.13)、 Drill(0.5)、SparkSQL(1.0.2)、Impala(1.3.1)以及与HP Vertica的认证集成。它还支持HBase(0.94.21、0.98.4)和MapR-DB NoSQL技术,以及三种机器学习和图形库,以Mahout(0.8, 0.9)、MLLib (0.9, 1.0.2)和GraphX的形式





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款