MapR试图将SQL-on-Hadoop推向新水平-其它-@大数据资讯

　　MapR今天更新了其hadoop发行版，新增了Apache Drill 0.5，以减少繁重的数据工程工作。

　　Drill是开源分布式ANSI查询引擎，主要用于自助服务数据分析。这是谷歌的Dremel系统的开源版本，谷歌的这个系统主要用于交互式查询大型数据集—这支持其BigQuery服务器。Apache Drill项目的既定目标是使其能够扩展到1万服务器或者更多服务器，同时在数秒内处理PB级数据和万亿记录。

　　Drill查询引擎可以实现以下功能：

　　· 以其原本的格式(包括Parquet、JSON文件和 HBase表)分析数据，而不需要数据库管理员(DBA)的干预。

　　· 分析不断变化的半结构化/嵌套数据，这些数字来自NoSQL数据存储，例如MongoDB和在线REST API。

　　· 创建可同时结合不同Hadoop数据源的查询，例如文件、HBase表和Hive表。

　　· 重复使用现有SQL技能集、BI工具和Apache Hive部署

　　“我们对此非常激动，因为这打开了SQL-on-Hadoop的新时代，”MapR公司首席营销官Jack Norris表示，“重点在于Hadoop的自助数据分析，而不需要IT部门的参与。”

　　因为Drill支持在各种不同格式运行SQL查询，它可以用来分析实时数据，而不需要花几周时间来准备和管理模式和设置ETL任务。这样，它可以跨多个数据来源提供瞬时、自助数据分析。

　　“企业希望具有现有SQL分析技能的用户能够访问Hadoop和NoSQL数据库中存储的数据，”451研究公司数据平台和分析研究主管Matt Aslett表示，“Apache Drill能够提供对Hadoop中数据的访问，而不需要集中式模式(+本站微信networkworldweixin)，也不需要具有复杂结构的 NoSQL数据集。”

　　“每个其他SQL-on-Hadoop解决方案依赖于固定模式，无论是Hive或Tez，”Norris补充说，“无论你讨论的是MapReduce、 Hive或一些其他SQL-on-Hadoop解决方案，我们都需要做这种建模、数据转换和管道来支持分析。Drill能够发现数据，而不需要等待，为你提供速度和灵活性的优势。”

　　MapR正在封装Drill与MapR 4.0.1，也是今天发布。新版本的Hadoop发行版为用例扩展了其实时功能，包括运营应用程序、交互式查询和流处理。

　　这个新版本包括多个批处理框架，其中包括MapReduce 1.x和2.x (基于YARN)、以及Spark(0.9和1.0.2)。它还支持5个SQL-on-Hadoop技术：Hive(0.11、0.12、0.13)、 Drill(0.5)、SparkSQL(1.0.2)、Impala(1.3.1)以及与HP Vertica的认证集成。它还支持HBase(0.94.21、0.98.4)和MapR-DB NoSQL技术，以及三种机器学习和图形库，以Mahout(0.8, 0.9)、MLLib (0.9, 1.0.2)和GraphX的形式