你好,游客 登录
背景:
阅读新闻

Hadoop周刊—第 174 期

[日期:2016-06-29] 来源:BlogJava-专家区  作者: [字体: ]

启明星辰平台和大数据总体组编译

2016 年 6 月 12 日

Spark 峰会本周在旧金山召开,正如所料,本期周刊有大量关于 Apache Spark 的新闻、公告和版本发布。除 Spark 外,本期还有 Kafka 、 Cask 、 Ambari 方面的文章。在产品发布部分,有一年来 Apache Pig 首次版本更新,还一个为分布式系统设计的简洁新工具 Runway ,最后是新版 Apache Kudu (孵化中)。

Hadoop

技术新闻 

Debezium 是一个相对较新的项目,用于数据库和 Apache Kafka topic 行级改变数据捕获。当面支持 MySQL 、 Zookeeper 、 Kafka ,这是一篇在 Docker 、 Kubernetes容器上配置 Zookeeper, Kafka, MySQL 的教程。

http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/

有些人对 Apache Kafka 项目宣布采用另一种流式处理引擎感到惊讶,这就是 Kafka Streams 。 Kafka Streams 与其它系统存在显著的关键差异。本文很好的示范了这些不同点 ——abstraction 、部署模型、支持基于状态的计算。

https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/

每个使用 MapReduce 、 Spark 或类似系统的人都会陷入难以调试、数据特征 bug这些问题中。 BigDebug 是 UCLA (加州大学洛杉矶分校)的研究项目 / 论文,旨在让开发人员通过工具发现单机问题:传入参数导致的崩溃,跟踪、断点、观察点、延迟报警等。该工具支持 Apache Spark 1.2.1 上。

https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/

Cask 撰文介绍了在开源 Cask Data Application Platform (CDAP) 中运行 Spark 的文章。运行在 CDAP 的 Spark 程序通过访问 Apache Tephra (孵化中)实现细粒度事务支持。这样,就能很容易利用快照隔离实现从一个表复制到另一个表的一致性。CDAP 中的 Spark 也能访问 Cask Tracker , Cask Tracker 提供数据血缘信息(什么时候创建、使用等)。根据应用的不同, CDAP 工具还能发挥更大价值。 

http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/

IBM hadoop Dev 博客撰写了从 cURL 调用 Ambari REST API 的教程。还示范了在vanilla 和启用了 kerberos 的集群上建立会话,并为接下来的请求复用会话。

https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/

Google 云平台博客撰文介绍了如何调试运行在 Google Dataflow 上的 Apache Beam(孵化中)任务。为了调试性能瓶颈, Dataflow 有一些有用的统计数据和 UI 来帮助使用者深入每一个步骤。

https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines

其他新闻 

Transaction Processing Performance Council(TPC) 发布了 TPCx-BB 基准测试,该基准测试为大数据系统设计。除了衡量 SQL 外,还可以对机器学习集群和分类问题进行测试。

http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/

伦敦 Strata + Hadoop 世界大会两周前已召开。演讲者的专题报告和幻灯片已发布到会议网站上。

http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings

Splice Machine , Hadoop 上的 RDBMS 构建者,宣布开源他们的软件。当前,他们正在寻找贡献者 / 导师 / 豪杰来提升开源后的效果。 Splice Machine 有不少有趣的特性,例如 ACID 事务,二级索引,引用完整性。

http://www.splicemachine.com/were_going_open_source/

Altiscale 博客编辑了许多关于客户服务、情感分析、气候变化、智慧城市、 bias 等方面的大数据应用案例文章。还收集了一些大数据怀疑论者的文章。

https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/

Spark 峰会本周在旧金山召开。会议组织者 Databricks 概述了两天内的热点内容,链接了许多的演讲和专题报告。

https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html

大数据即服 务 (BDaaS)公司 Qubole ,撰文介绍了他们的客户如何接受使用Spark 。接受速度之快 —— 一半多的客户现在开始用 Spark 。 Qubole 也支持 Presto,他们也看到了类似的增长。

https://www.qubole.com/blog/big-data/spark-usage/

Twitter 向 Apache 孵化器提交了他们的复制日志服务 DistributedLog 。

https://wiki.apache.org/incubator/DistributedLogProposal

Big Data Day LA 于 6 月 9 日在 西洛杉矶学院召开。这次活动是免费的(如果预先注册的话),演讲者来自于 Confluent 、 Databricks 、 Yahoo 、 Netflix 等。

http://www.bigdatadayla.com/

产品发布 

Apache Spark 发布了 Spark 2.0 预览版。发布声明中说道 API 和功能都尚未最终敲定。

https://spark.apache.org/news/spark-2.0.0-preview.html

JustOne 构建并开源了 Kafka-to-PostgreSQL 连接器。本文介绍了该连接器的性能,详细描述了如何把消息转换为行,还描述了如何设定配置等。

http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database

Salesforce 开源了 Runway ,这是一个建模、仿真以及可视化分布式系统。在runway.system 上有一个在线演示环境,演示了 “too many bananas” 模型,电梯系统和Raft 一致性系统。

https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248

Bloomberg 最近开源了 Presto Accumulo ,面向 Apache Accumulo 的 Presto 连接器。在声明中,链接了 11 页的论文,比较了基于的 Presto 查询和基于 Accumulo Java API 查询的基准测试结果。

http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/

微 软 Azure 发布了基于 Apache Spark 1.6.1 稳定版的 Azure HDInsight 。本次发布支持了面向 Spark 的 Project Livy REST 任务服务支持,集成了 Azure 数据湖存储(基于角色的访问控制),集成了 IntelliJ ,支持了 Jupyter 笔记本等。

https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/

LinkedIn 开源了 Photon ML ,他们的大规模回归分析库。 Photon 构建在 Spark 之上并在 LinkedIn 的 YARN 上运行(过去基于 MapReduce ,似乎因为要提升性能才迁移)。

https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml

Hortonworks 发布了 Spark-HBase 连接器的技术预览版。预览版原生支持 Avro ,支持运行安全集群,原生支持 Spark Datasource API ,并优化了分区修剪,列修剪,谓词下推。

http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/

Databricks 发布了 Apache Spark 平台的第一阶段安全特性。本阶段对集群 ACL 、SAML 2.0 进行了支持,端对端的审计日志。

https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html

Apache ORC 1.1.0 版发布了。本次发布完成了从基于 Apache Hive 的代码到基于Java 的代码迁移,修正了 C++ 时间戳处理程序,增加了 Hadoop MapReduce 连接器。

http://orc.apache.org/news/2016/06/10/ORC-1.1.0/

Apache Kudu 发布了 0.9.0 版。增加了 UPSERT 命令,新的 Spark 数据源不会依赖MapReduce API ,提升了 Tablet Server 写性能。

http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html

Google 云服务平台团队发布了支持 Spark 2.0 预览版的 Google Cloud Dataproc 。

https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview

Dory ( Bruce 的继承者) Kafka producer 的守护进程,现在支持从 UNIX domain sockets 或本地 TCP 接收数据了。

http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C14[email protected]%3E

Apache Pig 0.16.0 版,一年来首次发布。坚定了对 Tez 的支持。

http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available

活动 

中国

Spark Meetup ( 上海 ) – 周六 , 6 月 18 日





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款