你好,游客 登录
背景:
阅读新闻

客户之声为你探究PB级云数据库HBase

[日期:2017-03-22] 来源:云栖团队博客  作者: [字体: ]

  有一家中国领先的车商服务平台,最近在使用云HBase,在实时业务线中,要处理 TB 级的的数据量,同时又要保证读写的效率,在数据库的选择上。经过多重考虑,最终决定采用阿里云HBase 来处理这些数据。

  选择阿里云HBase主要基于以下考虑:

  1、数据整体的技术栈都是基于hadoop

  HBase是Apache的Hadoop项目的子项目,阿里云HBase完全兼容Apache HBase 的接口,选择阿里云HBase可以更好的同其他组件集成,例如:Spark可以方便读写HBase中的数据;通过 Flume可以将Kafka中的数据写入阿里云 HBase。

  2、阿里云HBase可以提供更强大的查询功能

  阿里云HBase 完全兼容了社区版本的接口, HBase中原有丰富的过滤器仍可以使用在阿里云 Hbase。同时社区中Phoneix等SQL方案也在逐渐成熟, 后期SQL ON HBase 也有更多的选择。

  3、由阿里云承担基础运维, 服务更有保障

  HBase要提供线上服务, 服务稳定性的要求更高。对于没有运维经验的团队来说, 阿里云 HBase 是更好的选择。这个也是吸引我们使用阿里云 HBase 最主要的原因。阿里云承诺99.95%的稳定性及9个9的数据可靠性,超过自己可以实现的运维能力。

  于是在调研后, 首先被应用到阿里云HBase上的业务是一个新业务:基础服务中的 GIS 服务。存储了大量GPS上报的地理位置数据, 并提供风控后台的数据接口。

HBase

  使用中的反馈

  现在生产数据上线只有两周, 日写入数据GB级别,总体感觉目前系统还没有出现运维问题,解决了后顾之忧,而且与社区版本完全兼容,避免了不必要的工作量。创业公司的时间就是金钱,这里点一个大大的赞。

  经过这次尝试,阿里云的HBase的成绩有目共睹,后续公司内的实时业务也会陆续从自建的HBase迁移到阿里云HBase 中,减少运维的风险。

  云HBase介绍

  云HBase的内核,是基于开源社区1.1版本系列,在此之上深度改造,之前阿里在较早版本有较多的优化也会渐渐迁移到此版本中。目前服务了整个集团的大数据结构化存储需求。如:

  1、平台类:如目前很流行的kylin,日志同步工具TT,图组件Titan等。此类存放的是平台类数据,作为平台的底层存储使用。

  2、用户行为类:如淘宝收藏夹、交易数据、聊天记录、物联网数据等。这里使用比较直接,就直接存放HBase,再读取。

  3、报表类:比如报表、数据大屏等

  随着互联网的发展,我们遇到很多中小公司,都有数T、数P的HBase集群,且这些集群没有改动过一行HBase源代码,出现问题后无从下手,导致服务长时间不可用甚至面临数据丢失的风险,更加不会去改造HBase以满足日益增长业务需求。

  云HBase团队,源于对内核的深度改造,满足日益复杂化、多样化的大数据存储需求。阿里从2011年初开始步入HBase的发展、建设之路,是国内最早应用、研究、发展、回馈的团队,也诞生了HBase社区在国内的第一位Committer,成为HBase在中国发展的积极布道者 过去的几年时间,阿里累积向社区回馈了上百个Patch, 在诸多核心模块的功能、稳定性、性能作出积极重大的贡献,拥有多位Committer,成为推动HBase的长远发展的重要力量之一。

  云HBase建设

  主要是两个体系

  管控体系:由于我们有数千个、甚至数万个HBase集群,所以,我们必须是自动化的。这个体系建设的是怎么去管控好上万级HBase集群,为数万家公司提供云HBase的服务。

  内核建设:目前云HBase主要围绕云上构建HBase,需要充分利用云的优势,比如:弹性、资源无限、随时随地、默认有多个可用区及多个地区。我们主要围绕:性能、运维、成本、安全、可用性、功能等方案建设内核。

 





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款