你好,游客 登录
背景:
阅读新闻

深度揭秘腾讯大数据平台

[日期:2014-09-02] 来源:CSDN  作者:刘亚琼 [字体: ]

    大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生、传递、存储、运算到应用的。其实我一直感 觉大数据这个东西有时候真的不是一般企业可以玩的溜的,特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高 于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。

    腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户,为了保证公司各业务产品能够使用更丰富优质的数据服务,腾讯的大数据平台做了那些工作?具备哪些能力?记者采访到了腾讯数据平台总经理蒋杰先生,他将给大家揭秘腾讯的大数据平台!

建设专业数据平台、持续提升处理能力、贴身满足业务需求、挖掘创造数据价值———蒋杰(腾讯大数据团队使命)

    CSDN: 首先还是请蒋总介绍一下自己和你的职业生涯。

    蒋杰:我是蒋杰,目前是腾讯数据平台部的负责人。我的第一份工作其实并非在互联网行业,而是在传统IT行业工作了五年。随着互联网在中国的爆发,我也从传统IT行业转移到了阿里巴巴,在那里的五年也是我在互联网行业起步和成长的五年。之后有机会与腾讯结缘,对我来说也是进一步提升和发挥的机会,于是就举家由杭州南迁到深圳工作至今了!

    十 多年的职业生涯,转换过公司也转换了工作生活的城市,但一直不变的是我的工作始终围绕着“数据”展开,无论是在传统IT行业,还是之后的互联网行业,“数 据”始终是我工作的核心内容,而我自己最大的职业追求也离不开“数据”,我想可能未来十年到二十年之内我的工作还是会围绕着“数据”,因为我热爱大数据的 技术,也在不断发掘数据中蕴藏的巨大价值,并相信数据在不断地改变着我们的生活!

    CSDN: 可否介绍一下目前腾讯数据平台部的技术团队规模和结构是怎样的?

    蒋杰:目前我们数据平台部共有200多人。整个数据平台是按照基础平台、核心应用、产品包装和质量监控的思路分为四部分:

  • 数据中心,负责建设管理腾讯大数据基础平台;
  • 精准推荐中心,负责研发落地以数据挖掘为核心的大数据应用;
  • 产品中心,负责大数据产品的策划和运营;
  • 质量中心,负责我们的质量监控与保障。

    CSDN: 能不能详细介绍一下这个平台架构的架构设计思路?

    蒋杰:其实这些你都可以从腾讯目前的发展看出来,主要考虑的是数据开放、专业化、成本三点。

  • 数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,从人肉服务模式转向平台自动化服务方式,帮助BG数据分析人员通过自助服务的方式,降低人工成本,满足快速增长的需求。
  • 专业化:从提供大量独立的系统/工具转变向提供集成、一体化、自动化数据开发平台服务。来源各个业务块数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。
  • 成本与性能:优化平台存储和计算方案、优化的数据模型和算法、去除重复计算和存储;通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。

    CSDN: 能不能详细介绍一下这个平台架构的构建过程?

    蒋杰:腾讯大数据平台现在主要从离线和实时两个方向支撑海量数据接入和处理,核心的系统包括TDW、TRC和TDbank。


数据平台部服务介绍

    TDW 是我们从2009年开始自研的腾讯分布式数据仓库,我们基于开源的hadoop+hive架构做了大量优化,包括兼容商业数据库语法和hadoop单点消 除及可扩展性提升等。从2011年正式发布上线到2013 年初,TDW完成了对腾讯公司内部几乎全业务的覆盖,成为腾讯最大的离线处理平台,目前接入的数据量已达到百P级别,并伴随业务的发展和新业务的出现不断 快速增长。

    2010年起,随着业务对实时数据处理需求的增强,我们开始进行新的平台规划与建设:我们基于 storm研发了腾讯实时计算平台TRC,我们将社区的storm用java重新改写以提升稳定性和效率,并且使它运行在我们的统一资源管理平台GAIA 上,进一步提升集群效率和扩展能力;为了方便用户使用,我们为TRC开发了SQL和Pig用户接口,并且在此基础之上进一步提供了可视化拖拽式开发环境, 使业务开发实时计算逻辑更加方便;目前TRC每天提供几万亿次实时计算能力,在以效果广告为代表的趋势预测、交叉分析、实时统计等领域的应用上取得了非常 好的效果。

    与此同时我们在数据接入方面研发了实时数据接入和分发系统TDbank,这个系统使业务数据采集延迟 从之前的天级别,缩短到当前的秒级别;我们主要对TDbank做了异构数据源适配,跨城公网传输,数据高一致性保证,分布式消息队列等;目前TDBank 每天收集的数据量接近10000亿条,这些数据主要输送给TDW和TRC,分别作离线分析和实时计算,可以说,这是我们成功支撑海量实时和离线处理的前 提。

    CSDN:能不能和我们详细的介绍腾讯大数据平台具体模块的底层如何实现以及它们的作用?

    蒋杰:刚 才说到了腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实 时计算,TPR负责精准推荐,TDBank则作为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款