你好,游客 登录 注册 搜索
背景:
阅读新闻

【干货】你真的了解百度大数据引擎??

[日期:2015-08-28] 来源:公众帐号  作者: [字体: ]

  此内容为数据派独家内容,数据派是清华大数据产业联合会官方微信公众账号,定期发布清华大数据系列讲座信息,分享讲座实录,欢迎个人转发朋友圈 。

  其他机构或媒体如需转载,请联系 christinafu@mail.tsinghua.edu.cn申请授权。

  【回复“清华大数据”可下载最新讲座ppt(有效期5天哟)】

  本讲座选自陈尚义所做的题为《百度大数据引擎》的演讲。

  今天我讲的题目叫《百度大数据引擎》。

  大数据引擎,这是一个词,在百度百科上你们可以看到。百度是搜索引擎公司,每天响应来自138个国家和地区的70亿次搜索请求,搜索公司从第一天开始就要收集全网的非结构化数据,同时我们还有大量日志和广告客户的数据,所以数据种类、类型非常复杂,数据量也非常大,今天就不再详细一一讲了。

  这是我们通常讲的,讲大数据有几个特性,比如说四个、三个,不管怎么样,无外乎就是说它大、时效度高,另外就是数据来源多样性。这里大家可以看到百度的数据大在什么地方,目前差不多有一千PB,但我们数据中心建设是朝着几千个规模建。我们的搜索引擎在很短的时间响应你的需求,背后靠的是大数据的处理能力。

  上面,基于这些数据,我们又进行了一些处理,比如说训练一些人工智能的模型深度学习,然后需要整理,再往上可以做一些其它事情,比如我们可以向行业输出行业报告,可以预测某个方面的趋势,以及对某一领域的监测,等等。

  从最下面数据中心、服务器、网络设计,一直到最高各个行业的应用,百度都具备了自己的相关能力。

  分开来讲,在基础设施方面,这里有几个例子:第一个就是服务器的定制化设计,第二个是我们通过GPU改造服务器的加速和运算能力。同时,我们为了节能,为了减少服务器的占地面积,节省能耗,我们在全球第一家用ARM的芯片代替了英特尔芯片建这个服务器,而且在南京建设之后取得了非常好的效果,这是我们去年年初已经对外讲过这个事情。在万兆交换机方面,这样我们可以大规模提高接入的效率,降低接入成本。另外在整机柜方面,因为我们现在用了大规模的整机柜服务器,使我们效率提高了10倍。另外还有我们自己对IDC的设计,应用了很多节能降耗的措施。

  在其中有几个我非常引以为豪的地方,比如说在中国的环境下如果用自然冷风的话,因为中国的空气质量相比国外是不一样的,在这种情况下如何防止服务器被腐蚀是个问题,这是其它任何国家都不可能给我们提供的先进经验。

  大家可能没有这个亲身感受是不知道的,我在百度我是知道的,数据的增长遵循摩尔定律18个月翻一番,但我们是数据高度集中的公司,它的增长速度还要大。比如一年翻一番的情况下,从你的预算到订货到到货到安装到部署上线,对速度的要求是非常高的,如果你跟不上的话就会拖累整个运营。所以,我们为什么要做整机柜和ARM的服务器?都是因为这些要求,所以我们在这方面形成了这样一些技术。

  在软件方面,我相信大家都会想到,如此庞大规模的数据中心,这些服务器,要形成一个统一的资源池的话,那这个基础架构的转变会很复杂。其他的互联网公司,据我了解,要么是规模没有百度的数据量大,要么业务太繁多,大家知道,百度最主要的就是搜索引擎。这样的数据中心,要形成一个资源池,这在中国还是存在价值的。

  在人工智能方面,大家也许听到了,原来的Google大脑之父或者创始人,以前做这件事情的人,大家也许还知道Google无人驾驶汽车也有应用,他今年5月份的时候正式宣布加入了百度,为此我们也研究了百度研究院下属三个实验室,一个是在硅谷,一个在北京。在深度学习这方面,我们已经积累了很多经验,比如说自然语言识别、语音识别、图象识别,以及广告系统的精准匹配,等等各方面,已经取得了非常明显的效益。这些基础和吸引的人才,也是他加入百度的一个很重要的影响因素,在这方面百度有更多的期待。

  第二方面,介绍一下百度在大数据应用方面所取得的成绩。

  这是百度搜索的页面,大家应该很熟悉了,但跟我们通常看到的搜索页面有所不同,过去的页面是一个一个的URL的链接,点开之后就离开了百度。但大家看,首先它直接给出了结果,比如说一个什么人多少岁,直接就会告诉你34岁,左边这个搜索结果也是直接的精准答案。在搜索框里,过去我们讲输入关健词,但现在关健词已经不能代表网民在搜索框里输入的内容了。左边是什么什么球星,右边这个就更加绕口了,网民输入的是,谢霆峰爸爸儿子的什么什么,很多网民他们在用搜索引擎的时候,他们想起什么就打什么。所以,我们对自然语言的理解要求就非常高的,所有这些处理背后都是大数据处理的技术。

  自然语言的处理大家可能会知道,原来是基于语法规则的,现在大量的是从海量的互联网文本里进行统计的,这是目前主要的技术手段。给出直接的答案方面,因为也是从杂乱无章的互联网网页,大到什么程度呢?上千亿个网页,从大量的文本里挖掘这些知识,找到这些答案。

  跟上一页相关的,在搜索引擎领域里有个很热的词叫知识图谱,就是在上万页网页里找到一些概念图谱,比如在座每个人的名字、每个城市的名字、每个城市的名字,现在在百度里可以找出几十亿这样的概念,以及每两个概念之间的关系,如果建立起来就形成了一个知识的图谱。有了这个知识图谱,就会大大改善搜索的效果。

  比如说,当我搜索海贼王这三个字的时候,搜索结果不仅出现的是搜索链接,而且直接会给出视频和百度百科上面的介绍,以及跟此相关的其它视频资料,因为你对这个感兴趣可能对同一类其它东西也感兴趣,因为很多人跟你一样搜索过海贼王也同时搜索过其他的,这样就大大提高了搜索引擎的效率。这些,都是我们大数据一个非常典型的应用。

  在智能交互方面,在语音识别、机器翻译、输入法,以及地图,还有图象识别,等等,各大领域里,用大数据的技术训练模型,使得各种识别的错误率大大下降,语音识别精准度我们基本上能达到95%以上,大家知道百度在语音识别方面起步的并不是太早,后来由于用了大数据的技术,使得百度很快就赶上了行业先进水平。下一步,会在多噪音情况下,使识别率进一步提高。目前,这一块也已经在很多行业里推广使用,不光百度在自己用。

  这是图像搜索技术,用了大数据的技术精准度也很高了。

  这是百度翻译,当你到国外点菜去的时候,你用百度翻译这个应用对菜谱一照,自动就可以把菜谱翻译成中文,让你能看得懂。右边这个图是什么意思呢?手机对准一个食物的时候,就可以知道这是一个什么东西。昨天,刚刚我们跟联合国一起做了一个百度联合国大数据联合实验室,做的第一个项目就是百度回收站,在你家里有很多废弃的物品,用手机一照,自动就能识别是什么东西,以及目前它大概废品回收价格,你把联系方式写好,国家有认证资质的废品回收站,就会到你家把物品收走。这里头,无论是机器翻译还是自动的识别动物,还有其它的物品,背后用的都是大数据。

  大数据的另外一个实践,就是我们做了大量预测。包括景点预测,大家可以看一下,可以预测未来两天景点的舒适度和人流量,还有未来两周城市人口迁徙的情况,还有今年高考前,我们准确的预测了18个地区的试卷题目,另外是世界杯预测,参加预测的有Google、雅虎、微软、还有投行高盛,及中国的百度公司,百度公司的表现最为优异第一名,16场比赛百度成功预测了15场,比Google还要厉害不少。疾病的预测,目前有四种疾病的预测:流感、肝炎、肺结核、性病,可以预测未来6天的蔓延趋势。以及中小企业景气指数和宏观经济指数。

  下面,讲一下大数据引擎。

  这个就是大数据引擎,看起来比较抽象,是IT理工男画出来的,可能比较抽象。

  首先看中间三个横条,最底下的叫做开放云,中间那个叫做数据工厂,上面那个叫百度大脑。这是我们隐形的三个最主要的零件:云大家都知道了,类似于亚马逊、阿里云,这是个云平台,它除了有存储能力之外还有强大的计算能力,吞吐能力很强,具有高度集中化、规模化效应,使得带宽成本、存储成本就可以大幅度降低。然后是数据工厂,大量的数据进进出出,数据进行清洗整理之后要放到数据库里面然后加以利用。百度大脑,现在它做了很多事情,除了预测之外它其实可以做更多事情,前天我们在百度大厦前面搞了一个无人驾驶的表演,Google已经把这事情做的很好了,但是现在,因为Google的大脑之父来到了百度。

  这是三个零件,表示什么意思呢?就是三个部分都可以对外开放,你可以只用开放云,也可以只用数据工厂,也可以只用百度大脑,也可以联合起来都用,这是开放的三个层次。

  底下的三个箭头,第一个箭头表示的是百度的数据,其它的是各行业的数据,包括你所在行业的数据。因为,百度的数据跟你们的数据之间会发生一些联系,因为我们有6亿多的网民在这里头使用搜索引擎,通过PC的、通过移动的。

  刚才京东的嘉宾也讲过,对用户是要进行画像的,要知道你的搜索行为,要知道你的偏好,就必须得对搜索历史进行分析,包括你的年龄、职业、经济状况,但是这些东西大家可能觉得数据有隐私的问题,我们不知道是谁,因为你从来没告诉百度你是谁,但我们知道你从哪些帐号里出来,所以我们更清楚这样群体的行为。我们目前的画像正确率可以达到80%多,这是在不知道你身份证号、年龄、性别等等信息的时候。可以分析出你此时此刻此地,对什么比较感兴趣。这两个加起来,可以发挥更大的作用。再往上就是百度支撑的各个行业应用。

  百度的大数据引擎大概就是这么一个意思,核心体现的是三个零件全方位的对外开放。

  开放云是怎么回事我就不多讲了,这里讲了一些指标,这是数据工厂的一些指标。

  百度大脑方面,现今人工智能的技术又回归到20年前,就是模拟人脑的结构和思维方式做,我们在模拟人脑200亿个神经网络,未来还要不断拓展,是全世界最多的神经网络,李彦宏说现在只能达到2-3岁,未来随着发展可以做更多的事情。

  在百度的大数据引擎开放之后,做了这样一些事情,比如说在工业领域里我们做了一些事儿。首先,所有这些功能和效果,都是从百度自身验证出来的,这是个很好的例子,百度有200万块硬盘,其实这个数字我不想透露出来,200万块硬盘每时每刻都有坏的,我如何知道它要坏把它剔除出去再换一块好的硬盘,这是故障率一个很大的障碍。为了自动化,我们不得不对200万块硬盘监测,能够提前知道它将要坏,这个准确率能够达到80%多。提前知道它将要坏,这项技术其实可以用在各行各业,比如说汽车,开了多少公里,什么时候保养,什么时候维修,把这些记录给我之后,数据积累到一定程度,就知道你车什么时候要坏,它可以及时告诉你,赶紧进行保养。其实大家可以想象一下,任何一个领域都存在着同样的事情。

  第二就是百度的医疗大脑,它来自于各方面的数据,临床数据、可穿戴设备的数据,以及健康体检的资料,等等等等这些数据,经过分析,这里就用到了百度大脑,可以对病人提供个人健康跟踪评估,以及最佳临床方案的建立,对医生或医疗机构,可以提供监测预警。我们在这方面已经取得了不错的效果。

  最近我们也在跟金融行业合作,金融行业面临着一个很大的问题,就是传统的架构模式,使得他们每年必须花出很多预算对系统进行升级,特别是在大数据新的形势下,因为大数据一个很重要的特点就是数据增长数据是爆发式的,如果扩容的话要付出很大成本,但他现在不想那样了,因为继续那样预算往往都会被超出。在这种情况下,他就需要百度这样一些技术架构,比如分布式数据处理,这会带来一系列问题以及运维监控难题,对金融行业的系统升级起到降低成本的作用。

  总而言之,我希望通过我今天的汇报,能够引起大家的兴趣和重视,希望大家能把大数据拓展到更多其它领域。

 

  清华大数据产业联合会的微信公众平台,旨在传播数据科学理念,分享数据运营心得,扩展数据应用空间,捕捉数据产业商机。定期发布线下活动预告,独家发布讲座素材,清华大数据产业联合会活动报名唯一渠道。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (2)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款