你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据就在你身边:全人类信息量百度掌握近1%

[日期:2014-01-13] 来源:新华网  作者: [字体: ]

  “大数据”是当今信息时代一个非常热的概念,但对普通人来讲又觉得云里雾里,实际上,大数据就发生在你我身边,虽然你看不到它,但它却时时影响着我们的生活。

  可能你不了解“大数据”,但很有可能听说过这么一个故事:美国的Target百货公司上线了一套客户分析工具,可以对顾客的购买记录进行分析,并向顾客进行产品推荐。一次他们根据一个女孩在Target连锁店中的购物记录,推断出这个女孩怀孕了,然后开始通过购物手册的形式向女孩推荐了一系列孕妇产品。这一做法让女孩的家长勃然大怒,事实真相是女孩隐瞒了自己的怀孕消息。

  从一个人杂乱无章的购买清单中,经过对比发现了其中的规律和不符合常规的数据,并就此得出一些真实的结论,这就是大数据应用的一个案例。

  全球零售业的巨头沃尔玛也通过大数据获益,公司在对消费者购物行为进行分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是推出了将啤酒和尿布捆绑销售的促销手段,如今这一“啤酒+尿布”的数据分析成果也成了大数据技术应用的经典案例。

  大数据分析技术在电影行业同样获得了有效应用,随着互联网的发展,人们越来越习惯于在网上搜索电影信息,谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。于是不久前谷歌公布了一项重要研究成果电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。这在业内引起强烈讨论,不少业内人士认为可借此来预测票房并及时调整电影营销战略。

  当消费者在亚马逊等网站上有过浏览网页或购物经历后,会发现页面上经常出现一些商品推送信息,原来这是电商针对每个消费者量身定做的商品推荐,他们能从消费习惯的记录里推断出最为精准的商品信息并及时推荐给客户。

  在当今时代,大数据越来越成为一种商业资本,微软必应搜索通过集成以往的飞机票价画出未来票价走势;谷歌利用用户搜索记录判断出美国流感疫情的现状,并比疾控中心快一两周;对冲基金通过剖析社交网络推特的数据信息来预测股市的表现……大数据掀起的风暴已席卷到各个角落,一个有趣的案例被津津乐道:微软公司通过大数据分析处理,对新一届奥斯卡金像奖作出“预言”,结果除“最佳导演”外,其余13项大奖全部命中。

  人口普查是大数据鼻祖

  “大数据其实早就出现了!”在中国科协近日举办的“科学家与媒体面对面”活动上,工业和信息化部电信研究院互联网中心主任何宝宏介绍起了大数据的前世,几乎每个朝代都要做的人口普查就是一个海量的数据,如何处理这些数据一直是考验统治者智慧的问题。国外也面临同样的情况,美国宪法规定,美国的人口普查要求十年做一次,1880年人口普查的数据用了8年才处理完,1890年马上就来了,预计这次的数据处理大概需要13年的时间。那下一次人口普查根本没法进行了,这时有人发明了穿孔卡片制表机,使得这次人口普查只用了一年时间,因此可以说,正是人口普查带来的大数据催生了现代信息产业的诞生。

  看完“前世”再看“今生”,何宝宏表示,当今WEB2.0、微博、微信时代随时随地都可能产生海量数据,甚至人的关系都可以用数据来表示,即使是对普通百姓,数据的重要性也日益凸显,以前若丢了电脑、手机会非常心疼,现在更关心的是里面的数据,硬盘、通讯录丢失了才是更大的损失,数据的重要性已超过了技术和产品。

  家庭一年数据=半个国家图书馆

  大数据时代下,每个人都是数据的贡献者,中国联通网络技术研究院首席专家唐雄燕表示,利用互联网搜索信息,用微信、QQ维护社交关系,上购物网站买商品,这些行为都产生大量数据,一个普通家庭产生的数据量也非常惊人,预计2020年一个中国的普通家庭一年产生的数据相当于半个国家图书馆的信息储量。从全球瞩目的美国斯诺登事件中,人们知道美国国防安全机关每天搜集到的手机位置信息就有近50亿条。

  目前的中国谁掌握着大数据资源?唐雄燕表示,一个人的通话记录、上网记录会留在三个电信运营商那里;一个人的身份、家庭房产信息会通过刷信用卡而被银行知晓;人们去了哪里,现在哪里又会通过手机定位系统而泄露,因此互联网企业掌握有大数据,美国的三大大数据公司:谷歌、Facebook、亚马逊,中国的三大互联网企业:百度、腾讯、阿里,他们是目前大数据的主导拥有者和使用者,此外电信运营商也拥有大量的数据,而金融机构、政府也有相应的数据。通过这些数据都勾勒出一个人的基本面貌。“20年前我们刚做互联网时有一句话,在互联网上没有人知道你是一条狗,但今天你是不是一条狗,网络比你更清楚。”

  电信运营商

  掌握大数据

  身为中国联通的网络专家,唐雄燕透露,目前联通的移动用户不到3亿人,每个人每个月贡献几千条的上网记录,每月就超过2万亿条,为什么会有这么多,一个人每次浏览的网页会产生几十条甚至上百条记录,过去没能利用这些数据,但现在建立了一个系统,能对上网记录进行相应存储,“你如果是联通用户,你的手机可以自动查询上网的记录详单,过去是无法提供的,而现在可以查询你到底上了哪些网站,我们都有记录,你也自己可以查询,这就是一个非常典型的大数据应用实例。”

  不过在唐雄燕看来,大数据的利用目前还处于非常初步的阶段。以电信运营商掌握的大数据资源来看,一个城市到底多少人,有可能政府搞不清楚,但是可能通过运营商来看有多少手机在使用,就可以大致算出这个城市的人口,再详细分析这些人口的地理位置、出行规律等内容,就可以在提供有针对性的商业化服务、更科学地规划城市交通等方面有所作为,而目前这些还远远做不到。

  全人类信息量

  百度掌握近1%

  毕业于清华大学计算机科学与技术学院的率鹏虽然很年轻,但已是百度公司发展研究中心负责人,他非常认可“大数据时代已经到来”这一判断,“在过去两年中,全球产生的信息占到人类整体掌握信息总量的90%,现在每天全球产生的数据相当于国家图书馆整个馆藏总量的1500倍,这也是为什么一夜之间大数据的概念兴起的原因。”

  作为中国最着名的互联网企业之一,百度现在拥有什么样的大数据资源?率鹏透露,百度的大数据体量在EB级别,EB下面是PB,1个EB是1000个PB,PB下面是TB,也就是1个PB是1000个TB,“如果你家里的电脑里面安装有一个TB的硬盘,那么百度现在掌握的数据大概是这块硬盘装满后容量的10倍。我换另外一个说法,整个人类社会现在掌握的整体的信息量大概在100个EB到1000个EB之间,就是百度现在掌握的信息量大约是全人类掌握信息量的不足百分之一,但高于千分之一的水平。”

  率鹏介绍,百度公司吸纳了世界上最顶尖的学者做数据智能研究,研究成果已应用于多款产品,如百度上线了一款能翻译24种语言的翻译工具,这24种语言中有12种是整个百度翻译团队中没有人懂得的,但大数据技术使开发团队在完全不了解、不懂得、不能够理解这种语言的情况下,仅仅靠技术本身就开发出一款非常好的翻译工具,这在以往的时代是难以想象的。

  大数据还能实现对社会热点的实时监控与预警,率鹏介绍,比如可以提前预测到华山会成为十一黄金周的旅游热点,一些公共和群体聚集性事件,在百度上可以第一时间发现,百度还利用大数据技术对国内的艾滋病流行趋势进行预测,预测结果是比较准确的。





收藏 推荐 打印 | 录入:elainebo | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款