你好,游客 登录 注册 搜索
背景:
阅读新闻

真的有大数据办不到的事?

[日期:2014-08-20] 来源:和讯  作者:壹读 [字体: ]

 

真的有大数据办不到的事?

  先讲两个小故事——

  工科生小A君毕业后赋闲在家,平时酷爱编程的他经常泡专业论坛。一天,他突然收到一家大型互联网公司的面试通知。原来,算法帮企业找到了他,它不管小A君是不是重点院校出身、也不在乎他是否有牛掰的实习经历,只计算他编的程序获得了多少同行好评、是否被业内人士重视。

  剁手党小B君在淘宝上买了一个锤子,真的那种。之后一个礼拜,无论他逛哪个网站都会看到铺天盖地的锤子广告。不过,短时间内他不大可能再买一个,于是他心想,连快消品和耐用品都傻傻分不清楚,真是要被大数据蠢哭了。

  这不过是大数据印象两个窄小的横截面,“拜大数据教”的人觉得它无所不能,反大数据者则认为它不过是被IT企业夸大的神话。对什么都略懂一点的壹读君今天打算跟你聊一聊,大数据的“行”与“不行”。

大数据未必能改变社交,但它了解社交

  《纽约时报》曾发表过一篇叫《大数据做不到什么》的文章,记者David Brooks认为大数据首先不擅长的是社交,因为数据侧重社会交往的“量”而非“质”。

  但是,大数据在社交媒体上的应用程度已经今非昔比了。就近举个例子,这次世界杯上IBM和腾讯进行了一次合作,由IBM在社交媒体平台上挖掘信息,然后由腾讯策划报道。

  球迷们每天发那么多消息,而且大多是文字信息而非数字,他们是怎么挖掘和分析的呢?壹读君摘几个他们的技术让大家感受一下。

  首先是“命名实体识别”,不管球迷是用手机还是电脑发消息,都会有一些文字没有标点符号,这个技术可以把人名啦、球队名等等先识别出来,来辨别不同短语的不同含义。

  然后是“话题检测”,也就是识别球迷们讨论的是什么话题。对于球迷来说,这个技术的好处在于,媒体会针对他们所关心的话题来报道赛事。

  最后是“语义情感分析”,也就是搞清楚球迷在讨论什么话题后,再判断球迷的立场。这样一来,比赛之后,球迷们对球赛或者队员的看法就一目了然了。

  所以说,以前技术可能只擅长挖掘大……数据,也就是数据本身,而现在,它还能判断你们在聊什么。

未来不可预测,大数据:怪我咯?

  反大数据思潮中另一个重要观点是,大数据只是基于对历史信息的梳理,无法预测未来。

  2008年,谷歌公司建立了一个预测流感趋势的网站,用统计网络搜索关键词的方法来计算流感在某地区发生的可能性。这个网站当即被作为大数据预测未来的经典案例,然而,这个系统却没预测到2009年H1N1禽流感的爆发。虽然外界没说什么,但谷歌内部憋了一口气,立即对预测算法做了调整。新的算法引起了另一个问题,他们的预测工具变得比更年期女性还敏感,动不动就发布疫情预报。

  到了2013年2月,《自然》杂志实在忍不住发表文章说,你们谷歌的不靠谱预测导致1月份流感疫苗都脱销了可还行?!

  有人拿大数据这种“测不准”的尴尬跟地质学的“均变论”类比,因为以古论今的观点容易忽略了那些不可预知的事件,积累了再多过去的信息,也没有办法知道接下来会发生什么突变。

  不过,大数据服务商们可没打算改行去算命,至少现在没有。回到文章最开始的剁手党案例,你以为电商们真的笨到以为这种广告投放能百分之百达到效果吗?图样图森破,他们选择这种推荐方式只不过是因为它容错率高而已。就算推荐的商品用户没相中,大不了再推荐就是了。目前,他们并没有对大数据预测抱有高度的信心,在那些不允许大误差、严重关切企业利益的商业活动中,是不会仅凭大数据预测来做决策的。

  话说回来,预测未来是个高深的概率问题,大数据可能不行,但目前也没有其他工具行。

不管你信不信,机器只会变得越来越聪明

  David的文章还提到数据分析不懂叙事,也不懂思维的浮现过程。然而,今年7月,美联社宣布今后将采用一种软件产品来撰写企业财报消息,这种机器人就是依靠大数据来抓取信息,根据算法来撰写新闻,它们甚至可以完美模拟人类作者的语调和风格。

  2011年IBM造了个叫“沃森”的计算机出来挑战人类,在美国智力竞赛节目《危险边缘》(Jeopardy!)中夺冠。这一次,它已经可以识别人类语言,分析断句、词义,甚至连双关语、反语都不在话下。它通过数据对比和模拟人类联想得出答案,再用人类语言回答上来。壹读君看了一下节目,他答对的问题从欧盟2010年文化之都、电影《百万宝贝》到印度的吠陀梵语,五花八门。重要的是,这些问题都是在互联网断开的情况下回答上来的,不用度娘就这么博学,真是给跪了。

  所以说,在David写完文章之后,大数据世界的变革仍在继续,工程师们需要专注的只是算法,算法,还是算法。

  当然了,反大数据的人们关注的问题还有,在进一步发展大数据应用时,如何保护用户的隐私?人们不仅要为黑客担心,还不希望看到企业为了利益而侵犯大众隐私。反过来,使用大数据工具的企业们其实也在为数据的真实性而担心,比如招聘时抓取的简历信息会不会有造假成分、抽样来的微博用户是不是雇佣水军炒作话题。

  但是,这些与其说是科学问题,不如说是道德问题。

  说了这么多,壹读君只不过想要说明一个寡淡的真理,任何新兴事物出现的时候必然带有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款