你好,游客 登录
背景:
阅读新闻

从“制作一个苍蝇”到大数据错误

[日期:2013-11-07] 来源:比特网  作者: [字体: ]

  大数据和云计算将超级计算机的能力赋予了每一个人,但是会让人产生迷失的是:我们用于解析信息化浪潮的工具有可能存在着致命的缺陷。很多时候我们用于大数据分析的模式是错误的,它意味着出错将不可避免,特别当预期的结果超过我们的判断能力时,其后果是非常可怕的。

  这不是类似“大数据不是非常大”的问题,我们所获得的数据量,即使是有缺陷的工具,也能够让我们获得有价值的信息。真正的麻烦在于我们会混淆结果,以为自己无所不知。我们偏爱自己的技术,当模式错误时,我们就会相当失败,错误越大失败越大。

  与编程错误相比,更严重的问题在于分析所依赖的程序过于简单化。例如在2011年4月, Peter Lawrence在亚马逊上推出“如何制作一个苍蝇”,这一发育生物学经典,引来了许多生物学家定期资讯,产生了17份销售订单:其中35.54美元的15份,23.698美元和655.93美元(外加3.99航运费用

  )各一份。

  我们再来谈谈Mark Zuckerberg的《知识经济》一书,该书1992年出版,现在已经绝版,但这不能用来解释其数百万美元的标价,它是两个自动程序的产物,一个由卖方“bordeebook”控制,另外一个卖方是“"profnath”,采取的是迭代和增量竞购策略。一旦某一天profnath将价格提高到bordeebook售价的0.9983倍,几个小时后,bordeebook会增加他们价格到profnath的最新价格的1.270589倍。这是一个典型的例子,显示了即使是最好的计算模型也会因为一些意外因素产生挫败,这并不是一个孤立的事件。

  这是不是有些像次贷危机?在2008年之前,最好的人才运用最好的技术,运行着最先进的预设情景,没有意识到迫在眉睫的危机和问题的严重性。事实上,更加广泛的模型蕴藏着更多错误的可能性。这显而易见,但我经常不顾这样的现实:就是模型永远没有办法替代真实。

  这里有另外一个案例。一个T恤卖家在Amazon.co.uk上出售印有“保持冷静,强奸很多”字样的T恤衫。有人可能会问,谁会认为这是一个好主意?制作该衬衫的Solid Gold Bomb公司甚至没有意识到有这样T恤出售不知道还有这样的。公司为此进行了公开道歉,但用于纠正的措施只是一个小小的编码错误。事实上,没有任何人设计这样的T恤,也不会印制。这家公司的业务也不是T恤设计,他们的业务是设计类似“Keep Calm and Carry On”这样的流行语代码库,用于T恤制作并自动在亚马逊上出售。它只是4000个词语中的一个错误(幸运的是该公司没有其他攻击性语言和词汇),问题发生在语义上。

  同样的,一个简单的模型导致严重的社会后果。制作Solid Gold Bomb T恤的程序并不知道受众如何看待“强奸”,又怎么会知道如何控制T恤的业务呢?以至于由于一个字词内容转化为一个具有破坏力的公众事件。

  从这两个事例可以看出,程序与程序之间,以及更广泛含义字词所造成的破环性事件,是没有办法预计的。这是两个典型的模型建立在有缺陷程序代码基础上的事例。

  大数据会有大问题。例如我们所收集的数据往往没有进行恰当的归类(确保所有数据都是苹果与苹果的比较),我们的模型没有进行仔细的测试和审阅,而且更为关键的是,这些信息通常来自大企业内部的信息孤岛,而不是民主的可核查的信息。

  这并不是说技术无用,我们每天都在使用大大多数应用都非常好,并且在某种称得上,以不同的方式影响和改变着我们的生活。但我们理应对模型进行检查,因为它们不定在某一天,以某种方式导致我们的失败。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款