大数据时代要警惕“脏数据”-社区动态-@大数据资讯

　　数据时代已经到来。大数据的应用层出不穷，正改变着公共决策、企业管理、市场营销以及生活的方方面面。我们知道，大数据要发挥作用，有一个前提就是数据是好的数据。所有数据都是好的么？当然不！因此大数据时代还需警惕“脏数据”。什么是“脏数据”呢？简单来说，就是那些虚假的数据，那些未能反映真实情况、扭曲了真实情况的数据。

　　那么，“脏数据”是怎样形成的呢？

　　KPI、利益诱惑

　　导致主动弄脏数据

　　淘宝卖家信用等级制度是一个很好的创新，推动了诚信网络购物环境的构建。信用的等级主要依据是交易成功后买家的评分。由于信用等级在买家购物时有着巨大的指导作用，所以卖家都颇为重视自己的等级。这也导致该制度从诞生的第一天起就伴随着“脏数据”。部分卖家挖空心思、弄虚作假争取高的等级：有的采用虚假交易的方式，自己卖给自己，然后给予这次交易较高的评分；“刷信用”、“刷钻”俨然成了一门生意，有不少专门做这个生意的网站；职业差评师也应运而生，很多恶意买家专门以给网店差评为手段向网店店主索要钱财。

　　微博粉丝数体现了一个人的影响力，同时也具有商业价值。这里也有“脏数据”——僵尸粉，即虚假粉丝、永远沉默的粉丝。自己可以注册多个微博来关注自己；花钱也可以买到“关注”，这些粉丝通常是由系统自动产生的恶意注册用户。

　　终端销售的代理商为了套取运营商的佣金，用一个虚拟的串号录入系统，自己卖给自己；电信业务销售代理商为了完成运营商下达的任务量，将手机号卡从系统里开出来囤着，放在抽屉里慢慢卖。这些，都能产生巨大的“脏数据”。

　　能力不足

　　不可避免地弄脏数据

　　人为的非故意的差错也会导致数据失真。比如要人为地去统计某个营业厅一天的人流量，若这流量成千上万，即使再细心的工作人员，在数的过程中也难免出现差错；如果这个人本身的算术能力有问题，对100以上的数字计算不过来，那么这数据就更难准确；更有甚者，在数了半天后觉得这工作实在枯燥无聊，于是开了小差，最后虚报了一个估计的数字。

　　无论是主观故意，还是客观能力，是人都会出错。那计算机就不会出错么？计算机同样会出错，且计算机出错的新闻比比皆是。比如在银行ATM机上取1千元，然后吐钞1万元。一方面，这取决于计算机编程人员对计算规则的理解；另一方面，这还依赖于计算机程序编写人员的能力与细心，若出现编程人员的理解偏差或者编程时未想象到的情形，计算就可能出错。

　　“脏数据”无处不在且危害大

　　当数据使用者将“脏数据”当作好数据，加以分析利用，作出决策，并辅以强有力的执行时，“脏数据”带来的后果是极其严重的。通过“脏数据”，会得出错误的结论，错误的结论会导致错误的决策，错误的决策加上强有力的执行，比没有数据、没有结论、没有决策更糟糕，不但不会对事物发展起到积极作用，甚至还可能产生消极作用。

　　举两个简单的例子，如果购买了上述刷来的黄钻卖家的产品，你可能会觉得名不副实；如果付费找拥有大批僵尸粉的大V来传播商业信息，你的钱可能就会打水漂；如果运营商无视套取酬金及囤卡行为而对销售数字津津乐道并为此乐观的话，不仅让酬金白费，还会得出市场发展良好的错误结论并采取下一步措施。

　　“脏数据”无处不在且危害之大，因此必须要警惕“脏数据”。当然，这不是一概否定大数据，不是说大数据毫无价值，而是想提醒大家一方面要尽可能提高数据质量，另一方面也不能完全依赖大数据。

　　无论是淘宝、新浪，还是电信运营商，都对数据造假者深恶痛绝，都想出了很多办法来消除“脏数据”。显然，这是道与魔的关系，是一个不断纠缠、不断提升的过程。没有任何一种制度或者技术能百分百消除“脏数据”，但只要态度明确并不断采取措施，就能将“脏数据”控制在一定程度，确保所用数据偏离不会太多且具有使用价值。

　　大数据不是万能的，伴随着“脏数据”的大数据更不应该被迷信。大数据的使用还需要与经验、实证相结合。