你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据是据挖掘技术的过程中诞生新思维

[日期:2015-01-05] 来源:  作者:许方正 [字体: ]

 大数据挖掘

    我们处理许多问题的核心思想在于样本选取和结果选取:

      样本选取:从很久以前到现在,我们获取数据的能力以及分析数据的能力都是很有限的, 这就导致,很多数据我们是无法在我们需要的时候采集到的,举一个例子:人口普查。近代美国要求10年进行一次人口普查,但是随着人口的增长速度越来越快, 到后来统计出国家的大致人口都需要13年了。。因此不能采用普查。因此我们必须使用另一种经典的方法,并以此方法达到通过获取少量数据就能够分析大规模问 题的目的——抽样。我们都知道抽样调查是有各种各样的要求和准则,而且合理性也经常不如人意,但是在之前获取数据难度很大的前提下(只能亲自去看,一个一 个人工考察),这种方法的确赋予了我们处理大规模数据的能力:从里面完全随机的(我们都知道这是不可能的)选择一些正确的(数据完全正确也是不可能的)数 据进行分析。

      样本分析:通过上述介绍的抽样方式,我们获得了我们分析问题所需要的数据。我们现在要开始利用它们,那么怎么利用呢?数据可 以是很简单的,例如长度,温度,时间,重量等等;也可以是很复杂的,一本书,一张图,一个石头。之所以说这些数据复杂,是因为它们是由我们提到的诸如重量 长度等等简单的数据构成的。那么,如果我们要分析石头的话,将会变得很困难——因为要处理的数据种类实在太多了,各种数据之间还存在这样那样的影响。这让 我们计算能力严重不足的祖先们(只有笔和算盘,各种函数和公式都么有发明。。)无比的抓狂。。。因为等我们用简单粗暴的方式算出来了以后,数据的有效期很 可能已经过了(参见前面说的人口普查数据)。因此我们又发明了一个牛逼而经典的方法——建模。我们采用几个对描述这个对象很关键的数据来代替所有的数据, 这样,计算量和计算难度都有客观的改善。

      上面介绍的就是我们传统的数据获取和处理方法,下面就要讲一下数据挖掘了。

      为什么我们要挖掘数据,我个人认为是因为我们现在获取数据的难度大大地降低了,所以我们有了很多很多很多的数据了- -,看着都要吐了。。。是的。。

      正是因为看着都要吐了,所以我们不想看了,我们想要不用人脑,而让计算机来帮我们找到数据的价值,于是我们就要用数据挖掘方法了,也就是肖智博提出来的:数据挖掘就是从海量的数据中发现隐含的知识和规律。所以数据挖掘的前提和大数据的前提是一样的,就是海量数据。所以就方法而言,二者是很类似的。

      我们现在总是提的大数据,我认为主要是一种思路:


      1.不使用抽样的数据,而采用全部的数据:这里我指的全部的数据是完全所有的数据,包括正确 的和不正确的数据都要采用。噪声和错误数据同样包含着有用的信息。

      2. 不关心为什么,只关心是什么:因为我们有了海量的数据 ,因此我们通过大数据统计出的结果应该是具有相当程度的普适性的。所以把这种现象-结果拿去套就行了。如果探究和证明因果关系的话,通常是极为困难的。一 个例子就是经典的啤酒和尿布,从数据中获得这种结果很简单,把它们放在一起就能增加销量从而达到沃尔玛的目的,而去查明原因则费事的多。

      3. 相比数据分析方法而言更注重数据获取:换一种说法就是数据为先。因为现在计算机太牛逼了,所以只要我们想到办法,它就能替我们干相应的活。基于此,我们要 做的就是获取更多的,更全面的数据来让计算机分析。例如国外快递公司在车上装传感器来帮助快递调度,劳斯莱斯公司在飞机发动机上装传感器并通过历史数据和 实时数据预先预测潜在故障并提前检修的例子。大数据思维模式中,数据为我们提供最多的可能和最大的价值,所以着重获取数据。

      说了这么多, 我想说的就是数据挖掘可以概括为:在我们掌握的数据多了以后,把数据交给计算机分析的方法的集合。而大数据则是跳出我们的传统数据分析和处理方法框架的一 种新思维。一种思维和一类技术比起来,确实是要虚很多,而且思维要付诸实现,必然是要以技术为基础的。但是正是由于思维方式的不同,我们可以从数据中获得 更多的东西,比如对之前认为没有价值的噪声和错误数据的分析,或者对现象的重视而意外发现的一些有意思的结果等等。。

      因此,我个人认为,大数据是我们在不断发展数据挖掘技术的过程中诞生出来的一种新思维,这种思维的实际应用以数据挖掘技术为基础,并可以促进我们开发出更多的数据挖掘技术。。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款