你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据时代,统计学方法有多大的效果?

[日期:2015-01-30] 来源:知乎  作者:许靖 [字体: ]

大数据

  统计学习是一种方法,方法的好坏取决于人的使用。数据挖掘是众多学科与统计学交叉产生的一门新兴学科。

  怎么感觉前面的答案都是门外汉在胡扯,现在业内流行一句话是,学数学的瞧不起学统计的,学统计的瞧不起学数据挖掘的。因为当你真的开始接触数据挖掘的算法的时候,你会发现几个瓶颈:

 

  第一是精度和泛化性的问题,这是你不用测试集验证集通过样本内样本外测试是没法达到均衡的。

 

  第二是模型优化及调参问题,你不懂算法原理根本就不知道怎么调,这个时候绝大多数人就放弃了,少部分人开始研读算法,要知道大多数算法只有读国外大牛英文文献才能搞懂的,结果一看,哇靠,LDA,SVD,SVM,随机森林,神经网络,贝叶斯,最大熵,EM,混合高斯,HMM等等,哪个不是根据严格的凸优化及概率图模型或者信息论严格推导出来的?这些都是实打实的数学概率统计基础.

 

  第三,业内标准的数据挖掘流程中最重要的一步是数据清洗和缺失填补,怎么洗,怎么填?现有的非监督算法都没办法很好的解决的哦!基础的还得计算每一个特征的显著性统计量,根据分位数,均值方差协方差相关系数进行过滤,填补,这一步是建模的关键哦!

 

  最后,模型因子的显著性评价,在一些算法,虽然指标证明是优秀的,但是如果因子的假设性检验证明不显著的话,无疑是烂模型,稍微学过统计的应该可以理解。骚年,要玩数据挖掘还是老老实实地一步一步来吧。

 

  • 数据挖掘与统计学的共同特征

 

  1. 共同的目标。两者都包含了大量的数学模型,都试图通过对数据的描述,建立模型找出数据之间的关系,从而解决商业问题。
  2. 共用模型。包括线性回归、logistic回归、聚类、时间序列、主成分分析等。

 

  • 数据挖掘与统计学的不同之处

 

  1. 思想不一。数据挖掘偏向计算机学科,所关注的某些领域和统计学家所关注的有很大不同。不一定要有精确的理论支撑,只要是有用的,能够解决问题的方式,都可以用来处理数据。而统计学是一门比较保守的学科,所沿用的模型一定要强调有理论依据(数学原理或经济学理论)。
  2. 处理数据量不一样。统计学通常使用样本数据,通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据,这也在过去的年代生产力和技术限制所致。数据挖掘由于采用了数据库原理和计算机技术,它可以处理海量数据。
  3. 发现的知识方式不一样。数据挖掘的本质是很偶然的发现非预期但很有价值的知识和信息。这说明数据挖掘过程本质上是实验性的。而统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。




收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (1)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
第 1 楼
* 匿名 发表于 2015-2-2 14:47:23
数据本身没有价值,处理后的数据才有价值。