大系数思维:建立在大数据模型上的思维-技术方案-@大数据资讯

　　假设有一个简单的线性回归模型Y=a1X1+a2X2+b，X1和X2是所谓的独立变量，Y是因变量。例如可以假设Y是销售的商品;而X1可能是在杂志上打广告，X2是在电视上打广告。可以根据a1和a2这两个系数的大小得知在哪里投放广告能获得更大效益。

　　大系数思维就是把资源投放在系数更大的变量上。

　　大系数思维引出了一系列“询证XX”的概念：

　　询证医学：观察所有尝试用于病人的不同治疗方法，然后收集所有的佐证，搞清楚饮食、运动、药物治疗等等变量哪一个系数最大?哪一种药物的系数最大?而那就是你该投入资源的地方。

　　询证慈善：如果你想改善一个社区或一个国家，你要看哪个系数的回报率更高，是应该把钱花在孩子、医疗、女性、教育等等中的哪个方面，据此作出更好的决定。

　　询证思考的运作方式：首先尝试建立某个模型，思考什么变量是相关的、这些变量的结构形式;其次我们通常都会收集数据;然后区别出重要的变量;最后试图改变那些变量。

　　大数据不能减弱模型的作用：模型是为了弄明白这个世界是怎么运转的，即使你看到模式、鉴别模式，和理解它们的根源完全是两码事。比如我们已经做了很多的实验，似乎力是等于质量乘以加速度，但这和有一个能解释为什么如此的模型是很不一样的。

　　大系数思维存在缺陷：在没有模型的情况下，仅仅基于纯粹的数据，在任何询证过程中试图建立政策是有问题的：

　　首先，关联不等于因果，数据间有相关性并不能说明是其中一个变量的变化引起了另一个变量变化，可能他们都是其他因素作用的结果。

　　第二，线性模型告诉我们变量的符号和量级，但只是对目前掌握的数据有效，所以我们希望有一个模型能告诉我这个线性关系在其他情况下是否还能成立。

　　例一：车辆轮胎的防抱死装置。汽车事故的数据表明造成汽车事故的一个原因是车子撞到前面的车上去了，如果能让车停得早一些，就可以减少事故的发生。所以可以把钱投入到防抱死的刹车装置上。一开始这好像救了很多人命，但是随着时间的推移，人们可能因为觉得防抱死刹车性能更好所以在跟车时会缩短和前车的距离，在这样的反馈行为下，防抱死刹车的效果在很大程度上被减弱了，所以如果考虑进反馈，就不是个完美的线性模型。

　　例二：教育效果和班级规模。可能有数据表明当班级规模从25降到20人时，学生成绩会变好，然后你据此推断如果让班级规模为15学生成绩会继续线性上升，但实际上成绩可能并不会如此上升，因为会有其他的影响因素使得影响递减，比如一个很大的反馈因素是随着班级规模缩小需要雇佣更多的老师，而可能没有这么多同样质量的老师。

　　这些反馈因素的存在意味着如果想把线性关系扩展到数据范围之外必须非常小心。

　　数据只存在于一个小区间内还会带来更大的问题：多峰问题。手头数据可能都集中在左边的峰，使我们错过了右边的峰，没有掌握模型的全貌。

　　大系数思维是有用的，但是这些系数在已掌握的数据之外还能继续有效吗?如果它们仍然有效，你就可以用大系数思维改变这些变量，带来好的转变。但是，你要考虑到可能有新情况发生，可能存在像多峰问题里那样存在一个新的峰，你需要建立能包含整个系统的模型来看看你想的事情是否会发生。

两种思维的例子：

　　在医疗健康领域，如果运用大系数思维，可能会出台对香烟抽税的政策，因为肺癌是头号杀手。新现实思维可能有点像全民医保，通过全民医保来提高每个美国人或其他国家人的健康。

　　在交通领域，大系数思维可能是增加高容量的汽车道，能容纳2~3辆车的车道。新现实思维则是考虑弄一个铁路系统，尝试把一些交通从高速公路上移走。

　　有一个研究说燕麦麸可以显著的降低得癌症的几率，如果用大系数思维可能会让大家多吃燕麦麸以减少癌症，但结果发现这只是末端小范围的研究，当他们继续研究下去效果并不像他们想的那样大。新现实思维则可能是让每个人实施日常健身计划，从根本上改变生活方式。

　　美国就业法案包含为新雇员提供税收激励、为雇佣老兵提供补助等等，这些项目的制定都是基于大系数思维的，把钱花在最有用的地方。

　　新现实思维的政策就像是州际高速公路系统，1956年美国政府拨了250亿美元建设41000英里的公路，如果是现在，考虑CPI需要花费大概2000亿美元。这是创造一个全新的系统，是基于新现实思维的。

大系数思维VS新现实思维:

　　如果你想对一堆变量做轻微的改动，你应该用大系数思维，把资源投放在大系数的地方，但大系数思维也可能让你对思考和改变世界的新思路视而不见，所以当走出原来的数据范围时，需要跳出常规模式以清晰地思考。