解析：大数据与传统数据的区别-技术方案-@大数据资讯

　　本期大数据生态，我们针对大数据带给教育的机遇与挑战，与读者深入探讨和分享大数据与传统数据的区别，及其行业落地的进展情况。

　　一、大数据与传统数据的区别

　　与所有新鲜事物一样，大数据是一个尚未被明确定义的概念。它如此年轻，以至于最时髦的大学还没来得及赶上开设这门专业，最时髦的专家也还未能让自己的理论一统江湖。所有对它进行研究的人都还在感悟，大数据究竟与传统数据有怎样的区别。

　　在google scholar（谷歌学术搜索）中键入big data，查询近5年来的学术着作，共有355,000篇之多；而如果输入“big data”与“education”两个关键词，模糊匹配下约出现17,600条结果，而精确匹配下则不足10篇。可见，教育领域的大数据挖掘，仍然是一片未开垦，未有先来者制定规则的处女地。而在传统数据领域，一次PISA考试就能在全世界各地产生300篇以上的博士论文，全世界教育与心理计量方向每年约培养硕士与博士5000人，教育与心理统计分析相关的SSCI核心期刊多达489种，为IES、ETS等机构提供数据分析的专业机构有160余家，从业者4000多人，而像WWC这样的行业标准已经形成——传统的教育数据领域气象格局已成，很难撼动其已有的方法论与评价体系。

　　数据量与分析手段也必然走向鸟枪换炮。传统数据中，一个学生读完9年制义务教育产生的可供分析的量化数据基本不会超过10kb，包括个人与家庭基本信息，学校与教师相关信息，各门各科的考试成绩，身高体重等生理数据，图书馆与体育馆的使用记录，医疗信息与保险信息等，以及其他类别的评估数据。这样的数据量，一台较高配置的普通家庭电脑，初级的EXCEL或SPSS软件就能进行5000名以下学生量的统计分析工作；而双核处理器，ACESS，SurveyCraft等软件的配置足以完成整个区域的高级统计运算。这样的工作一般只需要中级水平的教育与心理统计知识，一套可供按部就班进行对照处理的数据分析模版，以及经过两三个月的操作培训就能基本胜任。

　　而大数据的分析则完全是另一种层面的技术。根据美国着名的课堂观察应用软件开发商Classroom Observer的研究，在一节40分钟的普通中学课堂中一个学生所产生的全息数据约有5-6GB，而其中可归类、标签、并进行分析的量化数据约有50-60MB，这相当于他在传统数据领域中积累5000年的数据总和。而要处理这些数据，需要运用云计算技术，并且需要采用Matlab，Mathematica，Maple等软件进行处理并进行数据可视化。而能够处理这些数据的专业人才一般来自数学或计算机工程领域，需要极强的专业知识与培训，而更为难能可贵的是，大数据挖掘并没有一定的方法，更多需要依靠挖掘者的天赋与灵感。

　　大数据与传统数据最本质的区别体现在采集来源以及应用方向上。传统数据的整理方式更能够凸显的群体水平——学生整体的学业水平，身体发育与体质状况，社会性情绪及适应性的发展，对学校的满意度等等。这些数据不可能，也没有必要进行实时地采集，而是在周期性、阶段性的评估中获得。传统数据反应的是教育的因变量水平，即学生的学科学习状况如何，生理健康与心理健康状态如何，对学校的主观感受如何等问题。这些数据，完全是在学生知情的情况下获得的，带有很强的刻意性和压迫性——主要会通过考试或量表调查等形式进行——因此也会给学生带来很大的压力。

　　而大数据有能力去关注每一个个体学生的微观表现——他在什么时候翻开书，在听到什么话的时候微笑点头，在一道题上逗留了多久，在不同学科课堂上开小差的次数分别为多少，会向多少同班同学发起主动交流？这些数据对其他个体都没有意义，是高度个性化表现特征的体现。同时，这些数据的产生完全是过程性的：课堂的过程，作业的过程，师生或生生的互动过程之中……在每时每刻发生的动作与现象中产生。这些数据的整合能够诠释教育微观改革中自变量的水平：课堂应该如何变革才符合学生心理特点？课程是否吸引学生？怎样的师生互动方式受到欢迎？……而最最有价值的是，这些数据完全是在学生不自知的情况下被观察、收集的，只需要一定的观测技术与设备的辅助，而不影响学生任何的日常学习与生活，因此它的采集也非常的自然、真实。

　　所以，综合以上的观点，我们不难发现，在教育领域中，传统数据与大数据呈现出以下区别：

　　1、传统数据诠释宏观、整体的教育状况，用于影响教育政策决策；大数据可以分析微观、个体的学生与课堂状况，用于调整教育行为与实现个性化教育。

　　2、传统数据挖掘方式，采集方法，内容分类，采信标准等都已存在既有规则，方法论完整；大数据挖掘为新鲜事物，还没有形成清晰的方法、路径、以及评判标准。

　　3、传统数据来源于阶段性的，针对性的评估，其采样过程可能有系统误差；大数据来源于过程性的，即时性的行为与现象记录，第三方、技术型的观察采样的方式误差较小。

　　4、传统数据分析所需要的人才、专业技能以及设施设备都较为普通，易获得；大数据挖掘需要的人才，专业技能以及设施设备要求较高，并且从业者需要有创新意识与挖掘数据的灵感而不是按部就班者，这样的人才十分稀缺。

　　二、大数据时代潜藏的教育危机

　　“不得不承认，对于学生，我们知道得太少”——这是卡耐基·梅隆大学（Carnegie Mellon University）教育学院研究介绍中的一句自白，也同样是美国十大教育类年会中出镜率最高的核心议题。这种对于学生认识的匮乏，在21世纪之前长达数百甚至上千年的教育史中并没有产生什么消极的效应，但却在信息技术革命后的近十年来成为教育发展的致命痼疾。

　　“过去，对于学生来说，到学校上学学习知识具有无可辩驳的重要性，而那是因为当时人们能够接触知识的渠道太少，离开学校就无法获取成体系的知识”斯坦福大学教授Arnetha Ball在AERA（美国教育研究会）大会主旨发言中说道，“但是，互联网的普及将学校的地位从神坛上拉了下来。”Ball的担心不无道理。根据Kids Count Census Data Online发布的数据，2012年全美在家上学（Home-Schooling）的5-17岁学生已达到197万人，相对逐年价下降的出生人口，这一人口比重十分可观。

　　与此同时，应运而生的则是内容越来越精致的网上课堂，而创立于2009年并迅速风靡全球的可汗学院（Khan Academy）正是其中的杰出代表。从知名学府的公开课到可汗学院，这种网络学习模式受到热捧恰恰证明了：人们对于学习的热情并没有过去，但是人们已经极端希望与传统的学院式授课模式告别。一成不变，甚至“目中无人”的传统集体教学模式在适应越来越多元化、也越来越追求个性化的学生群体时显得捉襟见肘。

　　可汗学院模式不但支持学生自主选择感兴趣的内容，还可以快速跳转到自己适合的难度，从而提高了学习的效率。学习者没有学习的压力，时长、时机、场合、回顾遍数都可以由自己控制。

　　可以想象，如果可汗学院的模式进一步发展，与计算机自适应（CAT）的评估系统相联系，让使用者可以通过自我评估实现对学习进度的掌握以及学习资料的精准获取，那么它将形成互联网产品的“闭环”，其优势与力量将是颠覆性的。

　　而如果传统教育的课程模式不革新，课堂形态不脱胎换骨，教师角色与意识不蜕变，那么学校的存在就只有对现代化学习资源匮乏的学生才有意义；而对于能够自主获得更适宜学习资源的学生来说，去学校可能只是为了完成一项社会角色赋予的义务，甚至谈不上必要性，也就更谈不上愉快的体验或兴趣的驱使了。

　　大数据的研究可以帮助教育研究者重新审视学生的需求，通过高新的技术以及细致的分析找到怎样的课程、课堂、教师是能够吸引学生的。但问题在于，社会发展给予教育研究者的时间窗口并不宽裕，因为有太多人同样在试图通过大数据挖掘设法瓜分学生们有限的精力与注意力。而且从某种程度上，他们做得远比教育研究者更有动力与诚意。

　　首当其冲的是游戏的设计者——青少年是其主要消费群体。撇开驰名世界的暴雪公司（Blizzard Entertainment），美国艺电公司（Electronic Arts Inc.），日本任天堂公司（Nintendo）等国际巨鳄不谈；即使是国内的盛大网络，第九城市，巨人科技，淘米网络等游戏公司，亦都早已组建了专业实力强劲的“用户体验”研究团队。他们会通过眼动跟踪，心律跟踪，血压跟踪，键盘与鼠标微操作速率等各种微观行为来研究如何让玩家在游戏中投入更多的时间，更加愿意花真实世界的钱来购买虚拟世界的物品。什么时候应该安排敌人出现，敌人应当是什么级别，主人公需要耗费多少精力才能够将其击败，这些变量都得到了严格的设计与控制，原因只有一个——大数据告诉游戏创作者，这样的设计是最能够吸引玩家持续游戏的。

　　其次是电影视频、青春小说等链式文化产业。为什么在网站上看视频会一个接一个，无法停止，因为它会根据该账号的历史浏览记录推算出其喜欢看什么样的视频，喜欢听什么类型风格的歌，并投其所好；而畅销网络小说看似并没有“营养”，但里面的遣词造句、语段字数，故事起伏设定，甚至主人公性格的类型都是有相关研究进行支持——读者往往并不喜欢结构严密、精心设计的剧情——这就是为什么情节千篇一律的韩剧受人追捧的原因，他们通过收视率的反复研究，挖掘到了观众最需要的那些元素，并且屡试不爽。

　　此外还有许多更强大的研究者，比如电子商务，总能通过数据找到你可能愿意购买的商品——他们甚至知道买尿片的父亲更愿意买啤酒。

　　这些领域看似与我们教育者并无特别关联，但是他们与我们最关心的对象——学生却有着千丝万缕的联系。数百年甚至数十年前，学生并不会面对如此多的诱惑，学校在其生活中占据极大比重，对其影响也最为显着，因此教育者对于学生的控制总是有着充分的自信。但是，当不同的社会机构与产品开始争夺学生的注意力时，教育者的自信就只能被认为是一种无法认清形势的傲慢了——因为在这场“学生争夺战”中，传统学校看上去实在缺乏竞争力。

　　即使教育研究者愿意放下身段，通过大数据的帮助来悉心研究学生的需求与个性。但是人才的匮乏也是非常不利的一点因素——相比于商业环境下对研究实效的追逐，教育研究的缓慢与空洞显得相形见绌。在互联网企业纷纷抛出“首席数据官”的头衔，向各种数据科学狂人抛出橄榄枝，并且在风险投资的鼓舞下，动辄以百万年薪进行延聘时，大数据研究的前沿阵地必然仍是在互联网行业中最轰轰烈烈地开战。

　　分析形势后的姿态，以及投入的力度与强度，或许是教育领域在进入大数据研究时最先需要充分考虑的两个先决条件。

　　三、谁在为大数据欢呼：一场关于“人性”研究的启蒙

　　孜孜不倦地观测、记录、挖掘海量的数据，有朝一日终会推导出或简约或繁复的方程，以此得以在自然科学的历史丰碑上留名——数百年来，这种对数据的崇拜早已成为了物理学家、化学家、生物学家、天文地理学家们的信念。而牛顿，贝叶斯，薛定谔等一代代巨匠的伟业也揭示了数据对于科学发现的无限重要价值。

　　相形之下，社会科学领域的研究就要惨淡地多——他们同样看重数据，同样追求统计与分析的“程序正义”，同样勤勤恳恳地设计实验与调研，去寻找成千上万的被试，同样像模像样地去嵌套方程……但是几乎很少有研究结果能够得到普遍的承认，不管是社会学、心理学、经济学、管理学还是教育学。

　　当然，社会科学领域的研究者们遇到的困难是显而易见的：“人性”与“物性”是不同的，物质世界比较稳定，容易寻找规律；而由人组成的社会极其善变，难以总结。从数据的角度来说，人的数据不如物的数据那么可靠：

　　首先是人不会像物那样忠实地进行回应：谁知道一个人填写的问卷有多少是注意力不集中填错的、语文水平不高理解错的、还是压根没打算讲真话？此外，人与人本身的差距也大于物与物的差距：两个化学组成相同的物质表现出各种性质几乎是完全一样的，但即使是两个基因完全相同的双胞胎也会因为不同的人生经验，而表现出大相径庭的行为特征。

　　但这些都还并不关键，最最重要的是：人无法被反复研究。人不是牛顿的木块，不是伽利略的铅球，不是巴普洛夫的狼狗，人不会配合一次次从斜坡上被滑下来，一次次从比萨塔顶被扔下来，一次次流着口水干等着送肉来的铃声。而我们知道，在“科学”的三个标准中，首当其冲的就是“可重复验证”。

　　换句话说，我们可以获得的关于“人性”的数据不够大，不够多，不够随时随地，因此我们无法从数据中窥见人性。2002年诺贝尔经济学奖授予心理学家丹尼尔?卡尼曼（Daniel Kahneman）时，似乎标示着社会科学领域已经接受了这样一种事实：人类的行为是无法寻找规律、无法预测、难以进行科学度量的。社会科学开始怀疑用纯粹理性的方法是否可以解答关于“人性”的种种现象。与此相映成趣的是2012年的美国大选，奥巴马的团队依靠对网络数据的精准筛选捕捉到了大量的“草根”选民，而对于其喜好与需求的分析与把握更是赢得其信任，从而在不被传统民调与历史数据规律看好的情况下一举胜出。这跨越十年的两个标志性事件让人们对于“数据揭示人性”可能性的认识经历了戏剧性的转变。

　　如今，迅速普及的互联网与移动互联网悄然为记录人的行为数据提供了最为便利、持久的载体。手机，iPad等贴近人的终端无时不刻不在记录关于人的点点滴滴思考、决策与行为。最最重要的是，在这些强大的数据收集终端面前，人们没有掩饰的意图，人们完整地呈现着自己的各种经历，人们不厌其烦一遍又一遍重复着他们不愿在实验情境下表现出来的行为，从而创造着海量的数据——传统数据研究无法做到的事，传统研究范式苦苦纠结的许多难点，都在大数据到来的那一刹那遁于无形。

　　大数据的到来，让所有社会科学领域能够藉由前沿技术的发展从宏观群体走向微观个体，让跟踪每一个人的数据成为了可能，从而让研究“人性”成为了可能。而对于教育研究者来说，我们比任何时候都更接近发现真正的学生。