你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据处理PK,美国不知道高明到哪里去了

[日期:2014-09-01] 来源:知乎  作者: [字体: ]

    “大数据”(Big data),实际上意译作“高频复杂数据”更贴切一些,也更便于非从业者直观了解这个词的含义。

    由 于“大数据”的大并非指单纯的数据量庞大,即便是 1DB 大的数据库,如果仅仅是一张简单的二维表,里面填满唯一主键构成的简单数据,也没什么难以处理的,只要硬件设备能跟上,基本上中学生学过 C 也就足以处理这份数据了。并不需要整个社会这么大张旗鼓的研究和鼓吹。

    IBM 定义“大数据”有 4 个 V 的标准(量级 Volume,多样性 Variety,价值 Value,速度 Velocity),这点毋庸置疑(当然,还有所谓的 5V 或新 3V。强调 Veracity),但是很多书籍上定义的量级 Volume 起始计量单位是 PB(1000TB)起,那么现在绝大部分自称的“大数据应用”是不足以称之为大数据的。要知道,整个中国去年一年的数据产生量也仅仅是 0.8ZB(800PB)。

    至少提问者提到的 Match In-sights 软件产生的数据,是不够这个量级的。

    现在更多研究的有意义的“大”数据,更多的是针对不同独立的数据集(data set)进行合并分析,进而形成关联性和额外信息,用于现实,这是“大数据”的意义。纠结于定义大小之类的,并没有什么帮助。

    由于新的处理方法,普遍无法使用单纯的人工和原始的编程方式来解决,更多的需要是对不同类别的数据进行汇总进行处理,包括统计分析、建模、模拟抽样、乃至预 测。SAS 是代表作。数据处理的这种方式,其实才是大数据应用和采集的意义之所在。虽然人家谦虚的自称 sequence retrieval。

    在这方面,美国的科研机构比我们不知道高到哪里去了。

    所有具体研究“大数据应用”的专题,鲜少有自称“Big data”,或将其用作自己研究内容的关键词的。也因此,名义上的大数据科学或大数据工程,现在连纸上谈兵的资本都还不足。本身没什么理论支持,更谈不到 一门学科。与传统的数据统计、数据分析之类的区分界线也很淡薄,更多的是具体案例的应用和应对。

    而现在最爱鼓吹大数据的,往往都是不从事具体工作的新闻工作者们。

    我见过的所有谈大数据的论文,也都是泛泛而谈,性质和科学研究没什么关系,主要是报道和命名性质的(这种论文是存在的)。真正涉及大数据的论文,则普遍在认真讨论方法而非数据形态。最多用到 PB 级别数据的工程论述,大多是地理类数据。

    这类数据一年就有数十 PB 产生。“智慧城市”的数据一个季度就是大约有 200PB,每个高清摄像头一个月产生 1.8TB 的数据,每天北京市的视频采集数据量在 3PB,一个中等城市每年视频监控产生的数据在 300PB 左右,国家电网年均产生数据 510TB 以上,而其他像搜索、地图、社交、影视娱乐类等互联网公司也拥有 PB 量级的数据储备(以上数据来自《大数据史记 2013》)——但这不说明就是大数据。拥有和处理是两码事。或者说,前者应该叫海量数据,经过处理的海量数据才叫大数据。

    (所以通常自称大数据工程师或工作是大数据相关的,一般和骗子没什么区别,很难具体到某一方面的大数据业务,是屠龙之技。编造职位和过往履历时,要么说自己是大数据分析工程师,要么说自己是数据工程师,也能好很多。)

    提问者是从世界杯谈起的,那么先说不除了体育方面,因为提问者的距离没有任何内容——常见的体育运动方面“大数据”应用分为两部分,一部分是分析,一部分是预测。但是这两者说是数据工作也可以,没必要非说是“大数据”。量级也往往不够 PB。

    体育类的数据分析应用,通常是由科研或学术机构发起的。

    这个行业最著名的会议叫做 MIT Sloan Sports Analytics Conference(MIT Sloan Sports Analytics Conference,这个“斯隆”和伟大的爵士杰里·斯隆毫无关系)。

    主要参与人员由两类人组成:

职业体育从业者,数据分析科学家。

大数据处理

    拓扑数据分析是最常见的分析方法。还有其他很多,包含的大量的人工智能、视觉仿真、人体运动学的科学在内。举个例子:

    离篮板越远,前场篮板越不好抢——这是我们普通人的观感。

    每距离篮板多一英尺,拿下前场篮板的几率就会降低 1%,但距离超过三分线时,几率重新变大。此外,90%投丢的球都可以在距离篮板 11 英尺的范围内拿下——这是科学家根据数据分析得出的结论。

    如 果你经常关注斯隆体育大会的 NBA 相关研究会经常看到这二位仁兄——Rajiv Maheswaran 和 Yu-Han Chang,他们有大量相关研究,甚至对 NBA 的镜头摆放和有效镜头也提出了自己的看法,并且真的改变了大量数据软件分析公司的镜头使用方式。去年这俩哥们拉上一个叫做 Jeff Su 的伙计组件了运动数据分析公司 Second Spectrum,最常见的业务就是将运动追踪镜头捕捉的数据收集起来,然后让机器学习并分析,给出分析结果和结论。

    今年的斯隆大会,他们又做了篮板统计的量化分析的三种方法(《The Three Dimensions of Rebounding》,拿了大会的最佳论文奖。

    往往这类工作用于提供给非专业人士的复杂数据还需要一项工作:可视化。

    这个工作由软件公司来代为完成。

    还有一种分析,则是统计数据的量化评估。与前一种给出如何得出数据的分析不同,这种分析是利用已有的统计数据做结论。

    这工作其实和普通公司的量化评估没有两样,都是通过统计数据得出的结论。关于这类工作,张公子曾经做过评议,个人认为说的很对。

    如果实在是对这东西无感,直接看帅哥电影《点球成金》(Moneyball),奥克兰运动家队经理 Billy Beane 通过小球会取得成功的方法就是放弃普通球探方式,直接将数据化用到球队交易和选秀上,获得了创 MLB 历史战绩的连胜纪录。虽然有不少美化和过简单的镜头式语言表达,但是数据分析在 21 世纪开始正式成为北美职业体育的一项重要工作。而非单纯的赛后统计。

    最早最成熟的数据量化和这种可视化分析,都出现在美式橄榄球场上,早期的 NBA 统计,其实只有得分篮板助攻等很少的几样,所以张伯伦也没有完善的盖帽统计。

    现在球迷们也大都只关注老五样(得分、篮板、助攻、盖帽、抢断),然后还有出手数、命中率、出场时间之类的数据,能扯扯这些的,大概就算看球略入门了。

    然 而根据这些统计数据进行的诸如 PER、Efficiency、FantasyRating、+/-、TS%等等数据,则是从单纯的赛后数据列表上看不出来的,而是根据一系列制衡指标计 算出来的。例如真实命中率(TS%)就是根据球员的所有得分(2 分、3 分、罚球)一并计算的:PTS / (2 * (FGA + 0.44 * FTA))

    这些是混几周论坛就能做到的数据球皮要能侃侃而谈的。

    而到了现在,数据量化到了什么地步呢?来看斯隆体育大会上的论文(2012 年的最佳体育革新奖):

Muthuball: How to Build an NBA Championship Team

大数据处理

Alagappan 把球员分成十三类:

    进攻控球者——杰森特里和托尼帕克;防守控球者——麦克康利和凯尔洛里;综合控球者:贾米尔·内尔森和约翰·沃尔;投篮控球者——斯蒂芬库里和马努吉诺比 利;角色控球者——阿隆阿弗拉罗和鲁迪费尔南德斯;三分篮板手——洛尔邓和蔡司·巴丁格;得分篮板手——德克·诺维斯基和阿尔德里奇;三秒区保护者——坎 比和泰森钱德勒;罚球线保护者——凯文·勒夫和格里芬;NBA 一阵型——凯文杜兰特、勒布朗詹姆斯;NBA 二阵型——鲁迪·盖伊、卡隆·巴特勒;角色球员型——肖恩·巴蒂尔和罗尼·布鲁尔;以及独孤球员——优秀到电脑无法进行分类,也无法与其他球员进行联系。 例如德里克罗斯和德怀特霍华德。

    而根据这个分类分析,森林狼的球员分类明显不均衡,而上一年的达拉斯小牛明显更均衡。

    篮球运动方面存在着大量的统计数据,而这些数据还由时刻、场上情况、队友指数、上场时间等等一系列复杂因素导致不同的结果。这就是典型的复杂数据——而且瞬发。群体运动项目中,这就足够典型的“大数据”了。

    但是这数据量仍旧不够 PB 级别。

    NBA几位著名的数据量化球队经理 / 经理人,包括中国球迷最熟悉的火箭队莫雷(这个身高将近2米的胖子从来没有参与过与篮球运动直接相关的工作,麻省理工的 MBA…等等,又是麻省理工?),ESPN 最著名的球评人约翰·霍林格(虎扑绰号火灵哥,著名的 PER 值 Player Efficiency Rating(球员效率值)创始人),相比而言,刘翔的训练成果和什么“三大一从”、“一元训练理论”关系甚微,和孙海平的关系也没有想象中那么严苛。反倒是中期改变动作时和体育大学联合开发的数据分析软件(内部名称就叫什么什么 fly,嗯没错,就是刘翔最爱的英文单词)关系更紧密一些。

    后一大类有关运动的大数据应用,叫做“运动预测”,则是纯粹性质和意义上的预测。

    例如微软和百度在世界杯结束后均宣布自己预测正确率超过 80%,其实并非首创运动预测,这也不是行业内第一次做这类数学预测。

    最传统的数学预测方式,是类似 538动辄使用的泊松分布回归分析法。这类方法用于预测评议类选项时的正确性颇高(参见 538 预测从总统到奥斯卡的历次成果),但是在足球比赛的结果预测上往往不尽如人意。

    微软的预测分成好几部分在做,一会儿是微软研究院与 Office 团队共同开发了一款 Excel 工具,一会儿是微软的个人语音助手 Cortana,百度则只有一个工作部门弄了这个预测:“百度大数据实验室负责人张潼教授进行了解答:…我们选择了以下 5 个方面的数据:球队实力、主场效应、近期状态、大赛能力以及博彩数据。对这五个维度的数据进行收集后,我们使用由大数据实验室的科学家们设计的机器学习模 型对数据进行汇总”、“搜索过去 5 年内全世界 987 支球队的 3.7 万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商 Spdex 等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中”……

    实际上,对于这些预测方式,数据的采集才是他们的难点(重点数据在于球队实力的数据化、近期球员状态的数据衡量…),这些采集无论是主观性还是大量冗余信息的存在都难以进行有效的预测,而采用博彩数据进行核定才是重中之重。

    当然,我个人建议百度以后加上乌贼刘指数做为重要权重予以参考。

乌贼刘

    这种方法也并非在这两年才有,创立于上个世纪的 Tipp24应该是最早把这个做出名的企业,他们专门针对欧洲博彩业进行下注和预测。必发指数和凯利指数的数据统计应用也是各类博彩网站必备的手段之一。

    其实方法上更接近传统的统计分析,没必要非挂上大数据的名字。

    我们都知道竞技比赛开始之前是会有博彩公司为此开出赔率的,通过各博彩公司的赔率进行统合进行的预测,又可以称为“根据他人预测的预测”。实际上数据筛选本身就是由人工生成的数据产生的二次生成。

    实际上,前面所说的分析方法也应用在了预测方面,毕竟模拟现实本身也是计算机技术的一个研究方向。

    比较著名的包括科隆体育大学(German Sport University Cologne)的世界杯预测,科隆体大很早就根据自己在足球运动方面的观察分析系统进行过各种有关比赛的预测。其中最著名的就是 06 年世界杯的德阿点球大战“纸条预测”,准确的靠高概率预测中了阿根廷守门员的扑救方向。

    但是对于整个比赛结果的预测,由于涉及大量现实模拟内容,而博彩的权重比例相对很低,预测结果并不尽如人意。预测结果大概和我用《冠军足球经理》凑两个队模拟十场的结果成功率差不多高。

    当然,科隆体育大学和德国足协合作的项目重点本身,也不在于赛事预测,2004 年欧洲杯失利之后,德国足协就开始着手国家队训练方式的调整,有一个叫做 Urs Siegenthaler(译作乌尔斯·济根塔勒,瑞士人)成为了之后十年的德国队首席分析师。

    09 年,Siegenthaler 和科隆体育大学的 Buschmann 教授组成过 31 个小组,进行 4 类观察分析(当时使用的还是老版的 Posicap)。这些都成为了球队训练的一部分。

    但是当把这些训练数据拿来做还原模拟的时候,预测结果却不尽如人意。简单说——仿真模拟之路还很长。

    因为分析预测与单纯的“预测”不同的是,标记和统计体系在观察分析下成为一项项更为细化的指标,指标量化变为质化结论的过程,本身就可以为球队的改善作出有效的帮助——当然,需要和教练员共同进行人工处理才可以实现最后的步骤。

    “预测”的现实意义,对于彩民来说更大一些。毕竟西方的成熟博彩业已经有了 200 多年的历史,大量的预测方法应用在各家博彩公司之中,例如 elo 预测、进球率比较法之类,而将博彩预测法的结果进行统计学归类,对于比赛预测不失为一种有效工具。

    抛开体育,大量的生活中的数据面临所谓的“大数据处理”,典型的案例即天气预测。各类气象指征瞬时发生,以典型的“高频复杂”的形式出现,给各类分析人员提供了大量的可参考数据,从这其中借用建模工具分析提取有效指标,是一种典型的“大数据”应用。

    同时还有金融行业交易时,各类金融期货数据,每秒钟因一个品种产生的买入卖出数据、量、需求量、成交价格…一秒钟即有 12 个数据,每小时 42200 个数据,加上技术指标和成千上万的品种,也是一种典型的高频数据。但是复杂程度?除非需要进行分析预测,否则单纯的指数并不复杂。

    知乎上有人从事的用户研究和趋势研究后半部分,其实也是典型的长期讨论中的大数据研究。成熟的例子自然是亚马逊的用户行为分析,但是普遍得出的结论过于简单粗暴,分析复杂性还远远不够。

    常有军粉说在军事科学方面大数据如何如何,但是现在大到战场模拟仿真(天气、地形、敌我双方态势、后援预测…),小到武器的击发测试(发射速度、风速、射表 指征、每一个测速点的形态、温度…),这些都符合瞬发数据。但是至于这些数据如何复杂,还有待商榷。没有具体到个体的态势分析,我个人认为还称不上大数据。

    这些其实是同质的数据,但是无论是否同质,最终都是 0 和 1 的表现形式。人为的认定数据有不同的维度,才是定义数据“复杂”的根本。需要有不同维度的处理,才会形成“大数据”的概念。

    要能够高效处理数据,将数据的冗余部分去处,将高效率低成本的数据存储起来,形成新的数据表达方法,这种数据融合、跨学科的数据挖掘,才是谈及现在“大数 据”的根本意义。在数据界(data nature)里面形成一套完整的生态。数据库的发展过程是一个比较典型的例子,也为数据挖掘奠定了基础,机器学习是下一步工作,形成研究而非研究目标, 才可以纵谈大数据。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款