你好,游客 登录 注册 搜索
背景:
阅读新闻

面向大数据的在线学习算法

[日期:2014-11-17] 来源:香港中文大学深圳研究院  作者:杨 海 钦 吕 荣 聪 金 国 庆 [字体: ]

  引言在大数据时代,如何对数据进行抽取转化成有用的信息并应用于各行各业,变得越来越重要。在众多数据类型中,流数据(streamingdata)变化快、不易保存,若不及时处理,将可能永远丢失。在众多机器学习方法中,在线学习技术可自动更新相应的模型,为大数据的学习,特别是流数据的学习提供了有利的工具。本文将从技术发展的角度来看在线学习技术,特别是有监督学习的主要在线学习技术,并探讨在线学习技术在大数据学习中的优势、机会及挑战。

  流数据简介流数据来源广泛,各行各业均会产生大量的流数据。常见的有以下几种。传感器数据随着“物联网”的推广,传感器被广泛应用到工业生产、智能家居、宇宙开发、海洋勘探、环境保护、资源调查、医学诊断等各个领域。这些传感器可携带大量有用信息,并且传感器数流数据简介流数据来源广泛,各行各业均会产生大量的流数据。常见的有以下几种。

  传感器数据

  随着“物联网”的推广,传感器被广泛应用到工业生产、智能家居、宇宙开发、海洋勘探、环境保护、资源调查、医学诊断等各个领域。这些传感器可携带大量有用信息,并且传感器数流数据简介流数据来源广泛,各行各业均会产生大量的流数据。常见的有以下几种。传感器数据随着“物联网”的推广,传感器被广泛应用到工业生产、智能家居、宇宙开发、海洋勘探、环境保护、资源调查、医学诊断等各个领域。这些传感器可携带大量有用信息,并且传感器数流数据简介流数据来源广泛,各行各业均会产生大量的流数据。常见的有以下几种。传感器数据随着“物联网”的推广,传感器被广泛应用到工业生产、智能家居、宇宙开发、海洋勘探、环境保护、资源调查、医学诊断等各个领域。这些传感器可携带大量有用信息,并且传感器数36专题第 10 卷第 11 期2014 年 11 月量急剧增加,如150平方英里可部署上百万个传感器。

  图像、视频数据

  此类数据大量存在于卫星、视频监控和娱乐节目中。卫星每天传输的视频以太字节(TB)计量;寻找希格斯玻色子的大型强子对撞机每秒可拍摄4000万张图片,每秒处理的数据量达到1.8GB;为了打造安全城市,视频监控录像普遍存在,比如伦敦市布置了600万个摄像头。YouTube用户平均每分钟上传的视频数据长达48小时。

  互联网数据

  2014年7月,脸谱的统计表明,共有14亿用户,平均每20分钟会产生100万个链接共享,200万个好友互联,300万个信息传送。以谷歌2014年3月的统计为例,每月的平均查询累计超过100亿个,查询关键词超过11亿个,访客数接近2亿个。

  业务数据

  传统行业如证券交易、银行、电信、超市亦会产生大量流数据。分析这类数据有利于发现异常事件、业务的流向,提高仓储、物流效率等。流数据具有大数据的4V特性:体量大(volume)、速率高(ve-locity)、多样化(variety)、信实性低(veracity)。如何从这些海量、快速变化的数据中找到规律和用户的偏好是个难题。

  基本概念辨析

  在探讨大数据学习之前,首先要厘清几个基本概念,否则会影响我们对大数据学习的理解。

  统计学、数据挖掘、统计学习和机器学习的区别统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学,被广泛应用于自然、社会、人文等学科,甚至是工商业及政府的情报决策上。按数据分析的方法,可分为描述统计学和推论统计学。

  数据挖掘又被译为资料勘探、数据采矿,是数据库知识发现(knowledgediscoveryindatabase)中的一个步骤。一般是指从大量数据中自动搜索隐藏于其中的有特殊关系的信息的过程。通常与计算机科学有关,通过统计、在线分析引言在大数据时代,如何对数据进行抽取转化成有用的信息并应用于各行各业,变得越来越重要。在众多数据类型中,流数据(streamingdata)变化快、不易保存,若不及时处理,将可能永远丢失。在众多机器学习方法中,在线学习技术可自动更新相应的模型,为大数据的学习,特别是流数据的学习提供了有利的工具。本文将从技术发展的角度来看在线学习技术,特别是有监督学习的主要在线学习技术,并探讨在线学习技术在大数据学习中的优势、机会及挑战。

  处理、信息检索、机器学习、专家系统和模式识别等方法实现。统计学习又称为统计机器学习,是计算机基于数据构建概率统计模型,对数据进行预测与分析的学科,是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,在发展中逐步形成独自的理论和方法论。著名的VC理论引出了支持向量机,为机器学习理论及应用作出了巨大贡献。

  机器学习人工智能的子领域,强调通过经验或者过去的数据自动改进计算机的算法性能。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。因涉及大量的统计学理解,机器学习与推论统计学联系紧密,亦称为统计学习理论。机器学习可广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、信息检索、医学诊断、机器人等领域。机器学习可分为以下几种类别。

  1.有监督学习:从给定的训练数据集中学习出函数,用于对新数据的预测。该训练数据集包括输入和输出,或称为特征和目标(响应)。训练集中的目标(响应)需要人工标注获得。常见的监督学习算法包括统计分类和回归分析。

  2.无监督学习:该训练数据集仅有特征,没有人工标注的目标(响应)。常见的无监督学习算法包括聚类和密度估计。

  3.半监督学习:介于监督学习与有监督学习之间,训练数据集中包含人工标注数据和无标注数据。4.增强学习:通过观察学习相应的动作。每个动作都会对环境有影响,学习对象根据观察到的周围环境的反馈做出判断。统计学是数据挖掘和机器学习的基本工具。数据挖掘侧重于数据模式的发现,而机器学习强调从数据中学到信息和知识,并用于预测。通过机器学习可以从数据中学习出相应的模型,转换成对应的知识,并对未来做出相应的预测。

  批量学习、在线学习和随机梯度下降的区别通常,机器学习通过对训练集数据进行训练,获得相应的模型,如分类模型、回归模型或者聚类结果、数据密度函数等。对训练集数据进行训练有一个学习的过程,一种做法是通过批量 训练(学习),即收集一批训练数据,对数据同时训练获得最终参数模型。

  另外一种做法是在线学习,即一次仅训练一个样本。以分类模型的学习为例,其过程可分成三个步骤:

  (1)接收到一个样本;

  (2)对该样本的标注进行预测;

  (3)获得该样本的真实标注,算法根据该样本标注的反馈更新模型参数,获得函数标识。与在线学习接近的是随机梯度下降。目前统计推理和机器学习均会建模,并使某一个目标函数最小化,如误差平方和。一个标准的更新方法是梯度下降法,即根据所有数据计算该目标函数的梯度,模型参数沿该梯度方向减少而获得更新。由于同时计算所有数据的梯度代价很大,计算非常复杂,因此,一种有效的更新方法应运而生,即通过一个样本获得的梯度去近似全数据获得的梯度。通过从训练集中多次随机采样的方法获得样本,经过多次迭代直到算法收敛。当数据有重复的时候,如重复一倍,批量梯度下降有一倍的计算冗余,而随机梯度下降则能避免上述问题,使得模型的更新更有效,因此被广泛使用。批量梯度下降和随机梯度下降的示意图如图1所示。(a)批量梯度下降示意图(b)在线(随机)梯度示意图图1两种梯度下降更新的示意图(为相应的梯度,为相应的学习率)在线学习详解由于在线学习算法每次仅根据一个样本更新目标函数,因此,此类算法在大数据应用场景中极具应用价值。目前在机器学习领域,已经提出大量的在线学习算法(见表1)。下面基于有监督学习的在线学习算法,根据模型是否为线性模型或稀疏模型,是否采用二阶信息来对典型的在线学习算法进行阐述处理、信息检索、机器学习、专家系统和模式识别等方法实现。统计学习又称为统计机器学习,是计算机基于数据构建概率统计模型,对数据进行预测与分析的学科,是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,在发展中逐步形成独自的理论和方法论。著名的VC理论引出了支持向量机,为机器学习理论及应用作出了巨大贡献。

  机器学习人工智能的子领域,强调通过经验或者过去的数据自动改进计算机的算法性能。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。因涉及大量的统计学理解,机器学习与推论统计学联系紧密,亦称为统计学习理论。机器学习可广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、信息检索、医学诊断、机器人等领域。机器学习可分为以下几种类别。1.有监督学习:从给定的训练数据集中学习出函数,用于对新数据的预测。该训练数据集包括输入和输出,或称为特征和目标(响应)。训练集中的目标(响应)需要人工标注获得。常见的监督学习算法包括统计分类和回归分析。2.无监督学习:该训练数据集仅有特征,没有人工标注的目标(响应)。常见的无监督学习算法包括聚类和密度估计。3.半监督学习:介于监督学习与有监督学习之间,训练数据集中包含人工标注数据和无标注数据。4.增强学习:通过观察学习相应的动作。每个动作都会对环境有影响,学习对象根据观察到的周围环境的反馈做出判断。统计学是数据挖掘和机器学习的基本工具。数据挖掘侧重于数据模式的发现,而机器学习强调从数据中学到信息和知识,并用于预测。通过机器学习可以从数据中学习出相应的模型,转换成对应的知识,并对未来做出相应的预测。批量学习、在线学习和随机梯度下降的区别通常,机器学习通过对训练集数据进行训练,获得相应的模型,如分类模型、回归模型或者聚类结果、数据密度函数等。对训练集数据进行训练有一个学习的过程,一种做法是通过批量 训练(学习),即收集一批训练数据,对数据同时训练获得最终参数模型。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款