你好,游客 登录
背景:
阅读新闻

开源大数据查询分析引擎现状

[日期:2015-06-04] 来源:51CTO  作者:叶蓬 [字体: ]

  【内容摘要】本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况。接下来,本文阐释了大数据分析技术,对大数据在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并给出了基于大数据安全分析技术的安全管理平台的基本特征。最后,针对一个基于大数据安全分析技术的新一代安全管理平台从5V角度进行了深入介绍,并强调了安全分析师的关键作用。

  无所不在的大数据

  毫无疑问,我们已经进入了大数据(Big Data)时代。人类的生产生活每天都在产生大量的数据,并且产生的速度越来越快。根据IDC和EMC的联合调查,到2020年全球数据总量将达到40ZB。
大数据

  什么是大数据?大数据早就存在,只是一直没有足够的基础实施和技术来对这些数据进行有价值的挖据。随着存储成本的不断下降、以及分析技术的不断进步,尤其是云计算的出现,不少公司已经发现了大数据的巨大价值:它们能揭示其他手段所看不到的新变化趋势,包括需求、供给和顾客习惯等等。比如,银行可以以此对自己的客户有更深入的了解,提供更有个性的定制化服务;银行和保险公司可以发现诈骗和骗保;零售企业更精确探知顾客需求变化,为不同的细分客户群体提供更有针对性的选择;制药企业可以以此为依据开发新药,详细追踪药物疗效,并监测潜在的副作用;安全公司则可以识别更具隐蔽性的攻击、入侵和违规。
大数据

  图:硬盘每GB的成本变化(1980-2009年)【来源:http://www.mkomo.com/cost-per-gigabyte】

  《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。

  不论从技术、还是商业角度,大数据都成为当下绝对的热点。2013年,Gartner将大数据列为未来信息架构发展的10大趋势之首。Gartner预测将在2011年到2016年间累计创造2320亿美元的产值。

  大数据的定义

  如何定义大数据?《大数据的冲击》一书将大数据通俗定义为“用现有的一般技术难以管理的大量数据的集合”,并广义地定义为“一个综合性概念,它包括因具备3V(海量/高速/多样,Volume / Variety/Velocity)特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。”

  Gartner将大数据定义为“海量、高速、多变的信息资产,需要对它进行经济的、创新性的信息处理从而获得超越以往的洞察力、决策支持能力和处理的自动化”(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。

  大数据的基本特征

  大数据的三个公认的基本特点是3V,即海量、高速和多变。海量是指数据容量越来越大;高速表示需要处理的速度和响应的时间越来越快,对系统的延时要求相当高;多变就要处理各种各样类型的数据,包括结构化的、半结构化的、甚至是非结构化的数据。

  IBM在上述三个特点基础之上增加了一个V(Veracity),即“真实性”、“准确性”。IBM认为只有真实而准确的数据才能让对数据的管控和治理真正有意义。

  此外,业界还有人总结出其它的大数据特点,例如低价值密度(Value)、存活性(Viability),等等。低价值密度是指大数据中真正有意义的信息含量比重低;存活性是指特定情况下的大数据具有很强的时效性。

  大数据的研究概况

  在IT领域,大数据也是最热门的技术领域之一。Gartner在2012年绘制的Hype Cycle曲线展示出了当前大数据技术欣欣向荣的一番景象。

  大数据

  Gartner将大数据相关技术分为三个门类,分别是大数据支撑技术、大数据应用技术和针对新型数据进行分析的技术。

  我国工程院院士邬贺铨将大数据技术从所面临的挑战的角度分为四个方面,分别是数据收集、数据存储、数据处理和数据可视化

  微软张亚勤将大数据划分为三个层次,分别是数据的管理、数据的扩充和数据的呈现。

  IBM的Stephen Watt给出了一个大数据生态系统的模型,将大数据技术划分为7个部分,包括数据产生、数据存储、数据处理、数据分享、数据检索、数据分析、数据可视化,如下图:

  大数据

  大数据需要数据分析师

  以上所有针对大数据的定义和特点的阐述,都缺少一个重要的大数据组成要素——数据分析师(或者称为数据科学家,Data Scientist)。在当前技术条件下,大数据分析的结果要想获得最大程度的价值发挥需要借助专业的数据分析人员。

  Natahn Yau首先提出“数据科学家就是能够从大型数据集中析取出数据,并提供某些可供非数据专家使用的东西的人”。《福布斯》杂志认为“数据科学家就是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师”。《哈佛商业评论》将数据科学家列为二十一世纪最性感的职业。

  这表明,大数据技术要发挥作用仍然需要人的参与,并且是专业的数据分析师的参与。

  大数据安全分析

  大数据分析的定义

  大数据技术的核心就是大数据分析(Big Data Analysis)。一般地,人们将大数据分析定义为一组能够高效存储和处理海量数据、并有效达成多种分析目标的工具及技术的集合。

  Gartner将大数据分析定义为追求显露模式检测和发散模式检测,以及强化对过去未连接资产的使用的实践和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套针对大数据进行知识发现的方法。

  通俗地讲,大数据分析技术就是大数据的收集、存储、分析和可视化的技术,是一套能够解决大数据的4V(海量、高速、多变、低密度)问题,分析出高价值的信息的工具集合。

  大数据分析的基本技术支撑

  从技术支撑架构的角度来看,大数据分析是一个软件技术框架(Framework),主要包括以下能力:

  1) 能够处理特别巨大的数据集(Volume)

  2) 提供极快的数据插入操作(Velocity)

  3) 能够操作多种数据类型(Variety)

  4) 要支持实时数据分析和历史数据分析

  5) 提供多种数据分析方法/模型

  6) 使用分布式并行处理机制(Volume & Velocity)

  其中,大数据分析基本的特征就是这个软件技术框架应该具有一个分布式开发框架。这个分布式开发框架可以是开源的hadoop,或者其它具有相似分布式并行计算能力的框架,能够实现Map/Reduce计算,能够实现分布式计算节点的统一调度和弹性部署。基于这个分布式开发框架,实现海量数据的分布式采集、分布式存储、分布式分析计算。

  大数据分析的另一个技术支撑是海量数据的存储技术。面对海量的数据,传统的关系型数据库已然无法满足需要,需要进行改进或者革新。大数据分析系统的软件技术框架必然会使用某种分布式数据库技术或者NoSQL(非关系型数据库)技术。

  此外,一个实用的大数据分析系统一般都要同时具备实时数据分析与历史数据分析能力。要获得历史数据分析能力,通常就是借助分布式开发框架的Map/Reduce批处理计算来实现。当然,有的大数据历史分析系统还具备交互式计算能力(例如Google Dremel),实现快速查询。而要获得实时数据分析能力,分布式开发框架及其Map/Reduce计算模型就显得力不从心了。这时候需要一个实时的流数据处理引擎,通常是采用CEP(Complex Event Processing,复杂事件处理)或者ESP(Event Stream Processing,事件流处理)技术的流数据处理引擎。

  综上所述,从开发者的角度来看,大数据分析的底层技术支撑包括三个:

  1) 分布式计算框架(例如Hadoop,或者其他具有Map/Reduce机制的计算框架)

  2) 分布式存储机制(例如分布式数据库、HDFS、NoSQL)

  3) 流式计算框架(例如CEP、ESP)

  从大数据分析到大数据安全分析

  当前网络与信息安全领域,正在面临多种挑战。一方面,企业和组织安全体系架构日趋复杂,各种类型的安全数据越来越多,传统的分析能力明显力不从心;另一方面,新型威胁的兴起,内控与合规的深入,传统的分析方法存在诸多缺陷,越来越需要分析更多的安全信息、并且要更加快速的做出判定和响应。信息安全也面临大数据带来的挑战。
安全数据的大数据化主要体现在以下三个方面:

  1) 数据量越来越大:网络已经从千兆迈向了万兆,网络安全设备要分析的数据包数据量急剧上升。同时,随着NGFW的出现,安全网关要进行应用层协议的分析,分析的数据量更是大增。与此同时,随着安全防御的纵深化,安全监测的内容不断细化,除了传统的攻击监测,还出现了合规监测、应用监测、用户行为监测、性能检测、事务监测,等等,这些都意味着要监测和分析比以往更多的数据。此外,随着APT等新型威胁的兴起,全包捕获技术逐步应用,海量数据处理问题也日益凸显。

  2) 速度越来越快:对于网络设备而言,包处理和转发的速度需要更快;对于安管平台、事件分析平台而言,数据源的事件发送速率(EPS,Event per Second,事件数每秒)越来越快。

  3) 种类越来越多:除了数据包、日志、资产数据,还加入了漏洞信息、配置信息、身份与访问信息、用户行为信息、应用信息、业务信息、外部情报信息等。

  于是,业界出现了将大数据分析技术应用于信息安全的技术——大数据安全分析 (Big Data Security Analysis,简称BDSA),也有人称做大安全数据分析(Big Security Data Analysis)。两者尽管表述有差异,但内涵一致。前者强调基于大数据技术的安全分析,分析安全问题;后者强调大数据分析的对象是安全数据。

  在网络安全领域,大数据安全分析将包括以下几个应用领域:

  1) 安全事件管理和安全管理平台:这将是大数据安全分析的核心应用,也被称作安全分析平台(Security Analytics Platform),后文将详述。

  2) APT检测,包括全包捕获技术

  3) 0day恶意代码分析,包括沙箱技术

  4) 网络取证分析

  5) 网络异常流量检测

  6) 大规模用户行为分析

  7) 安全情报分析

  8) 信誉服务

  9) 代码安全分析

  2012年3月,Gartner发表了一份题为《Information Security Is Becoming a Big Data Analytics Problem》的报告,表示信息安全问题正在变成一个大数据分析问题,大规模的安全数据需要被有效地关联、分析和挖掘,并预测未来将出现安全分析平台,以及部分企业在未来五年将出现一个新的岗位——“安全分析师”或“安全数据分析师”。

  大数据
对于大数据安全分析而言,最关键的不在于大数据本身,而在于对这些数据的分析方法。大数据安全分析可以用到大数据分析的所有普适性的方法和技术,但当应用到网络安全领域的时候,还必须考虑到安全数据自身的特点和安全分析的目标,这样大数据安全分析的应用才更有价值。例如,在进行异常行为分析,或者恶意代码分析和APT攻击分析的时候,分析模型才是最重要的。其次,才是考虑如何利用大数据分析技术(例如并行计算、实时计算、分布式计算)来实现这个分析模型。

  基于大数据分析技术的安全管理平台

  安全管理平台呼唤大数据分析

  在所有网络安全领域中,大数据分析对安全管理平台(SOC平台)及安全信息与事件分析(SIEM)系统的影响最为深远。这也是与它们先天的大数据分析特质密切相关的。

  安全管理平台,有的也称作SOC(Security Operations Center,安全运营中心)平台,一般是指以资产为核心,以安全事件管理为关键流程,采用安全域划分的思想,建立一套实时的资产风险模型,协助管理员进行事件分析、风险分析、预警管理和应急响应处理的集中安全管理系统。

  安全管理平台的核心之一便是安全信息与事件管理,也称作SIEM(Security Information and Event Management)系统。通常,SIEM为来自企业和组织中所有IT资源(包括网络、系统和应用)产生的安全信息(包括日志、告警等)进行统一的实时监控、历史分析,对来自外部的入侵和内部的违规、误操作行为进行监控、审计分析、调查取证、出具各种报表报告,实现IT资源合规性管理的目标,同时提升企业和组织的安全运营、威胁管理和应急响应能力。

  下图显示了一个典型的SIEM系统的结构图:

  大数据

  由图可知,一般的SIEM系统都具有安全事件(日志)的采集、范化、存储、分析、展示等几个过程,而这与大数据分析的收集、存储、分析和可视化过程是完全相同的。因此,SIEM天然具有应用大数据分析技术的特质。

  安全管理平台是在SIEM系统的基础上,对采集的数据进行了大规模的扩充,并增加了分析模型,实现了基于风险的资产和业务的集中安全管理。

  安全管理平台的核心是多样化的安全要素信息采集与存储、多种安全分析与展示。而这与大数据分析的特征也是完全吻合的。

  当前,安全管理平台的一个重要发展趋势就是采集的安全数据种类越来越多,不仅包括传统的资产信息、事件信息,还纳入了漏洞信息、性能信息、流量信息、配置信息、业务信息等等。与此同时,安全数据的产生速率和总量也急速增长。大型企业越来越倾向于采用集中化的安全管理平台构建模式,单一管理平台就要管理全网的安全信息,安全事件产生的速率达到上万EPS,甚至是上10万EPS,每天存储的事件量则达到上百GB,甚至是上TB。另一方面,用户需要安全管理平台提供更加精准的安全分析研判和问题定位,更加快速的安全应急响应与处置,对安全分析的准确性和分析结论价值度的要求越来越高。这一切都促使安全管理平台的技术开发者求助于大数据分析技术。

  大数据安全分析首选安全管理平台

  SANS在2013年9月份发布的《安全分析调查》报告显示,客户进行大数据安全分析的时候,首选的是日志管理、SIEM等安全管理平台类系统。并且,超过60%的受访客户表示未来实现安全分析目标的首要投资对象是SIEM。

  大数据

  由此可见,目前来说,在所有大数据安全分析的应用领域中,SIEM及其安全管理平台是最重要的。

  应该说,大数据分析技术并不能保证安全管理平台能够应对上述挑战,但却给安全管理平台应对这些挑战提供了全新的技术思路和发展模式。当安全管理平台遇上大数据分析,让用户和开发者看到了安全管理平台未来技术发展的一个全新方向。

  基于大数据安全分析技术的安全管理平台基本特征

  基于大数据安全分析技术的安全管理平台具有以下显著特征:

  1) Velocity:高速日志采集能力、高速事件分析能力;

  2) Variety:支持多种日志源和日志类型,并支持对半结构化(例如原始数据报文、邮件、WEB请求与响应)和非结构化信息(例如可疑代码)的采集,具备异构数据间的关联分析(即情境关联)能力;

  3) Volume:海量的事件存储能力、海量数据分析能力;

  4) valuablity:分析研判的结果是真正有价值的信息、值得去关注的信息,是可以用于辅助决策的信息。这就意味着需要有效的数据分析方法和工具;

  5) Visualization:安全分析结果的可视化呈现能力。

  必须至少同时满足上述5V,才能将一个安全管理平台称为基于大数据安全分析技术的安全管理平台。

  基于大数据分析的新一代安全管理平台介绍【略】

  小结

  大数据时代已经到来,我们创造的大数据正在改变人类生产生活的各个方面。信息与网络安全作为保障IT数字资产的关键能力也正在被大数据所重新塑造。安全管理平台,作为安全保障体系中位于顶层的技术支撑平台,天然具有与大数据结合的特质。基于大数据安全分析技术的安全管理平台正在成为未来安全管理平台发展的重要技术方向。

  同时,我们必须看到,不论安全管理平台的技术如何发展,如何与大数据结合,安全管理平台所要解决的客户根本性问题,以及与客户业务融合的趋势依然未变。对大数据的应用依然要服务于解决客户的实际安全管理问题这个根本目标。

  目前来看,大数据分析技术有助于我们更好地去解决安全管理过程中的部分问题,但并不能解决所有的问题,同时还可能引入了新的问题。这是安全管理平台的开发者、服务提供者和客户都需要不断摸索的。

  此外,不论安全管理平台技术如何发展,大数据分析给我们带来了多大程度的信息价值度提升,安全分析师始终是不可或缺的。正如大数据需要数据分析师,大数据安全更需要安全分析师。安全,本质上是人与人之间的对抗,不论安全分析的自动化技术如何演进,相互之间进行对抗的,始终是坐在屏幕前的人。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (1)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款