你好,游客 登录 注册 搜索
背景:
阅读新闻

探讨:大数据的应用场景及实际可落地性问题

[日期:2014-09-10] 来源:新浪博客  作者:深圳市远行科技有限公司@人月神话 [字体: ]

大数据

    对于大数据的应用场景,谈的文章已经相当多,包括各行各业对大数据处理和分析的应用,在此仅仅思考在各种不同的行业如何来发现潜在存在的大数据应用场景。

    首先可以从大数据的4V特性入手来进行思考和分析,在数据类型上更加强调了多种异构类型数据形成的混合存储,对于传统单纯的结构化数据或单纯的文档类非结构化数据都有解决方案,而真正难的是混合存储并提供统一的大数据服务开放能力接口。拿企业内部信息化应用场景来说,如果从单一入口原则入手,某个关键字能够搜索到邮件,业务系统,文本文档,互联网等多种渠道来源的异构混合数据,即可形成一个典型的大数据场景。

    对于海量的问题一定要区分结构化数据和非结构化数据分别对待,对于完全的结构化数据往往上10T已经是一个海量的数据库,如果仅仅从单节点考虑这种 数据库已经很难真正满足大数据分析所需要的速度要求,转而才是需要的类似MPP+ShareNothing机制或Hadoop分布式存储加分析机制来解决 OLAP层面的问题。因此对于传统的BI应用面对海量数据无法满足准实时性数据分析需求的时候,需要考虑的是大数据分析和应用。

    在速度和时效上是我们考虑的另外一个重要问题,传统的ODS库或OLAP分析往往很难满足实时性的要求。而基于增量的实时数据采集,流处理机制等很 好的解决了这个问题。在这里并不是强调的数据量和数据的异构情况,而是更加强调了对数据的增量实时采集和分析机制。那么对于传统ODS构建无法满足实时或 即席查询的场景往往也存在大数据技术的应用。

    其次从大数据带来的一些思维转变上来分析大数据的场景,首先是对于企业的大数据分析和应用,首先就是要将视线从传统的企业内部拓展到企业外部,特别是在用户行为分析,市场营销等方面基于企业内部传统业务系统收集的数据是远远不够的,只有基于大量外部数据的相关性分析往往才能得出更加有价值的推论。这也是往往互联网行业对大数据应用最先发展和成熟一样,来自企业外围的用户行为,社交,交易,行动路线等数据,来自各种传感设备采集的视频,流量,温度数据才真正构成了一个大数据环境。

    大数据关注的是全量数据而非抽样数据,那么这带来的思维转变就是原来采用抽样数据分析和统计的场景是否可以转化为大数据场景,而需要采集全量数据一定不可能靠人工来完成,转化的替代思维就是需要通过传感网和各种传感设备自动采集完成。因此抽样-》全量-》传感设备实时采集全量数据-》全量数据存储和分析即构成一个完整的大数据思维的转变

    分析评估或预测模型,类似交通行业的交通流预测或诱导模型,金融行业的信用评估和风控模型,医疗行业的疾病预测 模型,保险行业的精算模型等,当我们对这些模型进行重新思考的时候会发现,原有建模和模型分析思路往往并没有错,但是在原来本身就会遇到数据收集困难性, 如涉及到大量外部协同单位数据的开放和收集,涉及到用户行为和习惯数据的收集等,而这些也正是大数据的重要应用场景。大数据下我们强调相关性,但是不能否 定因果关系。其实很多时候实际情况还是我们首先在思考一个价值目标,然后再考虑围绕这个价值目标所涉及到的所有相关因素和因子,再考虑这些因子间的相互关 系权重,因素的采集和分析方法等。

    不论是哪个行业的大数据分析和应用场景,可以看到一个典型的特点还是无法离开以人为中心所产生的各种用户行为数据,用户业务活动和交易记录,用户社交数据,这些核心数据的相关性再加上可感知设备的智能数据采集就构成一个完整的大数据生态环境。

    单纯的数据采集,数据存储,数据处理往往都只是大数据中应用到的技术能力,而大数据场景的本质还是业务价值驱动下的大数据分析和挖掘,为了达到这个目标往往则涉及到数据采集,集成,存储,处理,分析,挖掘等大数据的全生命周期管理过程。

    下面谈一些大数据的一些实际可落地性问题,只有将场景和业务价值想清楚了,再谈大数据的各种解决方案和技术架构才真正有价值。现在打数据谈论的很多,其实很多仅仅是一个海量数据的存储和分析,用到了一些分布式存储和查询分析技术,不能给足够说明就是一个大数据场景范畴。

    首先可以看下最初谈大数据的时候,我们谈的最多的仍然是用户行为分析,即通过各种用户行为,包括浏览记录,消费记录,交往和购物娱乐,行动轨迹等各种用户行为产生的数据。由于这些数据本身符合海量,异构的特征,同时通过分析这些数据之间的关联性容易匹配某些结果现象。即有一堆的行为因子x,同时又有一堆的结果构成y,我们找寻到了某种相关性,有利于我们调整后续的各种策略。注意相关性重要,并不代表因果关系不重要,只是找寻因果关系往往更加困难而已。

    为何一谈到大数据往往就会涉及到个人隐私,这个是相对敏感的话题,要分析用户行为就一定涉及到个人行为数据的采集,自然是侵犯到个人的隐私。包括对我们个人电脑上对浏览记录信息收集和采集的软件,如果没有得到用户认可也是很大的侵犯了个人隐私。

    对于涉及到能够采集单个用户行为和消费数据的电商门户网站或移动APP来说,我们可以看到,对于行为因子的来源往往是单一的,但是行为因子是依托在人身上的,人和人之间相互发生和关系和交互,这就使x因子能够产生更多的关联关系可以分析。那 么对于类似淘宝退出的数据魔方和消费行为分析可以看做是大数据应用的例子,对于浏览行为中的定向推荐可以看做是大数据的场景。但是这里面还是存在一直无法 突破的隐私问题,即类似淘宝是很难采集个人浏览京东,亚马逊等其它电商网站的记录的,也无法采集用户的其它行为数据,即单一的x行为因子分析要得出高准确 的相关性结论不是一件容易的事情。由于涉及到隐私和垂直网站门户之间本身的竞争关系,这个数据要能够融合短期也是不可能的。

    那现在针对性营销或广告推荐如何在做?即采集个人浏览器上的cookies信息,这个信息是浏览所有网站都会记录下来的临时信息,采用这些信息来做定向广告推荐往往会更加有效。但是这本身来说也是侵犯了用户隐私,即非法访问了用户的浏览历史信息。

    为何Google能够做大数据,基于前面的分析可以看到因为搜索本身往往是用户行为的一个重要入口,即搜索引擎具备了实时采集多个用户行为的x因子 的能力。而这个能力往往是单个电商门户网站无法做到的。但是搜索引擎做大数据的弱势在哪里?即前面谈到的用户和用户之间的关系较难建立,而更多是本身行为 之间的相关性。从这个差异上也可以看到搜索引擎更加容易做交通,疾病,气象等方面的大数据分析和预测;而类似电商平台或类似腾讯更加容易做消费和娱乐类的 大数据分析和预测。

    智慧城市里面的大数据也是同样的道理,当前的智慧城市建设究竟有没有大数据场景?答案当然是有的,思路跟互联网 营销里面的大数据分析思路是一样的。首先是单个政府部门内部的大数据场景,这个短期反而很难真正形成大数据分析,原因在于针对的企业或个人用户最终很难类 似互联网一样形成某种关联和协同;其次是跨各个职能部门的企业和个人行为和业务数据的融合和相关性分析,这个就现在本身一些职能部门的安全性要求,职能部 门之间的部门壁垒,短期仍然是无法解决。这些问题都解决不了,智慧城市里面很难真正有大数据应用场景,对于政务资源目录和数据能力开放,类似GIS等能力 的开发顶多是大数据技术的点滴应用。

    金融行业的大数据面临的往往是同样的问题,但是情况可能要好点,类似企业和个人的一些信用记录现在有全国性质的 统一数据库能够拿到部分数据。但是对于单个银行来说,同样是无法拿到用户在其他银行的行为记录数据的,其二银行本身在做很多信贷风险分析的时候,确实需要 大量数据做相关性分析,但是很多数据来源于政府各个职能部门,包括工商税务,质量监督,检察院法院等,这些数据短期仍然是无法拿到。还有就是企业或个人本 事日常产生的各种行为数据更难拿到,那么对客户的风险性评估还是得借用原来的老方法而已。

    电信运营商可以讲是启动大数据研究和解决方案比较早的一个行业,那么当前的大数据主要还是围绕在BOSS领域, 一个是大量话单数据的采集和高效预处理,一个是处理完成后基于用户行为的分析和针对性营销。电信行业本身难以解决的仍然是单一x因子来源,同时又没有解决 类似微信平台一样虽然是单一x因子但是建立了人和人之间的行为纽带。那么运营商的大数据可以看做是分析和预测模型本身短期难以变化,但是在数据采集和存 储,数据分析性能和速度方面引入了大数据解决方案中的相关技术。

    对于传统的制造行业或快消行业,当我们谈到大数据分析的时候首先还是涉及到能够采集到用户行为数据和评价数据, 能否通过互联网采集到更改的相关性因子的数据,这才营销层面往往才有了大数据分析的基础。如果这个无法做到,只有退回到只分析用户的订单信息,这种销售分 析往往已经很难拿到最终消费者和消费者属性信息,那么很难得到有价值的分析数据。脱离了用户层面,在企业内部还存在哪些大数据分析场景,这个往往是任何企 业在应用大数据时候都需要反复思考的问题,否则企业做的往往可能只是传统BI的内容或者连BI都谈不上。

    对于这个问题,根据大数据的思路延展一下,点滴思考如下,即我们来看下企业内部信息化系统本身支撑的业务运作和数据产生。对于企业内部信息化系统, 业务部门人员本身是系统的用户,但是重点却不是分析用户本身的行为,而业务用户最终的行为会最终体现到业务事件上,那么企业在内部就会随时随地的产生各种 业务事件,而企业本身是有业务绩效目标的,那么业务事件这些x因子之间,各个x因子和绩效目标y之间究竟有哪些相关性分析,能够快速实时的得出哪些推论就 有价值了。这个价值本身就是改善业务运作效率和降低运作成本,通过能够进一步的实时分析和预警。对于4V特性的分析,在大数据场景里也要看到实际重要性为价值第一-》相关性-》实时和流能力-》异构和海量。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款