你好,游客 登录 注册 搜索
背景:
阅读新闻

数据类型质量巨变 大数据分析应开发专门技术

[日期:2015-03-13] 来源:中国大数据  作者:中国大数据 [字体: ]

  由于资讯化应用的普及,导致数据量的规模已经庞大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能解读的资讯,根据IDC统计,数位世界的资讯容量将会从2009年的0.8ZB,在2020年成长到35ZB,等于每15秒就成长1PB,年复合成长率高达40%,而且这些数据数据不仅巨大而且不同,如何优化数据,方便且容易的搜寻到所需要的资讯,也变得更加困难。

  因此,如何将数据采矿(Data Mining)的技术有效的应用在大数据(Big Data)中,快速萃取出未知且有价值的潜在资讯,进而找出市场趋势,创造新的商机,会是未来企业竞争中一项重要的优势与目标。

  Google利用运算及线上查询的优势,结合大数据分析,可提供更快速而精确的预测。

大数据

  大数据分析可能会因此改变我们理解及组织社会的方式。

  传统数据分析方式无法适用于大数据

  值得注意的是,数据采矿的相关技术及应用,早在90年代即已提出,无论是方法抑或是工具都已经相当成熟且完善,但过去数据采矿的工具与模组,往往是以单一机器的环境为对象,而非今日的分散式系统或云端运算环境。事实上,许多在单一的机器上很容易做到的事情,在分散式系统上会变得很难很复杂且困难。

  因此,想要分析大数据,不能只是直接援用现有的数据采矿技术及应用,因为大数据分析所需要的数据库管理系统,往往必须在数十、数百甚至数千台伺服器上同时运行。根据KDnuggets网站调查,数据采矿分析使用平均约1~10GB的数据大小,与动辄数据量超过TB等级的大数据,差异非常的大。故数据探勘以往所能处理的数据,充其量只能称为「大」数据,而非「巨量」数据。

  除了量的变化外,目前的数据类型,也已经超越传统数据库或现有数据管理工具能够处理的范围。因为在爆炸性的数据增长过程中,结构性数据的成长相当缓慢,反观非结构性的数据,包括视讯、网页、智慧型手机、消费数据、位置数据、财务服务数据,以及社会媒体数据等。

  而目前的数据库解决方案,主要是用来设计储存结构化数据,除了只能针对已知问题的回答速度进行优化外,架构本身往往就决定了内容形式,对于新数据型态与新问题,都有适应上的困难,加上扩展成本高昂,企业势必得寻求不同以往的数据处理解决方案,才能面对爆炸性的数据增长。

  大数据分析能力的四大原则

  历经过去几年在技术上与观念上的进展,大数据分析已经成为公私部门组织的竞争利器之一,甚至逐渐形成了跨越统计、资讯科技、行政管理等领域的数据科学领域。

  由于大数据的特性难以用传统分析方法进行分析,必须用进阶的技术和演算法来解读、储存、分析与管理,如何培育并善用兼具Volume(数据数据的大量)、Velocity(数据分析的时效)、Variety(数据格式的多样)与Veracity(数据内容的真实)所谓4V特质的大数据分析能力,也逐渐成为跨越统计、资讯、与特定业务领域的共同议题。

  如新型禽流感疫情在2009年开始快速蔓延时,美国疾病管制局(Centers for Disease Control;CDC)要求医生必须通报新型流感的病例,但传统的报送作业方式往往需要约两个星期的时间,这样的速度也会让公共卫生机构错失防疫的先机。

  Google工程师曾在科学期刊Natural发表有关流感的研究指出,他们将Google每天300万个与禽流感相关的搜寻关键字,与CDC从2007到2008年的实际禽流感染案例,透过数学演算法进行相关性分析比对,最後找出45个与实际发生禽流感案例有很强相关性的搜寻项目组合,只要在特定区域发现这些搜寻项目组合,发生禽流感的案例也会随之增多。

  Google利用运算及线上查询的优势,提供更快速而精确的预测,协助公共卫生机构掌握疫情资讯,可见单单只有储存数据量庞大是没有任何用处的,因为数据并不会自己进行分析,想要从大量的资讯中得到价值,必须要找到新技术。

  如位置讯息也是大数据分析一个非常重要的分析标的,大数据若能结合地理资讯系统,除了「人」的位置资讯以外,「物体」的位置也可以利用这类的装置进行大量的蒐集,这些讯息也成为重要的分析数据,让用户的地理位置变成非常宝贵的数据。

  亚马逊(Amazon)在思考如何根据个别的消费习性,推荐特定的商品给消费者时,本来是用传统的分析方法,直接从巨量的客户数据中抽样後,再分析客户之间的相似度,但分析结果提供的建议却很粗糙,如消费者只是购买一项婴儿用品,系统却只是推荐一大堆相类似产品。

  亚马逊後来意识到,系统不应该去比较客户,而是要找出产品之间的关连,必须用到全部的数据,并在事前完成计算,才能够在客户购物时,很快地给出适当建议,结果也比先前成功,如喜爱A作者的读者,未必会喜欢A作者全部的书,但经由关连分析後,却可能会发现喜爱A作者的人,多半同时会喜欢B作者的书,这样的大数据交叉分析,才会带来更大的效益。

  改变理解及组织社会的方式

  虽然现在蒐集数据要比以前容易许多,但也因为数量前所未有的庞大,必须要找到一种大数据的分析方法,才能够混和数据采矿过程,蒐集相关数据,进行相关分析,并找到真正可以操作的KPI,才会有很大的机会,找到分析标的的改善重点及方法,这也才是大数据分析应用的价值所在。

  总上所述,大数据分析方法需要注意3个重点,并因此改变我们理解及组织社会的方式,第一大改变是能够取得、分析的数据量大为增加,使用所有数据分析,而非抽样筛选,可以让我们清楚看见数据中最细致的地方;第二大改变是不再坚持一切都要做到精准,大数据分析虽可减少抽样造成的误差,仍必须对于测量上的误差,给予一定程度的妥协,放弃百分之一百的精确;第三大改变是放下长久以来对于因果关系的坚持,而专注于发现事物的相关性,只找寻事情「正是如此」的答案,而不一定要了解某件事「为何如此」。

  由此可知,对一个组织而言,大数据分析的最重要价值有二,其一是分析使用(analytical use),透过大数据分析,揭露数据隐藏的洞见,如顾客之间的同侪影响、消费者的交易习惯以及社会及空间数据的关系,这些洞见在过去往往因为数据分析的成本太高而被忽视;其二是开发新产品,大数据分析可以即时的处理与分析数据,以发现新的需求而刺激服务或产品的创新。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款