大数据运作机理与趋势-技术方案-@大数据资讯

大数据运作机理与趋势

结束了，上一篇的大数据变革。接下来，我们将更加深入的探讨大数据是如何运行的？以及大数据将会在哪些具体的领域产生改变以及如何实施它们？

大数据运作机理

2013年12月5-6日,在北京召开的，中国大数据技术大会。从一开始，这个名词似乎已经预示着，这将是再一次将大数据的影响力进一步拉大。集结上百名国内外顶级的技术专家，在一起谈到它带给我们的价值。在这里，我们不去过多的探讨，会议将会对14年大数据的转型带来什么风向标，但有一点必须肯定，一年的疯狂乱抄过后，必是开始技术实施的阶段。这也就是，为什么印刷时代经历了几百年的积累，在工业革命只需要几十年的技术革新，再到如今的互联网、移动互联网时代，我们对一个概念的具体实施阶段已经变得我们自己都很难想象，而这背后意味着什么？

当我们在这里探讨大数据怎么怎么样的时候，就貌似几年前我们疯抄“电商”的概念一样，其概念是明确又是模糊。但不管“笼统”概念的好坏，确实直接反应在商业行为中的。所以，大家一开始接触电商，立马就会发现纯粹的电商是不可行的。一定是O2O，线上和线下的合作，才能形成一个生态互补，才能真正激发各自的潜力。

而大数据的机理是什么？这个概念会更加模糊，更加具有不可定性。以至于，绝大多说的人至今还有找到其源头。

打个比方：

现某大型电商的电子统计图里清晰的显示出，全国各达地区出现食盐紧缺的旺盛需求，按照此需求的增长速率，此电商必须立即补货。否则，食盐就会缺货。作为此电商的决策人，你是补还是不补？

首先，我们要明白一点，照常态来说，食盐这种商品是没有理由出现大规模销量暴涨的，但是，系统汇总全国用户的购买信息绘制的销售图示是没有错的。这时候，问题就出现了，如果按照销售图来预判未来趋势采购食盐，如果销售突然下滑，那么付出的物流以及成本损失该如何计算。

就在这个小案例中给我们透露出什么讯息？大数据在运作的过程中，有它的弊端。而这个弊端是什么？是因为它还不够“大”。就像案例所说的，常态情况，食盐是没有理由大规模的销量暴涨的，但你的销售系统提供的报表，清晰的显示如此，以及预测未来的食盐销量趋势将会不断增长。而你仅仅只看到了数据，就轻易的做出的采购的决定。为什么，销售提供的报表是一个可能增长的信息，但这违背了你脑袋中的预判逻辑。所以，你对你的判断也是是是而非，不确定。而能解决这一问题，就只有当你的数据“大”到一定程度，以至于把全部变量全都覆盖，而那些影响因素都在其中，此时的预测就可以足令人信服。

又例如：工信部调查，中国人均工资每年上涨7%，勉强应对通货膨胀。而且铿锵有词的指出，经过系统精心计算。

如果你看到上面的信息，你会有什么样的感受？如果你不是政府官员，只是一个打工的，相信你十有八九会觉得，这是在放屁。为什么，因为你在乎的不是工资上涨的百分比的统计，而是关心的是自己的工资上涨的幅度。而事实，却不是我们想象的那样。

通过上面的案例，能透露出什么？透露出大数据的相对“无效性”。即使你用大数据能得到一些东西，但是你得出的东西对我来书毫无价值。这时，你想到什么？管你大数据还是小数据，多看一眼都是浪费时间，甚至有时候是误导。这就谈到了我在上一篇博客中谈到的大数据的缺陷。

一、如果某个事务的关联信息不能完全融入到“大数据”系统，则大数据的可靠性，实用性就有待商榷。

二、很多东西，我们根本不需要大数据来告诉我们。因为我们本身就是实验者，本身就知道。我们苦恼的，是入股解决当下面临的困境。而大数据显然无法在中短期给我们提供帮助。

因此，一定程度下，我们可以说：大数据，也就是一个参考价值相对更高的一丁点数据而已。如果你所处在的行业变数太多或成本就是早已知道原因，只不过能力不足才面临的困境。大数据对你而言，其实没有那么大的价值。

当我们把案例仅仅聚焦到商人在货源采购上的单项的判断上，并没有涉及其他诸如竞争对手信息，以及当地运营成本等因素。这意味着什么?意味着即使大数据可以应用，但也局限在相对的“变量”不多的局部的层面。否则，它的的能效就远远配不上“大数据”的称谓。

我们无意在本身上泼一些冷水，而是在某种程度上告诫我们，大数据即使在未来会越来越显示出价值，但由于涉及面太广。所以，除了部分部门，多数商人或个人其实没有必要那么紧张大数据。除非你想借用，大数据分析获得客观的效益，否则，在相对细分的行业，不能说鸡肋，但想要起到非常大的作用，是很难的。

但是我们又无所适从吗？来吧，看看下面的变化！

从起步，到加速

IDC（国际数据公司）估计，全球2012年产生数据总量约2.8泽字节。有人计算，这相当于3000多亿部时长2小时的高清电影，连着看7000多万年也看不完。而这还只是序曲。更大的浪潮在后头。IDC预测，未来几年，全球数据量每隔两年翻一番，2020年达到40泽字节。大数据是推动这场大变革的重要动力，将成为促进经济社会转型新的关键资源。搜集、分析和运用指数级增长的庞大数据，将催生创新，为各行各业提供新的发展机遇，给人们日常生活带来改变。

星巴克有意推出的“大数据咖啡杯”就是个小小的例子。美国媒体报道，这家咖啡连锁巨头打算试验在一些咖啡杯中装上传感器，收集常客喝咖啡速度等数据，从而为喝咖啡较慢顾客提供保温效果好的杯子，提高其满意度和忠诚度。

大数据的本质还不在于“大”，而是以崭新的思维和技术去分析海量数据，揭示其中隐藏的人类行为等模式，由此创造新产品和服务，或是预测未来趋势。

大数据被视为创新和生产力提升的下一个前沿，正成为国家竞争力的要素之一，在世界范围内日益受到重视。多国政府加大了对大数据发展的扶持力度，甚至上升到国家战略的高度。2013年，围绕大数据的国际竞争继续加码。

咨询公司研究显示，全球对大数据项目投资总额2012年已达45亿欧元（约60亿美元），预计2013、2014两年均会保持约40%的增长速度。

在美国，大数据已由热点词汇变成重点项目。2012年3月，美国政府已公布2亿美元的《大数据研究发展计划》，2013年11月再度公布涉及各级政府、私企、科研机构的多个大数据研究项目。美国国家卫生研究院、国家科学基金会等都参与其中，有评论称之为美国大数据战略2.0版。在英国，虽然经济不景气、财政紧缩，但政府依然为大数据一掷千金。2013年初，英国商业、创新和技能部宣布将注资8亿英镑发展8类高新技术，其中1.89亿英镑（约3亿美元）用于大数据项目。

大数据在中国也已启动驶入“快车道”，政府、企业和科研院所正多方位布局。工信部的物联网“十二五”发展规划，将信息处理技术作为四项关键创新技术工程之一，其中包括海量数据存储、数据挖掘等。

英国杂志2013年3月刊登的研究发现，只要有4个时间点和位置的数据就能确定一个人身份，准确率高达95%。这表明，大数据足以将一个人“描画”清晰，现有法律手段和核心技术对个人隐私的保护正在逐渐失效。

大数据专家喜欢用莎士比亚“凡是过去，皆为序曲”来形容大数据分析的必然，但大数据提供的也只是参考答案而非最终答案。无论在小数据时代还是大数据时代，探索和创新精神都不应放弃，正如林肯所言，“预测未来最好的方法就是去创造未来”。而这一切切的改变说明：正能量。它能做的更好。

引进大数据?

让我们追到远古的需求，展现尽美。 （阿里-冯沁原）

在经过疯狂的一年概念炒作，我们开始进入这个领域。它到底是什么，为何要引进大数据。在许多客户的咨询过程中，大数据数据引入的必要性和价值意义的深层挖掘到底是什么。客户有数据，有平台，但不知道要不要上大数据，怎么上，为何要上大数据以及大数据究竟能给我们带来哪些价值和意义。

1、突破技术瓶颈

传统舆情分析模式、大数据技术的成熟、RDBMS的局限。

互联网技术催生出了大数据时代的到来，大数据时代的数据形态有四大特点：

一、数据量巨大，非结构化数据的超大规模和增长占总数量的80%到90%，相比于结构化数据快10到50倍；

二、数据的异样和多样性，比如图片、新闻、微博、博客、微信、买卖消息记录，比传统数据更重要更具数据复杂性，有时甚至大数据中的小数据如一条微博就可以具有颠覆性的价值；

三、价值密度低，大量的不相关信息，需要沙里淘金；

四、传播速度快，因袭需要实时分析而非批量式分析。

大数据时代，面对海量快速更迭的信息，纯手工监测、分析、判断互联网已经不太现实了。自动化舆情软件成为大数据环境下舆情监测和分析的引擎。在2012年底，国家成立两个大数据实验室，一个在中科院，一个在北航。有幸接触到在中科院大数据实验室的兰艳艳老师，他们现在正在做的就是新闻舆情监测。舆情监测可以设定一些和自己机构、产业、范围相关的关键词。这里可以包括竞争者或是合作伙伴，然后要放在特定的网络媒体中进行搜索。所有“信息碎片”搜集完毕，开始聚合信息，判断哪些和产品先关，哪些和地区相关，哪些跟自己相关。根据不同的因素，设置不同的维度。把这些信息进行精确地采集和过滤，进一步加工，分析，包括传播统计和分析（涉及媒介分析、主体分析，传播路径分析，源头分析），敏感度舆情，舆情信息传播趋势分析，与判所收集舆情信息的未来趋势。在此基础上产生舆情简报，日报或周报，对阶段性监测到的舆情进行统计和分析，包括舆情分布，热点舆情排行，负面舆情排行，正面舆情排行等情况。

大数据时代的自身的特定也决定我们将面度巨大数据存储的压力，同时面临海量数据信息的过滤，数据加工，数据分析和平台运算瓶颈。要想突破传统技术的约束，我们必须开始关注大数据技术，必须引进大数据技术。

2、摆脱成本枷锁

服务器硬件成本、操作系统成本、应用软件成本。

在面临海量数据的到来，我们想到的第一问题，如何利用，如何处理。这在谈到的大数据技术，我们必须要明白一个道理，当我们手上有了可以称之为大数据的数据之前。我们这些数据收集之前，已经开始探讨这个问题了。所以，还有还有人在担心，大数据技术如何实现的问题，已经是落后别人几大截了。Google在2009年初，就利用大数据思维，把5000万条美国人最频繁检索的词条和美国疾病控制中心在2003年至2008年间季节性流感传播时期的数据进行了比较，就已经成功预测H1N1流感病毒的爆发。在搜索引擎技术上会谈到分而治之的思想，Map和Reduce。Map的过程就是把大批量的任务分开成多个相同或不同的小份子，然后分发给不同的机器进行处理。而Reduce的过程可以简化理解成，小份子复合的过程。当我们数据大到，我们的机器、服务器已经没有办法进行处理的时候，我们首先想到的就是Map/Reduce，而Google早已经在第一代搜索引擎中提出这个思想，早已经是、运用在各个方面。所以，当我们在和别人谈到，如何利用数据的时候，首先，明确，现在互联网业界已经存在相当成熟的经验，已经运用到大型互联网公司。其次，我们必须要考虑的就是业务，没有业务数据也是毫无价值，建立在业务基础上的大数据挖掘才能产生数据的价值。在这里，业务需求，已经建立在技术和数据之上的首要位置。而且这一点，常常是我们最容易忽视。

在基于传统模式的舆情分析和历史数据存储，是建立在高性能服务器硬件和昂贵的关系型数据基础之上的。一方面，硬件技术掌握在几大互联网巨头手中，服务器的性能是以昂贵的成本为支撑的；另一方面，硬件基础之上的操作系统、应用软件和关系型数据库也同样掌握在几大巨头手中，同样价格不菲。此外规模的扩展、软件的升级和每年的服务费也是异常昂贵。在面临上面的问题时候，传统互联网公司、电信公司等如何享用这些技术，如何利用这些技术在自己的业务上产生价值。

在互联网技术之上发展起来的大数据，以开源的hadoop、HBase为基础，以Hive、Sqoop、Pig、Flume等软件为工具，建立在传统X86-PC服务器上和开源Linux操作系统之上（接下来我们会更深入探讨这些技术背后的原理）。一方面是的硬件成本得以降低。另一方面无须为操作系统和应用软件支付昂贵的License费用。可以说，在大数据时代，人人都可以玩大数据，人人都可以玩的起大数据，人人都可以在很大程度上摆脱传统IT厂商巨额的成本依赖。开源，使这一切开始变得简单起来，不再是那么遥遥不可及。

3、促进业务创新

业务拓展的需求、客户服务的需求。

在上面，我们已经谈到了，“业务”已经超越在技术和数据的地位之上。为什么我们把业务看的这么重要。因为，一、业务是直接和用户打交道，第一时间了解用户所需，只有根据用户所需，我们才能提供针对性的客服服务。二、业务是直接产生价值的。用户是支付的初始，为什么用户愿意支付？，愿意买？这已经涉及到销售与客户关系管理方面。当业务提出需求，后面才是数据的分析与利用，技术的支持与共享。抛开业务而谈大数据的应用，已经是本末倒置，南辕北辙了。但，两者之间又是相互依存，相互利用，技术提供更好的用户体验，数据来提供更精确的用户群体。同时，通过大数据的应用可以衍生出新的服务，新的产品，促进业务与产品的创新。

企业大数据分析：趋势

随着企业用户越来越多地需要连续不断地访问数据，好的大数据工具集将以最低的成本和接近实时的速度提供可伸缩的、高性能的分析。通过分析这种数据，企业可得到更大的智能以及竞争优势。接下来我们介绍一下，Hadoop和大数据专业厂商MapR共同创始人和首席执行官约翰·施罗德（John Schroeder）对2014大数据市场的预测。

开始我们商业与技术之旅。这里只读概念定义简易介绍，后续的博客将持续更新对相关技术的概述。我们拭目以待吧！

1. SQL拥有大数据的最大潜力

基于Hadoop（分布式计算）的SQL的发展能够让商业分析师利用自己的技能和选择的SQL工具执行大数据项目。开发人员可以选择Hbase、Hive、Drill和Impala等Apache项目，以及选择Hadapt、HAWQ和Splice Machine等公司的专有技术。已经基于实时大数据处理的Storm系统，可以用实时推荐系统以及相关要求实时性高的系统。Hadoop集群下，同样衍生出，另一种大数据分析框架，Spark，基于内存的下一代大数据分析框架。还有热门的Splunk 机器数据搜索引擎下的大数据分析。这一切都给我们打开了大门。

2. 尽管如此SQL还面临挑战

SQL需要数据结构。而集中的结构化数据可引起延迟并且需要人工管理。SQL还限制分析类型。过分强调SQL将延迟机构全面利用其数据价值的努力和延迟反应。这就引发了Nosql（非关系型数据库）的到来。而在《NoSql精粹》里谈到，持续增长的海量数据，催生了一种名为NoSql的非关系型数据库。该技术可以构建出更高效、更易扩展且更易编码的系统。

3. 身份识别是主要的数据安全问题

随着Hadoop（分布式计算）中提供的接入控制能力的猛烈攻击，机构迅速认识到线路级身份识别是必要的基础。没有充分的身份识别，任何更高级的控制都很容易被绕过，妨碍预定的安全计划。

4. 数据错误变成学习机会

2014年机构将出现许多数据错误。数据错误将表明基础的来源系统的问题吗？数据错误是在下游分析中出现偏差导致的数据提取问题吗？数据错误将表明定义差异或者缺少跨部门和业务部门的一致性吗？2014年将看到解决数据异常问题。

5. 出现可运行的Hadoop

2014年将看到Hadoop在各个行业中的生产部署显着增加。这将显示出Hadoop在运营中的实力。在那里，生产应用与分析结合在一起能够提供可以衡量的商业优势，如在客户化零售建议、诈骗检测和试验传感器数据进行规范的维护等应用中提供这些优势。

6. 更多的数据仓库将部署企业数据中心

数据中心把数据提取处理和数据从企业数据仓库卸载到Hadoop。作为一个核心的中心企业中心，数据中心要便宜10倍，能够对额外的处理或者新的应用进行更多的分析。

7. 新的以数据为中心的应用将成为强制性的

利用大数据的能力将在2014年成为竞争的武器。更多的公司将使用大数据和Hadoop准确地针对个人消费者的偏爱追逐赚钱的追加销售和交叉销售的机会，更好地缓解风险以及减少生产和开销成本。

8. 数据成为数据中心的核心

机构将从开发者过渡到大数据计划中。IT部门将越来越多地担负定义支持多种应用的数据基础设施的任务，把重点集中在部署、处理和保护一个机构的核心资产所需要的基础设施方面。

9. 搜索将成为非结构化的查询语言

2013年有大量的用于Hadoop的SQL计划。2014年将是这种非结构化查询语言成为重点的一年。把搜索集成到Hadoop将为查找重要信息的企业用户提供一种简单和直观的方法。搜索引擎还是包括推荐引擎在内的许多发现和分析应用的核心。

10. Hadoop将获得地位

Hadoop将继续取代其它IT开支，颠覆企业数据仓库和企业存储。例如，甲骨文的主要营收目标在过去的10个季度里有5个季度没有实现。Teradata在过去的5个季度有4个季度没有实现营收和利润目标。

11. Hadoop仍需要帮助才能成为主流应用

更多的机构认识到Apache Hadoop本身还没有准备好在企业应用。ApacheHadoop不是为系统管理或者灾难恢复等统一企业IT流程设计的。企业将继续推进混合的解决方案，把架构技术创新与ApacheHadoop的开源软件结合在一起。

开启另一扇窗

2013年12月19日，在亚马逊AWS（Amazon Web Services）宣布通过“前店后厂”模式落地中国的第二天，亚马逊云全球最高领袖、亚马逊全球高级副总裁Andy Jassy高管一行来到北京航空航天大学。这场行程，似乎不仅是与北航校长，软院院长就云计算之间的洽谈以及合作交流，而是在背后又预示着基于云存储技术的大数据平台应运而生，且已经落地实处。

大数据的终结点在哪里，我们无从谈起，但第一步要解决的问题是，存储的问题。而云存储似乎解决了这一难题。紧随其后的是，云端一体，单机与集群与云存储服务器之间的交互，这为我们再一次披上神秘又令人兴奋的面纱。我们期待这与变革同步产生的兴奋与愿景。让我们赶上这个时代，打开矿山，揭开隐藏在内部金子。