大数据分析技术的未来发展第2页-技术方案-@大数据资讯

　SQL的重新兴起：

　　很多传媒大肆宣扬NoSQL是兼容RDBMS的SQL数据库的“终结者”。但是，RDBMS可确保数据完整性，而这对于很多应用至关重要。因此，业内将来有可能搭建性能媲美当今NoSQL数据库的RDBMS数据库。

　　hadoop2.0：

　　Hadoop将来有可能更多地被视为支持大型NoSQL数据库的一个平台，而不仅仅是一个批量分析引擎。在增添了流处理能力后(始于 ApacheStorm)，Hadoop也有可能用于实时分析。大多数大数据厂商依赖于Hadoop的未来成功，因此，我们可能会看到在此方面的投入(如与Hadoop的RESTful接口，集成Node.js等)。

　　6. 结语

　　大数据为电信运营商提供了一个更加全面了解其业务和客户、进一步加大创新力度的真正机遇。以研发投入占销售收入的比例计算，整个电信行业的研发投入远低于任何一个技术型行业，而其改变运营方式的努力也尚未取得广泛的成功。大数据要求各个行业采用一种完全不同的非传统方法来拓展业务。如果运营商能够以最快速度将全新灵活的战略整合到企业核心业务之中，就将获得真正的竞争优势，从而战胜行动较为迟缓的对手。

　　4. 电信数据的货币化

　　电信行业在过去十年经历了多次更新换代，但其主要战略从未改变：

　　- 优化资本支出

　　- 降低运营支出

　　- 开辟新的收入来源

　　采用正确的大数据技术并实施一个有效的数据管理战略，可帮助运营商获得上述所有成功要素。

　　大数据将促进整个电信价值链的增长，并提升其效率和盈利能力。以下各图显示了大数据相对于传统数据仓库技术的优势。它们包括：

　　· 开辟新的收入来源

　　大数据项目与其说是IT项目，不如说是为了提升企业的盈利能力。运营商目前正处于一个过渡时期，他们既要提供高质量的传统业务，也要投资开发诸如机器对机器、移动商务和企业云等将能提升盈利能力的新业务。大数据是实现这一过渡的重要前提之一。以下举例列出了大数据所能开辟的一些新的收入来源：

　　* “驮运”(Piggy back)业务：

　　运营商可以采用打包销售数据的方式为银行、零售商和OTT服务提供商提供增值服务。

　　* 定向广告与营销：

　　通过提供综合数据包，运营商可以帮助广告客户根据目标客户的资料、位置和消费习惯更加有效地投放相关广告。

　　· 改善客户体验

　　提高客户忠诚度和降低客户流失率是当今电信市场中的两个关键问题。通过从数据资产中获益，运营商能够更好地了解客户，并改善内部流程，例如，了解客户的行为、所喜爱的内容、设备类型等等。同样，人口统计和位置数据可帮助运营商做出有关部署网络和销售渠道的正确决定。此外，客户关怀部门也可以利用这些数据预测某个客户何时有可能流失，并采取相应措施。

　　近年来，Orange、Telefonica、Vodafone等欧洲大型运营商已开始利用数据分析技术来改进他们的管理决策。

　　如上所述，“大数据”的重要性并非数据本身。事实上，我们已经拥有了大量数据。“大数据”是一个迅速增长的市场，包括捕获、存储、处理和分析运营商所拥有的海量数据，并从中获益。下图显示了运营商大数据流程的价值链。

　　大数据的最终目的是整合和关联所有信息来源，以便生成一个完整、透明、全面的视图，描述每个客户或家庭与运营商之间的所有交互。

　　但是，为了真正利用大数据，运营商必须彻底改变他们采集、验证、了解和利用他们所拥有信息的方式。

　　此外，运营商还需要学习谷歌、Facebook等公司;在这些公司中，数据为王，几乎每一项产品决策都源于现有数据所透露的有关客户的信息以及如何使用这些数据的方式。大数据战略应涉及所有部门，包括网络运营、IT、产品开发、营销、财务等部门，甚至包括用户，这是因为他们可以利用自身的专业知识，采用各种新方法分析数据。

　　5. 大数据中的软件技术

　　大数据技术描述了新一代技术和架构，目的是通过高速捕获、发现和/或分析，经济高效地从种类繁多的大量数据中获益。

　　目前共有两种顶层分析方法：

　　1). 分析过去，不预测未来(关联分析)

　　2). 分析过去，预测未来(具备监督式学习功能的预测分析)。

　　下图描述了大数据中的主要软件技术分类。这些分类中有很多正在开发的工具(既包括Apache旗下的开源工具，也包括各厂商开发的工具)，这些工具可用于支持数据摄取、数据准备、数据库编程、文本处理、分析可视化等工作。

　　上图描述了大数据中的软件技术分类，并使用插图提示显示了每个分类中的厂商/产品。目前共有三种顶层的软件技术分类：

　　1) 流数据分析和复杂事件处理

　　结构化数据从多个来源持续流出，以便对它们进行“线速”分析和关联，而不是首先将它们存储在某个数据库中。ApacheStorm和 IBMInfoSphereStreams等某些解决方案提供“表述编程设计”(declarative programming)框架，让数据经历转换、加入、分割、开窗等一系列处理步骤。这种模式通常被称为“复杂事件处理”(Complex Event Processing)。

　　流数据分析的结果通常被存储在一个数据库(SQL或NoSQL)中，并能触发其它事件。单位时间(例如1小时)内所处理的数据量通常以吉字节为单位，处理时延以毫秒为单位。关联分析和预测分析均能以线速运行，但预测分析中通常仅评分部分以线速运行。流数据分析的范例包括股票预测、自动交易引擎、 M2M/传感器分析等。

　　2) 数据库

　　目前主要有两类数据库，即SQL和NoSQL。SQL数据库向RDBMS确认(即提供事务处理和引用完整性)。NoSQL数据库提供各种表、 schema和接口，但不提供事务处理和引用完整性，与SQL数据库相比，它们的时延更小，吞吐量更大，数据存储容量也更大。两种数据库均用于管理结构化数据。NoSQL数据库既可以基于磁盘，也可以基于内存。内存数据库以牺牲较大的磁盘容量来换取更小的内存时延。

　　3) Hadoop

　　流数据分析和数据库用于处理结构化数据，而Hadoop用于分析Web浏览日志、IT系统日志等半结构化数据以及社交网络、Twitterfeed、图像、音频文件等非结构化数据。

　　为了分析数据，Hadoop软件在计算机集群上运行一系列“MapReduce”任务。给定计算机上的每一个Map任务负责在给定时间处理某个数据子集;给定计算机上的每一个Reduce任务负责编译在预定义的计算机集群子集上运行的一组预定义的Map任务所产生的处理后的数据。下图显示了 MapReduce任务的迭代过程。

　　数据和结果与分布式计算机集群中的每台计算机上的MapReduce任务共址。这些集体数据构成了一个Hadoop分布式文件系统(HDFS)。任何一个HadoopDistribution必须至少包含Hadoop集群软件和HDFS。

　　SQL的重新兴起：

　　Hadoop2.0：

　　6. 结语