王珊看大数据

发布时间：2012.05.16 09:22 来源：赛迪网作者：赛迪网

大数据时代的到来，数据带来了爆炸式的增长,数据设备使真实世界能够被数字化处理，数据由量的积累而产生了分析处理价值。

中国人民大学信息学院教授、博士生导师王珊表示，大数据的来源主要来自互联网公司Facebook、大型企业、电信、金融等行业的简单数据类型和结构化数据。现在Facebook拥有强大的数据仓库。互联网和电子商务的发展使数据库技术面临着海量数据处理的挑战，需要高度的可扩展和高度的可伸缩。数据的处理由事务处理走向了分析处理。传感器网络、物联网上的流数据和不确定性数据成为了数据处理的来源，随着硬件技术的发展，数据处理平台由单处理器平台走向了多核、大内存、集群、云计算平台的迁移。

谈及大数据时，王珊指出，由麦肯锡研究提供的报告指出了当前大数据的特点，简称为4V(多样、快变、巨量、价值)如传感数据、交通数据更新频度高，数据价值同时间相关、数据由结构化、半结构化、还有非结构化数据比如文本、视频、点击流、和日志等。

SQL技术采用了统一的数据模型、强一致性等特点，尤其在核心的事务处理领域不能被取代，它为用户提供了简单性、以及兼容性的最佳组合，提供了一个通用共享平台。对只读的分析处理的扩展性需要进一步扩展。

Web系统的NoSQL技术主要面向非结构化数据，使用到了Key-Value处理，MapReduce处理，具有高度的可扩展和可伸缩性。

数据库与MapReduce之间借鉴的融合主要分为三种类型的解决方案，包括以GreenPlum 和AsterData为代表的并行数据库主导型、Hive 和Pig Latin 为代表的MapReduce主导型、hadoopDB和IBM解决方案为代表的并行数据库主导型和MapReduce集成性。

谈及DB和MapReduce的关系时，王珊强调，DB和MapReduce不是替代关系，DB不能固步自封，无视MapReduce的技术，DB也不能邯郸学步、丢掉深厚的积累而去实现一个基于Hadoop的DB，从DB中挖掘适合MapReduce计算模型的子系统，从核心算法层面将适合MapReduce的任务。

王珊看大数据 - 产品和技术

王珊看大数据

发布时间：2012.05.16 09:22 来源：赛迪网 作者：赛迪网

发布时间：2012.05.16 09:22 来源：赛迪网作者：赛迪网