华为助北大实验室大数据科研走在最前沿-其它-@大数据资讯

　　2013年即将画上句号，这一年IT界关注的焦点之一即“智慧城市”，媒体甚至将2013年称为智慧城市发展元年。随着智慧城市大帷幕的开启，大数据也作为其中一个主角走上了舞台，并伴随着大数据搜集和分析技术的发展，未来的交通、零售、医疗、安全、教育等领域都将发生重大变化。大数据将在智慧城市中担当重任，也使得当前大数据的研究更加紧迫和关键。

　　大数据研究前沿北大重点实验室担重任

　　如今越来越多的领域都需要使用大数据分析和挖掘技术，大数据的获取、挖掘和分析不只是生产工具，而且它已经成为科学进程的组成部分，未来不论在自然科学还是社会科学方面，很多研究都将由大数据驱动。大数据研究这一具有挑战性的课题，目前由国内最顶尖的高等学府北京大学重点研究实验室承担，也就是北京大学机器感知与智能教育部重点实验室(以下简称北大重点实验室)。

　　北大重点实验室是一个横跨多个研究领域的实验室，目前涉及的主要领域包括计算机科学、智能科学技术、心理学以及认知科学等，是一个多学科交叉科研机构。实验室以实现高度智能化的机器感知系统为目标，并紧密结合国民经济和社会发展的要求，开展机器感知、智能信息处理与认知科学方面的基础与应用基础研究。目前实验室的主要研究方向有感知机理，计算智能与知识发现，视感知，听感知，数字媒体技术，可视化与视觉计算。

　　北大重点实验室承担着多学科的重点研究，并一直走在科技的前沿，这次北大重点实验室承接了大数据研究这一项目后，将工作重点不仅放在了研发用于处理海量数据的新技术和系统上面，还放在了确保个人资料的收集、处理和分析在一个严密、安全的环境下进行上面。同时，北大重点实验室还承担着如何利用大数据解决交通运输、城市规划、卫生、财政和教育等现实中不同领域的问题，以及如何通过大数据建立分析模型，来预测传染病的传播并进行舆情分析等研究方向。

　　大数据研究面临的挑战及北大重点实验室IT选型重点

　　目前，参与大数据研究的各方面临着一些技术上的挑战，其中包括：

　　1. 非结构化和半结构化数据的高效处理

　　据统计，目前采集到的数据85%以上是非结构化和半结构化数据，而传统的关系数据库技术无法胜任这些数据的处理，因为关系数据库系统的出发点是追求高度的数据一致性和容错性。

　　2. 如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模

　　这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看，依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成，从而导致大数据统一理论的完备。从短期而言，学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则，以支持大数据的交叉工业应用。管理科学，尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。

　　3. 数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

　　由于大数据本身的复杂性，这一问题无疑是一个重要的科研课题，对传统的数据挖掘理论和技术提出了新的挑战。在大数据环境下，管理决策面临着两个“异构性”问题：“数据异构性”和“决策异构性”。传统的管理决定模式取决于对业务知识的学习和日益积累的实践经验，而管理决策又是以数据分析为基础的。

　　4. 数据的去冗余和高效率低成本的数据存储

　　数据中有大量的冗余，消除冗余是降低开销的重要途径。大数据的存储方式不仅影响效率也影响成本，需要研究高效率低成本的数据存储方式。需要研究多源多模态数据的高质量获取与整合的理论和技术、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等。

　　5. 大数据的有效融合

　　数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。

　　6. 适合不同行业的大数据挖掘分析工具和开发环境

　　不同行业需要不同的大数据分析工具和开发环境，应鼓励计算机算法研究人员与各领域的科研人员密切合作，在分析工具和开发环境上创新。当前跨领域跨行业的数据共享仍存在大量壁垒，海量数据的收集，特别是关联领域的同时收集还存在很大挑战。

　　7. 大幅度降低数据处理、存储和通信能耗的新技术

　　大数据的获取、通信、存储、管理与分析处理都需要消耗大量的能源。在能源问题日益突出的今天，研究创新的数据处理和传送的节能方法与技术是重要的研究方向。

　　显然，这些挑战是大数据研究者共同面临的，而北大重点实验室IT选型的重点就是针对上述的挑战，找到合适的解决方案。

　　北大重点实验室IT架构解决方案

　　经过大量的前期调查，比较和分析准备工作，北大重点实验室最后选择了华为基于高性能服务器RH5885 V2的HANA数据处理平台。HANA提供的对大量实时业务数据进行快速查询和分析以及实时数据计算等功能，在很大程度上得益于华为RH5885 V2服务器的高可靠、高性能和高可用性的支撑。

　　华为RH5885 V2是新一代四路/八路机架服务器，采用Intel? Xeon? E7-8800/4800系列处理器，支持6核、8核及10核CPU类型，最高频率2.66GHz，最大30MB L3缓存空间，完全能满足大数据分析、挖掘对服务器提出的具备强大处理性能的要求;支持两个高性能GPU，这就在很大程度上提升了系统图形处理与浮点计算能力，恰好满足了大数据分析中图形展示对服务器提出的高性能GPU要求。

　　RH5885 V2其他的特点还包括：可灵活扩展，八路服务器支持128条内存，最大容量4TB;可靠性高，支持多达35项容错特性;维护简单，支持免开箱维护和绿色环保等。这些特点都为HANA提供了强大的硬件支撑，让HANA能够顺畅地进行大数据的各种应用。

　　北大重点实验室继续引领大数据研究前沿

　　华为高性能服务器RH5885V2的HANA一体机应用于北大重点实验室后，经过近一年的使用，以事实证明了其高可靠、高性能的领先优势，不仅如此，北大重点实验室的相关负责人认为：“华为创新的SSD 高速存储卡，使一体机I/O 性能提升了5 倍，仅系统硬件就帮助北大重点实验节省投资60%，一体机方案优势明显。更重要的是，通过使用华为高性能服务器RH5885V2的HANA一体机，优越的性能帮助我们的研究取得事半功倍的效果，并在智能化大数据领域的研究始终走在国内的最前沿。“而华为也在此次与北大重点实验室的合作中，更细致的把握了教育行业及大数据应用的需求特点，帮助更多的中国教育行业用户及大数据应用用户构建更加卓越的IT系统架构。