4、实验内容及结果分析
在部署好的hadoop云数据计算与存储平台上进行实验来验证基于分布式数据计算和存储的方法在数据计算和存储上存在优势。
1)实验一:运行Hadoop自带的蒙特卡洛求PI程序验证基于Hadoop分布式云计算的高效性。计算任务设为10个,计算量为10的3 、4、5 、6次方。
环境一:单机情况下运行;
环境二:3台物理机搭建的集群系统中运行;
环境三:6台虚拟机搭建的集群系统中运行。集群环境运行日志如图5所示。
图 5 蒙特卡洛求PI程序运行日志
每组实验运行5次求所需时间的平均值,计算执行时间结果如图6所示,纵轴为时间/s,横轴是计算量/次方。从图6中可以看出单机环境下的运算时间远远大于分布式系统下的运算时间,而且集群系统中的节点越多计算速度越快。
2)实验二:通过运行宇符统计程序(wordcounter.jar)测试基于Hadoop分布式云数据读写的高效性来验证其存储性能。有4组数据,大小分别为400MB、600MB、1GB和1.5GB。
本组实验设置Hadoop块大小为16M默认情况下是64 M ) ,冗余备份参数设置为3(默认值),实验环境同实验一,程序运行5次,记录时间并计算平均值,运行日志如图7所示。
图 7 字符统计程序运行日志
运行结果如图8所示,纵轴为执行时间/s,横轴为数据量/MB。从图8中可以得出单机环境下的数据读写速度明显低于分布式环境下的速度,而且节点越多读写速度越快。
图 8 字符统计程序在3种环境中的性能对比
可以看出,与传统数据计算与读写方式相比,本文提出的在虚拟化环境下搭建的基于Hadoop分布式技术的云计算与存储平台,有效地提高了海量数据分析与读写的速度和效率;而且利用虚拟化技术搭建的集群比物理机集群效率更高,速度更快,从而大大提高了资源的利用率。
5、结束语
本文通过对Hadoop分布式文件系统HDFS、 MapReduce编程框架进行研究,利用VMware虚拟机搭建基于Hadoop的云数据计算与存储平台,并通过实验验证其相对于传统数据处理方式具有 高效、快速的特点,满足云计算领域的相关需求;而且通过应用虚拟化技术来扩展节点数量,既提高了运行效率又提高了硬件资源的利用率,为今后云计算的研究方 向打下了基础。