论文摘要
我们当前所处的时代是一个信息大爆炸的时代,由于信息技术的发展,特别是互联网的出现,产生并要处理的数据已经达到了PB(1PB=1024TB)级、EB(1EB=1024PB)级、甚至更多,这种级别的数据我们称之为海量级别的数据,随之而来的问题就是如何对这些海量数据进行存储,以及如何保证海量数据的高可用性。虽然这些问题在以前都已经有比较成熟的解决方案,但是当数据达到海量的级别后,以前的方法无力应对这一变化,所以我们必须研究新的方法来解决这些问题。数据到达海量级别以后,以上问题唯一可行的解决办法就是使用分布式文件系统构建服务器集群,利用分布式服务器集群技术来解决由海量数据所带来的一系列问题。本文首先对各种主流的分布式文件系统进行研究,在分析了各种主流的分布式文件系统的架构、优缺点及适用性之后,选取一款适合的分布式文件系统来搭建分布式服务器集群。本文研究了基于此分布式文件系统的分布式服务器集群搭建技术,采用Linux操作系统和Xen虚拟机软件搭建整个集群。在上述研究工作的基础上,实现了服务器集群的成功部署。在分布式文件系统中,文件存储分配的负载均衡算法是非常重要的一个部分,为了优化系统,提高系统性能,本文对选取的分布式文件系统的负载均衡算法进行了研究,分析了原有算法的不足,针对海量数据存储的实际应用需求提出了解决方案,对该算法进行了改进。改进后的算法经过测试验证,达到了改进要求,使系统性能得到了优化。本文取得以下成果:1.本文研究了各种主流的分布式文件系统,对每个分布式文件系统的架构、适用环境、优缺点等都做了深入的研究,选取了合适的系统来搭建本文的实验环境。2.研究了分布式文件系统的工作原理,掌握了分布式文件系统的各种工作机制。3.提出一个基于分布式文件系统的数据存储解决方案,搭建一个基于Linux和Xen虚拟机软件的实验平台,为以后进一步的研究打下了基础。4.研究了MooseFS分布式系统的文件分配负载均衡算法,提出了改进算法。经过实验数据的对比,改进算法达到了预期的效果。