论文摘要
云计算是2007年底正式推出的一个崭新的概念,它可以说是一个历史性的创新,意味着计算服务也可以作为一种商品进行买卖,就像煤气、水电一样,取用方便,费用低廉,而区别只是在于它是通过互联网传输的。现今为止,Google、IBM、亚马逊等IT商业巨头都提拱了自己的云计算平台,并把云计算作为其未来发展的最主要战略之一。因此,云计算的研究不但紧跟业界技术发展的趋势,同时还具有较高的应用价值。在云计算系统的后台,提拱了成千上万的服务器,如何很好地组织如此巨大的服务器集群是云计算系统稳定运行重要问题。一个合理的网络拓扑结构不仅能够提高网络的性能,而且能够保证网络的稳定性,使网络在部分节点或链路故障或拥挤堵塞时也能正常工作。云计算系统后端的网络拓扑特性与一般的网络拓扑不同,因此我们应该重新考虑和研究。数据是信息的携带者,而信息是数据的含义,通常情况下认为数据是信息系统的基本。使用计算机来处理数据,提取信息是信息系统的基本需求。在现今高度信息化的社会里,Web可以说是最大的信息系统,其数据具有海量、多样、异构、动态变化等基本特征。如何实现快速有效地从这些数据中抽取出对企业有益的信息已成为程序员在进行软件开发过程中碰到的最重要的工作。基于这个出发点,本文在分析现有分布式存储和分布式计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型,并从数据结构设计、程序流程组织和编程技术的使用等几个方面来介绍这个模型的开发方法,最后将该模型应用于网络验证平台的web日志数据处理过程中。它允许程序员可以没有并发处理或者分布式系统的经验,就能够处理超大规模的分布式系统的资源。该模型还可以应用在诸如非文本图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式框架技术来很好地满足项目的需求,并将模型部署到实例当中,用实验结果来检验模型的实用价值,比如高效率、低成本、可拓展性和易维护性等。在与原来的预处理系统相融合的基础上,我们还对初级的模型进行了性能的优化,主要包括:MapReduce作业调度的优化,排序算法的优化。集群系统的容错机制的优化等。