基于Hadoop的网络验证平台的研究

论文摘要

云计算是2007年底正式推出的一个崭新的概念,它可以说是一个历史性的创新,意味着计算服务也可以作为一种商品进行买卖,就像煤气、水电一样,取用方便,费用低廉,而区别只是在于它是通过互联网传输的。现今为止,Google、IBM、亚马逊等IT商业巨头都提拱了自己的云计算平台,并把云计算作为其未来发展的最主要战略之一。因此,云计算的研究不但紧跟业界技术发展的趋势,同时还具有较高的应用价值。在云计算系统的后台,提拱了成千上万的服务器,如何很好地组织如此巨大的服务器集群是云计算系统稳定运行重要问题。一个合理的网络拓扑结构不仅能够提高网络的性能,而且能够保证网络的稳定性,使网络在部分节点或链路故障或拥挤堵塞时也能正常工作。云计算系统后端的网络拓扑特性与一般的网络拓扑不同,因此我们应该重新考虑和研究。数据是信息的携带者,而信息是数据的含义,通常情况下认为数据是信息系统的基本。使用计算机来处理数据,提取信息是信息系统的基本需求。在现今高度信息化的社会里,Web可以说是最大的信息系统,其数据具有海量、多样、异构、动态变化等基本特征。如何实现快速有效地从这些数据中抽取出对企业有益的信息已成为程序员在进行软件开发过程中碰到的最重要的工作。基于这个出发点,本文在分析现有分布式存储和分布式计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型,并从数据结构设计、程序流程组织和编程技术的使用等几个方面来介绍这个模型的开发方法,最后将该模型应用于网络验证平台的web日志数据处理过程中。它允许程序员可以没有并发处理或者分布式系统的经验,就能够处理超大规模的分布式系统的资源。该模型还可以应用在诸如非文本图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式框架技术来很好地满足项目的需求,并将模型部署到实例当中,用实验结果来检验模型的实用价值,比如高效率、低成本、可拓展性和易维护性等。在与原来的预处理系统相融合的基础上,我们还对初级的模型进行了性能的优化,主要包括：MapReduce作业调度的优化,排序算法的优化。集群系统的容错机制的优化等。

论文目录

摘要

ABSTRACT

Contents

第一章绪论

1.1 研究背景及意义

1.2 研究发展现状

1.3 研究目标

1.4 本文研究工作

1.5 本文组织结构

第二章云计算平台的相关知识

2.1 云计算的概念

2.1.1 走进云计算

2.1.2 计算的定义

2.1.3 计算的分类

2.2 云计算的优势与带来的变革

2.2.1 云计算的优势

2.2.2 云计算带来的变革

2.3 云计算的关键技术

2.3.1 简单编程模式

2.3.2 数据存储与管理

2.3.3 虚拟化技术

2.4 云计算平台的体系架构

2.4.1 云架构的基本层次

2.4.2 IBM云计算平台的体系架构

2.4.3 马逊云计算平台体系架构

2.4.4 Google云计算平台体系架构

2.5 本章小结

第三章 Hadoop平台研究

3.1 Hadoop简介

3.2 MapReduce简介

3.3 文件分块策略

3.4 Hadoop集群的安装

3.4.1 Hadoop集群说明

3.4.2 网络拓扑结构

3.5 Hadoop集群的管理

3.5.1 HDFS结构

3.5.2 监控

3.6 本章小结

第四章网络验证平台的整体设计

4.1 项目背景

4.2 需求分析

4.3 系统的设计目标与整体设计

4.4 模块数据流分析

4.4.1 数据采集子系统模块

4.4.2 系统管理配置子系统

4.4.3 流量分析模型子系统

4.4.4 异常处理子系统

4.5 本章小结

第五章网络验证平台系统实现

5.1 系统概述

5.2 方案部署

5.2.1 硬件环境配置

5.2.2 SSH配置

5.2.3 数据结点和名字结点配置

5.2.4 Hadoop的平台搭建

5.2.5 HBase环境配置

5.3 实验方案设计

5.3.1 数据结构的设计

5.3.2 对统计信息进行分析

5.4 性能的优化

5.4.1 MapReduce作业调优

5.4.2 排序算法的优化

5.4.3 引入混合函数（Combine）

5.4.4 记录状态信息

5.5 Hadoop集群基准测试

5.5.1 Hadoop基准测试

5.5.2 其他基准测试

5.6 本章小结

总结与展望

论文总结

展望

参考文献

攻读硕士学位期间发表的论文

致谢

基于Hadoop的网络验证平台的研究

论文摘要

论文目录

相关论文文献

猜你喜欢