论文摘要
随着互联网应用的发展,越来越多的软件系统以网络应用和服务的形式出现。各种形式的网络环境以及运行于其中的各式应用和服务,组成了形式各异的分布式系统。如何使各种网络应用和服务彼此互通,以及如何让客户系统可以使用一个统一的标准来发现和调用各种网络应用和服务,就成为了一个非常具有现实意义的重要课题。Web服务(Web Services)就是为了解决这一问题由国际标准组织所提出的一系列相关的网络标准协议。搜索引擎作为最为重要的一种网络应用服务,必然要提供分布式调用的机制,使得各种其他网络应用程序可以方便的调用。基于互关联后继树的搜索引擎的原始实现是单机版的,只能在一台机器上安装使用,不具备被分布式调用的能力。本文针对这一问题,利用Web服务技术,对原有实现做出了改进,使其可以用于分布式系统,被其他客户程序以Web服务的方式调用。随着CPU制造业的发展,其制造工艺已经将要达到物理极限,传统的摩尔定律已经失效,人们已经很难获得主频不断提高的CPU。CPU制造商转而将设计重点转向了多核工艺。想单靠CPU主频的提升而获得更好的程序运行性能的方式已经不再可行,取而代之的是一种新型的计算方式:分布式(并行)计算。这种计算方式的主要特点是应用程序在由多个单机节点(每个节点可以是单核或多核CPU)所组成的集群之上,并行的进行分布式计算。这种计算方式可以大大的提高大规模数据处理任务(如搜索引擎索引的建立)的执行速度。本文利用MapReduce这一分布式计算框架,对基于互关联后继树的搜索引擎的原始索引建立方式进行了初步的改进,使得索引的建立可以在分布式集群上以分布式计算的方式并行处理完成,这样就可以有效地缩短索引的建立时间。
论文目录
摘要Abstract第1章 引言1.1 研究背景1.2 本文工作1.2.1 研究要点1.2.2 本文结构第2章 分布式系统及分布式计算综述2.1 引言2.2 分布式系统简介2.2.1 分布式系统概念及其特点2.2.2 分布式系统实例2.2.2.1 国际互联网2.2.2.2 企业内部网2.2.2.3 移动计算网络2.2.3 分布式系统编程模型2.3 分布式计算简介2.3.1 分布式计算定义2.3.2 分布式计算模型2.3.2.1 消息传递2.3.2.2 客户—服务器范型2.3.2.3 peer-to-peer范型2.3.2.4 消息系统范型2.3.2.5 远程过程调用范型2.3.2.6 分布式对象范型2.3.2.7 网络服务范型2.4 本章总结第3章 基于互关联后继树搜索引擎的分布式调用方式的改进3.1 引言3.2 Web服务简介3.2.1 Web服务的概念3.2.2 Web服务模型3.2.2.1 Web服务体系结构中的角色3.2.2.2 Web服务体系结构中的操作3.2.3 Web服务协议栈3.2.4 SOAP的通信机制3.3 对基于互关联后继树搜索引擎调用接口的封装3.3.1 改进后的黄页搜索引擎系统架构3.3.2 Web服务接口封装的实现3.3.2.1 Dlls文件的调用3.3.2.2 一个实际的Web Services对外服务接口3.3.3 Java客户端调用的实现3.3.3.1 Axis简介3.3.3.2 Java调用实例3.4 分布式调度程序的实现3.4.1 主要功能3.4.1.1 与主控服务器的通信3.4.1.2 与Web应用服务器的通信3.4.2 实现方法3.5 本章总结第4章 基于互关联后继树搜索引擎的分布式并行建索引方式的改进4.1 引言4.2 互关联后继树模型简介4.2.1 互关联后继树的定义4.2.2 相关算法介绍4.2.2.1 创建算法4.2.2.2 原文生成算法4.3 MapReduce分布式计算框架介绍4.3.1 MapReduce的产生4.3.2 MapReduce的编程模式4.3.3 MapReduce的执行概览4.3.4 MapReduce的容错措施4.3.4.1 工作机器(Worker)失效的考虑4.3.4.2 主控机器(Master)失效的考虑4.4 Hadoop简介4.4.1 HDFS简介4.5 分布式计算方式建索引改进方式的实现4.5.1 基于互关联后继树词表索引的建立4.5.2 对待建索引文本内容进行切词(基于词表索引文件)4.5.3 利用Hadoop对多文本建立索引4.6 本章总结第5章 实验5.1 引言5.2 Web服务接口封装结果展现5.2.1 简单调用界面和返回结果展现5.2.2 实际应用展现5.3 Web服务并发访问的测试结果5.4 索引的分布式计算方式的创建5.4.1 实验环境的搭建5.4.2 实验所用数据5.4.3 实验结果分析5.5 本章总结第6章 总结与展望6.1 总结6.2 展望参考文献附录硕士研究生期间发表的论文和参与的项目致谢
相关论文文献
标签:搜索引擎论文; 分布式系统论文; 服务论文; 互关联后继树论文; 分布式计算论文;