
论文摘要
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。
论文目录
摘要Abstract第1章 绪论1.1 选题的背景与研究意义1.2 搜索引擎研究综述1.2.1 国内外搜索引擎研究的背景和进展1.2.2 传统搜索引擎存在的问题1.2.3 搜索引擎的分布式智能化趋势1.3 研究的内容和方法1.3.1 研究的内容1.3.2 研究的方法第2章 搜索引擎的原理和实现技术2.1 搜索引擎原理及相关关键技术2.1.1 搜索引擎理论基础2.1.2 搜索引擎工作原理2.1.3 分词原理2.1.4 索引组织方法2.2 面向搜索引擎的分布式计算技术2.2.1 分布式计算的工作原理2.2.2 网格计算2.2.3 云计算2.2.4 Map/Reduce计算模型第3章 面向智能搜索引擎的Lucene、Hadoop的理论与技术研究3.1 面向智能搜索引擎Lucene的原理研究3.1.1 Lucene系统的结构组织3.1.2 Lucene数据流分析3.1.3 Lucene索引的数据结构3.2 面向智能搜索引擎Hadoop的框架研究3.2.1 Hadoop基本结构3.2.2 HDFS3.2.3 Hadoop中的Map/Reduce实现第4章 IEBSou分布式智能搜索引擎研究4.1 分布式智能槽索的需求4.2 IEBSou结构模型研究4.3 信息采集原理4.3.1 Robots Exclusion Protocol4.3.2 网页抓取4.3.3 文档解析4.3.4 网页消重4.4 语言分析技术4.4.1 新词识别算法4.4.2 专有名词识别算法4.5 IEBSou索引理论4.5.1 倒排索引4.5.2 概念库构建4.6 IEBSou检索功能设计第5章 IEBSou分布式智能搜索引擎的实现5.1 IEBSou环境搭建5.2 IEBSou的Map/Reduce基础平台5.3 信息采集模块的实现5.3.1 基于Map/Reduce基础平台的设计5.3.2 文档解析框架5.4 语言分析模块的实现5.4.1 分词词典的设计5.4.2 IEBChinese Analyzer的实现5.5 索引模块的构建5.6 检索模块与EC语义词典的集成5.7 IEBSou运行界面第6章 全文总结与研究展望6.1 全文总结6.1.1 全文主要内容6.1.2 主要创新点6.2 研究展望参考文献在读期间参加的科研项目在读期间发表的论文致谢
相关论文文献
标签:搜索引擎论文; 分布式计算论文;
基于Map/Reduce的分布式智能搜索引擎框架研究
下载Doc文档