基于Map/Reduce的分布式智能搜索引擎框架研究

基于Map/Reduce的分布式智能搜索引擎框架研究

论文摘要

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题的背景与研究意义
  • 1.2 搜索引擎研究综述
  • 1.2.1 国内外搜索引擎研究的背景和进展
  • 1.2.2 传统搜索引擎存在的问题
  • 1.2.3 搜索引擎的分布式智能化趋势
  • 1.3 研究的内容和方法
  • 1.3.1 研究的内容
  • 1.3.2 研究的方法
  • 第2章 搜索引擎的原理和实现技术
  • 2.1 搜索引擎原理及相关关键技术
  • 2.1.1 搜索引擎理论基础
  • 2.1.2 搜索引擎工作原理
  • 2.1.3 分词原理
  • 2.1.4 索引组织方法
  • 2.2 面向搜索引擎的分布式计算技术
  • 2.2.1 分布式计算的工作原理
  • 2.2.2 网格计算
  • 2.2.3 云计算
  • 2.2.4 Map/Reduce计算模型
  • 第3章 面向智能搜索引擎的Lucene、Hadoop的理论与技术研究
  • 3.1 面向智能搜索引擎Lucene的原理研究
  • 3.1.1 Lucene系统的结构组织
  • 3.1.2 Lucene数据流分析
  • 3.1.3 Lucene索引的数据结构
  • 3.2 面向智能搜索引擎Hadoop的框架研究
  • 3.2.1 Hadoop基本结构
  • 3.2.2 HDFS
  • 3.2.3 Hadoop中的Map/Reduce实现
  • 第4章 IEBSou分布式智能搜索引擎研究
  • 4.1 分布式智能槽索的需求
  • 4.2 IEBSou结构模型研究
  • 4.3 信息采集原理
  • 4.3.1 Robots Exclusion Protocol
  • 4.3.2 网页抓取
  • 4.3.3 文档解析
  • 4.3.4 网页消重
  • 4.4 语言分析技术
  • 4.4.1 新词识别算法
  • 4.4.2 专有名词识别算法
  • 4.5 IEBSou索引理论
  • 4.5.1 倒排索引
  • 4.5.2 概念库构建
  • 4.6 IEBSou检索功能设计
  • 第5章 IEBSou分布式智能搜索引擎的实现
  • 5.1 IEBSou环境搭建
  • 5.2 IEBSou的Map/Reduce基础平台
  • 5.3 信息采集模块的实现
  • 5.3.1 基于Map/Reduce基础平台的设计
  • 5.3.2 文档解析框架
  • 5.4 语言分析模块的实现
  • 5.4.1 分词词典的设计
  • 5.4.2 IEBChinese Analyzer的实现
  • 5.5 索引模块的构建
  • 5.6 检索模块与EC语义词典的集成
  • 5.7 IEBSou运行界面
  • 第6章 全文总结与研究展望
  • 6.1 全文总结
  • 6.1.1 全文主要内容
  • 6.1.2 主要创新点
  • 6.2 研究展望
  • 参考文献
  • 在读期间参加的科研项目
  • 在读期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  

    基于Map/Reduce的分布式智能搜索引擎框架研究
    下载Doc文档

    猜你喜欢