基于Lucene的Web搜索引擎实现

基于Lucene的Web搜索引擎实现

论文摘要

随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文通过研究设计并开发实现一个小型简单的基于Lucene的Web搜索引擎,来研究Lucene在搜索引擎领域的应用前景。主要工作包括:(1)分析了Web搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块。(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。(3)深入分析并实现了多线程网页搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于Lucene的Web搜索引擎的关键技术。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 论文研究目的和意义
  • 1.2 Web 搜索引擎概述
  • 1.2.1 Web 搜索引擎的概念
  • 1.2.2 Web 搜索引擎的发展历史
  • 1.3 Web 搜索引擎的国内外发展现状
  • 1.3.1 现有搜索引擎的分类
  • 1.3.2 国内外主要搜索引擎简介
  • 1.3.3 Web 搜索引擎的未来发展动向
  • 1.4 本文的主要工作
  • 1.5 本章小结
  • 第二章 基于Lucene的Web搜索引擎分析及结构设计
  • 2.1 典型的Web 搜索引擎分析
  • 2.1.1 典型Web 搜索引擎的体系结构
  • 2.1.2 典型Web 搜索引擎的工作原理
  • 2.2 基于Lucene 的Web 搜索引擎设计
  • 2.2.1 Lucene 技术的简单介绍
  • 2.2.2 基于Lucene 的Web 搜索引擎结构设计
  • 2.3 本章小结
  • 第三章 基于Lucene的Web搜索引擎的开发
  • 3.1 开发环境
  • 3.2 网页搜集子系统
  • 3.2.1 网络蜘蛛(Web Spider)
  • 3.2.2 网页搜集
  • 3.2.3 控制器
  • 3.2.4 搜集页面的存储
  • 3.3 基于Lucene 的Web 搜索引擎的索引和检索子系统
  • 3.3.1 词典库
  • 3.3.2 前向索引表
  • 3.3.3 后向索引表
  • 3.3.4 基于Lucene 的Web 搜索引擎的索引和检索过程
  • 3.3.5 建立索引时需要考虑的其他问题
  • 3.4 搜索结果返回子系统
  • 3.4.1 Hit 列表
  • 3.4.2 搜索结果页面的筛选
  • 3.5 本章小结
  • 第四章 基于Lucene的Web搜索引擎实现的关键技术
  • 4.1 多线程并行网页搜集
  • 4.2 使用Lucene 实现的索引和检索核心算法
  • 4.2.1 Lucene 索引检索与典型数据库索引检索相比的优点
  • 4.2.2 使用Lucene 实现索引的核心算法
  • 4.2.3 使用Lucene 实现检索的核心算法
  • 4.3 查询内容的分词算法
  • 4.4 页面优先度算法
  • 4.4.1 以页面内容为基础的算法
  • 4.4.2 以网页链接为基础的PageRank 算法
  • 4.4.3 最终页面优先度计算
  • 4.5 本章小结
  • 第五章 结束语
  • 5.1 论文完成的工作
  • 5.2 论文有待完善的工作
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  

    基于Lucene的Web搜索引擎实现
    下载Doc文档

    猜你喜欢