论文摘要
随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文通过研究设计并开发实现一个小型简单的基于Lucene的Web搜索引擎,来研究Lucene在搜索引擎领域的应用前景。主要工作包括:(1)分析了Web搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块。(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。(3)深入分析并实现了多线程网页搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于Lucene的Web搜索引擎的关键技术。
论文目录
摘要Abstract第一章 绪论1.1 论文研究目的和意义1.2 Web 搜索引擎概述1.2.1 Web 搜索引擎的概念1.2.2 Web 搜索引擎的发展历史1.3 Web 搜索引擎的国内外发展现状1.3.1 现有搜索引擎的分类1.3.2 国内外主要搜索引擎简介1.3.3 Web 搜索引擎的未来发展动向1.4 本文的主要工作1.5 本章小结第二章 基于Lucene的Web搜索引擎分析及结构设计2.1 典型的Web 搜索引擎分析2.1.1 典型Web 搜索引擎的体系结构2.1.2 典型Web 搜索引擎的工作原理2.2 基于Lucene 的Web 搜索引擎设计2.2.1 Lucene 技术的简单介绍2.2.2 基于Lucene 的Web 搜索引擎结构设计2.3 本章小结第三章 基于Lucene的Web搜索引擎的开发3.1 开发环境3.2 网页搜集子系统3.2.1 网络蜘蛛(Web Spider)3.2.2 网页搜集3.2.3 控制器3.2.4 搜集页面的存储3.3 基于Lucene 的Web 搜索引擎的索引和检索子系统3.3.1 词典库3.3.2 前向索引表3.3.3 后向索引表3.3.4 基于Lucene 的Web 搜索引擎的索引和检索过程3.3.5 建立索引时需要考虑的其他问题3.4 搜索结果返回子系统3.4.1 Hit 列表3.4.2 搜索结果页面的筛选3.5 本章小结第四章 基于Lucene的Web搜索引擎实现的关键技术4.1 多线程并行网页搜集4.2 使用Lucene 实现的索引和检索核心算法4.2.1 Lucene 索引检索与典型数据库索引检索相比的优点4.2.2 使用Lucene 实现索引的核心算法4.2.3 使用Lucene 实现检索的核心算法4.3 查询内容的分词算法4.4 页面优先度算法4.4.1 以页面内容为基础的算法4.4.2 以网页链接为基础的PageRank 算法4.4.3 最终页面优先度计算4.5 本章小结第五章 结束语5.1 论文完成的工作5.2 论文有待完善的工作致谢参考文献
相关论文文献
标签:搜索引擎论文; 全文检索论文; 页面优先度论文;