论文摘要
本文首先简述了搜索引擎在如今信息时代的作用,并介绍了为满足专业化领域需求的垂直搜索引擎。其次对搜索引擎中的爬虫工具Heritrix进行了深入的分析,研究了其工作过程、原理,就其提供的扩展接口给出了具体的实现模式,主要用于对网页信息的抓取过程中,该模式下如何减少无效网页的冗余,实现网页内容抓取的可控性。其次,对Lucene的主要功能模块进行了深入的研究分析,主要针对其在全文检索系统运用中所特有的优势进行讨论,并详细研究了其源代码,在此基础上概括出Lucene索引的建立过程,索引的结构,检索如何构造以及检索结果排序等核心机制的实现流程和原理。最后本文在对Heritrix及Lucene分析的基础上,论述了构建一个具有全文检索功能的搜索引擎系统的设计思想。该系统最终实现对网站内数码相机信息的抓取以及实现产品检索功能。本文核心论述了如何以Heritrix作为爬虫,通过对网站结构的分析,对Heritrix进行功能扩展,达到提高信息的抓取效率的目的;并且利用Lucene建立了整个系统的索引和检索部分等检索的核心部分。针对系统的实际需求,定义了数据的封装对象,作为建立索引时Document对应的对象。针对Lucene中文分词存在的缺陷,引入了JE分词作为系统的文本分析器,实现了对中文的处理功能。并且在检索时为用户提供了默认的检索域,避免了多域检索带来的性能损失。最后,还为系统的功能扩展预留了接口。
论文目录
摘要Abstract第一章 绪论1.1 选题背景1.2 选题目的与意义1.3 论文主要工作1.4 论文章节安排第二章 搜索引擎原理及技术2.1 搜索引擎概述2.1.1 搜索引擎定义2.1.2 搜索引擎的发展2.1.3 主流搜索引擎介绍2.2 搜索引擎主要技术2.2.1 搜索器2.2.2 索引器2.2.3 检索器2.2.4 文本分析器第三章 关键技术分析与研究3.1 Heritrix概述3.1.1 Heritrix简述3.1.2 Heritrix的架构及组件3.2 Lucene分析与研究3.2.1 Lucene简述3.2.2 Lucene的特点第四章 垂直搜索引擎系统设计与实现4.1 系统功能需求分析4.1.1 垂直搜索引擎概念4.1.2 系统功能需求分析4.1.3 系统功能4.2 系统总体设计4.3 信息采集模块设计与实现4.3.1 定向网页抓取性能分析4.3.2 定向网页抓取机制设计4.3.3 信息采集模块设计与实现4.3.4 小结4.4 系统索引模块设计与实现4.4.1 Lucene索引机制4.4.2 索引模块的设计与实现4.4.3 索引的优化4.4.4 文本分析系统设计4.4.5 小结4.5 数据库模块设计与实现4.6 系统检索模块设计与实现4.6.1 Lucene检索机制4.6.2 检索模块设计与实现4.6.3 排序机制4.6.4 小结4.7 测试结果4.7.1 信息采集模块测试4.7.2 索引模块测试4.7.3 检索模块测试第五章 结束语致谢参考文献
相关论文文献
标签:垂直搜索引擎论文;