论文摘要
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎(Search Engine)网站是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术己经经历了三个发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究主要集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。论文首先介绍了Lucene这种目前用于构建全文检索系统和搜索引擎使用最广泛的技术,分析了它的架构以及主要工作原理。构建搜索引擎,必不可少的是使用网络爬虫对网络资源进行分析,抓取。在论文接下来的部分,对网络爬虫Heritrix进行了深入的分析,对各个核心部件进行了详细介绍。最后,根据示例设计的需求,对Heritrix的抓取进行了定制。在此基础上,构建了一个搜索引擎示例,演示了它的功能。论文的最后一章,在深入分析高级搜索技术的基础上,对性能提升的策略进行了总结,实现了搜索优化以及性能提升。在附录部分,对Lucene的分析器进行了分析,实现了一个中文分析器,加入到示例中,提高了示例搜索结果的准确度以及搜索结果的范围。
论文目录
摘要ABSTRACT第一章绪论1.1 搜索引擎简介1.2 搜索引擎工作原理简介1.3 搜索引擎产生的背景和发展历史1.4 搜索引擎的分类1.5 论文主要工作1.6 论文章节安排第二章 Lucene核心原理祥析2.1 Lucene 简介2.2 索引(Indexing)分析2.2.1 索引过程分析2.2.1.1 转换成文本2.2.1.2 将分析过后的数据写入索引2.2.2 控制索引过程2.3 搜索(Searching)分析2.3.1 搜索核心API IndexSearcher2.3.2 搜索结果集Hits2.3.3 Lucene评分机制2.3.4 Lucene 内建的Query 对象分析2.4 本章小结第三章网络爬虫Heritrix 祥析3.1 网络爬虫简介3.2 Heritrix 架构分析3.2.1 CrawlOrder 抓取任务控制3.2.2 CrawController 中央控制器3.2.3 Frontier 链接制造工厂3.2.4 Heritrix 的多线程ToeThread 和ToePool3.2.5 处理链和Processor3.3 本章小结第四章 搜索引擎示例的设计实现4.1 搜索引擎示例的总体结构介绍4.2 网页抓取器的设计实现4.2.1 定制 Extractor4.2.2 扩展FrontierScheduler 过滤下载内容4.2.3 取消robots.txt 的限制4.2.4 Heritrix 对网页的抓取实现4.3 索引模块的设计实现4.3.1 文件内容分析器设计实现4.3.2 索引器的设计与实现4.4 搜索模块的设计实现4.4.1 搜索器的设计实现4.4.2 用户界面search.jsp 的设计实现4.5 搜索引擎示例的运行演示4.6 本章小结第五章 搜索引擎示例的搜索优化5.1 Lucene 搜索结果排序调整5.1.1 使用Lucene 的Sort 类对搜索结果排序5.2 使用Filter(过滤器)缩小示例搜索引擎的搜索结果集5.2.1 使用QueryFilter 在搜索结果中再次搜索5.3 Lucene 排序算法的改进实现5.4 本章小结第六章 结束语附录:Lucene 分析器和中文分词致谢个人简历,攻硕期间发表的学术论文参考文献
相关论文文献
标签:搜索引擎论文; 网络爬虫论文; 性能提升论文;
基于Lucene和Heririx构建搜索引擎的研究和示例实现
下载Doc文档