论文摘要
随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信源,“信息迷航”和“信息过载”己经成为人们获取信息资源日益严重的问题。基于Internet的各类搜索引擎应运而生并得到了迅速发展。Yahoo、Baidu、Google等通用搜索引擎功能虽然非常强大,但它们不能对结构化数据作精确的检索。主题搜索引擎是一种对结构化数据进行精确检索的搜索引擎,用户体验更加人性化。随着信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文对它的主要技术进行研究并实现了一个主题搜索引擎原型系统。分析了网络爬虫抓取的基本原理、策略以及相关度算法(PageRank、Hits);考虑PageRank值的因素,提出了改进Shark算法的新思路,既保证了网页与主题领域知识的相关度,又顾及到网页的重要性。剖析了全文检索包Lucene,探讨Lucene中使用的向量空间模型,分析了Lucene索引文件的的结构和文档评分算法;解析了Lucene中使用的倒排索引技术,对如何提高Lucene索引性能进行了探讨;分析了Lucene文档评分算法,通过实例探讨了各因素对文档得分的影响;分析了Lucene、Heritrix的部分核心代码。结合本文的实际需要,扩展了Heritrix的FrontierSchedular,设计了URL选择策略,实现了主题网页精确抓取;使用定则表达式和HtmlParser软件包设计了手机信息的精确抽取模板;根据网页消重基本原理,设计并实现了网页消重类;利用JE扩展了Lucene的分词模块,弥补了Lucene中文分词模块按字分词的不足。通过主题搜索引擎的主要技术的研究,设计并实现了一个手机产品信息搜索引擎原形系统。在开发此原型系统过程中,选择了扩展性好的Heritrix抓取主题信息;使用Lucene对主题网页信息建立索引库以及对主题知识库的检索;选用Spring和DWR技术开发用户查询接口。通过对本原型系统的检索性能测试,有较好的召回率和准确率,基本达到本课题预期目标。
论文目录
摘要ABSTRACT1 绪论1.1 引言1.2 选题背景1.3 选题意义1.4 论文的主要研究工作1.5 论文的内容结构2 搜索引擎基本知识2.1 搜索引擎发展的历史过程2.2 通用搜索引擎面临的问题2.3 主题搜索引擎的产生2.4 主题搜索引擎与综合搜索引擎的异同点2.4.1 主题搜索引擎和综合搜索引擎在信息服务上的异同2.4.2 主题搜索引擎和综合搜索引擎在关键技术上的异同2.5 主题搜索引擎国内外研究现状2.5.1 国外研究现状2.5.2 国内研究现状3 主题搜索引擎爬取技术解析3.1 爬虫抓取的基本策略3.2 WEB 爬行原理3.2.1 Web 爬取器的结构3.2.2 Web 爬取策略3.3 搜索引擎经典算法3.3.1 PageRank 算法和Hits 算法3.3.2 基于页面内容的算法3.3.3 Shark 算法及其改进4 全文检索框架LUCENE 剖析4.1 全文检索包LUCENE 的概述4.1.1 全文检索与全文检索系统4.1.2 Lucene 项目简介4.1.3 Lucene 框架组成4.2 LUCENE 索引技术4.2.1 倒排文件4.2.3 Lucene 索引的数据结构4.3 LUCENE 检索技术4.3.1 文档与词条向量空间4.3.2 tf-idf 加权策略4.3.3 Lucene 的文档得分算法4.3.4 Lucene 的排序策略5 一个主题搜索引擎的实现5.1 项目总体系统设计5.2 信息采集子系统的设计与实现5.2.1 Heritrix 的介绍5.2.2 选取Heritrix 框架的原因5.2.3 基于Heritrix 框架的采集信息的实现5.2.4 手机网页信息的处理5.3 索引子系统的设计与实现5.3.1 产品信息词库的构建5.3.2 建立产品详细信息数据库和索引结构5.3.3 对索引进行操作5.4 查询子系统的实现5.4.1 Spring 框架和Ajax 概述5.4.2 主要功能5.4.3 查询子模块的具体实现6 总结与展望致谢参考文献附录
相关论文文献
标签:主题搜索引擎论文; 爬取算法论文; 索引论文; 检索论文;