基于LUCENE的主题搜索引擎研究与实现

基于LUCENE的主题搜索引擎研究与实现

论文摘要

随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信源,“信息迷航”和“信息过载”己经成为人们获取信息资源日益严重的问题。基于Internet的各类搜索引擎应运而生并得到了迅速发展。Yahoo、Baidu、Google等通用搜索引擎功能虽然非常强大,但它们不能对结构化数据作精确的检索。主题搜索引擎是一种对结构化数据进行精确检索的搜索引擎,用户体验更加人性化。随着信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文对它的主要技术进行研究并实现了一个主题搜索引擎原型系统。分析了网络爬虫抓取的基本原理、策略以及相关度算法(PageRank、Hits);考虑PageRank值的因素,提出了改进Shark算法的新思路,既保证了网页与主题领域知识的相关度,又顾及到网页的重要性。剖析了全文检索包Lucene,探讨Lucene中使用的向量空间模型,分析了Lucene索引文件的的结构和文档评分算法;解析了Lucene中使用的倒排索引技术,对如何提高Lucene索引性能进行了探讨;分析了Lucene文档评分算法,通过实例探讨了各因素对文档得分的影响;分析了Lucene、Heritrix的部分核心代码。结合本文的实际需要,扩展了Heritrix的FrontierSchedular,设计了URL选择策略,实现了主题网页精确抓取;使用定则表达式和HtmlParser软件包设计了手机信息的精确抽取模板;根据网页消重基本原理,设计并实现了网页消重类;利用JE扩展了Lucene的分词模块,弥补了Lucene中文分词模块按字分词的不足。通过主题搜索引擎的主要技术的研究,设计并实现了一个手机产品信息搜索引擎原形系统。在开发此原型系统过程中,选择了扩展性好的Heritrix抓取主题信息;使用Lucene对主题网页信息建立索引库以及对主题知识库的检索;选用Spring和DWR技术开发用户查询接口。通过对本原型系统的检索性能测试,有较好的召回率和准确率,基本达到本课题预期目标。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 引言
  • 1.2 选题背景
  • 1.3 选题意义
  • 1.4 论文的主要研究工作
  • 1.5 论文的内容结构
  • 2 搜索引擎基本知识
  • 2.1 搜索引擎发展的历史过程
  • 2.2 通用搜索引擎面临的问题
  • 2.3 主题搜索引擎的产生
  • 2.4 主题搜索引擎与综合搜索引擎的异同点
  • 2.4.1 主题搜索引擎和综合搜索引擎在信息服务上的异同
  • 2.4.2 主题搜索引擎和综合搜索引擎在关键技术上的异同
  • 2.5 主题搜索引擎国内外研究现状
  • 2.5.1 国外研究现状
  • 2.5.2 国内研究现状
  • 3 主题搜索引擎爬取技术解析
  • 3.1 爬虫抓取的基本策略
  • 3.2 WEB 爬行原理
  • 3.2.1 Web 爬取器的结构
  • 3.2.2 Web 爬取策略
  • 3.3 搜索引擎经典算法
  • 3.3.1 PageRank 算法和Hits 算法
  • 3.3.2 基于页面内容的算法
  • 3.3.3 Shark 算法及其改进
  • 4 全文检索框架LUCENE 剖析
  • 4.1 全文检索包LUCENE 的概述
  • 4.1.1 全文检索与全文检索系统
  • 4.1.2 Lucene 项目简介
  • 4.1.3 Lucene 框架组成
  • 4.2 LUCENE 索引技术
  • 4.2.1 倒排文件
  • 4.2.3 Lucene 索引的数据结构
  • 4.3 LUCENE 检索技术
  • 4.3.1 文档与词条向量空间
  • 4.3.2 tf-idf 加权策略
  • 4.3.3 Lucene 的文档得分算法
  • 4.3.4 Lucene 的排序策略
  • 5 一个主题搜索引擎的实现
  • 5.1 项目总体系统设计
  • 5.2 信息采集子系统的设计与实现
  • 5.2.1 Heritrix 的介绍
  • 5.2.2 选取Heritrix 框架的原因
  • 5.2.3 基于Heritrix 框架的采集信息的实现
  • 5.2.4 手机网页信息的处理
  • 5.3 索引子系统的设计与实现
  • 5.3.1 产品信息词库的构建
  • 5.3.2 建立产品详细信息数据库和索引结构
  • 5.3.3 对索引进行操作
  • 5.4 查询子系统的实现
  • 5.4.1 Spring 框架和Ajax 概述
  • 5.4.2 主要功能
  • 5.4.3 查询子模块的具体实现
  • 6 总结与展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于LUCENE的主题搜索引擎研究与实现
    下载Doc文档

    猜你喜欢