基于Lucene的全文搜索系统的研究与实现

基于Lucene的全文搜索系统的研究与实现

论文摘要

随着计算机技术和互联网技术的飞速发展,网络上的数字信息量急剧增长。为了能在浩如烟海的信息中找到自己所需要的信息,人们迫切需要一个高效的检索工具,全文检索技术成为人们关注的热点。全文检索是现代信息检索技术的一个重要分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本文介绍了一种全文检索引擎工具包Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年来在世界各地被广泛使用。作为一个开源软件,它为我们学习全文搜索引擎的核心技术提供了绝佳的机会,对其进行剖析研究、进行二次开发是一件很值得做的事情。本文通过设计并开发实现一个数码产品全文搜索引擎系统,来研究Lucene在全文搜索引擎领域的应用前景。主要做的工作包括:1.介绍了全文检索的基本概念和原理,分析了Lucene的常用的类的使用以及开源工具DOM4J和HtmlParser的特点。2.利对搜索引擎的三个核心部分即爬虫、索引和搜索进行了实现。爬虫模块采用了开源的web网络爬虫heritrix软件,通过扩展这种软件从网络上抓取需要的资源。索引和搜索部分利用Lucene引擎架构,实现了比Lucene自定义的中文分词更有效的中文分词,还引进了序列化和JavaCC来提高索引效率和开发效率。3.深入分析并实现了运用Lucene实现索引和检索、搜索结果的页面优先度计算等关键技术。

论文目录

  • 论文摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及现状
  • 1.2 项目意义
  • 1.3 论文主要工作及章节安排
  • 1.4 本章小结
  • 第2章 全文检索系统概述及开发工具
  • 2.1 全文检索系统技术概述
  • 2.1.1 全文检索
  • 2.1.2 全文检索基本原理
  • 2.1.3 全文检索系统总体设计
  • 2.2 Lucene简介
  • 2.2.1 Lucene的优点
  • 2.2.2 Lucene的功能
  • 2.2.3 Lucene中主要使用到的类
  • 2.3 开发工具简介
  • 2.3.1 DOM4J
  • 2.2.2 HtmlParser
  • 2.3.3 网络爬虫Heritrix
  • 2.3.4 DWR
  • 2.3.5 Spring框架
  • 2.4 本章小结
  • 第3章 基于Lucene的搜索引擎实现的关键技术
  • 3.1 页面优先度算法
  • 3.2 中文分词技术
  • 3.3 本章小结
  • 第4章 基于Lucene的web搜索引擎的设计与实现
  • 4.1 项目简介
  • 4.2 系统设计
  • 4.2.1 信息抓取模块
  • 4.2.2 分词模块
  • 4.2.3 数据库处理模块
  • 4.2.4 索引模块
  • 4.2.5 搜索模块
  • 4.2.6 配置文件
  • 4.3 本章小结
  • 第5章 基于Lucene的搜索引擎系统运行情况
  • 5.1 系统运行
  • 第6章 总结及展望
  • 6.1 论文完成的工作
  • 6.2 论文的不足与改进
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].军队医院规范指南知识库全文检索系统的建立与应用[J]. 西南国防医药 2020(09)
    • [2].标准全文检索系统及关键技术研究[J]. 标准科学 2017(01)
    • [3].基于公安业务的全文检索系统的设计与实现[J]. 无线互联科技 2015(20)
    • [4].特色数据库全文检索系统的设计[J]. 阜阳职业技术学院学报 2013(03)
    • [5].Sphinx+Python+Oracle构建全文检索系统[J]. 科技传播 2011(21)
    • [6].学生优秀论文全文检索系统的开发与利用[J]. 济南职业学院学报 2009(01)
    • [7].全文检索系统在网站中的应用研究[J]. 电脑知识与技术 2012(04)
    • [8].统一新闻全文检索系统的探索与实践[J]. 中国传媒科技 2010(05)
    • [9].基于通用全文检索系统的需求分析[J]. 电脑知识与技术 2009(21)
    • [10].一个多文档全文检索系统的设计与实现[J]. 中小企业管理与科技(下旬刊) 2010(05)
    • [11].标准数字化全文检索系统构建探讨[J]. 中国管理信息化 2016(15)
    • [12].一个多线程全文检索系统的构建[J]. 长江大学学报(自然科学版)理工卷 2010(03)
    • [13].论国内三大中文文献全文检索系统在图书馆参考咨询服务中的选择应用[J]. 才智 2009(18)
    • [14].面向大规模语料库的全文检索系统研究[J]. 图书与情报 2008(04)
    • [15].大数据分布式全文检索系统的设计与实现[J]. 计算机与数字工程 2016(12)
    • [16].浅谈全文检索系统中文档相关性排序问题[J]. 电子世界 2012(08)
    • [17].对等网络中全文检索系统的设计与实现[J]. 计算机工程与应用 2010(10)
    • [18].欢迎订购[J]. 水利技术监督 2019(05)
    • [19].修订限定的SVN全文检索系统研究与实现[J]. 计算机应用与软件 2017(11)
    • [20].全文检索系统中语种识别与索引技术研究[J]. 网络安全技术与应用 2009(12)
    • [21].欢迎订购[J]. 水利技术监督 2019(02)
    • [22].欢迎订购[J]. 水利技术监督 2019(04)
    • [23].“正史”中零散信息资源检索刍议[J]. 闽江学院学报 2008(06)
    • [24].图库在线全文检索系统[J]. 报刊荟萃 2018(05)
    • [25].基于lucene的全文检索系统的开发与实现[J]. 信息与电脑(理论版) 2011(18)
    • [26].欢迎订购[J]. 水利技术监督 2018(06)
    • [27].利用NoSQL构建高性能全文检索系统[J]. 计算机与现代化 2012(03)
    • [28].分布式密文全文检索系统设计及安全性研究[J]. 广西大学学报(自然科学版) 2010(06)
    • [29].达梦数据库全文检索系统[J]. 科技信息(学术研究) 2008(21)
    • [30].欢迎订购2015版《水利水电技术标准全文检索系统》[J]. 水利技术监督 2016(03)

    标签:;  ;  

    基于Lucene的全文搜索系统的研究与实现
    下载Doc文档

    猜你喜欢