基于Lucene的全文检索系统的研究与应用

基于Lucene的全文检索系统的研究与应用

论文摘要

随着互联网技术的普及以及信息化程度的提高,网络上的信息资源急剧增加,且信息形式多种多样。信息检索就是从海量的信息资源中获得用户所需要信息的技术。因此,如何从海量的非结构化数据资源中获取用户最需要的信息,成为了现代信息检索领域面临的又一重大挑战。全文检索作为现代信息检索技术的一个重要分支,它不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。为了提高检索的准确率和检索效率,对信息检索的相关技术,如:索引模型、分词技术、结果排序算法等,进行研究是十分必要的。本文以全文索引模型为研究对象,并对全文检索中的中文分词及页面排序等算法进行了改进。最后,利用开源的全文检索引擎架构Lucene建立了一个全文检索系统,来验证改进后的全文检索系统的性能。本文的主要工作如下:(1)互关联后继树索引模型的研究本文讨论并比较了现有的几种流行的全文索引模型,并重点介绍了互关联后继树(简称IRST)索引模型,它具有创建速度快、查询效率高以及可通过索引生成原文等特点。本文对该模型做了进一步的研究,提出了后继有序的互关联索引模型,利用其有序子树求交的方法,快速地检索出结果。(2)中文分词技术的研究与改进本文采用互关联后继树作为分词过程中词表的数据结构,来提高分词的速度;在分词的准确度方面,本文对分词过程中出现的歧义词进行分析,并采用“三段式首词间距法”来处理歧义词,以提高分词的准确度。实验结果表明,这是一种分词速度较快同时准确度又高的分词方法。(3)页面排序算法的研究与改进本文在分析目前主流的页面排序算法的基础上,对当前使用广泛的PageRank算法进行了改进。实验结果表明,改进后的结果排序算法是具有较高精度的排序算法。(4)设计并实现了一个基于Lucene的新闻检索系统利用上述改进的方法,设计并实现了一个基于Lucene的新闻检索系统。实验结果表明,改进后的全文检索系统能更好的支持中文检索以及更准确地提供给用户最需要的信息。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究背景及现状
  • 1.2 存在的问题
  • 1.3 研究内容
  • 1.4 论文结构
  • 2 全文检索相关技术概述
  • 2.1 全文检索系统概述
  • 2.1.1 全文检索技术
  • 2.1.2 全文检索的基本原理
  • 2.1.3 全文检索系统的体系结构
  • 2.2 全文检索引擎工具包Lucene
  • 2.2.1 Lucene中各包的功能
  • 2.2.2 Lucene内部数据流分析
  • 2.2.3 Lucene检索与数据库检索
  • 2.2.4 Lucene全文检索的实现机制
  • 2.3 全文索引模型介绍
  • 2.3.1 位图(BitMap)
  • 2.3.2 署名文件(Signature Files)
  • 2.3.3 倒排表(Inverted List)
  • 2.3.4 Pat树和Pat数组
  • 2.3.5 关联后继树(IRST)
  • 2.3.6 各种索引模型的比较
  • 3 中文分词技术的研究与改进
  • 3.1 中文分词技术
  • 3.1.1 中文分词算法介绍
  • 3.1.2 中文分词中的难点
  • 3.2 全文检索系统对分词的要求
  • 3.3 改进后的中文分词算法
  • 3.3.1 最大匹配算法
  • 3.3.2 基于互关联后继树的词表结构
  • 3.3.3 歧义词处理
  • 3.3.4 实验结果分析
  • 4 页面排序算法研究及改进
  • 4.1 业界已有的排序算法
  • 4.1.1 Lucene中默认的排序算法
  • 4.1.2 主流的页面排序算法介绍
  • 4.2 页面排序算法的改进
  • 4.3 实验结果分析
  • 5 基于Lucene的全文检索系统的设计与实现
  • 5.1 项目简介
  • 5.2 系统的开发环境及常用包
  • 5.3 系统设计
  • 5.3.1 信息抓取模块
  • 5.3.2 中文分词模块
  • 5.3.3 全文索引模块
  • 5.3.4 信息检索模块
  • 5.3.5 数据库处理模块
  • 6 全文检索系统的运行情况
  • 6.1 用户接口设计
  • 6.1.1 客户端设计
  • 6.1.2 服务器端设计
  • 6.2 系统的性能评价
  • 7 总结与展望
  • 7.1 论文取得的成果
  • 7.2 进一步的工作
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].军队医院规范指南知识库全文检索系统的建立与应用[J]. 西南国防医药 2020(09)
    • [2].标准全文检索系统及关键技术研究[J]. 标准科学 2017(01)
    • [3].基于公安业务的全文检索系统的设计与实现[J]. 无线互联科技 2015(20)
    • [4].特色数据库全文检索系统的设计[J]. 阜阳职业技术学院学报 2013(03)
    • [5].Sphinx+Python+Oracle构建全文检索系统[J]. 科技传播 2011(21)
    • [6].学生优秀论文全文检索系统的开发与利用[J]. 济南职业学院学报 2009(01)
    • [7].全文检索系统在网站中的应用研究[J]. 电脑知识与技术 2012(04)
    • [8].统一新闻全文检索系统的探索与实践[J]. 中国传媒科技 2010(05)
    • [9].基于通用全文检索系统的需求分析[J]. 电脑知识与技术 2009(21)
    • [10].一个多文档全文检索系统的设计与实现[J]. 中小企业管理与科技(下旬刊) 2010(05)
    • [11].标准数字化全文检索系统构建探讨[J]. 中国管理信息化 2016(15)
    • [12].一个多线程全文检索系统的构建[J]. 长江大学学报(自然科学版)理工卷 2010(03)
    • [13].论国内三大中文文献全文检索系统在图书馆参考咨询服务中的选择应用[J]. 才智 2009(18)
    • [14].面向大规模语料库的全文检索系统研究[J]. 图书与情报 2008(04)
    • [15].大数据分布式全文检索系统的设计与实现[J]. 计算机与数字工程 2016(12)
    • [16].浅谈全文检索系统中文档相关性排序问题[J]. 电子世界 2012(08)
    • [17].对等网络中全文检索系统的设计与实现[J]. 计算机工程与应用 2010(10)
    • [18].欢迎订购[J]. 水利技术监督 2019(05)
    • [19].水利水电技术标准全文检索系统[J]. 水利技术监督 2018(04)
    • [20].大数据分布式全文检索系统的设计与实现[J]. 计算机产品与流通 2017(08)
    • [21].修订限定的SVN全文检索系统研究与实现[J]. 计算机应用与软件 2017(11)
    • [22].全文检索系统中语种识别与索引技术研究[J]. 网络安全技术与应用 2009(12)
    • [23].欢迎订购[J]. 水利技术监督 2019(02)
    • [24].欢迎订购[J]. 水利技术监督 2019(04)
    • [25].欢迎订购[J]. 水利技术监督 2018(03)
    • [26].“正史”中零散信息资源检索刍议[J]. 闽江学院学报 2008(06)
    • [27].图库在线全文检索系统[J]. 报刊荟萃 2018(05)
    • [28].基于lucene的全文检索系统的开发与实现[J]. 信息与电脑(理论版) 2011(18)
    • [29].欢迎订购[J]. 水利技术监督 2018(06)
    • [30].欢迎订购[J]. 水利技术监督 2018(01)

    标签:;  ;  ;  ;  

    基于Lucene的全文检索系统的研究与应用
    下载Doc文档

    猜你喜欢