LUCENE中文分词在科研文档全文检索系统的应用研究

LUCENE中文分词在科研文档全文检索系统的应用研究

论文摘要

如何快速有效地从海量的信息资源中找到自己所需要的资源,已经成为人们越来越重视的问题。全文检索技术即是可以解决这个问题的主要技术。目前广泛使用的全文检索技术是Lucene工具包。Lucene是一个开源的全文检索引擎组件,在此基础上可以方便地对其进行二次开发来实现全文检索系统。但是Lucene仍有许多不足的地方需要进行改进,特别是在中文分词的处理上。由于中文分词质量的准确与否,将直接影响到用户对搜索结果的满意度,因此中文分词技术在全文检索系统中尤为重要,也是本文研究的关键内容。论文首先阐述了Lucene全文检索的相关技术,阐述了现有的中文分词方法,然后分析了Lucene的两个分析器ChineseAnalyzer和CJKAnalyzer的不足,并提出了基于词典的双向最大匹配分词算法;分析了Lucene对于文档格式支持的局限性,提出了一个通用的文本解析框架。论文的主要工作是分析设计并实现了一个基于Lucene的科研文档全文检索系统。分析了系统的总体架构和功能模块,对系统进行了总体设计和详细设计。针对科研文档格式的多样性,构建了文本解析模块,可以对多格式文档进行解析。系统的中文分析器采用改进的中文分词算法实现。对文本解析模块、中文分析器和系统的性能进行实验分析,通过实验证明,中文分析器的分词效果非常显著,系统的查全率和查准率都达到了用户的满意度。最后,论文对基于Lucene的科研文档全文检索系统进行了分析,总结了本文取得的成果,并对未来进一步的工作内容进行了展望。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 本文主要工作
  • 1.3 论文的主要创新
  • 1.4 论文结构
  • 第二章 相关技术研究
  • 2.1 全文检索技术
  • 2.1.1 全文检索系统
  • 2.1.2 全文检索基本原理
  • 2.1.3 全文检索衡量标准
  • 2.2 LUCENE全文检索工具包
  • 2.2.1 LUCENE系统架构
  • 2.2.2 LUCENE数据流
  • 2.2.3 LUCENE索引结构
  • 2.2.4 LUCENE优势
  • 2.3 本章小结
  • 第三章 全文检索系统中关键技术研究
  • 3.1 中文分词研究与改进
  • 3.1.1 中文分词简介
  • 3.1.2 现有中文分词方法
  • 3.1.3 LUCENE中文分词方法
  • 3.1.4 改进的中文分词算法
  • 3.2 通用的文档解析框架
  • 3.2.1 LUCENE支持的文档格式
  • 3.2.2 通用的文档解析框架
  • 3.3 本章小结
  • 第四章 全文检索系统的分析与设计
  • 4.1 系统的需求分析
  • 4.2 系统的总体设计
  • 4.2.1 总体设计思想
  • 4.2.2 系统功能模块图
  • 4.3 系统的详细设计
  • 4.3.1 系统总体流程图
  • 4.3.2 系统用例图
  • 4.4 本章小结
  • 第五章 检索系统的实现与分析
  • 5.1 系统开发环境及主要技术
  • 5.1.1 系统开发环境
  • 5.1.2 Struts框架
  • 5.2 文档解析模块的实现
  • 5.2.1 PDF文档解析
  • 5.2.2 WORD文档解析
  • 5.3 索引模块的实现
  • 5.3.1 中文分析器
  • 5.3.2 索引的建立
  • 5.3.3 索引的优化
  • 5.4 检索模块的实现
  • 5.5 用户界面模块的实现
  • 5.6 实验分析
  • 5.6.1 文档解析器分析
  • 5.6.2 中文分词性能分析
  • 5.6.3 系统性能分析
  • 5.7 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 下一步的工作
  • 参考文献
  • 攻读学位期间的研究成果
  • 致谢
  • 相关论文文献

    • [1].军队医院规范指南知识库全文检索系统的建立与应用[J]. 西南国防医药 2020(09)
    • [2].标准全文检索系统及关键技术研究[J]. 标准科学 2017(01)
    • [3].基于公安业务的全文检索系统的设计与实现[J]. 无线互联科技 2015(20)
    • [4].特色数据库全文检索系统的设计[J]. 阜阳职业技术学院学报 2013(03)
    • [5].一种全文检索系统构建方法研究[J]. 信息技术与信息化 2020(11)
    • [6].Sphinx+Python+Oracle构建全文检索系统[J]. 科技传播 2011(21)
    • [7].学生优秀论文全文检索系统的开发与利用[J]. 济南职业学院学报 2009(01)
    • [8].全文检索系统在网站中的应用研究[J]. 电脑知识与技术 2012(04)
    • [9].统一新闻全文检索系统的探索与实践[J]. 中国传媒科技 2010(05)
    • [10].基于通用全文检索系统的需求分析[J]. 电脑知识与技术 2009(21)
    • [11].一个多文档全文检索系统的设计与实现[J]. 中小企业管理与科技(下旬刊) 2010(05)
    • [12].标准数字化全文检索系统构建探讨[J]. 中国管理信息化 2016(15)
    • [13].一个多线程全文检索系统的构建[J]. 长江大学学报(自然科学版)理工卷 2010(03)
    • [14].论国内三大中文文献全文检索系统在图书馆参考咨询服务中的选择应用[J]. 才智 2009(18)
    • [15].面向大规模语料库的全文检索系统研究[J]. 图书与情报 2008(04)
    • [16].大数据分布式全文检索系统的设计与实现[J]. 计算机与数字工程 2016(12)
    • [17].浅谈全文检索系统中文档相关性排序问题[J]. 电子世界 2012(08)
    • [18].对等网络中全文检索系统的设计与实现[J]. 计算机工程与应用 2010(10)
    • [19].欢迎订购[J]. 水利技术监督 2019(05)
    • [20].水利水电技术标准全文检索系统[J]. 水利技术监督 2018(04)
    • [21].大数据分布式全文检索系统的设计与实现[J]. 计算机产品与流通 2017(08)
    • [22].修订限定的SVN全文检索系统研究与实现[J]. 计算机应用与软件 2017(11)
    • [23].全文检索系统中语种识别与索引技术研究[J]. 网络安全技术与应用 2009(12)
    • [24].欢迎订购[J]. 水利技术监督 2019(02)
    • [25].欢迎订购[J]. 水利技术监督 2019(04)
    • [26].欢迎订购[J]. 水利技术监督 2018(03)
    • [27].“正史”中零散信息资源检索刍议[J]. 闽江学院学报 2008(06)
    • [28].图库在线全文检索系统[J]. 报刊荟萃 2018(05)
    • [29].基于lucene的全文检索系统的开发与实现[J]. 信息与电脑(理论版) 2011(18)
    • [30].欢迎订购[J]. 水利技术监督 2018(06)

    标签:;  ;  ;  

    LUCENE中文分词在科研文档全文检索系统的应用研究
    下载Doc文档

    猜你喜欢