基于LUCENE的多数据源全文检索系统的设计与实现

基于LUCENE的多数据源全文检索系统的设计与实现

论文摘要

全文检索是指计算机索引程序通过扫描文章中的每个词进行检索。该检索是对文档中的每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行检索,并将结果反馈给用户的检索方式。随着信息时代的到来,各种信息资源急剧增长,人们越来越多地关注如何快速有效地从海量的信息资源中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。同时,作为某单位信息情报的基础,各种应用文档、电子文档、数字文书、信息数据库以及其它的各类数字化信息载体正不断的增加,如何安全、快速地从上百万,上千万甚至更多的情报信息中检索出准确、有效、有价值的情报信息,已经成为当前该单位信息化建设中的重要任务。然而,作为信息处理技术中最基本的信息检索技术却在该单位没有得到全面的应用,信息检索技术的研究和应用也还停留在一个比较落后的阶段,如何使先进的全文信息检索技术应用到这些单位的信息化建设中,已经越来越得到了各级的重视。本文分析了当前信息检索领域的研究及应用现状,研究了全文检索系统的特点、主要算法、全文检索的相关理论和全文检索的发展趋势及技术热点。对流行的开源全文检索工具包Lucene.Net的体系架构和主要功能模块进行了剖析,对Lucene主要索引算法:增量算法、归并算法和查找算法原理进行了解析。同时,结合某单位信息化建设的实际,在基于Lucene.Net工具包的基础上,分析并设计了适合该单位信息化建设的多数据源全文检索系统。针对该单位信息情报资源对于信息安全的特殊要求,提出了基于用户安全权限的全文检索方式,有效控制用户访问检索系统的安全权限。通过对多数据源(如doc、pdf、html、数据库..)及插件技术的研究,提出基于接口及插件技术的开发模式,很好的解决了对未知文体格式文档及新型数据库索引的扩展问题。通过对本系统进行的检索性能测试和应用实验,归纳出了本系统的特点,验证了全文检索系统的各项指标,达到了该单位信息检索系统的应用标准。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 选题的背景、目的及意义
  • 1.1.1 国内外现状
  • 1.1.2 课题学术和实用意义
  • 1.1.3 本课题的研究目的
  • 1.2 主要研究内容
  • 2 全文检索系统理论与相关技术
  • 2.1 全文检索基本原理
  • 2.2 全文检索的相关理论
  • 2.2.1 正排表索引的组织
  • 2.2.2 倒排表索引的组织
  • 2.2.3 全文检索的技术指标
  • 2.3 全文检索的发展
  • 2.3.1 全文检索的发展过程
  • 2.3.2 发展趋势及技术热点
  • 3 Lucene.Net 剖析
  • 3.1 Lucene 概述
  • 3.1.1 Lucene 的历史
  • 3.1.2 Lucene 的倒排索引原理
  • 3.1.3 Lucene 的全文索引存储文件结构
  • 3.2 Lucene.Net 系统结构
  • 3.2.1 Lucene.Net.Analysis
  • 3.2.2 Lucene.Net.Document
  • 3.2.3 Lucene.Net.Util
  • 3.2.4 Lucene.Net.Index
  • 3.2.5 Lucene.Net.Store
  • 3.2.6 Lucene.Net.Search
  • 3.2.7 Lucene.Net.QueryParser
  • 3.3 Lucene 算法分析
  • 3.3.1 增量算法
  • 3.3.2 归并算法
  • 3.3.3 查找算法
  • 4 多数据源全文检索系统的分析与设计
  • 4.1 多数据源全文检索系统的需求收集
  • 4.1.1 多数据源全文检索系统的产品描述
  • 4.1.2 多数据源全文检索系统的用例调查
  • 4.1.3 用例详细描述
  • 4.2 多数据源全文检索系统的概要设计
  • 4.2.1 多数据源全文检索系统的架构
  • 4.2.2 多数据源全文检索系统的业务流程
  • 5 多数据源全文检索系统的实现
  • 5.1 具有用户权限全文检索的实现
  • 5.1.1 安全级别规划
  • 5.1.2 用户安全数据库
  • 5.1.3 文档安全级别分类
  • 5.2 索引服务器的实现
  • 5.2.1 文档索引服务器的实现
  • 5.2.2 数据库索引服务器的实现
  • 5.3 索引查询接口的实现
  • 5.3.1 文档索引web 系统查询接口的实现
  • 5.3.2 文档索引桌面系统查询接口的实现
  • 5.3.3 数据库索引查询接口的实现
  • 5.4 多媒体文本提取插件的实现
  • 5.5 系统部分运行界面
  • 5.6 系统运行测试及分析
  • 6 结论与展望
  • 6.1 结论
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  

    基于LUCENE的多数据源全文检索系统的设计与实现
    下载Doc文档

    猜你喜欢