基于Lucene的企业文档搜索引擎研究与应用

基于Lucene的企业文档搜索引擎研究与应用

论文摘要

随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商用搜索引擎检索会让公司蒙受损失。因此,设计高效、可靠的企业文档搜索引擎,检索企业相关信息成为当前研究的热点。本文在企业文档搜索引擎总体设计的基础上,充分结合了词典分词速度快和统计分词的新词识别能力的特点,提出了基于词典的统计分词算法,相比Lucene自带的分词算法具有较大改进,减少了关键字所对应的文档数量,提高了分词的准确性和索引质量。在向量空间模型的基础上引入分类和加权方法,充分利用了向量空间模型计算文档的相关性,使用分类技术对文档进行分类从而缩小文档集合的范围,降低了计算规模,利用加权处理以突出不同文档集合的重要性,进一步提高了重要文档的得分,提高了搜索准确度。然后,在基于Lucene的企业文档搜索引擎系统中应用基于词典和统计的分词算法、基于分类加权的向量空间模型的排序算法,改进了Lucene的核心模块,提高了搜索结果的准确率,使之具有更高的实用价值。同时,为企业文档搜索引擎设计了索引、检索、Web等层面的缓存,有效地降低了搜索的时间。在lucene索引的基础上引入了基于数据库的索引结构,保证了系统的性能要求。实验结果表明,本文提出的基于Lucene的企业文档搜索引擎改善了Lucene的文档排序效果和检索效率,保证了搜索结果的准确性。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题背景
  • 1.2 研究现状
  • 1.3 研究内容及意义
  • 1.4 本文组织
  • 2 企业文档搜索引擎及核心技术研究
  • 2.1 企业文档搜索引擎
  • 2.1.1 系统架构
  • 2.1.2 模块划分
  • 2.1.3 工作流程
  • 2.2 分词算法
  • 2.2.1 Lucene自带的分词算法
  • 2.2.2 基于词典的统计分词算法
  • 2.3 搜索结果排序
  • 2.3.1 基于分类加权的向量空间模型
  • 2.3.2 企业文档搜索引擎结果排序
  • 2.4 缓存机制和分页技术
  • 2.4.1 企业文档搜索引擎缓存机制
  • 2.4.2 基于数据库和缓存的多次查询
  • 2.5 基于数据库的索引结构
  • 2.6 小结
  • 3 基于Lucene的企业文档搜索引擎实现
  • 3.1 Lucene
  • 3.2 基于Lucene企业文档搜索引擎
  • 3.2.1 数据流分析
  • 3.2.2 索引结构分析
  • 3.2.3 系统框架
  • 3.3 文档预处理模块
  • 3.4 索引模块
  • 3.4.1 数据库结构设计
  • 3.4.2 索引建立
  • 3.5 搜索模块
  • 3.6 小结
  • 4 实验分析
  • 4.1 实验数据
  • 4.2 实验环境
  • 4.3 算法比较
  • 4.3.1 分词算法比较
  • 4.3.2 索引参数优化配置比较
  • 4.3.3 搜索结果分析
  • 4.4 小结
  • 5 总结与展望
  • 参考文献
  • 附录 攻读学位期间的主要学术成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于Lucene的企业文档搜索引擎研究与应用
    下载Doc文档

    猜你喜欢