基于PLSI的信息检索中查询扩展相关技术研究

基于PLSI的信息检索中查询扩展相关技术研究

论文摘要

随着信息时代的到来,各种信息资源越来越丰富,尤其是互联网资源。为了能够从这些海量数据中获取所需要的各种各样信息,需要高效的信息检索系统,它是人们获取所需信息的钥匙。当前的信息检索系统普遍存在着很难在持续快速增长的互联网上准确、全面地检索与用户查询要求相关的文档的问题。针对这些问题,本文从文档文摘和查询扩展两个方面进行了研究,在抽取文档文摘的基础上提出了基于概率潜在语义索引(PLSI, Probabilistic Latent Semantic Indexing)模型的查询扩展方法,并且将该方法同目前普遍采用的其它相关反馈方法在检索性能上进行比较,来改进检索性能。主要研究内容包括:1.面向检索的文摘。本文对机械文摘的一般方法进行了研究,针对检索任务,生成一个面向检索的文摘将对提高检索的效率起到积极的作用。本文在语言模型框架下,验证了文摘在对检索性能上的影响。2.基于概率潜在语义索引模型的查询扩展。该方法在对查询选取扩展词时充分利用了语言成分以及自然语言词汇具有多义性和歧义性,并且考虑了上下文对语义的限定等因素。通过在TREC测试集上进行的实验表明,相对于未进行查询扩展的简单的语言模型,本文的方法在检索性能上取得了一致性大幅的提高。3.分析比较了基于PLSI的查询扩展方法和目前普遍采用的伪反馈方法在检索性能上的差别。通过在TREC测试集上的实验表明,本文提出的基于PLSI的查询扩展方法和目前普遍采用的几种伪反馈方法在检索性能上相比,其检索性能都优于目前普遍采用的伪反馈方法,检索性能提升幅度最大达到45.74%,提高接近了一半的检索性能。因为伪反馈的有效性依赖于检索结果的相关度,它能克服上述伪反馈方法的不足。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 本文研究的背景及意义
  • 1.2 国内外相关研究综述
  • 1.2.1 信息检索模型综述
  • 1.2.2 查询扩展
  • 1.3 本文的主要内容及组织
  • 第2章 面向检索的文摘
  • 2.1 引言
  • 2.2 相关研究综述
  • 2.2.1 语言模型
  • 2.2.2 文摘方法综述
  • 2.3 面向检索的文摘生成方法
  • 2.3.1 查询因子
  • 2.3.2 标题因子
  • 2.3.3 位置因子
  • 2.3.4 重要词因子
  • 2.3.5 句子分值
  • 2.4 SBLM 模型(Summary-based Language Model)
  • 2.5 实验与结果分析
  • 2.5.1 实验数据集
  • 2.5.2 平滑方法及参数设定
  • 2.5.3 实验设计
  • 2.5.4 实验结果分析
  • 2.6 本章小结
  • 第3章 概率潜在语义索引模型
  • 3.1 引言
  • 3.2 方面模型(Aspect Model)
  • 3.3 改进的EM 算法
  • 3.4 潜在语义的直观表示
  • 3.5 本章小结
  • 第4章 基于PLSI 的查询扩展
  • 4.1 引言
  • 4.2 基于PLSI 的查询扩展方法简介
  • 4.3 实验系统设计
  • 4.3.1 评价指标
  • 4.3.2 实验环境
  • 4.3.3 系统框架
  • 4.4 实验结果及分析
  • 4.5 与其他相关反馈方法的结果比较分析
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于PLSI的标签聚类研究[J]. 计算机应用研究 2013(05)
    • [2].多变参pLSI文本敏感特征抽取算法[J]. 计算机应用研究 2015(09)

    标签:;  ;  ;  ;  

    基于PLSI的信息检索中查询扩展相关技术研究
    下载Doc文档

    猜你喜欢