论文摘要
随着信息时代的到来,各种信息资源越来越丰富,尤其是互联网资源。为了能够从这些海量数据中获取所需要的各种各样信息,需要高效的信息检索系统,它是人们获取所需信息的钥匙。当前的信息检索系统普遍存在着很难在持续快速增长的互联网上准确、全面地检索与用户查询要求相关的文档的问题。针对这些问题,本文从文档文摘和查询扩展两个方面进行了研究,在抽取文档文摘的基础上提出了基于概率潜在语义索引(PLSI, Probabilistic Latent Semantic Indexing)模型的查询扩展方法,并且将该方法同目前普遍采用的其它相关反馈方法在检索性能上进行比较,来改进检索性能。主要研究内容包括:1.面向检索的文摘。本文对机械文摘的一般方法进行了研究,针对检索任务,生成一个面向检索的文摘将对提高检索的效率起到积极的作用。本文在语言模型框架下,验证了文摘在对检索性能上的影响。2.基于概率潜在语义索引模型的查询扩展。该方法在对查询选取扩展词时充分利用了语言成分以及自然语言词汇具有多义性和歧义性,并且考虑了上下文对语义的限定等因素。通过在TREC测试集上进行的实验表明,相对于未进行查询扩展的简单的语言模型,本文的方法在检索性能上取得了一致性大幅的提高。3.分析比较了基于PLSI的查询扩展方法和目前普遍采用的伪反馈方法在检索性能上的差别。通过在TREC测试集上的实验表明,本文提出的基于PLSI的查询扩展方法和目前普遍采用的几种伪反馈方法在检索性能上相比,其检索性能都优于目前普遍采用的伪反馈方法,检索性能提升幅度最大达到45.74%,提高接近了一半的检索性能。因为伪反馈的有效性依赖于检索结果的相关度,它能克服上述伪反馈方法的不足。
论文目录
相关论文文献
- [1].基于PLSI的标签聚类研究[J]. 计算机应用研究 2013(05)
- [2].多变参pLSI文本敏感特征抽取算法[J]. 计算机应用研究 2015(09)
标签:信息检索论文; 查询扩展论文; 概率潜在语义索引论文; 文摘论文;