论文摘要
本文对基于统计语言建模(SLM, Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在这一基础上,针对SLM检索方法中文档建模和查询建模这两个关键问题,本文就文档语言模型的平滑估计、启发式查询扩展及其在查询似然检索模型中的整合以及查询语言模型的估计和联想式扩展等几个方面作了较为深入的研究。针对查询似然检索模型中文档一元语言模型的平滑估计问题,本文详细地分析了几种常用的平滑方法对检索性能的影响模式和平滑参数的最优取值规律,探讨了平滑在查询似然检索模型中所扮演的功能角色,提出了一种改进的线性插值平滑方法GJM-2,利用文档中不同词项的个数这一统计信息来改善平滑的效果。考虑到传统的平滑方法在进行平滑处理时对不同词项的差异性有所忽视,本文还提出了基于词项风险的平滑模型,将词项风险引入传统的平滑方法。实验结果表明,与传统的平滑方法相比,GJM-2平滑方法和基于词项风险的平滑模型均能有效地提高检索性能。在信息检索中,启发式查询扩展是改善检索性能的重要技术手段。我们研究了在查询似然检索模型中如何进行启发式查询扩展的问题。针对查询似然检索模型在实现查询扩展上存在的先天不足,我们通过引入查询词的权重信息对查询似然检索模型进行了改进,提出了WQL检索模型,从而可以将传统的各种启发式查询扩展方法很自然地整合进来,实验结果验证了整合的有效性。此外,通过对传统扩展方法的分析,本文还提出了一种基于局部共现的查询扩展方法LOCOOC,利用候选词与初始查询在局部文档集合中的共现程度来评估候选词的质量,并整合了候选词在文档集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:基于WQL检索模型,采用LOCOOC扩展方法可以使检索性能(平均准确率)提高40%以上;与传统的几种典型的扩展方法相比,该扩展方法具有更为优越的扩展性能。启发式的查询扩展方法采用的是启发式的扩展词选取策略和权重修正策略,缺乏严格的数学推导和理论依据。本文研究了KL距离检索模型架构内如何利用统计语言模型实现查询扩展的问题,从查询语言模型反推的角度探讨了查询扩展的实现途径,为查询扩展的理论研究提供了一条可行的思路。考虑到词项之间具有一定的主题内部依赖关系,本文提出了基于词项联想式扩展的反推策略,将词项之间的统计依赖关系整合到查询语言模型的反推过程中。在这种反推策略中,我们提出了“词项联想网络”(WAN, Word Association Network)的概念用以描述词项之间的统计依赖关系,阐述了利用WAN对查询语言模型进行反推的基本思路和方法,并给出了两种度量词项依赖概率的有效方法。
论文目录
相关论文文献
- [1].数字图书馆的图像检索模型研究[J]. 图书馆理论与实践 2015(06)
- [2].基于本体的语义信息检索模型研究[J]. 软件工程师 2015(08)
- [3].基于加权策略的最优公交车路径检索模型[J]. 电脑知识与技术 2014(05)
- [4].基于语义的数字图书馆检索模型研究[J]. 信息系统工程 2013(02)
- [5].结构化文档检索模型的改进研究[J]. 情报科学 2010(11)
- [6].基于描述逻辑的概念检索模型[J]. 辽宁工程技术大学学报(自然科学版) 2009(03)
- [7].基于本体论的数字档案馆知识检索模型的研究[J]. 大众科技 2012(05)
- [8].基于构件的协同检索模型[J]. 武汉大学学报(工学版) 2009(04)
- [9].认知建构视角下交互式信息检索模型研究[J]. 图书情报知识 2020(02)
- [10].基于语义分析的文本相似检索模型研究[J]. 电子技术与软件工程 2020(17)
- [11].基于领域本体的贝叶斯网络检索模型研究[J]. 计算机与现代化 2012(03)
- [12].一种基于领域本体的资源反馈检索模型研究[J]. 电脑与电信 2015(03)
- [13].基于反馈日志的工程图纸检索模型研究[J]. 计算机应用研究 2011(06)
- [14].基于本体和多代理的知识检索模型研究[J]. 计算机工程与设计 2009(09)
- [15].面向审查任务的中文专利检索模型与实验[J]. 计算机应用研究 2008(05)
- [16].基于语义的数字图书馆检索模型研究[J]. 现代电子技术 2016(09)
- [17].贝叶斯网络检索模型的性能评估[J]. 计算机工程与应用 2011(31)
- [18].基于推理的语义网检索模型及关键技术研究[J]. 计算机工程与设计 2013(07)
- [19].基于示例语义的音乐检索模型[J]. 山东大学学报(理学版) 2017(06)
- [20].初探基于特征的触发式专利检索模型[J]. 电子制作 2013(15)
- [21].基于结构挖掘的论坛检索模型[J]. 中文信息学报 2011(01)
- [22].基于内容的民族音乐检索模型构建与实现[J]. 电子设计工程 2016(19)
- [23].基于互信息和本体的协同检索模型的研究[J]. 计算机科学 2008(04)
- [24].信念网络检索模型扩展研究[J]. 计算机工程与应用 2009(10)
- [25].我国法律本体检索模型的研究[J]. 法律方法 2015(02)
- [26].基于大规模问答对数据的问题检索模型[J]. 计算机工程 2011(21)
- [27].本体向量文献检索模型研究[J]. 情报探索 2010(11)
- [28].图书馆数字资源一站式检索模型研究[J]. 河南图书馆学刊 2017(08)
- [29].个性化语义Web服务检索模型[J]. 齐齐哈尔大学学报(自然科学版) 2013(05)
- [30].基于垂直搜索引擎的特色数据库检索模型[J]. 内蒙古科技与经济 2010(24)
标签:信息检索论文; 统计语言模型论文; 查询似然检索模型论文; 平滑论文; 查询扩展论文; 距离检索模型论文; 词项联想网络论文; 联想式扩展论文;