论文摘要
随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,信息检索系统已经成为人们获取有用信息不可缺少的工具。传统的文本信息检索方法的基本思路为,查询式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简单匹配检索出的结果并不是最优的,原因在于词汇间的同义性和单个词汇的歧义性。用户在查找信息时虽然知道自己的需求,但却不能很好的用文字表达出来,因此开发出一种工具来自动生成用户需求的辅助信息成为了信息检索的一个主要研究方向。本文分析了一种信息检索模型—基于Markov网络的信息检索方法,它不同于传统的基于词汇匹配的检索方法,而是将计算机科学、图论、概率论的思想、技术融合起来,将文档检索看成是图形推理过程。Markov网络被广泛用于不确定性知识表示和推理,以及变量之间的证据传递,是处理不确定性问题的有力工具。检索推理网络是将查询作为证据源,被激活的文档视为相关文档,将与查询密切相关的信息也作为证据源检索回更多的相关文档,提高检索效果。文章简述了Markov网络产生的背景与研究概况、基本原理与思路的基础,对四个基于Markov网络的检索模型进行了综述。通过对训练文档集的学习,我们以词与词之间的关联性来构造Markov网络,利用网络中的无向边,通过多层推理激活与查询词密切相关的词作为查询附加证据源,使得检索回的信息更加完善。在五个英文标准数据集上进行测试和结果分析,大量的实验结果表明,我们的几个模型都比Bayies网络模型、BM25等模型表现的更好,可以极有效地提高检索的效果。本文主要进行了以下几个方面的工作:1.对几种Markov检索模型进行了详细的综述,并且对其核心的Markov网络的构造方法进行了对比、总结;2 .提出并运用加强跌代的算法计算索引项的相关性来构造Markov网络,并进行多层次的网络推理检索。