论文摘要
在当今信息爆炸时代,信息过量成为人人面对的问题,如何从信息的汪洋大海中高效、准确地查找到所需要的信息一直是信息检索研究的热点之一。然而,目前大部分搜索引擎等web信息检索系统依赖于布尔查询技术和基于关键词机械式的符号匹配,使得人们查询信息时出现难以克服的问题,即信息迷向、信息过载和词不匹配等,致使信息检索系统的查全率和查准率低下。针对这些问题,查询扩展应运而生,并得到蓬勃发展,被国内外专家学者的广泛关注和研究。不同的学者从不同的角度提出了各种查询扩展模型,然而都没有最终解决查全率和查准率问题,更没有从根本上消除用户查询意图与检索结果之间的语义偏差和查询词的歧义问题。本文在分析传统查询扩展算法不足的基础上,将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的查询扩展算法,取得了一些可喜的研究成果。具体的研究主题包括完全加权关联规则挖掘算法及其在查询扩展中的应用两个方面,分别在完全加权关联规则挖掘算法、基于完全加权关联规则挖掘的局部反馈查询扩展以及基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展等三点进行研究和探讨。论文的主要工作如下:(1)深入研究和分析现有的关联规则挖掘、加权关联规则挖掘、项完全加权关联规则挖掘和查询扩展等算法的特点及其不足,并系统地综述了查询扩展的研究进展。(2)在深入研究现有完全加权关联规则挖掘算法的特点和局限性的基础上,提出基于三次剪枝的完全加权关联规则挖掘算法(即MAWAR算法),给出与其相关的定理及其证明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。(3)将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的局部反馈查询扩展算法。该算法利用本文的MAWAR算法,自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从规则库中提取与原查询相关的扩展词,实现查询扩展。实验结果表明该查询扩展算法的检索性能确实得到了很好的改善和提高。(4)在基于完全加权关联规则挖掘的局部反馈查询扩展算法中,提出一种新的扩展词权重的计算方法,使扩展词的权值更合理;提出基于四次剪枝的挖掘策略,使挖掘效率极大地提高,实验结果表明其挖掘时间比原来的平均减少87.84%。(5)通过实验研究完全加权关联规则支持度、置信度及扩展词数量对查询扩展检索性能的影响。实验结果表明查询扩展的检索性能是受多方面因素综合影响的,并不是单一地只受某一因素影响。(6)为了更好的将关联规则挖掘技术应用于查询扩展,发现一些优秀的查询扩展模型,本文归纳出4类共13种基于完全加权词间关联规则挖掘的查询扩展模型,通过实验分析比较各种扩展模型的检索性能,从中发现一些较优的模型。(7)针对现有基于局部反馈和用户相关反馈的查询扩展缺陷,提出基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展算法,设计相应的查询扩展检索系统。该系统在不改变用户查询习惯的情况下,根据用户点击浏览文档的时间长短或者是否进行下载操作等查询行为,判断该文档是否与用户查询意图相关,或者是用户感兴趣的。算法能自动对相关的文档进行完全加权关联规则挖掘,构造规则库,从规则库中提取与原查询相关的语词作为扩展词,实现查询扩展。实验结果表明该算法的有效性,其检索性能有了明显的提高。(8)设计和实现查询扩展原型系统,研究如何实现查询扩展原型系统及其数据结构、主要模型和具体的实现代码等等。利用所设计的查询扩展原型系统进行相关的实验,评估本论文提出的有关算法的性能,最后进行实验结果的显著性验证。