基于完全加权关联规则挖掘的查询扩展研究

基于完全加权关联规则挖掘的查询扩展研究

论文摘要

在当今信息爆炸时代,信息过量成为人人面对的问题,如何从信息的汪洋大海中高效、准确地查找到所需要的信息一直是信息检索研究的热点之一。然而,目前大部分搜索引擎等web信息检索系统依赖于布尔查询技术和基于关键词机械式的符号匹配,使得人们查询信息时出现难以克服的问题,即信息迷向、信息过载和词不匹配等,致使信息检索系统的查全率和查准率低下。针对这些问题,查询扩展应运而生,并得到蓬勃发展,被国内外专家学者的广泛关注和研究。不同的学者从不同的角度提出了各种查询扩展模型,然而都没有最终解决查全率和查准率问题,更没有从根本上消除用户查询意图与检索结果之间的语义偏差和查询词的歧义问题。本文在分析传统查询扩展算法不足的基础上,将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的查询扩展算法,取得了一些可喜的研究成果。具体的研究主题包括完全加权关联规则挖掘算法及其在查询扩展中的应用两个方面,分别在完全加权关联规则挖掘算法、基于完全加权关联规则挖掘的局部反馈查询扩展以及基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展等三点进行研究和探讨。论文的主要工作如下:(1)深入研究和分析现有的关联规则挖掘、加权关联规则挖掘、项完全加权关联规则挖掘和查询扩展等算法的特点及其不足,并系统地综述了查询扩展的研究进展。(2)在深入研究现有完全加权关联规则挖掘算法的特点和局限性的基础上,提出基于三次剪枝的完全加权关联规则挖掘算法(即MAWAR算法),给出与其相关的定理及其证明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。(3)将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的局部反馈查询扩展算法。该算法利用本文的MAWAR算法,自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从规则库中提取与原查询相关的扩展词,实现查询扩展。实验结果表明该查询扩展算法的检索性能确实得到了很好的改善和提高。(4)在基于完全加权关联规则挖掘的局部反馈查询扩展算法中,提出一种新的扩展词权重的计算方法,使扩展词的权值更合理;提出基于四次剪枝的挖掘策略,使挖掘效率极大地提高,实验结果表明其挖掘时间比原来的平均减少87.84%。(5)通过实验研究完全加权关联规则支持度、置信度及扩展词数量对查询扩展检索性能的影响。实验结果表明查询扩展的检索性能是受多方面因素综合影响的,并不是单一地只受某一因素影响。(6)为了更好的将关联规则挖掘技术应用于查询扩展,发现一些优秀的查询扩展模型,本文归纳出4类共13种基于完全加权词间关联规则挖掘的查询扩展模型,通过实验分析比较各种扩展模型的检索性能,从中发现一些较优的模型。(7)针对现有基于局部反馈和用户相关反馈的查询扩展缺陷,提出基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展算法,设计相应的查询扩展检索系统。该系统在不改变用户查询习惯的情况下,根据用户点击浏览文档的时间长短或者是否进行下载操作等查询行为,判断该文档是否与用户查询意图相关,或者是用户感兴趣的。算法能自动对相关的文档进行完全加权关联规则挖掘,构造规则库,从规则库中提取与原查询相关的语词作为扩展词,实现查询扩展。实验结果表明该算法的有效性,其检索性能有了明显的提高。(8)设计和实现查询扩展原型系统,研究如何实现查询扩展原型系统及其数据结构、主要模型和具体的实现代码等等。利用所设计的查询扩展原型系统进行相关的实验,评估本论文提出的有关算法的性能,最后进行实验结果的显著性验证。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 论文的研究背景
  • 1.2 本论文研究内容
  • 1.3 本论文的组织结构
  • 第2章 信息检索简介与查询扩展研究进展
  • 2.1 信息检索概述
  • 2.1.1 信息检索简介
  • 2.1.2 经典信息检索模型
  • 2.1.3 信息检索性能评测方法
  • 2.2 查询扩展技术研究进展
  • 2.2.1 查询扩展简介
  • 2.2.2 查询扩展技术研究进展
  • 2.3 本章小结
  • 第3章 关联规则挖掘算法研究
  • 3.1 数据挖掘概述
  • 3.2 关联规则挖掘算法的研究现状
  • 3.3 关联规则挖掘的基本概念及其挖掘过程
  • 3.3.1 基本概念
  • 3.3.2 关联规则挖掘过程
  • 3.4 Apriori 算法分析
  • 3.4.1 Apriori 算法的性质
  • 3.4.2 Apriori 算法的基本思想
  • 3.4.3 Apriori 算法的连接和剪枝策略
  • 3.4.4 Apriori 算法的局限性
  • 3.5 项加权关联规则挖掘算法分析
  • 3.5.1 项加权关联规则挖掘的基本概念
  • 3.5.2 项加权关联规则挖掘算法的基本思想及其剪枝策略
  • 3.5.3 项加权关联规则挖掘算法的局限性
  • 3.6 小结
  • 第4章 项完全加权关联规则挖掘算法研究
  • 4.1 引言
  • 4.2 项完全加权关联规则挖掘模型及其有关概念和定理
  • 4.3 现有项完全加权关联规则挖掘算法的不足
  • 4.4 基于三次剪枝的项完全加权关联规则挖掘算法
  • 4.4.1 算法的基本思想
  • 4.4.2 三种剪枝策略
  • 4.4.3 算法描述
  • 4.5 算法性能评测与分析
  • 4.5.1 实验数据集
  • 4.5.2 实验设计与性能评侧
  • 4.5.3实 实验结果分析
  • 4.6 本章小结
  • 第5章 基于完全加权关联规则挖掘的局部反馈查询扩展算法研究
  • 5.1 传统查询扩展机制存在的缺陷
  • 5.2 基于完全加权关联规则挖掘的局部反馈查询扩展算法
  • 5.2.1 算法的基本思想
  • 5.2.2 初检文档数量的确定
  • 5.2.3 初检文档的预处理
  • 5.2.4 四种剪枝策略
  • 5.2.5 查询扩展模型
  • 5.2.6 扩展词权重的计算方法
  • 5.2.7 查询扩展算法描述
  • 5.3 实验设计及其结果分析
  • 5.3.1 实验测试文档集和查询集及其语料预处理
  • 5.3.2 查询扩展原型实验检索系统的设计与实现
  • 5.3.3 实验评估标准和显著性验证
  • 5.3.4 实验结果及其分析
  • 5.4 支持度、置信度及扩展词的数量对查询扩展检索性能的影响研究
  • 5.4.1 实验设计
  • 5.4.2 实验结果分析
  • 5.5 本章小结
  • 第6章 基于完全加权关联规则挖掘的局部反馈查询扩展模型研究
  • 6.1 引言
  • 6.2 后件扩展模型
  • 6.3 前件扩展模型
  • 6.4 双向扩展模型
  • 6.5 综合全扩展模型
  • 6.6 各种查询扩展模型的检索性能实验对比及其结果分析
  • 6.6.1 实验设计及其结果
  • 6.6.2实 实验结果分析
  • 6.7 本章小结
  • 第7章 基于用户点击浏览行为和完全加权关联规则挖掘的查询扩展研究
  • 7.1 引言
  • 7.2 基于户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展算法
  • 7.2.1 算法的基本思想
  • 7.2.2 用户查询行为的捕捉与相关文档的确定
  • 7.2.3 相关文档的预处理与完全加权关联规则挖掘
  • 7.2.4 查询扩展模型及其扩展词权重的计算方法
  • 7.2.5 查询扩展算法描述
  • 7.3 查询扩展检索系统的设计
  • 7.4 实验设计及其结果分析
  • 7.5 本章结论
  • 第8章 全文总结与工作展望
  • 8.1 全文总结
  • 8.2 工作展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于完全加权关联规则挖掘的查询扩展研究
    下载Doc文档

    猜你喜欢