基于概念格的关联规则挖掘研究与实现

基于概念格的关联规则挖掘研究与实现

论文摘要

关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、排序和显示,其核心数据结构是概念格。概念格通过概念间的泛化和特化关系来表示知识。作为一种知识表示模型,概念格能够为关联规则挖掘提供有力支持。本文分析了现有关联规则挖掘算法中存在的主要问题。针对多次数据集扫描、候选集过多等问题,提出了在经典概念格中自顶向下、通过频繁概念逐层求取所有频繁项集的关联规则挖掘算法。针对规则冗余、无法及时更新等问题,优化了量化扩展概念格的结构,提出了事务集新增、删除和修改时格上的更新操作,通过将更新操作添加到Godin算法的建格过程中,形成了一种量化扩展概念格的增量式建格算法;根据最小等价内涵、封闭集定义了非冗余关联规则的模式,证明了由该模式形成的非冗余规则集是完备的;以此为基础设计实现了基于量化扩展概念格的增量式非冗余关联规则挖掘算法及约束型关联规则的挖掘算法。通过对算法在不同形式背景下执行时间的分析,验证了本文提出的“基于经典概念格的关联规则挖掘”改进了Apriori算法在“求取频繁项集”和“生成关联规则”两个模块的执行效率;“基于量化扩展概念格的关联规则挖掘”在“生成关联规则”模块的效率和质量两方面都优于上述两个算法。通过对算法特性的总结,得出当存在大量频繁项集时,“基于量化扩展概念格的关联规则挖掘”性能最优;当形式背景规模较大、频繁项集数量较少时,虽然因建格时间过长,整体性能不如其余两个算法,但“基于量化扩展概念格的关联规则挖掘”可以根据事务变更及时更新并且能够快速挖掘约束型关联规则,因此该算法实用性更强。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景与意义
  • 1.2 研究现状
  • 1.3 本文研究内容
  • 1.4 本文组织结构
  • 第二章 相关理论与技术
  • 2.1 概念格
  • 2.1.1 概念格概述
  • 2.1.2 概念格基础理论
  • 2.1.3 非典型概念格模型
  • 2.1.4 概念格应用
  • 2.2 关联规则挖掘
  • 2.2.1 关联规则挖掘概述
  • 2.2.2 关联规则基本概念
  • 2.2.3 关联规则挖掘现有算法
  • 2.3 小结
  • 第三章 基于概念格的关联规则挖掘
  • 3.1 基于经典概念格的关联规则挖掘
  • 3.1.1 相关命题与结论
  • 3.1.2 算法思想
  • 3.1.3 基于概念格生成频繁项集
  • 3.1.4 逐层生成关联规则
  • 3.2 基于量化扩展概念格的关联规则挖掘
  • 3.2.1 基本定义和相关命题
  • 3.2.2 算法思想
  • 3.2.3 量化扩展概念格的建立
  • 3.2.4 量化扩展概念格的增量式维护
  • 3.2.5 基于量化扩展概念格挖掘关联规则
  • 3.2.6 基于量化扩展概念格挖掘约束型关联规则
  • 3.3 小结
  • 第四章 实验结果与分析
  • 4.1 实验一 算法时间构成分析
  • 4.1.1 密集型背景下挖掘关联规则
  • 4.1.2 稀疏型背景下挖掘关联规则
  • 4.1.3 实验结论
  • 4.2 实验二 用户可设定变量对算法性能的影响
  • 4.2.1 最小支持度对算法性能的影响
  • 4.2.2 背景密度对算法性能的影响
  • 4.2.3 对象个数对算法性能的影响
  • 4.2.4 属性个数对算法性能的影响
  • 4.2.5 实验结论
  • 4.3 实验三 基于量化扩展概念格的约束型规则挖掘
  • 4.4 小结
  • 第五章 结论与展望
  • 5.1 本文结论
  • 5.2 不足之处与下一步工作
  • 致谢
  • 参考文献
  • 攻读硕士期间研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于概念格的关联规则挖掘研究与实现
    下载Doc文档

    猜你喜欢