论文摘要
数据挖掘的任务是发现大型数据集中隐藏的、预先未知的知识。关联规则的挖掘是数据挖掘研究的重要问题之一。该问题自1993年被R.Agrawal等人提出以来,一直受到广泛关注和重视。通常,关联规则的挖掘分两步:(1)挖掘所有的频繁项集;(2)由频繁项集产生强关联规则。其中第一步的时间复杂度远高于第二步。从频繁项集产生关联规则的方法是简单的,但是可能导致无意义的关联规则的产生。一些研究者注意到这一问题,提出在产生关联规则时利用提升度判断规则前、后件之间的正相关性,进一步过滤掉一些无意义的规则。但是,这种做法仍然存在两个问题:(1)不能减少挖掘频繁项集的时间开销。(2)不能保证规则前件(后件)中的项是正相关的,当规则的前件或后件内部存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,本文基于数学期望,引进正相关的频繁项集的概念,并给出一种挖掘正相关的频繁项集的算法。本文的算法可以直接在FP-树中挖掘正相关的频繁项集,将正相关性的判断推进到了挖掘频繁项集的过程中。这样,不仅可以大幅度地减少产生频繁项集的数量,显著地提高挖掘频繁项集的效率,而且在由频繁项集产生关联规则时,可以有效地避免产生无意义的关联规则。此外,在挖掘频繁项集时,本文的算法还通过提取公共项,进一步降低了递归地构造条件FP-树的时间开销。在UCI机器学习基准数据集上实验表明,本文算法可以大幅度地减少产生频繁项集的数量,显著地提高挖掘频繁项集的效率,具有很好的性能,对于大型、稠密数据集尤其如此。
论文目录
摘要ABSTRACT目录第一章 绪论1.1 课题研究背景1.2 本文的主要工作1.3 课题的研究价值和意义1.4 本文的内容组织第二章 数据挖掘和关联规则2.1 数据挖掘和KDD2.1.1 数据挖掘和KDD的概念2.1.2 数据挖掘的分类2.1.3 数据挖掘面临的挑战2.1.4 数据挖掘研究的热点2.2 关联规则的基本概念2.3 关联规则的分类2.3.1 基于规则中处理的变量类别分类2.3.2 基于规则中数据的抽象层次分类2.3.3 基于规则中涉及到的数据维数分类2.4 关联规则的发展方向2.5 由关联挖掘到相关分析第三章 频繁项集的挖掘算法3.1 频繁项集挖掘的基本策略3.1.1 频繁项集生成中解空间的类型3.1.2 频繁项集生成中的搜索方法和剪枝策略3.1.3 数据库的表示方法3.1.4 数据压缩技术3.2 APRIORI挖掘算法3.2.1 Apriori核心算法3.2.2 挖掘频繁项集的优化方法3.3 频繁模式增长算法3.4 CLOSET和CLOSET+算法3.5 MAXMINER算法第四章 挖掘正相关的频繁项集4.1 问题提出4.2 兴趣度度量标准4.2.1 客观度量4.2.2 主观度量4.3 正相关频繁项集的概念4.4 算法思想4.4.1 改进的FP-树4.4.2 公共项的处理4.4.3 相关性判断4.4.4 算法描述第五章 实验结果和分析5.1 实验环境5.2 实验数据5.3 实验分析5.4 进一步讨论5.4.1 零事务问题5.4.2 遗漏的频繁项集第六章 总结和展望6.1 全文总结6.2 工作展望参考文献致谢攻读硕士学位期间发表论文情况
相关论文文献
标签:关联规则论文; 频繁项集论文; 正相关论文;