多值属性关联规则的研究与实现

论文摘要

在信息爆炸的时代,面对“人们被数据淹没,同时却仍然感到知识饥饿”的挑战,数据挖掘技术应运而生,并得以蓬勃发展。关联规则挖掘是一个重要的研究领域。目前对其的研究主要是集中在以支持-信任理论为基础对布尔型数据进行挖掘,并且已取得了一些研究成果,要从这些数据中挖掘潜在的规则,现有的布尔型关联规则方法就显得力不从心了。如何划分区段是实现多值属性关联规则问题到布尔型关联规则问题转变的关键。挖掘多值属性关联规则的关键步骤是把数值型属性所在的域分成多个区间。在划分区段方面,现有的方法多是把数值属性所在的域划分成等宽的或等深的区间,或者在一个（或一组）属性上使用聚类算法。虽然这些算法能很好的解决多值型的数据挖掘问题,但是不能避免最小支持度和最小可信度冲突的问题,而且有可能错过一些重要的规则。本文所提方法是,把一个交易作为一个n维向量,并且在多个n维向量上对所有属性使用迭代自组织的数据分析算法（ISODATA）进行聚类。由于ISODATA的试探特性,并且可以结合成人机交互的结构,使其能利用中间结果所取得的经验更好地进行分类。把聚类投影到数值型属性所在的区间形成可能重叠的区间,最后使用布尔型关联规则挖掘算法来挖掘关联规则。该算法既考虑了交易之间的距离,又考虑了属性之间的关系,而且能避免最小支持度和最小可信度之间的冲突。实验结果显示,该方法能有效地挖掘多值属性关联规则,而且能够发现可能被以前的算法错过的重要的规则。

论文目录

摘要

ABSTRACT

1 绪论

1.1 选题背景及研究意义

1.1.1 选题背景

1.1.2 研究意义

1.2 国内外研究动态及发展趋势

1.2.1 国内研究现状

1.2.2 国外研究现状

1.2.3 数据挖掘研究的发展趋势

1.3 论文的主要内容和结构

1.4 本章小结

2 数据挖掘综述

2.1 数据挖掘与知识发现

2.2 数据挖掘过程

2.3 数据挖掘的功能及模式

2.3.1 数据挖掘的功能

2.3.2 数据挖掘的模式

2.4 数据挖掘的研究热点与应用领域

2.4.1 数据挖掘的研究热点

2.4.2 数据挖掘的应用领域

2.5 本章小结

3 关联规则挖掘的理论与算法

3.1 关联规则的基本概念

3.2 关联规则的种类

3.3 关联规则的核心算法Apriori

3.3.1 Apriori 性质

3.3.2 利用候选项集找频繁项集

3.3.3 Apriori 的算法描述及示例

3.3.4 Apriori 的性能分析

3.4 关联规则的主要研究方向

3.5 本章小结

4 多值属性关联规则的理论及算法

4.1 多值属性关联规则的提出

4.2 多值属性关联规则的基本概念

4.3 多值属性关联规则的相关算法

4.3.1 MAQA 算法

4.3.2 FCM 算法

4.4 本章小结

5 利用相关算法挖掘多值属性关联规则

5.1 ISODATA 算法的相关概念

5.1.1 样品与样品之间的距离

5.1.2 样品与类之间的距离

5.1.3 类内距离

5.1.4 类与类之间的距离

5.2 迭代自组织的数据分析算法（ISODATA）

5.2.1 理论基础

5.2.2 实现步骤

5.3 算法描述

5.4 算法结果分析

5.5 本章小结

6 结论

致谢

参考文献

附录

多值属性关联规则的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢