论文摘要
在信息爆炸的时代,面对“人们被数据淹没,同时却仍然感到知识饥饿”的挑战,数据挖掘技术应运而生,并得以蓬勃发展。关联规则挖掘是一个重要的研究领域。目前对其的研究主要是集中在以支持-信任理论为基础对布尔型数据进行挖掘,并且已取得了一些研究成果,要从这些数据中挖掘潜在的规则,现有的布尔型关联规则方法就显得力不从心了。如何划分区段是实现多值属性关联规则问题到布尔型关联规则问题转变的关键。挖掘多值属性关联规则的关键步骤是把数值型属性所在的域分成多个区间。在划分区段方面,现有的方法多是把数值属性所在的域划分成等宽的或等深的区间,或者在一个(或一组)属性上使用聚类算法。虽然这些算法能很好的解决多值型的数据挖掘问题,但是不能避免最小支持度和最小可信度冲突的问题,而且有可能错过一些重要的规则。本文所提方法是,把一个交易作为一个n维向量,并且在多个n维向量上对所有属性使用迭代自组织的数据分析算法(ISODATA)进行聚类。由于ISODATA的试探特性,并且可以结合成人机交互的结构,使其能利用中间结果所取得的经验更好地进行分类。把聚类投影到数值型属性所在的区间形成可能重叠的区间,最后使用布尔型关联规则挖掘算法来挖掘关联规则。该算法既考虑了交易之间的距离,又考虑了属性之间的关系,而且能避免最小支持度和最小可信度之间的冲突。实验结果显示,该方法能有效地挖掘多值属性关联规则,而且能够发现可能被以前的算法错过的重要的规则。
论文目录
摘要ABSTRACT1 绪论1.1 选题背景及研究意义1.1.1 选题背景1.1.2 研究意义1.2 国内外研究动态及发展趋势1.2.1 国内研究现状1.2.2 国外研究现状1.2.3 数据挖掘研究的发展趋势1.3 论文的主要内容和结构1.4 本章小结2 数据挖掘综述2.1 数据挖掘与知识发现2.2 数据挖掘过程2.3 数据挖掘的功能及模式2.3.1 数据挖掘的功能2.3.2 数据挖掘的模式2.4 数据挖掘的研究热点与应用领域2.4.1 数据挖掘的研究热点2.4.2 数据挖掘的应用领域2.5 本章小结3 关联规则挖掘的理论与算法3.1 关联规则的基本概念3.2 关联规则的种类3.3 关联规则的核心算法Apriori3.3.1 Apriori 性质3.3.2 利用候选项集找频繁项集3.3.3 Apriori 的算法描述及示例3.3.4 Apriori 的性能分析3.4 关联规则的主要研究方向3.5 本章小结4 多值属性关联规则的理论及算法4.1 多值属性关联规则的提出4.2 多值属性关联规则的基本概念4.3 多值属性关联规则的相关算法4.3.1 MAQA 算法4.3.2 FCM 算法4.4 本章小结5 利用相关算法挖掘多值属性关联规则5.1 ISODATA 算法的相关概念5.1.1 样品与样品之间的距离5.1.2 样品与类之间的距离5.1.3 类内距离5.1.4 类与类之间的距离5.2 迭代自组织的数据分析算法(ISODATA)5.2.1 理论基础5.2.2 实现步骤5.3 算法描述5.4 算法结果分析5.5 本章小结6 结论致谢参考文献附录
相关论文文献
标签:数据挖掘论文; 关联规则论文; 多值属性论文; 频集论文; 聚类论文;