论文摘要
关联规则描述了给定数据集中项与项间的有趣联系。目前对海量数据集关联规则的研究主要集中在生成频繁闭项集的挖掘算法上。然而,有关频繁闭项集的更新还不多见。为此针对频繁闭项集的主流算法CLOSET+,本文提出了高效更新算法。本文首先介绍了数据挖掘和关联规则的概念;然后按照(完全)频繁项集挖掘、频繁闭项集和最大频繁项集挖掘、并行和分布式挖掘,以及增量更新等几个热点研究方向,对数据挖掘算法中的一些典型方法作简单评述,并着重实验分析经典算法在不同数据集的适用性。CLOSET+算法采用混合投影策略,算法在运行时间、内存及可扩展性方面都超过大多数频繁闭项集挖掘算法。针对CLOSET+算法的维护问题提出了快速更新频繁闭合项目集算法—FUCloset+(Fast Updating CLOSET+),该算法主要考虑最小支持度发生变化时频繁闭合项目集的更新情况。FUCloset+在最坏的情况下仅须扫描各局部数据库一遍,且利用CLOSET+的项目集合并、子项目集修剪以及子集检验等优化策略及已挖掘的结果,可确保对频繁闭合项目集进行高效的更新。实验表明该更新算法是有效的。文章最后以人寿保险和交通事故数据挖掘为实例分析了关联规则在相关行业系统的应用。
论文目录
摘要Abstract第1章 绪论1.1 选题的背景与意义1.2 关联规则现状与热点问题研究1.3 论文的组织结构第2章 关联规则及经典算法的对比分析2.1 关联规则的基本概念2.2 关联规则相关问题描述2.2.1 搜索空间2.2.2 搜索策略2.2.3 数据库的表示2.2.4 支持度的计算方法2.3 经典算法的对比分析2.3.1 算法描述2.3.2 实验对比性能分析2.4 本章小结第3章 基于CLOSET+的快速更新算法实验分析3.1 频繁闭项集的理论3.2 CLOSET+算法3.2.1 算法的关键问题3.2.2 算法分析3.3 关联规则的增量式更新算法3.4 基于CLOSET+的快速更新闭项集算法3.4.1 相关定义3.4.2 算法描述3.4.3 实例分析3.4.4 实验分析3.5 本章小结第4章 关联规则挖掘在行业系统中的应用4.1 人寿保险行业关联规则挖掘的应用4.1.1 关联规则挖掘目标分析4.1.2 关联规则挖掘的数据准备4.1.3 关联规则挖掘过程4.1.4 关联规则挖掘结果的指导作用4.2 交通事故关联规则挖掘的实现4.2.1 关联规则挖掘目标分析4.2.2 关联规则挖掘的数据准备4.2.3 关联规则挖掘过程4.2.4 关联规则挖掘结果的指导作用4.3 本章小结结论致谢参考文献攻读硕士学位期间发表的论文及科研成果
相关论文文献
标签:数据挖掘论文; 关联规则论文; 频繁闭项集论文; 增量式更新论文;