论文摘要
关联规则挖掘作为数据挖掘领域的一个重要研究内容,它揭示了项集之间有趣的相关关系,可广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域。自1993年R.Agrawal等首次提出该问题以来,一直是数据挖掘研究和应用领域活跃的前沿。典型的关联规则发现算法是由R.Agrawal等提出的Apriori算法,其核心技术为其它各类关联规则挖掘算法所广泛采用。然而,随着分布式环境的日益普及,采用传统的集中式关联规则挖掘方法不能高效地发现存在于分布式信息系统中的关联规则,设计高效的分布式关联规则挖掘算法就成为关联规则研究的一个重要内容。本文在研究已有的分布式关联规则挖掘算法的基础上,针对其不足,给出了一种高效的分布式关联规则挖掘算法(ED-ARM—Efficient Distributed Association rules Mining),以快速地发现存在于分布式事务数据库系统中的全局频繁项目集。对该算法所进行的分析和试验结果证明,该算法是高效可行的。另外,当数据库或挖掘参数发生变化时,如何高效地对频繁项目集进行更新是关联规则挖掘研究的另一个重要内容。本文就频繁项目集的更新问题进行研究,给出了一种基于频繁模式树的频繁项目集增量式更新算法(FIUP—Frequent Itemsets Incremental Updating)。该算法充分利用已有挖掘结果,有效解决了最小支持度和事务数据库同时发生变化时相应频繁项目集的更新问题,其中事务数据库的变化同时包括增加和减少两种情况,并对其性能进行分析与测试,结果证明,该算法是有效的、可行的。
论文目录
摘要Abstract第一章 绪论1.1 课题背景1.2 国内外研究现状1.3 课题的研究内容1.4 论文的组织结构第二章 数据挖掘理论与技术2.1 引言2.2 数据挖掘综述2.2.1 数据挖掘的基本概念2.2.2 数据挖掘的特点2.2.3 数据挖掘过程2.2.4 数据挖掘的应用2.3 数据挖掘方法2.3.1 人工神经网络(Artificial Neural Networks)2.3.2 遗传算法(Genetic Algorithms)2.3.3 决策树(Decision Trees)2.3.4 关联分析(Associations)2.3.5 序列模式分析(Sequential Patterns)2.3.6 分类分析(Classifiers)2.3.7 聚类分析(Clustering)2.4 本章小结第三章 关联规则挖掘理论3.1 引言3.2 关联规则基础知识3.2.1 基本概念3.2.2 挖掘过程3.2.3 关联规则分类3.3 关联规则挖掘方法3.3.1 经典Apriori 算法3.3.2 Apriori 算法的优化方法3.3.3 FP-growth 算法3.4 本章小结第四章 分布式关联规则挖掘研究4.1 引言4.2 分布式关联规则挖掘方法综述4.2.1 数据分布(DD)算法4.2.2 计数分布(CD)算法4.2.3 快速分布式关联规则挖掘(FDM)算法4.3 一种高效的分布式关联规则挖掘(ED-ARM)算法4.3.1 基本概念4.3.2 算法思想4.3.3 哈希表的构建4.3.4 算法描述4.3.5 性能评价4.4 本章小结第五章 关联规则的增量式更新5.1 引言5.2 关联规则更新方法概述5.2.1 关联规则更新情况分类5.2.2 快速更新(FUP)算法5.2.3 增量式更新(IUA)算法5.3 基于FP-tree 的频繁项目集增量式更新(FIUP)算法5.3.1 基本概念5.3.2 支持度变大且数据库同时增加和减少时的更新方法5.3.3 支持度变小且数据库同时增加和减少时的更新方法5.3.4 性能评价5.4 本章小结第六章 总结与展望致谢参考文献在读期间发表的学术论文
相关论文文献
标签:数据挖掘论文; 关联规则论文; 频繁项集论文; 增量式更新论文; 频繁模式树论文;