论文摘要
近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就需要一种强有力的数据库分析工具。数据库知识发现(KDD)就是为顺应这种需要而发展起来的一门学科,它用来进行数据分析,发现重要的数据模式,并且已经成为一个重要而活跃的研究领域。数据挖掘被视为数据库知识发现过程的一个基本步骤,它已引起了信息产业界的极大关注,其主要原因是“数据丰富,但信息贫乏”,为了有效利用这些海量数据,如何将它们转换为有用的信息和知识就成为当务之急。随着计算机和网络技术的发展,我们可以方便地获取Internet上的各种信息资源,传统的集中式数据挖掘已经不能满足需要。企业的数据资源往往规模大、动态增长并且存在于地理上分布的各个数据库中,把所有数据集中在一起进行处理既不可取,也不可行,这使得数据挖掘系统必须具有分布式挖掘的能力。基于分布式信息资源的数据挖掘日益受到人们的关注,成为信息科学研究领域中一个新的课题。关联规则挖掘是近些年来研究较多、应用也最为广泛的数据挖掘方法。关联规则挖掘于1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间的联系为目标,后来的研究者们对问题原型进行了多方面的改进和扩充。关联规则挖掘问题的关键是频繁项集的产生,Apriori算法是一种经典的挖掘布尔关联规则的算法,本文将用它在局部站点来产生频繁项集。分布式数据环境下的关联规则挖掘算法中,时间开销主要体现在两方面:(1)频繁项集的确定;(2)网络的通讯量。本文提出了一种基于Web Services框架的改进算法DARM(Distributed Association Rules Mining),成功地克服了FDM算法中可能造成频繁项集丢失的缺点,保证了数据挖掘结果的完整性和正确性,同时也减少了站点间的通讯量。
论文目录
摘要Abstract第一章 绪论1.1 数据挖掘概述1.2 分布式数据挖掘产生的背景1.3 数据挖掘研究现状1.4 本文所做的主要工作及创新点第二章 关联规则及其挖掘算法2.1 关联规则的基本概念2.2 Apriori算法2.2.1 关联规则挖掘步骤2.2.2 Apriori算法growth算法'>2.3 FPgrowth算法2.3.1 FP-树的定义、构造growth算法'>2.3.2 FPgrowth算法2.4 本章小结第三章 分布式关联规则挖掘原理及Web Services技术3.1 分布式数据挖掘的提出3.2 分布式数据挖掘的基本原理3.3 Web Services框架结构3.3.1 角色3.3.2 操作3.4 Web Services的核心技术3.4.1 XML3.4.2 WSDL3.4.3 UDDI3.4.4 SOAP3.5 数据挖掘与Web Services技术的结合点3.6 本章小结第四章 分布式关联规则挖掘算法4.1 分布式数据挖掘经典算法4.1.1 CD(Count Distribution)算法4.1.2 FDM(Fast Distributed association rules Mining)算法4.2 FDM算法的不足4.3 现有改进算法4.4 本章小结第五章 基于Web Services的数据挖掘系统5.1 基本体系结构5.1.1 项集文档5.1.2 站点信息表5.1.3 全局数据挖掘服务——CDataMining5.2 分布式关联规则挖掘算法——DARM5.2.1 算法思想5.2.2 算法详细描述5.2.3 算法执行步骤演示5.2.4 算法的改进之处5.3 系统实现5.3.1 站点数据挖掘服务5.3.2 一个实例5.4 本章小结第六章 结语6.1 本文总结6.2 下一步工作参考文献致谢攻读硕士期间发表论文攻读硕士期间参与科研项目
相关论文文献
标签:分布式数据环境论文; 数据挖掘论文; 关联规则论文; 知识发现论文;