分布式数据环境下关联规则挖掘算法研究

分布式数据环境下关联规则挖掘算法研究

论文摘要

近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就需要一种强有力的数据库分析工具。数据库知识发现(KDD)就是为顺应这种需要而发展起来的一门学科,它用来进行数据分析,发现重要的数据模式,并且已经成为一个重要而活跃的研究领域。数据挖掘被视为数据库知识发现过程的一个基本步骤,它已引起了信息产业界的极大关注,其主要原因是“数据丰富,但信息贫乏”,为了有效利用这些海量数据,如何将它们转换为有用的信息和知识就成为当务之急。随着计算机和网络技术的发展,我们可以方便地获取Internet上的各种信息资源,传统的集中式数据挖掘已经不能满足需要。企业的数据资源往往规模大、动态增长并且存在于地理上分布的各个数据库中,把所有数据集中在一起进行处理既不可取,也不可行,这使得数据挖掘系统必须具有分布式挖掘的能力。基于分布式信息资源的数据挖掘日益受到人们的关注,成为信息科学研究领域中一个新的课题。关联规则挖掘是近些年来研究较多、应用也最为广泛的数据挖掘方法。关联规则挖掘于1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间的联系为目标,后来的研究者们对问题原型进行了多方面的改进和扩充。关联规则挖掘问题的关键是频繁项集的产生,Apriori算法是一种经典的挖掘布尔关联规则的算法,本文将用它在局部站点来产生频繁项集。分布式数据环境下的关联规则挖掘算法中,时间开销主要体现在两方面:(1)频繁项集的确定;(2)网络的通讯量。本文提出了一种基于Web Services框架的改进算法DARM(Distributed Association Rules Mining),成功地克服了FDM算法中可能造成频繁项集丢失的缺点,保证了数据挖掘结果的完整性和正确性,同时也减少了站点间的通讯量。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.2 分布式数据挖掘产生的背景
  • 1.3 数据挖掘研究现状
  • 1.4 本文所做的主要工作及创新点
  • 第二章 关联规则及其挖掘算法
  • 2.1 关联规则的基本概念
  • 2.2 Apriori算法
  • 2.2.1 关联规则挖掘步骤
  • 2.2.2 Apriori算法
  • growth算法'>2.3 FPgrowth算法
  • 2.3.1 FP-树的定义、构造
  • growth算法'>2.3.2 FPgrowth算法
  • 2.4 本章小结
  • 第三章 分布式关联规则挖掘原理及Web Services技术
  • 3.1 分布式数据挖掘的提出
  • 3.2 分布式数据挖掘的基本原理
  • 3.3 Web Services框架结构
  • 3.3.1 角色
  • 3.3.2 操作
  • 3.4 Web Services的核心技术
  • 3.4.1 XML
  • 3.4.2 WSDL
  • 3.4.3 UDDI
  • 3.4.4 SOAP
  • 3.5 数据挖掘与Web Services技术的结合点
  • 3.6 本章小结
  • 第四章 分布式关联规则挖掘算法
  • 4.1 分布式数据挖掘经典算法
  • 4.1.1 CD(Count Distribution)算法
  • 4.1.2 FDM(Fast Distributed association rules Mining)算法
  • 4.2 FDM算法的不足
  • 4.3 现有改进算法
  • 4.4 本章小结
  • 第五章 基于Web Services的数据挖掘系统
  • 5.1 基本体系结构
  • 5.1.1 项集文档
  • 5.1.2 站点信息表
  • 5.1.3 全局数据挖掘服务——CDataMining
  • 5.2 分布式关联规则挖掘算法——DARM
  • 5.2.1 算法思想
  • 5.2.2 算法详细描述
  • 5.2.3 算法执行步骤演示
  • 5.2.4 算法的改进之处
  • 5.3 系统实现
  • 5.3.1 站点数据挖掘服务
  • 5.3.2 一个实例
  • 5.4 本章小结
  • 第六章 结语
  • 6.1 本文总结
  • 6.2 下一步工作
  • 参考文献
  • 致谢
  • 攻读硕士期间发表论文
  • 攻读硕士期间参与科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    分布式数据环境下关联规则挖掘算法研究
    下载Doc文档

    猜你喜欢