关联规则挖掘算法的研究与改进

关联规则挖掘算法的研究与改进

论文摘要

随着数据库技术的日益成熟和管理信息系统的广泛普及,人类积累的数据量正在以指数级的速度增长。面临浩渺无际的数据,人们渴望得到从数据中来一个去粗存精、去伪存真的技术。数据挖掘便应运而生了。数据挖掘是从数据中析取、识别和发现潜在正确和有用、前所未知的、最终可理解的知识(规则或模型)的过程。关联规则挖掘是数据挖掘中最活跃的研究方法之一。它是由Agrawal于1993年提出的。关联规则挖掘用于发现交易数据库中不同项目集之间的关系。关联规则的算法可按照需不需要产生候选项集的做法分为两类,以FP(频繁模式)树法与类Apriod方法为代表。此二者最主要的差异在于,FP树法并不产生候选项集,后者是需要产生候选项集的方法。本文在数据挖掘研究的基础上深入研究了关联规则挖掘,着重对经典关联规则算法中的Apriori算法进行了深入研究,对它的性能进行了分析,根据它的不足之处提出了两个新的改进算法。论文的主要内容如下:1)对数据挖掘的定义、过程、技术分类以及发展趋势进行了综述。2)对关联规则挖掘的定义,性质、挖掘过程、挖掘算法以及研究现状进行了综述。3)对经典的关联规则算法Apriori算法进行了详细的介绍,并分析了它的特点,同时还介绍了该算法的一些改进算法。4)根据Op-Apriori算法的特点,提出了Om-Apriori算法;根据MApriori算法的特点,提出了SMApriori算法。本文的主要创新点如下:1)根据Op-Apriori算法的特点,提出了Om-Apriori算法,用MAT算法来改进Op-Apriori算法中前两项频繁项集的生成,用文献[34]中的方法来改进κ(κ≥3)-频繁项目集的生成,Om-Apriori算法使得算法的效率进一步提高。2)根据MApriori算法的特点,提出了SMApriori算法,该算法利用不是所有的项和事务都对产生频繁项集有帮助的性质来缩小布尔矩阵的方法,使得算法的时间复杂度和空间复杂度都有所减少,从而提高了算法的效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 数据挖掘综述
  • 1.2.1 数据挖掘的定义
  • 1.2.2 数据挖掘的过程
  • 1.2.3 数据挖掘的技术分类及知识表示模式
  • 1.2.4 数据挖掘研究的发展趋势
  • 1.3 本文的研究内容、研究方法
  • 1.4 本文的组织结构
  • 1.5 小结
  • 第2章 关联规则挖掘概述
  • 2.1 关联规则的定义及性质
  • 2.2 关联规则的挖掘步骤
  • 2.3 关联规则挖掘算法分类
  • 2.4 关联规则挖掘算法的研究现状
  • 2.5 小结
  • 第3章 经典关联规则算法-Apriori算法
  • 3.1 Apriori算法
  • 3.1.1 算法描述
  • 3.1.2 算法举例
  • 3.1.3 算法特点及局限性
  • 3.2 Apriori算法的优化算法
  • 3.2.1 基于数据分割算法
  • 3.2.2 基于散列算法
  • 3.2.3 基于采样算法
  • 3.2.4 FP-growth算法
  • 3.3 小结
  • 第4章 Om-Apriori算法
  • 4.1 Op-Apriori算法
  • 4.2 Om-Apriori算法的提出
  • 4.3 三种算法的性能比较
  • 4.4 实例分析
  • 4.5 小结
  • 第5章 SMApriori算法
  • 5.1 MApriori算法
  • 5.2 SMApriori算法的提出
  • 5.3 两种算法的性能比较
  • 5.4 实例分析
  • 5.5 小结
  • 第6章 总结和展望
  • 6.1 本文研究的意义、目的和内容
  • 6.2 本文的主要创新点
  • 6.3 本文的不足之处及工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表论文及参加科研项目情况
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    关联规则挖掘算法的研究与改进
    下载Doc文档

    猜你喜欢