Print

关联规则算法研究与应用

论文摘要

关联规则描述了给定数据集中项与项间的有趣联系。目前对海量数据集关联规则的研究主要集中在生成频繁闭项集的挖掘算法上。然而,有关频繁闭项集的更新还不多见。为此针对频繁闭项集的主流算法CLOSET+,本文提出了高效更新算法。本文首先介绍了数据挖掘和关联规则的概念;然后按照(完全)频繁项集挖掘、频繁闭项集和最大频繁项集挖掘、并行和分布式挖掘,以及增量更新等几个热点研究方向,对数据挖掘算法中的一些典型方法作简单评述,并着重实验分析经典算法在不同数据集的适用性。CLOSET+算法采用混合投影策略,算法在运行时间、内存及可扩展性方面都超过大多数频繁闭项集挖掘算法。针对CLOSET+算法的维护问题提出了快速更新频繁闭合项目集算法—FUCloset+(Fast Updating CLOSET+),该算法主要考虑最小支持度发生变化时频繁闭合项目集的更新情况。FUCloset+在最坏的情况下仅须扫描各局部数据库一遍,且利用CLOSET+的项目集合并、子项目集修剪以及子集检验等优化策略及已挖掘的结果,可确保对频繁闭合项目集进行高效的更新。实验表明该更新算法是有效的。文章最后以人寿保险和交通事故数据挖掘为实例分析了关联规则在相关行业系统的应用。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题的背景与意义
  • 1.2 关联规则现状与热点问题研究
  • 1.3 论文的组织结构
  • 第2章 关联规则及经典算法的对比分析
  • 2.1 关联规则的基本概念
  • 2.2 关联规则相关问题描述
  • 2.2.1 搜索空间
  • 2.2.2 搜索策略
  • 2.2.3 数据库的表示
  • 2.2.4 支持度的计算方法
  • 2.3 经典算法的对比分析
  • 2.3.1 算法描述
  • 2.3.2 实验对比性能分析
  • 2.4 本章小结
  • 第3章 基于CLOSET+的快速更新算法实验分析
  • 3.1 频繁闭项集的理论
  • 3.2 CLOSET+算法
  • 3.2.1 算法的关键问题
  • 3.2.2 算法分析
  • 3.3 关联规则的增量式更新算法
  • 3.4 基于CLOSET+的快速更新闭项集算法
  • 3.4.1 相关定义
  • 3.4.2 算法描述
  • 3.4.3 实例分析
  • 3.4.4 实验分析
  • 3.5 本章小结
  • 第4章 关联规则挖掘在行业系统中的应用
  • 4.1 人寿保险行业关联规则挖掘的应用
  • 4.1.1 关联规则挖掘目标分析
  • 4.1.2 关联规则挖掘的数据准备
  • 4.1.3 关联规则挖掘过程
  • 4.1.4 关联规则挖掘结果的指导作用
  • 4.2 交通事故关联规则挖掘的实现
  • 4.2.1 关联规则挖掘目标分析
  • 4.2.2 关联规则挖掘的数据准备
  • 4.2.3 关联规则挖掘过程
  • 4.2.4 关联规则挖掘结果的指导作用
  • 4.3 本章小结
  • 结论
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文及科研成果
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/619c0b8c42ae4da3c0c1e510.html