基于Rough Set的关联规则研究

基于Rough Set的关联规则研究

论文摘要

关联规则挖掘是数据挖掘领域中一个重要的研究方向,它反映了一个事物与其他事物之间的相互依存性和关联性。IBM公司Almaden研究中心的R.Agrawal首次提出关联规则的模型,并给出求解算法,其中Apriori算法最为经典,后人大多数是在此算法的基础上进行了改进。虽然在算法的时间效率方面有了明显的提高,但仍存在很大的提高空间,另外还存在着一个严重的问题:在关联规则的挖掘过程中,由于它所使用的支持度没有考虑属性之间的重要性的差别,从而导致了挖掘出大量无效的,无用的,用户不感兴趣的冗余的规则。本文以此为立据,一方面,利用粗糙集(Rough Set)的有关理论,提出新的关联规则挖掘算法,提高了算法的时间效率;另一方面,把事务数据中各个属性权值考虑在内,重新定义新的加权支持度,提高了挖掘结果有效性。主要工作包括:1、运用粗糙集(Rough Set)的有关理论,推导出“多属性不可分辨类”的性质,然后利用此性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致的时间效率低下问题,并通过大量试验验证其算法的高效性。2、通过典型的例子透彻分析出传统支持度隐含着两种弊端:1)没有考虑属性的权重对规则产生的影响;2)没有考虑规则中包含属性的数目对规则产生的影响。为了消除这两种弊端,重新定义了加权支持度,通过理论分析说明其合理性,最后通过试验验证该公式的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第1章 绪论
  • 1.1 论文研究意义
  • 1.2 论文主要工作介绍
  • 1.3 论文的结构和安排
  • 第2章 基于ROUGH SET关联规则改进算法
  • 2.1 相关原理简述
  • 2.1.1 粗糙集
  • 2.1.2 关联规则
  • 2.2 经典关联规则挖掘算法
  • 2.2.1 Apriori算法
  • 2.2.2 Apriori-Tid算法
  • 2.3 基于ROUGH SET关联规则改进算法
  • 2.3.1 多属性不可分辨类的性质
  • 2.3.2 基于Rough Set关联规则挖掘算法描述
  • 第3章 加权支持度的研究
  • 3.1 经典支持度的弊端
  • 3.2 常用加权支持度
  • 3.3 改进的加权支持度
  • 3.4 改进的加权规则挖掘算法
  • 第4章 算法试验与性能分析
  • 4.1 UCI数据集
  • 4.2 挖掘前数据预处理
  • 4.3 数值型属性离散化过程
  • 4.3.1 模糊集
  • 4.3.2 k-means聚类
  • 4.3.3 数值型属性离散化步骤
  • 4.4 算法试验与性能分析
  • 4.4.1 基于Rough Set改进算法实验分析
  • 4.4.2 改进加权支持度实验分析
  • 结束语
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于Rough Set的关联规则研究
    下载Doc文档

    猜你喜欢