论文摘要
关联规则挖掘与分类技术是数据挖掘众研究方向中两项关键技术,关联分类算法将两项基本技术有效结合,开创了构建分类模型的全新方向。大量研究表明,关联分类算法在分类准确率和适应性上优于传统分类算法。但是,诸如经典的CMAR算法等关联分类算法通常采用基于FP-growth的方式产生关联规则集,分类模型的构造采用树结构对生成的规则集进行存储,其结构复杂导致管理和存储的难度都很大,分类效率和准确率很难进一步提高。本文的主要工作,就是如何在规则产生阶段生成更准确的关联规则,如何降低树结构自身复杂度在分类模型构造中产生的影响。对此,本文提出了一种新的关联分类算法CBCFPL。新算法首先在繁模式列表中加入分类信息,提出了带分类信息的频繁模式列表CFP-list。然后基于CFP-list,结合频繁闭项集挖掘和最优规则集方法构造分类模型。最后,通过实验及结果分析证明了CBCFPL较传统的CBA和CMAR算法具有更高的准确率。本文具体工作如下:1)阐述了本文的研究背景及意义,总结了数据挖掘领域中基于关联规则分类算法的研究现状及未来发展趋势。2)对本文所需相关背景理论知识进行介绍。具体内容包括系统的介绍关联规则挖掘、分类挖掘技术以及关联分类技术的相关概念,详细介绍了上述三种技术的经典算法,并对各种算法的优势及算法中存在的问题进行了阐述;3)分析了FP-growth算法的局限,引入频繁模式列表进行改进。FP-growth算法采用FP-tree存储及挖掘频繁模式,树结构复杂导致管理及存储难度很大。因此本文引入频繁模式列表,并在其中加入适于分类的信息,构造并提出了分类频繁模式列表CFP-list。与FP-tree进行比较,给出了CFP-list具有的特点;4)基于CFP-list提出了一种新的关联分类算法CBCFPL。算法采用带分类信息的频繁模式列表这种线性结构构造分类器,使用向量操作方式实现FPL中对其进行闭频繁模式挖掘,并使用构造最优规则集的方法及规则排序的新策略有效修剪生成的分类规则集。本文给出了算法的流程图和算法中关键步骤的伪代码;5)对CBCFPL进行了实验并对实验结果进行了分析。通过UCI标准数据库选取了6组数据集进行实验,证明了该算法比传统的CBA和CMAR具有更高的分类准确率。本文的研究内容是对传统关联分类算法的一种改进,通过频繁模式列表的引入用表结构代替树结构进行关联规则集的挖掘,并通过最优规则集的构造及规则选取策略降低了算法的复杂度,使规则生成更准确。本文在对数据挖掘中关联分类算法效率提高的研究方面有一定的意义。