一种基于频繁模式列表的关联规则分类算法研究与实现

论文摘要

关联规则挖掘与分类技术是数据挖掘众研究方向中两项关键技术，关联分类算法将两项基本技术有效结合，开创了构建分类模型的全新方向。大量研究表明，关联分类算法在分类准确率和适应性上优于传统分类算法。但是，诸如经典的CMAR算法等关联分类算法通常采用基于FP-growth的方式产生关联规则集，分类模型的构造采用树结构对生成的规则集进行存储，其结构复杂导致管理和存储的难度都很大，分类效率和准确率很难进一步提高。本文的主要工作，就是如何在规则产生阶段生成更准确的关联规则，如何降低树结构自身复杂度在分类模型构造中产生的影响。对此，本文提出了一种新的关联分类算法CBCFPL。新算法首先在繁模式列表中加入分类信息，提出了带分类信息的频繁模式列表CFP-list。然后基于CFP-list，结合频繁闭项集挖掘和最优规则集方法构造分类模型。最后，通过实验及结果分析证明了CBCFPL较传统的CBA和CMAR算法具有更高的准确率。本文具体工作如下：1)阐述了本文的研究背景及意义，总结了数据挖掘领域中基于关联规则分类算法的研究现状及未来发展趋势。2)对本文所需相关背景理论知识进行介绍。具体内容包括系统的介绍关联规则挖掘、分类挖掘技术以及关联分类技术的相关概念，详细介绍了上述三种技术的经典算法，并对各种算法的优势及算法中存在的问题进行了阐述；3)分析了FP-growth算法的局限，引入频繁模式列表进行改进。FP-growth算法采用FP-tree存储及挖掘频繁模式，树结构复杂导致管理及存储难度很大。因此本文引入频繁模式列表，并在其中加入适于分类的信息，构造并提出了分类频繁模式列表CFP-list。与FP-tree进行比较，给出了CFP-list具有的特点；4)基于CFP-list提出了一种新的关联分类算法CBCFPL。算法采用带分类信息的频繁模式列表这种线性结构构造分类器，使用向量操作方式实现FPL中对其进行闭频繁模式挖掘，并使用构造最优规则集的方法及规则排序的新策略有效修剪生成的分类规则集。本文给出了算法的流程图和算法中关键步骤的伪代码；5)对CBCFPL进行了实验并对实验结果进行了分析。通过UCI标准数据库选取了6组数据集进行实验，证明了该算法比传统的CBA和CMAR具有更高的分类准确率。本文的研究内容是对传统关联分类算法的一种改进，通过频繁模式列表的引入用表结构代替树结构进行关联规则集的挖掘，并通过最优规则集的构造及规则选取策略降低了算法的复杂度，使规则生成更准确。本文在对数据挖掘中关联分类算法效率提高的研究方面有一定的意义。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 研究现状及趋势

1.3 本文工作

第2章相关知识概述

2.1 关联规则挖掘

2.1.1 关联规则中的相关术语及基本概念

2.1.2 挖掘模式及问题描述

2.1.3 Apriori 算法概述

2.2 分类挖掘

2.2.1 分类的概念

2.2.2 分类的一般步骤

2.2.3 决策树（decision tree）归纳

2.3 关联分类技术

2.3.1 概念及定义

2.3.2 CBA 算法

2.3.3 CMAR 算法

2.4 本章小结

第3章频繁模式列表 FPL 及其改进

3.1 问题的提出

3.1.1 FP-growth 算法的原理

3.1.2 FP-growth 算法的优势与局限

3.2 频繁模式列表 FPL

3.2.1 事务数据库的表示方式

3.2.2 构造 FPL

3.2.3 通过 FPL 挖掘频繁模式

3.3 带分类信息的频繁模式列表 CFP-LIST

3.3.1 CFP-list 的产生过程

3.3.2 CFP-list 的特点

3.4 本章小结

第4章基于频繁模式列表的关联分类算法设计

4.1 算法的步骤

4.2 相关概念及定理

4.3 CBCFPL 算法设计

4.3.1 算法描述

4.3.2 生成局部最优规则集

4.3.3 规则的排序

4.4 本章小结

第5章实验及结果分析

5.1 分类模型的比较与评估

5.2 实验环境及数据

5.3 实验结果与分析

5.4 本章小结

第6章总结与展望

6.1 总结

6.2 进一步工作

参考文献

致谢

一种基于频繁模式列表的关联规则分类算法研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢