不平衡数据集分类问题研究

论文摘要

分类是机器学习领域的重要研究方向之一，经过多年发展形成了一些较为成熟的算法，并在实际中取得成功的应用。这些传统的分类算法以分类正确率作为最大的目标，且假定数据集中各类别样本数量基本平衡。然而在实际问题中，存在这样的一类数据，在数据集中某一类的样本数量远远少于其它类样本数量，即数据集中不同类别样本的数量是非平衡的，这样的数据称为不平衡数据。通常，将数量上占多数的类称为多数类，而占少数的类称为少数类。对不平衡数据集分类时，传统分类算法为追求更高的分类正确率，在分类的过程中偏好数量上占多数的多数类，结果多数类的分类正确率较高，而少数类分类正确率较低。例如，在某些极端情况下，某个传统的分类算法将所有的样本都分类为多数类，依然能获得较高的整体分类精度，却不能识别一个少数类。而在实际问题中，少数类的分类精度往往更为重要。因此，如何对不平衡数据集进行正确分类、提高少数类的分类精度成为数据挖掘领域中的一个研究重点。针对不平衡数据集的研究集中在三个方面：数据层面的方法、算法层面的方法及评价标准。数据层面方法即是对数据集进行预处理，采用采样技术重构数据集，以此改变原有的数据分布，减少不平衡程度，进而使的数据集类分布基本平衡，较常用的方法包括欠采样、过采样；算法层面的方法，即改进传统分类算法，使其在分类过程中更加注重对少数类的分类，提高少数类的分类精度，从而适应不平衡数据集的分类问题，如代价敏感学习、集成学习等；对不平衡数据集分类的性能评价标准也是研究的重点之一，常用的标准有F-Measure、G-Mean等。本文针对不平衡数据集分类问题，尝试将采样技术与传统分类算法相结合，提出了四种用于解决不平衡数据集分类问题的新方法。主要创新成果有：（1）使用遗传算法中的交叉算子与变异算子生成新的少数类样本，采用两样本间的欧几里得距离检验新生成少数类样本的有效性。在UCI数据集的实验结果表明，该方法在提高少数类的分类精度方面取得了较好的效果。（2）使用聚类技术中的K-means算法首先将多数类样本聚成多个簇，然后依次从每个簇中抽取一定数量的多数类样本，使所有抽取到的多数类样本个数与少数类样本个数基本相同，最后将多数类样本与少数类样本合并，作为Bagging成员分类器的训练数据。K-means算法的不稳定性，可以在一定程度上保证成员分类器之间的差异性。（3）使用AdaBoost算法对数据集预处理，得到各样例权重。训练基分类器时，针对多数类数据不再采用bootstrap抽样方法，而是分别随机选择部分权重较大的样例与部分权重较小的样例，使两部分样例个数与少数类样例个数相同，并组成Bagging成员分类器的训练数据。（4）提出基于AdaBoost的边界数据过抽样算法，使用AdaBoost算法迭代多次后，选择部分权重较大的数据作为边界数据，并对这部分边界数据进行随机过抽样，进而使数据集中两类样本分布趋于平衡，从而达到提高少数类分类精度的目的。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景及意义

1.2 本文主要研究内容及创新点

1.3 本文组织结构

第二章不平衡数据集领域的研究现状

2.1 不平衡数据集分类难点

2.1.1 样本缺失

2.1.2 不恰当的评价标准

2.1.3 数据噪声

2.1.4 不恰当的归纳偏置

2.2 不平衡数据集研究现状

2.2.1 数据层面方法

2.2.2 算法层面方法

2.2.3 评价标准

2.3 分类器的性能评估方法

2.3.1 测试集

2.3.2 交叉验证

2.3.3 其他估计方法

第三章 KNN 算法在不平衡数据集中的应用

3.1 KNN 算法概述

3.2 遗传算法概述

3.3 基于 KNN 算法的少数类样本生成方法——G-KNN 算法

3.4 G-KNN 算法实验

3.4.1 G-KNN 算法实验设计

3.4.2 G-KNN 实验结果及分析

3.5 总结

第四章基于 Bagging 的欠抽样集成学习算法

4.1 Bagging 算法概述

4.2 聚类算法概述

4.3 基于 Bagging 的欠抽样集成学习算法描述

4.4 实验结果及分析

4.4.1 实验环境设计

4.4.2 实验结果及分析

4.5 结论

第五章基于 AdaBoost 的抽样层算法

5.1 AdaBoost 算法概述

5.2 基于 Adaboost 的抽样层算法

5.2.1 基于 Adaboost 的欠抽样集成学习算法

5.2.2 基于 AdaBoost 的边界样本过抽样算法

5.3 U- Ensemble 算法实验

5.3.1 U- Ensemble 算法实验设计

5.3.2 U- Ensemble 算法实验结果及分析

5.4 BOBA 算法实验

5.4.1 BOBA 算法实验设计

5.4.2 BOBA 算法实验结果及分析

5.5 本章小结

第六章总结与展望

6.1 本文研究内容总结

6.2 下一步工作

参考文献

攻读硕士学位期间发表的论文和参与的项目

致谢

不平衡数据集分类问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢