论文摘要
不平衡数据集分类和集成学习是当今机器学习领域的主要研究内容。传统分类方法大多基于训练数据集各类样本的数目基本平衡和误分类代价相同等假设,以准确率为分类器性能评价指标,因此在解决不平衡数据集分类问题时大大降低了少数类的分类性能,模型的实际工程应用效果不佳。不平衡数据集往往具有少数类数据绝对或相对稀少、噪声数据干扰大、数据碎片多等特点,应用单一分类器难以实现准确分类。提升不平衡数据集分类性能的方法主要包括数据重采样、训练集划分、特征选择、代价敏感学习、分类器集成、单类学习等方法。本文通过实验分析单纯依赖数据层面或算法改进层面的方法都不能较高地提高少数类的分类性能。目前常用的SMOTE等重采样方法存在少数类分布稀疏、扩充数据盲目性、多数类信息损失等问题,Adaboost等集成学习方法也存在多数类过拟合或分类器性能退化问题。所以,有效提高少数类的分类精度并且不影响分类器总体分类性能是一个值得深入研究的课题。本文从改善不平衡数据集的数据分布、适当的算法改进以及恰当的分类器性能评价等方面讨论,提出了将组合重抽样方法与改进Adaboost算法相结合的TSNIMA分类器集成算法。该算法根据样本集内部分布特性,在SMOTE重抽样方法的基础上自适应选择近邻,从而实现在合成少数类样本时减小少数类分布稀疏性对新样本的影响程度,改善训练样本集的不平衡度。由于Adaboost算法的特点是在学习阶段根据分类器误差的大小统一调整样本权重,所以不适合解决不平衡数据集分类学习问题。本文针对不同类别的样本采用多种权重修改策略,有效防止了边界样本、噪声数据在学习时对分类器性能的恶化,提高了少数类样本的识别率。将所提出的算法在WEKA开源平台上实现,应用UCI标准数据集中的不平衡数据进行验证。实验证明在多项分类器性能指标上,TSNIMA算法都优于SMOTEBoost、Asymboost以及单一分类等方法。本文创新性地应用这种组合抽样与集成学习方法来解决实际工程中的烟叶香型分类问题。实验证明,TSNIMA集成分类器在面对不平衡度较高的烟叶香型分类数据时表现良好,少数类分类错误率最低,而且多数类样本分类精度仍有一定提高。研究表明,以决策树为基分类器的TSNIMA模型还可以为用户提取出更有价值的规则。通过工程应用验证,该算法具有良好的鲁棒性和应用推广价值。