论文摘要
分类学习是模式识别、机器学习与数据挖掘的核心问题,它广泛存在于诸多应用领域。近几十年来一直受到研究者及工程应用人员的普遍关注,各类基础算法及改进算法层出不穷(包括数据预处理算法、分类学习算法等),尤其是上世纪九十年代统计学习理论的问世标志着人们在算法领域的研究已经比较充分。于是一个重要而亟待解决的问题逐渐浮出水面,即在实际应用中,面对如此众多的算法应如何依据手头的数据进行选择,从而避免盲目地多次试错。对于非均衡数据的分类,算法的选择尤其困难。本文围绕分类问题中分类复杂度、数据特性衡量等问题展开研究。在深入讨论TKHo等人提出的数据几何复杂度理论的基础上,对基于试错方法的分类学习框架进行改进,提出基于数据几何复杂度的启发式分类学习框架,并将其推广至非均衡数据。主要研究内容及研究成果如下:首先,分析和总结了国内外近年来对分类复杂度、数据特性衡量、非均衡分类数据平衡方法等问题的研究现状。讨论了分类学习领域算法繁多,但选择算法的指导原则匮乏的尴尬局面(详见第一章)。然后,提出一种基于数据复杂度的启发式分类学习框架。该学习框架的基本思想为:将对分类学习各环节(尤其是数据预处理、分类器选择等问题)富有指导作用意义的数据几何复杂度引入到传统分类学习框架中。从而从根本上摆脱了传统学习框架缺乏指导原则而利用代价繁重的试错方法的困境(详见第二章)。其次,为将新学习框架推广至非均衡数据,通过严格的统计实验,探索数据几何复杂度在非均衡数据集上的适应性。实验表明数据几何复杂度受IR(Imbalance Ratio)影响严重,不宜在非均衡数据上直接使用(详见第三章)。再次,分析研究造成数据几何复杂度受IR影响的原因(见4.2节),然后对数据几何复杂度中部分指标的缺陷进行了弥补,提出了非均衡数据几何复杂度,使其能适应非均衡数据(见4.3节)。并分别在人工数据、真实数据上进行了检验,实验表明改进后的指标对非均衡数据具有良好的适应性(详见第四章)。最后,将上述非均衡数据几何复杂度(其中的L2)应用于非均衡分类中的数据平衡问题,即上、下采样问题。以实验方式得出一些对选择采样方案及采样比例富有指导性意义的规律(详见第五章)。