论文摘要
随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到几千甚至几万维,大大降低了识别效率和识别正确率。特征选择作为模式识别中非常重要和关键的一个步骤,对分类决策而言,起着非常重要的作用,直接影响识别结果。本文在全面分析现有特征选择方法的基础上,重点研究了Relief特征选择方法。相对其它特征选择方法,Relief不管是时间代价还是对数据类型的限制上都有明显的优势。因此,选择Relief算法的改进算法ReliefF作为研究的出发点。ReliefF算法是一种有监督学习的特征选择方法,很大程度上依赖于类别标签。而以聚类为基本工具进行特征选择,不需要依赖类别标签,对数据类型没有约束,更适合于大规模数据集,能够适用于任何情况下的数据降维。将聚类和ReliefF方法结合起来,能在无类别标签的情况下,利用ReliefF方法实现对大规模数据集进行特征选择。为此,本文对增量聚类与ReliefF相结合的特征选择方法进行了较深入的研究。研究发现,增量聚类方法和ReliefF方法均存在一些不足,若简单地将这两种方法组合起来进行特征选择,这些问题并不能解决。在全面分析增量聚类方法和ReliefF方法存在的问题的基础上,针对增量聚类和ReliefF方法的不足,提出改进策略:(1)通过可调参数的设置,将聚类半径确定在一个初始范围内,由后期实验确定可调参数取值;引入最小距离原则确定样本对象归属;(2)引入信息熵理论,计算不同聚类数目时信息熵值,选择信息熵最小的值对应的聚类数目作为增量聚类的最终聚类数目;(3)提出一种解决混合属性冗余问题的方法,分别利用相关系数ρ和互信息方法来计算特征之间的相关度,找出相关度大的特征(即冗余特征),将之删除。在此基础上,提出了一种基于增量聚类和ReliefF的特征选择方法——ICB-ReliefF.在选择出的UCI数据集上,将本文提出的ICB-ReliefF方法与已有方法进行对比实验,利用Weka软件中的C4.5决策树分类算法进行分类。实验结果表明,本文方法ICB-ReliefF相对已有方法在分类正确率和特征子集大小这两个指标上有明显提高。