论文摘要
模糊C-均值(FCM)聚类算法是非监督模式识别中应用范围最广泛的算法之一。但是传统的FCM算法中,设定样本的各维特征对分类效果的贡献水平是相同的。在实际中,由于特征提取不够完善,使得特征矢量中每维特征对分类的贡献不均匀,聚类中必须考虑各维特征的不同影响。本文提出建立了一种FCM特征权重的自适应算法。在该算法中制定了对聚类有效的两个原则:特征贡献平衡原则和类间分离度最大原则。根据这两个原则,对数据的各维特征进行归一化处理,实现其贡献的平衡性,然后利用特征加权,使得差异性大的特征对分类贡献更大。改进的FCM算法相对于传统的FCM算法有更强的无监督性和自动化,误分率小,得到的聚类原型模式也更接近实际的类中心位置。同时通过结果还可以分析各维特征对分类的贡献程度,有效的进行特征提取和优选,这在实际应用中是非常方便的。针对基于特征权重的后验FCM学习算法程序化问题,进行了细致的研究。设计思路是利用已知样本集,选取部分作为初始训练样本集,然后通过改进的FCM算法进行多层分类,分类过程中要将相应的因素保存下来,构成分类训练器。程序语言是采用C语言和Matlab语言相结合的方式。在程序实现过程中,为了使得类间距离足够大,程序实现了贴近度特征转换算法;对于过多的孤立样本,将根据万有引力思想构造的吸收化FCM算法进行了程序化;因为要进行多层循环分类,算法结构主要是采用的递归算法;程序产生的数据采用的线性链表和树形结构保存。训练完成后,利用测试样本对程序进行了测试,结果显示分类效果良好。