论文摘要
组合分类方法己被证明是非常普遍和有效地、能够改进学习精确度的监督方法。依据同样的原理,聚类融合的目的是融合来自多个划分的结果以得到更高质量和鲁棒性的聚类结果。目前已经出现了很多的聚类融合算法,大量的理论和实验研究表明:与单个聚类相比,聚类融合具有明显的优势。在众多的聚类方法中,基于网格的方法以网格为单位学习聚簇,速度快、效率高,但它构造的每个聚簇边界成锯齿状,不能很好地识别平滑边界曲面。本文在对已往聚类融合算法进行深入分析的基础上,并结合网格聚类算法的优缺点,提出了一种基于网格的聚类融合算法:旋转网格(Rotation Grid,简称RG)。该算法能够有效地解决网格聚类方法中边界处理不平滑问题,RG算法有两个关键的步骤:(1)生成若干个具有差异性的聚类成员;(2)设计融合函数对聚类成员进行融合。本文围绕这两个方面进行了研究。在生成聚类成员方面,RG不是通过随机抽样数据集或随机初始化相关参数来创建有差异的聚类成员,而是迭代的将特征划分为K个数据子集,并使用特征变换得到K个不同的旋转变换基,形成新的特征空间,并将网格聚类算法应用于该特征空间,从而构建有差异的聚类成员;在设计融合函数方面,算法沿用了基于超图的思想,将聚类成员中的每个簇写成单位向量形式,将每个向量看作顶点,构造一个带权超图。依次计算出所有顶点对之间的边权重,并找出边权重最大的两个簇,用相同的标签来标示,然后用投票的方法决定数据集中的每个点所在的簇。通过大量的实验表明,RG算法能够有效地划分任意形状、大小的数据集,并能有效的解决网格聚类中边界处理过于粗糙的问题,其精度明显高于单个网格聚类。