论文摘要
聚类融合是将不同算法或者同一算法使用不同参数得到的大量聚类成员利用融合函数进行融合,从而获得最终聚类结果。聚类融合已经成为数据挖掘领域的研究热点。但是,传统的聚类融合方法通常将所有产生的聚类成员都参与融合。但是在监督分类学习中,选择分类融合的已经获得了很大的研究进展,对于无监督的选择性聚类融合直到最近几年才逐渐得到重视。研究表明,选择性聚类融合方法能很好地提高聚类分析的准确性等性能。论文针对选择性聚类融合中的数据降维、选择策略、融合函数设计等算法进行了研究,并将选择性聚类融合算法应用于多聚类问题分析中。论文首先对数据降维方法进行了研究,针对传统的PCA降维方法对异常值、噪声敏感问题以及矩阵的秩计算非凸、不连续且计算复杂等问题,提出联合L1范数和迹范数的数据降维模型,针对模型的优化求解提出了基于增强拉格朗日乘子的优化算法。理论的数学分析和可视化的实验结果都表明模型和优化算法的有效性。研究了选择性聚类融合的选择策略问题,理论上证明了联合聚类质量和差异度的选择性聚类融合确实优于融合所有聚类成员的融合算法,针对选择策略中参照成员的确定过于简单问题,提出了基于聚类有效性评价方法的参照成员选择方法,在此基础上,针对聚类成员对最终聚类结果的作用不同,提出了基于容错关系信息熵的属性重要性加权方法,最后论文给出了选择加权聚类融合算法的框架。论文还对算法中的聚类簇数和平衡因子进行了优化分析,并提出基于融合准则函数的聚类簇数优化算法。研究了选择性聚类融合中融合函数的设计问题,提出利用非负矩阵分解(NMF, Nonnegative Matrix Factorization)解决聚类融合问题,在此基础上,引入了谱聚类算法对聚类成员进行分组选择,提出了基于NMF的选择性聚类融合算法。论文进一步分析具有二进制特征的数据,提出了基于二进制矩阵分解(BMF, Binary Non-negative Matrix Factorization)的聚类融合算法和基于BMF的选择性聚类融合算法。通过大量的仿真实验分析发现,对于文本和人工数据集算法准确性大大提高,但对于公共数据集,其准确性不稳定。论文将选择性聚类融合算法应用于多聚类问题分析,提出了基于选择性聚类融合的多聚类算法。算法利用选择性聚类融合技术,形成聚类成员的相似矩阵,基于此矩阵构建聚类成员的层次树,利用基于模块化的方法对层次树进行分割,从而得到多聚类结果。大量的实验结果表明,算法得到的多聚类结果差异度较大,但聚类结果本身的质量较好。论文最后对全文进行了总结,提出了今后将继续进行的研究方向。图21幅,表15个,参考文献132篇。