数据挖掘技术是一种多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。聚类分析是数据挖掘领域中一个较活跃且极具挑战性的研究方向。目前聚类算法中比较流行且应用比较广泛的划分聚类算法主要有K-均值、K-调和均值、模糊C-均值和谱聚类等划分算法。但这些算法自身都存在一些缺陷,例如对初始点敏感、不适用于大数据以及收敛速度慢等。主成分分析是一种将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法,同时也是一种数据降维处理技术。本文借助主成分分析的一些优点,提出一种基于最大或次大特征值的主成分分析(PCA)聚类算法。该算法同时结合主成分分析以及所选择的聚类算法的优点,通过数值实验表明该算法是一个有效可行的算法。同时,根据聚类分析中距离度量的重要性,本文在K-均值算法中引用了一种新的距离度量,得到了改进的K-均值聚类算法。该算法通过一个参数的调节可以达到非常好的聚类效果。本文首先是阐述了聚类分析以及主成分分析的一些理论基础,分析和比较了几类较流行的划分聚类算法,并在说明现有算法的不足的基础上提出了两类改进的聚类算法。通过MATLAB编程进行数值实验,数值实验结果表明,基于最大或次大特征值的PCA聚类算法在计算时间、迭代次数以及聚类结果上都有一定优势,而改进的K-调和均值算法通过调节参数也可以得到很好的聚类效果,同时在聚类时间和迭代次数方面比传统的K-调和均值算法更具优势。
本文来源: https://www.lw50.cn/article/efc47027cc125f3db30912de.html