论文摘要
随着互联网等现代信息技术的飞速发展,人们必须面对海量的信息,如何对这些信息进行整理、分类和挖掘成为人们日益关心的话题。聚类分析技术作为一种信息处理手段近些年来一直受到人们的关注,聚类分析在机器学习、模式识别,数据挖掘、信息检索等很多领域得到了广泛的研究和应用。聚类算法主要分为基于划分的聚类算法和基于层次的聚类算法,基于划分的聚类算法是数据挖掘中最常用的算法,模糊C均值聚类算法(FCM)作为一种重要的划分算法在实际中广为应用。但模糊C均值算法存在三个缺点:类中心个数需要用户预先指定;容易收敛到局部极小值或鞍点;聚类结果受初始类中心影响较大。为了解决模糊C均值算法的这三个缺点,本文提出基于进化规划算法的自动聚类算法(EPFCM),借助进化规划算法的全局优化能力和聚类有效性指标对聚类结果的评价,用户无需预先指定类中心的个数,算法可以自动搜索到最佳的类中心个数以及对应的最佳的聚类结构。为了加快算法的收敛过程,我们在进化规划进化过程中加入了FCM算法的迭代。实验表明,EPFCM算法可以有效地得到最佳的聚类中心数,聚类结果不受初始类中心影响,并且陷入局部极小的概率较FCM算法大大降低。