论文摘要
聚类分析作为一种非监督学习方法,是智能计算领域中一个重要的研究方向。同时,聚类技术也是一种数据挖掘中进行数据处理的重要分析工具和方法。随着现代信息技术的飞速发展,聚类分析在机器学习、模式识别、数据挖掘、智能计算、信息检索等很多领域中成为人们的研究热点。聚类模型和聚类算法的设计是整个聚类分析过程中最关键的步骤,设计不同的聚类模型,就可以得到不同的聚类算法。目前出现的聚类算法主要有:基于层次的方法、基于划分的方法、基于密度的方法、基于网格的方法和基于模型的方法等。聚类分析本身隐含着粒度的思想,因此,近年来聚类算法与粒度分析原理相结合的研究引起了国内外的广泛关注。本文介绍了聚类分析与信息粒度的基本概念和基础知识,对聚类分析的典型算法及其基本思想进行了归纳、分析和研究。结合信息粒耦合度与贴近度测度,将粒度分析原理引入到聚类算法中,对模糊聚类算法做了进一步的研究,主要研究内容包括以下三个方面:(1)本文基于最小平方误差原理给出了一种信息粒耦合度测度与贴近度测度的定义,通过计算信息粒的耦合度与贴近度,从不同的粒度空间对信息粒度的有效性进行评价。(2)在给定最大初始聚类个数的基础上,通过基于确定类别数的最大最小距离算法构造初始聚类中心,引入数据点到聚类中心的隶属度对数据集进行聚类,应用信息粒耦合度测度与贴近度测度对聚类结果进行评价,采用模糊迭代方法得到较优的聚类结果,同时也找出了最佳的聚类个数。(3)用IRIS标准测试数据集和模拟数据集分别对算法进行了比较实验,其实验结果表明本文提出的算法比传统最大最小距离算法和模糊C均值聚类算法有更好的聚类效果,从而证明了本算法的有效性。本文将聚类算法与粒度分析相互结合,并引入信息粒耦合度与贴近度测度对聚类结果进行评价,使得本文提出的算法取得了良好的效果,不仅对模糊聚类分析理论研究具有促进作用,而且所获得的成果具有重要的应用价值。