论文摘要
当今社会是信息化的社会,信息量急剧.的膨胀,如何从大量数据中用非平凡的方法发现知识,已经成为信息产业界广泛关注的问题。数据挖掘可以从大量的信息中发现有用的信息和知识,因此它已成为信息时代的一个研究热点。聚类分析是数据挖掘中一个重要的研究领域,它的许多研究成果已经被广泛应用于模式识别、数据分析、图像处理、市场研究等多个领域。聚类边界分析是聚类分析的一个分支,它在聚类分析、图像检索、虚拟现实等领域中有着重要的作用。但是目前关于聚类边界点的研究才刚刚起步,并且已有的边界检测的算法存在着输出结果对输入参数高度依赖、不能准确提取多密度数据集中聚类的边界点等问题。另外,目前存在的聚类算法和边界检测算法大多数是相互独立的,没有将聚类和边界检测相融合。针对现有的边界点检测算法都需要输入参数,但在实际应用中算法的参数又难以确定这一问题,本文利用边界点自身的分布特征和k-means聚类技术来自动计算出数据集的边界度阈值,提出了一种无参数边界检测算法NPRIM。针对现有的边界检测算法在含有任意形状、多密度聚类且不同聚类间距离较近的数据集上算法精度不高,聚类算法与边界检测算法相互分离等这些问题,本文充分利用最小生成树和三角剖分图能自然反应数据点分布特征的优点,将两者结合起来提出了一种新的基于最小生成树的聚类边界检测算法2-MSTCRIM。本文实现了算法NPRIM和2-MSTCRIM,在综合数据集和真实数据集上做了大量实验,并与BORDER、BRIM等其它边界检测算法进行了比较,实验结果表明:算法NPRIM和2-MSTCRIM均能在包含任意形状、不同大小的多密度聚类的数据集上有效地检测出边界点。其中,算法NPRIM不需要输入任何参数,算法2-MSTCRIM在簇与簇之间距离较近的多密度数据集上的检测精度更高且具有聚类功能。