论文摘要
随着信息技术和数据库技术的不断发展,数据库中存储的数据种类和数量急剧增加,使得如何从海量数据中快速有效地提取有价值的信息变得至关重要。数据挖掘技术应运而生。适当的数据挖掘方法,使得生物学家可以发现大量的遗传信息,也使得地理学家可以发现对陆地气候有显著影响的极地和海洋大气压力模式。聚类技术是数据挖掘中的重要技术之一,人们对聚类技术已经有深入的研究,出现了许多种聚类算法,但对聚类边界的研究刚刚起步。聚类边界是一种模式,在实际应用中有着广泛的用途。在图像检测中,聚类的边界代表物体的轮廓,而在临床医学中,聚类的边界代表具有某种疾病特征的健康人群。所以,对聚类的边界的研究具有重要的价值。本文针对现有算法的不足,提出了基于联合熵的聚类边界检测算法(EDGE)和基于梯度二值化的聚类边界检测算法(BAGB)。EDGE算法采用网格技术和联合熵技术相结合的方法来提取聚类边界点。网格技术用于快速查找数据集中聚类边界所在的网格范围,这样就缩小了查找范围,提高了算法效率。联合熵技术用于在边界落入的网格范围内准确地识别聚类的边界点,这样提高了算法的精度。实验结果表明,该算法能够准确识别不同形状、大小和密度的数据集中聚类的边界,可以有效去除噪声,算法的时间复杂度是输入数据集点数的线性函数,在大型数据集上执行时间优势更明显。BAGB算法采用将网格技术和梯度算子相结合方法来提取聚类的边界点。网格技术用于用于提高数据处理的速度。prewitt梯度算子用于计算梯度,计算时采用的方法是在某网格周围3×3区域内从八个方向来计算梯度,取最大值为中心网格的梯度。梯度用于判断网格是否是边界网格,边界网格中的点即为边界点。此方法是把图像处理中处理图像边界的方法用于处理聚类的边界,为研究聚类边界提供了新思路。实验结果表明,该算法能够在含有噪声点/孤立点的数据集上,有效的检测出聚类的边界,运行效率高。本文的创新之处是:(1)提出了将网格技术和联合熵技术结合来检测聚类边界的思想,给出了EDGE算法;(2)将网格和梯度算子结合实现了聚类边界检测,提出了BAGB算法。