论文摘要
聚类分析是数据挖掘的重要研究内容,也是数据挖掘研究领域中的一个难点。其中对高维数据空间的分析更是研究的热点。由于“维噩梦”现象的存在,高维数据不可能在全维空间密集,并且两个数据点间的距离变得几乎等同,因此很难再通过距离来区别数据点是否相似,从而绝大多数传统聚类算法在处理高维数据空间时都无法得到理想的效果。目前,子空间聚类是高维大规模数据聚类的主要解决方法。在高维数据研究领域中,分类数据的处理一直是研究者所面临的巨大挑战。传统子空间聚类算法主要针对连续性数据的聚类,难以处理高维分类属性数据集。通过对常用子空间聚类算法分析发现,在确定簇的子空间时都需要多次扫描数据库,导致了算法的时间效率不高。我们发现子空间的确定与关联规则中频繁模式的挖掘具有相似性,利用频繁模式增长方法FP-Growth(Frequent Pattern-Growth)只需扫描两遍数据库就可以得到所有信息,从而找到所有频繁模式。本文提出了一种处理高维分类数据集的子空间聚类算法(FPSUB)。该算法首先将分类数据集转化为事务数据集,将子空间聚类问题转化为寻找最大频繁项集问题。FPSUB利用压缩了所有关联信息的FP-Tree(Frequent Pattern-7ree)结构来存储数据集信息,高效的挖掘出所有属性值的频繁模式,即子空间,然后利用这些子空间进行对象聚类,还可以根据用户需求对聚类结果进行处理,而无需给定初始簇的数目。本文将该算法同其他算法在真实数据集上进行了实验比较,由实验结果可以看出FPSUB算法比其他算法具有更高的准确度,对高维分类数据集的效果更为明显,说明该算法在处理高维分类数据集时的有效性和可行性。最后在这些数据集上对各聚类算法进行了时间开销的比较,从而更好地说明了FPSUB算法的高效性。