论文摘要
经过几十年的发展,计算机技术的应用领域已经包罗万象。然而,迅速增长的应用对数据分析造成了巨大的困难。数据挖掘技术能够在数据的分析处理过程中找出数据中隐含的规律,为人类最大限度地利用数据提供了有力的武器。所以,能够有效地利用数据挖掘工具对于人类社会的发展具有相当重要的意义。聚类分析作为数据挖掘的众多挖掘方法之一,通过无监督的学习方式实现数据的类别划分。聚类分析已经成为国内外热门的研究课题,并在诸多领域得到了广泛的应用。然而,随着实际问题的复杂化,人们对聚类分析算法提出了更高的要求,聚类分析的研究面临新的挑战。基于密度的聚类算法是聚类分析的一类经典算法,它基于密度的概念来发现任意形状的簇。然而,基于密度的方法仍然存在着诸多不足,例如,参数敏感性以及对多密度分布数据聚类结果不理想等。本文在学习和研究基于密度的聚类算法及其改进算法的基础上,对密度聚类算法的缺点与不足进行分析和探讨,提出了两个改进的基于密度的聚类算法。提出的算法解决了以往密度聚类算法的不足,能够较好地处理多密度数据集的聚类。其一,针对传统密度聚类算法存在的密度参数较难确定且是单一全局的缺点,提出了一种基于一维归一化投影分析的无参数多密度聚类算法PFMDBSCAN, PFMDBSCAN算法首先对数据集进行归一化投影,通过核密度估计来寻找分布密集的数据分区,然后依赖数据分区得到各部分的密度参数,最终实现无参数多密度聚类算法。其二,本文通过分析最小生成树能够明显根据数据集的形状延伸的优势,以及其边权能够刻画不同数据簇的疏密情况等性质,将最小生成树的思想引入到密度聚类算法中,并提出了基于最小生成树的无参数多密度聚类算法MST-DB SCAN。MST-DBSCAN算法首先构建数据集的最小生成树,并保存最小生成树的边权集,在对边权集的分布情况进行分析的同时,区分不同密度簇。最后,通过边权信息选取代表点确定不同密度簇的密度情况,最终聚类发现不同层次的密度簇。论文分别对提出的两种改进算法进行实验分析比较,结果表明它们均能发现多密度任意形状的簇,并取得了改进的效果。