论文摘要
进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现(Knowledge Discovery in Database)。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领域。分类、聚类、关联规则是数据挖掘技术三个主要的研究领域。在数据挖掘的三个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于模式识别、数据分析、图像处理以及市场研究等。聚类算法是聚类分析的重点研究内容,目前主要有五种聚类算法:基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法、基于模型的聚类算法。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法一个最主要的缺陷就是:算法随机选取初始聚类中心,聚类结果往往会陷入局部最优解。论文针对此缺点提出了两种改进的聚类算法。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中心的不足之处,提出了基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法。对初始聚类中心进行选取,然后根据初始聚类中心不断迭代聚类。两种改进的聚类算法都根据一定的原则选择初始聚类中心,都避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法能够提高聚类的稳定性与准确率,相比较于其他聚类算法,基于网格的赫夫曼树聚类算法应用在大数据集上能够大幅地提高聚类的执行效率。