K均值聚类算法初始聚类中心的选取与改进

K均值聚类算法初始聚类中心的选取与改进

论文摘要

进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现(Knowledge Discovery in Database)。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领域。分类、聚类、关联规则是数据挖掘技术三个主要的研究领域。在数据挖掘的三个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于模式识别、数据分析、图像处理以及市场研究等。聚类算法是聚类分析的重点研究内容,目前主要有五种聚类算法:基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法、基于模型的聚类算法。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法一个最主要的缺陷就是:算法随机选取初始聚类中心,聚类结果往往会陷入局部最优解。论文针对此缺点提出了两种改进的聚类算法。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中心的不足之处,提出了基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法。对初始聚类中心进行选取,然后根据初始聚类中心不断迭代聚类。两种改进的聚类算法都根据一定的原则选择初始聚类中心,都避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法能够提高聚类的稳定性与准确率,相比较于其他聚类算法,基于网格的赫夫曼树聚类算法应用在大数据集上能够大幅地提高聚类的执行效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景与意义
  • 1.2 国内外研究现状
  • 1.2.1 K均值聚类算法
  • 1.2.2 基于网格的聚类算法
  • 1.3 本文的主要工作
  • 1.4 本文的组织结构
  • 第2章 聚类分析技术相关研究
  • 2.1 聚类算法基本概念
  • 2.1.1 聚类的定义
  • 2.1.2 聚类的主要步骤
  • 2.1.3 聚类分析的数据类型与数据结构
  • 2.1.4 聚类分析相似度度量方法
  • 2.1.5 聚类准则函数
  • 2.2 聚类算法的分类
  • 2.3 K均值聚类算法的简单介绍
  • 2.3.1 K均值聚类算法的基本思想
  • 2.3.2 K均值聚类算法的流程
  • 2.4 本章小结
  • 第3章 K均值聚类算法的分析与改进
  • 3.1 K均值聚类算法的分析
  • 3.2 一种改进的K均值聚类算法
  • 3.2.1 问题的提出
  • 3.2.2 改进算法的基本思想
  • 3.2.3 改进算法的基本流程
  • 3.2.4 实验结果及分析
  • 3.3 本章小结
  • 第4章 基于网格的赫夫曼树聚类算法
  • 4.1 基于网格的赫夫曼树聚类算法
  • 4.1.1 相关定义
  • 4.1.2 实验举例
  • 4.1.3 算法思想
  • 4.1.4 算法流程
  • 4.2 实验结果及分析
  • 4.2.1 实验数据
  • 4.2.2 实验设计
  • 4.2.3 实验结果及分析
  • 4.3 本章小结
  • 第5章 总结与展望
  • 5.1 本文的工作总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    K均值聚类算法初始聚类中心的选取与改进
    下载Doc文档

    猜你喜欢