半监督聚类算法及其应用研究

半监督聚类算法及其应用研究

论文摘要

聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之间的相似程度即做到”物以类聚”。半监督聚类算法研究无监督学习中如何利用少量的监督信息来提高聚类性能,目前正得到不断应用。本文首先介绍了聚类的发展概况和聚类过程中的相关技术,重点介绍了距离度量、常用聚类方法以及评价准则等等,为后续章节的研究提供了理论和实验基础。针对前人提出的半监督模糊C均值聚类算法,本文对其进行了详细介绍并用实验来证明了该算法。其次,为了验证该种半监督学习方法是否可以用于其它聚类算法,本文对极大熵算法进行了改进,将半监督距离学习引入极大熵聚类,生成半监督极大熵聚类算法,并通过实验证明极大熵聚类算法通过半监督方法改进之后确实有效。对于团状、每类样本数相差较大的数据集,FCM算法与半监督模糊C均值聚类算法的最优解可能都不是对数据集的正确划分,因为这两种算法对数据集有等划分趋势。针对这个问题,最后本文利用样本点分布密度大小作为权值,结合前面的半监督学习方法,提出了半监督点密度加权模糊C均值聚类算法,并通过实验证明了该算法确实能提高聚类精度。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 研究意义与目标
  • 1.4 论文结构
  • 第二章 聚类理论基础
  • 2.1 距离学习
  • 2.1.1 数据间的相似性度量
  • 2.1.2 类间距离
  • 2.2 关联学习
  • 2.3 常用初始聚类中心方法及隶属度函数
  • 2.3.1 常用初始聚类中心方法
  • 2.3.2 隶属度函数
  • 2.4 常用聚类算法
  • 2.4.1 简单聚类
  • 2.4.2 层次聚类法
  • 2.4.3 K 均值聚类算法
  • 2.4.4 模糊C 均值聚类算法
  • 2.4.5 极大熵聚类
  • 2.4.6 自组织映射神经网络
  • 2.4.7 谱聚类
  • 2.5 评价准则
  • 2.5.1 度量致密度准则
  • 2.5.2 数据对划分评判准则
  • 2.5.3 CR 准则
  • 2.5.4 Davies-Bouldin 准则
  • 2.5.5 规范化Hubert’s Statistic
  • 2.5.6 Dunn’s 准则
  • 第三章 半监督模糊C 均值聚类
  • 3.1 研究意义
  • 3.2 模糊C 均值聚类算法
  • 3.3 半监督模糊C 均值聚类分析
  • 3.3.1 距离学习
  • 3.3.2 等约束和不等约束
  • 3.3.3 半监督模糊C 均值聚类算法
  • 3.4 实验及分析
  • 3.5 小结
  • 第四章 半监督极大熵聚类
  • 4.1 研究的意义
  • 4.2 极大熵聚类算法
  • 4.3 半监督极大熵聚类算法
  • 4.4 实验及分析
  • 4.5 小结
  • 第五章 半监督点密度加权模糊C 均值聚类
  • 5.1 研究意义
  • 5.2 点密度函数的加权系数的计算
  • 5.3 点密度加权模糊C 均值聚类
  • 5.4 半监督点密度加权模糊C 均值聚类分析
  • 5.5 实验及分析
  • 5.6 小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    半监督聚类算法及其应用研究
    下载Doc文档

    猜你喜欢