论文摘要
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之间的相似程度即做到”物以类聚”。半监督聚类算法研究无监督学习中如何利用少量的监督信息来提高聚类性能,目前正得到不断应用。本文首先介绍了聚类的发展概况和聚类过程中的相关技术,重点介绍了距离度量、常用聚类方法以及评价准则等等,为后续章节的研究提供了理论和实验基础。针对前人提出的半监督模糊C均值聚类算法,本文对其进行了详细介绍并用实验来证明了该算法。其次,为了验证该种半监督学习方法是否可以用于其它聚类算法,本文对极大熵算法进行了改进,将半监督距离学习引入极大熵聚类,生成半监督极大熵聚类算法,并通过实验证明极大熵聚类算法通过半监督方法改进之后确实有效。对于团状、每类样本数相差较大的数据集,FCM算法与半监督模糊C均值聚类算法的最优解可能都不是对数据集的正确划分,因为这两种算法对数据集有等划分趋势。针对这个问题,最后本文利用样本点分布密度大小作为权值,结合前面的半监督学习方法,提出了半监督点密度加权模糊C均值聚类算法,并通过实验证明了该算法确实能提高聚类精度。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 研究现状1.3 研究意义与目标1.4 论文结构第二章 聚类理论基础2.1 距离学习2.1.1 数据间的相似性度量2.1.2 类间距离2.2 关联学习2.3 常用初始聚类中心方法及隶属度函数2.3.1 常用初始聚类中心方法2.3.2 隶属度函数2.4 常用聚类算法2.4.1 简单聚类2.4.2 层次聚类法2.4.3 K 均值聚类算法2.4.4 模糊C 均值聚类算法2.4.5 极大熵聚类2.4.6 自组织映射神经网络2.4.7 谱聚类2.5 评价准则2.5.1 度量致密度准则2.5.2 数据对划分评判准则2.5.3 CR 准则2.5.4 Davies-Bouldin 准则2.5.5 规范化Hubert’s Statistic2.5.6 Dunn’s 准则第三章 半监督模糊C 均值聚类3.1 研究意义3.2 模糊C 均值聚类算法3.3 半监督模糊C 均值聚类分析3.3.1 距离学习3.3.2 等约束和不等约束3.3.3 半监督模糊C 均值聚类算法3.4 实验及分析3.5 小结第四章 半监督极大熵聚类4.1 研究的意义4.2 极大熵聚类算法4.3 半监督极大熵聚类算法4.4 实验及分析4.5 小结第五章 半监督点密度加权模糊C 均值聚类5.1 研究意义5.2 点密度函数的加权系数的计算5.3 点密度加权模糊C 均值聚类5.4 半监督点密度加权模糊C 均值聚类分析5.5 实验及分析5.6 小结第六章 总结与展望6.1 总结6.2 展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:数据挖掘论文; 聚类分析论文; 模糊均值聚类论文; 极大熵聚类论文; 点密度加权论文; 半监督学习论文; 标签数据论文; 距离学习论文;