随着计算机技术和信息网络技术的发展,社会信息量急剧增加,数据库的规模日益扩大,数据库的数据总量及容量也急剧膨胀,这些广阔的领域为聚类分析方法的应用以及聚类分析的研究提供了宽广的舞台。在很多实际应用中,我们在得到数据的同时,还能得到一些与这些数据相关的先验知识,然而在传统聚类分析过程中,算法在对样本集进行聚类时并未考虑这些先验知识。半监督聚类算法就是研究无监督学习中如何利用少量的监督信息来提高聚类的性能。半监督聚类是近几年机器学习领域的一个新的研究方向,也是数据挖掘的一个重要分支,逐步成为许多领域的有用工具。然而目前在半监督聚类的研究中,尤其是当少量标记数据不足以反映大量无标记数据所蕴含的完整的聚类结构时,其聚类效果并不好。论文首先介绍了半监督聚类的研究背景、研究现状以及研究意义,简单的讲述了常用的聚类方法、目前用的比较多的几种特征选择指标、以及评价准则等等。重点介绍了三种半监督聚类算法:基于搜索的半监督聚类、基于相似度的半监督聚类、基于搜索和相似度的半监督聚类。尤其是基于约束的K-means半监督聚类,本文对其进行了简单的介绍并用实验证明了该算法。其次为了提高半监督聚类算法的准确率,本文对基于约束的K-means算法进行了改进,将特征加权引入半监督聚类过程中,使得类内间的文档相似度更大,并用实验验证了不同特征加权指标对算法的影响。我们不仅在单语言数据集上进行了实验来证明这一算法的有效性,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明在效率和准确率方面,基于特征加权的半监督聚类比跨语言分类表现出更好的性能。
本文来源: https://www.lw50.cn/article/8fb81dbfbc11e4378ff0c186.html