基于特征加权的半监督文本聚类研究

论文摘要

随着计算机技术和信息网络技术的发展,社会信息量急剧增加,数据库的规模日益扩大,数据库的数据总量及容量也急剧膨胀,这些广阔的领域为聚类分析方法的应用以及聚类分析的研究提供了宽广的舞台。在很多实际应用中,我们在得到数据的同时,还能得到一些与这些数据相关的先验知识,然而在传统聚类分析过程中,算法在对样本集进行聚类时并未考虑这些先验知识。半监督聚类算法就是研究无监督学习中如何利用少量的监督信息来提高聚类的性能。半监督聚类是近几年机器学习领域的一个新的研究方向,也是数据挖掘的一个重要分支,逐步成为许多领域的有用工具。然而目前在半监督聚类的研究中,尤其是当少量标记数据不足以反映大量无标记数据所蕴含的完整的聚类结构时,其聚类效果并不好。论文首先介绍了半监督聚类的研究背景、研究现状以及研究意义,简单的讲述了常用的聚类方法、目前用的比较多的几种特征选择指标、以及评价准则等等。重点介绍了三种半监督聚类算法:基于搜索的半监督聚类、基于相似度的半监督聚类、基于搜索和相似度的半监督聚类。尤其是基于约束的K-means半监督聚类,本文对其进行了简单的介绍并用实验证明了该算法。其次为了提高半监督聚类算法的准确率,本文对基于约束的K-means算法进行了改进,将特征加权引入半监督聚类过程中,使得类内间的文档相似度更大,并用实验验证了不同特征加权指标对算法的影响。我们不仅在单语言数据集上进行了实验来证明这一算法的有效性,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明在效率和准确率方面,基于特征加权的半监督聚类比跨语言分类表现出更好的性能。

论文目录

摘要

ABSTRACT

1 引言

1.1 研究背景

1.2 研究现状与研究意义

1.3 论文的工作和创新点

1.4 论文组织

2 半监督聚类理论基础

2.1 常用聚类算法介绍

2.1.1 基于划分的方法

2.1.2 基于层次的方法

2.1.3 自组织映射

2.1.4 基于密度的方法

2.1.5 其他聚类方法

2.2 特征选择指标

2.2.1 GINI 指标

2 统计量'>2.2.2 χ2 统计量

2.2.3 信息增益

2.2.4 互信息

2.3 评价指标

2.3.1 微平均和宏平均

2.3.2 归一化互信息

2.3.3 RAND 指标

3 优化的特征加权半监督聚类

3.1 半监督聚类算法

3.1.1 基于搜索的半监督聚类

3.1.2 基于相似度的半监督聚类

3.1.3 基于搜索和相似度相结合的半监督聚类

3.2 基于特征加权的半监督聚类算法

3.3 计算复杂性

4 实验设计和分析

4.1 实验设计

4.2 实验环境

4.3 实验数据集

4.4 实验结果及分析

4.4.1 参数选择实验

4.4.2 对比实验

5 总结与展望

5.1 总结

5.2 未来工作

参考文献

简历

致谢

基于特征加权的半监督文本聚类研究

论文摘要

论文目录

相关论文文献