论文摘要
近年来,Internet的迅速发展给人们带来了诸多的方便,但随着互联网上信息不断动态变化,经常会出现新的文本很难用己有的分类体系来刻画。如果重新进行分类,就必须重新建立分类好的训练文本集,而获得大量带有类别标注的样本的代价是很大的。因此,对文本聚类技术的研究受到越来越广泛的关注。目前比较经典的聚类方法,K-均值、模糊K-均值聚类方法只能对一些典型分布的样本奏效,都没有对样本的特征进行优化,而是直接利用样本的特征进行聚类。这样聚类和模糊聚类方法的有效性很大程度上取决于样本的分布情况。例如一类样本散布较大,而另一类散布较小的话,这些方法效果就比较差;如果样本分布更加混乱,则聚类的结果就会面目全非。核函数不仅可以把一个低维空间中的非线性问题映射到高维空间后变成线性问题,而且高维空间中特征向量的内积可以通过核函数用低维空间中的输入向量直接计算得到,从而使得计算量并没有随着维数升高而增加很多。本文在了解核函数的基本理论上,提出了基于核函数的文本聚类算法,即核模糊聚类算法。通过利用Mercer核,我们把输入空间的样本映射到高维特征空间,增加对样本特征的优化,并且在特征空间中进行聚类。目前众多聚类算法中需要事先给出聚类类别数目,如果在不了解原始数据内部结构的情况下,很难给出合适的聚类类别数目。本文在详细分析图论中连通图知识的理论基础上,提出了一种能自动确定聚类类别数目的图核聚类方法。每个数据样本看作图中的顶点V ,这样所有的数据样本就构成一个以相似度为权值的无向加权图G = ?V ,E? ,该文从图论连通图的角度定义了能充分反映最佳聚类数目的连通系数T。该系数不仅将相似的文本划分到一个连通图中,而且具有清晰的物理意义。
论文目录
摘要Abstract第1章 绪论1.1 课题背景与意义1.2 文本聚类和文本分类1.2.1 文本分类和文本聚类的差异1.2.2 文本分类与文本聚类的共性之处1.3 文本聚类的研究进展1.4 核模糊聚类算法和图核聚类算法1.4.1 核模糊聚类算法1.4.2 图核聚类算法1.5 本文的主要研究工作1.6 本文的内容安排第2章 主要聚类分析算法2.1 引言2.2 主要聚类算法分类2.2.1 主要划分方法2.2.2 层次聚类算法2.2.3 基于密度的聚类算法2.2.4 基于模型的聚类算法2.2.5 基于网格的聚类算法2.3 划分方法的分析2.3.1 K-平均算法的分析2.3.2 K-中心点算法的分析2.4 本章小结第3章 核的理论基础3.1 引言3.2 特征空间及核的定义3.3 再生核理论及 Mercer 定理3.4 常用的核函数及其构造3.5 本章小结第4章 基于核函数的模糊聚类分析算法研究4.1 引言4.2 基于核的学习4.2.1 核方法的实质4.2.2 典型的基于核的学习算法4.3 模糊 C-均值(简称FCM)4.4 特征空间中的核模糊聚类算法4.5 实验结果与分析4.6 本章小结第5章 自定类别数目的图核聚类算法5.1 引言5.2 自适应核聚类(SAKC)算法5.2.1 SAKC 算法的核空间聚类5.2.2 基于相似性测度的核聚类有效性指标5.2.3 自适应核聚类算法5.3 图核聚类(GKC)方法5.3.1 连通图的性质5.3.2 特征空间的核优化5.3.3 核矩阵K 特性5.3.4 图核聚类算法5.4 试验结果与分析5.5 本章小结结论参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:文本聚类论文; 聚类分析论文; 核函数论文; 核聚类论文; 图核聚类论文;