基于核函数和自定类别数目的文本聚类问题研究

基于核函数和自定类别数目的文本聚类问题研究

论文摘要

近年来,Internet的迅速发展给人们带来了诸多的方便,但随着互联网上信息不断动态变化,经常会出现新的文本很难用己有的分类体系来刻画。如果重新进行分类,就必须重新建立分类好的训练文本集,而获得大量带有类别标注的样本的代价是很大的。因此,对文本聚类技术的研究受到越来越广泛的关注。目前比较经典的聚类方法,K-均值、模糊K-均值聚类方法只能对一些典型分布的样本奏效,都没有对样本的特征进行优化,而是直接利用样本的特征进行聚类。这样聚类和模糊聚类方法的有效性很大程度上取决于样本的分布情况。例如一类样本散布较大,而另一类散布较小的话,这些方法效果就比较差;如果样本分布更加混乱,则聚类的结果就会面目全非。核函数不仅可以把一个低维空间中的非线性问题映射到高维空间后变成线性问题,而且高维空间中特征向量的内积可以通过核函数用低维空间中的输入向量直接计算得到,从而使得计算量并没有随着维数升高而增加很多。本文在了解核函数的基本理论上,提出了基于核函数的文本聚类算法,即核模糊聚类算法。通过利用Mercer核,我们把输入空间的样本映射到高维特征空间,增加对样本特征的优化,并且在特征空间中进行聚类。目前众多聚类算法中需要事先给出聚类类别数目,如果在不了解原始数据内部结构的情况下,很难给出合适的聚类类别数目。本文在详细分析图论中连通图知识的理论基础上,提出了一种能自动确定聚类类别数目的图核聚类方法。每个数据样本看作图中的顶点V ,这样所有的数据样本就构成一个以相似度为权值的无向加权图G = ?V ,E? ,该文从图论连通图的角度定义了能充分反映最佳聚类数目的连通系数T。该系数不仅将相似的文本划分到一个连通图中,而且具有清晰的物理意义。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景与意义
  • 1.2 文本聚类和文本分类
  • 1.2.1 文本分类和文本聚类的差异
  • 1.2.2 文本分类与文本聚类的共性之处
  • 1.3 文本聚类的研究进展
  • 1.4 核模糊聚类算法和图核聚类算法
  • 1.4.1 核模糊聚类算法
  • 1.4.2 图核聚类算法
  • 1.5 本文的主要研究工作
  • 1.6 本文的内容安排
  • 第2章 主要聚类分析算法
  • 2.1 引言
  • 2.2 主要聚类算法分类
  • 2.2.1 主要划分方法
  • 2.2.2 层次聚类算法
  • 2.2.3 基于密度的聚类算法
  • 2.2.4 基于模型的聚类算法
  • 2.2.5 基于网格的聚类算法
  • 2.3 划分方法的分析
  • 2.3.1 K-平均算法的分析
  • 2.3.2 K-中心点算法的分析
  • 2.4 本章小结
  • 第3章 核的理论基础
  • 3.1 引言
  • 3.2 特征空间及核的定义
  • 3.3 再生核理论及 Mercer 定理
  • 3.4 常用的核函数及其构造
  • 3.5 本章小结
  • 第4章 基于核函数的模糊聚类分析算法研究
  • 4.1 引言
  • 4.2 基于核的学习
  • 4.2.1 核方法的实质
  • 4.2.2 典型的基于核的学习算法
  • 4.3 模糊 C-均值(简称FCM)
  • 4.4 特征空间中的核模糊聚类算法
  • 4.5 实验结果与分析
  • 4.6 本章小结
  • 第5章 自定类别数目的图核聚类算法
  • 5.1 引言
  • 5.2 自适应核聚类(SAKC)算法
  • 5.2.1 SAKC 算法的核空间聚类
  • 5.2.2 基于相似性测度的核聚类有效性指标
  • 5.2.3 自适应核聚类算法
  • 5.3 图核聚类(GKC)方法
  • 5.3.1 连通图的性质
  • 5.3.2 特征空间的核优化
  • 5.3.3 核矩阵K 特性
  • 5.3.4 图核聚类算法
  • 5.4 试验结果与分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于核函数和自定类别数目的文本聚类问题研究
    下载Doc文档

    猜你喜欢