基于潜在语义索引的文本聚类算法研究

基于潜在语义索引的文本聚类算法研究

论文摘要

随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。本文是在对文本聚类的整个过程深入研究的基础上,利用潜在语义索引(Latent Semantic Indexing,LSI)在处理语义和降维方面的优势,以目前常用K-means聚类算法为主要框架,探索和研究潜在语义索引在文本聚类中的应用。本文的目的是研究具有更高效性能的文本聚类算法,并尝试从语义上更好的对文本进行聚类。本文的主要研究工作如下:首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:关键词抽取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。其次,针对传统K-means聚类算法聚类结果不稳定的问题,本文对该算法进行了改进。改进包括:(1)采用一种基于最小最大原则的K-means初始分布选择方法来自动选择该算法的k参数;(2)用向量之间的余弦相似度而不是欧氏距离作为文档之间的相似度;(3)增加迭代收敛条件,使得最终的聚类结果能够趋于稳定,即使是随机选取聚类初始中心。再次,作为一种重要的自然语言处理应用,文档聚类具有高维和语义相关的特点,因此影响文档聚类结果的因素除了文档聚类算法的选择以外,还包括语义问题的处理和降维问题,如何有效地降维已经成为文本聚类效率提高的难点和热点。本文将潜在语义索引应用于文本聚类当中,通过奇异值分解(Singular Value Decomposition,SVD)和半离散矩阵分解(Semi-DiscreteDecomposition,SDD)方法分别对文本预处理后的向量文件进行分解,再对消除噪声后的向量空间进行聚类,试验结果验证了该方法的有效性。本文最后通过对多个预处理后的语料进行聚类实验,并对实验结果进行比较分析。多次试验结果证明了上述对现有文本聚类算法改进的有效性。实验证明,基于潜在语义索引的文本聚类算法绕过了现有语言规则,通过规则与统计相结合更好地实现了自然语言理解。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本论文的主要研究内容
  • 1.4 论文结构安排
  • 第2章 相关理论与技术基础
  • 2.1 文本聚类概述
  • 2.2 基本聚类算法
  • 2.2.1 基于动态划分的方法
  • 2.2.2 层次聚类算法
  • 2.2.3 基于密度的聚类
  • 2.2.4 基于网格的聚类
  • 2.2.5 基于模型的聚类
  • 2.2.6 其它聚类算法
  • 2.3 文本预处理技术
  • 2.3.1 关键词抽取
  • 2.3.2 文档向量化
  • 2.4 本章小结
  • 第3章 一种新基于潜在语义索引的文本聚类算法
  • 3.1 潜在语义索引概述
  • 3.1.1 潜在语义索引基础理论
  • 3.1.2 奇异值分解(SVD)
  • 3.1.3 半离散矩阵分解(SDD)
  • 3.2 K-means聚类算法及其改进
  • 3.2.1 K-means聚类算法
  • 3.2.2 K-means算法的改进
  • 3.3 基于潜在语义索引的文本聚类新算法
  • 3.3.1 问题提出
  • 3.3.2 新算法过程描述
  • 3.3.3 算法分析
  • 3.4 本章小结
  • 第4章 新聚类算法实验结果及分析
  • 4.1 实验数据测试集及结果评价方法
  • 4.1.1 实验所用数据测试集
  • 4.1.2 聚类结果的评价方法
  • 4.2 基于LSI的文本聚类实验结果分析
  • 4.2.1 实验结果
  • 4.2.2 SVD分解结果
  • 4.2.3 SDD分解结果
  • 4.3 更多数据集实验结果对比
  • 4.4 聚类结果分析
  • 4.5 本章小结
  • 结论与展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于潜在语义索引的文本聚类算法研究
    下载Doc文档

    猜你喜欢