基于潜在语义索引的文本分类研究与实现

基于潜在语义索引的文本分类研究与实现

论文摘要

潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的同时尽可能保留原始特征空间全局信息的过程,那么在这个过程中不可避免的会过滤掉一些对某些类别识别很重要,但是全局考虑下又不是很重要的特征。因此,针对上述问题,我们对传统LSI模型进行了改进。首先,在基于词频的权值计算的基础上,针对传统方法存在的缺陷,本文在计算过程中提出了文档权重的概念,使新的权值计算方法更有利于潜在语义空间的生成,更适合潜在语义索引模型;同时增加了词语位置信息,使得词语的权值计算更加精确。然后,在对传统χ2统计方法的分析基础上,针对传统χ2统计方法对于稀有类别信息的不重视以及对于特定情况下χ2统计量错误的过高等缺陷,本文引入了频度、集中度、分散度三个指标,使得新的χ2统计方法更加精确。最后本文在传统LSI分类方法的基础上增加了对类别信息的考虑,利用偏最小二乘回归提出新的文本分类方法,称之为基于类别信息的潜在语义分类方法(Latent Semantic Classification based on Category Information, LSCCI)。本文较为详细的阐述了潜在语义索引模型的实现原理,对LSCCI的推导过程进行了详细的阐述,并将LSCCI与其他经典分类模型的性能进行了比较分析。实验数据表明,LSCCI具有较好的分类准确度。在英文文本分类实验中,对于稀有类别表现出比传统分类模型更为优秀的分类性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 典型应用
  • 1.3 国内外研究现状
  • 1.3.1 文本分类技术
  • 1.3.2 向量空间模型
  • 1.3.3 潜在语义索引模型
  • 1.4 本文工作
  • 1.5 论文结构安排
  • 第2章 文本分类系统及其优化
  • 2.1 文本分类系统
  • 2.2 引入词语位置信息的LSI权重计算方法
  • 2.2.1 传统词语权重计算方法
  • 2.2.2 包含词语位置信息的LSI权值计算方法
  • 2.3 基于词语分布信息的维数约简方法
  • 2.3.1 传统维数约简方法
  • 2.3.2 基于词语分布信息的维数约简方法
  • 2.4 实验结果与分析
  • 2.5 本章小结
  • 第3章 基于类别信息的潜在语义分类方法
  • 3.1 潜在语义索引分类方法
  • 3.1.1 LSI分类方法原理
  • 3.1.2 潜在语义索引分类方法的缺陷
  • 3.2 改进的基于类别信息的潜在语义分类方法
  • 3.2.1 问题的引出
  • 3.2.2 偏最小二乘回归
  • 3.2.3 算法原理
  • 3.2.4 算法推导与描述
  • 3.2.5 算法时间复杂性分析
  • 3.3 本章小结
  • 第4章 系统实现及实验结果分析
  • 4.1 语料库的选取
  • 4.2 系统预处理
  • 4.3 实验及结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于潜在语义索引的文本分类研究与实现
    下载Doc文档

    猜你喜欢