论文摘要
潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的同时尽可能保留原始特征空间全局信息的过程,那么在这个过程中不可避免的会过滤掉一些对某些类别识别很重要,但是全局考虑下又不是很重要的特征。因此,针对上述问题,我们对传统LSI模型进行了改进。首先,在基于词频的权值计算的基础上,针对传统方法存在的缺陷,本文在计算过程中提出了文档权重的概念,使新的权值计算方法更有利于潜在语义空间的生成,更适合潜在语义索引模型;同时增加了词语位置信息,使得词语的权值计算更加精确。然后,在对传统χ2统计方法的分析基础上,针对传统χ2统计方法对于稀有类别信息的不重视以及对于特定情况下χ2统计量错误的过高等缺陷,本文引入了频度、集中度、分散度三个指标,使得新的χ2统计方法更加精确。最后本文在传统LSI分类方法的基础上增加了对类别信息的考虑,利用偏最小二乘回归提出新的文本分类方法,称之为基于类别信息的潜在语义分类方法(Latent Semantic Classification based on Category Information, LSCCI)。本文较为详细的阐述了潜在语义索引模型的实现原理,对LSCCI的推导过程进行了详细的阐述,并将LSCCI与其他经典分类模型的性能进行了比较分析。实验数据表明,LSCCI具有较好的分类准确度。在英文文本分类实验中,对于稀有类别表现出比传统分类模型更为优秀的分类性能。