潜在语义索引分类模型的研究与改进

潜在语义索引分类模型的研究与改进

论文摘要

针对向量空间模型表示法的局限性,采用潜在语义索引在语义层面进行处理,是近几年提出的一种文本表示方法。潜在语义索引是利用统计计算导出文本中的潜在的语义进行索引,而不是在传统的字词上进行索引。本文的研究工作是基于潜在语义索引的分类模型。针对向量空间表示模型的高维性、松散性、仅体现词汇层面的缺点,在K-近邻和支持向量机分类算法的基础上,应用了潜在语义索引对原始的词*文档矩阵进行了消减,得到信息更为丰富、准确、浓缩的语义空间,与向量空间模型的特征空间进行了详细全面的比较。实验结果表明在几乎相同的F1值下,基于潜在语义索引的分类模型仅仅使用50维就能达到向量空间模型1000维同样的效果,所用的特征向量仅仅为后者的1/20。本文还用实验数据详细说明了基于各种不同的特征词选择算法,即使特征词变化比较大,基于潜在语义索引的K-近邻和支持向量机分类模型在实验中有着较好的稳定性和有效性,保持一个稳定的F1值。本文还针对K-近邻分类算法的局限性,改进了传统的K-近邻算法,提出了一种基于中心距离的K-近邻改进算法。传统的K-近邻算法有诸多局限,比如在训练样本分布类内距离较小而类间距离较大的情况下才有较理想的分类效果,但是实际情况遇到训练样本很松散,当训练样本处于边界分布和分布不均时,K-近邻算法存在弊端。本文提出的基于中心距离的改进算法,综合考虑了训练样本的分布情况,避免了边界分布和不均分布对K-近邻造成的影响。实验结果表明,宏平均F1值从83.6%提高到88.5%,证明了改进的有效性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文的工作
  • 1.4 论文的组织
  • 2 文本分类技术
  • 2.1 文本分类特点介绍
  • 2.2 文本预处理
  • 2.3 文档表示模型
  • 2.4 文本分类算法
  • 2.4.1 统计方法
  • 2.4.2 规则方法
  • 3 特征提取与降维
  • 3.1 特征选择
  • 3.2 特征抽取
  • 4 潜在语义索引的降维分类模型
  • 4.1 潜在语义索引
  • 4.1.1 奇异值分解
  • 4.1.2 一个LSI例子
  • 4.2 LSI的分类模型
  • 4.3 LSI模型比VSM模型的优越性
  • 4.4 LSI中k对分类效果的影响
  • 4.5 分类效果的评价指标
  • 4.5.1 准确率与召回率
  • 4.5.2 F-measure值
  • 4.6 实验结果及分析
  • 4.6.1 实验过程
  • 4.6.2 结果分析
  • 5 基于中心距离的KNN算法的改进
  • 5.1 KNN的分类算法
  • 5.1.1 KNN算法思想
  • 5.1.2 KNN算法的不足
  • 5.2 基于中心距离的KNN算法改进
  • 5.2.1 训练样本分布不均造成的影响
  • 5.2.2 基于中心距离的KNN算法思想
  • 5.3 实验结果及分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].双特征空间的实体排序学习[J]. 中文信息学报 2020(05)
    • [2].面向微博图文关系识别的统一特征空间映射方法[J]. 武汉大学学报(理学版) 2017(05)
    • [3].基于图像信息的多特征空间坦克姿态估计[J]. 火力与指挥控制 2016(03)
    • [4].基于多特征空间的粗糙数据分析方法[J]. 江苏科技大学学报(自然科学版) 2016(04)
    • [5].面向对象分类的特征空间优化[J]. 遥感学报 2009(04)
    • [6].基于子特征空间的三维目标复杂背景及非线性光照鲁棒识别[J]. 木工机床 2015(03)
    • [7].地表温度?植被指数特征空间时空尺度效应分析[J]. 中国生态农业学报 2014(10)
    • [8].矩阵的联合特征空间及其应用[J]. 菏泽学院学报 2012(02)
    • [9].基于特征空间的遥感干旱监测方法综述[J]. 长江科学院院报 2010(01)
    • [10].地表温度-植被指数特征空间干旱监测方法的改进[J]. 农业工程学报 2010(09)
    • [11].动态特征空间的超球体分类算法[J]. 计算机工程与应用 2020(22)
    • [12].稀疏近似最近特征空间嵌入标签传播[J]. 软件学报 2014(06)
    • [13].基于可变特征空间SVM的互联网流量分类[J]. 电信科学 2016(05)
    • [14].基于多特征空间的均值漂移算法[J]. 模式识别与人工智能 2009(04)
    • [15].基于非线性距离和夹角组合的最近特征空间嵌入方法[J]. 计算机工程与科学 2018(05)
    • [16].T_s-NDVI特征空间结构及与气候特征的相关性研究[J]. 高原气象 2015(01)
    • [17].地表温度-归一化植被指数特征空间干旱监测方法的改进及应用研究[J]. 气象学报 2011(05)
    • [18].通用温度-植被指数特征空间农田干旱遥感监测[J]. 遥感信息 2019(05)
    • [19].基于稀疏特征空间的核方法建模研究[J]. 化工自动化及仪表 2009(04)
    • [20].基于MODIS数据对鄂尔多斯市近10年干旱动态研究[J]. 内蒙古大学学报(自然科学版) 2015(05)
    • [21].特征空间和符号相干系数融合的最小方差超声波束形成[J]. 声学学报 2015(06)
    • [22].基于NDVI-ST双抛物线特征空间的冬小麦旱情遥感监测[J]. 农业机械学报 2012(05)
    • [23].采用特征空间随机映射的鲁棒性语音识别[J]. 计算机应用 2012(07)
    • [24].使用特征空间归一化主类距离的智能零售场景开放集分类方法[J]. 计算机辅助设计与图形学学报 2020(05)
    • [25].基于NDVI-Albedo特征空间的陕西省干旱与荒漠化遥感监测[J]. 西北林学院学报 2019(01)
    • [26].基于语义特征空间上下文的短文本表示学习[J]. 计算机工程与科学 2019(02)
    • [27].关于I~2上的max-drast矩阵的特征空间[J]. 纯粹数学与应用数学 2018(03)
    • [28].基于地表温度-植被指数特征空间的土壤干旱监测[J]. 湖北农业科学 2017(16)
    • [29].基于LAI-T_s特征空间的河南省冬小麦返青-成熟期旱情监测[J]. 中国农业气象 2018(02)
    • [30].融合空时相干和特征空间波束形成的超声成像[J]. 计算机工程与应用 2018(01)

    标签:;  ;  ;  ;  ;  

    潜在语义索引分类模型的研究与改进
    下载Doc文档

    猜你喜欢