SVM文本分类中基于法向量的特征选择算法研究

SVM文本分类中基于法向量的特征选择算法研究

论文摘要

随着Internet的快速发展,文本分类已经成为了组织在线信息的核心任务之一,并且成为了许多应用中的关键架构。相对于其他学习算法,SVM在文本的分类中表现出了更优异的性能。在采用SVM算法的文本分类中,由于文本所表征的向量空间维数通常非常巨大,因此在训练过程中将耗费大量的系统资源。在资源受限的情况下,往往无法直接在文本原始的空间维数上进行处理。在此情况下,引入有效的特征选择算法就显得相当的必要。文本介绍了一种基于法矢量权重的特征选取方法,并将此方法应用于基于SVM的中文文本分类。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著的减少特征空间的维数,进而提升系统的资源利用效率。本文研究的关键技术包括:第一,为了描述SVM训练过程中对计算资源的消耗,引入“稀疏度”的概念。此处,稀疏度指得是每一文本样本所表征的矢量中非零特征项的平均统计数。文档矢量的稀疏度直接影响计算资源的开销,这里的资源包括稀疏矢量所消耗的存储资源和进行运算所耗费的时间。第二,介绍了一种基于法矢量权重的特征选取方法。基于法向量权重的特征提取方法需要选取训练数据集的子集,预训练得到SVM模型,将法向量权重作为特征项的评估指标,再以此作为特征排序的依据。第三,研究在计算资源有限的条件下,使用特征选择算法增保留部分特征并保留尽可能多的训练文档,和减少训练文档数并保留尽可能多的文本特征数两种情况下的文本分类性能。第四,研究对于线性SVM分类器,选用基于法向量的特征选择算法,和传统的基于几率比和基于信息增益的特征选择算法,对文本分类性能的影响。实验证明,对于线性SVM分类器,相比与保留全部的特征而只保留部分训练文档,使用特征选择算法保留部分特征而相应的保留更多的训练文档能够获得更好的特征性能,从而为在资源受限情况下,特征选取算法的使用提供有力的理论依据。同时,比较基于法向量的特征选择算法,基于几率比和基于信息增益的特征选择算法下的分类性能,证明了对于线性SVM分类器,基于法向量的特征选择算法能够获得最好的分类性能。基于法向量的特征选择算法可以在较大幅度减少计算资源消耗的同时基本维持所得到的分类器性能。从而在资源受限的条件下,提供了一种SVM文本分类的解决途径。

论文目录

  • 摘要
  • Abstract
  • 第一章 概述
  • 1.1 引言
  • 1.2 文本分类简介
  • 1.2.1 文本分类的发展阶段
  • 1.2.2 特征提取算法
  • 1.3 本文的组织结构
  • 第二章 文本分类基础
  • 2.1 文本表示模型
  • 2.1.1 布尔模型(Boolean)
  • 2.1.2 向量空间模型(VSM)
  • 2.1.3 概率模型
  • 2.2 文本分词
  • 2.3 文本分类算法
  • 2.3.1 K‐邻近法(K‐Nearest Neighbor)
  • 2.3.2 支持向量机
  • 2.3.3 朴素的贝叶斯法(Naive Bayes)
  • 2.3.4 神经网络算法
  • 2.4 支持向量机(SVM)多类分类问题
  • 2.4.1 多类分类支持向量机 MSVM
  • 2.4.2 一对一方法
  • 2.4.3 一对多方法
  • 2.4.4 有向无环图 SVM 方法
  • 2.5 文本分类的评估方法
  • 2.5.1 召回率与准确率、宏平均与微平均
  • 2.5.2 BEP(Break‐even point)和 F1 (F‐measure)
  • 2.6 本章小结
  • 第三章 特征选择算法
  • 3.1 概述
  • 3.1.1 文档频率 DF(Document Frequency)
  • 3.1.2 信息增益方法(IG)
  • 3.1.3 互信息方法
  • 3.1.4χ 2统计量(CHI)
  • 3.1.5 几率比(OR)
  • 3.2 基于法向量的特征选择方法
  • 3.2.1 稀疏度
  • 3.2.2 基于法向量权重的特征选取方法
  • 3.3 本章小结
  • 第四章 基于法向量的特征选择算法的系统实现
  • 4.1 实验架构
  • 4.2 实验描述
  • 4.2.1 训练数据集和测试数据集的选取
  • 4.2.2 SVM 核函数和多类分类方法的选取
  • 4.2.3 数据表示
  • 4.2.4 性能评估标准
  • 4.3 本章小结
  • 第五章 系统实验与实验结果分析
  • 5.1 稀疏度与保留特征数的关系
  • 5.1.1 基于几率比的特征选择算法
  • 5.1.2 基于信息增益的特征选择算法
  • 5.1.3 基于法向量的特征选择算法
  • 5.2 保留特征数与文本分类性能
  • 5.3 计算资源有限条件下的特征选择算法实验
  • 5.4 几种特征选择算法分类性能的比较
  • 5.4.1 基于法向量,基于几率比和基于信息增益的特征选择算法的比较
  • 5.4.2 normal‐200, normal‐100 和 normal‐25 的比较
  • 5.4.3 基于几率比和基于特征增益的特征选择算法的比较
  • 5.5 基于法向量的特征选择算法的效率
  • 5.6 合并几个训练数据子集的特征权重的算法
  • 5.7 本章小结
  • 第六章 结束语
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].基于SVM的永磁无刷直流电机无位置传感器控制[J]. 电子产品世界 2020(01)
    • [2].基于商空间的黄金价格SVM模型预测[J]. 黄金科学技术 2020(01)
    • [3].基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J]. 工业计量 2020(01)
    • [4].基于SVM的在线医疗信息服务质量关键影响因素研究[J]. 情报科学 2020(03)
    • [5].基于SVM与fMRI技术对精神分裂症的分类研究[J]. 现代计算机 2020(01)
    • [6].基于SVM算法的微博评论数据情感分析[J]. 数字通信世界 2020(01)
    • [7].基于SVM的河道洪峰水位校正预报方法[J]. 水力发电 2020(04)
    • [8].基于SVM的煤与瓦斯突出预测模型及应用[J]. 陕西煤炭 2020(02)
    • [9].基于实时电价和加权灰色关联投影的SVM电力负荷预测[J]. 电网技术 2020(04)
    • [10].基于超声波扫描和SVM的综合管廊故障诊断模型[J]. 科技与创新 2020(07)
    • [11].基于SVM理论的航空发动机飞行数据可视化建模[J]. 科技创新与应用 2020(12)
    • [12].基于SVM的固化土无侧限抗压强度模型[J]. 宁波大学学报(理工版) 2020(04)
    • [13].基于遗传算法和SVM的肝豆状核变性震颤评估方法研究[J]. 西安文理学院学报(自然科学版) 2020(03)
    • [14].基于SVM的高速公路预防性养护效果评价模型及应用[J]. 工程建设 2020(05)
    • [15].基于因子分析和SVM的网络舆情危机预警研究[J]. 重庆工商大学学报(自然科学版) 2020(05)
    • [16].基于SVM的物联网大数据有效信息过滤挖掘[J]. 河南科技 2020(26)
    • [17].基于改进SVM算法的思政教育动态预警系统研究[J]. 微型电脑应用 2020(09)
    • [18].基于SVM技术调剖(驱)潜力预测[J]. 承德石油高等专科学校学报 2019(05)
    • [19].基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法[J]. 电信工程技术与标准化 2016(12)
    • [20].结合主方向和SVM的人脸表情识别[J]. 廊坊师范学院学报(自然科学版) 2016(04)
    • [21].SVM算法支持下的耕地面积退化遥感监测——以昆明市呈贡区为例[J]. 安徽农业科学 2017(01)
    • [22].矿井突水水源的SVM识别方法[J]. 辽宁工程技术大学学报(自然科学版) 2017(01)
    • [23].基于SVM算法的移动智能终端安全等级分级模型[J]. 通信技术 2017(04)
    • [24].图像视觉显著性和改进型SVM在图像分割中的研究[J]. 通讯世界 2017(08)
    • [25].一种基于决策树的SVM算法[J]. 太原学院学报(自然科学版) 2017(01)
    • [26].基于多级SVM分类的语音情感识别算法[J]. 计算机应用研究 2017(06)
    • [27].基于模糊信息粒与SVM的道路交通状态波动分析[J]. 重庆交通大学学报(自然科学版) 2017(07)
    • [28].基于SVM的上证指数预测研究[J]. 软件导刊 2017(08)
    • [29].基于集成SVM的肺部肿瘤PET/CT三模态计算机辅助诊断方法[J]. 生物医学工程研究 2017(03)
    • [30].一种基于SVM的声源定位算法[J]. 计算机技术与发展 2017(09)

    标签:;  ;  ;  ;  

    SVM文本分类中基于法向量的特征选择算法研究
    下载Doc文档

    猜你喜欢