一种基于改进支持向量机的文本倾向性分类算法

一种基于改进支持向量机的文本倾向性分类算法

论文摘要

文本倾向性分类对诸如舆情分析、民意调查等应用有重要意义,支持向量机在文本倾向性分类算法中应用广泛。核函数是支持向量机的核心,传统的高斯核函数存在着测试点在低维特征空间比较密集,但是映射到高维空间后却相当稀疏的缺点,造成分类器泛化推广能力不强。同时,传统高斯核函数调节参数过少,泛化推广能力的微调效果不明显。此外,支持向量机的学习泛化推广能力也取决于核函数的类型。传统高斯核函数属于局部性核函数,学习能力强但泛化推广能力弱;属于全局性核函数的多项式核函数,学习能力弱但泛化推广能力强。目前,常将传统高斯核函数与多项式核函数组合使用,但这种方法较为依赖数据集本身的特征,容易出现数据偏斜现象。在文本倾向性分类算法中,分类器参数的选择也是影响分类效果的重要因素。目前常用的对文本倾向性分类器参数进行优化的算法有交叉验证法、网格搜索算法,遗传算法等,它们分别存在着最优划分问题,经验选取问题,计算复杂、速度较慢、容易陷入局部最优化等问题。针对上述问题,本文工作如下:●对传统高斯核函数进行了改进,改进的高斯核函数既能在测试点附近有较快的衰减,同时还能够在远处有一定的衰减。解决了文本倾向性分类的数据集在低维特征空间比较密集,映射到高维空●问后稀疏的缺点,提高了支持向量机的泛化推广能力。实验表明,基于改进高斯核函数的支持向量机,相对于基于传统高斯核函数支持向量机,在宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上,分别有了1.76%、1.19%、0.72%、2.17%的提高。●将改进的高斯核函数、sigmoid核函数、多项式核函数进行了加权组合构造了新的核函数。该核函数在同一个测试点附近的不同区域,有着多个波峰和波谷,而且波峰和波谷的幅度狭窄,在远离测试点区域有着较为缓慢的衰减。这就提高了核函数对数据集的适应性,同时学习能力、泛化推广能力也获得了提高。实验表明,基于改进的加权组合核函数支持向量机,比传统组合核函数支持向量机,在宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上,分别有了2.30%、1.41%、2.01%、2.54%的提高。●使用了粒子群算法对基于改进高斯核函数的多核支持向量机进行了优化,从而能够自动求出支持向量机的参数,避免了人工调试参数的盲目性,节省了分类的时间,提高了分类的准确性。实验表明,相对于人工设定参数法、交叉验证法、网格搜索算法、遗传算法,在F1值上,分别有了8.95%、1.96%、2.56%、0.57%的提高。●将改进的支持向量机应用在文本倾向性分类中,并且与相关文献中采用的文本倾向性分类算法进行了实验对比。实验结果数据表明,采用本文提出的改进支持向量机的文本倾向性分类,相对于文献中采用的文本倾向性分类,在F1值上分别有了9.73%、8.81%、●10.89%、5.01%、2.92%、7.7296、5.67%的提高。实验表明,本文提出的基于粒子群参数优化和改进高斯核函数的多核支持向量机的文本倾向性分类算法在准确率、召回率、F1值,宏平均准确率及召回率、微平均准确率及召回率等方面均有不同程度的提高,有较好的应用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究的背景和意义
  • 1.2 国内外研究现状
  • 1.3 本文的研究内容和组织结构
  • 第二章 相关技术
  • 2.1 文本倾向性分类
  • 2.1.1 问题定义
  • 2.1.2 算法流程
  • 2.1.3 预处理
  • 2.1.4 分类器模型
  • 2.1.5 评价指标
  • 2.2 支持向量机
  • 2.3 粒子群优化算法
  • 2.4 本章小结
  • 第三章 基于改进高斯核函数的多核支持向量机
  • 3.1 动机
  • 3.2 高斯核函数的改进
  • 3.2.1 改进的高斯核函数
  • 3.2.2 经典高斯核函数与改进高斯核函数的对比
  • 3.3 基于改进高斯核函数的组合核函数
  • 3.4 算法流程
  • 3.5 实验与分析
  • 3.5.1 实验数据集
  • 3.5.2 实验设计
  • 3.5.3 实验1:基于改进高斯核函数的单核支持向量机与基于传统高斯核函数的单核支持向量机对比实验
  • 3.5.4 实验2:基于改进高斯核函数的多核支持向量机与传统组合核函数支持向量机对比实验
  • 3.5.5 实验3:基于改进高斯核函数的单核与多核支持向量机对比实验
  • 3.6 本章小结
  • 第四章 粒子群优化基于改进高斯核函数多核支持向量机的参数
  • 4.1 动机
  • 4.2 基于改进高斯核函数的多核支持向量机的参数优化算法
  • 4.3 实验与分析
  • 4.3.1 实验数据集
  • 4.3.2 实验设计与实现
  • 4.3.3 实验结果与分析
  • 4.4 本章小结
  • 第五章 改进支持向量机在文本倾向性分类中的应用
  • 5.1 基于支持向量机的文本倾向性分类算法分析
  • 5.2 基于PGMSVM的文本倾向性分类算法及实验系统
  • 5.3 实验与分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 本文的工作总结
  • 6.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].基于人工鱼群算法的孪生支持向量机[J]. 智能系统学报 2019(06)
    • [2].基于改进支持向量机的温室大棚温度预测[J]. 科技创新与应用 2020(10)
    • [3].结构化支持向量机研究综述[J]. 计算机工程与应用 2020(17)
    • [4].支持向量机理论及应用[J]. 科学技术创新 2019(02)
    • [5].加权间隔结构化支持向量机目标跟踪算法[J]. 中国图象图形学报 2017(09)
    • [6].多分类孪生支持向量机研究进展[J]. 软件学报 2018(01)
    • [7].模糊型支持向量机及其在入侵检测中的应用[J]. 科技创新与应用 2018(11)
    • [8].从支持向量机到非平行支持向量机[J]. 运筹学学报 2018(02)
    • [9].支持向量机的基本理论和研究进展[J]. 长江大学学报(自科版) 2018(17)
    • [10].孪生支持向量机综述[J]. 计算机科学 2018(11)
    • [11].一种新的基于类内不平衡数据学习支持向量机算法[J]. 科技通报 2017(09)
    • [12].分段熵光滑支持向量机性能研究[J]. 计算机工程与设计 2015(08)
    • [13].有向无环图-双支持向量机的多类分类方法[J]. 计算机应用与软件 2015(11)
    • [14].基于支持向量机的股票价格预测模型研究与应用[J]. 课程教育研究 2016(28)
    • [15].灰狼优化的混合参数多分类孪生支持向量机[J]. 计算机科学与探索 2020(04)
    • [16].基于属性约简—光滑支持向量机的中小企业信息化评价研究[J]. 软件工程 2020(07)
    • [17].基于稀疏孪生支持向量机的人脸识别[J]. 信息技术 2020(07)
    • [18].基于总类内分布的松弛约束双支持向量机[J]. 济南大学学报(自然科学版) 2018(04)
    • [19].基于多分类支持向量机的评估模型研究[J]. 数学的实践与认识 2017(01)
    • [20].改进的支持向量机在微博热点话题预测中的应用[J]. 现代情报 2017(03)
    • [21].多核在线支持向量机算法研究及应用[J]. 宜宾学院学报 2017(06)
    • [22].基于改进遗传算法的支持向量机参数优化方法[J]. 计算机与现代化 2015(03)
    • [23].一种层次粒度支持向量机算法[J]. 小型微型计算机系统 2015(08)
    • [24].自训练半监督加权球结构支持向量机多分类方法[J]. 重庆邮电大学学报(自然科学版) 2014(03)
    • [25].四类基于支持向量机的多类分类器的性能比较[J]. 聊城大学学报(自然科学版) 2014(03)
    • [26].一种模糊加权的孪生支持向量机算法[J]. 计算机工程与应用 2013(04)
    • [27].一种采用粗糙集和遗传算法的支持向量机[J]. 山西师范大学学报(自然科学版) 2013(01)
    • [28].基于在线支持向量机的无人机航路规划技术[J]. 电光与控制 2013(05)
    • [29].贪婪支持向量机的分析及应用[J]. 计算机工程与应用 2012(24)
    • [30].一种改进的双支持向量机[J]. 辽宁石油化工大学学报 2012(04)

    标签:;  ;  ;  ;  ;  

    一种基于改进支持向量机的文本倾向性分类算法
    下载Doc文档

    猜你喜欢