基于SVM的多类文本分类算法及其应用研究

基于SVM的多类文本分类算法及其应用研究

论文摘要

随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统信息载体的文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。SVM作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力,更是当前的一个研究热点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下:首先,本文研究分析文本分类的总体模型,包括信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法。支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。本文分析了现有多类分类方法的缺陷,接着引出半对半分类分类算法。在此基础上,根据树型支持向量机的特性,提出了一种基于支持向量机的半对半多类分类方法。该方法设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。其次,认真研究了统计学习理论的主要内容和SVM算法的基本原理,讨论了核函数这一热点问题,阐述了SVM研究和应用现状,以及所面临的问题。并且结合语义概念空间,提出了一种基于支持向量机和语义概念空间的HAH多类分类算法。实验表明,该算法不仅在分类精度方面有所提高,而且大大降低了标号数据数目。最后,基于支持向量机在文本分类中的优势,将支持向量机方法应用于文本分类的特征提取,提出了一种基于支持向量机的单词聚类方法。该方法基于支持向量机度量单词对分类的贡献大小,将对分类贡献一致的单词合并起来作为文本向量的一个特征项。实验表明,该方法在基本不丢失分类信息的前提下,较大程度地降低了文本向量的维数、减少了文本特征之间的相关性,并提高了文本分类的查准率和查全率。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 研究现状
  • 1.3.1 文本分类的研究现状
  • 1.3.2 支持向量机的研究现状
  • 1.4 本文的组织结构
  • 2 文本分类系统研究
  • 2.1 文本分类的任务
  • 2.2 文本分类的过程
  • 2.2.1 文本分类过程概述
  • 2.2.2 文本预处理
  • 2.2.3 文本特征表示
  • 2.2.4 特征提取
  • 2.3 文本分类算法研究
  • 2.4 文本分类的性能评价
  • 2.5 本章小结
  • 3 统计学习理论和支持向量机
  • 3.1 统计学习理论
  • 3.1.1 经验风险最小化原理
  • 3.1.2 VC维
  • 3.1.3 学习过程的一致性
  • 3.1.4 结构风险最小化原理
  • 3.2 支持向量机
  • 3.2.1 机器学习
  • 3.2.2 支持向量机模型
  • 3.2.3 硬间隔SVM
  • 3.2.4 软间隔SVM
  • 3.2.5 线性不可分
  • 3.2.6 核函数及选择
  • 3.3 本章小结
  • 4 多类分类算法研究
  • 4.1 第Ⅰ类多类分类算法
  • 4.2 第Ⅱ类多类分类算法
  • 4.2.1 One-Against-All多类分类方法
  • 4.2.2 OVO多类分类方法
  • 4.2.3 DDAG多分类方法
  • 4.2.4 第Ⅱ类多类方法的缺陷
  • 4.3 半对半(HAH)多类分类算法
  • 4.4 基于SVM的HAH算法设计
  • 4.5 实验结果与分析
  • 4.6 本章小结
  • 5 基于SVM和语义空间的HAH多类分类算法研究
  • 5.1 语义概念空间概述
  • 5.2 核主成分分析
  • 5.2.1 主成分分析法
  • 5.2.2 核主成分分析提取语义概念空间
  • 5.2.3 核化泛化Hebbian算法
  • 5.3 渐进直推SVM
  • 5.4 基于SVM和语义概念空间的HAH多类分类算法设计
  • 5.5 试验结果与分析
  • 5.6 本章小结
  • 6 支持向量机在文本分类特征提取中的应用
  • 6.1 文本分类特征选择和提取方法
  • 6.1.1 基于评估函数的文本特征选择方法
  • 6.1.2 基于单词聚类的文本特征提取方法
  • 6.2 基于支持向量机的单词聚类方法
  • 6.2.1 若干相关概念的界定
  • 6.2.2 基于支持向量机的单词聚类方法
  • 6.3 实验结果分析
  • 6.4 本章小结
  • 7 研究结论与展望
  • 7.1 研究工作与成果
  • 7.2 研究展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于SVM的永磁无刷直流电机无位置传感器控制[J]. 电子产品世界 2020(01)
    • [2].基于商空间的黄金价格SVM模型预测[J]. 黄金科学技术 2020(01)
    • [3].基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J]. 工业计量 2020(01)
    • [4].基于SVM的在线医疗信息服务质量关键影响因素研究[J]. 情报科学 2020(03)
    • [5].基于SVM与fMRI技术对精神分裂症的分类研究[J]. 现代计算机 2020(01)
    • [6].基于SVM算法的微博评论数据情感分析[J]. 数字通信世界 2020(01)
    • [7].基于SVM的河道洪峰水位校正预报方法[J]. 水力发电 2020(04)
    • [8].基于SVM的煤与瓦斯突出预测模型及应用[J]. 陕西煤炭 2020(02)
    • [9].基于实时电价和加权灰色关联投影的SVM电力负荷预测[J]. 电网技术 2020(04)
    • [10].基于超声波扫描和SVM的综合管廊故障诊断模型[J]. 科技与创新 2020(07)
    • [11].基于SVM理论的航空发动机飞行数据可视化建模[J]. 科技创新与应用 2020(12)
    • [12].基于SVM的固化土无侧限抗压强度模型[J]. 宁波大学学报(理工版) 2020(04)
    • [13].基于遗传算法和SVM的肝豆状核变性震颤评估方法研究[J]. 西安文理学院学报(自然科学版) 2020(03)
    • [14].基于SVM的高速公路预防性养护效果评价模型及应用[J]. 工程建设 2020(05)
    • [15].基于因子分析和SVM的网络舆情危机预警研究[J]. 重庆工商大学学报(自然科学版) 2020(05)
    • [16].基于SVM的物联网大数据有效信息过滤挖掘[J]. 河南科技 2020(26)
    • [17].基于改进SVM算法的思政教育动态预警系统研究[J]. 微型电脑应用 2020(09)
    • [18].基于SVM技术调剖(驱)潜力预测[J]. 承德石油高等专科学校学报 2019(05)
    • [19].基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法[J]. 电信工程技术与标准化 2016(12)
    • [20].结合主方向和SVM的人脸表情识别[J]. 廊坊师范学院学报(自然科学版) 2016(04)
    • [21].SVM算法支持下的耕地面积退化遥感监测——以昆明市呈贡区为例[J]. 安徽农业科学 2017(01)
    • [22].矿井突水水源的SVM识别方法[J]. 辽宁工程技术大学学报(自然科学版) 2017(01)
    • [23].基于SVM算法的移动智能终端安全等级分级模型[J]. 通信技术 2017(04)
    • [24].图像视觉显著性和改进型SVM在图像分割中的研究[J]. 通讯世界 2017(08)
    • [25].一种基于决策树的SVM算法[J]. 太原学院学报(自然科学版) 2017(01)
    • [26].基于多级SVM分类的语音情感识别算法[J]. 计算机应用研究 2017(06)
    • [27].基于模糊信息粒与SVM的道路交通状态波动分析[J]. 重庆交通大学学报(自然科学版) 2017(07)
    • [28].基于SVM的上证指数预测研究[J]. 软件导刊 2017(08)
    • [29].基于集成SVM的肺部肿瘤PET/CT三模态计算机辅助诊断方法[J]. 生物医学工程研究 2017(03)
    • [30].一种基于SVM的声源定位算法[J]. 计算机技术与发展 2017(09)

    标签:;  ;  ;  ;  ;  

    基于SVM的多类文本分类算法及其应用研究
    下载Doc文档

    猜你喜欢