支持向量机分类方法及其在文本分类中的应用研究

支持向量机分类方法及其在文本分类中的应用研究

论文摘要

支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。但是,同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下: 1、支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。分析了现有支持向量机多类分类方法的特点,并给出了一种半模糊核聚类算法,在此基础上,根据树型支持向量机的特性,提出了一种基于半模糊核聚类的树型支持向量机多类分类方法。该方法基于半模糊核聚类算法挖掘不同类别之间的衔接和离散信息,设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。 2、针对标准支持向量机对噪音敏感,分类时倾向于样本数目较多的类别的问题,给出一种模糊支持向量机的推广模型,并在此基础上,结合近似支持向量机的优势,提出了一种支持向量机组合分类方法。该方法首先采用近似支持向量机快速地去除非支持向量、减少训练样本数目、确定样本权值和模型参数,然后在样本数目较少的训练集上,依据选择好的模型参数和样本权值训练模糊支持向量机的推广模型。实验表明,该方法能有效确定样本权值,减少训练时间,并克服野值点和类别训练样本数目不均衡对分类器的不利影响。 3、通常情况下,支持向量的数目越多,支持向量机的分类速度越慢,如何缩减支持向量集合、提高支持向量机的分类速度是支持向量机的重要研究内容之一。在分析了现有支持向量集合缩减方法的基础上,提出了一种基于虚样本与支持向量回归的支持向量集合缩减方法。该方法是根据支持向量集合和支持向量回归方法的特性,对

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究的背景和意义
  • 1.2 支持向量机的基本理论及其特点
  • 1.2.1 支持向量机的理论基础
  • 1.2.2 标准支持向量机模型
  • 1.2.3 支持向量机的特点及其优势
  • 1.3 支持向量机的研究现状及其存在的主要问题
  • 1.3.1 支持向量机模型及其训练算法研究
  • 1.3.2 支持向量机在文本分类中的应用研究
  • 1.3.3 支持向量机存在的主要问题
  • 1.4 本文的主要工作
  • 2 基于半模糊核聚类的树型支持向量机多类娄类方法(SFKC-SVM)
  • 2.1 引言
  • 2.2 支持向量机多类分类方法及其特点分析
  • 2.3 树型支持向量机的树结构及其特点
  • 2.4 半模糊核聚类算法与SFKC-SVM方法
  • 2.4.1 半模糊核聚类算法
  • 2.4.2 SFKC-SVM方法
  • 2.5 实验与结果分析
  • 2.5.1 SFKC-SVM方法与其它方法的对比
  • 2.5.2 SFKC-SVM方法用于文本分类的实验结果
  • 2.6 本章小结
  • 3 支持向量机组合分类方法
  • 3.1 引言
  • 3.2 一种模糊支持向量机的推广模型
  • 3.2.1 模糊支持向量机
  • 3.2.2 模糊支持向量机的推广模型
  • 3.3 近似支持向量机与模糊支持向量机的组合分类方法
  • 3.3.1 近似支持向量机与训练样本集的精简
  • 3.3.2 模糊支持向量机推广模型样本权值的计算
  • 3.3.3 支持向量机组合分类方法
  • 3.4 实验与分析
  • 3.4.1 支持向量机组合分类方法与其它方法的对比
  • 3.4.2 支持向量机组合分类方法用于文本分类的实验结果
  • 3.5 本章小结
  • 4 支持向量集合的缩减方法
  • 4.1 引言
  • 4.2 支持向量集合的缩减与支持向量回归方法
  • 4.2.1 支持向量集合及其缩减方法
  • 4.2.2 支持向量回归方法及其特点
  • 4.3 基于虚样本与支持向量回归的支持向量集合缩减方法
  • 4.3.1 训练集的选择对回归算法估计效果的影响
  • 4.3.2 虚样本与回归算法训练集的生成方法
  • 4.3.3 支持向量集合的缩减方法
  • 4.4 实验与结果分析
  • 4.5 本章小结
  • 5 支持向量机在文本分类特征提取中的应用
  • 5.1 引言
  • 5.2 文本分类特征选择和提取方法
  • 5.2.1 基于评估函数的文本特征选择方法
  • 5.2.2 基于单词聚类的文本特征提取方法
  • 5.3 基于支持向量机的单词聚类方法
  • 5.3.1 若干相关概念的界定
  • 5.3.2 基于支持向量机的单词聚类方法
  • 5.4 实验及结果分析
  • 5.5 本章小结
  • 6 总结与展望
  • 参考文献
  • 攻读博士学位期间发表和完成学术论文情况
  • 创新点摘要
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [25].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [26].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [27].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [28].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [29].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)
    • [30].自然场景图像中的文本检测方法研究[J]. 重庆科技学院学报(自然科学版) 2016(06)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    支持向量机分类方法及其在文本分类中的应用研究
    下载Doc文档

    猜你喜欢