几种特征加权支持向量机方法的比较研究

几种特征加权支持向量机方法的比较研究

论文摘要

支持向量机(Support Vector Machine, SVM是一种新的基于统计学习理论(Statistical Learning Theory)的机器学习方法,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得更好的泛化能力.经典支持向量机认为所有的特征有相同的重要性,然而如果样本中包含着与目标函数弱相关甚至是不相关的特征时,就会在一定程度上影响分类器的推广能力.在一些真实数据集上,确实存在某些特征对分类贡献大,而其它特征对分类贡献小的情况,所以就提出了特征加权SVM算法.特征加权就是对每个特征赋予一个区间[0,1]中的数来表明该特征的重要性,越重要的特征就赋予越大的权值.本文把特征选择的一些方法应用到经典SVM中,提出了五种特征加权SVM算法,所采用的特征加权方法有:增益比率法,对称不确定性法,χ2检验法,Gini指标法以及Relief-F算法.然后本文提出了相对间隔的定义,并从理论上证明了在一定条件下,相对间隔越大,SVM的泛化能力就越好.最后在一个人工数据集和八个真实数据集上进行实验,并对实验结果进行分析和比较.本文提出的五种特征加权SVM算法与经典的SVM算法相比,在一定程度上提高了分类精度,并且在多个数据集上的支持向量个数都有所减少.

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 统计学习理论与支持向量机
  • 1.2 国内外研究现状
  • 1.3 本文的主要研究内容及结构安排
  • 第2章 预备知识
  • 2.1 统计学习理论
  • 2.1.1 损失函数和期望风险
  • 2.1.2 经验风险最小化
  • 2.1.3 VC维
  • 2.1.4 学习过程的一致性和关键定理
  • 2.1.5 结构风险最小化
  • 2.2 经典支持向量机
  • 2.2.1 线性可分支持向量机
  • 2.2.2 线性支持向量机
  • 2.2.3 非线性支持向量机
  • 2.3 小结
  • 第3章 特征加权支持向量机
  • 3.1 特征重要性的度量
  • 3.1.1 列联表简介
  • 3.1.2 信息增益法
  • 3.1.3 增益比率法
  • 3.1.4 对称不确定性法
  • 2检验法'>3.1.5 χ2检验法
  • 3.1.6 Gini指标法
  • 3.1.7 Relief-F算法
  • 3.2 特征加权支持向量机
  • 3.2.1 线性特征加权支持向量机
  • 3.2.2 非线性特征加权支持向量机
  • 3.3 间隔与SVM泛化能力之间的关系
  • 3.4 小结
  • 第4章 实验结果及分析
  • 4.1 人工数据集上的实验结果及分析
  • 4.4 真实数据集上的实验结果及分析
  • 4.3 小结
  • 第5章 总结与展望
  • 5.1 本文总结
  • 5.2 工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间取得的科研成果
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  

    几种特征加权支持向量机方法的比较研究
    下载Doc文档

    猜你喜欢