针对特征缺省数据集的模式识别方法与应用研究

针对特征缺省数据集的模式识别方法与应用研究

论文摘要

在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个条件,一个是分类器,另一个是数据集。在实际的应用中,由于获取数据的渠道和数据建模的差异等原因,人们所能收集到的大量信息往往是不完整的,存在缺少的特征或者是非均衡的,统称为缺省数据集。对特征缺少的数据集进行分类,目前的处理方法主要有直接删除法或者空值填充法;对于不平衡的数据,传统的方法是对较少的一类进行人为重采样或者对较多的一类进行删除,以此来减弱训练样本的不均衡性,但是这些修复方法会在一定程度上降低分类的准确性,并没有从根本上进行算法的改进。而且无论通过哪种方式修正,都无法避免主观因素对原系统的影响,并且花费的代价很大。缺省数据集分类算法的探索是随着数据获取、机器学习和信息检索的发展而出现的问题,是一个比较新的课题,国内外对该问题的研究还不成熟,但是它却非常具有现实意义,尤其是在容易丢失特征的车牌识别、语音识别、生物认证、医疗诊断、机器故障检测等领域具有十分广泛的应用前景。本文在对特征缺少和不平衡数据集的现有理论和算法进行回顾、探讨的基础上,有针对的提出了基于支持向量机的新算法,并通过实验证明。主要工作总结如下:第一部分为全文的绪论,对模式识别技术的发展和基于缺省数据集的分类现状进行了分析和综述。第二部分归纳简述了支持向量机的理论基础知识,包括机器学习的基本问题、统计学习理论以及传统支持向量机的基本算法和改进算法等。第三部分针对特征缺少数据的分类问题,阐述和分析了特征缺少的定义、特征缺少的产生机制以及处理准则,对当前处理特征缺少的研究成果进行分析;提出了基于最大间隔和最小类内方差的处理不完整数据的支持向量机方法,并利用UCI数据库中的数据进行了仿真实验。第四部分是对于非均衡数据集的分类问题的探讨,简单介绍了不平衡数据集的定义、特点及传统处理方法,并在现阶段研究成果的基础上,结合传统的一类支持向量机和两类分类算法提出了基于少量异常训练数据的最大间隔支持向量机算法,引入超平面与正负类之间的间隔,从而实现了有效利用少量异常数据进行新奇检测,并用医疗诊断,故障检测等领域的数据加以实验,证明了算法的有效性。第五部分对全文内容进行总结,提出了现有算法的不足之处并对以后的工作进行展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及研究意义
  • 1.2 国内外发展现状
  • 1.2.1 模式识别的发展
  • 1.2.2 支持向量机的发展
  • 1.2.3 数据集的发展
  • 1.3 本文主要研究内容和组织结构
  • 第二章 背景知识
  • 2.1 机器学习
  • 2.1.1 机器学习的发展
  • 2.1.2 机器学习的函数模型
  • 2.1.3 机器学习的三个基本问题
  • 2.1.4 经验风险最小化
  • 2.1.5 复杂性和泛化性
  • 2.2 统计学习理论
  • 2.2.1 学习过程一致性的条件
  • 2.2.2 VC 维
  • 2.2.3 推广能力的界
  • 2.2.4 结构风险最小化
  • 2.3 最优化理论知识
  • 2.3.1 二次规划问题
  • 2.3.2 最优解的充要条件
  • 2.3.3 对偶问题
  • 2.4 支持向量机
  • 2.4.1 支持向量机的提出
  • 2.4.2 支持向量机的主要思想
  • 2.4.3 最优分类超平面和支持向量
  • 2.4.4 核函数和Mercer 条件
  • 2.4.5 支持向量机的特性
  • 2.4.6 支持向量机的新发展
  • 2.5 本章小结
  • 第三章 基于特征缺省的最小类内方差支持向量机
  • 3.1 引言
  • 3.2 特征缺少
  • 3.2.1 特征缺失的原因和种类
  • 3.2.2 处理特征缺失的方法
  • 3.3 类内方差和分类间隔的重定义
  • 3.3.1 类内方差
  • 3.3.2 分类间隔
  • 3.4 问题优化及算法思想
  • 3.4.1 优化过程
  • 3.4.2 算法步骤
  • 3.5 实验结果和分析
  • 3.5.1 实验数据和实验环境
  • 3.5.2 实验结果
  • 3.5.3 实验分析
  • 3.6 本章小结
  • 第四章 基于少量异常数据的最大间隔新奇检测方法
  • 4.1 引言
  • 4.2 非均衡数据集
  • 4.2.1 非均衡数据集的定义和应用
  • 4.2.2 处理非均衡数据集的几个常用算法方法
  • 4.3 新奇检测
  • 4.3.1 新奇检测问题的定义
  • 4.3.2 新奇检测的一般方法
  • 4.4 模型的建立及对偶问题
  • 4.4.1 模型的建立及算法思想
  • 4.4.2 对偶问题的解决
  • 4.5 决策函数及参数特性
  • 4.5.1 决策函数
  • 4.5.2 参数特性
  • 4.6 实验结果和分析
  • 4.6.1 数据集和实验环境
  • 4.6.2 参数选择和实验结果
  • 4.6.3 实验分析
  • 4.7 本章小结
  • 第五章 总结与展望
  • 5.1 论文工作总结
  • 5.2 未来工作展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    针对特征缺省数据集的模式识别方法与应用研究
    下载Doc文档

    猜你喜欢