针对特征缺省数据集的模式识别方法与应用研究

论文摘要

在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个条件,一个是分类器,另一个是数据集。在实际的应用中,由于获取数据的渠道和数据建模的差异等原因,人们所能收集到的大量信息往往是不完整的,存在缺少的特征或者是非均衡的,统称为缺省数据集。对特征缺少的数据集进行分类,目前的处理方法主要有直接删除法或者空值填充法;对于不平衡的数据,传统的方法是对较少的一类进行人为重采样或者对较多的一类进行删除,以此来减弱训练样本的不均衡性,但是这些修复方法会在一定程度上降低分类的准确性,并没有从根本上进行算法的改进。而且无论通过哪种方式修正,都无法避免主观因素对原系统的影响,并且花费的代价很大。缺省数据集分类算法的探索是随着数据获取、机器学习和信息检索的发展而出现的问题,是一个比较新的课题,国内外对该问题的研究还不成熟,但是它却非常具有现实意义,尤其是在容易丢失特征的车牌识别、语音识别、生物认证、医疗诊断、机器故障检测等领域具有十分广泛的应用前景。本文在对特征缺少和不平衡数据集的现有理论和算法进行回顾、探讨的基础上,有针对的提出了基于支持向量机的新算法,并通过实验证明。主要工作总结如下:第一部分为全文的绪论,对模式识别技术的发展和基于缺省数据集的分类现状进行了分析和综述。第二部分归纳简述了支持向量机的理论基础知识,包括机器学习的基本问题、统计学习理论以及传统支持向量机的基本算法和改进算法等。第三部分针对特征缺少数据的分类问题,阐述和分析了特征缺少的定义、特征缺少的产生机制以及处理准则,对当前处理特征缺少的研究成果进行分析;提出了基于最大间隔和最小类内方差的处理不完整数据的支持向量机方法,并利用UCI数据库中的数据进行了仿真实验。第四部分是对于非均衡数据集的分类问题的探讨,简单介绍了不平衡数据集的定义、特点及传统处理方法,并在现阶段研究成果的基础上,结合传统的一类支持向量机和两类分类算法提出了基于少量异常训练数据的最大间隔支持向量机算法,引入超平面与正负类之间的间隔,从而实现了有效利用少量异常数据进行新奇检测,并用医疗诊断,故障检测等领域的数据加以实验,证明了算法的有效性。第五部分对全文内容进行总结,提出了现有算法的不足之处并对以后的工作进行展望。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题背景及研究意义

1.2 国内外发展现状

1.2.1 模式识别的发展

1.2.2 支持向量机的发展

1.2.3 数据集的发展

1.3 本文主要研究内容和组织结构

第二章背景知识

2.1 机器学习

2.1.1 机器学习的发展

2.1.2 机器学习的函数模型

2.1.3 机器学习的三个基本问题

2.1.4 经验风险最小化

2.1.5 复杂性和泛化性

2.2 统计学习理论

2.2.1 学习过程一致性的条件

2.2.2 VC 维

2.2.3 推广能力的界

2.2.4 结构风险最小化

2.3 最优化理论知识

2.3.1 二次规划问题

2.3.2 最优解的充要条件

2.3.3 对偶问题

2.4 支持向量机

2.4.1 支持向量机的提出

2.4.2 支持向量机的主要思想

2.4.3 最优分类超平面和支持向量

2.4.4 核函数和Mercer 条件

2.4.5 支持向量机的特性

2.4.6 支持向量机的新发展

2.5 本章小结

第三章基于特征缺省的最小类内方差支持向量机

3.1 引言

3.2 特征缺少

3.2.1 特征缺失的原因和种类

3.2.2 处理特征缺失的方法

3.3 类内方差和分类间隔的重定义

3.3.1 类内方差

3.3.2 分类间隔

3.4 问题优化及算法思想

3.4.1 优化过程

3.4.2 算法步骤

3.5 实验结果和分析

3.5.1 实验数据和实验环境

3.5.2 实验结果

3.5.3 实验分析

3.6 本章小结

第四章基于少量异常数据的最大间隔新奇检测方法

4.1 引言

4.2 非均衡数据集

4.2.1 非均衡数据集的定义和应用

4.2.2 处理非均衡数据集的几个常用算法方法

4.3 新奇检测

4.3.1 新奇检测问题的定义

4.3.2 新奇检测的一般方法

4.4 模型的建立及对偶问题

4.4.1 模型的建立及算法思想

4.4.2 对偶问题的解决

4.5 决策函数及参数特性

4.5.1 决策函数

4.5.2 参数特性

4.6 实验结果和分析

4.6.1 数据集和实验环境

4.6.2 参数选择和实验结果

4.6.3 实验分析

4.7 本章小结

第五章总结与展望

5.1 论文工作总结

5.2 未来工作展望

致谢

参考文献

附录：作者在攻读硕士学位期间发表的论文

针对特征缺省数据集的模式识别方法与应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢