基于最小化训练误差的子空间分类算法研究

基于最小化训练误差的子空间分类算法研究

论文摘要

子空间方法是模式识别领域一个重要的研究方向,很多年来一直受到该领域学者们的广泛关注。Fisher线性判别分析方法(Fisher Linear DiscriminantAnalysis,FLD或LDA)及以其为代表的其他一些子空间分类方法,在分类问题中有着突出的作用。然而,这些子空间算法也存在一定的缺陷。其中最主要的问题是,大部分传统子空间算法的特征提取准则并不与训练误差直接相关联,而是根据某种准则由样本数据分布(通常假设为高斯分布)的统计特征得出。所以当统计准则不能正确反映样本分布情况时,算法往往会失效。这个问题导致传统子空间算法应用于某些数据分布较为复杂的情形时,难以取得理想的效果。本文所提出的方法正是围绕这个问题而展开的。本文第3章首先指出,传统的LDA方法由于其固有的缺陷,在处理多分类问题时,即使符类数据都满足高斯同方差分布,也可能无法找到最优分类子空间。接着通过分析数据样本分布与LDA算法得到的投影向量之间的关系,讨论了LDA投影向量与类间散布矩阵和类内散布矩阵特征值之间存在的关联,并以此提出一种基于遗传算法的LDA算法。该算法以子空间上的洲练误差最小为目标,通过遗传算法调整LDA算法中类间矩阵特征位的大小,达到搜索最佳特征子空间的效果。通过模拟数据和真实数据的实验,表明这种方法的分类正确率比现有的线性子间方法有所提高。集成学习理论中的AdaBoost(Adaptive Boosting)算法是一类以最小训练误差为准则构建分类器的学习算法。本文在第4章中通过结合AdaBoost算法与LDA子空间方法提出了基于提升自举LDA投影的特征提取算法,完成两类问题中的特征提取与组合。AdaBoost算法是一种将若干分类性能仅好于随机猜测的弱分类器提升为强分类器的算法框架,要求各弱分类器具有较大的分离度和不稳定性。所以,本文提出的算法首先借助Bagging(Bootstrap Aggregating)算法中的自举采样(Bootstrap Sampling)原理对训练样本进行随机抽样形成若干训练样本自举子集,再通过结合LDA算法和最近邻分类器由这些自举子集得出若干弱分类器,并由AdaBoost算法提升为强分类器。该算法克服了传统子空间方法特征提取准则不与训练误差相关联的弱点,生成的分类器有较好的泛化性能,能够很好地解决数据分布复杂的分类问题。文章通过复杂分布的两类问题实验证明了该算法的可行性和优越性。由于多类问题的研究,特别是人脸识别问题,具有更加广泛的应用价值,本文第5章在第4章的基础上,借助AdaBoost.M2算法与LDA子空间方法的结合将以上算法推广到多类问题中,提出了基于提升自举LDA子空间的分类算法。第5章通过改善的自举采样方法,使AdaBoost.M2算法在原有基础上更注重难分样本的分类,同时兼顾弱分类器的多样性,达到更好地提升和组合基于LDA子空间的弱分类器。通过手写数字图像和人脸图像识别的实验,比较了该算法与传统子空间方法及其他基于集成学习的分类算法的性能,征明了该算法的效果达到或超越了其它算法。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景及现状
  • 1.1.1 模式识别简介
  • 1.1.2 模式识别中的子空间降维方法
  • 1.1.3 子空间方法在人脸识别中的应用
  • 1.2 论文的主要工作
  • 1.3 论文的结构安排
  • 第2章 子空间算法分析
  • 2.1 向量空间和子空间
  • 2.1.1 向量空间
  • 2.1.2 子空间
  • 2.2 主分量分析(PCA)
  • 2.2.1 数据分解和重建
  • 2.2.2 降维
  • 2.2.3 PCA的计算
  • 2.2.4 PCA与特征脸
  • 2.3 概率PCA(PPCA)
  • 2.3.1 因子分析
  • 2.3.2 DIFS和DFFS
  • 2.4 LDA
  • 2.4.1 LDA的基本原理
  • 2.4.2 LDA存在的问题
  • 2.5 几种改进的LDA算法
  • 2.5.1 非参数判别分析
  • 2.5.2 成对加权Fisher准则
  • 2.5.3 局部分步LDA算法
  • 2.5.4 边界Fisher分析方法
  • 2.5.5 PCA+LDA
  • w对角化的方法'>2.5.6 先对Sw对角化的方法
  • 2.5.7 直接LDA(DLDA,Direct LDA)
  • 2.5.8 正则化LDA
  • 2.6 本章小结
  • 第3章 结合遗传算法的最小训练误差子空间方法
  • 3.1 LDA算法的几何分析
  • 3.1.1 决定LDA鉴别能力的因素
  • 3.1.2 特征值与特征子空间的联系
  • 3.2 遗传算法
  • 3.2.1 遗传算法的生物学基础
  • 3.2.2 遗传算法简介
  • 3.2.3 遗传算法的应用领域
  • 3.3 实验及分析
  • 3.3.1 模拟数据实验
  • 3.3.2 真实数据实验
  • 3.3 本章小结
  • 第4章 结合集成学习的最小训练误差子空间方法
  • 4.1 集成学习
  • 4.1.1 集成学习的概念
  • 4.1.2 集成学习的起源与现状
  • 4.2 Boosting算法
  • 4.2.1 Boosting算法的提出
  • 4.2.2 Boosting算法描述
  • 4.2.3 Boosting算法的重要特性
  • 4.3 Bagging算法
  • 4.3.1 Bagging算法的提出
  • 4.3.2 Bagging算法描述
  • 4.3.3 Bagging算法的理论分析
  • 4.4 基于提升自举LDA投影的特征提取算法
  • 4.4.1 算法概述
  • 4.4.2 算法描述
  • 4.4.3 实验及分析
  • 4.5 本章小结
  • 第5章 多类问题中的提升自举LDA子空间的分类方法
  • 5.1 多类问题中的AdaBoost算法
  • 5.1.1 AdaBoost.M1
  • 5.1.2 AdaBoost.M2
  • 5.1.3 其它算法简介
  • 5.2 提升自举LDA子空间的分类方法
  • 5.2.1 算法概述
  • 5.2.2 算法描述
  • 5.3 实验与分析
  • 5.3.1 MNIST数据集上的实验
  • 5.3.2 FERET人脸数据集上的实验
  • 5.4 本章小结
  • 第6章 结束语
  • 6.1 本文创新点
  • 6.2 今后工作展望
  • 参考文献
  • 致谢
  • 博士期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于最小化训练误差的子空间分类算法研究
    下载Doc文档

    猜你喜欢