基于流形学习的高维空间分类器研究

基于流形学习的高维空间分类器研究

论文摘要

随着各种数据采集设备的出现,大量高维的原始数据在预处理后才能被用于后续的各种操作,如聚类、分类、野值检测等。维数约简是数据预处理的步骤之一。其目的是在减少数据维数的同时,尽量减少或去除次要的冗余信息,并且保留或增强有意义的信息。因为现实世界中的数据多是非线性的,利用线性降维技术(如主成分分析,PCA)在映射到低维空间时,并不能保持高维空间的几何结构和关系。流形学习是一类新近出现的非线性维数约简算法,认为很多数据集是伪高维的,有时包含上千特征的数据点可以描述为几个潜在参数的函数。换句话说,数据点实际上采样于嵌入到高维空间里的低维流形。流形学习算法试图确定这些参数,并发现数据的低维表示。对流形学习问题的研究有着非常重要的实际意义,在模式分析、数据挖掘、图像处理等领域都有着广泛的应用。流形学习在分类和聚类方面的研究尚在初始阶段,有很多问题尚待解决。本论文研究几种代表性的流形学习算法,尤其是等距特征映射算法。分析了各种流形学习算法的优缺点,并对流形学习若干关键问题进入了深入分析和改进,侧重于流形学习中的距离度量、固有维数、核化等几个关键问题。本文的主要内容包括:(1)谱图理论是流形学习的基础,本文根据谱图理论,充分考虑数据的局部结构,提出了一种基于近邻自适应尺度的改进谱聚类算法。其基本思想是根据数据点的近邻分布,对每个点设置一个近邻自适应尺度,代替标准谱聚类算法中的全局统一尺度。近邻自适应尺度简化了参数的选取,使得新算法对密度的变化不敏感,对离群点有一定的鲁棒性,同时比标准谱聚类更适合任意形状的数据分布。然后,将改进的谱聚类算法成功地应用到颜色量化中。(2)如何自动确定高维数据的固有维数,是流形学习难点之一。极大似然估计(MLE)是一种新近出现的维数估计方法,实现简单,选择合适的近邻能取得不错的结果。但当近邻数过小或过大时,均有比较明显的偏差。其根本原因是没有考虑每个点对固有维数的贡献是不同的。本文充分考虑了数据集的分布信息,提出了一种自适应极大似然估计(AMLE)。实验证明,无论在模拟数据集还是真实数据集上,AMLE较MLE在估计准确度上均有很大的提高。对近邻数的变化也不甚敏感。(3)等距特征映射(Isomap)是一种有代表性的流形学习算法,该算法高效、简单,但计算复杂度较高。基于界标点的L-Isomap减少了计算复杂度,但对于界标点的选取,大都采用随机的方法,致使该算法不稳定。本文考虑到样本点和近邻点相对位置,将对嵌入流形影响较大的样本点赋予较高的权重。然后根据权重大小选择界标点,同时考虑界标点之间的相对位置,使得选出的界标点不会出现过度集中的现象,近似直线分布的概率也大大降低,从而保证了算法的稳定性。实验结果表明,该算法在界标点数量较少的情况下,比L-Isomap稳定,且对缺失数据的不完整流形,也能获取和Isomap相差不大的结果。(4)高维数据中最常见的是图像数据,如何度量图像数据之间的距离是一项有挑战性的工作。本文提出一种基于图像距离的等距特征映射:IMD-Isomap。因为图像距离考虑了图像的空间分布信息,实验结果表明IMD-Isomap比Isomap的可视化效果更好,尤其在添加噪声的情况下。然后,结合泛化回归神经网络,设计出一种分类器。结果表明,该分类器对噪声表现出一定的鲁棒性,均比KNN、Isomap或Eigenface的分类效果好。(5)Isomap是无监督的学习算法,本身不具备样本外测试能力,因而不能直接用于分类。核Isomap是Isomap的改进,利用核技巧获得了泛化特性。将类别标记信息集成到距离中,得到了加权距离。该距离使得同类点问的距离更近,不同类点间的距离更远,更利于分类任务。本文提出一种基于加权距离的核Isomap,称作WKIsomap。实验结果表明,无论用于数据的可视化还是分类,WKIsomap都比Isomap或KIsomap更鲁棒。

论文目录

  • 摘要
  • Abstract
  • 主要符号对照表
  • 第1章 绪论
  • 1.1 降维简介
  • 1.2 线性降维
  • 1.3 非线性降维与流形学习
  • 1.4 论文的主要研究内容
  • 1.5 论文的组织结构
  • 第2章 几种有代表性的流形学习算法
  • 2.1 谱图理论介绍
  • 2.2 等距特征映射(Isomap)
  • 2.3 局部线性嵌入(LLE)
  • 2.4 拉普拉斯特征映射(LE)
  • 2.5 最大方差展开(MVU)
  • 2.6 局部切空间排列法(LTSA)
  • 2.7 本章小结
  • 第3章 基于谱图理论的无监督分类
  • 3.1 谱聚类
  • 3.2 基于近邻自适应尺度的谱聚类算法
  • 3.2.1 算法实现
  • 3.2.2 对“挑战问题”进行聚类分析
  • 3.2.3 对真实数据集进行聚类分析
  • 3.3 基于谱聚类的两阶段颜色量化算法
  • 3.3.1 算法实现
  • 3.3.2 算法验证
  • 3.4 本章小结
  • 第4章 流形学习中高维数据的固有维数估计
  • 4.1 引言
  • 4.2 固有维数估计研究概述
  • 4.3 极大似然估计
  • 4.4 自适应极大似然估计
  • 4.5 实验和分析
  • 4.6 本章小结
  • 第5章 等距特征映射算法的性能分析及改进
  • 5.1 等距特征映射算法的性能分析
  • 5.2 改进的等距特征映射算法
  • 5.2.1 算法实现
  • 5.2.2 实验和分析
  • 5.3 基于图像距离的等距特征映射
  • 5.3.1 算法实现
  • 5.3.2 实验和分析
  • 5.4 本章小结
  • 第6章 流形学习的核化及分类器设计
  • 6.1 引言
  • 6.2 核的理论基础
  • 6.2.1 特征空间及核的定义
  • 6.2.2 常用的核函数及其构造
  • 6.3 核主成分分析(KPCA)
  • 6.4 从核的视角解释流形学习
  • 6.5 KIsomap介绍
  • 6.6 有监督的KIsomap
  • 6.7 实验与分析
  • 6.8 本章小结
  • 第7章 总结和展望
  • 致谢
  • 参考文献
  • 插图索引
  • 表格索引
  • 附录:作者在攻读博士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基于流形学习的高维空间分类器研究
    下载Doc文档

    猜你喜欢