论文摘要
随着信息技术的飞速发展,数据的采集工作变得越来越容易。然而数据的海量性、高维性和分布的非线性特性却使人们感到越来越难以对其进行驾驭和处理。一方面我们可以获取的数据量变得越来越大;而另一方面,我们却难以找到所需的信息。在此背景下,流形学习应运而生,并为越来越多的研究者所关注。而其目标是解决高维数据分析中数据分布非线性所带来的难题,探索高维非线性数据集中的真实分布几何。本论文面向模式识别来研究流形学习,其目的在于促进流形学习在模式识别中的成功应用。论文的主要工作大体上可以分为三个部分:构造非线性等距映射关系(即微分同胚),探讨数据集的内蕴几何(包括内蕴维数、非线性特性、内蕴几何模型),计算审美的初步探索。具体来讲,本文的主要创新性工作包括:1、提出具有显式等距映射的ISOMAP算法。针对原ISOMAP算法缺少从高维空间到低维空间显式映射关系的不足,基于迭代优化设计出E-ISOMAP算法,并给出其监督版本SE-ISOMAP算法。由于显式等距映射的存在,E-ISOMAP和SE-ISOMAP可以用于基于测地线距离的非线性特征抽取。2、提出采用“分两步走”的方式来解决ISOMAP算法中非线性等距映射的构造问题。在学习参数化的测地线距离函数和构造距离保持映射的基础上,实现了ISOMAP算法中从高维空间到低维空间的非线性等距映射的显式构造,可以用于基于测地线距离的非线性特征提取。3、展开对非负局部线性重构系数的实验研究,探讨它在内蕴维数估计和在发掘数据集内精细类别子结构方面的可能应用。实验表明:在噪声较小、内蕴维数较低的情况下,显著非负局部线性重构系数的数目和分布可以指示出数据集的内蕴维数;非负局部线性重构系数的分布能够指示出数据集内的精细类别子结构,可以用于对邻域关系图的剪枝,以提高基于测地线距离的半监督分类的识别精度。4、针对某些存在多个类别的数据集,提出主纤维丛(PrincipalFiber Bundle:PFB)模型假设。在主纤维丛假设下,提出基于双重邻域关系图的“丛流形学习”(Bundle Manifold Learning:BML)算法,用来发现数据集中潜在的精细子结构。在基准数据库上的实验表明:BML算法能够发现多类别数据集中的精细子结构,而现有的其他流形学习算法都不能。5、提出计算审美的研究任务,结合HCL2000数据库完成美观度标注数据集,利用数据可视化技术给出对美观度标注结果的初步分析,为计算审美研究的深入开展提供依据。
论文目录
摘要ABSTRACT目录符号说明第一章 绪论1.1 从欧氏空间到流形1.1.1 流形的概念1.1.2 流形的例子1.1.3 理论物理中从欧氏空间到流形的观念转变1.2 高维数据分析中流形概念的引入1.2.1 心理测量中的研究报告1.2.2 神经生理学上的发现1.2.3 流形概念引入的原因总结1.3 流形学习的提出、定义以及基本问题1.3.1 流形学习的定义1.3.2 流形学习中的基本问题与基本思想1.3.3 流形学习的研究现状1.4 论文的选题依据1.4.1 流形学习中存在的问题1.4.2 模式识别所面临的困难1.5 论文的研究思路和章节安排1.5.1 论文的研究思路1.5.2 论文的章节安排第二章 流形学习综述2.1 维数估计技术2.2 经典的线性流形学习技术2.2.1 主成份分析(PCA)2.2.2 多维尺度化(MDS)2.2.3 线性判别分析(LDA)2.3 无监督流形学习技术的新进展2.3.1 等距映射算法(ISOMAP)2.3.2 局部线性嵌入(LLE)2.3.3 拉普拉斯特征映射算法(Laplacian Eigenmap)2.3.4 Hessian Eigenmap2.3.5 局部切空间排列(LTSA)2.3.6 对数映射(Log Map)2.3.7 最大方差展开(MVU)2.3.8 扩散映射(Diffusion Map)2.3.9 其它算法2.4 有监督流形学习技术的新进展2.4.1 非线性的局部鉴别分析2.4.2 线性的局部鉴别分析2.5 小结——流形学习算法一般框架和分类第三章 基于测地线距离的特征抽取3.1 引言3.2 相关研究工作3.3 原始的等距映射(ISOMAP)算法3.4 带显式映射的ISOMAP算法3.4.1 非线性映射定义3.4.2 测地线距离计算3.4.3 迭代优化算法3.4.4 参数选择3.4.5 实验部分3.4.5.1 合成数据集上的可视化实验3.4.5.2 雕塑头像数据集上的可视化实验3.4.5.3 Iris数据集上的可视化实验3.5 有监督的SE-ISOMAP算法3.5.1 SE-ISOMAP算法3.5.2 构造鉴别性全局距离矩阵3.5.3 带显式映射的MDS3.5.4 参数选择3.5.5 实验部分3.5.5.1 基准数据库上的可视化实验3.5.5.2 基准数据库上的分类实验3.6 小结第四章 测地线距离学习4.1 引言4.2 相关研究工作4.2.1 学习测地线距离4.2.2 基于距离的维数约减算法4.3 基于测地线距离信息的特征提取框架4.3.1 测地线距离学习m→Rd的构造'>4.3.2 非线性映射f:Rm→Rd的构造4.3.3 基于测地线距离的特征提取4.4 实验部分4.4.1 合成数据集上的数据可视化实验4.4.2 COIL20数据集上的可视化实验4.4.3 COIL20数据集上的分类实验4.7 小结第五章 基于非负局部线性重构系数的维数估计5.1 引言5.2 相关研究工作5.3 基于非负重构系数的内蕴维数估计5.3.1 第一步:寻找k近邻5.3.2 第二步:计算非负局部线性重构系数5.3.3 第三步:从重构系数矩阵中估计内蕴维数5.4 实验与讨论5.4.1 实验部分5.4.2 讨论部分5.5 小结第六章 基于测地线距离的半监督分类6.1 引言6.2 相关研究工作6.3 基于测地线距离的半监督分类:GNN6.3.1 构造邻域关系图NBG(V,E,W)6.3.2 计算近似测地线距离6.3.3 基于测地线距离矩阵完成k近邻分类6.3.4 实验部分6.3.4.1 实验数据准备与处理6.3.4.2 实验结果的可视化展示与结果分析6.4 带剪枝的测地线距离最近邻分类(pruned-GNN)6.4.1 基于邻域关系图NBG(V,E,W)计算非负局部线性重构系数6.4.2 构造剪枝信息矩阵PP(V,EP,WP)'>6.4.3 剪枝邻域关系图NBG(V,E,W)获得NBGP(V,EP,WP)6.4.4 实验部分6.4.4.1 实验数据准备与处理6.4.4.2 实验结果与分析6.5 小结第七章 丛流形假设和丛流形学习7.1 引言7.2 相关研究工作7.3 从"流形"到"丛流形"7.4 丛流形学习B'>7.4.1 寻找外近邻,构造外邻域关系图NBGBF'>7.4.2 寻找内近邻,构造内邻域关系图NBGF7.4.3 构造折中的图拉普拉斯(compromised graph Laplacian)7.4.4 嵌入到低维空间7.5 实验与分析7.6 小结第八章 计算审美的探索8.1 引言8.2 手写汉字样本的美观度评判8.2.1 研究内容与目标8.2.2 特征抽取原则8.3 面向计算审美实验的数据集8.3.1 HCL2000数据库的美观度标注8.3.2 美观度标注结果的基本统计信息8.4 对计算审美数据集HCL2000-CA-A的透视8.5 小结第九章 总结与展望9.1 研究工作总结9.2 研究工作展望参考文献附录1 PCA中二次型问题的求解附录2 辅助函数的构造附录3 单位分解定理及其应用附录4 主纤维丛及对模式识别问题的几何透视博士期间发表的论文致谢
相关论文文献
标签:流形学习论文; 维数约减论文; 测地线距离论文; 维数估计论文; 主纤维丛论文; 计算审美论文;