流形学习中样本点稀疏问题的研究

流形学习中样本点稀疏问题的研究

论文摘要

随着科技的进步和时代的发展,现代社会已经进入了一个崭新的信息时代,大量的高维数据层出不穷,如图像分类检索、文本聚类和基因序列的建模等,人类必须借助于工具才能有效地识别高维数据的内在特征,其中数据降维技术是解决这种问题的主要方法。对数据进行降维处理的目的是要找出隐藏在高维数据中的低维结构,通常分为线性降维和非线性降维这两类方法。线性降维的方法是,将样本点从高维数据空间通过线性变换投射到一个低维空间,目的是获得一个关于原数据集的内在数据特征的低维表示。线性降维方法有着坚实的理论基础,优点是实现简单、适应性强。但现实中各种有用的数据其特征往往不是简单线性组合。因此,非线性降维方法,即流形学习越来越受到人们的广泛关注。流形学习可以分为两大类:一类是全局方法,是从全局角度出发,让降维时流形上临近的点映射到低维空间时保持临近;另一类是以局部方法,只保证在一个局部范围内将临近点间的关系映射到低维空间。因为局部方法它们只需要考虑流形临近点间的相互关系,不要求流形所对应的低维空间为凸,且计算复杂度较低,因此局部方法有着更广泛的适用对象。局部保持的流形学习算法具有一个共同的特征:找出每个数据点周围的局部性质,并将这些局部性质信息映射到一个低维空间中。显然,局部几何结构信息的保持和恢复程度决定了流形学习算法的优劣。在获取流形的局部信息时,流形学习算法假定流形在一个很小的范围内,局部同胚于一个欧氏空间的一个连通开集,这就决定了流形学习算法在选择邻域时,要尽可能保证邻域内的点满足局部同胚条件。而当样本点较为稀疏时,邻域内的样本点很难保持局部同胚条件,从而导致上述流形学习算法在处理稀疏数据集时会造成较大的误差,甚至失效。本文在流形学习方法的基本概念和理论基础上,针对流形学习无法有效处理稀疏样本集的问题展开了分析和研究。文章总结了流形学习的基本框架和基本步骤,分析了流形学习算法在处理稀疏数据集时的算法效果变差乃至失效现象的原因,并用图示展示了样本点稀疏不同时的邻域块结构。解决稀疏样本集问题的有效方法之一,是增加插值点使得样本点集变得稠密。为此,本文分别提出了线性插值方法和非线性插值方法。我们首先提出找三角形的重心线性插值方法。该方法从样本点和邻域点形成的三角形中找出重心作为插值点,从全局角度来看,插值点的加入使得样本集的稠密程度有了一定的改善,样本点局部邻域的表示更加精确,也使得邻域间有更多的交叠从而使得全局排列的误差更小,因此算法一定程度上改善了样本集稀疏问题,但仍未能改善局部线性逼近的误差,而且新的插值点并没有反应出流形的本质结构和特征。为此,我们提出了基于Matlab四格点样条的非线性的插值方法。即对于稀疏样本点集,我们根据其内部特点,结合流形本身的结构和性质,在利用Matlab四格点样条插值进行曲面重构的基础上非线性的选取一定数目的样本点作为插值点。文章最后通过实验,分别比较和分析了线性插值和非线性插值前后流形学习算法降维效果的变化,并指出与线性插值算法相比,非线性插值方法选取的插值点能有效的减少逼近误差,并能更好的保持和反映流形的本质结构和特征。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 当前国内外研究现状
  • 1.3 本文研究的内容
  • 1.4 本文的结构
  • 第二章 流形学习方法概述
  • 2.1 流形和流形学习的概念
  • 2.2 线性流形学习算法
  • 2.2.1 主成分分析(PCA)
  • 2.2.2 线性辨别分析(LDA)
  • 2.2.3 多维尺度变换(MDS)
  • 2.3 非线性流形学习算法
  • 2.3.1 等距映射(ISOMAP)
  • 2.3.2 局部线性嵌入算法(LLE)
  • 2.3.3 拉普拉斯特征映射算法(LE)
  • 2.3.4 海赛局部线性嵌入算法(HLLE)
  • 2.3.5 局部切空间排列算法(LTSA)
  • 2.4 本章小结
  • 第三章 流形学习中样本点稀疏问题的研究
  • 3.1 流形学习的基本框架
  • 3.1.1 计算邻域
  • 3.1.2 求取局部坐标
  • 3.1.3 局部坐标的全局排列
  • 3.2 流形学习中样本点的稀疏问题
  • 3.3 线性插值方法
  • 3.3.1 线性插值算法
  • 3.4 非线性插值方法
  • 3.4.1 流形曲面拟合
  • 3.4.2 插值点的选取
  • 3.4.3 我们的算法
  • 3.4.4 实验效果及分析
  • 3.5 本章小结
  • 第四章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于插值的非等间距GM(1,1)建模方法[J]. 山东科技大学学报(自然科学版) 2018(03)
    • [2].日蒸散多尺度移动平均及插值研究[J]. 人民长江 2018(08)
    • [3].基于插值和拟合技术的过热汽温非线性控制研究[J]. 热能动力工程 2018(05)
    • [4].一种变步长插值反正切算法的设计与实现[J]. 西安邮电大学学报 2018(06)
    • [5].带一个插值点的回归模型的参数分析[J]. 高等数学研究 2010(04)
    • [6].局部形状可调插值曲线曲面及其参数选取方案[J]. 计算机应用研究 2017(12)
    • [7].带多权值局部插值型的几何迭代法[J]. 计算机辅助设计与图形学学报 2018(09)
    • [8].基于双圆弧插值的G~2 Hermite数据容许分割[J]. 计算机辅助设计与图形学学报 2018(11)
    • [9].基于分段三次Hermite插值的树叶拟合比较[J]. 宜春学院学报 2019(06)
    • [10].基于克里金插值的自适应VIRE室内定位算法研究[J]. 计算机工程与应用 2018(12)
    • [11].顾及粗差影响的全球电离层克里金插值及精度分析[J]. 测绘学报 2019(07)
    • [12].基于Newton插值的光伏最大功率跟踪技术研究[J]. 辽宁工业大学学报(自然科学版) 2019(03)
    • [13].曲线曲面逼近与插值的统一表示[J]. 计算机工程与应用 2018(05)
    • [14].基于动态插值自适应方法的时变轴系纵向振动主动控制[J]. 振动与冲击 2018(21)
    • [15].曲线插值的一种具有还圆性的细分方法[J]. 图学学报 2012(02)
    • [16].XRF-mapping图像处理方法的研究[J]. 科技视界 2016(01)
    • [17].移动最小二乘形函数插值精度[J]. 长沙理工大学学报(自然科学版) 2009(02)
    • [18].连续区间上积分值的二次样条拟插值[J]. 系统科学与数学 2018(12)
    • [19].一种利用统计直方图拟合密度曲线的方法[J]. 内蒙古师范大学学报(自然科学汉文版) 2008(05)
    • [20].采用频域Prony方法估计信号重叠双分量[J]. 浙江大学学报(工学版) 2018(06)
    • [21].对偶Kriging插值方法在气象资料分析中的应用[J]. 应用气象学报 2008(02)
    • [22].集逼近插值于一体的形状可调曲线曲面[J]. 湖南科技大学学报(自然科学版) 2017(04)
    • [23].基于改进的反距离权重插值的车辆轨迹重构方法[J]. 公路交通科技 2018(10)
    • [24].三维图像中拓扑变形的动作稳定性测量模型[J]. 计算机仿真 2015(09)
    • [25].基于曲线特征分析的插值法的四象限测角算法[J]. 科学技术与工程 2013(31)
    • [26].径向基点插值无网格法与有限元耦合法[J]. 清华大学学报(自然科学版)网络.预览 2008(06)
    • [27].体感交互虚拟漫游的沉浸感评价[J]. 图学学报 2020(03)
    • [28].基于近似曲率插值的焊缝特征模型建模方法[J]. 桂林航天工业学院学报 2018(02)
    • [29].DEM构建中的断裂线处理[J]. 武汉大学学报(信息科学版) 2011(09)
    • [30].基于SVR-Kriging插值的矿井工人二维指纹定位数据库构建算法[J]. 电子与信息学报 2017(11)

    标签:;  ;  ;  ;  

    流形学习中样本点稀疏问题的研究
    下载Doc文档

    猜你喜欢