基于随机矩阵变换和贪婪算法的快速PCA算法

基于随机矩阵变换和贪婪算法的快速PCA算法

论文摘要

随着科学的进步,信息技术得到了快速发展及广泛应用,如医学图像处理、计算生物学、全球气候模型等,高维数据应运而生。高维数据难以被现有的机器学习和数据挖掘算法进行有效地处理。降维算法是处理这些高维数据的一个非常重要的工具和方法。而流形学习作为一种高维数据降维的技术手段,在非线性降维方面取得了广泛的应用。其中主成分分析(PCA)是一种假设全局能够线性化表示而提出的流形学习算法。在数据规模越来越大的今天,数据处理速度越来越成为人们关注的重点。但是我们又不想在牺牲算法准确性的基础上降低时间复杂度,因为那样会使得降维或分类后的数据无法如实反映原有数据的信息。本文主要主要工作如下:1.对降维算法做了总体的概述,重点介绍了两种算法—ISOMAP和LLE,并且指出了ISOMAP在求近邻点时将欧氏距离改为测地距离以后,算法所耗费的时间大量增加的缺点;简要比较了在不同近邻点数的情况下LLE降维效果的不同,并且对各向异性算法做了简单的介绍。2.对主成分分析(PCA)算法进行了深入的研究与改进,对PCA的特点进行了详细地分析,在数据集规模比较大尤其是行数和列数都在三千以上的情况下,我们指出了PCA算法中最耗时的步骤,展示了三种随机矩阵与贪婪算法在PCA降维过程中减少矩阵分解时间的重要作用,提出了在精确度要求不大的情况下(偏差小于5%),在偏差可估的情况下进一步加快算法的方法。并且我们用实验对比了两种降维模式和标准PCA的计算时间和用特征向量衡量的低维嵌入偏差。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 本文的组织结构
  • 1.3 流形学习的研究现状
  • 1.4 流形和流形学习
  • 1.4.1 流形
  • 1.4.2 流形学习
  • 1.5 流形学习的应用
  • 1.6 本文的主要研究内容
  • 2 流形学习方法简介
  • 2.1 等距映射(ISOMAP)
  • 2.2 ISOMAP实验及分析
  • 2.3 局部线性嵌入(LLE)
  • 2.4 LLE实验及分析
  • 2.5 快速各向异性变换降维算法(FAT)
  • 3 基于随机矩阵变换和贪婪算法的快速PCA算法研究
  • 3.1 引言
  • 3.2 基于随机矩阵变换的PCA快速算法
  • 3.2.1 主成分分析(PCA)
  • 3.2.2 PCA的基本原理如下
  • 3.2.3 主成分分析的实现步骤
  • 3.3 随机矩阵和随机映射
  • 3.4 实验结果与分析
  • 3.5 快速PCA与标准PCA在人工流形上的应用
  • 3.5.1 S-curve
  • 3.5.2 Swiss-roll
  • 3.5.3 Punched sphere
  • 3.5.4 3D-cluster
  • 3.6 基于“贪婪算法”的快速PCA算法
  • 3.7 实验结果与分析
  • 3.8 “贪婪算法”的快速PCA在各种流形上的应用
  • 4 结论
  • 4.1 研究工作总结
  • 4.2 研究工作展望
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于随机矩阵变换和贪婪算法的快速PCA算法
    下载Doc文档

    猜你喜欢