论文摘要
现实世界中,许多领域频繁产生高维数据,如生物数据、图像数据、航天遥感数据等,其处理一般面临两个问题:一是维度的膨胀将会给模式识别和规则发现等任务带来极大的挑战,如数据维度的庞大,其处理非常耗时,导致许多学习识别算法无法应用到现实世界当中;二是高维数据所包含的信息量丰富,其内在数据结构多样,则维度增长的同时又为解决问题提供更多新的方案,因此在机器学习与数据挖掘领域,维度缩减算法的研究层出不穷。然而近年来,稀疏表示算法为信号处理和机器学习等研究方向提供了新的研究思路,其理论研究已日臻成熟,尤其在应用上受到广泛关注。本文通过在研究稀疏表示算法应用的前提下,提出了一种新的无监督维度缩减算法,目的在于解决训练样本存在欠采样或样本量较少而出现降维效果区分性差的问题;同时针对该算法的特点,我们提出了一种新的解决分类问题的基本框架。本文首先简要描述了维度缩减算法研究领域的发展状况以及目前所存在的一些问题,如数据集出现样本欠采样或交叉时,降维后的数据区分性极弱,给分类或聚类任务带来巨大的难题。同时对当前常用的线性降维算法进行了调查和直观的分析,指出其所存在的缺点及应用情况。然后对稀疏表示方法的进行了调查与分析,简要阐述了稀疏表示方法的研究现状以及主要研究方向,同时对常见的稀疏表示方法主要思想进行了简单的概括,如基本的匹配追踪方法(BMP)、顺序递归匹配追踪法(ORMP)、修正的匹配追踪法(MMP)、正交匹配追踪法(OMP)、进化多分辨匹配追踪算法和反向剔除算法等,指出了各种算法的优缺点。重要的是,本文针对维度缩减算法研究领域的常用算法的不足,提出一种新的非线性无监督维度缩减算法,称为稀疏重建嵌入(SRE),该算法通过合理应用稀疏表示理论,在无监督学习的前提下,能将高维数据降到低维空间,并使降维后的数据拥有良好的可分特性,提高分类和聚类等后续任务的执行效率。SRE降维算法可分解为两个阶段:稀疏重建和低维嵌入。本文详细介绍了两个阶段的建模过程及求解方法,并通过理论分析,论证了该算法保持稀疏线性重建特性和使用l 1范式保持稀疏性的科学性和合理性。最后,本文通过使用人造数据和真实数据,充分验证了该算法的有效性和可行性,并探讨了该算法在图像识别、文本分类以及可视化等领域的一些应用,并对该算法进一步研究如有监督学习的引入等做了简单探讨。