论文摘要
随着传感和存储技术的发展,在模式识别、机器学习和数据挖掘领域产生了大量的高维数据。高维数据一方面导致了维数灾难的产生,另一方面不能被人的感知直接理解,人们必须借助机器学习方法从数据中学习并发现内在规律。流形学习方法以保持数据拓扑结构的方式将高维输入投影到低维空间,发现隐藏在数据中的内在几何结构与规律性,是近年来机器学习与认知科学中一个新的研究热点。流形学习涉及到微分几何学、统计学、神经科学和拓扑学等多个学科,是一个具有基础性、前瞻性的研究方向。自从Seung在2000年从神经心理学的角度提出了感知以流形方式存在,流形学习受到了研究人员的广泛关注,其研究成果和技术已经应用于模式识别、计算机视觉、图像处理等相关领域。但是,由于其数学理论基础较为深厚复杂,而且涉及到多个学科之间交叉融合,所以仍有许多亟需研究和解决的问题。在这种情形下,本文对流形学习理论及其在图像中应用等关键技术进行了深入研究,主要工作及研究成果总结如下:1.我们对当前的流形学习算法按照其研究领域进行了系统分类,并重点介绍了基于谱图理论的流形学习方法,主要包括:(1)基于全局结构保持的方法;(2)基于局部结构保持的方法;(3)基于局部模型的全局排列方法。在人工和真实数据集上进行了仿真实验,并系统分析了这些流形学习方法各自的优缺点以及它们的异同点,指出了流形学习方法所面临的共同问题:在加强样本点之间的关联性的时候,应该有效的对数据局部与全局流形结构进行同时保持,增加对稀疏数据和噪声的鲁棒性,从而能有效的发现隐藏于高维观测数据中有意义的低维结构。2.提出了一种新的基于局部与全局结构保持的流形学习算法---局部与全局保持嵌入算法(LGPE)。该算法通过数据点之间的流形距离度量来构建局部近邻图与全局远离图来表征数据间的局部近邻结构与全局结构信息,然后通过解决图嵌入框架下的优化问题来得到映射矩阵。LGPE方法在保持数据局部结构的同时最大化相互远离数据点之间的非局部散度,与局部线性嵌入等局部方法相比,该算法在考虑数据集的局部信息的同时,还考虑了数据集的全局信息;而与等距映射等全局方法相比,该算法可以避免局部近距离点在低维特征空间相距较远,而且以一种更加灵活的方式来处理数据的全局信息。实验结果表明,该算法可以实现对数据集的局部和全局结构的同时保持,有助于发现嵌入于高维数据中有意义的低维子流形。3.针对LGPE算法需计算数据点之间的测地距离矩阵,计算复杂度较高的缺点,通过对常用的标志点选择方法优缺点进行深入分析和归纳,提出了一种基于自适应标志点选择的局部与全局保持嵌入算法(AL-LGPE)。该算法充分考虑到样本点和近邻点相对位置,选择对嵌入流形影响较大的样本点,即具有代表性的点,同时让标志点之间的距离和尽可能大,使得选出的标志点不会出现集中的现象,近似直线分布的概率也大大降低。在保证算法稳定性的同时,最大程度表征输入数据空间的测地距离来实现对数据几何结构的保持。我们采用数据可视化效果和SF参数定量比较来检验算法的性能,实验结果证明了该算法的有效性和优越性。4.提出LGPE算法的线性化、核化和张量化3种推广算法。针对局部与全局保持嵌入算法不能直接取得新样本的低维嵌入坐标以及不能有效表征图像中的高阶信息等缺点,该文在图嵌入框架扩展形式下对LGPE算法进行线性化、核化和张量化推广,并对3种算法的本质特点进行了分析。在YaleB与CMU PIE两个人脸图像数据库上的实验结果表明,局部与全局保持嵌入算法的各种推广算法有各自的优势,因而LGPE及其推广算法的整体框架,为在更广的范围下解决各类问题提供了可能。同时对这些算法之间关系的分析有利于加深人们对流形学习算法本质的认识,并有助于人们在实践中选择合适的算法并理解算法的结果。5.在对图像检索中基于相关反馈的流形学习方法进行研究的基础上,结合局部与全局保持嵌入算法,提出一种新的半监督局部与全局保持嵌入算法(Semi-Supervised LGPE,简称SS-LGPE);接着我们结合人脸图像检索的特点,在半监督局部与全局保持嵌入算法的基础上提出一种融合相关反馈信息的语义流形学习(Feedback-based semantic manifold learning,简称FSML)的人脸图像检索算法。该算法以聚类为单位扩展用户在相关反馈提供的相关与不相关信息,在经过流形嵌入后,相关图像之间依然保持其近邻关系,同时尽可能最大化不相关图像之间的距离,能达到相关图像数据间散度尽可能小,不相关图像数据间散度尽可能大,从而优化构建降维子空间的特征向量,使之更符合语义特征,得到一个结合了用户语义理解的低维流形特征空间。在大型人脸图像数据库中的应用实验结果验证了FSML算法在人脸图像检索中的有效性。实验结果还表明,该算法以非常低的嵌入维数获得较理想的图像检索效果,更有利于向实际应用扩展。