论文摘要
唇读是利用计算机来识别唇动序列的一门技术,它涉及到模式识别、人工智能、图像处理等多个领域。本文主要研究了单视觉通道下,唇读中的特征提取、选择与融合,主要研究工作包括:1.在特征提取方面,分析了流形学习这种非线性的特征提取方法在唇读中的应用。为了有效提取出唇动过程中的本质特征,本文分析了两种流形学习方法(Isomap和局部线性内嵌(LLE))在唇读中的应用。最初提出的Isomap和LLE方法对于训练集以外的新样本没有一种好的方法能找到其内嵌表示,本文提出了基于核的Isomap和LLE方法,实验结果表明,利用流形这种非线性特征提取方法达到的识别性能虽然要低于传统的基于线性的特征提取方法,但通过流形学习得到的低维内嵌相比于传统的方法更能够反映出唇动的本质特征。2.在特征选择方面,提出了一种基于AdaBoost的最优Gabor核选择算法。Gabor变换因其良好的识别性能在模式识别领域得到了较高的认可。但利用Gabor变换提取出来的特征维数太高,导致所需训练样本的个数显著增加,限制了其在唇读中的应用。考虑到嘴唇区域的表观对称性和Gabor核函数的方向性,本文提出了一种基于AdaBoost的最优Gabor核选择算法。提出的方法首先将嘴唇区域对称地划分成四个子块,在每个子块上利用AdaBoost自适应的选择具有最优判别能力的Gabor核函数。实验表明,所选择的Gabor核函数与嘴唇区域的表观具有一致的方向性。最终产生的特征向量的维数明显降低,达到了优于传统方法的性能。3.在特征融合方面,提出了一种在分类器级融合全局特征和局部特征的方法。在过去的文献中,大量的基于像素的特征提取方法被提出来。传统的特征提取方法只利用了全局特征或局部特征。然而一些心理学的研究表明,人类在识别物体时,不仅利用了全局特征也利用了局部特征,并且在从局部分析物体之前先利用了全局特征。基于这些研究,本文提出了一种在分类器级融合全局与局部特征的方法,全局分类器利用离散傅里叶变换(DFT)来提取全局特征,局部分类器利用分块的Gabor小波变换来提取局部特征。最终的分类器将全局和局部分类器的输出联合得到最终的判别结果。实验结果表明提出的方法要明显优于传统的基于局部特征的分类器或基于全局特征的分类器。