论文摘要
计算视觉中一个基本的任务是通过统计建模来预测静态图像中的未知特性。如果图像中的这些未知特性能够被描述成一系列离散的随机变量,那么对应的视觉问题就可以归结为图像标注或者图像理解。由于自然图像中的物体存在大量的类内和类间差异,导致计算机视觉中的图像理解和标注成为一个非常具有挑战性的任务。最主要的挑战和困难集中在以下三个方面:1)自然图像中存在的各种复杂视觉模式,如何对其进行建模是首先需要研究的问题;2)对不同类别的物体如何学习得到最有判别力的特征以及对模型参数进行估计是第二个需要研究的问题;3)在给定的学习模型下,如何通过优化算法计算得到最优解。本论文基于统计学的理论,对场景标注与理解进行建模、学习和推理,重点研究了计算机视觉中的以下问题:1)如何有效地对图像中有明显纹理特性和结构特性的物体进行建模?2)什么样的上下文信息能够有效的表达图像中各类物体之间的相互关系?3)如何从训练数据中学习得到图像的模型以及对图像上下文信息的表达?4)如何设计一种快速的推理算法得到最终的图像标注结果,并同时保证得到的结果是解空间中的全局最优解?5)图像标注与物体识别之间存在怎样的关系?本文的工作紧紧围绕场景标注与理解这一核心命题展开。为回答以上提出的问题,从以下四个方面展开研究:(1)一般而言,图像中的底层信息(如纹理和颜色)也可以用来识别物体类别(如水、天空和树木等)。作为中层视觉的主要特性,形状信息对于自然场景中包含的结构类物体(如马、牛和车等)而言是一种非常鲁棒的表达方式。基于形状模板对图像对应的区域进行语义分割不仅能够约束对应的像素具有一致的语义标签,还能提高对抗噪声的鲁棒性。除此之外,图像中的上下文信息可进一步提高标注系统的性能。这类信息往往约束高层语义之间的共生关系和约束关系。因此,本文设计了一种有效,灵活和鲁棒的概率标注模型—动态混合马尔科夫随机场模型,结合不同层次上的图像特征。这些特征彼此约束,互为补充,以达到对输入图像产生一致性标注输出的结果。(2)众所周知,图像中不同类别的物体往往具有不一致的特征属性。即使是使用不同图像特征来建模物体,这些特征在物体的识别过程中往往具有不同的重要程度,即判别力的高低。本文提出一种自动的学习算法能够区分不同特征的重要性,并且在建立物体模型的过程中优先选取判别力高的特征。与此同时,通过更新模型中特征的权重系数使得当前模型与真实模型具有相同的边缘分布。随着一系列特征的引入与相应特征系数的更新,使得学习得到的模型逼近每类物体的真实分布。(3)学习场景标注模型一般通过离线学习的方式,而用学习得到的模型来推理得到场景标注的结果一般使用在线推理的方式。这需要设计高效的推理算法,既能够满足大尺度数据集标注的需要,也能满足实际标注系统的应用需求。本文在动态混合马尔科夫随机场模型的基础上,设计了一种高效的推理算法—组合采样算法。除此之外,本文还证明了在保证获得很好的标注性能的前提下,组合采样算法能够收敛到全局最优解,即对应后验概率最大的标注结果。(4)上下文特征不仅仅用于约束图像标记之间的共生关系和约束关系,还具有多尺度特性。本文提出了多尺度上下文特征的概念,建立了融合多尺度上下文特征的模型框架。根据不同的层次化分割结果,图像中的多尺度上下文信息蕴含在分割得到的图像区域中。本文提出一种线性积分模型,用于融合层次化分割的结果,以达到建模多尺度上下文的目的。将这种模型运用于实际的标注应用中,取得了很好的实际效果。