论文摘要
计算机视觉是人工智能领域的核心问题之一,它的目标是让计算机拥有人的视觉能力,也就是让机算计像人一样理解现实世界中的图像。计算机视觉在医学、工业、军事、航天等领域拥有广泛的应用。但是,根据人的视觉占用至少60%的人脑资源这个事实,计算机视觉在学术界被认为是“人工智能完全”问题,或者至少是“人工智能困难”问题。在众多计算机视觉的问题中,广义的物体识别,即在任意环境下识别任意物体,又是最核心的问题之一。总的来说,物体识别是让计算机自动地把图像中的物体分类。这是个非常具有挑战性的问题,它也是很多应用问题的最紧要瓶颈所在,比如图片搜索问题。虽然世界上诸如麻省理工、斯坦福、耶鲁、剑桥、普林斯顿等众多非常有实力的研究机构已经研究这个问题多年,广义的物体识别问题还远远没有得到很好的解决。但是,从机器学习的角度来说,物体识别的问题至少在一定程度上是可行的。准确的说,只要能合适地抽取图像特征、合适地描述物体和找到合适的分类模型,实现一个能满足实际应用的物体识别系统是可行的。在这篇论文里,我们将介绍一个基于机器学习的物体识别系统原型。这个原型系统包括三个部分:物体分割子系统、物体描述子系统和一个分类器。在这三个要点上,我们创造性地提出了自己的方法:一个基于混合图模型(HGM)的物体分割算法、一个基于拉多表示的物体描述算法(RRFD)和一个称为神经编码分类器(NCC)的分类算法。随后,我们对这个基本原型系统做一些改进工作:包括基于低秩描述(LRR)的图像聚类算法、基于局部线性转换(LLT)的多标签分类算法和基于反馈嵌入(FE)的大规模相似图像查找技术。具体来说,本文的创新点有:我们提出了用于一般半指导分类的HGM (Hybrid Graph Model,混合图模型),并建立了一个有效的物体自动分割方法。根据我们所知,我们是第一个将混合图引入机器学习的人。不同于传统的物体分割方法,我们的基于HGM的方法是自动的,即不需要手动分割好的训练数据。这使得我们的物体识别系统更加实用。我们提出了基于Radon变换的物体描述算法,称为RRFD (Radon Repre-sentation Based Feature Description,基于拉多表示的特征描述)。在物体已经从图像中分割出来后,RRFD可以把物体的形状、颜色、纹理等信息综合地集成到一个维度比较低的特征向量中去,并由此而实现精确的物体识别。除此之外,RRFD也可以作为一个一般的特征描述算法,它可以描述任意一个图像区域。物体识别中的最后一个步骤是对特征向量进行分类。我们提出了基于神经编码的分类器,称为NCC(Neural Coding Classifier,神经编码分类器)。和传统的诸如SVM的分类算法相比,NCC不仅能够很好地处理测试数据与训练数据同分布的情况,也能更好地处理测试数据与训练数据概率分布不同的情况。实验结果表明,在测试数据和训练数据概率分布相同的情况下,NCC的分类精度度略微超过SVM;在测试数据和训练数据概率分布不同的情况下,NCC可以显著地超过SVM。当一张图像中可能含有多个类的物体时,物体识别中对应的分类问题就是一个MLC(Multi-Label Classification,多标签分类)问题。多标签分类问题可以用MOR(Multi Output Regression,多输出回归)模型来处理。我们提出了用于定义回归分析中损失函数的LLT(LocallyLinear Transformation,局部线性转换)机制,并在SVR(Support VectorRegression,支持向量回归)框架下提出了一种结合LLT和SVR的多输出回归算法,即所谓的LLT-SVR。LLT-SVR即提供了一种很好的多输出回归分析工具,又为我们的物体识别系统提供了一种有效的多标签分类器。为了提高物体识别系统的实用性,我们需要一种有效的图像聚类机制。我们首次提出了用于处理矩阵数据信号的LRR(Low-Rank Representation,低秩表示)。LRR是一种新的压缩传感(Compressed Sensor)技术,和传统的SR(Sparse Representation,稀疏表示)相比,LRR能更好的描述数据的整体结构,从而在诸如图像聚类之类的数据聚类问题中,LRR有明显的优势。基于LRR,我们提出了一种有效的图像聚类算法。除图像聚类外,LRR子空间分割算法也是一种基本的数据聚类法。更重要的是,LRR首次提出了“低秩”(Low Rank)准则。LRR不但在机器学习领域产生巨大的理论影响,而且在计算机视觉和图像处理领域有着广泛的应用。为了提高物体识别系统的运行速度,我们需要一种高速的相似图像查找技术。我们提出了称为FE(Feedback Embedding,反馈嵌入)的数据降维算法。基于FE,我们可以设计出一种有效的语义哈希算法,进而实现在大规模物体识别系统中的快速相似图像查找。除研究物体识别和一些相关的机器学习问题(比如分类、聚类和降维等)外,本文也对一些根本的科学问题进行了讨论。比如我们探究大脑是如何处理视觉信号的,并提出了一个新颖的神经编码假设,即大脑是基于信号重构来处理信号的。