模拟人类视觉感知的行人图像显著结构的研究及应用

论文摘要

人类在感知外界环境的过程中,80%以上的信息来自于视觉。人类视觉感知系统中,初级视皮层从眼睛接收来自外界的信息,并按照由初级到中级,再由中级向高级的顺序分级进行信息处理。点和边缘是构成图像最基本的初级视觉特征,这些初级视觉特征经过编组形成边界及区域等中级视觉特征,以区域等中级视觉特征为基础,结合构成目标的各部分之间的结构关系,最终形成完整的目标。行人图像是各类自然图像中最常见、应用范围最广的一类,面对任何一幅复杂而陌生的行人图像,人们均可迅速、准确地找出其中有用的、属于目标本身的边缘、边界以及区域等显著结构,通过对这些显著结构的研究与分析,来完成整个行人目标的解析工作。如何模拟人类的视觉感知过程让计算机代替人工完成这一系列看似简单而实际复杂的工作是计算机视觉主要解决的问题。本文借鉴生物物理学和认知心理学的相关理论,结合概率统计等数学知识对此过程进行建模,通过对行人图像中的显著点、显著边缘、显著边界、显著区域等初级与中级视觉特征的研究与分析来实现对整个行人目标的解析,并将该解析模型应用于行人目标的分割、行人行走朝向预测以及行人目标检测的再估计等高级视觉处理过程中。其中,显著点与显著边缘为属于目标轮廓或者图像中不同区域边界上的点与边缘,边缘上所包含的显著点越多,其显著性也就越强；显著边界为构成目标轮廓的边界；而显著区域则为属于目标或者前景本身的区域。本文的主要工作包括以下三个方面：1)提出了基于认知心理学中格式塔规则的行人图像显著边缘等初级视觉特征的检测方法。首先使用尺度空间边缘（Scale Space Edges, SSE）与张量投票（Tensor Voting, TV）相结合的方法对行人图像中的显著点进行检测,并根据格式塔规则中“好的形状（Good Shape）"的原理,以边缘上包含显著点的情况、边缘的长度、光滑性以及稳定性等为线索对边缘的显著性加以判断,提出一种基于边缘能量与边缘稳定性的显著边缘的检测方法；对于背景、目标内部纹理和颜色比较复杂的图像,仅从长度、光滑性等边缘本身的特征出发很难得到理想的实验结果。鉴于此,进一步提出一种基于初级与中级视觉特征的显著边缘的检测方法。通过分析各边缘两侧区域内颜色与纹理的差异,并根据格式塔规则中的“闭合性（Closure）”原理对图像中的显著边缘进行检测。上述研究成果在行人图像和不同类别的图像中均进行了验证。该方法的优点在于不仅考虑到边缘本身的特性,还综合了颜色、纹理等能直接体现区域特性的初级视觉特征,所得到的显著边缘不仅节省了存储空间,还为下一步显著边界的检测提供了线索。2)提出了一种行人图像中显著边界等中级视觉特征的检测方法。显著边缘可以为高级的目标匹配、目标识别等工作提供线索,但很难直接应用于目标的解析与分割,因此,本文以显著边缘作为线索之一,对更加连续、光滑的组成目标轮廓的显著边界进行检测与分析。首先通过改变由gPb-OWT-UCM分层分割算法得到的分层分割图的阈值,产生一组软边界,然后分别对这组边界所包含显著边缘的情况,以及其长度、光滑性等属性进行度量,并根据知觉组织中的“接近律”原则对其进行编组,检测出其中属于同一个目标整体的显著边界。分别将检测到的显著边界和真实显著边界的形状与样本库中样本的形状进行匹配。通过显著边界的检测将图像分成了不同的区域,这些区域的形状及显著性可以为更高一级的视觉处理任务提供有力线索。3)提出了基于显著区域形状的行人目标解析模型及其在高级视觉处理过程中的应用。与基于语义的解析模型不同,本文提出一种基于句法的解析模型,其基本思想是将行人分成若干可视单元,并将这些可视单元归纳为永久部分与可能部分两种类型。根据知觉的整体性原理,模拟人类视觉感知过程,以永久部分为刺激起点,引发对目标其它可能部分的联想与推测,从而感知到整个目标。具体实现方法如下：首先以gPb-OWT-UCM分层分割算法得到的分割区域为基础,保留形状较显著的区域块,然后按照行人的树形解析结构,自底向上,从单个部分的形状出发,依次考虑各个部分组合的形状,直至整个行人的形状,最终解析出整个行人目标及其各个组成部分。本文还将该解析模型很好地应用于行人目标及其各个组成部分的分割,行人行走朝向的预测,以及行人目标检测的再估计等高级视觉处理过程中,这些实验结果均验证了该模型的有效性。

论文目录

致谢

摘要

ABSTRACT

1 引言

1.1 问题的提出

1.2 研究意义

1.3 研究背景与国内外发展现状

1.4 本文研究重点及章节安排

2 生物物理学——认知心理学——计算机视觉

2.1 引言

2.2 生物物理学相关知识

2.2.1 人眼与照相机

2.2.2 人类视觉感知系统的相关知识

2.3 认知心理学相关知识

2.3.1 知觉的整体性

2.3.2 知觉的理解性

2.3.3 知觉的选择性

2.3.4 知觉的相对性

2.3.5 知觉的恒常性

2.3.6 知觉的组织性

2.3.7 视觉完形

2.4 计算机视觉相关知识

2.4.1 计算机视觉与图像处理

2.4.2 "三阶段"理论

2.5 小结

3 行人图像中显著边缘检测

3.1 引言

3.2 知觉与显著边缘

3.2.1 整体性与显著边缘

3.2.2 组织性与显著边缘

3.2.3 解性与显著边缘

3.2.4 边缘与边界

3.3 显著点检测

3.3.1 尺度空间边缘（Scale Space Edges,SSE）

3.3.2 张量投票（Tensor Voting,TV）方法

3.3.3 显著点检测

3.3.4 实验结果及分析

3.4 基于边缘能量与边缘稳定性的显著边缘检测

3.4.1 基准边缘检测

3.4.2 边缘能量

3.4.3 边缘稳定性

3.4.4 实验结果及分析

3.5 基于初级与中级视觉特征的显著边缘检测

3.5.1 初级视觉特征提取

3.5.2 中级视觉特征提取

3.5.3 实验结果及分析

3.6 小结

4 行人图像中显著边界检测

4.1 引言

4.2 知觉与轮廓

4.3 基于边界能量的显著边界检测

4.3.1 gPb-oWT-UCM分层分割算法

4.3.2 可能边界

4.3.3 边界能量

4.3.4 显著边界

4.3.5 实验结果及分析

4.4 小结

5 行人目标解析及应用

5.1 引言

5.2 知觉与目标

5.3 行人解析模型

5.3.1 样本库建立

5.3.2 行人解析

5.3.3 候选分割块

5.3.4 永久部分产生过程

5.3.5 可能部分产生过程

5.3.6 具体应用及实验结果分析

5.4 小结

6 总结与展望

6.1 全文工作总结

6.2 进一步研究设想

6.3 结束语

参考文献

作者简历

学位论文数据集

模拟人类视觉感知的行人图像显著结构的研究及应用

论文摘要

论文目录

相关论文文献

猜你喜欢