视觉感知模型与编码算法研究

视觉感知模型与编码算法研究

论文摘要

视觉感知与编码是神经计算科学研究的基本问题之一,其主要任务是以神经生理学和认知科学的研究成果为基础,模拟人类视觉信息处理的神经模式,从计算的角度研究新的计算原理和视觉信息处理系统。视觉信息处理机制和计算原理的研究不仅对揭示神经计算原理、建立新型计算模型具有重要的理论意义,而且对推动新型信息技术的发展,如人工视觉系统、失明患者的视觉功能修复、机器认知、新型人机交互模式等也具有重要而积极的作用。另外,在模式识别、身份验证、安全监控、智能的人机交互界面等领域也有广泛的应用前景。本文从稀疏编码的思想出发,以自然图像或序列作为训练数据,学习初级视皮层中简单细胞和复杂细胞的时空感受野及其自组织拓扑图,进而在较高级视皮层层次构建视觉感知模型来感知外界图像刺激中的内容信息、平移、旋转、缩放等运动和变换信息。本文的主要贡献和创新点体现在以下几个方面:为表征自然图像的统计特性,引入独立分量分析方法,以线性生成模型作为表征模型,从自然图像中学习图像基函数,这些基函数具有局部化、朝向性及带通滤波性,与神经生理实验发现的初级视皮层简单细胞和复杂细胞的感受野特征类似。由此得到的独立分量系数可作为神经元的响应,其概率分布满足稀疏性和超高斯分布,通过引入相邻神经元响应的二阶相关性,推导出基于自然梯度的自组织学习算法NGTICA,从自然图像中学习得到简单细胞感受野的空间拓扑结构。针对提取时空特征问题,提出一个基于视皮层不变性表示的时空特征提取模型。对NGTICA学习算法进行扩展,得到适用于该模型的时空基函数学习算法STICA。该模型可从具有时空结构的自然图像序列和视频序列中提取相应的平移、旋转、尺度变化、视角变化等时空特征。进一步研究了以这些时空特征作为复杂细胞感受野时,神经元的响应具有稀疏性和超高斯性。为感知外界刺激中的内容和平移运动信息,我们对视觉系统中的what和where通路建模,提出了一个三层的内容与平移运动感知模型,并给出内容感知算法OPA和平移感知算法TPA。初步的实验结果表明,用理想刺激加入不同噪声生成外界刺激,该模型可以感知到其中的朝向信息及平移运动方向和运动速度等。提出的感知模型及感知算法具有良好的鲁棒性。提出一个旋转运动感知模型,用于解决刺激序列中的旋转变换信息感知问题。以神经元响应的相关度作为不变性衡量指标,提出了旋转运动感知算法RPA。通过深入研究,我们把该模型提升为一个运动感知的泛化模型。当给定不同的运动时空基函数作为神经元的感受野,该泛化模型就可以特化为感知某种运动信息的模型。人脸视角估计是人脸识别任务中的一个重要预处理步骤。为解决人脸视角估计问题,我们从视觉感知机理出发,提出一个全新的基于独立分量分析的人脸视角感知模型。首先将STICA学习算法应用到多视角人脸数据集,得到多视角人脸基函数,作为神经元感受野。应用神经元发放率统计方法,提出人脸视角感知算法,并得到较好的感知实验结果。对神经元的响应进一步分析发现,对不同视角的人脸刺激,神经元的响应在高维空间中具有流形结构。这一结果为感知算法的成功应用奠定了良好的理论基础。考虑到人脸图像受光照、表情、视角、年龄等多种因素的影响,我们用张量分解方法同时提取人脸图像中的多因子表征,进而构建一个基于张量分解的人脸视角感知模型。以张量基空间表征与视角因子的相关性作为度量指标,提出了相应的人脸视角估计算法,得到的结果优于基于独立分量分析的方法。

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 主要符号对照表
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究进展综述
  • 1.2.1 视觉系统的神经生理基础
  • 1.2.2 视觉理论
  • 1.2.2.1 Marr的特征分析理论
  • 1.2.2.2 Poggio正则化理论
  • 1.2.2.3 Gestalt拓扑知觉理论
  • 1.2.3 神经信息编码与视觉感知模型
  • 1.2.3.1 神经编码
  • 1.2.3.2 有效编码
  • 1.2.3.3 视觉感知模型
  • 1.3 本文研究内容及组织结构
  • 第二章 视觉感知系统神经生理学基础和计算理论基础
  • 2.1 视觉感知系统神经生理学基础
  • 2.1.1 神经元感受野
  • 2.1.1.1 视网膜神经节细胞的感受野
  • 2.1.1.2 外膝体神经细胞的感受野
  • 2.1.1.3 初级视皮层神经元的感受野
  • 2.1.2 眼优势柱、朝向柱和超柱
  • 2.1.2.1 眼优势柱
  • 2.1.2.2 朝向柱
  • 2.1.2.3 超柱
  • 2.1.3 视觉系统的信息处理通路
  • 2.2 视觉感知的计算理论基础
  • 2.2.1 自然图像及其统计特性
  • 2.2.1.1 自然图像
  • 2.2.1.2 自然图像的二阶统计特性
  • 2.2.1.3 自然图像的高阶统计特性
  • 2.2.1.4 自然图像的时空统计特性
  • 2.2.2 盲信号分解方法
  • 2.2.2.1 主分量分析
  • 2.2.2.2 独立分量分析
  • 2.2.2.3 非负矩阵分解
  • 2.2.2.4 张量分解
  • 2.2.2.5 局部线性嵌入
  • 2.2.2.6 等特征匹配
  • 2.2.3 优化判据
  • 2.2.3.1 最小二乘法
  • 2.2.3.2 互信息极小化
  • 2.2.3.3 信息极大化
  • 2.2.3.4 Kullback-Leibler散度
  • 2.2.3.5 极大似然判据
  • 2.2.3.6 贝叶斯判据
  • 2.2.4 优化算法
  • 2.2.4.1 梯度下降法
  • 2.2.4.2 自然梯度法
  • 2.2.4.3 随机梯度下降法
  • 2.2.4.4 拟牛顿梯度法
  • 2.2.4.5 共轭梯度法
  • 2.3 本章小结
  • 第三章 初级视皮层感受野时空特征提取
  • 3.1 引言
  • 3.2 简单细胞感受野
  • 3.2.1 数学模型及自适应学习规则
  • 3.2.2 自适应学习算法实现
  • 3.2.3 自然图像基函数
  • 3.2.4 用Gabor波拟合图像基函数
  • 3.2.5 神经元响应稀疏性分析
  • 3.3 复杂细胞的感受野
  • 3.3.1 自组织学习算法
  • 3.3.2 复杂细胞的感受野
  • 3.4 自然图像序列分解
  • 3.4.1 变换基函数学习模型
  • 3.4.2 图像块序列变换
  • 3.4.2.1 平移图像块序列采集
  • 3.4.2.2 旋转图像块序列采集
  • 3.4.2.3 缩放图像块序列采集
  • 3.4.3 图像块序列预处理
  • 3.4.4 变换基函数
  • 3.4.4.1 平移变换基函数
  • 3.4.4.2 旋转变换基函数
  • 3.4.4.3 缩放变换基函数
  • 3.4.4.4 变换基函数分析
  • 3.4.5 NGTICA算法的讨论
  • 3.5 基于不变性表示的时空特征提取
  • 3.5.1 时空特征提取模型
  • 3.5.2 时空特征学习算法
  • 3.5.3 数值实验
  • 3.5.3.1 自然图像序列中的时空特征
  • 3.5.3.2 时空特征的结构
  • 3.5.3.3 TV视频序列的时空特征
  • 3.5.3.4 人脸时空特征
  • 3.5.4 讨论
  • 3.6 本章小结
  • 第四章 内容和运动感知模型及算法
  • 4.1 引言
  • 4.2 内容和平移运动感知
  • 4.2.1 感知模型
  • 4.2.2 感知算法
  • 4.2.2.1 内容感知算法
  • 4.2.2.2 平移运动感知算法
  • 4.2.3 数值实验
  • 4.2.3.1 内容感知
  • 4.2.3.2 平移运动方向和速度感知
  • 4.3 旋转运动感知
  • 4.3.1 旋转运动感知模型
  • 4.3.2 旋转不变性分析
  • 4.3.3 旋转感知数值实验
  • 4.4 运动感知泛化模型
  • 4.5 本章小结
  • 第五章 人脸视角感知模型及算法
  • 5.1 引言
  • 5.2 基于ICA的人脸视角感知模型
  • 5.2.1 人脸视角感知模型与感知算法
  • 5.2.2 人脸多视角基函数
  • 5.2.3 神经元响应分析
  • 5.2.4 人脸视角感知
  • 5.2.5 感知结果分析
  • 5.3 基于张量分解的人脸视角感知模型
  • 5.3.1 张量表象与学习算法
  • 5.3.1.1 张量分解与视角估计模型
  • 5.3.1.2 NMWF 算法
  • 5.3.2 张量脸表征与人脸视角估计
  • 5.3.2.1 张量脸表征
  • 5.3.2.2 人脸视角估计
  • 5.3.3 数值实验
  • 5.3.3.1 人脸库
  • 5.3.3.2 张量脸表征
  • 5.3.3.3 视角估计
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    视觉感知模型与编码算法研究
    下载Doc文档

    猜你喜欢