论文摘要
监控图像作为重要的线索和证据来源,其清晰程度对视频侦查的效果产生重要影响。在实际应用中,一方面摄像头和监控目标的距离通常较远,另一方面监控图像被器件噪声和压缩噪声所污染,导致嫌疑目标图像的分辨率通常较低,质量较差。公安部二所对5000多起案件的统计数据表明,白天的监控图像60%以上存在清晰度差的问题,夜晚监控图像的这一比率达到95%以上。同时,在刑侦工作中,案件现场关键人物是刑侦人员最关注的目标,例如犯罪嫌疑人、目击证人等。刑侦人脸画像专家将关键目标所包含的特征划分为整体体征和细节特征,其中整体特征指物体的轮廓和形态,细节特征指整体特征外其余的特征。心理学实验表明,人对物体的记忆、识别和分析,都非常注重整体性,在上述活动中,细节特征仅占20%——远没有整体特征重要。在本文中,我们将整体特征定义成物体的结构特征。因此,监控目标的结构特征对于视频侦查至关重要,如何在监控系统中进一步保持结构特征信息成为监控视频编码和处理领域一个亟待解决的问题。整个监控系统主要有三个环节涉及到目标对象的保持或增强,即在视频信号中标明关注物体,在视频编码中进行增强编码,以及图像超分辨率中增强关注物体的细节信息。传统的基于视觉感知特性的视频编码和图像超分辨率技术,能够在图像编码码率较低和图像分辨率较低的情况下,有效的保持和增强关注目标的细节信息,对于解决这一难题具有重要意义。本文首先对视觉感知编码和图像超分辨率技术进行概述分析,并以其为核心具体从基于视觉选择性机制的视频感知编码技术、基于掩蔽机制的视频感知编码技术和基于学习的图像超分辨率技术三个方面进行综述并得出结论:在面向视频侦查的安防监控系统中,传统的基于像素相似性的视频图像编码和处理技术在编码资源配置和先验知识约束的方面还有待提升。从特征编码和处理的角度出发,在编解码两端增加关注特征的保真度,可以有效的提升视频图像的辨识效果。为此,在国家自然科学基金面上项目(No.61070080, No.61172173, No.60772106)的资助下,本文对基于结构相似性约束的监控视频编码和超分辨率技术展开研究,提出了面向关注特征的鲁棒性前景对象提取算法、视频感知编码算法以及鲁棒性人脸超分辨率算法,提高了视频编码效率,从编解码两端增加了关注特征的保真度,具有较高的理论价值。同时,本文的研究成果有望满足实际视频侦查中关键目标清晰辨识的需求,也具有较高的应用价值。下面将介绍本论文的主要研究成果:(1)基于时空域关注度分析的背景减除技术传统的关注区域提取方法在实际应用中受到光线变化、环境噪声、前景物体运动速率变化等因素的影响,前景物体提取的效果不佳,甚至造成前景物体漏检。相关实验[41]表明:缓慢运动物体的漏检可造成前景提取算法的准确性降低15.8%,进而影响关注区域编码的效果。针对这一问题,本文研究基于时空域关注度分析的背景减除技术。本文在基于GMM的背景建模方法的基础上,通过分析光线变化、环境噪声、前景物体运动速率等因素对时空域关注度图的影响,明确空域关注度图和时域关注度图之间的对应关系,建立时空域关注度的融合模型,将固定背景更新速率扩展为自适应调整;在此基础上,研究基于时空域关注度分析的背景减除算法,有效的提升了关注区域提取的性能,为后续的编码和处理奠定了基础。(2)基于Foveated JND和主结构分析的视频感知编码技术在面向视频侦查的应用中,图像的关键目标区域需要有高保真度,非关键目标区域需要有好的视觉质量。传统的基于最小可察觉失真(Just-noticeable difference, JND)阈值的视频感知编码对于非关注特征分配了大量的编码资源,存在大量视觉选择性冗余和认知冗余,编码资源不能集中到关键目标区域的辨识特征上。相关实验[55]表明,对编码图像均匀分配编码资源会造成10%以上编码冗余。针对以上问题,本文对DCT域Foveated JND模型展开研究,并将其引入非关注区域视频编码的运动补偿环节。本文在DCT域的JND模型的基础上,通过分析视觉偏心率和图像频域信息掩蔽阈值之间的关系,将视觉选择特性引入基于频域JND阈值的残差滤波模型;同时研究基于结构相似性约束的视频编码,并将其应用到率失真优化环节,通过将图像块分成主要结构和次要结构,分析不同层次图像结构对图像内容认知的影响,建立基于主结构分析的图像失真模型,将传统的数据相似性度量扩展为结构感知的相似性度量。该方法在保证关注区域辨识度的情况下,大幅降低了编码码率,提升了监控系统在低码率情况下保存图像辨识特征的能力。(3)基于结构相似性正则的人脸超分辨率技术传统的基于局部重建的超分辨率方法利用训练所得的图像基对高分辨率图像进行线性合成。但是,由于监控图像往往含有噪声,传统的基于像素相似性的超分辨率方法在对输入图像进行线性表示的时候,噪声分量也会反映到合成系数中,从而使得重建的高分辨率图像含有明显的噪声,降低了图像超分辨率的效果。相关实验[87]表明,最新的基于稀疏的人脸超分辨率算法在噪声环境(高斯噪声方差为10)下仅略好于传统的插值算法(两者MSE相差0.3)。针对这一问题,本文研究根据输入图像自适应的正则项生成方法。本文在基于学习的人脸超分辨率方法的基础上,通过分析图像结构相似性先验对噪声的抑制能力,建立先验知识的白适应表达模型,提出基于结构相似性的正则项并约束超分辨率求解,将传统的基于统计先验知识的正则模型扩展为基于输入图像自适应先验的正则模型,增强了图像超分辨率重建效果,进一步提升人脸超分辨率算法的实用性。综上所述,本文对基于结构相似性约束的监控视频编码和超分辨率技术展开研究,突破传统视频编码技术单纯以像素相似性作为编码目标的局限,提出了面向关注特征编码和处理技术,具有较为重要的理论和应用价值。同时,本文也对下一步的研究工作进行了展望。期望在现有研究成果的基础上,对基于结构相似性的多帧视频超分辨率、面向图像内容的结构相似性度量这两个方面进行进一步的研究。
论文目录
相关论文文献
标签:视频编码论文; 关注度论文; 最小可觉察失真论文; 人脸超分辨率技术论文;