论文摘要
与静止图像相比,视频为活动图像(或运动图像)。实际上我们看到的视频信息是由许多单一的图像所组成的,每一幅图像称为一帧。视频的产生是每秒大于24帧的图像连续播放,根据人眼的生理特点而形成的效果。视频配准是指找出场景中同一物体表面的结构点在不同图像上的投影像素点之间的对应关系。视频拼接是指将若干个摄像头所获得的视频图像重叠部分进行拼接,形成一个视野范围更广的视频。目前视频配准和拼接广泛应用于虚拟现实、视频压缩、图像复原、图像数据库检索等技术中。视频拼接的算法可借助于图像拼接的算法来研究,即可将数字图像的拼接方法应用到视频图像当中。但是,由于视频的一些其它特点,又不能完全的把视频拼接看为图像拼接。首先视频序列图像它提供了大量的内容和时间信息,这些信息有利于动态场景监控和运动分析。其次视频序列图像帧的数目要远远多于静态序列图像,并且相邻帧之间有很大的冗余性,这就需要一个有效的存储、搜索算法,需要一个实时性的处理算法。再次,由于视频序列图像中有可能存在运动物体,这些运动物体有可能对配准算法产生致命性的错误。因此,将图像拼接的算法应用到视频拼接必须考虑这些问题。图像配准总体可以分为三类方法:基于像素亮度差优化的方法、基于特征匹配的方法和基于变换域求解的方法。图像配准算法研究的核心问题是提高配准的速度、精度和算法的稳健度。本文针对同一场景拍摄的重叠视频图像配准及拼接问题进行了研究,研究了基于频域信息的配准技术和基于SIFT特征匹配的配准技术;研究了图像配准与拼接技术中的一系列相关问题,包括摄像机运动模型、透视变换矩阵参数的鲁棒估计和求解方法、插值技术、图像变形技术、流形的概念等。为了提高配准的速度、精度和算法的稳健度,本文提出了一种基于压缩域的双摄像机视频拼接算法。首先利用相位相关法估算输入视频的对应第一帧重叠区域,并在重叠区域进行SIFT角点检测和匹配,加快角点匹配速度、提高匹配稳健性,使用RANSAC算法去除外点,采用奇异值分解最小二乘法估算变换模型参数,并使用LM非线性优化方法进一步降低配准误差,得到首帧的对应投影矩阵;对于非首帧的配准,利用压缩视频中的当前帧与前帧的运动矢量,获得全局运动矢量,然后结合对应前帧的投影矩阵,获得相应的当前帧的投影矩阵;最后使用多频带融合算法进行图像混合以改善线性加权融合算法带来的高频细节模糊。与传统算法相比,由于省去了特征提取和匹配方法,从而减少了大量的计算步骤和时间,提高了速度,增加了实用性。实验结果表明该算法具有较好的实用价值。与现有算法相比,对于图像重叠区域较小、图像中含有运动物体、重复性纹理等较难自动匹配情况下,使用本文算法可以有效提高成功率。