论文摘要
视频分割技术是众多面向对象的视频应用的技术基础,这些应用领域包括面向对象的视频编解码、视频编辑和检索、计算机视觉等。分割的准确性直接影响后续任务的有效性,因此具有十分重要的意义。随着计算机处理能力的提高和多媒体技术的发展,特别是MPEG-4这一面向对象的视频编码框架提出以后,视频分割成为一个急待解决的技术问题。从上个世纪九十年代开始,国内外的学者们做了大量的研究,也提出了许多方法,但由于视频图像的复杂性和特殊性,至今为止提出的相关理论和方法尚存在不足之处,在某些具体情况下仍不能很好的分割出视频对象,难以找到一种是通用的、可靠的自动分割算法。因此,根据具体的应用要求设计新的视频分割方法,或者对现有方法进行改进以得到满意的视频对象分割结果,是现在研究的主流方向。根据分割过程中所利用的信息不同,视频分割算法可分为时间分割,空间分割和时空联合分割。为得到更好的分割效果,当前主流的视频对象提取算法都将时间域的连续性和空间域的相似性结合起来以获得语义意义的视频对象。在视频流的记录过程中,为了扩大视频流中的信息量摄像机不可避免产生缩放、平移和旋转等运动。由摄像机运动产生的全局运动使得视频序列具有了动态场景。较之静止背景,从动态场景中提取出运动对象,在视频跟踪、视频摘要和数字监控等领域有更加重大的实用价值。在动态场景下,由于背景的运动,使得直接分割变得非常困难。目前传统的动态场景视频对象分割方法都是先进行全局运动补偿来去除摄像机运动的影响,然后再采用静态背景下的视频分割方法进行视频对象的提取。而精准背景补偿阶段往往是整个分割过程中计算量最大、最耗时的阶段。在考虑到具体的实际应用的情况下,本文对动态场景下的视频对象提取算法作了深入的思考,提出了一种基于时空联合的动态场景视频分割算法。在时间域,采用一种初略的整体运动分析方法:首先利用频域相位关系求得运动向量,然后根据前景与背景运动向量的不同,采用相应的全局运动参数模型,反复处理得到当前帧的前景区域。进行形态学后处理,去除干扰块,填充内部孔洞,得到完整封闭的前景物体,即视频分割的大致轮廓。得到前景物体大致区域以后,根据不规则金字塔算法,对运动模板内的图像区域进行空间域分割,提取出最终语义视频对象。对于从具有动态场景的视频流中提取运动对象的情况,本文算法能有效地避开精准背景补偿,节省了计算量,而且提取出来的语义对象精度较高。实验表明,无论是对动态场景中刚性还是非刚性运动物体的分割,该算法都具有较好的效果。