论文摘要
数字存储、通讯和互联网的飞速发展使海量的视频数据出现在人们生活的方方面面,视频成为人们获得信息的主要载体。尽管网络带宽、磁盘容量、内存等还在持续增大,但对视频数据进行压缩是大部分媒体服务的前提,因此研究高效的视频压缩算法具有重要意义。此外,为了适应网络带宽的变化、支持不同的终端和达到更好的无线传输服务,人们提出了可伸缩性编码的概念,实现视频的可伸缩性,使得视频在可获得的资源下达到最佳质量。另一方面,视频的应用已走出以播放为目的的局限,视频数据的分析和理解也成为研究的热点。本文主要工作在于将Generalized Principal Component Analysis(GPCA)应用于视频编码,取代传统编码框架中的离散余弦变换(DCT),达到了更好的视频压缩效率,并在此基础上实现了信噪比(SNR)可伸缩性。另外,利用在运动预测得到的运动向量,尝试用GPCA为视频建立多运动模型,并检测运动物体。本文首先介绍了视频编码在通信、媒体服务等领域的重要性,根据现有几个重要的国际标准的演变历史,介绍了视频编码的发展情况和研究现状。第二章简要地描述了传统编码框架,并分析了新兴的视频编码标准H.264的特性。第三章介绍了可伸缩性编码的概念,着重描述Motion Compensation TemporalFilter(MCTF)及其对H.264在可伸缩性编码(SVC,Scalable Video Coding)方面的扩展。第四章简要地介绍GPCA的基本原理,并将GPCA引入到传统的编码框架中。GPCA的作用是为数据集估计混合线性模型,与PCA的单模型相比,多模型具有明显的优势,能更简洁地表达数据,揭示数据分布情况。我们用GPCA对残差作变换,消除数据的空间冗余,在此基础上实现了SNR可伸缩性,并讨论了降低编码算法复杂度的几种方法。第五章将GPCA用于分析视频中运动对象。与图像相比,视频的一个重要特点是相邻帧具有关联性,压缩算法的运动预测模块得到的运动向量反映了视频中物体的运动信息。不同的运动物体具有不同的运动模型,利用运动向量提供的运动信息为视频图像建立多运动模型,可以用于运动物体检测和跟踪。第六章具体描述了实验的过程,并对实验结果作了一定的分析。最后对本文作简要的总结,讨论了未来的研究方向。