论文摘要
视频的应用环境非常复杂,从传输的信道,存储介质,到播放终端等都各不相同。视频自适应技术为视频的复杂应用提供了各种解决方案,其中就包含视频转码技术和可分级编码技术。如在网络接入点放置转码模块,就可以根据接入网络的特点来生成所需要的视频流格式;另外利用可分级编码技术,则只需要在编码端一次性编码高分辨率的比特流,不同的网络和终端根据本身的特点只接受部分码流解码即可。视频转码通常分为标准内转码和标准间转码两种,标准内转码又常分为空间分辨率转码,时间分辨率转码,比特率转码三个方面。视频转码最容易实现的方式是将输入比特流完全解码,然后根据输出格式的要求进行重新编码,显然该方法也是运算复杂度最高的方法。为了提高重新编码速度,在视频转码中就需要充分利用解码得到的信息。在视频可分级编码中,编码端只需要一次性编码全分辨率下的比特流,不同应用的解码端只需要根据特定的应用环境接受部分码流进行解码即可,因此就减轻了编码端的负担。基于MCTF(Motion Compensated Temporal Filtering)的小波视频编码方案中完全抛弃了迭代编码方式,因此可以避免“漂移”效应。但是,在基于MCTF的小波编码方案中,GOP(Group of Pictures)结构是固定的,因此无法适应视频序列中运动性质的变化。针对视频转码技术和可分级编码技术,本文主要研究了以下几个方面:1.在空间分辨率转码的帧内模式选择部分,本文利用原始图像中非零系数比例(nzper)作为选择当前宏块类型的准则,并提出了一个ThIQr模型,该模型以指数曲线描述重新量化参数(Qr)和nzper阈值的关系。经过线性化处理,得到一元线性回归模型,然后利用最小二乘法估计模型中的参数。为了使得ThIQr模型能适应不同的视频序列,本文提出了一种在实际转码过程中更新模型参数的方法。在使用ThIQr模型选择了帧内宏块类型之后,本文又提出了一种快速的帧内预测模式选择方法,该方法充分利用输入原始图像中宏块的类型和帧内预测模式,大幅度降低了当前宏块的帧内预测模式选择时间。根据最后的实验结果,相对于全搜索法,在最大PSNR(Power Signal-to-Noise Ratio)损失约0.6dB前提下,本文方法的耗时仅为全搜索法的200%~25%。2.在空间分辨率转码的帧间模式选择部分,本文利用nzper划分出当前宏块所在区域的运动性质,从而跳过部分候选宏块类型的测试,并提出了一种ThPQr模型。与ThIQr模型类似,该模型同样使用指数曲线来描述Qr和nzper阈值的关系,并在实际转码过程中进行即时更新。另外,由于根据原始图像计算出来的运动矢量并非一定精确,尤其是当Qr较大时。本文还提出了一种新的运动矢量细化方案,该方案中以nzper作为运动矢量细化步长的准则,且随着Qr的增加,运动矢量细化步长也逐步增加,从而保证了在运动较为剧烈的区域,运动矢量细化步长较长。本文又进一步将该方法推广到了时间分辨率转码方面。最后的实验结果表明,相比于全搜索法,在最大PSNR损失约1.1dB前提下,本文方法可以将总编码速度提高15-20倍:若仅考虑选择宏块类型部分的耗时,则可以提高约35倍。3.本文首次提出基于分类方法在视频转码中快速选择宏块类型。利用该方法,本文首次完成了基于H.264的同时包含三个方面(空间、时间、质量)的转码方案。从输入比特流中提取解码信息:原始图像中宏块类型、残差数据、运动矢量、量化参数等,并将这些信息输入到离线训练完毕的支持向量机模型,从而预测出目标宏块类型。本文在各种转码条件下进行了大量的实验,相比于全搜索法,在最大PSNR损失约1.2dB前提下,本文方法可以将总编码速度提高约12倍,若仅考虑选择宏块类型部分,则可以提高约30倍。4.本文提出了一种类haar的MCTF编码方案,该方案包含GOP结构选择和时间分解层次确定两部分。其中GOP结构根据互信息自适应的确定,又包含了GOP尺寸选择和低通帧选择两部分。本文同时利用GOP内平均互信息值和标准差来控制GOP尺寸,从而选定的GOP尺寸不仅能根据运动类型的变化自适应的改变,而且同一个GOP内部的运动类型也能保持一致。本文首次提出了一种低通帧的选择方案,该方案基于互信息技术,从一个GOP内提取出与其余帧最具相关性的帧。当解码端在时间上的解码层次较少时,该方案得到的帧序列更能反映出原始视频序列的运动过程,另外该方案还进一步提高了压缩性能。进一步地,本文根据选择的GOP结构,自动确定时间上的分解过程,该分解过程还与传统的MCTF编码方案保持了兼容性。根据最后的实验结果,对于运动性质有明显变化或运动较为剧烈的序列,本文的GOP结构选择方法能较大地提高压缩性能。综上所述,在视频转码的研究中,本文首次提出了一种基于H.264的同时包含空间、时间、质量三个方面的转码方案,论文尤其对输出比特流中的宏块类型选择问题进行了深入的研究。本文提出的方案中,输入和输出比特流均为H.264格式,输入的H.264比特流需要完全解码(像素域转码),在更改图像格式之后重新编码输出,其中图像格式的更改包含三个方面:空间分辨率,时间分辨率,图像质量。在可分级编码研究中,本文基于互信息技术提出了一种自适应的GOP结构选择方案,并根据选定的GOP结构进一步的确定了时间分解过程。最后,论文对提出的视频转码方案及GOP结构选择方案中存在的问题进行了分析,并讨论了下一步的研究方向和研究内容。