H.264视频编码算法的并行优化
论文摘要
现有的视频编码标准均采用基于宏块的编码模式,算法中所引入的运动估计机制虽然带来了更高的压缩比,但却因其庞大的计算量而占据了绝大部分的编码时间。为了提高编码速度,人们一直在两个方向上不断努力:一是研究新的运动估计算法,二是现有算法进行并行化。本文重点研究了H.264运动估计的并行优化问题。本文主要从CPU和GPU两方面阐述了H.264编码的并行优化方法。在基于CPU的并行优化方面,论文重点阐述了基于Intel CPU中的SSE指令的并行优化;在基于GPU优化方面,论文介绍了GPU的发展历史及其并行结构,CUDA程序的架构及工作原理。在此基础上,论文分析了H.264标准中各类运动估计算法的特点,得出了全搜索算法具有最大的并行化潜力的结论,并提出了基于搜索位置的并行全搜索算法。根据所提出的并行优化算法,本文分别使用基于SSE以及基于CUDA的方法对运动估计模块进行了并行化实现。测试结果表明:在Intel E5400的CPU及Geforce GT240的GPU上分别采用SSE和CUDA对运动估计算法进行优化,分别获得了2倍和8倍左右的性能提升。采用CUDA优化后还可使H.264的总体编码速度提高2倍以上。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景及研究意义1.2 本文结构安排第二章 SSE与CUDA并行架构2.1 基于SSE的SIMD架构2.2 GPU发展简史2.2.1 硬件T&L与固定流水线2.2.2 Shader与可编程流水线2.2.3 统一流处理器2.2.4 GPU架构的天然并行性2.3 CUDA简介2.3.1 CUDA硬件层级2.3.2 CUDA逻辑层级2.3.3 CUDA的限制与优化2.3.4 CUDA的语法规范第三章 H.264编码算法分析3.1 H.264编码流程概览3.1.1 基于分块的视频编码3.1.2 H.264的运动估计3.2 各类运动估计算法的比较3.2.1 全搜索以及快速全搜索3.2.2 快速运动估计算法3.3 各层次的并行可行性3.4 并行运动估计算法的缺陷第四章 基于CUDA的H.264并行编码优化4.1 并行全搜索4.1.1 基于SSE的优化4.1.2 基于CUDA的优化4.1.3 优化结果4.2 JM参考模型分析4.2.1 JM参考模型简介4.2.2 JM中的几个重要参数4.3 P帧与B帧的并行优化4.3.1 SAD运算的并行化4.3.2 Shared Memory优化4.3.3 IO优化4.3.4 B帧编码的并行优化4.4 实验结果4.4.1 实验环境4.4.2 数据有效性4.4.3 编码速度对比第五章 总结与展望参考文献致谢攻读硕士学位期间发表的论文
相关论文文献
本文来源: https://www.lw50.cn/article/d2900208352fbe08b0d87d0b.html