Print

H.264视频编码算法的并行优化

论文摘要

现有的视频编码标准均采用基于宏块的编码模式,算法中所引入的运动估计机制虽然带来了更高的压缩比,但却因其庞大的计算量而占据了绝大部分的编码时间。为了提高编码速度,人们一直在两个方向上不断努力:一是研究新的运动估计算法,二是现有算法进行并行化。本文重点研究了H.264运动估计的并行优化问题。本文主要从CPU和GPU两方面阐述了H.264编码的并行优化方法。在基于CPU的并行优化方面,论文重点阐述了基于Intel CPU中的SSE指令的并行优化;在基于GPU优化方面,论文介绍了GPU的发展历史及其并行结构,CUDA程序的架构及工作原理。在此基础上,论文分析了H.264标准中各类运动估计算法的特点,得出了全搜索算法具有最大的并行化潜力的结论,并提出了基于搜索位置的并行全搜索算法。根据所提出的并行优化算法,本文分别使用基于SSE以及基于CUDA的方法对运动估计模块进行了并行化实现。测试结果表明:在Intel E5400的CPU及Geforce GT240的GPU上分别采用SSE和CUDA对运动估计算法进行优化,分别获得了2倍和8倍左右的性能提升。采用CUDA优化后还可使H.264的总体编码速度提高2倍以上。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及研究意义
  • 1.2 本文结构安排
  • 第二章 SSE与CUDA并行架构
  • 2.1 基于SSE的SIMD架构
  • 2.2 GPU发展简史
  • 2.2.1 硬件T&L与固定流水线
  • 2.2.2 Shader与可编程流水线
  • 2.2.3 统一流处理器
  • 2.2.4 GPU架构的天然并行性
  • 2.3 CUDA简介
  • 2.3.1 CUDA硬件层级
  • 2.3.2 CUDA逻辑层级
  • 2.3.3 CUDA的限制与优化
  • 2.3.4 CUDA的语法规范
  • 第三章 H.264编码算法分析
  • 3.1 H.264编码流程概览
  • 3.1.1 基于分块的视频编码
  • 3.1.2 H.264的运动估计
  • 3.2 各类运动估计算法的比较
  • 3.2.1 全搜索以及快速全搜索
  • 3.2.2 快速运动估计算法
  • 3.3 各层次的并行可行性
  • 3.4 并行运动估计算法的缺陷
  • 第四章 基于CUDA的H.264并行编码优化
  • 4.1 并行全搜索
  • 4.1.1 基于SSE的优化
  • 4.1.2 基于CUDA的优化
  • 4.1.3 优化结果
  • 4.2 JM参考模型分析
  • 4.2.1 JM参考模型简介
  • 4.2.2 JM中的几个重要参数
  • 4.3 P帧与B帧的并行优化
  • 4.3.1 SAD运算的并行化
  • 4.3.2 Shared Memory优化
  • 4.3.3 IO优化
  • 4.3.4 B帧编码的并行优化
  • 4.4 实验结果
  • 4.4.1 实验环境
  • 4.4.2 数据有效性
  • 4.4.3 编码速度对比
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/d2900208352fbe08b0d87d0b.html