论文摘要
在某些视频监控场合,需要在感兴趣目标进入视野时进行高分辨率图像抓拍。最好在尽量廉价的同一硬件平台上实现视频实时压缩和图像准实时压缩这两部分功能。为了提高压缩比和解码端解码器共享,本文选择H.264 I帧编码器作为图像压缩格式。本文优化了DM6437 DSP上的X264 I帧编码器,使其满足准实时性要求。本文首先比较了目前比较先进或流行的图像压缩格式,阐述H.264 I帧对JPEG和JPEG2000的优势;然后详细介绍了DM6437 DSP硬件架构;最后针对编码器工作流程和DSP架构特点从全新角度提出一系列优化手段,并实现。本文创造性的提出了以视频压缩标准帧内压缩模式为大尺寸静态图像压缩标准,很好的解决了速度与资源系消耗的折中,使在同一硬件平台上运行视频实时编码器和大尺寸图像准实时编码器变得容易,同时便于实现解码端视频与图像的解码器共享。本文提出并采用了对DSP上算法优化与以往理论不同角度的理解,对其他算法优化工作也有一定的帮助。经过本文中提到的手段优化, 2048x1024的样本图像压缩时间由26.3秒缩短为5.4秒。且可以在保证图像清晰的前提下提高量化参数(QP),进一步提高速度。准实时目标达成。这说明本文对算法优化的理解是正确而有效的。
论文目录
摘要Abstract1 引言2 H.264 帧内压缩格式2.1 目前流行压缩格式比较2.1.1 JPEG 压缩原理2.1.2 JPEG2000 压缩原理2.1.3 H.264I 帧编码原理2.1.3.1 数据压缩2.1.3.2 抗误码抗丢包特性2.1.3.3 接收端De-block 滤波器2.2 JPEG、JPEG2000、H.264 Intra 编码器比较2.2.1 从编码器结构上比较2.2.2 从使用技术上比较2.2.3 从实测性能上比较2.3 比较结论2.4 H.264 Intra 开源编码器选择3 TI TMS320DM6437 数字信号处理器3.1 TMS320DM6437 CPU 构成3.1.1 综述3.1.2 DSP CPU 核系统组成及基本功能3.1.3 运算单元、数据总线、寄存器堆间数据通路3.1.4 C64x+核硬件流水线3.1.5 指令与执行单元映射3.1.6 指令运行周期统计3.1.7 分级存储结构和 Cache 系统3.1.7.1 DSP 分级存储结构3.1.7.2 Cache 工作原理3.2 C64x+核上程序运行原理3.2.1 TI 编译器工作过程3.2.1.1 编译3.2.1.2 连接3.2.1.3 分段3.2.1.4 地址映射3.2.2 特殊存储器空间:堆(Heap)和栈(Stack)3.2.2.1 堆3.2.2.2 栈4 H.264 Intra mode 在DM6437 上的优化4.1 传统算法优化手段4.1.1 传统算法优化的依据4.1.2 传统算法优化基本工序4.1.3 传统算法优化的弊端4.2 本文提出的新算法优化思想4.2.1 算法总体优化思想---资源平衡4.2.2 通用DSP 优化手段4.2.2.1 运算需求与运算单元平衡4.2.2.2 针对指令集写程序4.2.2.3 尽量保持软件流水连续4.2.2.4 内部和外部数据总线读写速度平衡4.2.2.5 数据的输送节奏与程序运行需求协调4.2.2.6 Program cache/ram 配置大小与代码量平衡4.2.2.7 Data cache/ram 配置大小与常用数据块大小和数量相平衡4.2.2.8 数据使用频繁程度与存放位置相对应4.2.2.9 使用 Profile 工具4.2.2.10 使代码风格与优化手段相对应4.2.2.11 线性汇编优化4.2.2.12 使用内联函数4.3 针对 H.264 I 帧编码的优化4.3.1 程序移植4.3.1.1 移植手段4.3.1.2 移植结果4.3.2 程序流程与内容分析4.3.3 针对性重点优化手段和策略4.3.3.1 重点优化循环4.3.3.2 优化数据存放5 结果验证5.1 测试样本选择5.2 编码参数设置5.3 优化前后速度比较5.4 正确性验证5.5 QP 余量测试6 结论参考文献发表文章目录致谢
相关论文文献
标签:算法优化论文;
基于TI DM6437的H.264 I帧编码器算法优化
下载Doc文档