论文摘要
随着电视广播数字化工作的深入,客户对台标插入设备的性能价格比提出了更高的要求。现有台标插入系统单台设备处理能力较低,性价比不能满足市场竞争的要求。GPU具有数百个甚至更多的流处理器,拥有强大的并行处理能力。使用GPU可以有效地提高台标插入系统的单台设备处理能力,提高性价比,增强设备的市场竞争力。本文介绍了如何通过CUDA并行运算技术,利用显卡上的GPU加速数字电视台标插入系统。要实现这一目的,需要将部分CPU程序移植转换为GPU程序,并使两者能够高效协同工作。为此本文讨论了依据CPU和GPU计算能力的优势不同,确定程序移植的范围的方法。介绍了兼顾实时性要求和GPU流处理器负载充分要求确定GPU程序的处理粒度的方法。介绍了在兼顾效率与灵活性的原则下,定义CPU程序和GPU程序之间的接口、划分程序模块的过程。讨论了解决移植过程遇到的如GPU程序语法兼容性、内存指针处理和编译器的代码体积限制等技术问题的方法。介绍了在程序优化中使用负载分配调整,数据传递方式调整等方法提高程序性能的过程。通过GPU加速技术,可以使原有系统在不增加硬件成本的情况下,大约达到原有系统2倍以上的处理能力,有效地降低了成本,提高了竞争优势。
论文目录
摘要ABSTRACT第一章 引言1.1 课题背景及意义1.1.1 数字电视的迅速发展1.1.2 台标插入的作用1.1.3 问题的提出和解决方案1.2 国内外研究现状1.2.1 GPU 并行计算的应用1.2.2 GPU 运算的发展历史1.2.3 其它公司台标插入系统1.3 课题研究的主要内容1.4 论文结构安排第二章 软件产品的现状2.1 项目的历史2.2 系统的工作原理及其特点2.3 项目的后续改进2.4 项目适合使用CUDA 技术加速第三章 系统设计3.1 移植范围的确定3.1.1 台标插入系统主要处理流程3.1.2 移植的原则和范围3.2 CUDA 程序的处理粒度3.2.1 CUDA 程序的基本调度原则3.2.2 MPEG2 的结构和处理颗粒度的确定3.3 接口的定义与模块的划分3.3.1 CUDA 程序与原有代码结合的形式3.3.2 调用接口的定义3.3.3 模块的划分3.3.4 数据的交换和线程协作第四章 代码移植4.1 移植工作的基本步骤4.2 移植过程中遇到CUDA 程序的语法兼容问题4.2.1 函数指针问题4.2.2 宏定义的问题4.2.3 全局函数问题在同一个文件的问题4.3 CUDA 编译器的局限性问题4.3.1 程序优化4.3.2 跳转减小体积4.3.3 分多个DLL4.4 内存和内存指针的调整4.4.1 数据初始化4.4.2 调整内存指针第五章 代码调试5.1 调试环境的搭建5.1.1 两种调试方式5.1.2 迁移SDK 版本5.1.3 调试环境的要求与设置5.2 调试过程5.2.1 程序输出5.2.2 对比调试5.2.3 多线程调试5.2.4 异常处理5.3 编译问题5.3.1 优化开关的影响5.3.2 编译选项的影响第六章 系统性能优化6.1 CUDA 执行的时间统计方法6.1.1 使用cutil.h 中函数的统计方法6.1.2 time.h 中的clock 函数的统计方法6.1.3 事件event 的统计方法6.2 通过负载分配调整优化性能6.3 数据传递和编译优化6.3.1 数据传递优化6.3.2 优化编译选项6.4 运行效率与比较第七章 总结回顾参考文献发表论文和参加科研情况说明致谢
相关论文文献
- [1].万能插座早该扔了[J]. 百姓生活 2017(05)
- [2].拉丁考牌必备“粮草”(16) 斗牛舞(5)[J]. 尚舞 2009(07)
- [3].数说[J]. 标准生活 2014(12)
- [4].6063铝合金型材插箱的设计与验证[J]. 电子机械工程 2014(01)
- [5].直纹面叶轮插铣加工关键技术[J]. 计算机集成制造系统 2010(01)
- [6].基于压缩域的快速台标插入算法[J]. 电视技术 2009(04)
标签:数字电视论文; 台标插入论文; 并行运算论文; 编码论文; 解码论文;
使用CUDA技术提高数字电视台标插入系统效率的研究与开发
下载Doc文档