基于GPU的FIR滤波并行化算法的研究与实现

基于GPU的FIR滤波并行化算法的研究与实现

论文摘要

随着GPU (Graphic Processing Unit,图形处理器)创新性的并行计算体系结构的迅猛发展,GPU已经能够提供比当前主流CPU更为强大的并行计算能力及更大的存储访问带宽。与此同时,由于基于GPU的软件开发模型和开发工具的日臻完善,开发人员能够较容易地编写出高性能的并行应用程序。因此,越来越多的计算密集型应用系统被移植到GPU进行并行化处理,从而极大地提高应用系统的性能。而如何更为有效地并行化以及优化计算密集型应用,已经成为学术界和工业界广泛研究的热点问题。有限冲激响应(FIR, Finite Impulse Response)滤波器因其具有线性相位、精度高以及易于大规模集成等诸多优点而被广泛应用于数字信号处理领域。为了获得性能更为优异的滤波器,增加FIR滤波器的阶数是最为直接有效的方法。然而,随着FIR滤波器系数的增加,滤波处理所需的计算量也成倍增加,大大增加了处理时间。随着实时数字信号处理系统对于计算FIR滤波所需的处理延时要求越来越小,如何设计出计算性能优良和处理延时更小的FIR滤波算法就成为一个极具价值的研究课题。本文基于CUD A (Computer Unified Device Architecture,统一计算设备架构)平台,利用GPU实现信号的高速滤波具有重要的理论和现实意义。本文将GPU作为加速器为基于CPU的通用计算平台提供计算能力补充,结合Overlap-save的方法,将时限较长的输入信号划分成子块后再进行滤波,提出了算法中可并行实现的部分,给出了具体的实现过程。分析影响计算性能的瓶颈,针对数据传输的大量耗时,通过异步并行执行的方法优化CUDA程序。在Interl(R) Core(TM) i72.80GHz CPU和GTX465GPU上完成了基于GPU的并行FIR滤波算法的实现,进行了不同输入信号规模的GPU和CPU算法的测试,给出了运行时间,及优化前和优化后的加速比和浮点乘加运算能力,优化后的加速比最高可达到89.7,平均浮点乘加运算能力可达20Gfina/s。并结合GPU并行计算本身的结构特点,通过实验分别对Geforce GTX465的I/O带宽、延迟以及SM个数对算法计算性能的影响进行了分析。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 本文的组织结构
  • 第2章 GPU通用计算理论和CUDA简介
  • 2.1 GPU通用计算概述
  • 2.1.1 GPU的发展历程
  • 2.1.2 从GPGPU到CUDA
  • 2.2 CUDA简介
  • 2.2.1 CUDA基础
  • 2.2.2 CUDA的软件体系
  • 2.3 GPU的硬件架构
  • 2.4 CPU与GPU的比较
  • 2.5 本章小结
  • 第3章 FIR数字滤波器的原理
  • 3.1 数字滤波器简介
  • 3.2 FIR数字滤波器理论
  • 3.3 FIR滤波器的设计方法
  • 3.3.1 窗函数法简介
  • 3.3.2 窗函数法的设计步骤
  • 3.4 本章小结
  • 第4章 基于GPU实现FIR滤波
  • 4.1 概述
  • 4.2 基于Overlap-save方法的FIR滤波并行算法设计
  • 4.2.1 算法分析
  • 4.2.2 CPU与GPU的任务划分
  • 4.2.3 Gird和Block维度设计
  • 4.2.4 FIR滤波并行算法的实现
  • 4.2.5 Kernel执行中算法的并发处理
  • 4.3 FIR滤波并行算法的正确性验证
  • 4.3.1 基于matlab设计512阶FIR低通滤波器
  • 4.3.2 基于GPU实现的FIR滤波的结果
  • 4.4 对于FIR滤波并行算法的优化
  • 4.4.1 异步并行执行
  • 4.4.2 优化过程
  • 4.5 本章小结
  • 第5章 FIR滤波并行算法的性能分析
  • 5.1 实验平台
  • 5.2 测试方法
  • 5.3 算法的性能分析
  • 5.3.1 加速比
  • 5.3.2 I/O带宽的测定
  • 5.3.3 浮点乘加运算能力
  • 5.3.4 Block与SM的关系对计算性的影响
  • 5.3.5 延迟
  • 5.4 本章小结
  • 第6章 总结和展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].面向过程的任务并行化设计方法[J]. 计算机系统应用 2015(09)
    • [2].“地理计算并行化”专辑导言[J]. 地球信息科学学报 2015(05)
    • [3].“地理计算并行化”专辑征稿[J]. 地球信息科学学报 2014(06)
    • [4].迎接并行化的明天[J]. 软件世界 2009(06)
    • [5].并行化改进遗传算法的FPGA高速实现方法[J]. 信息与电子工程 2012(01)
    • [6].设计结合建造——我国建筑运作模式的“并行化”操作研究[J]. 建筑学报 2019(04)
    • [7].图染色算法的并行化[J]. 电脑编程技巧与维护 2018(03)
    • [8].交通网络微观仿真并行化实现方法[J]. 系统管理学报 2014(04)
    • [9].有限差分法的并行化计算实现[J]. 电脑知识与技术 2008(07)
    • [10].有限差分法的并行化计算实现[J]. 微型电脑应用 2008(05)
    • [11].装箱问题近似算法的并行化研究[J]. 中国科技信息 2009(17)
    • [12].面向场景的人群疏散并行化仿真[J]. 系统仿真学报 2008(18)
    • [13].C形状分析在函数和路径层次上的并行化[J]. 电子技术 2015(08)
    • [14].提升小波并行化处理研究[J]. 价值工程 2011(34)
    • [15].聚类分析的并行化实现技术研究[J]. 电子设计工程 2015(02)
    • [16].太赫兹通信中高速数字信号处理并行化算法[J]. 太赫兹科学与电子信息学报 2017(06)
    • [17].人体姿势估计中随机森林训练算法的并行化[J]. 计算机应用研究 2014(05)
    • [18].基于深度学习的文本情感分析并行化算法[J]. 西南交通大学学报 2019(03)
    • [19].自优化转导支持向量机并行化[J]. 计算机应用 2017(S2)
    • [20].基于海量日志的入侵检测并行化算法研究[J]. 现代电子技术 2016(19)
    • [21].电力通信大数据并行化聚类算法研究[J]. 电子技术应用 2018(05)
    • [22].全景监控视频并行化处理[J]. 软件导刊 2015(11)
    • [23].基于MapReduce的主成分分析算法研究[J]. 计算机科学 2017(02)
    • [24].基于Spark平台的热点话题发现算法并行化研究[J]. 软件导刊 2016(09)
    • [25].云平台下全维度电力设备监测数据并行化处理技术[J]. 电测与仪表 2020(09)
    • [26].基于Spark的分布式大数据并行化聚类方法研究[J]. 湖北第二师范学院学报 2019(08)
    • [27].基于ATM并行化采样优化算法的研究[J]. 长春师范大学学报 2018(06)
    • [28].面向非规则Doacross循环的反馈式编译框架[J]. 信息工程大学学报 2018(01)
    • [29].基于Geant4的射线探测仿真并行化研究[J]. 核电子学与探测技术 2011(11)
    • [30].不同操作平台上的MCNP并行化计算[J]. 中国原子能科学研究院年报 2009(00)

    标签:;  ;  

    基于GPU的FIR滤波并行化算法的研究与实现
    下载Doc文档

    猜你喜欢