针对不规则应用的图形处理器资源调度关键技术研究

针对不规则应用的图形处理器资源调度关键技术研究

论文摘要

当前,图形处理器(GPU)广泛应用在图形图像处理、科学计算、多媒体应用、数据挖掘、金融计算等众多科学和工程领域。GPU采用单指令多数据(SIMD)架构,非常适合规则的应用程序。但是,未来应用程序中普遍包含不规则的计算和访存模式,这些模式极大地限制了GPU的资源利用效率和性能提升。不规则应用程序的特点体现为任务分配不均衡、控制流程分支多、访存地址分布不规则并且不能静态预测以及数据的时间和空间局部性差等,如何提高这些不规则应用的运算性能成为当前GPU计算领域亟待解决的问题,本文针对GPU应用中的不规则模式展开算法和体系结构的研究,主要贡献包括如下四个方面:(1)分析了三种应用广泛的不规则模式的性能瓶颈,提出了针对这些模式的专有优化算法。其中,针对稀疏矩阵向量乘问题,提出了数据填充的方法消除不规则的访存;针对字符串匹配问题,分别提出了数据段划分和数据重排的方法改善任务分配不均衡和消除不规则的访存;针对QR分解问题,提出了流水线式并行的方法,极大地提高了算法的并行度。与多核CPU相比,经过优化处理的计算模式及其应用能够取得数十倍以上的性能改善。(2)系统分析了众多不规则应用程序在GPU上的执行特点,指出了GPU架构在处理不规则应用时的不足。一方面,不规则应用中的各个线程访问内存时,访存延时差异大,不均匀的内存访问延时阻塞计算单元的运行,造成了计算单元使用效率低;另一方面,当前的缓存管理方法简单,不能够适应众多线程访存不规则的特性,因此,数据复用率差,缓存命中率低。(3)分别提出了基于有效地址优先级的缓存管理算法(EABP)和基于分支特性的内存调度算法(DAMS),这两种架构优化技术提高缓存命中率(20%)同时减少不均匀的访存延时,能够取得30%以上的系统性能改善。(4)针对流处理计算模式中任务分配不平衡的问题,提出了一种资源动态分配的硬件调度机制。该机制通过实时监测各个任务的计算量,动态地调节分配给各个任务的计算资源,提高不规则任务的计算资源利用率,并且利用任务间数据流动的特性优化了缓存设计。实验结果显示与现有GPU的成熟调度算法相比,该调度算法能获得20%以上的系统性能提升。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 主要符号对照表
  • 第1章 引论
  • 1.1 论文背景
  • 1.2 图形处理器的发展变迁
  • 1.3 图形处理器的硬件架构和编程模型
  • 1.3.1 硬件架构
  • 1.3.2 编程模型
  • 1.4 不规则应用的特征和挑战
  • 1.4.1 不规则计算
  • 1.4.2 不规则访存
  • 1.5 本文的内容及组织
  • 第2章 相关工作
  • 2.1 优化技术
  • 2.1.1 基于线程束的调度
  • 2.1.2 基于存储空间的管理
  • 2.1.3 基于任务的调度
  • 2.2 仿真器平台
  • 第3章 针对不规则模式的算法优化
  • 3.1 本章引论
  • 3.2 SMVP 算法优化和性能评估
  • 3.2.1 SMVP 介绍
  • 3.2.2 算法优化
  • 3.2.3 SMVP 性能评估
  • 3.2.4 静态时序分析性能评估
  • 3.2.5 共轭梯度算法性能评估
  • 3.2.6 BFS 的实现和性能评估
  • 3.3 字符串匹配算法优化和性能评估
  • 3.3.1 字符串匹配算法介绍
  • 3.3.2 算法优化
  • 3.3.3 性能评估
  • 3.4 QR 分解算法优化和性能评估
  • 3.4.1 QR 分解算法介绍
  • 3.4.2 算法优化
  • 3.4.3 性能评估
  • 3.5 本章小结
  • 第4章 针对不规则访存的存储资源调度技术
  • 4.1 本章引论
  • 4.2 GPU 程序统性能的量化分析
  • 4.2.1 末级缓存性能与系统性能关系
  • 4.2.2 访存请求地址分布
  • 4.2.3 访存分支分布
  • 4.3 基于有效地址优先级的缓存管理策略
  • 4.3.1 优先级的赋值和比较
  • 4.3.2 优先级的周期性更新
  • 4.4 基于分支特性的内存调度策略
  • 4.5 硬件开销评估
  • 4.6 实验结果与讨论
  • 4.6.1 有效地址优先级对于性能的影响
  • 4.6.2 缓存管理策略中的动态更新机制
  • 4.6.3 缓存管理策略对于缓存和系统性能的影响
  • 4.6.4 内存调度策略对于性能的影响
  • 4.7 本章小结
  • 第5章 面向流计算的资源动态分配技术
  • 5.1 本章引论
  • 5.2 针对流计算的性能量化分析
  • 5.2.1 仿真环境和测试程序
  • 5.2.2 程序性能与流多处理器数量的关系
  • 5.2.3 多任务并发执行对于性能的影响
  • 5.3 支持双任务并发执行的动态调度机制
  • 5.3.1 计算资源分配
  • 5.3.2 缓存资源分配
  • 5.3.3 硬件开销评估
  • 5.4 实验结果与讨论
  • 5.4.1 性能总体评估
  • 5.4.2 性能分解
  • 5.4.3 内存访问次数
  • 5.4.4 多任务并发执行
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 全文工作总结
  • 6.2 本文局限性和未来研究展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].Blackmagic Design发布图形处理器Blackmagic eGPU[J]. 影视制作 2018(08)
    • [2].时尚新品[J]. 世界博览 2016(22)
    • [3].移动图形处理器的现状、技术及其发展[J]. 计算机辅助设计与图形学学报 2015(06)
    • [4].MathWorks为MATLAB提供GPU支持[J]. 电信科学 2010(10)
    • [5].MathWorks为MATLAB提供GPU支持[J]. 电子与电脑 2010(10)
    • [6].MathWorks为MATLAB提供GPU支持[J]. 电信科学 2010(S2)
    • [7].图形处理器的渲染效果与时间差异性分析[J]. 中国新通信 2019(05)
    • [8].基于图形处理器的形态学重建系统[J]. 计算机应用 2019(07)
    • [9].基于图形处理器的相位校正稳像[J]. 光电工程 2011(08)
    • [10].MathWorks为MATLAB提供GPU支持[J]. 中国电子商情(基础电子) 2010(10)
    • [11].通用图形处理器功耗估算模型[J]. 计算机工程 2017(02)
    • [12].图形处理器中段操作的设计与实现[J]. 信息技术 2017(09)
    • [13].基于通用计算图形处理器的电磁场有限元计算加速方法探讨[J]. 科研信息化技术与应用 2010(04)
    • [14].异构多核图形处理器存储系统设计与实现[J]. 电子技术应用 2013(05)
    • [15].图形处理器中顶点染色仿真器的设计[J]. 数字技术与应用 2012(12)
    • [16].之友严选 摄影好物[J]. 摄影之友 2020(06)
    • [17].基于可编程图形处理器的骨骼动画算法及其比较[J]. 计算机工程与设计 2008(21)
    • [18].图形处理器加速算法在复杂高层结构非线性响应分析中的应用[J]. 工程力学 2018(11)
    • [19].计算机图形处理器加速的光学航空影像正射校正[J]. 光学精密工程 2016(11)
    • [20].数字家电元器件[J]. 世界电子元器件 2009(03)
    • [21].产业信息[J]. 单片机与嵌入式系统应用 2013(12)
    • [22].图形处理器中平面裁剪算法并行化的设计与验证[J]. 电脑知识与技术 2014(03)
    • [23].国内要闻[J]. 中国集成电路 2012(07)
    • [24].产品推介[J]. 电子产品世界 2012(09)
    • [25].基于图形处理器的增强现实自然特征注册算法[J]. 南京理工大学学报 2011(04)
    • [26].BMD发布Blackmagic eGPU Pro[J]. 影视制作 2018(11)
    • [27].多图形处理器上Lattice-Boltzmann方法的加速[J]. 计算机辅助设计与图形学学报 2010(11)
    • [28].图形处理器通用计算的实现与验证[J]. 计算机工程与应用 2009(33)
    • [29].基于图形处理器的涪江中段流域降雨汇流模拟方法研究[J]. 成都信息工程大学学报 2019(03)
    • [30].CAD图形处理器的云处理[J]. 工业设计 2013(02)

    标签:;  ;  ;  ;  ;  

    针对不规则应用的图形处理器资源调度关键技术研究
    下载Doc文档

    猜你喜欢