论文题目: 嵌入式可重构DSP体系结构研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 段然
导师: 樊晓桠
关键词: 可重构计算,处理器,配置,映射,加速比
文献来源: 西北工业大学
发表年度: 2005
论文摘要: 计算结构与应用算法的匹配性越好,其性能和计算效率也就越高,这就要求处理器能够根据应用的需要而重新构造系统结构。可重构计算兼有软件的灵活性和ASIC的优越性能,是处理器系统结构一个新的发展方向。而可重构技术和DSP处理器的结合也使得单DSP处理器性能有望得到很大提升。 本文以国家自然科学基金“可重构计算中控制配置研究”(编号60273088),国防“十五”预研课题(编号41308010307)和国防基础研究课题(编号k1800060504)为背景,对高性能可重构DSP处理器进行了深入研究。在完成了“控制增强型通用DSP处理器—龙腾D1”IP软核的基础上,系统研究了“龙腾DR”可重构DSP处理器模型和微系统结构,完成了仿真模型设计,仿真结果表明龙腾DR能够在多个DSP算法和应用领域中,提高单个DSP处理器的性能。 论文中主要工作和创新点如下: 1、在国防“十五”预研课题资助下,作为主要完成人之一,完成了具有自主知识产权的控制增强型通用DSP处理器软核—龙腾D1的设计工作。龙腾D1处理器软核以FPGA的方式通过了验证,并在第三方的MP3音频系统中获得应用。龙腾D1处理器软核映射到TSMC 0.25μm CMOS工艺下,主频超过150MHz,性能达到150M MAC,集成度为32万晶体管。 2、根据DSP应用的控制数据流图特点和可重构结构的适应性,提出了一种可重构DSP处理器模型——龙腾DR。根据数据流图所需地址产生流和数据计算流的不同,龙腾DR的地址产生单元和数据通路都可进行重构,提高了结构的适应性和性能。 3、根据龙腾DR处理器模型,提出了该模型的一种微体系结构,采用控制模式和重构模式间切换,显著减少了通信开销;与主/协处理器结构的REMARC相比,在4个DSP内核算法运行中,性能提高14.9%~48.4%。 4、基于粗粒度可重构结构所需配置信息少,重构开销小的特点,提出了将结构配置信息与计算数据混合放置的存储方案。四个算法内核计算中,在性能降低不到1%的代价下,免除了独立配置存储器和配置总线开销,大大节省了片上存储器和连线资源。 5、提出了一种自动映射算法Stretch&Shrink,该算法将多个DSP应用映射到龙腾DR上,功能单元利用率和存储器带宽利用率分别可达78.75%和80%。 6、采用国际常用内核算法FIR、FFT、矩阵乘、二维卷积程序,对本文提出的可重构龙腾DR处理器模型进行了仿真评价。测得龙腾DR相对于单DSP处理器的性能加速比为8.38~15.45。评价结果表明,龙腾DR能够高效地提高
论文目录:
摘要
ABSTRACT
目录
图索引
表索引
第一章 绪论
1.1 论文选题来源及背景
1.2 嵌入式系统
1.2.1 嵌入式系统特点与嵌入式处理器分类
1.3 DSP处理器应用领域与DSP应用特点
1.3.1 DSP处理器应用领域
1.3.2 DSP应用的特点
1.4 可重构计算
1.4.1 可重构计算概念
1.4.2 可重构计算常用术语
1.4.2.1 基本术语
1.4.2.2 耦合方式
1.5 嵌入式可重构DSP处理器
1.5.1 DSP应用与可重构计算
1.5.2 高性能嵌入式DSP处理器结构特点
1.5.3 嵌入式可重构DSP处理器
1.6 论文主要工作和创新点
1.7 论文的结构
第二章 国内外研究与发展
2.1 DSP处理器结构特点与发展
2.1.1 DSP处理器结构特点
2.1.2 DSP处理器与通用处理器
2.1.3 DSP处理器结构演进与现状
2.2 可重构计算的发展与现状
2.2.1 可重构计算的出现
2.2.2 国外研究发展与现状
2.3 国内研究现状
第三章 龙腾D1处理器内核设计
3.1 龙腾D1体系结构方案
3.2 龙腾D1指令集分析
3.2.1 多功能指令
3.2.2 龙腾D1处理器指令码
3.3 龙腾D1控制通路设计
3.3.1 内核流水线设计
3.3.2 程序序列器(PSQ)
3.3.3 数据地址发生器DAG
3.4 龙腾D1数据通路设计
3.4.1 内部总线结构
3.4.2 算术逻辑单元(ALU)
3.4.3 乘累加器(MAC)
3.4.3.1 功能介绍
3.4.3.2 累加器设计
3.4.4 桶型移位器(Shifter)
3.5 存储器结构
3.6 龙腾D1处理器低功耗设计
3.7 龙腾D1实现与验证
第四章 可重构DSP-龙腾DR研究
4.1 龙腾DR处理器模型
4.1.1 控制数据流图CDFG (Control Data Flow Graph)
4.1.2 可重构DSP模型——龙腾DR
4.1.3 数据通路重构粒度
4.1.4 可重构数据通路拓扑
4.1.5 与传统可重构结构的区别
4.2 龙腾DR微体系结构
4.2.1 龙腾DR工作模式
4.2.2 可重构处理单元RPU结构
4.2.3 地址产生单元AGU (Address Generation Unit)
4.2.4 指令集扩展
4.2.5 映射实例
第五章 龙腾DR重构机制与映射策略
5.1 配置/数据资源复用
5.1.1 龙腾DR的动态重构
5.1.2 配置/数据总线复用
5.1.2.1 配置总线方案
5.1.2.2 配置存储器组织
5.1.2.3 配置/数据总线复用
5.1.3 配置/数据的混合存放
5.1.3.1 存储器连接方式
5.1.3.2 存储器的组织
5.1.3.3 配置与数据混合存放
5.2 STRETCH&SHRINK映射策略研究
5.2.1 细粒度可重构结构映射
5.2.2 粗粒度可重构结构映射
5.2.3 循环流水
5.2.4 映射策略
第六章 龙腾DR仿真评价
6.1 龙腾DR处理器评价方法
6.2 龙腾DR处理器评价模型
6.3 加速比评价方法
6.4 内核算法执行性能分析
6.5 应用程序执行性能分析
6.5.1 无人机机载图像处理系统应用
第七章 结束语
7.1 本文所作的工作
7.2 关于进一步的研究
致谢
博士期间发表的论文和研究工作
参考文献
发布时间: 2007-03-29
参考文献
- [1].多媒体应用的高性能数字信号处理器功能部件结构设计研究[D]. 郑伟.浙江大学2003
- [2].存储控制系统性能优化技术研究[D]. 李文.中国科学院研究生院(计算技术研究所)2005