论文摘要
近年来,以密集数据并行计算为特征的通信和多媒体技术不断涌现,对处理器性能提出了更高的要求。阵列处理器,因其具有强大的数据并行计算能力、较好的灵活性、较低的功耗和较小的面积,成为嵌入式视频领域的焦点。阵列处理器根据运算单元阵列的互连结构,主要分成方形阵列和线性阵列两种。方形阵列采用二维互连网络,运算单元的通信开销小,易于二维图像的映射,缺点是,互连结构复杂,不易于扩展,导致吞吐率难以提高。线性阵列采用一维互连结构,结构简单,易于扩展,吞吐率高,缺点是通信开销较大。本文借鉴线性阵列和方形阵列的优点,设计了一种可重构线性阵列处理器架构RLAP,它在保留了传统线性阵列吞吐率高和易于扩展的优点的同时,减小了运算单元之间的通信开销。它可以针对视频编码标准中三种大小的数据块,通过指令配置互连结构,工作在三种块模式下,更有利于视频编码算法的映射。本文详细介绍了RLAP的系统组成和并行技术,使用Verilog语言完成系统的RTL级设计,对一些常用视频压缩算法进行映射和仿真,通过逻辑综合,对系统的面积和功耗进行评估,实验数据表明可重构线性互连结构提升了系统的性能,而且没有带来过多的面积和功耗开销,RLAP依然具有线性阵列处理器低功耗和面积小的优点。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 阵列处理器简介1.2.1 阵列处理器的发展历史1.2.2 阵列处理器的分类1.2.3 研究现状及分析1.3 研究目标和主要内容1.4 论文的章节安排第二章 并行计算技术2.1 并行计算的简介2.2 并行计算的功能分类2.2.1 基本并行结构2.2.2 原始递归和最小化2.2.3 三种并行分类2.3 整合并行体系结构2.3.1 整合并行结构的分类2.3.2 两种整合并行结构的互补2.4 本章小结第三章 可重构线性阵列处理器的系统设计3.1 系统简介3.2 系统的各组成部分3.2.1 主控处理器CP3.2.2 输入输出控制器IOC3.2.3 处理单元阵列PE Array3.2.4 输入输出寄存器阵列IORA3.2.5 可重构线性互连结构RLIA3.2.6 第一有效选择模块FRT3.2.7 缩减树模块RDU3.3 并行技术3.3.1 存储器访问方式3.3.2 四种并行方式3.4 编程模型3.4.1 扩展的数据并行C 语言3.4.2 编程实例3.5 系统工作步骤3.6 本章小结第四章 可重构线性阵列处理器的硬件设计4.1 指令集结构与寄存器4.1.1 R 型指令结构4.1.2 I 型指令结构4.1.3 J 型指令结构4.1.4 寄存器4.2 主控制器CP 的流水线设计4.2.1 流水线结构4.2.2 存储器设计4.2.3 数据冒险和解决方法4.2.4 控制冒险和解决方法4.2.5 存储器访问冲突和流水线暂停4.3 处理单元PE 的流水线设计4.3.1 流水线结构4.3.2 流水线冒险和解决方法4.3.3 数据计算和传输的并行设计4.4 流水线耦合设计4.5 互连选择模块设计4.6 第一有效选择模块设计4.7 缩减树模块设计4.8 系统总线及存储器接口4.8.1 系统总线4.8.2 存储器接口4.9 本章小结第五章 常用算法映射5.1 矩阵转置5.1.1 传统线性阵列的算法映射5.1.2 可重构线性阵列的算法映射5.1.3 两种架构的算法映射对比5.2 二维离散余弦变换5.2.1 算法简介5.2.2 算法映射5.3 整数变换5.3.1 算法简介5.3.2 算法映射5.4 绝对差求和5.4.1 算法简介5.4.2 传统线性阵列算法映射5.4.3 可重构线性阵列算法映射5.4.4 两种架构的算法映射对比5.5 本章小结第六章 实验仿真和性能评估6.1 实验环境6.2 指令集的仿真与验证6.3 数据输入输出仿真6.4 相应算法的性能评估6.4.1 矩阵转置6.4.2 二维离散余弦变换6.4.3 整数变换6.4.4 绝对差求和6.5 综合6.6 本章小结第七章 总结与展望7.1 主要工作与成果7.2 后续研究工作参考文献致谢攻读硕士学位期间已发表或录用的论文附件
相关论文文献
标签:密集数据并行计算论文; 可重构论文; 线性阵列论文; 视频编码论文;
面向密集数据并行计算的可重构线性阵列处理器架构的设计
下载Doc文档