DSP高效片内二级Cache控制器的设计与实现

DSP高效片内二级Cache控制器的设计与实现

论文摘要

数字信号处理器(DSP)在近年来得到广泛的发展及应用。“Cache+RAM”的存储结构已经成为高性能DSP设计中不可或缺的技术之一。二级Cache控制器的设计是“两级Cache+RAM”存储结构中的关键环节。如何设计和实现一个正确、高效同时又满足高频要求的二级Cache控制器是一个值得研究的问题。FT-CXX是我们自主研发中的一款高性能定点DSP,采用超长指令字(VLIW)技术,一拍内最多可以发射8条指令。预期CPU频率600MHz,外设频率300MHz,二级Cache(L2)的总容量1MB。本文对其中的L2控制器的设计和实现技术进行了研究,主要工作和贡献集中体现在以下几个方面:首先,分析了一般的Cache的设计方法,全面考察了主流DSP芯片中Cache的性能要求和实现技术,设计实现了FT-CXX L2的Cache/SRAM结构,确定了L2数据体、Tag体的结构及地址访问规则,设计实现了L2Cache的映象规则、替换算法、写策略等。其次,针对L2存储容量大、存储体只能支持CPU频率一半的事实,采取措施优化对一级Cache(L1D和L1P)缺失的处理。1)设计了缺失流水线,理想情况下平均每个L1的缺失代价只有两拍;2)在L1D和L2之间设计了一个宽度为64bit,深度为4且支持写合并的L1D写缺失缓冲队列,有效地减少了L1D写缺失的等待时间;3)提出了跨边界访问问题的解决方案,该方案具有效率高、硬件开销小且不会增加编译器的额外负担等特点。再次,设计并实现了一种高效的L2 SRAM的EDMA访问的处理机制。该机制充分挖掘了EDMA访问潜在的并行性,综合采用了EDMA请求猝发(可以连续发8个读请求,4个写请求)、侦听和数据发送处理流水化、基于侦听历史的侦听次数减少、基于旁路和归并机制的L2数据体访问的削减等技术,使EDMA的传输效率大大提高,平均访问一个数据只需要2-3拍,和一般的串行通路相比,加速比在2.0以上。最后,设计并实现了高效的数据一致性维护机制。一方面提供了丰富的Cache控制寄存器操作,另一方面对侦听和数据写回进行了分类处理。实验结果表明,该机制使系统典型请求的开销降低了10%以上。此外,本文对以上设计进行了较为系统地验证,并进行了逻辑综合和优化,使其在SMIC 0.13 um工艺下满足与一级Cache的接口部分工作频率为600MHz,内部的工作频率为300MHz的要求。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • §1.1 DSP芯片概述
  • 1.1.1 DSP的结构特点
  • 1.1.2 DSP的发展历程
  • 1.1.3 DSP的发展趋势
  • §1.2 DSP片内存储体系结构
  • 1.2.1 DSP存储结构的发展现状与趋势
  • 1.2.2 DSP片内Cache技术的重要性和发展要求
  • §1.3 相关研究
  • §1.4 课题的来源、目标及研究意义
  • §1.5 本文所做的工作
  • §1.6 论文的组织结构
  • 第二章 FT-CXX的存储结构
  • §2.1 FT-CXX的总体结构
  • §2.2 FT-CXX的片内存储子系统
  • §2.3 FT-CXXL2的整体结构及参数
  • 2.3.1 FT-CXXL2的数据体
  • 2.3.2 FT-CXXL2的Tag体
  • 2.3.3 FT-CXXL2的映象规则
  • 2.3.4 FT-CXXL2的替换算法
  • 2.3.5 FT-CXXL2的写策略
  • §2.4 本章小结
  • 第三章 L2对一级Cache读写缺失的高效处理机制
  • §3.1 L1读写缺失流水化处理
  • 3.1.1 读写失效流水问题的提出
  • 3.1.2 缺失流水线整体数据通路
  • 3.1.3 L2数据体和Tag体的控制
  • 3.1.4 "尽力流水"的流水线设计方法
  • 3.1.5 缺失流水线的详细设计
  • §3.2 L1D写缺失buffer及写合并处理
  • 3.2.1 L1D写缺失buffer设立的必要性
  • 3.2.2 写合并处理
  • 3.2.3 L1D写缺失缓冲和写合并的具体实现
  • §3.3 跨边界读写处理机制的实现策略
  • 3.3.1 跨边界问题出现的背景
  • 3.3.2 解决跨边界问题的一般办法
  • 3.3.3 跨边界读和跨边界写的操作流程
  • 3.3.4 支持跨边界访问的L2设计
  • §3.4 性能分析
  • 3.4.1 缺失流水处理的效率
  • 3.4.2 L1D写缺失缓冲的效率
  • 3.4.3 跨边界访问策略的效率分析
  • §3.5 本章小结
  • 第四章 L2对EDMA访问片内SRAM的高效实现机制研究
  • §4.1 EDMA读L2 SRAM的处理机制
  • 4.1.1 EDMA读L2 SRAM的一般处理流程
  • 4.1.2 侦听和发送的流水化处理
  • 4.1.3 基于侦听历史的侦听次数减少
  • 4.1.4 基于旁路和归并机制的L2数据体访问的削减
  • §4.2 EDMA写L2 SRAM的处理机制
  • 4.2.1 EDMA写L2 SRAM的一般处理流程
  • 4.2.2 EDMA写操作的合并处理
  • §4.3 EDMA访问L2 SRAM的效率分析
  • §4.4 本章小结
  • 第五章 高效数据一致性的维护与实现
  • §5.1 L2控制寄存器
  • 5.1.1 L2控制寄存器简介
  • 5.1.2 L2控制寄存器操作
  • 5.1.3 L2控制寄存器行操作的原子性维护
  • §5.2 数据侦听及写回的高效实现机制研究
  • 5.2.1 侦听的处理
  • 5.2.2 L1D写回数据的分类处理机制
  • §5.3 效率分析
  • §5.4 本章小结
  • 第六章 L2部件的验证及综合优化
  • §6.1 L2的验证
  • 6.1.1 验证方法及验证策略
  • 6.1.2 L2验证的实施
  • §6.2 L2的综合优化
  • 6.2.1 综合的方法及综合策略
  • 6.2.2 L2综合的过程及结果
  • §6.3 本章小结
  • 第七章 总结及工作展望
  • §7.1 论文总结
  • §7.2 工作展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].面向替换延迟隐藏的Cache空间预约技术[J]. 航空计算技术 2020(03)
    • [2].IO dependent SSD cache allocation for elastic Hadoop applications[J]. Science China(Information Sciences) 2018(05)
    • [3].基于预取的Cache替换策略[J]. 微电子学与计算机 2017(01)
    • [4].位置信息与替换概率相结合的多核共享Cache管理机制[J]. 国防科技大学学报 2016(05)
    • [5].多核中Cache一致性延迟分析[J]. 信息通信 2016(03)
    • [6].一种Cache一致性优化策略[J]. 信息系统工程 2016(04)
    • [7].一种自适应的cache驱逐策略[J]. 信息通信 2016(05)
    • [8].基于抽象解释技术的Cache分析方法[J]. 中小企业管理与科技(中旬刊) 2015(03)
    • [9].基于抽象解释技术的多层Cache分析的设计与实现[J]. 计算机光盘软件与应用 2014(24)
    • [10].Multi-bit soft error tolerable L1 data cache based on characteristic of data value[J]. Journal of Central South University 2015(05)
    • [11].一种嵌入式系统的滑动Cache机制设计[J]. 单片机与嵌入式系统应用 2015(03)
    • [12].处理器中非阻塞cache技术的研究[J]. 电子设计工程 2015(19)
    • [13].Kaminsky Bug:DNSSEC的机遇?[J]. 中国教育网络 2009(Z1)
    • [14].多核处理器Cache一致性的改进[J]. 西安邮电大学学报 2015(02)
    • [15].嵌入式系统中低功耗动态可重构Cache的研究[J]. 电子技术与软件工程 2015(09)
    • [16].Cache动态插入策略模型研究[J]. 计算机工程与科学 2013(10)
    • [17].多核处理器可重构Cache功耗计算方法的研究[J]. 计算机科学 2014(S1)
    • [18].嵌入式应用环境下Cache性能[J]. 信息与电脑(理论版) 2013(12)
    • [19].基于分布式合作cache的私有cache划分方法[J]. 计算机应用研究 2012(01)
    • [20].基于区间模型的一级指令Cache缺失损失分析[J]. 计算机工程 2012(07)
    • [21].多核系统中共享Cache的冒泡替换算法[J]. 微电子学与计算机 2011(04)
    • [22].浅析Cache命中率与块的大小之间的关系[J]. 价值工程 2011(32)
    • [23].嵌入式编程需注意的Cache机制[J]. 单片机与嵌入式系统应用 2010(04)
    • [24].多核处理器面向低功耗的共享Cache划分方案[J]. 计算机工程与科学 2010(10)
    • [25].面向多核的共享多通道Cache体系及原型构建[J]. 哈尔滨工业大学学报 2010(11)
    • [26].Cache结构的低功耗可重构技术研究[J]. 单片机与嵌入式系统应用 2009(01)
    • [27].一种低功耗动态可重构cache方案[J]. 计算机应用 2009(05)
    • [28].透过专利看微处理器的技术发展(六)——Cache专利技术的发展历程[J]. 中国集成电路 2009(06)
    • [29].混合Cache的低功耗设计方案[J]. 计算机工程与应用 2009(20)
    • [30].一种面向多核处理器粗粒度的应用级Cache划分方法[J]. 计算机工程与科学 2009(S1)

    标签:;  ;  ;  ;  ;  ;  ;  

    DSP高效片内二级Cache控制器的设计与实现
    下载Doc文档

    猜你喜欢