Dynamic Memory Dependence Predication
- Conferences: ISCA, 2018
- Authors: Zhaoxiang Jin ; Soner Önder
- Site: https://ieeexplore.ieee.org/document/8416831
- Keywords: Memory Dependence Prediction, Store Queue Free Architecture, Memory Cloaking, Dependence Predication
简介
NoSQ 是 Store-queue-free 架构的一种方案,主要的思想是去除 store queue, 转而使用预测器预测 store-load 的依赖关系并采用 memory forward + re-execution 来实现 store-load 的交互。其平均性能较传统 store queue 架构提升了 2%.
本篇论文提出 DMDP 架构(Dynamic Memory Dependence Predication) 对 NoSQ 架构进行了改进,通过在寄存器重命名阶段中插入指令去改变 load 的行为,减轻了内存依赖关系的错误预测,降低了 re-execution 的次数。实验表明,相比于 NoSQ 架构,DMDP 架构带来了整数 7.17%、浮点 4.48% 的性能提升以及 6.7% 的能耗节省。
DMDP 架构的基本思想是插入一个新的微指令,去比较被预测的load-store依赖对的地址。如果地址一致,则load直接使用store的寄存器;否则,load从cache中读数据。这样,执行的load和提交的store之间的错误依赖就被消除了。消除这种依赖是重要的,因为当考虑内存一致性模型时,store指令commit的延迟会大幅度的增加。
store-queue-free架构消除了store-queue,但store buffer仍然需要保存retired store直到store更新了缓存。这一组件也是合理实现内存一致性模型和处理大量store miss的必要组件。
研究背景
1. 传统 store queue 架构
超标量处理器中,store指令在commit阶段才更新内存子系统。因此,必须要一种机制处理in-flight store与load之间的交互。没有这种机制,in-flight load以及依赖它的指令就要等之前的所有store指令提交才能确定读到的值。目前,大部分的处理器采用联合搜索和年龄排序的store queue来处理这种交互。当load指令执行时,使用联合搜索store queue获取值的结果,同时对缓存进行访问。如果store queue中存在相同地址的值,则将最年轻(最新)数据作为load的值,否则使用缓存中的值。++但这种机制的缺点是,搜索需要时钟,还会增加in-flight store的数量。而为了更多的指令并行,每个核都需要一个很大的store queue,增加了微架构的复杂程度和空间。++
2. NoSQ 架构
NoSQ是一种能够完全消除store queu的一种机制。在NoSQ架构中,store在commit阶段执行并更新缓存。因此,store指令不需要发射到乱序引擎中。而inflight store-load的交互通过内存依赖预测器来完成。如果load A被预测依赖于store B,那通过重命名load的目标寄存器为store B的目标寄存器就能完成读写操作(这种技术叫memory cloaking)。这一过程将DEF-store-load-USE依赖链压缩成DEF-USE。为了防止预测错误,load在retire阶段必要时要进行re-exectue。++其优点是去除了store queue,但缺点是一旦预测错误,load必须要等store提交并且更新了cache才能进行re-execute。降低re-execution的延迟和提高预测准确性就成了NoSQ的关键。++
动机
load-store 依赖关系可以分为三类:
-
++Never Colliding(NC)++
load指令一直从cache中读数据。例如,大量对不变数组的访问。
-
++Always Colliding(AC)++
load指令一直从store queue中取前传数据。store-queue-free架构很适合处理这种情况,因为这种情况会有很高的预测准确性。例如,寄存器溢出,全局变量的访问,栈访问等等。
-
++Occasionally Colliding(OC)++
load指令可能从cache也可能从store中读数据。OC这种情况很难预测,因为仅通过内存依赖的历史信息难以做出正确的预测。例如图1所示:
图中的箭头,表示两个指令之间是冲突的(Colliding)。
OC情形是处理load-store依赖问题的关键。一个普通的store-queue-free机制,比如NoSQ,首先从cache中读数据。当第一次colliding发生时,依赖关系加入,并且之后的递增指令将会预测从之前迭代的store中获得数据,而不再是cache。但是,当指针地址改变时,前传的数据大概率是错的,即内存依赖预测是错的。经常的错误预测会导致load按照严格的程序序执行,这个load只能等待别名的store全都提交完才能被执行。图1(c)就表示递增指令只能等前一个指令执行完才能执行。这种严格的序关系能够确保load指令不管是否store-load地址匹配也能读到正确的值,但却严重地影响了程序的性能。
那么首先确定的是,如果load-store地址不一致,load和预测的store造成的延迟就是不必要的。 而即使地址是一致的,load也不得不等到store commit才能执行,这也是不必要的。而大量不相关事件,比如cache miss还可能会延迟store的提交,进而影响load的执行时间。
图2表明了三种load在NoSQ中的分布情况。Direct access表示从cache中读;ByPassing表示通过memory cloaking前传数据;Delayed access表示load不能直接从cache中读直到冲突的store提交。
可以看到有些程序中,有超过10%的Delayed access。文章同时比较Delayed access和Bypassing的平均执行时间,如图3:
我们会发现Delayed access在绝大部分的benchmark中都占有更多的时间,而且大概是Bypassing access的7倍。
所以,DMDP的重点就在于如何减少这部分(OC)的执行时间。
基本原理
NoSQ架构使用预测器预测load-store依赖关系,但当load-store不一致时,load需要等带store提交。这类似于分支预测,而如何预测进入哪个分支是困难的。因此,DMDP动态地插入预测确认,即比较load-store的地址。这一比较的结果可以用来指导load是从cache中或者未提交store中获取正确数据,就类似于条件转移语句。
图4.表示了DMDP中load如何通过三种方式获取数据。可以看到第三种方式,由于预测的置信度低,load的地址需要和store地址进行比较,然后确定load从cache还是P7中获取数据。
表格I详细地说明了NoSQ与DMDP之间的相同点与不同点。
store的数据和地址寄存器在原有程序语义中是不存在的,而这些寄存器可能被释放或重分配给其他指令。在DMDP中,需要延迟store寄存器的释放时间,直到store被提交或者更新了cache。为了这个目的,DMDP对于每个内存操作都设置了一个额外寄存器去保存计算的物理地址(不一定要保存所有)。而这一改变还能简化地址的比较操作,同时可以直接获取物理地址而不用重新计算。
图5表示,低置信度下load-store实际内存依赖的分布。IndepStore表示,load被预测依赖于store而实际不依赖与任意未提交store;DiffStore表示,load被预测依赖于store而实际依赖于另一个store;Correct表示预测是正确的。我们会发现绝大部分的预测错误都发生在IndepStore。而一般的想法是,每次出现低置信度的预测,就直接读取cache的值,错误之后再进行re-execution。这样的平均错误预测率为11.4%。而DMDP优化了这一部分,使得错误率在3.7%。
微架构
DMDP的微架构如图6所示,每个store使用SSN(store sequence number)来追踪其状态,还有三个全局可见的物理寄存器,SSN_rename,SSN_retire,SSN_commit。
当store被rename,SSN_rename自增,并作为其SSN,因此更年轻的store会有更大的SSN。当store被retire或者commit,SSN_retire = SSN 或 SSN_commit = SSN。Store Buffer像队列一样工作,但load从来不会对Store buffer进行搜索。Store Register Buffer保存每一个未提交store对应的物理寄存器号,包括store的数据寄存器号和物理地址寄存器号。
在DMDP中,store指令有额外的物理寄存器生命周期,因为即使在store指令retire后,这个寄存器还可能被读取。因此,DMDP还包括一个Physical Register Reference Counter去管理寄存器的释放。
当load被rename时,预测依赖于冲突store的SSN将会被保存起来。这个SSN_pyb = SSN_rename - dist, 其中dist通过Store Distance Predictor和branch predictor来预测计算。
当load被执行时,先读取cache中的数据,并保存当时的SSN_commit为SSN_nvul。SSN_nvul表示load为确定的窗口中最年轻的并且已经commit的store。
当load被retire,投机的load仅需要确认是否读到正确的值(对比store和load的地址)。必要情况下,load需要进行re-execution。为了最小化re-execution的次数,DMDP建立了一个对应地址上的SSN历史,叫Tagged Store Sequence Bloom Filter(T-SSBF),其结构类似一个hash table。
这里列出load需要re-execution的条件:
具体分析参考RAW等读写错误的情况。
实验及结果
论文采用PISA作为指令集进行了仿真实验,通过GCC来插入指令。最后得到了如下结果。
如图所示,DMDP得到了比NoSQ更好的IPC,但相比于最好的预测结果还有微小的差距。相信还能通过改进预测器来获取更好的效果。