计算存储统一架构：实验室提出的存算互换架构在DAC上展示

关注我，成为智能计算“学”者

引言

在过去的几十年里，存储器的性能发展远低于处理器，这造成了今天的“存储墙”瓶颈。另一方面，各种各样的新型应用（大数据、人工智能等）所涉及的数据量越来越大，计算访存都呈现出不规则的特点，难以在通用处理器上获得很高的运行效率。相比而言，专用处理器由于其更高的性能、更低的功耗而越来越受到关注。但采用专用处理器意味着针对不同的应用需要设计新的电路、架构和芯片，带来很高的投入。因此，面对新型应用，亟需一种新型的计算架构，既能适应新型应用的计算访存的新特点，又具备一定的通用性，从而为不同的应用场景提供高性能、低功耗的处理能力。

正文

阻变存储器（RRAM）等新型非易失存储器在单一器件内可以同时实现存储和计算两种功能，这为计算架构的创新带来了新的契机。近年来，为了解决传统计算架构与大数据、人工智能等新兴应用不匹配的问题，人们开始关注于使用新型非易失存储器来设计存内计算架构。通过拉近计算单元和存储单元的距离，甚至把计算和存储融合到一体，有效减少了访存和数据搬运开销，实现了能效比的数量级提升。根据新型非易失存储器的功能特点，可进一步设计实现存算互换的存内计算架构，以灵活适配多种不同的应用场景。研究存算互换的存内计算新架构，对于针对新型应用的新架构研究、缩短新架构开发周期、降低新架构开发成本等方面都具有重要的意义。

针对上述情况，实验室团队（陈晓明、尹龙祥、刘博生、韩银和等）提出了一种基于RRAM阵列实现的存算互换存内计算架构-ME，其内部组成模块可配置为计算、存储、互连等多种模式。这种计算架构可以方便地配置计算单元与存储单元的比例，且能够灵活地安排存储单元的位置，实现从计算密集型到存储密集型的多种不同应用场景的灵活适配。

图注：本文提出的存算互换存内计算架构

本文提出的存算互换存内计算架构是一个由基于RRAM的结构块组成的平面阵列。上图（a）中展示了块的互连方式，每一个结构块（tile）通过输入/输出电路结构与相邻的四个块相连。上图（b）中示出了每个tile与四个相邻tile之间的输入/输出电路结构。上图（c）中展示了tile的内部细节，图中黄颜色的结构为具有可配置功能（For Remoldation）的单元。

如上图（c）所示，结构块由一个NⅹN的1-Transistor-1-RRAM（1T1R）交叉结构阵列（1T1R array）、N个N选1的查找表多路选择器（LUT MUX）、N个灵敏放大器（SA）、多个可配置功能的多路选择器（MUX）和其他外设单元组成。这是一个多种功能结构的复合结构。由功能来看，NⅹN的1T1R array和N个SA构成了一个NⅹN的存储阵列，实现了存储功能；与此同时这个结构也可以作为N到N的互连结构（二值RRAM只有0和1两种状态，可作为开关），实现了互连功能；此外，NⅹN的1T1R array中的所有RRAM器件与N个N选1的LUT MUX、位于LUT MUX选通输入端的可配置功能的MUX共同构成了LUT逻辑单元结构，实现了计算功能。各功能结构通过可配置功能的MUX（图中黄色的“梯形结构”）“胶粘”在一起，以此实现计算、存储、互连的功能一体。此外，外围的WL driver结构和SL driver结构专门用于存储模式时1T1R array的写过程，同时灵敏放大器（SA）在写过程时保持关断状态，其他时候为导通状态。tile的输入电路结构根据tile的不同工作模式进行特定的配置。

图注：ME结构块在不同工作模式下数据流通的路径

tile可以被方便地配置成计算模式、存储模式或互连模式。
计算模式
计算模式下tile被配置为只有LUT逻辑单元结构处于工作状态，NⅹN的1T1R array中的所有晶体管（Transistor）均关断，1T1R array中的位线BL被配置为接地，此时输入电路结构中IN选通DIN，DIN作为N选1的LUT MUX的输入，选择LUT的结果，在DOUT进行输出。

互连模式
互连模式下tile被配置为只有NⅹN的存储阵列处于工作状态，此时RRAM作为开关使用。1T1R array中位线BL被配置为与DIN相连，感知线SL被配置为与DOUT相连，此时输入电路结构中IN选通DIN，此时的配置结构实现了DIN到DOUT的互连。

存储模式
在存储模式下，tile被配置为只有NⅹN的存储阵列处于工作状态，此时RRAM被看作存储单元。1T1R array中位线BL接地，字线WL连接RADDR [0:N-1]，感知线SL连接CADDR[0:N-1]。此时输入电路结构中一部分的IN分别选通RADDR和CADDR作为存储器的地址输入。在写阶段时，灵敏放大器（SA）保持关断状态，WL driver和SL driver处于工作状态，输入电路结构中另一部分的IN选通DIN作为写入信息，将信息写入选中的RRAM器件中。在读阶段时，灵敏放大器（SA）正常工作，WL driver和SL driver不工作，存储于选中的RRAM器件中的信息被读出来，在DOUT进行信息读出。

本文通过模拟验证，在相同规模情况下，相比于传统计算结构FPGA，本团队提出的ME结构可降低2倍的功耗，同时实现4倍的性能提升，功耗延时积降低了7~8倍，证明了该结构的优势。

图注：刘博生同学向参会人员讲解本工作

点击文末“阅读原文”可阅读论文原文

关于DAC
DAC是全球领先的集成电路设计自动化会议，被公认为电子系统设计和设计自动化的首要会议，是中国计算机学会推荐的A类会议。DAC每年的参会人数以千计，受到全球业内人士和专家学者的高度关注。DAC是以电子设计自动化（EDA）、嵌入式系统及软件（ESS）、物联网（IoT）、机器学习（AI）、安全（Security）、自治系统（Autonomous System）为主题的重要大会，是集成电路设计界的大聚会，是全球EDA、Foundry、IP提供商的盛会。

我们招生啦~~

→
好文分享，实验室信息更新，请关注本公众号！
觉得不错请在点赞、朋友圈分享！
智能计算机研究中心
计算机与控制学科交叉
——做会“动“”的计算机！

计算存储统一架构：实验室提出的存算互换架构在DAC上展示

浏览过的版块