示例图片二

清华芯片钻研再获顶会MICRO添持:柔件定义芯片团队出品,最佳论文挑名后又一突破

2020-10-25 09:53:25 久久色综合色鬼 已读

原标题:清华芯片钻研再获顶会MICRO添持:柔件定义芯片团队出品,最佳论文挑名后又一突破

杨净 发自 凹非寺

量子位 报道 | 公多号 QbitAI

近来,第53届国际微架构大会 (MICRO)在线上顺当召开。

行为计算机体系组织四大顶级会议,清华大学 魏少军、 刘雷波团队有两篇入选该会议论文。

这是该团队既往年斩获MICRO 2019最佳论文挑名后,在体系组织顶级会议上的又一主要突破。

在会议上,他们做了两篇学术通知。

别离为:

Constant-time Alteration Ternary CAM with Scalable In-Memory Architecture

一栽基于可扩展存内架构并声援常数时间更新的三态内容寻址存储器。

TFE: Energy-efficient Transferred Filter-based Engine to Compress and Accelerate Convolutional Neural Networks

一栽基于转换卷积核的卷积网络压缩与添速架构。

通知人别离是两篇论文一作清华大学微电子所博士生 陈迪贝和 莫汇宇,论文通讯作者均是 刘雷波教授。

什么样的钻研? 基于可扩展存内架构并声援常数时间更新的三态内容寻址存储器

△清华微电子所博士生陈迪贝同学通知论文的主要做事

三态内容寻址存储器 (TCAM)倚赖其不错的匹配性能,普及行使于当代交换机和路由器的高速包分类。

然而,传统TCAM倚赖于物理地址的规则优先级编码面向高速匹配设计,无法已足规则迅速更新的需求。主流硬件交换机每秒仅声援大约四十至五十条规则更新,高达 数百毫秒的更新耽延成为了网络性能瓶颈。

所以,基于这个题目,陈迪贝介绍了一栽声援常数时间更新的三态内容寻址存储器 CATCAM。

△CATCAM芯片原型

详细来说,就是挑出了基于矩阵的优先级编码手段,将规则的优先级有关与地理地址解耦。

规则的优先级有关被编码在优先级矩阵中,当输入项议决匹配矩阵完善匹配后,其效果将遍历优先级的匹配规则,对答8T SRAM的位线计算逻辑。

借助双电压列写手段,新规则可插入矩阵中肆意空位,实现常数时间的规则更新。

△基于矩阵的优先级编码及其存内计算实现

此外,该做事还设计了行使全局优先级编码的层次化扩展架构,采用基于区间的动态调度逻辑,在已足扩展性的同时保证了肆意周围下常数时间的规则更新。

△CATCAM硬件架构

最后,议决重新设计三态内容寻址存储器的优先级机制,CATCAM清除了规则更新导致的大量现有规则迁移,在升迁更新吞吐量和反响速度的同时保证了扩展性。

与现有最先辈的解决方案相比,实现了起码 三个数目级的添速比。

主要配相符者还有李兆石、熊天柱、刘志伟、尹首一等。

基于转化卷积核的神经网络压缩和添速架构

△清华微电子所博士生莫汇宇同学通知论文的主要做事

神经网络模型的参数决定了模型大幼,大网络会消耗更多的参数和计算来挑高网络的拟相符能力。

不论操纵GPU、CPU,都必要考虑现存或内存对整个模型参数的保存能力,迎面积、功耗极为敏感的边缘端设备,无法批准过多的参数和计算。

此前,就有钻研人员挑出 转换卷积核的手段,行使组织化压缩,来使硬件运走更高效。但该手段原由存在着大量的重复计算,控制了卷积运算速度的进一步升迁。

基于此,莫汇宇同学介绍了一栽基于组织化压缩的神经网络添速手段,并挑出了一栽高效的神经网络添速架构。

在同样工艺和频率下,该架构的面积为Eyeriss组织的 57.96%,功耗为其 24.12%。

△团体硬件架构

这一手段缩短了卷积核转化过程中大量冗余计算。在模型压缩率不变的情况下,有效挑高了网络模型的运算速度和能效。

该做事设计了堆叠的寄存器堆,当相通权值出现在转化卷积模型卷积核的联相符走时,操纵寄存器堆存储每个权值与输入激活值的乘积,以及迥异权值和输入激活值的部门和效果。

当处理迥异的转化卷积模型时,议决与之对答的数据和控制流,将共享乘积和部门和传输到迥异的计算单元,以便重复行使生成迥异输出通道的效果。

△堆叠寄存器组重复行使存转化卷积核模型运算的中间部门和

此外,钻研人员还设计了一栽有效的存储调度手段。

在整个卷积处理过程中,输入数值按走输入,每走都会同时和卷积核的一切走卷积运算,其卷积效果将会别离存储在单独的存储模块中。

如许,存储单元里的卷积效果将会被迥异输出效果共同操纵,且该效果将会随着卷积过程进走循环更新。

即能重复行使存储模块,也能挑高卷积效果的复用率。

△整走卷积效果的复用

最后,实验效果外明,与最优的神经网络架构在经典VGGNet网络上相比,该架构实现了最大4×的模型压缩,2.72×的添速及10.74×的能效升迁。

主要配相符者还有朱文平、栗强、尹首一等。

清华魏少军、刘雷波团队

关注芯片、体系组织等周围的友人对这一团队并不生硬。

清华大学魏少军教授、刘雷波教授团队在柔件定义芯片周围取得了多项主要技术突破。

有关技术在多项国家宏大工程中得到批量行使,曾获国家技术发明二等奖、哺育部技术发明一等奖、电子学会技术发明一等奖、中国发明专利金奖、世界互联网大会15项世界互联网领先科技收获等。

△魏少军教授

在JSSC/TIFS/TPDS等周围顶级期刊上发外论文200多篇,在ISCA/HOT CHIPS/DAC/VLSI等周围顶级会议发外论文20余篇。

往年8月,他们的钻研收获登上高性能芯片顶级会议Hot Chips,这是31年来中国高校 首篇一作论文。官方介绍称,他们这一技术有看解决中国95%以上服务器CPU面临的芯片坦然难题。

一个月之后,在顶会MICRO上,他们获得了MICRO 2019最佳论文挑名,这是MICRO 52年历史上第二次有亚洲高校及机构获得该奖项。

就在上个月,他们以「后量子暗号硬件添速」技术登上第22届暗号硬件与嵌入式编制会议(CHES)。这是国际暗号芯片和物理坦然倾向最主要的顶会之一。

— 完—

「日本x片一级AI开发系列课」免费报名

5分钟上手,10分钟定制高精度AI模型,硬核日本x片一级EasyDL,幼白也能学!

10.21日首,3期公开课带你 0门槛轻盈学AI开发、实现 AI模型训练与安放!扫码增补量子位幼助手(qbitbot12)、添入课程直播群吧~ ▽

p.s.完善课堂义务还有机会赢取 李彦宏新书《智能经济》哦~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

爱就点「在看」吧 !