性能提升10倍以上:阿里达摩院成功研发新型存算一体芯片

92f6dfca39389ffefd0e3974c5cf44be.png

从诞生之日起,计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。然而,随着人工智能等对性能要求极高的场景爆发,这一技术架构的短板逐渐显露,如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍,而在同样的时间内芯片的峰值算力只有 3 倍左右的提升,中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下,内存的性能提升速度要比芯片算力更慢,而且我们还不能简单通过增加内存系统节点的方法来解决需求,如果我们使用过多内存的话,通信成本将会出现指数级增加。

647e2a85e7d0567176e14185c61f52fb.png

在今年 10 月 20 日的云栖大会上,平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面,该芯片内存单元采用异质集成嵌入式 DRAM,拥有超大内存容量和带宽优势,相比传统 SRAM 获得了数量级上的提升,片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行「端到端」加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题,最终内存、算法以及计算模块完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中,存算一体芯片已经展示了先进性。 

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。

a4442645c94d74c554d34b875d11e650.png

目前,整个行业对存算一体芯片技术的研究依旧处于探索阶段,在工艺成熟度、典型应用、生态系统等方面仍不成熟,达摩院希望逐步攻克技术难题,基于三维堆叠的近存芯片,通过拉近存储单元与计算单元的距离、增加带宽,来降低数据搬运的代价,缓解由于数据搬运产生的瓶颈。

参考内容:

http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf

https://yunqi.aliyun.com/2021/agenda/session126pm=5176.23948577a2c4e.J_6988780170.27.37a23798jiwZ4z

编辑:于腾凯

31fb4f06fa27a6d576df8a0003feef78.png

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210005 人正在系统学习中

来源:数据派THU

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年11月16日
下一篇 2021年11月16日

相关推荐