性能提升10倍以上：阿里达摩院成功研发新型存算一体芯片

从诞生之日起，计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中，计算与内存是分离的，计算单元从内存中读取数据，计算完成后再存回内存。然而，随着人工智能等对性能要求极高的场景爆发，这一技术架构的短板逐渐显露，如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍，而在同样的时间内芯片的峰值算力只有 3 倍左右的提升，中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下，内存的性能提升速度要比芯片算力更慢，而且我们还不能简单通过增加内存系统节点的方法来解决需求，如果我们使用过多内存的话，通信成本将会出现指数级增加。

在今年 10 月 20 日的云栖大会上，平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面，该芯片内存单元采用异质集成嵌入式 DRAM，拥有超大内存容量和带宽优势，相比传统 SRAM 获得了数量级上的提升，片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面，达摩院研发设计了流式的定制化加速器架构，对推荐系统进行「端到端」加速，包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题，最终内存、算法以及计算模块完美融合，大幅提升带宽的同时还实现了超低功耗，展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中，存算一体芯片已经展示了先进性。

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。

目前，整个行业对存算一体芯片技术的研究依旧处于探索阶段，在工艺成熟度、典型应用、生态系统等方面仍不成熟，达摩院希望逐步攻克技术难题，基于三维堆叠的近存芯片，通过拉近存储单元与计算单元的距离、增加带宽，来降低数据搬运的代价，缓解由于数据搬运产生的瓶颈。

参考内容：

http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf

https://yunqi.aliyun.com/2021/agenda/session126pm=5176.23948577a2c4e.J_6988780170.27.37a23798jiwZ4z

编辑：于腾凯

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览210005 人正在系统学习中

来源：数据派THU

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！