存算一体 – 智能驾驶AI芯片的下一个战场

交流群 | 进“滑板底盘群”请加微信号:xsh041388

交流群 | 进“域控制器群”请加微信号:ckc1087

备注信息:滑板底盘/域控制器+真实姓名、公司、岗位

引言:

随着AI技术逐渐渗透到各大应用场景,市场对算力的需求呈现爆发式增长。而驱动集成电路产业发展的摩尔定律已逼近极限,在后摩尔时代,依靠传统冯·诺依曼架构的芯片将很难跟得上算力需求不断快速增长的步伐,芯片产业亟需在底层计算架构层面进行创新。存算一体技术可有效突破芯片性能瓶颈,是解决算力提升放缓和算力需求快速增长之间尖锐矛盾的一种关键技术路径。

本文将围绕以下问题进行深入的探讨,包括一些对业内资深人士的访谈。

1) 什么是存算一体/p>

2) 存算一体的主要玩家有哪些/p>

3) 为什么说存算一体大算力AI芯片契合智能驾驶应用场景比传统架构AI芯片,它在智能驾驶场景下的竞争优势又是什么/p>

4) 存算一体芯片企业在技术开发和商业化落地过程中将面临哪些挑战该如何克服/p>

正文:

1、 存算一体 – 突破冯·诺依曼架构瓶颈的关键技术

1.1  传统冯·诺依曼架构面临的问题

随着摩尔定律逐渐趋近于极限,基于冯·诺依曼架构AI芯片的“存储墙”和“功耗墙”问题日益凸显,芯片算力的增长速度变得越来越慢。

1)“存储墙”

在冯·诺依曼架构中,数据存储与数据处理在物理上是两个相互分离的单元,在数据处理过程中,处理器与存储器之间需要不断地通过数据总线交换数据。处理器性能以每2年3.1倍的速度增长,而内存性能以每2年1.4倍的速度提升,导致存储器的数据访问速度越来越跟不上处理器的数据处理速度。处理器的性能与效率因此受到严重制约,从而出现了“存储墙”。

2)“功耗墙”

在冯·诺依曼架构中,数据在处理过程中需要不断地从存储器单元“读”数据到处理器单元中,处理完之后再将结果“写”回存储器单元。数据在存储器与处理器之间的频繁迁移将带来严重的传输功耗问题。根据英特尔的研究显示,半导体工艺到了7nm时代,数据搬运功耗达到35pJ/bit,占比达63.7%。数据传输所导致的功耗损失越来越成为芯片发展的制约因素,由此形成“功耗墙”问题。

80daae20532fe1464d2769f53cd2a156.png冯·诺依曼架构VS存算一体架构

(图片来源:https://mp.weixin.qq.com/s/xVIwN1CZ4rAmLzYpXJVD7Q)

达摩院计算技术实验室科学家郑宏忠曾讲过:“存算一体是颠覆性的芯片技术,它天然拥有高性能、高带宽和高能效的优势,可以从底层架构上解决后摩尔定律时代芯片的性能和能耗问题。”

后摩尔时代,芯片如何突破算力瓶颈/strong>

1.3  存算一体不同实现路径

关于存算一体类型的划分,目前在学术界和产业界尚无统一的定义。目前主流的划分方式:依照计算单元与存储单元的关系,存算一体大致可分为近内存计算和存内计算两种技术路线。 

近内存计算是指计算操作由位于存储芯片外部的独立计算单元完成。在不改变计算单元和存储单元本身设计功能的前提下,通过采用先进的封装方式以及合理的硬件布局和结构优化,增强二者间通信带宽,增大数据传输速率,进而提高数据处理效率。

存内计算又可分为两种形式,计算都是在存储器内部完成,只是在实现形式上有所不同。一种形式如下图b所示,在物理形式上,存储单元和计算单元还是相互独立存在,计算操作由位于存储芯片内部的独立计算单元完成。另外一种形式如下图c所示,存储单元和计算单元完全融合,没有独立的计算单元,直接通过在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。      

07411eeaafca79c5849cb2c4c1a0ffcc.png

易失性存储器和非易失性存储器

(来源:根据公开资料整理)

1)SRAM和DRAM作为易失性存储器,工艺偏差会大幅度增加模拟计算的设计难度,但工艺成熟度较高,相比新型的非易失性存储器,可以较快地实现技术落地和量产应用 。

2)Flash、RRAM以及MRAM等非易失性存储器可以保证数据掉电不丢失,从而实现即时开机/关机操作,减小静态功耗,延长待机时间,非常适用于功耗受限的边缘和终端设备。

易失性存储器和非易失性存储器各有特点,那么做存算一体芯片的初创企业在选择存储介质的时候究竟需要从哪些维度去考虑呢/p>

后摩智能创始人兼CEO吴强告诉九章智驾:“选择存储介质需主要看几个方面:一看它的性能 – 读的性能、写的性能、擦写次数等;二要看它的密度和功耗,另外也要看它的工艺成熟度和具体应用场景的实际需求等。

“非易失性存储器,比如NAND Flash和NOR Flash,在工艺上最为成熟,但在“写”的性能上,要比RRAM和MRAM差很远,并且成本也比较高。在非易失性存储器里,RRAM和MRAM的性能是大家公认最好的,同时存储密度也可以做得很大。”

在智能驾驶的车端场景下,非易失性是否是必须的呢强认为,对于智能驾驶场景,直观来看,非易失性的作用不是特别大,因为当智能驾驶车辆在开启的时候,系统需要一直处于运算状态,一旦车不用了就会直接关掉。如果要增加‘哨兵模式’这种应用场景 —— 需要车辆长时间“待命”,比如说要在机场停一个礼拜或者一个月,非易失性就会起较大的作用,因为这种特性可以保证在车辆熄火断电的情况下,控制芯片也能够保持足够长的待机时间。

2、 存算一体芯片主要玩家

31dfb30370dd0faccbe5d843c2b504be.png

M1108 AMP内部构成

(图片来源:https://mp.weixin.qq.com/s/i-Q2hF9bTdU6Ezyp7w5aeg)

推出时间:2020年11月

存储介质:Flash

实现方案:由108个AMP切片(title)构成,每个切片内部集成一系列闪存单元、ADC阵列、1个32位RISC纳米处理器、1个SIMD矢量引擎、SRAM和1个片上网络(NOC)路由器。

主要参数:

  • 算力:32TOPS

  • 制程:40nm 

  • 能效:35/4 TOPS/W 

  • 面积:360mm2

  • 带宽:2GB/s

  • 计算精度支持: INT4、INT8 和 INT16 

应用场景:无人机、机器人、可穿戴设备等。

2)第二代产品:M1076 AMP

推出时间:2021年6月

存储介质:Flash

实现方案:由72个AMP切片构成,每个切片内部集成一系列闪存单元、ADC阵列、1个32位RISC纳米处理器、1个16位SIMD矢量处理器、 SRAM和1个片上网络(NOC)路由器。

主要参数:  

  • 算力:25TOPS

  • 制程:40nm

  • 能效:25/3 TOPS/W

  • 面积:295mm2

  • 带宽:2GB/s

计算精度支持: INT4、INT8 和 INT16 

应用场景:智能家居、安防监控、可穿戴设备等。

2.1.3  Graphcore

融资进程:2020年12月完成 E轮2.22亿美元融资

产品特点:IPU同时支持训练和推理。它的基本硬件处理单元是IPU-Core,采用大规模并行MIMD架构,而非GPU的 SIMD/SIMT架构。

bf28ec26e5ae3b57563b3cf7cf827883.png 

基于SeDRAM的近内存计算技术

(图片来源:https://mp.weixin.qq.com/s/s6F-Npn_CuqM6xd_Ni4mng)

主要参数:

  • 片上内存带宽:37.5GB/s/mm2

  • 吞吐率能效:184QPS/W

  • 存储密度:64Mb/mm2

2.2.2 后摩智能

融资进程:2022年4月,完成数亿元Pre-A+轮融资

存储介质:首款芯片采用SRAM存储介质,以后会使用RRAM/MRAM

项目进展:2022年5月,首款存算一体芯片成功点亮

主要参数(首款存算一体芯片):

  • 制程:22nm

  • 算力:20-200TOPS

  • 能效:20TOPS/W

应用场景:智能驾驶、泛机器人等。

2.2.3 苹芯科技

融资进程:2021年8月完成近千万美元 Pre-A 轮融资

产品名称:PIMCHIP-S100和PIMCHIP-S200

存储介质:SRAM

主要参数: 

9f73f7bfce14db9fa74b4ea0aa9dc4eb.png

应用场景:智能家居、可穿戴设备、安防监控等

2.2.5 千芯科技

主要产品: AI加速卡和AI计算IP核

存储介质:SRAM

AI加速卡主要参数:

313ff5a218e3c6906247f23aa4db407d.png

参考资料:

1. 存算一体技术及其最新发展趋势

https://mp.weixin.qq.com/s/i7PvxpR23ZWMM2t74GEchA

2. 存算一体芯片,人工智能时代的潜力股

https://mp.weixin.qq.com/s/zn6ho1WpLlD41EnfdKyfSQ

3. 清华高滨:基于忆阻器的存算一体单芯片算力可能高达1POPs

https://cj.sina.com.cn/articles/view/2118746300/7e4980bc02000zda0

4. 黄如院士 | 存内计算—突破冯·诺依曼架构瓶颈

https://mp.weixin.qq.com/s/o27-O60-5BeZ_-pyjRh_3g

5. 阿里达摩院最新存算芯片技术解读

https://mp.weixin.qq.com/s/s6F-Npn_CuqM6xd_Ni4mng

6. 知存科技王绍迪:存算一体AI芯片如何打破“内存墙”困局/p>

https://mp.weixin.qq.com/s/aqn2prJcPTdHV0Xg0Ek_TQ

7. 存内计算,要爆发了/p>

https://mp.weixin.qq.com/s/PkJDADkQjUhCDrNOyUc8bg

写在最后

与作者交流

如果希望与文章作者直接交流,可以直接扫描右方二维码,添加作者本人微信。

55b6a0d8cdad86b2faead7ffbf89cfad.png

注:加微信时务必备注您的真实姓名、公司、岗位

以及投稿意向等信息,谢谢!

“知识积累”类稿件质量要求:

A:信息密度高于绝大多数券商的绝大多数报告,不低于《九章智驾》的平均水平;

B:信息要高度稀缺,需要80%以上的信息是在其他媒体上看不到的,如果基于公开信息,需要有特别牛逼的独家观点才行。多谢理解与支持。

推荐阅读:

◆九章 – 2021年度文章大合集

◆当候选人说“看好自动驾驶产业的前景”时,我会心存警惕——九章智驾创业一周年回顾(上)

◆数据收集得不够多、算法迭代得不够快,就“没人喜欢我”————九章智驾创业一周年回顾(下)

◆行泊一体 – 打通智能驾驶的“任督二脉”

◆L4自动驾驶公司降维做L2前装量产,前景如何/p>

◆仅有“模式跑通”是不够的——矿山无人驾驶进入深水区

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览92690 人正在系统学习中

来源:九章智驾

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年4月22日
下一篇 2022年4月22日

相关推荐