迈向：IBM忆阻计算让人工智能加速前进

选自extremetech

作者：David Cardinal

机器之心编译出品

编译：吴攀，亚洲

近来，机器学习的快速发展为神经网络带来了一次复兴——神经网络是一种有点像人脑一样解决问题的计算机软件，使用分布在许多虚拟节点（也叫「神经元」）上的匹配模式的复杂处理。现代的计算能力已能让神经网络识别图像、语音和面部，还能实现汽车的自动化驾驶，在围棋和 Jeopardy 游戏中获胜。大部分计算机科学家认为这些都还只是实现未来的开端。不幸的是，我们用来训练和运行神经网络的硬件看起来和神经网络的架构完全不同。这意味着即使使用计算机集群，要训练一个解决某个问题的神经网络需要数天甚至数周的时间。而一旦训练完成，还需要大量的计算能力来解决这个问题。

神经形态计算可能是推动人工智能发展的关键

IBM 研究者的目标是通过完善另一种技术来改变这一切，比如诞生于几十年前的神经网络。被泛称为忆阻计算（resistive computing，基于忆阻器交叉阵列的脉冲神经网络计算）的概念本质上是一种模拟的计算单元，它具有很小的物质形态，还能保留自己的历史状态，使它们可以在训练过程中学习。使用硬件加速神经网络对 IBM 而言并不新鲜，该公司最近刚宣布将自己的一些 TrueNorth 芯片出售给美国劳伦斯国家实验室以用于人工智能研究（点击查看机器之心对此事的关注报道）。TrueNorth 的设计是神经形态的，这意味着该芯片的架构大致近似于大脑的神经元和突触架构。尽管其时钟频率只有很慢的 1 KHz，但凭借其每一个都模拟一个神经元的上百万个微型处理单元，TrueNorth 可以非常高效地运行神经网络。

尽管如此，到目前为止像 TrueNorth 这样的神经网络加速器都仍被限制在决解部署神经网络的部分问题上。训练——这一让系统可以通过测试数据集提升自己，然后调整参数（被称为权重）直到它获得成功的痛苦过程——仍然需要在传统计算机上完成。尽管从 CPU 变成 GPU 再到定制芯片已经提升了性能表现并减少了所需的功耗，但训练过程仍然昂贵且耗时。而这就是 IBM 研究者 Tayfun Gokmen 和 Yuri Vlasov 的研究成果切入的地方。他们提出了一种新的芯片架构，该架构使用电阻式计算创造了数百万个忆阻处理单元（RPU）组成的多个计算块，并且可以同时应用在训练或运行神经网络中。

使用忆阻计算打破神经网络训练的瓶颈

忆阻计算是一个大课题，但大致来说 IBM 的这个设计中的每一个小处理单元（RPU）都模拟了大脑中的一个突触。它可以以电压的形式接收各种模拟信号，并基于其过去的「经历」使用一个对这些经历加权的函数决定可将什么结果传递给下一组计算元件。突触在大脑中有一个让人迷惑的，还未被完全理解的排布方式。但使用忆阻元件的芯片往往将它们整齐地排布成二维的阵列。比如，IBM 最近的成果显示将它们组织成 4096×4096 的阵列是可能的。

因为忆阻计算单元是特化的（相对于一个 CPU 或 GPU 内核），既不需要将模拟信息转换成数字信息，也不需要使用除它们自己之外的存储器，所以它们的运行速度可以很快而且只需要很少的功耗。因此，理论上一个复杂的神经网络——比如应用于自动驾驶汽车中识别道路标志的神经网络——可以直接通过在每一个软件描述的电路配置一个忆阻计算元件来进行建模。但是，因为 RPU 并不精确——这是由于它们的模拟的性质和它们电路中的一定量的噪声所致——任何在它们上面运行的算法都需要能抗衡忆阻计算元件固有的不精确性。

传统的神经网络算法——无论是用于执行还是训练——是为高精确的数字处理单元而编写的，可以很容易地调取任何所需的记忆值。如果对它们进行重设，让每一个本地节点都可以在很大程度上依赖自己。虽然可能些许不准确，但产出的结果准确率还是有的，这需要大量的软件创新。

为了让这些新软件算法能够大规模地工作，硬件上也需要进步。现有的技术都不足以创造可以封装得足够紧密的「突触」，并让其在嘈杂的环境中低功耗地运行。所以忆阻处理成为了一种替代选择。直到 2014 年一种在混合忆阻计算机上训练神经网络的逻辑被开发出来，运行时执行（runtime execution）首先出现。当时，匹兹堡大学与清华大学的研究者声称这样的解决方案可以在只牺牲 5% 的准确度的情况下带来 3 到 4 个数量级的功效增益。

IBM 研究者声称基于 RPU 的设计对神经网络应用而言将会远远更加高效，上面的图表来自他们的论文。

从执行到训练

IBM 的这项新成果将忆阻计算的使用又更向前推进了一步，提出了一种几乎将所有计算都放在 PRU 上完成的系统，而只有输入和输出等支持功能才需要传统的电路。这种创新依赖于一种在基于 RPU 的架构上运行的神经网络训练算法版本和可让 RPU 运行硬件规格的结合。

至于将这种想法付诸实践，目前来说，忆阻计算基本上都还是一种理论构架。2012 年，第一种电阻式存储器（RRAM：阻变式随机存储器）原型面世，但不要期望它能在几年内就成为主流产品。而这些芯片，尽管它们有助于扩展存储系统，并让人看到了在计算中使用忆阻技术的可行性，但却并不涉及类似突触处理的问题。

如果可以造出 RPU，将没有任何限制

这种被提出的 RPU 设计预计可以包容各种各样的深度神经网络（DNN）架构，包括完全连接网络和卷积网络，这使得其在几乎所有类型的神经网络应用中都有潜在的用途。使用现有的 CMOS 技术，并假设在具有 4096×4096 个元件的分块中配备具有 80 纳秒周期时间的 RPU，那么每一个这样的分块都能够每秒执行51 GigaOps（十亿次浮点运算），而只需要消耗极小量的功率。一个具有 100 个这种分块外加 1个 CPU 内核作为补充的芯片可以在仅消耗 22 瓦特功率的情况下处理一个高达 160 亿权重的网络（实际上其中只有 2 瓦特来自于 RPU——其它的功耗都来自于那个 CPU 内核，它的主要工作是帮助将数据输入和输出芯片以及提供全局控制）。

这是一个非常惊人的数字——对比一下当汹涌的数据流过那些只有较少内核的CPU 甚至 GPU 时的能量消耗（想想 1600 万个计算元件和几千个进行间的对比）。研究者宣称，一旦使用这些 RPU 分块紧密封装成的芯片创造出了基于忆阻计算的人工智能系统，那么该系统的性能表现将相对于当前架构提升 30,000 倍，而其功率效率也将达到 84,000 GigaOps 每秒每瓦。如果这变成了现实，那么，我们就走上了实现艾萨克·阿西莫夫想象的机器人正电子脑的道路。

?本文由机器之心编译，转载请联系本公众号获得授权。

?————————————————

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn

机器之心是Comet Labs旗下的前沿科技媒体。Comet Labs是由联想之星发起、独立运作的全球人工智能和智能机器加速投资平台，携手全球领先的产业公司和投资机构，帮助创业者解决产业对接、用户拓展、全球市场、技术整合、资金等关键问题。旗下业务还包括：Comet旧金山加速器、Comet北京加速器、Comet垂直行业加速器。

来源：机器之心Pro

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

迈向：IBM忆阻计算让人工智能加速前进

相关推荐