AI软件定义硬件，硬件改变世界

主讲人：田丰（商汤科技智能产业研究院院长、原阿里云研究院创始院长）

一、“AI软件加速硬件”

（一）新基建的发展将推动新硬件的出现

移动互联网时代，手机、平板取代PC成为新的终端，交互方式变成触摸屏和低配的摄像头等，新的服务也产生，手机逐渐成为生产力工具。这个时代诞生了各种创新企业，如摩托罗拉、苹果、谷歌、AMD。

从2010年到未来的30年，将发展到智慧空间时代。对于每一个时代来讲，技术进步都会带来生产力的升级。人工智能时代的生产力和移动互联网时代有明显的区别。比如，人工智能超算中心作为新基建将取代或全面升级原有云计算中心；新一代的基建会完全颠覆老一代的基建，但是和历史一样，新基建必须先开始，一定是先有新基建，再快速产生新终端，也就是新硬件。未来，随着AI训练和推理芯片，及5G网络等发展，各种新终端包括智能车、AR眼镜、折叠屏等将逐步取代智能手机；而基于新终端产生新的交互模式将取代现有的APP，未来智慧空间的混合现实服务和人机自然交互将成为主流。这一过程自然就会涌现出一大批原创科技公司。

（二)To B的新终端应用——智能车、AR/VR眼镜、折叠屏

今年手机销量下滑，手机产业链受到影响。未来10年甚至20年，智能车会是下一代崛起的新终端，也许一辆车至少有2-5块屏幕，配备AR、VR眼镜，成为新的社交空间。

目前AR眼镜客单价在3000元左右，未来两年成本线是否降到千元内，值得期待，在国内尤其如Rokid、Nreal等公司的发展，使得AR眼镜更新换代成本降下来。

另一个新的终端，是折叠屏+5G+云端AI计算。折叠屏让终端越来越轻薄，成为几乎只有通信和屏幕的终端，交互会有很大的变化。现在手机上的光学传感器，比如高精度的摄像头，已达到2亿分辨率。未来一两年50%的路面摄像头将会达到4K，高清化逐渐成为主流。此外，终端将智能化，通过光学的AI传感器、高精摄像头去捕捉大量数据分析。

（三）To C的新终端应用——数字孪生工厂、元宇宙即服务、数字人即服务、数字空间即服务

在智能车、全景相机、无人机等移动终端装上传感器，可以对工厂进行3D建模，构建出高精度的环境建模，形成实时仿真的数字空间，做到数字孪生的工厂，实时识别工厂内生产资料、生产线节拍等关键数据的数字化。有观点称，十四五期间将大力推行到县一级的新基建建设，届时城市数据量会非常大，对5G网络、人工智能算力、传感器建模、传感器配置空间会消耗更多。

另一方面硬件在向AI智能化发展。手机AI传感器的渗透率也在持续提升。在传感器上就可以做到微光、夜拍更清晰、超分辨率。原本比较低配的摄像头，通过算法把分辨率超分到4K或者8K，可以做到模糊化背景的清晰处理，或者人像清晰等等，这些功能原来通过软件层来计算，现在直接融入AI的传感器、ASP的芯片上。

未来的交互方式，将通过传感器高清摄像头捕捉，通过折叠屏、VR眼镜或者车载屏来展现。新的服务体验包括：1)某大厂的智能车舱把数字人嵌入车里，提供出行服务，打破了APP的边界，成为无缝按需接入的数字人即服务方式；2）数字空间即服务，比如在元宇宙会场，几分钟就生成3D建模的会议现场，已经有很多类似Virtual Room的创业公司了。现在元宇宙的服务已经打破了APP的限制，过去移动互联网的开发商以及平台新公司，可能会在新基建、新终端、新交互、新服务的颠覆式创新浪潮里失去优势。但是万变不离其宗，最根本的驱动力用一句话来定义，就是AI软件定义硬件，硬件改变世界。

AI软件正在定义硬件。英伟达称其为可编程的硬件，不管是芯片可编程、汽车可编程、AI眼镜可编程或者机器人可编程，实际上是把AI软件的学习能力、感知能力以及决策能力融入硬件，实现硬件的智能化升级，这是真正的AIot。感知智能、决策智能、人机博弈甚至人机合作都体现在里面，未来10-20年，AI软件，或者说AI算法将定义数据中心，AI算法将定义感知设备，之后就会出现AI传感器、AI相机、AI手机等终端，也会出现带AI传感器的智能电视，用手势、体感就可以去操控电视等硬件。这些终端背后，类似英伟达的国产GPU公司、类似特斯拉的新终端公司、类似商汤的人工智能软件公司，都会有一些新机会。

（四）两个升级——认知范式的升级和空间方面的升级

现阶段有两个升级，一是认知范式的升级，二是空间方面的升级，即物理世界和数字世界加速虚实融合。认知范式的升级就是从人类的三种基本认知升级到人工智能相关的三种认知：

第一，通过经验归纳总结，大数据可以实现自动化归纳，通过非监督学习和监督学习方式，找到潜在规律。大数据归纳背后的模型非常大，几十亿参数级别都属于中模型，上百亿、上千亿属于大公司，人类没有办法认知如此复杂的系统里的规律，可以通过人工智能去计算。

第二，推理演绎，即通过数学公式进行推导。若人工智能学会了这种推理方式，可以去自我学习、识别出物理世界的各种物体，同时人工智能也有仿真推理的能力，甚至能推理出一些人类所不知道的新结论。

第三，科学猜想，比如对现代物理学影响深远的广义相对论，在其诞生之初，很多物理学家对此持怀疑态度，毕竟理论只有通过了观测验证，才能得以认可。那机器会不会猜想出万有引力定律，然后再通过仿真或者线下实验验证。当有了海量的数据和海量的算力，机器猜想也可能会出现。

从人类的三种认知演变成机器的认知，人工智能将带来明显的价值。不仅服务于产业的数字化转型，还将在科研领域发挥巨大的潜力，比如医药研发、新材料研发、太空天文研究、流体力学或者电路研究，都会应用人工智能。所以各国都围绕人工智能，进行国家和国家之间的竞合。

空间的升级相对好理解。在物理世界中，有物体、人、物理空间以及三者交互。在数字世界，可以依托现实空间，通过传感器捕捉到大量人的表情、环境的高精度数据，建模出高精度的数字世界，用于自动驾驶的仿真测试，或者用于防疫的治理模型等等。美国也用仿真的数字世界去测算地下水被污染的可能性，或者进行多种防疫策略下的假设、推演。物理世界和数字世界正在快速融合，再加上认知智能和决策智能，数字世界会出现大量的智能体，服务于人类和产业。

未来，人类的认知范式升级和虚实世界的融合，或者在感知智能发展背后，通过空间搜索引擎去搜索万事万物，这才是数字世界对整个实体经济的价值。

二、Q&A

问：我们《新硬件主义》这本书的思路上与田院长的比较一致，所以刚才听到您说软件反向去影响硬件可以确认我们《新硬件主义》这本书的逻辑以及逻辑的推演应该问题不大。其实我们自己写这本书时在人工智能未来发展方向或节奏这块是最弱的，原因是我们发现，移动互联网只需要回溯20年的历史，硬件的话是必须要去回溯50年的历史，而人工智能可能就要回溯100年的历史。另外我们明确看到类似元宇宙这样一些新一代计算平台，对于人人工智能的业务规模是急剧放大的，而且又加上最近一段时间，可能也有其他的AI独角兽会有一些资本运作的动态，所以就想请教一下田院长，怎么样去看AI未来的发展方向？

答：其实按照咱们《新硬件主义》的分层，终端和后台云端都在发生巨大的一些变化：

终端层面上，每个硬件都会带有眼睛，都会带有大脑，所以它不光是在终端上能做到智能推理，还可以去执行一些小模型等功能。简单举个例子，比如上海卢湾高级中学的同学们学习AI课程的成果。他们用商汤教育AI学习平台设计开发了一套基于视觉物体识别的人工智能垃圾分类的系统。实际上在终端垃圾桶上执行的就是干湿垃圾分类识别的功能，它是在云端训练出的功能，放到了终端上去使用。当然这是一个简单的例子，现在终端做推理已经不新鲜了。除此之外随着终端芯片的算力越来越强，同时终端训练的小模型的体量越来越小，终端是可以做训练的，这很可能成为未来的趋势，也有甚至多个终端的物联网或者边缘计算都有可能，以及工厂的一些终端联合起来将成为一种群体智能，就像路上的智能红绿灯、智能灯杆、智能充电桩、智能车等向群体智能演进。

云上的趋势，即带有AI智能计算的云，未来会有什么变化？

第一，AI的训练芯片、推理芯片都在国产化（截至2021年底，商汤自研人工智能推理芯片STPU S100-0AC芯片累计出货超16000片）；还包括训练框架的国产化也是现在非常明确的一个方向；

第二，我们经常会听到大模型，实际上应该叫基模型，为什么一定需要基模型？比如英伟达类似的企业，就像是一个AI模型的生产工厂，但模型的通用性并不是特别好，以前就像项目手工作坊，每个模型都是属于科学家独特的设计，有的模型就只能干某一个领域里的活，换一个领域就不行。这背后需要提高生产效率，现在逐渐开始往大模型发展。

大模型就是基础模型，基模型可以支撑很多跨场景的应用，背后是预训练的大模型、自动生成很多小模型、然后再去做应用，所以通用性会越来越好，未来在视觉领域的大模型会越来越多。商汤的AI大装置战略，能够真正意义上降低人工智能生产要素的价格。通过使用SenseCore赋能人工智能模型生产全流程，相较于行业数周的开发时长，我们的研发及工程团队可以将其缩短至数小时。随着我们不断提升SenseCore的技术和生产能力，我们每年生产的商用模型数逐步提升，2021年底商用模型数量达34000多个，相较于2020年底13000个增长了152%。SenseCore也让我们AI研发的人效逐年提高，2021年我们的研发人员每人年均生产的商用模型数增至5.94个，相较于2020年的3.45个提高72%，相较于2019年的0.44个提升了13倍，涉及四大业务智慧城市、智慧商业、智慧生活、智能汽车。

这些是我们目前看到人工智能一些重要的发展趋势，包括开源的方向、数据生产链条的方向、训练框架和国产芯片的适配以及大模型的适配。当然终端层面AI的渗透率会不断增加，也就是在高增长的新终端、新硬件上普及，不管是城市里的AI摄像头，还是汽车上AI的传感器，甚至手机上AI传感器，未来手机上的传感器会越来越多，包括在车上、AR眼镜等终端的计算芯片和传感器也会越来越多。

问：我们在写《新硬件主义》这本书的时候，比较遗憾是我们目前看不到太多的AI叠加硬件的应用蓝图或者应用场景。我们的推演逻辑为，首先未来的现实世界当中可以产生一些新的智能交互硬件；而后当下现实世界当中很多的物都要被改造，如普通的燃油车改成智能电车等等；第三，有可能会呈现出来一些人形机器的模样，比如说今年年底特斯拉自己的原型机可以问世。对应用场景的预期需要基于想象力，但也不能完全基于想象力。如果AI更新硬件的关系是“合之为一、衍之为万”的，即它能演变或衍生成各种形态或模样，但是这些形态或模样将能分布在哪些场景当中？从智能产业视角来看，关于场景性的蓝图有没有一个框架或者体系性的思考可以给我们分享一下？

答：首先，其实现在大家都能看到一些快速崛起的新硬件。1）车的智能化，可能始于智能车舱，逐渐叠加L2+、甚至L3这样的辅助驾驶的能力。新硬件会越来越多，但难以判断发展三年还是五年后会逐渐向L4级别去演进。外部因素包括全球疫情、产业供应链、科技格局、复杂国际形势的变化。整体来讲，未来十年在汽车产业的智能化将有翻天覆地的变化；2）城市智能基建的变化。现在已经逐渐在一些上海临港、广州等地的开放道路上开始试点Robotaxi、Robobus、无人驾驶的物流小车等。城市基建的智能化不完全依赖于单车智能，还有车路网一体，尤其在路上有大量的传感器之间联网交互去展现一个无盲区的交通环境，让车的自动驾驶性能得到提升。有可能出现一种场景就是L2水平地乘车，走在了一条L3水平配置的智能路网上。所以最终自动驾驶水平是由车、路的感知与决策来决定的。

第二，新终端、新硬件。一方面，AR眼镜目前开始逐渐从种子用户走向老百姓，可以看到天猫、京东上Pico和Rokid的AR眼镜销量可观。但多数是在静止状态使用的，而是否可以有进一步的效果优化，还是要取决于具体的技术发展和演进。另一方面，终端上的软件服务是否AR Native或者AI Native。如果只是把一个2D的APP直接放到AR或者VR眼镜上使用，并没有新的交互方式或者新的服务内容，就没有新的体验，比较像2D到3D的过渡状态。所以在AI眼镜上面，我们首先认为硬件成本会持续下降，其次也认为新的交互方式可能会带来一些新的体验、新的应用，催生新服务，可能在未来两三年在AI驱动下会看到新的爆款出现。比如说银行网点，AI数字人可以回答问题，充当智能客服。这背后AI通过驱动运营平台或新硬件，大家可能看不到这样的渗透率提升，目前的感知觉得服务体验还不错。

第二个新硬件场景，可能会在产业端使用、甚至包括军事端，美国最大的单子就是微软的HoloLens，是军方联合研发。然而在To C领域，如果成本击穿到百元级别后才有可能有规模级应用，娱乐的体验也将更好。

第三，机器人。现在中国的机器人国产化率，尤其是关键零部件（比如座机）的国产化率还没有那么高，但是中国已多年成为全球机器人的最大消费国。但距离成为第一大出口国，在低端甚至高端上，做到国产替代或者是科技创新，还有一段路要走。机器人的层面实际上是双向在进行：一方面是在硬件层面更加灵活，即运动层面；另一方面是在软件层面更加灵活，包括机器人的智商、情绪的表达、对人类情绪的感知、背后跨领域的知识图谱、多模态的服务等。严格来讲现在的数字人也许也是为机器人做准备的，随着数字虚拟人对行为习惯的了解，对各种语音语义的理解，是不是会逐渐成为有针对性的服务者或者成为你的替身呢？不光是在数字世界，在线下有可能作为一个机器人的载体为人去干别的工作？目前机器人可以代替人去执行一些简单、重复性的体力劳动，甚至也有可能代替一些脑力的工作。

这背后实际上要求AI模型通用能力要很强，且模型的生产速度是规模化的。就模型生产速度来看，目前是数以万计在生产，但模型个数是否会随着大模型和大算力的发展而形成井喷，从而产生几十万规模的模型？所以机器人可能会有更多场景性的应用，包括通用型的机器人会不会出现，这跟算法的通用一样存在挑战。

谷歌已经在湾区办公室测试一些家务机器人，可以擦桌子上的水、捡香蕉皮、收拾食堂。机器人能够干杂活是受到其背后的仿真训练引擎驱动的，白天几十台机器人在物理办公室里走动、学习，还可以24小时在线上通过数万个仿真的机器人在虚拟环境中做测试。就像Alpha Go一样，机器人的学习速度会非常快，而复制一万个虚拟机器人仅消耗背后的算力和前端的场景。当机器人有很强的学习能力，甚至可以克服一定硬件方面的短板，包括保持平衡、人机协同等，都会有很好的虚拟仿真和物理验证去实现这些增强。

以上是我们看到的一些新硬件的可能场景，可能半年以后又会有新的爆款品类出现。目前对于未来场景的畅想都是基于移动互联网时代的经验，这些经验主要就是各种应用与场景的交叉。未来在一些新的计算平台里也会基于人开发出新需求。这是硬件开发和场景应用的强牵引力，将带来两方面的发展：一方面，在新的计算平台中创造出内容应用场景以满足新需求；另一方面，将被满足的惯性迁移到现实物理世界当中，呈现出一些新硬件，可能以单体或组合形式。

现在和未来存在的最大的变化就是，人的交互对象的改变，之前主要是人与人之间的交互；未来可能会演变成人与人、人与自己的数字人、纯粹虚拟的数字人、纯粹虚拟数字人在现实世界的机器人。这种演变会非常超乎想象，带来非常创新和新颖的呈现形式。未来的现实世界会被塑造成什么样子，有什么样的智能交互应用，可能的切入点就是人的交互对象的改变，这也是一个非常有意思的观察点。

问：底层通用大模型是商汤科技非常重要的部分。理论上说大模型有很多参数变量，在实际落地应用时，对客户的算力有一定要求吗？算力越高意味着成本也较高，客户会考虑相关成本问题，而对AI公司解决方案的选择产生影响吗？

答：根据需求是分类的：1）科技能力较强的客户更加看重AI这方面，或者说本身就会变成AI的运营方和服务方。比如一些自动驾驶企业开始建自己的超算中心，他们认为AI超算中心是核心竞争力；其他行业也会出现这种情况，头部的公司都会拥有一个AI模型工厂。对于这类具有AI模型工厂的企业，可以赋予的是模型的操作引擎；2）服务或应用层面能力较强的客户。这类客户不想在AI基础层面投入较多，更多集中于AI的SaaS层，可能只需要制作数字人或运营平台，更像是AI云服务的使用者，更多地在应用上花费精力。还有一个趋势是软硬一体，指的是将算法放入硬件里，比单买软件单买硬件再集成，可以更好地降低成本。

问：人工智能企业做软硬一体和纯做算法软件这两种模式未来的一个发展趋势是怎样的？还是说针对不同客户分层？

答：关于软硬一体，首先明确软硬件的意义，软件是制定规则和策略的，硬件负责执行，像灵魂和身体的关系。软硬一体的分工实际上是AI软件具有千变万化应付复杂环境、复杂任务目标的智能的服务能力，用硬件来执行。在这种方式上，未来的趋势就是软件和硬件共同努力发展。

纯硬件也有很大的价值，可以解决交互、传感器的问题，但是用AI软件去定义硬件的方式更能提高竞争力。现在手机的CMOS传感器，已经进入竞争非常激烈的红海市场。但如果把AI算法嵌入变成AI传感器，能带来大量竞争力的提升，市场空间非常大。手机加上软硬一体的AI传感器就能成为个人的影像工作室，自动优化处理，以前需要多个APP才能实现的功能，现在AI ISP芯片就能解决。目前软硬一体的方式已在落地，未来用AI软件去定义硬件的方式将越来越多。

问：海外目前AI与硬件融合的发展态势是什么样的？对比海外AI与硬件结合上，国内能不能走出一条独特的路，或者形成独特的特质？

答：现在国产化的速度越来越快，不管是基础设施的AI渗透力，还是终端硬件的AI的渗透力，至少和去年相比要快得多。相对而言，算法、软件层面研发受疫情的影响小一点，硬件层面受到影响大些。国内外合作方面，目前为止亚洲地区的合作是很多的，但是东西方的合作受到了一些挑战。亚洲地区具有共同的一些诉求，比如软硬一体可以多功能测温的产品，由国内向日本、新加坡、越南、泰国等地区输送。所以说软硬一体的模式，某些品类上在亚洲地区具有很好的市场。从技术的发展路径上，国内外厂商都在朝着大模型、新交互方式、终端的感知能力等方向发展，大体上的方向是一致的。

问：国家提出了全国统一大市场，从这个角度来看，未来会产生较大的影响吗？

答：统一大市场是利好，有两个方面的影响：1）统一大市场实际上是通过政策将小市场打通，激发全国科技竞争的红利，从而降低我国交易市场的成本，拆除隐性阻碍，改善营商环境；2）促进不同区域头部企业的合作，产生更好的平台。比如对于智能汽车来说，相关企业进入一个汽车制造大省，在统一大市场的引导之下，如果企业的技术强产品好，从政策的角度来说，是完全支持形成跨省的产业链集群，是非常好的一种形式。

除此之外，也会有一些其他利好。比如，不同地区对新能源车发放的补贴是不同的，有的地方补贴混动，有的地方只补贴纯电。但在统一大市场后，地方不仅是看当地的头部汽车企业的产品类型，还要看纯市场竞争优势如何体现，如何加强能源安全、汽车供应链的深度合作。所以对于AI软件公司，统一大市场后，它们能更好地跟全国的硬件产业链结合，推动发展。

来源：果壳中的田丰

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

AI软件定义硬件，硬件改变世界

相关推荐