数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实

如何让算力像水电一样随需可取?如何让机器拥有认知?如何让异构算力协同工作?

实际上,想要实现对复杂任务进行求解,需要一台可自主求解复杂任务的知识机器。那么,智能计算数字反应堆大科学装置是一个理想的选择。

DeepTech 从之江实验室获悉,日前,之江实验室自主研发的算力聚合和任务调度的全新平台——数字反应堆之江瑶光(以下简称“之江瑶光”)操作系统 1.0 已经正式上线。

之江实验室智能计算数字反应堆从 2021 年 10 月宣布启动,经一年多的努力,到之江瑶光操作系统正式上线。这意味着,之江实验室的各种异构算力资源形成了一个无形的“算力池”,可同时供大量科研项目共享使用,而无需为每个科研项目配备独立的算力资源。

这种共享模式的另一个好处是,当有些项目提出大规模计算任务时,也可以通过之江瑶光操作系统方便地实现相关目标。而对于日常的计算任务,只要有空闲的算力资源,更是随时可被满足。

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实图丨之江实验室数字反应堆首席架构师潘爱民研究员(来源:之江实验室)

之江实验室数字反应堆首席架构师潘爱民研究员表示:“之江瑶光操作系统的上线对之江实验室来说是一个里程碑,它代表了之江实验室提出的‘智能计算操作系统’从概念成为现实。我们将这种计算能力赋能给一批科研项目,使这批科研项目在各自领域里取得了比过去更高效的科研成果。”

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实

“新方法、新工具、新手段”,智能计算操作系统从概念成为现实

潘爱民指出,智能计算数字反应堆的使命是通过算法和算力,并利用数据和知识,来解决复杂任务,尤其是带有智能需求的复杂任务。

那么,到底什么是智能计算数字反应堆呢?首先,我们先来了解一下智能计算数字反应堆的概念。根据之江实验室的公开信息,智能计算数字反应堆是“复杂任务自主求解的知识机器”。

想深入地理解这个定义,要从之江实验室的智能计算系统模型讲起。一个典型的智能计算系统,包含“任务、算法、算力、数据、知识”五个核心要素。其中,任务是指“人机物”三元空间中的复杂任务,通常带有智能的需求,比如很多业务场景下的机器人将代替人类完成一些日常工作。

自主求解是通过算法和算力来获得解的能力,这是建立在人工智能和各个科学领域已经有了大量成果积累的基础上,也是智能计算数字反应堆的核心能力。知识机器说明了数字反应堆自身的智能特性,它既融合了大量的人类知识,也在解决各个领域复杂任务的过程中沉淀了领域知识,形成了领域知识库。

之江实验室致力于打造全新的基于智能计算的大科学装置,为科学发现、社会治理、数字经济发展提供新方法、新工具、新手段。那么,如何来理解这其中的“三个新”呢?

具体来看,新方法,是为各个领域提供了智能计算的方法。相比传统的方法,智能计算可以提高解决问题的效率,使过去大量依赖于人力或者物理世界探索的做法通过算法和算力来完成。

在有些领域中,通过恰当地重新定义问题,以及收集足够多的样本或数据,智能计算方法可以革命性地提升相关领域的研究水平。

新工具,指智能计算大科学装置是一个新的计算工具,也是一个基于智能计算的解决问题的工具。新手段,指智能计算大科学装置不仅是一个计算装置,也包含了数据和知识的内涵。它以一种前所未有的方式,将数据、知识与算法、算力结合起来,对各个领域中的挑战任务进行探索。

潘爱民进一步指出:“科学发现、社会治理和数字经济都越来越依赖计算的手段来向前发展,智能计算不仅会加速这些领域或行业的发展,也会使这种依赖变得更强,最终使未来的智慧社会成为高度依赖计算的社会。”

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实图丨之江瑶光操作系统的算力大图(来源:之江实验室)

与其他的算力平台、超级计算平台或高性能计算平台相比,之江实验室数字反应堆能够接入各种不同类型的计算资源,包括智能计算集群、超级计算机、高性能计算集群、通用计算集群等,而且绝大多数情况下无需侵入它们的系统。甚至“闲散”的计算资源也可以加入到数字反应堆中,从而形成一个超级异构的计算平台。

另一方面,数字反应堆对应用层支持常见的算法库或计算框架,满足大多数场景下业务任务中的计算需求。潘爱民表示,之江瑶光操作系统的版本之所以持续迭代,就是为了让算力资源方便地接入进来。进一步地,使用这些算力资源的门槛也将越来越低。

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实

有理想、有情怀、有战斗力的团队

实际上,建设智能计算数字反应堆的过程并非一帆风顺。该团队遇到的第一个难题是对于“数字反应堆”这个名称应该如何理解,以什么形式呈现,如何实现。

据介绍,在目标、架构和技术路线的设计方面,之江实验室专门建立了智能计算数字反应堆架构师团队,组织了实验室在软件工程、计算框架、计算应用等方面的一批专家,进行了半年左右的调研、讨论、设计,进而形成了现在的方案。

在项目组研发初期,他们还面临着“时间紧、任务重、人手紧缺”的问题。在组建研发团队的同时,与杭州指令集智能科技有限公司开展合作,快速搭建了拥有完全自主知识产权的系统原型,通过几个应用跑通了从应用侧到调度侧的流程。再之后,经过每一到两个月一个版本的迭代,实现了系统的可用、高效和稳定。

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实图丨从左到右依次是 杨非、潘爱民、高翔、邱鹏、刘仪阳、陈旭(来源:之江实验室)

在技术上,该团队也遇到了诸多具体的难题。之江实验室智能计算软件研究中心算法专家杨非举例说道:“比如大规模计算任务的优化、具体执行和部署方案设计,多个异构计算集群的调度策略设计,多个应用领域专用平台与通用操作系统的关系和架构设计,多级存储体系的设计和性能优化等。”

针对这些问题,他们通过组织专门团队进行技术攻关,经过两三个版本的迭代,逐渐解决了这些问题,并且实现了相应能力的“可用”和“好用”。

不容忽视的是,由于智能计算数字反应堆接入各种不同类型的算力集群,这些集群呈现出异构、作业类型和使用方式不同等特点,特别是历史上已经建设存在的 HPC 算力集群,需要在智能计算数字反应堆实现一致的算力视图和作业视图,构建统一的作业执行调度体系。

之江实验室云原生领域专家高翔表示,在这个过程中,团队贯彻潘爱民研究员提出的“非侵入式接入算力集群”设计理念,采用集群设备插件的方式,将各个异构集群通过设备插件接入到数字反应堆统一体系中。“并且,在上层构建之江定义的元调度器,通过巧妙的工程技术架构,解决了数字反应堆面临异构算力集群建设中进行算力聚合的技术难题。”

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实(来源:之江实验室)

先进技术的背后离不开专业团队的支撑,特别是对于一个成功的操作系统,除了操作系统本身有业务价值以外,其背后的团队尤为宝贵。

据悉,数字反应堆之江瑶光操作系统团队是这一年内快速凝聚起来的超过一百人的系统软件团队,团队平均年龄 30 岁,成员大多受使命感召而加入进来,很多来自国内头部信息技术企业或科研院所,在相关领域积累了丰富的研发经验。

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实图丨之江瑶光智能计算数字反应堆部分团队成员(来源:之江实验室)

数字反应堆项目的顺利进展也证明了这是一支有理想、有情怀、有战斗力的团队。其中核心团队成员具备超过五年的系统软件研发经验,数字反应堆项目正是得益于团队成员这些经验的积累,为研发的整体进度提供了有力保障。

有意思的是,在之江瑶光操作系统团队中,有一半的成员需要同时兼顾两个岗位——他们既是系统程序员,也是系统架构师。终其原因,之江瑶光是一个复杂的操作系统,而驾驭该系统的前提是,需要熟悉各种技术的“多面手”,包括云原生、高性能计算、存储系统、缓存管理、常见算法框架,甚至超级计算机的系统技术等。

潘爱民表示:“在我个人工作经历中,已经多次建立操作系统团队。而之江瑶光是我在之江实验室新建的操作系统团队。过往经历和团队的通力合作,为之江瑶光操作系统 1.0 版本的按时发布奠定了坚实的基础。”

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实

未来,让算力随时、随处可用

智能计算数字反应堆之江瑶光操作系统 1.0 是基础版本,也是一个好的开端,其初步实现了数字反应堆的功能,能够将常见的算力资源接入到系统中,并支持常见的各种计算需求。

该团队透露,按照现代操作系统的通行做法,之江实验室计划在每年的下半年发布之江瑶光操作系统的重大升级版本。

数字反应堆之江瑶光操作系统1.0正式上线,智能计算操作系统从概念成为现实(来源:之江实验室)

据了解,下一代的版本将更加稳定、高效,能快速地部署到各种计算场景中;另一方面,也将更友好地支持开发者以简捷的方式实现各种计算应用。

潘爱民表示,团队的终极目标是让算力“随时、随处”可用,其中算力不仅指同一个数据中心内部的计算集群,也包括边缘侧或者跨数据中心的计算资源。

而“随时、随处”可用则意味着,专业的计算服务将来便捷可得。“我们的每一个版本都会向这个目标逼近,预计不超过三至五年,就可以实现算力随时随处可用的目标。”

来源:DeepTech深科技

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年11月13日
下一篇 2022年11月13日

相关推荐