第四范式:借势PC霸主,推出企业级AI操作系统

第四范式:借势PC霸主,推出企业级AI操作系统

第四范式的定位一直不是SaaS产品公司,其核心能力在于 PaaS 层,AI应用的构建和积累都向平台集中发力。

 

回顾五年的产品发展路径,第四范式联合创始人、首席研究科学家,陈雨强告诉《亲爱的数据》:

“第一代、第二代产品的时候,AI对人才的要求特别高,需要非常强的统计学和编程功底,特别是C++底层编程,还要python编程和组件代码能力。先知平台(Sage)的出现,用一个拖拉拽的界面,先建模,后上线,方便了数据科学家。2015年,在建设先知平台的同时,(我们)科学技术部做了两件事情,第一,高维机器学习模型,保证效果。第二,AutoML技术,不依赖于大量科学家手工打造模型。归根到底,三个字,降门槛。”

 

AI的原始社会,自己动手、丰衣足食。AI的现阶段,陈雨强强调:“以后就不会这样了,都要现成的AI应用。”

第四范式:借势PC霸主,推出企业级AI操作系统

 

2020年,越来越多的解决方案瞄准AI整个生命周期。AI模型开发从启动到结束,包括数据准备、模型训练、模型测试、模型上线等环节。每一个环节做到极致,整个周期才有可能高效。在规模化中追求极致,有一样东西非常重要——标准化。

 

图片、文本、日志,数据的形式多种多样,如何标准化/p>

不同的业务场景,不同项目的数据平台,如何标准化/p>

 

AI应用需要打通数据,第四范式就推出了“数据形式”。

 

所谓“不定义,无数据”,数据从哪来、到哪去、类型、结构、关系……想要标准化,就是全方位地定义标准与格式。这些工作并不是一个新概念,名叫“数据治理”。数据形式是数据治理的终点。

 

开始,一般是IT工程师对数据治理有深刻体会,也是他们最先意识到数据治理的重要性,而且数据治理最终是在IT层面落地。接着,AI工程师也感同身受了。

 

数据问题和IT问题高度混杂。第四范式是一家AI公司,几乎拥有一家IT公司全栈人才,与IT公司一模一样的人才配置。

 

AI公司集体吐槽:

“如果一个AI应用工作量是100%,那95%都是在数据上面。”

 

陈雨强吐槽:

“定义不清楚的话,AI生命周期后面所有环节,所有的人都会偏离,这也是做AI那么难的原因之一。做不到,AI科学家跑到每个细节去,跟每个工程师讲,为什么这个数据必须这么编码,为什么这个数据必须这么去拿,相当于做IT的人必须懂了AI,才能把这个事情完全做对。”

 

一场嵌入式的革命,工程化、集成化随处可见,烦Skr人。

让一个新事物融入原有的体系是高难度、精细化的工作,也有人管这个过程叫,企业「智能化改造」。

 

AI落地不是科学发明,是一个具有时代代表性的复杂工程,背后藏着排山倒海的工程细节。

 

数据治理就好比是建筑物的整体地基。

数据形式就好比万里长城上的砖、天坛祈年殿里的榫卯、宫苑凉亭里劈成条的竹篾,它们是藏在中国建筑里的灵魂。从某种角度讲,数据形式是藏在AI技术里的灵魂。

 

“数据形式”一口气解决了三个问题。

 

第一个,数据缺闭环,建模过程没有反馈机制。比如,人是环境的函数,人的成长需要有外部环境持续不断地刺激(教育)。数据不断供给,模型不断迭代。

 

第二个,数据不一致。使用线下的数据建模,到了线上模型效果不好,原因是线下的数据经过了按照BI思路的ETL,导致使用了和真实的线上数据不一致的离线数据。错误的数据训练出来的模型到了线上,当然效果不好。

第四范式:借势PC霸主,推出企业级AI操作系统

数据形式是针对数据治理环节提出的标准,浓缩了各个业务场景中数据治理环节的经验沉淀,一键打开就能进入相应业务场景的AI应用,比如推荐场景、反欺诈场景。

有了它,实时与离线数据就能以同一个标准接入。

有了它,能做到“一键打通”。

有了它,准备就绪的数据,从三类knowhow上解耦出来。

 

作为客户,甚至根本就不需要知道它是怎么做到的,只需要知道,这个东西能够保证数据一致性,保障效果也比较好。

 

数据形式也不是一蹴而就的,数据蓄水由分布式文件系统HDFS负责,实时特征由数据库(RtiDB)负责,任务管理与调度由AI的操作系统搞定。这个专门的操作系统就是AIOS。

02

AIOS是什么/strong>

但凡一台笔记本电脑都会有一个桌面,就像太阳每天从东方升起。

IT知识成为生活常识,这源于1990年,比尔盖茨说:“微软公司的使命,是让每个家庭的桌上都有一台电脑。”

陈雨强说:“我们希望每个企业都用上一个Sage AIOS。”

但凡一个新世界,就会有一个入户门。

用户进入AI的世界需要一个易操作的桌面,AIOS瞄准了这个痛点。Sage AIOS可以理解为一个AI版的Windows,很多产品功能都可以类比。

 

第四范式:借势PC霸主,推出企业级AI操作系统

HyperCycle套件(ML、CV、NLP)类比开发工具VisualStudio,利用库伯学习圈理论,帮助客户低门槛的进行AI应用构建。

陈雨强说:“库伯学习圈(HyperCycle)产品,给业务人员用,不需要建模能力,不需要代码能力。”

第四范式:借势PC霸主,推出企业级AI操作系统

数据形式在数据中台上,因为训练框架需要数据输入。有些重要的组件也跑在数据中台与资源调度上,训练框架需要算力调度支持。

 

“我的电脑”在Windows桌面上屹立不倒,它在AIOS版里,是“数据中台”。

04

“用软件定义算力”,第四范式是怎么做的/strong>

 

“我们的第一行代码,是写在GDBT上的。”第四范式副总裁郑曌告诉《亲爱的数据》。

 

这里的GDBT,全称是“General Distributed Brilliant Technology”,自研的大规模机器学习框架。那么问题来了,为什么第四范式的第一行代码不是写在推荐算法里/p>

 

很多AI解决方案提供商都有软硬一体的优化方案。可谓八仙过海各显神通。可是,很多企业的软件框架是把开源的代码拿来改一改,甚至有的连修改的能力都没有。最后的结果无非是向业务妥协,放弃一些做不到的场景。

 

业界有人感叹,现在是什么时代,是算法定义计算的时代。

第四范式:借势PC霸主,推出企业级AI操作系统

郑曌告诉《亲爱的数据》:

“一个不懂算法的人,很难预计一个机器学习任务需要消耗多少内存,用了多少算力,这需要查看日志,手工地去调整资源设置。举个例子,随便抓住一个第四范式办公室里路过的AI工程师,突然问他,上周汇报的word版《工作周报》消耗了笔记本电脑多少内存也会一脸懵逼,原因是很难估算。因此,分布式执行引擎具备自适应调度功能尤为重要。”

 

所以,第四范式2020年也推出了一个分布式调度系统,HyperScheduler(以下简称HS)。

没有资源调度会怎么样/p>

“一核有难,八核围观”,利用率不高,浪费。利用率太高,容易挂了。

所以,需要Sage AIOS的“HS”,类比Windows“进程调度器”。通过自动资源推测、容器动态调度等方式,让用户不感知资源细节。通过资源共享、虚拟化等方式,让集群算力利用率最大化。”

 

GDBT、HS和实时内存数据库(RTiDB)在 AI 全生命周期中扮演着核心引擎的角色,其所支撑的能力,不管是面向行为数据与反馈数据的自动数据处理、自动特征组合,还是面向模型训练的算法自动探索、超参自动调节,这些工作,都在算力消耗中占到了极大比例。底层框架任何一个微小的技术实现,给全生命周期带来的影响都会成倍放大。

所以,越是底层的能力,越需要极致、入微的优化。

 

第四范式还有一系列组合拳:PWS任务调度系统,定制X86机器学习芯片,自研机器学习专用加速卡,数据压缩算法,FPGA异构加速芯片计算力调度。

 

2019年的产品发布会上公布的数据显示,相比普通服务器,SageOne 软硬一体解决方案可实现高维模型构建过程的6-12倍加速,TCO 降低到1/2到1/3。

“2020年,(我们)把TCO 降低到了1/10。”郑曌谈道。 

 

在《亲爱的数据》看来,当一部分AI企业还在卖算法的时候,第四范式建造了一个端到端的平台,从拖拉拽,到模型可以直接上线。

 

2020年,第四范式进行了产品升级,产品升级的说法也不准确,因为不止是产品升级了,产品理念也升级了,而整体的产品形态是AIOS+App。AIOS是积累了五年的AI应用的底座,AIOS是一个承载无数数据形式与应用的操作系统。第四范式 “Sage”产品下,发展出Sage AIOS、Sage Studio、Sage HyperCycle ML等。各个组件也比较灵活,这取决于客户的实际需求。

 

市场竞争还停留在Sage Studio类似功能的阶段,第四范式却已进入到AI桌面应用的广阔天地,进入到AIOS+App的产品理念,顺着这个思路,未来有巨大的想象空间。

 

AI是一个崭新的市场,在做得好之前,先要做得对。这是决定生与死的一步。

 

五年前,第四范式就已经出发。2018年,成为AI独角兽。2020年,第四范式仍然是一家创业公司,落地8000+客户,覆盖12000+场景。2020年8月20日,主题为“万悟赋能,商业生花”的新产品发布会在上海举办,一个“悟”字,既包括AI落地方法论在经验摸索中“开窍”,也暗含产品理念在“想通”中升级。

 

灵感刺眼,顿悟来临。AI落地没有永远正确的答案,且行且思,且行且悟。

(完)

更多阅读:

1. 史上最大,人工智能算法模型GPT-3问世,这意味 着什么br>

2. 消失的人工智能 “法外之地”

3. 北极圈内收数据,圣诞老人不知情:AI如何应用于油气勘探/p>

4. 黑客如何攻击图神经网络小看土豪转账一分钱

第四范式:借势PC霸主,推出企业级AI操作系统

第四范式:借势PC霸主,推出企业级AI操作系统

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11208 人正在系统学习中

来源:亲爱的数据

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月18日
下一篇 2020年7月18日

相关推荐