【故事】《阿里云的这群疯子》:深度好文阅读推荐

阿里云的这群疯子

转载于《阿里云的这群疯子》作者:史中 浅黑科技
因为有故事,所以我们不惧渺小

【故事】《阿里云的这群疯子》:深度好文阅读推荐

一、一个大问题

2008年9月,王坚加入阿里巴巴。

马云把他从微软亚洲研究院常务副院长的位置挖来,是因为阿里巴巴面临一个重大的危机——公司的“脑力”快不够用了。

阿里巴巴的“脑力”,其实就是“计算力”。

  • 几亿用户无论是在淘宝剁手,还是支付宝上转账,这一切都要靠巨大的计算力来思考、记忆。

    恰恰和人一样:

  • 如果这个“大脑”记忆被填满,就没办法储存新的商品和交易记录。

  • 如果这个“大脑”思维速度跟不上,就没有办法让用户及时下单、付款。

2008年,中国虽然已经加入 WTO,还把国际友人请来热热闹闹地开了一次奥运会,但在科技领域仍然是个标准的“三无”国家:没有自己的操作系统,没有自己的芯片,同样没有自己的计算力系统。所以,购买国外成熟的设备和系统,几乎是 BAT 和所有大国企的唯一选择。

国外的东西,无外乎“IOE”这三样标配:

  1. I(IBM,服务器提供商,他们提供的服务器俗称“小型机”)
  2. O(Oracle,数据库提供商,他们的软件是著名的“甲骨文商业数据库”)
  3. E(EMC,存储设备提供商,他们提供的是“集中式存储”)。

鲜有人知,那时的阿里像依赖氧气一样依赖 IOE。

一个支付宝的同事给了我翻出了当年的数据:2008年,在阿里的IT架构中,淘宝和支付宝使用的绝大部分都是 IBM 小型机、Oracle 商业数据库以及 EMC 集中式存储。

当年用户激增,数据越来越多,每天早上八点到九点半之间,服务器的处理器使用率都会飙升到 98%,离爆棚就差两个百分点。

阿里巴巴就像赛道上的跑车,速度飞快,但引擎已经发红,再踩几脚油估计就要冒烟,后果不堪设想。

可能连马云自己都没有想到,阻碍阿里巴巴增长最迫切的阻力不是商场上的博弈、不是政策的变化,而居然是 IT 基础设施的瓶颈。

怎么办钱继续买服务器和软件啊!

这话听上去没错,但是有两个小问题:

  • 一个问题是太贵。
    那时候小型机价格大概是从几十万到百万人民币,商业数据库软件费用差不多几千万,外加一大笔维护费。王坚 08 年刚来阿里时就给马云算了算,按照这样的速度“剁手”,光是买机器和软件就足够让阿里破产,阿里得找到一种成本更低的技术架构。

  • 另一个问题是不好用。
    阿里在08-09年的时候,业务增长速度实在太快。每年都是十几二十倍,IOE 虽然都是美国公司,但事实证明美国的月亮也不会更圆。它们的系统并没有经受过服务几亿人这么大规模的考验,此时已经变得非常难用了。

2008 年中旬,马云召开了内部会议。事情已经刻不容缓,要研发一套新的技术架构来换掉阿里巴巴的旧引擎。

这个新的计算架构应该是什么样呢/h4>
  1. 它要便宜
    就像一日和三餐一样,无论去哪家餐厅,都不如自己做饭更实惠。长远来看,自己开发一套计算架构显然是最经济的。
  2. 它要好用
    为了满足阿里巴巴庞大的计算任务,这套系统至少要比 IOE 表现更好,能同时调度数千台计算机,组成一个巨大无比的“大脑”。

于是,“阿里云”这个词,第一次出现在公司高层的话语里。而王坚,加盟阿里巴巴之后的职务恰恰是“首席架构师”,他的使命就是从零开始建立这个云计算系统。

阿里云成立

二、招兵买马

满弓是阿里云的第六位工程师。

招他进来的,是王坚在微软的旧部,阿里云的第一技术负责人林晨曦。面试结束时,林晨曦歪嘴一笑,提醒满弓:“你加入阿里云之后,要做好随时出差的准备。”

果然,满弓签完入职合同当天下午,就被“附赠”了一张火车票,他要去天津帮助招聘。

满弓这样回忆十年前的那个下午:

“阿里研发院” 2008年10月才成立,已经错过了招聘季的黄金时期。但是我们又确实太需要人才了,于是刻不容缓,要再扫荡一下那些大学,把“漏网之鱼”打捞回来。

2009年 阿里云的招聘海报

【故事】《阿里云的这群疯子》:深度好文阅读推荐
经过这样“连滚带爬”的招聘,到了2008年年底,阿里云凑够了了三十位工程师。

话分两头。

下有林晨曦招兵买马,上有王坚每天“画饼”。

马云深受王坚鼓舞,虽然不懂技术,但是他逐渐发现,云计算这件事情的价值比一开始想象中的要大得多。

这是因为云计算系统会制造出一种具有极强弹性的计算力,这样的计算力一方面可以为阿里巴巴添置家当,另一方面还可以“批发零售”给无数中小企业,为未来世界建设了一整套“基础设施”。

这样来看,就把“独善其身的工具”变成了“兼济天下的生意”,这不正是马云创建阿里巴巴的基本信念吗/p>

从这一刻开始,马云就对阿里云寄予重望。只要有空,就到阿里云的团队里和林晨曦、满弓这些工程师们一起聊天讨论。

马云、王坚和工程师们的合影

【故事】《阿里云的这群疯子》:深度好文阅读推荐

三、淘宝的一场战争

时间不等人,转眼到了2009年。

在隔壁淘宝网的普通员工中,有人在“隔江犹唱后庭花”,有人却已经感到“山雨欲来风满楼”。

2009年,小邪刚刚加入阿里一年,在淘宝网参与系统研发。当时他和同事都感觉到,淘宝网面临的矛盾非常明显:

业务并不赚钱,09年只有一个季度勉强盈利。而赚来的这点钱,眼看都要填进去购买服务器和软件产品,入不敷出。

小邪记得很清楚,他昨天刚听说隔壁阿里云准备搞云计算,今天就迎来了一个“特殊的客人”。

林晨曦走到淘宝网技术团队面前,搬个板凳兀自坐下:“你们淘宝的大数据系统用我们的阿里云架构吧。”

“代码已经写了多少小邪问。

“几行吧。”林晨曦说。

事情就这样定下来了。

云梯1、云梯2,两套系统一边搭建,一边在淘宝内部实验,一边承担部分计算任务以缓解现有系统不足的压力。

当时淘宝技术保障数据库管理员的负责人是后羿。他几次欲言又止,还是硬着头皮在内部会议上宣布了这个消息:淘宝要放弃 Oracle,转投自研的数据库架构了。

结果,八十多个 Oracle 工程师把他堵在会议室里,“你再说一句试试

他们的愤怒完全合情合理。“如果上边铁了心要干,兄弟们的前途在哪里

最终,一场恶斗转化成了几十个工程师坐在会议室促膝谈心。技术人是讲理的:淘宝已经这么大了,如果现在不刮骨疗毒,自己砸自己的饭碗,将来整个淘宝都会命悬一线,到时候大家还不是沦落天涯。想通了这些,工程师们也冷静多了。

这八十多个工程师里,包括后来的阿里技术保障部负责人振飞。振飞站出来说:“好,让我们学新技术可以,但是咱们拿事实说话。你后羿敢不敢跟我打个赌三年为限,用新技术的淘宝核心交易系统必须达到零故障!”

后羿咬咬牙,敢!

但后羿一个人的分量还远远不够重,毕竟淘宝上有这么多业务,这么多买家,这么多卖家,万一数据迁移失败,谁来负责任淘宝技术总架构师行癫(现任阿里巴巴 CTO)见状,把心一横,宣布自己和部门也愿意站出来,共同承担技术风险:“干好了我们大家荣誉等身,干坏了要杀要剐我来扛!”

看到行癫都赌上了自己的身家性命,也就没人再说什么了。

2009年秋天,轰轰烈烈的 IT 架构升级项目在淘宝网正式启动。一群 Oracle 工程师,就这样含着泪,一点一点亲手拆毁自己安身立命的系统。

【故事】《阿里云的这群疯子》:深度好文阅读推荐
说起来,这个地方算是阿里云最早的办公室,但是门口也没个牌子。直到半年后他们搬出大厦,保安都不知道这帮神神叨叨的人究竟是干什么的。(不过十年后的今天,他们的手机里的很多 App 也许都跑在阿里云的服务上。)

每天,工程师们除了噼里啪啦写代码,还得顺便“荒岛求生”——自己订水、买垃圾桶、修桌椅板凳、修无线网,连茶叶和咖啡都是从自己家带来的。

不过,他们坚信自己在做的事情还是挺伟大的。“没准将来我们成功了,我们写的飞天第一行代码还能印在T恤上呢!”角落里有人瑟瑟发抖地说。

那个时候的他们,看上去和一帮戴着眼镜的教徒无异。

时间马上又到了夏天,北京的夏天,你懂的。当时测试系统的服务器就架在办公室里,这就是个巨大的火炉。大厦的空调不行,还没到七月份,程序员就热得撑不住了。为了降温,每天上午他们都叫冰场送两大块冰来。

有一次周六,马云来北京,专门到阿里云的办公室去看看。林晨曦赶紧想打开电脑给马老师展示一下自己团队的成果,结果按了半天开关,机器都没反应,他才发现大厦停电。马云就这样坐在办公室等了半个小时,直到物业恢复供电才一睹阿里云飞天系统最初的芳容。

王坚跟马云说,这帮人很能干,每天晚上都加班。马云惊了,在这种地方还能加班没过几天,阿里云就搬出了这幢大楼,进入了有空调的办公室。

同事们往办公室里运冰

【故事】《阿里云的这群疯子》:深度好文阅读推荐

六、“骗子”王坚

解决了稳定性,阿里云就像抓住了救命稻草,总算可以暂时喘口气。

这些成绩,也已经成功引起了其他公司的注意。于是 2010 年,在阿里巴巴出发两年后,很多大公司纷纷着手研究自己的云计算技术。

但所有人都没想到,有一只巨大的怪兽正在必经之路上静静等待着。

这只怪兽名为“5K”。

你还记得“云梯1”和“云梯2”两个项目吗时,终于轮到他们唱主角了。

两座云梯,就像“争夺家产”的两兄弟,规则很明确:

  1. 要想成功肩负起阿里巴巴的底层计算系统,就必须有能力独自调度 5000 台服务器。
  2. 两兄弟谁先跑到 5000 这根线,就“赢者通吃”,继承家业。

而 5000 这个目标,就写为 5K。目标就摆在这,但无论是“云梯1”还是“云梯2”,都死活达不到这个指标。

李超是飞天伏羲调度系统的研发工程师。他用苦逼来形容自己的2010 到 2012。当时他带着同事们没日没夜地加班,收获的就是一个接一个的系统错误。就这样,一年过去了,两年过去了。

王坚是一个性情温和的人,但是那段时间,他几乎天天跟团队拍桌子。

满弓回忆,每次一开会大家都会把桌子收拾干净,把水杯什么的拿走,以防出现“事故”。

我记得有一次博士(王坚)很生气,砰砰地拍手机。有一个工程师实在受不了了,说博士,你拍的是我的手机……

现实不是小说,神兵天降和剧情反转并不存在。纵然他们几乎尝试了所有可能的技术策略,但就是没有一种方案可以成功调度5000台机器。

2012年底,以开源软件为基础的“云梯1”计划实现了4000台集群调度,而阿里云团队更看好的纯自研的“云梯2”还在1500台集群的数量徘徊。

越是困难时刻,越会产生分歧。

实话实说,当时大多数的技术大牛,都觉得用经过全世界验证的 Hadoop 为基础的“云梯1”更有希望,对“云梯2”嗤之以鼻。而阿里云这帮人就是不认。因为根据他们的推断,Hadoop 在4K到5K的路上,肯定会遇到一个不可逾越的沟壑,于是倔强地带着团队大举投入“云梯2”。

在一片质疑和争吵中,“最寒冷的冬天”就这样降临了。

1934年到1936年,从苏区出发到陕北会师,三年长征,工农红军从8万人锐减到3万人。

从2010年到2012年,在阿里云最艰苦的长征三年,“战损率”只多不少。

由于没有成绩没有进展,连续几年阿里云整个部门都在集团拿最低分。

满弓、李超他们开始收到团队同学的辞职书,林晨曦也收到了部下的转岗信。这些邮件,最终都一封不少地塞在王坚的邮箱里。

一般来说,三年时间足够判断一件事情到底靠不靠谱。“世界末日”那年,人们几乎已经认定了阿里云不可能做出一套云计算系统了。不仅如此,很多阿里的同事都叫王坚“骗子”。开始大家还在背地里说,后来,大家都不再忌讳,公司里流传着很多骗子王坚的笑话。“一个学心理的博士居然当上阿里巴巴的 CTO,心理学学得真好啊!”

无论是“伏羲”还是“盘古”,这些开天辟地的名字,此时都成为了阿里云这些人要满足“个人野心”的明证,成为了狂妄的代价,成为了“不自量力”的耻辱。

当时内网论坛里对阿里云和王坚的吐槽

【故事】《阿里云的这群疯子》:深度好文阅读推荐
这是当年参加 5K 项目的同事,他说,这些人中现在只有十几个还在阿里巴巴。

李超又给我看了另一张照片。

【故事】《阿里云的这群疯子》:深度好文阅读推荐
之前有人无心说的那句“没准将来我们成功了,我们写的飞天第一行代码还能印在T恤上呢!”也成为了现实。

【故事】《阿里云的这群疯子》:深度好文阅读推荐
在芯片领域,我们面对美国垄断只得眼睁睁地沉默。

在操作系统领域,我们面对美国的背影只能艰难追赶;

但是在云计算这片土地上,从王坚带着一群理想主义者横空出世,到胡晓明把商业战场拉至和亚马逊的 AWS 同一级别。中国人用了十年时间造出的全球第三、亚洲第一的阿里云,不说和美国战为和棋,至少在世界的版图上夺下了堪称广袤的一片疆土。

如此,阿里云的疯子们,理应赢得光芒和荣耀。

创业维艰,唯有曾和死神擦肩而过的人,余生才会用十倍的速度奔跑。

2018年,当年为阿里云对接淘宝立下汗马功劳的小邪正式加入了阿里云,掌管“飞天八部”,阿里云所有的现役主力技术和前沿技术,都归至他麾下。

小邪 蒋江伟

【故事】《阿里云的这群疯子》:深度好文阅读推荐
能用命换来梦想,未尝不是幸事。

君不见,在无数个平行世界中,疯人院里的麦克墨菲最终都越狱失败,被医生切去前额叶,再无还手之力。

一群理想主义者的长征路上,一片落叶微微改变飞舞的方向,都有可能把他们引向另一个方向,另一种结局。如果重来一次,阿里云也许无法复现今天的疆域和荣耀。但历史没有假设,可叹阿里云这群人从第一天就无来由地相信,中国人有权拥有自己的云计算。

以身为棋,胜天半子。

阿里云的创业故事走到了封底,书中悲欢离合,凡此种种,也许只博看客一叹。只有那些经历过这一切的活生生的人,才能在时间的风尘里,循着自己的脚印依稀辨别来路。

而那些走散的人呢/h4>

他们也许会在某个秋日回忆起和伙伴同行的日子,心怀感念;他们也许有了新的忙碌的生活,来不及回望;他们也许偶然翻到新闻,看到那年王坚的滚滚热泪;他们也许在饭桌上谈笑风生,聊到当时的兄弟,忽然抬眼望向远方,干掉一杯烈酒。

我想起一个小故事。

在最初面试时,有一个大牛程序员和满弓聊过之后,本想再考虑考虑是否入职。但是出门时,他看到了阿里云办公室上的一副对联,原地思考了几秒钟,转身决定马上加入。

那副对联是这样写的:

代码成就万世基积沙镇海
梦想永在凌云意意气风发

任何执拗都会成为过往,只有时间会告诉你对错。

人们总爱说一句话:认真你就输了。而我更相信另一句话:认输,你才真的输了。

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树云原生环境小结云原生的分层8577 人正在系统学习中

来源:愿你满腹经纶

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月6日
下一篇 2022年10月6日

相关推荐