国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里巴巴的十三載計(jì)算力大突圍

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會(huì)嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

阿里巴巴的十三載計(jì)算力大突圍

文 | 史中

2022年初,杭州雪大如席。

口罩隱蔽了孩子們興奮的臉,汽車排成鋼鐵鏈條在城市血脈里蔓延。

阿里巴巴星散的幾座園區(qū)悉數(shù)被皚皚鵝毛籠罩。落地窗前,不時(shí)有人駐足凝望。

江南大雪并不尋常,也許一生都難見幾次。不知他們有沒有回想起2008年,那時(shí)落雪如今天一樣瘋狂,停雪如此刻一樣靜美。

只是自己的面孔還年輕許多。

(一)計(jì)算力大突圍

2008年8月,一首《歌唱祖國》通過孩子的嗓音傳向世界,屏幕前人們眼含熱淚齊聲高歌。

可嘆如今回望,那場告慰并非故事“終結(jié)的開始”,而是“開始的終結(jié)”。

盛世炙熱,站在各行各業(yè)山頂?shù)摹跋戎獋儭眳s已感到陣陣寒意。

“計(jì)算力”領(lǐng)域,首當(dāng)其沖。

你不妨想象一艘軍艦:

承載船體的“大!笔切酒,我們的“芯片設(shè)計(jì)”和“芯片制造”都發(fā)展滯后,芯片是中國第一大進(jìn)口門類。

向上看,操作系統(tǒng)就是“船體”,遑論閉源系統(tǒng) Windows、MacOS ,開源系統(tǒng) Linux 中國程序員的發(fā)言權(quán)也極為有限。

再往上看,應(yīng)用軟件就是“艦炮”。雖然中國“消費(fèi)軟件”有一些本土生態(tài)(游戲、文字處理、即時(shí)通信),但重磅的“生產(chǎn)軟件”都來自世界老牌廠商。

例如“企業(yè)資源管理軟件”領(lǐng)導(dǎo)者是 SAP,“制造執(zhí)行系統(tǒng)”領(lǐng)導(dǎo)者是西門子,金融領(lǐng)域的“數(shù)據(jù)庫”被甲骨文和IBM壟斷。還有“碰撞模擬軟件”、“流體力學(xué)模擬軟件”、“工業(yè)制圖軟件”、“集成電路設(shè)計(jì)軟件”,越精專,越?jīng)]戲。

想想看,三層自研技術(shù)全面落后,拼裝起來的軍艦必定“慘不忍睹”。

我們和國際領(lǐng)先水平的差距不亞于“木船舢板”對“堅(jiān)船利炮”。。。

別人能搞出來,我們?yōu)樯陡悴怀鰜恚?/p>

核心問題在于:培養(yǎng)計(jì)算力恰恰就像拉扯一個(gè)孩子,需要在一個(gè)相對緩和的商業(yè)環(huán)境里蹣跚學(xué)步。

但現(xiàn)實(shí)是,我們永遠(yuǎn)錯(cuò)失了那個(gè)時(shí)代。 如今的全球戰(zhàn)場已是“地獄”級別——中國計(jì)算力的萌新小船剛探頭進(jìn)入開放的“商業(yè)公!,就會(huì)立刻遭遇戰(zhàn)力先進(jìn)N倍的對手重炮合圍,保命都難,還想操練技術(shù),門兒都沒有。。。

即便勝算渺茫,無數(shù)中國的軟硬件開發(fā)者仍然前赴后繼,幾十年肉身搏殺,青絲白發(fā)?蓢@實(shí)力過于懸殊,自研技術(shù)終究被壓制在“軍港”,難以突圍。

本來,故事極有可能就這樣暗淡地走到終章。但就在我們精疲力盡時(shí),科技的汪洋陡然掀起巨浪,把“包圍圈”沖開一道裂縫,光芒從中奔涌。

這道裂縫就是“分布式計(jì)算”。

為什么會(huì)如摩西分開紅海一樣,出現(xiàn)這道“天賜裂縫”呢?我交代一下背景:

新世紀(jì)初,互聯(lián)網(wǎng)帶動(dòng)全世界經(jīng)濟(jì)蓬勃發(fā)展,對計(jì)算力的需求史詩級爆炸——眼看像“搜索”、“大數(shù)據(jù)計(jì)算”、“數(shù)據(jù)庫”等等很多大規(guī)模任務(wù)用“單臺(tái)計(jì)算機(jī)”已經(jīng)撐不起來了。

這意味著,國際老牌公司最拿手的“傳統(tǒng)計(jì)算力結(jié)構(gòu)”已經(jīng)看到天花板,世界面臨幾十年一遇的“計(jì)算力范式轉(zhuǎn)移”。

兩條路擺在眼前:

第一條是“航母路線”:想辦法做出一臺(tái)更厲害的“單體計(jì)算機(jī)”,就像一艘航空母艦,這就是“超算”。 第二條是“艦隊(duì)路線”:把一堆弱雞計(jì)算機(jī)串起來,拼出一臺(tái)大計(jì)算機(jī),就像聯(lián)合艦隊(duì)那樣,這就是“分布式計(jì)算”。

“航母路線”,世界主要大國很早就走通了,自上世紀(jì)60年代起,中美德日都研發(fā)了自己的超算。

可這玩意兒動(dòng)一動(dòng)就好多錢,只能緊著國防和科研來用——算衛(wèi)星、測彈道——根本不是互聯(lián)網(wǎng)公司這個(gè)層次玩得起的。

沒辦法,互聯(lián)網(wǎng)公司被逼上梁山,只能走上生死未卜的“艦隊(duì)路線”。

就在這個(gè)背景下,計(jì)算領(lǐng)域迎來了“奇跡年”。

2003年、2004年、2006年,谷歌重炮轟出三篇學(xué)術(shù)論文,從理論上論證了“分布式計(jì)算”是完全可行的。

這一瞬間,就如同愛因斯坦發(fā)表了相對論,轉(zhuǎn)身對大家攤攤手:“接下來最先把核彈造出來,就看各位的本事了!”

仿佛發(fā)令槍響,全世界互聯(lián)網(wǎng)公司的技術(shù)人們一起狂奔出去。

只不過,與以往“稍有不同”,這次狂奔的隊(duì)伍里,出現(xiàn)了中國人的面孔——在“分布式計(jì)算”這個(gè)新范式面前,我們第一次和全世界站在同一起跑線上。

從天空俯瞰,情勢緊急:

如果中國程序員沒能奪下“分布式計(jì)算”這片海域,那么包圍圈將重新合攏,故事回到過去; 如果中國程序員能趁天賜良機(jī)建造 出分布式計(jì)算這支“艦隊(duì)”,向上可以把控自主軟件的“艦炮”,向下可以翻涌芯片研發(fā)的“汪洋大!保

鎖死的技術(shù)鎖鏈一旦被掙脫, 幾十年的計(jì)算力突圍戰(zhàn),將會(huì)迎來光輝的“斯大林格勒時(shí)刻”。

王堅(jiān),從某種意義上說,并沒有辦法選擇自己的命運(yùn)——因?yàn)樗『镁褪请x這片海域最近的人。

彼時(shí)他在微軟亞洲研究院常務(wù)副院長的位置上,好巧不巧,帶隊(duì)研究的一個(gè)方向正是“分布式計(jì)算系統(tǒng)”。

他有兩個(gè)選擇:第一,繼續(xù)幫助老東家微軟造出“聯(lián)合艦隊(duì)”,忠人之事,無可指摘;第二,加入一家中國公司,從頭造出一支“挑著五星紅旗的艦隊(duì)”。

2008年,紛紛揚(yáng)揚(yáng)的大雪,高樓的落地窗背后,他看到敞開的歷史之門正在緩緩關(guān)閉,包圍圈隨時(shí)可能再度封死,留給他做決定的時(shí)間正在以秒計(jì)數(shù)。

此時(shí)鏡頭拉遠(yuǎn),喧囂人間霎時(shí)安靜。人們看到王堅(jiān)改換旗幟,帶著一眾中國程序員赤膊游向深海。由此,他成為了中國計(jì)算歷史上一萬個(gè)先輩之后的第一萬零一個(gè)勇士。

王堅(jiān)

“分布式計(jì)算系統(tǒng)”,在今天有了更朗朗上口的名字——云計(jì)算。

而王堅(jiān)帶領(lǐng)的這群人,就是如今的阿里云眾將。

歷史的轉(zhuǎn)捩點(diǎn)前,王堅(jiān)壯懷激烈,為起航的阿里云計(jì)算鐫刻一行使命:為了無法計(jì)算的價(jià)值。

可嘆彼時(shí),空有凌云之志,周身尚無爪牙。

粗略來說,“無法計(jì)算的價(jià)值”要想實(shí)現(xiàn),起碼包含兩個(gè)步驟:“造云”和“上云”。

造云:

就是把更多的艦船(計(jì)算機(jī))連接在一起,穩(wěn)定高效地運(yùn)行?上攵,連接的“船”越多,就越穩(wěn)固,戰(zhàn)力就越強(qiáng)。(不要受《三國演義》“火燒連船”的影響,那是虛構(gòu)的故事。)

上云:

就是讓士兵們(大小企業(yè))抓緊時(shí)間把“艦炮”(各種業(yè)務(wù))從原來的小船搬到這個(gè)“聯(lián)合艦隊(duì)”上,抓緊投入戰(zhàn)斗。

穩(wěn)妥的操作肯定是“兩步走”——先造云、再上云。

但是,前有狼后有虎,容不得繡花般細(xì)致。事實(shí)上,從2009年成立伊始,阿里云這幫人就兩步并作一步——一邊造船,一邊就想往船上拉客。。。

各大公司一看這架勢,都嚇得往后退:大哥,你的船體還在叮叮當(dāng)當(dāng)?shù)厥┕,我哪敢上去。?/p>

阿里云的人一想,也確實(shí)是這么個(gè)理兒。。。但總得有人做先驅(qū),上云操練一下啊。。。

苦悶中,他們一回頭,突然瞥見了阿里巴巴集團(tuán)大大的“淘”和“支”的招牌,一拍大腿:“對啊,別的公司不肯做先驅(qū),就拿我們自己人做先驅(qū)唄!”

歷史的那一瞬間,頗有喜感:一邊是“磨刀霍霍向集團(tuán)”的阿里云技術(shù)宅,一邊是“傻白甜”的阿里巴巴各部門業(yè)務(wù)同學(xué),還不知道等待自己的將會(huì)是怎樣的腥風(fēng)血雨。。。

2009年,在歷史的猝不及防中,阿里巴巴的“上云計(jì)劃”,就這樣轟然拉開了帷幕。

(二)尋找“小白鼠”

2009年,北京懷柔水庫西岸一家會(huì)議中心里,一堆人圍著五福。

別誤會(huì),這個(gè)五福不是過年“集”的“五!,他是阿里巴巴搜索技術(shù)的負(fù)責(zé)人。

新晉“阿里巴巴首席架構(gòu)師”王堅(jiān)坐在五福對面,苦口婆心說服他要把搜索業(yè)務(wù)挪上阿里云。周遭一圈,圍滿了年輕的阿里云工程師,額頭青筋迸出,指節(jié)按得嘎巴亂響。

五福當(dāng)時(shí)害怕極了。。。

不過,聽王堅(jiān)慢慢闡述他的技術(shù)構(gòu)想,五福心里被猛地點(diǎn)燃了一團(tuán)火:

團(tuán)隊(duì)本來是搞搜索技術(shù)的,但三天兩頭就要鼓搗底層服務(wù)器,確實(shí)很煩。 趁現(xiàn)在登上阿里云這個(gè)“聯(lián)合艦隊(duì)”,一來能降低成本,二來兄弟們省下精力,能專心研究搜索技術(shù),一舉兩得,豈不美哉?

一拍即合,搜索作為集團(tuán)第一個(gè)上云的業(yè)務(wù),派出技術(shù)精銳,和阿里云聯(lián)合研發(fā)。

為了表示感謝,王堅(jiān)送了搜索團(tuán)隊(duì)每人一個(gè)鍵盤。

大家都很開心。

此時(shí)恐怕上帝要冷笑一聲——天真的五福本以為手里的劇本是《倚天屠龍記》,可是故事才進(jìn)行到第一章,他就發(fā)現(xiàn),自己演的好像是《三毛流浪記》。。。

五福

故事是這樣的:

經(jīng)過一年代碼海洋里埋頭苦練,2010年,初代阿里云“閃亮登場”。

五福一看,腦袋嗡一下。。。

阿里云很多模塊的性能,都比搜索需要的低了不止一個(gè)數(shù)量級。這也就意味著,本來在云下只需要一臺(tái)服務(wù)器搞定的事情,上了阿里云,就需要幾十臺(tái)服務(wù)器。。。

這。。。相當(dāng)于路邊攤吃一個(gè)雞蛋灌餅要5塊,到了大飯店,服務(wù)員張口要100——一樣的東西,我憑什么要來你這“黑店”買啊。。。

五福直接拍了桌子:“老大,說好了能降低成本,現(xiàn)在成本反而提高這么多,你這不是坑人么??”

阿里云的技術(shù)宅們心里也發(fā)虛,安慰五福:“別。。。別急,后面我們慢慢優(yōu)化,資源消耗估計(jì)還是能降下來的。。!

五福雖然脾氣沖,但也深明大義。冷靜下來想,既然之前答應(yīng)了王堅(jiān)博士,要為中國計(jì)算力的突圍盡一份力,現(xiàn)在自己撂挑子,于情于理也很難說得過去。

他只好勸說同學(xué)們回到崗位,繼續(xù)耐心陪阿里云一起研發(fā)。

站在今天,可以負(fù)責(zé)任地說,2010年的搜索上云,其實(shí)是一場沒有任何勝算的戰(zhàn)役。

核心原因就是:

當(dāng)時(shí)的阿里云眾將大大大大低估了云計(jì)算這個(gè)“分布式操作系統(tǒng)”的研發(fā)難度。

從頭寫一個(gè)操作系統(tǒng),對于彼時(shí)的中國程序員來說,是“奧數(shù)”級別的操作。而當(dāng)時(shí)除了幾個(gè)骨干是王堅(jiān)“微軟亞研”舊部,大多阿里云的程序員都只是滿腔熱血的“應(yīng)屆生”。

代碼越寫,坑越多。好容易走到了坑底,沒想到坑底還有下水道。。。

用后來一位阿里云同學(xué)的話說,他要一早就知道云計(jì)算有這么這么難,當(dāng)時(shí)早都辭職不知多少次了。。。

但生意可不等人。2010年,淘寶的發(fā)展突飛猛進(jìn),“雙11”也逐漸勢起,用戶訪問量暴增。

第一屆“雙11”還沒有大屏幕顯示成交額,大家用數(shù)字和表組成“人肉大屏”。

面對“黑云壓城”的用戶,五福都快“死”了:

用戶搜索的每一個(gè)商品關(guān)鍵詞,都如重炮般轟擊在搜索系統(tǒng)上。此時(shí),本應(yīng)趕緊調(diào)兵遣將,搶修戰(zhàn)場上的搜索系統(tǒng);可回頭看,他的主力團(tuán)隊(duì)卻悉數(shù)陷在和阿里云聯(lián)合研發(fā)“新引擎”的大后方,一灘爛泥完全無法抽身。

情況越發(fā)危急,搜索的技術(shù)同學(xué)輪番拿著一浪高過一浪的訪問數(shù)據(jù)找到五福,泣血死諫:老板,趕緊把主力部隊(duì)調(diào)回前線吧!搜索引擎眼看要超過“警戒水位”,我們擔(dān)不起這個(gè)責(zé)任!

連續(xù)幾周輾轉(zhuǎn)反側(cè),五福肩頭的壓力沖破極限。最終,他還是拉著幾個(gè)骨干敲開了王堅(jiān)辦公室的門。

“博士,快扛不住了,能不能讓我們先撤下阿里云?”

王堅(jiān)別無選擇。

一邊是聯(lián)合研發(fā)無限期停止,一邊是舊搜索引擎采用“保守技術(shù)”緊急加固,很快,大火被澆滅,硝煙如霾散去,前幾個(gè)月的血戰(zhàn)似未曾發(fā)生。

但無論是搜索團(tuán)隊(duì)還是阿里云的年輕人,心里都壓著一塊石頭,小心翼翼,不敢回頭。

出師未捷,但中國計(jì)算力千載難逢的突圍機(jī)會(huì)正在一分一秒地流逝。

容不得顧影自憐,王堅(jiān)和同事們一邊加緊升級技術(shù),一邊馬不停蹄尋找下一位“先驅(qū)”。

(三)“登月”

挑來挑去,“大數(shù)據(jù)計(jì)算業(yè)務(wù)”成了新的“獵物”。

大數(shù)據(jù)計(jì)算業(yè)務(wù)當(dāng)時(shí)主要支持“淘寶”(用來計(jì)算營銷數(shù)據(jù))和“阿里金融”(用來計(jì)算貸款)。這回阿里云學(xué)乖了,不敢猛地一下把“大數(shù)據(jù)業(yè)務(wù)”全搬上云,先挪半只小白鼠。。。

淘寶這邊體量大,技術(shù)體系復(fù)雜,硬骨頭可以往后放放;彼時(shí)剛成立的“阿里金融”體量小,沒歷史包袱,怎么看怎么可愛。

阿里金融的工程師前幾天還在看搜索團(tuán)隊(duì)的熱鬧,一回頭,就看到阿里云奔自己來了。。。

他們把刀架在自己脖子上:你們別過來!我死給你看!

阿里云這群瘋子才不管這套,這次就算是死,咱們也要一起死。。。

當(dāng)然,阿里云也不是混不講理,他們是提前拿到了“尚方寶劍”的——為了挺王堅(jiān)團(tuán)隊(duì),鐵血推動(dòng)阿里云發(fā)展,馬云已經(jīng)讓阿里金融的負(fù)責(zé)人胡曉明立了軍令狀,一定要把業(yè)務(wù)綁在阿里云上開發(fā),死都不能分開。

(這段故事可以參考 )

胡曉明

只是可憐阿里金融的這幫人,雖然做足了思想準(zhǔn)備,還是“低估”了阿里云的水平。。。與其說當(dāng)時(shí)的阿里云是操作系統(tǒng),不如說它就是行走的 Bug。

那段日子,在阿里云上開發(fā)業(yè)務(wù),就像在地震帶上蓋房。

阿里金融的工程師開發(fā)金融業(yè)務(wù)反倒成了“副業(yè)”,“主業(yè)”反而變成了處理各種底層 Bug,到了晚上睡覺前,都恨不得燒柱香,乞求系統(tǒng)不要半夜報(bào)警。

有一位奶爸工程師,把自己小孩的哭聲設(shè)置成報(bào)警鬧鈴,一聽到這個(gè)聲音,就“垂死夢中驚坐起”,到電腦前解問題。。。

王堅(jiān)這幫人口口聲聲說阿里云是“為了無法計(jì)算的價(jià)值”,可阿里金融一線同學(xué)看到的情景,根本就是“無法計(jì)算的損失”——他們見到阿里云的人,不罵出聲就已經(jīng)是很禮貌了。。。

事情搞成這樣,阿里云的年輕人心中那個(gè)“計(jì)算力突圍”的宏偉夢想,像是一顆寶石被蒙上了千萬層灰塵,壓根都沒臉對別人提起。

兄弟團(tuán)隊(duì)的白眼他們只能當(dāng)沒看見,咬著牙一個(gè)一個(gè)解 Bug,一秒一秒,期待把艱難捱過去。

后來,阿里巴巴拍了一個(gè)短片,講的就是當(dāng)時(shí)的窘境。

2010年,好容易這邊阿里金融的大數(shù)據(jù)業(yè)務(wù)穩(wěn)定了一點(diǎn),工程師不用再“起夜”了,大家已經(jīng)謝天謝地。。。

可是,連氣都沒喘,阿里云又“恬不知恥”地去找另外半只小白鼠——淘寶網(wǎng)的大數(shù)據(jù)業(yè)務(wù)。

淘寶團(tuán)隊(duì)心里一萬只草泥馬:

“大哥啊,你們搗的亂還不夠嗎?原來的大數(shù)據(jù)系統(tǒng)明明還能用,為啥逼我們上那個(gè)破云?”“這個(gè)王堅(jiān)到底是啥背景?會(huì)不會(huì)過很快就被撤了?”“都傳阿里云要解散,難不成就是這幾天的事兒了吧!

其實(shí)傳言并非空穴來風(fēng),阿里云連續(xù)兩年拿到集團(tuán)最低績效分,最初的阿里云隊(duì)伍,已經(jīng)“折損大半”,能夠“算得清價(jià)值利弊的”,早就不是轉(zhuǎn)崗就是辭職。

有人擔(dān)心,找到王堅(jiān)問:“博士,你說實(shí)話,公司明年還做不做云計(jì)算?”

王堅(jiān)抬眼看他:“我不知道公司明年做不做云計(jì)算,我只知道明年我還會(huì)在這里!”

就這樣,阿里云的工程師離職一批,他們就重新再找一批;一個(gè)工程方向失敗了,就換個(gè)方向再來。

這是王堅(jiān)任阿里巴巴 CTO 之后,內(nèi)網(wǎng)的“嘲諷帖”。

就在2012年,阿里云最危險(xiǎn)的時(shí)刻,“戲劇性轉(zhuǎn)折”終于出現(xiàn)了:

淘寶大數(shù)據(jù)業(yè)務(wù)暴漲,巨量數(shù)據(jù)如潮水般漫上來,而他們原本依賴的 Hadoop 大數(shù)據(jù)架構(gòu),竟然嘗試了所有方法都無法繼續(xù)擴(kuò)容。環(huán)顧四周,目測只有趕快跳到“Bug 無數(shù)”的阿里云上,才有生還機(jī)會(huì)!

可憐的阿里云前幾個(gè)月還被嫌棄,這幾個(gè)月就成了“全村人的希望”,開始被淘寶大數(shù)據(jù)“奪命連環(huán)催”,等著盼著要“上船”。。。

淘寶大數(shù)據(jù)業(yè)務(wù)向阿里云上遷徙的的計(jì)劃,被鄭重地命名為“登月計(jì)劃”。

第一次被這樣寄予厚望,阿里云的年輕技術(shù)宅們又驚喜又緊張,恨不得長兩個(gè)腦袋四只手,可無奈越急眼前的問題就越難,開發(fā)進(jìn)度不如意。

2013年,眼看距離舊系統(tǒng)資源耗盡的時(shí)間只剩一個(gè)月,阿里云仍不具備遷移條件,所有人都快急哭了。

危急時(shí)刻,最理解王堅(jiān)的一位技術(shù)大牛,時(shí)任阿里巴巴核心系統(tǒng)部負(fù)責(zé)人章文嵩挺身而出,發(fā)出“英雄帖”,緊急征召淘寶最強(qiáng)的技術(shù)大牛開赴阿里云,使出畢生絕學(xué)幫助阿里云解 Bug。

大力出奇跡。幾十位中國最強(qiáng)的武林高手,就像一管強(qiáng)心針,直接把阿里云從“癱瘓?jiān)诖病备愠伞拔璩乇牡稀薄?/p>

就這樣,2013年底,眼看舊系統(tǒng)快要撐不住的那一瞬間,大數(shù)據(jù)系統(tǒng)完成了驚險(xiǎn)的遷移。

“登月”成功,所有人橫七豎八癱了一地——大半年了,總算他喵的能正常喘氣了。。。就在這一刻,他們驀然抬眼,看到阿里云這一隊(duì)“連環(huán)戰(zhàn)艦”漂泊在洶涌的海上,遮天蔽日,氣象初成。

奇觀在前,人們終于愿意相信王堅(jiān),愿意直視他背負(fù)的那個(gè)沉重理想。

(四)血鑄“倚天劍”

自家大數(shù)據(jù)業(yè)務(wù)上了云,阿里云這群人終于一掃陰霾,不僅有了和兄弟團(tuán)隊(duì)說話的底氣,還敢挑出幌子招攬外部客戶了。

當(dāng)時(shí),每一個(gè)客戶王堅(jiān)都親自見,見人就把自己的名片留給人家,說有問題直接給我打電話,旁邊的人攔都攔不住。

為了打消客戶顧慮,王堅(jiān)還拍胸脯,如果因?yàn)榘⒗镌频脑蛴脩粼馐芰私?jīng)濟(jì)損失,阿里云負(fù)責(zé)“百倍賠償”,這個(gè)規(guī)則都是寫到合同里的,旁邊的人還是攔不住。。。

可即便如此,95%的企業(yè)卻還是將信將疑。

有一次,阿里云同學(xué)去一家銀行聊合作,對方的拷問直擊靈魂:你們的核心業(yè)務(wù),淘寶、支付寶上云了沒有?

阿里云同學(xué)面露羞赧:目前只有大數(shù)據(jù)這一塊兒上了云,核心系統(tǒng)嘛,我們有這個(gè)計(jì)劃。。。

對方直接打斷:那等你們核心系統(tǒng)上云了再來找我們吧。吃螃蟹的事兒,我們不干。

阿里云灰頭土臉地回來。搞了半天,光有“大數(shù)據(jù)系統(tǒng)”一個(gè)小白鼠上云,還是不好使啊。。。

事實(shí)證明,客戶的謹(jǐn)慎是對的。

米哈游是最早吃阿里云“螃蟹”的公司,那時(shí)他們還沒開發(fā)出《原神》,剛做出來《崩壞學(xué)園》。可是就在2014年,《崩壞學(xué)園2》最火時(shí)候,阿里云先“崩壞”了:

一次誤操作引發(fā)意外重啟,把所有玩家踢下線。。。

米哈游創(chuàng)始團(tuán)隊(duì)

米哈游怒火中燒,拿出王堅(jiān)的名片,一個(gè)電話就打過來!

王堅(jiān)和主要負(fù)責(zé)人開車去上海,給米哈游道歉。

在車上,王堅(jiān)嘆氣:“當(dāng)我們在地上,看客戶在飛機(jī)上的時(shí)候會(huì)有誤操作,當(dāng)我們和客戶一起在飛機(jī)上的時(shí)候,就不會(huì)有誤操作了!”

這一切,劉振飛看在眼里。

作為引薦王堅(jiān)和馬云認(rèn)識(shí)的人,作為阿里巴巴新晉合伙人,作為阿里巴巴“去IOE”項(xiàng)目負(fù)責(zé)人,時(shí)任系統(tǒng)保障部負(fù)責(zé)人劉振飛在阿里內(nèi)網(wǎng)上發(fā)帖,建議加速“集團(tuán)云化”——淘寶、支付核心系統(tǒng)要在三年之內(nèi)跑在阿里云上!

劉振飛

大家都明白,這是一次公開的“喊話”。

下面的評論立刻炸了鍋。。。

反對者以淘寶人居多。

如果說之前的“大數(shù)據(jù)系統(tǒng)”還是幾門輕型火炮,那十幾年積淀的淘寶的核心系統(tǒng)就像一組超級復(fù)雜的重炮,現(xiàn)在要一股腦砸到阿里云的船上,你的船不會(huì)沉嗎?

答案很簡單:必沉。

其中一個(gè)核心的問題就是:“虛擬化損耗”太大。

這里涉及到一個(gè)小知識(shí):

云計(jì)算之所以能做成“聯(lián)合艦隊(duì)”,是因?yàn)樗仨毾扔谩澳Хā卑衍娕灥募装澹ǚ⻊?wù)器)綁在一起,再用“魔法”分割成小塊的“虛擬甲板”(虛擬機(jī))分配給各個(gè)業(yè)務(wù)來用。

但這一來一回兩次“施法”,就要額外消耗計(jì)算力。行話叫做“虛擬化損耗”。

舉個(gè)例子:

原本10臺(tái)服務(wù)器,經(jīng)過“虛擬化”之后,還沒跑什么業(yè)務(wù),就剩8臺(tái)服務(wù)器的算力了;

裝載業(yè)務(wù)以后,計(jì)算力損失還會(huì)更夸張,比如“購物車”這個(gè)模塊,甚至可能10臺(tái)服務(wù)器虛擬化之后只剩1臺(tái)。。。

虛擬化損耗示意圖

淘寶業(yè)務(wù)體量這么巨大,每年還要搞“雙11”這樣的大促,本來用到的服務(wù)器都是數(shù)以十萬計(jì),成本沉重,一旦上云,所需要的服務(wù)器數(shù)量還會(huì)直接翻幾倍,這。。。

不解決虛擬化損耗問題,核心系統(tǒng)上云想都不要想。

時(shí)任淘寶總裁張建鋒經(jīng)過慎重思考,決定給剛成為阿里云 CTO 的章文嵩來一次“考試”:

明年,也就是2015年的“雙11”,核心電商會(huì)分出10%的業(yè)務(wù),用阿里云來扛,而到時(shí)候的阿里云, 總體虛擬化損耗不能超過10% 。

面對張建鋒這么嚴(yán)苛的要求,阿里云瑟瑟發(fā)抖,大伙兒心里有數(shù),憑現(xiàn)有的技術(shù)力量,恐怕妥妥地要考砸。。。

他們急需一個(gè)“外援”。

章文嵩給全國的技術(shù)大牛撥了一圈電話,神奇的是,大家給他的建議幾乎一致:要挖就挖張獻(xiàn)濤。

張獻(xiàn)濤究竟是何方神圣?他是當(dāng)時(shí) Intel 中國區(qū)的技術(shù)大牛,論虛擬化技術(shù),屬于公認(rèn)的“獨(dú)孤求敗”級別。

章文嵩本來擔(dān)心外企待遇優(yōu)厚,張獻(xiàn)濤不愿來阿里吃苦受累。沒想到張獻(xiàn)濤早就心懷技術(shù)報(bào)國的理想,沒有任何推辭,臨危受命。

他就像空降的傘兵,直接被投在敵軍環(huán)伺的兇險(xiǎn)戰(zhàn)場。

張獻(xiàn)濤

說“兇險(xiǎn)”,其實(shí)不夸張。

阿里云從成立以來,采用的就是傳統(tǒng)的“Xen”虛擬化架構(gòu),可是,在這個(gè)技術(shù)架構(gòu)上修修補(bǔ)補(bǔ),恐怕“全員戰(zhàn)死”也不可能把虛擬化損耗降到10%以內(nèi)。

張獻(xiàn)濤跟章文嵩建議:如果信我,就趕快啟動(dòng)一個(gè)全新項(xiàng)目——從頭開發(fā)基于新技術(shù)“KVM”的虛擬化架構(gòu)。

章文嵩畢竟要對大局負(fù)責(zé),很謹(jǐn)慎:“給你兩個(gè)同學(xué),先寫一個(gè)驗(yàn)證版本出來!

張獻(xiàn)濤花了一個(gè)月,把驗(yàn)證版本寫好,一測試,果然大幅提升性能。章文嵩拍板:“干!”

這就是“倚天劍”項(xiàng)目。

2015年3月,距離雙11還有半年多,新一代虛擬化架構(gòu)研發(fā)完畢。但是,一測試,虛擬化損耗竟然在20%左右。這個(gè)結(jié)果出乎了很多人意料,阿里云內(nèi)部立刻喧嘩四起。。。

抉擇的壓力突然轉(zhuǎn)到章文嵩身上,此刻他面臨兩個(gè)選擇:第一,回到大家更熟悉的 Xen 架構(gòu),祈禱用剩下的時(shí)間把虛擬化損耗能降多少降多少,起碼不會(huì)死得那么難看;第二,繼續(xù)攻堅(jiān)新架構(gòu),可這條路一旦走不通,那結(jié)局就是“丟人現(xiàn)大眼”,阿里云這幾年好容易攢起來的技術(shù)信譽(yù)一夜歸零。。。

章文嵩看向張獻(xiàn)濤。

張獻(xiàn)濤咬牙:回到 Xen 一定死,堅(jiān)持新架構(gòu)還有贏的可能,懇請各位再和我沖鋒一次!

第二天,張獻(xiàn)濤和團(tuán)隊(duì)列出了幾百項(xiàng)優(yōu)化計(jì)劃,然后像機(jī)關(guān)槍一樣挨個(gè)狂掃,在代碼的戰(zhàn)場殺得昏天黑地。

那時(shí)候早晨上班,經(jīng)常能看到盯了一夜指標(biāo)睡在工位上的同學(xué)。

人門還記得,在5月的一次技術(shù)評審會(huì)上,屏幕上的虛擬化損耗率經(jīng)過幾秒波動(dòng),竟然穩(wěn)定在了5%的水平,比張建鋒的要求高出一倍。

下一秒,人們爆發(fā)出近乎尖叫的歡呼,“倚天劍”成了!“倚天劍”成了!

然而,九九八十一難,還差一難。。。

就在“雙11”之前兩周,所有測試都沒問題,唯獨(dú)支付系統(tǒng)的一個(gè)子應(yīng)用,虛擬化損耗硬是停留在30%。直覺上這個(gè)問題并不難解決,可是一群人圍著好幾天,愣是找不到原因。大家開始慌了,眼看逆襲就要成功,可千萬別陰溝翻船啊。。。

就在這時(shí),一位運(yùn)維同學(xué)指著屏幕弱弱地問了一句:這個(gè)數(shù)據(jù)庫應(yīng)該配到深圳機(jī)房吧?怎么連到了杭州?

花了三秒鐘,改了一個(gè)數(shù)字,一切恢復(fù)正常。

所有人捶胸頓足,一邊恨自己云上經(jīng)驗(yàn)不足,一邊又感謝上蒼讓自己“逃出生天”。

終于等到“雙11”,大考降臨。10%的流量如約切到已經(jīng)被測試了上百次的阿里云上。阿里云同學(xué)們憋了一肚子的火焰,此刻火力全開。

那一整天,阿里云系統(tǒng)嘯叫著跑完全程,直到次日零點(diǎn),任務(wù)結(jié)束,故障數(shù)量為“0”,連抖都沒抖一毫。

秋夜如水,有人把臉埋在手掌中。說不清為什么,他們就是想用一次完美的戰(zhàn)役蕩滌心里的委屈。

“雙11”剛過,阿里云團(tuán)隊(duì)突然收到了淘寶團(tuán)隊(duì)發(fā)來的一封感謝信。

張獻(xiàn)濤抱著電腦把這封信讀了又讀。他當(dāng)然知道,這封信不僅僅是表揚(yáng)那么簡單,這是阿里巴巴最核心的業(yè)務(wù)對阿里云夢想的一次擁抱。


這種擁抱恒久而堅(jiān)定,像烈酒,又像良藥,讓身上的每一道傷疤都不疼了。

(五)春天里的“暫停鍵”

“如果有一天,我老無所依,請把我埋在,這春天里!

2016年,恐怕就是阿里云眾將魂?duì)繅衾@的那個(gè)“春天”。

那一年,新任總裁胡曉明攤開地圖,駕長車破陣,帶領(lǐng)阿里云在廣袤的土地上攻城略地。仿佛九月的塞倫蓋蒂草原,無數(shù)中大型企業(yè)開始了向云上狂奔遷徙的史詩進(jìn)程。

而在集團(tuán)內(nèi)部,阿里云又進(jìn)行了一場“基操勿六”的華麗表演,用3%的極限虛擬化損耗扛下了“雙11”60%的流量,他們信心滿懷,兵臨城下,劍指整個(gè)集團(tuán),“全面上云”箭在弦上。

然而,彼時(shí)已經(jīng)成為集團(tuán) CTO 的張建鋒卻嗅到了一絲“山雨欲來”的氣息。

當(dāng)時(shí),阿里巴巴集團(tuán)的核心技術(shù)已歸于四大中臺(tái):

在線業(yè)務(wù)、大數(shù)據(jù)計(jì)算業(yè)務(wù)、搜索業(yè)務(wù)、數(shù)據(jù)庫業(yè)務(wù)。

可是,掰著手指頭數(shù)數(shù)這四大中臺(tái), “大數(shù)據(jù)計(jì)算” 付出慘烈代價(jià)已經(jīng)被阿里云支撐; “在線業(yè)務(wù)” 只有雙11這一天才用到阿里云;反觀 “搜索” ,自從2010年被“深深傷害”之后,五福就一直保持觀望,目前仍然不具備上云條件;而 “數(shù)據(jù)庫” 對底層技術(shù)的要求更是變態(tài),阿里云目前的水平也無法承載。

簡單來說,云計(jì)算的基礎(chǔ)技術(shù)分為三方面:“計(jì)算”、“存儲(chǔ)”、“網(wǎng)絡(luò)”。

要想扛住四大中臺(tái),阿里云這三個(gè)基礎(chǔ)技術(shù)必須全部登峰造極?涩F(xiàn)實(shí)是:當(dāng)時(shí)的阿里云,在這三方面都不夠極致。

全集團(tuán)上云的過程,被張建鋒冷靜地按下了暫停鍵。

在2016年“雙11”復(fù)盤會(huì)上,張建鋒提出了一個(gè)“不近人情”的要求:

阿里云的虛擬化損耗,能不能降到0?

張獻(xiàn)濤一口老血噴出來,大哥你這玩意兒不科學(xué)呀。。。

但張建鋒一臉認(rèn)真,他沒有想開玩笑:“只有把虛擬化降到“0”,阿里云才會(huì)具備和物理機(jī)持平、甚至更好的性能,這樣,阿里巴巴集團(tuán)的所有業(yè)務(wù)才愿意“全面上云”!只有阿里巴巴全面上云,千行百業(yè)的各種計(jì)算任務(wù)才有機(jī)會(huì)完全上云!”

張建鋒

亂世須用重典,奇效需要猛藥。其實(shí),領(lǐng)到這個(gè)“不可能的任務(wù)”那一刻,張獻(xiàn)濤心里已經(jīng)有數(shù)了。

他的計(jì)劃就是:必須造出一顆宇宙中從未存在過的芯片,擔(dān)負(fù)起所有的虛擬化職責(zé)。

也正是從這一刻起,阿里云的使命第一次從打造“操作系統(tǒng)”這個(gè)艦體,下潛到了“芯片”這片汪洋深海中。

回首看,之前 “從戰(zhàn)艦到海洋” 的設(shè)想,正在緩慢成真。

浩大的芯片戰(zhàn)役,召喚最兇猛的戰(zhàn)士。

那一年,張獻(xiàn)濤大開殺戒,連續(xù)招攬了各路芯片大牛,負(fù)責(zé)核心芯片設(shè)計(jì)的漸名前一天剛剛?cè)肼,后一天就帶著行軍床進(jìn)駐了辦公室,沒日沒夜用兩個(gè)月得時(shí)間把芯片設(shè)計(jì)完成。

而負(fù)責(zé)芯片板卡設(shè)計(jì)的芳志回憶:“好歹我在這個(gè)行業(yè)里也摸爬滾打十五年了,這是我見過最復(fù)雜的板卡,沒有之一。當(dāng)時(shí)哪怕只有一根線路設(shè)計(jì)出現(xiàn)錯(cuò)誤,都會(huì)導(dǎo)致板卡點(diǎn)不亮。”

一個(gè)寒暑過去,2017年10月12日,阿里云副總裁,集團(tuán)上云總指揮李津在云棲大會(huì)上毫無預(yù)警突然宣布:阿里云已經(jīng)用一顆神秘的芯片把虛擬化損耗降到了“0”。

李津

消息之炸裂,以至于很多人第一反應(yīng)是:這是個(gè)假新聞。。。

當(dāng)然,所有人的努力都是無比真實(shí)的,這顆芯片就是后來被業(yè)界競相效仿的 DPU,而裝載了 DPU 的服務(wù)器,就是名聲大噪的“神龍?jiān)品⻊?wù)器”。

神龍核心芯片板卡(MOC卡)

剛才說過,云計(jì)算的基礎(chǔ)技術(shù)分為三方面:“計(jì)算”、“存儲(chǔ)”、“網(wǎng)絡(luò)”。

2017年出發(fā)的敢死隊(duì)中,張獻(xiàn)濤“零虛擬化損耗”的“神龍”只代表了“計(jì)算方面軍”;而在“網(wǎng)絡(luò)方面軍”,江鶴帶領(lǐng)大家研發(fā)出了搭載自研芯片的大型交換設(shè)備“洛神云網(wǎng)關(guān)”,把可以同時(shí)連接的虛擬機(jī)數(shù)量推上了“100萬”大關(guān);在“存儲(chǔ)方面軍”,Jason 帶著存儲(chǔ)團(tuán)隊(duì)開發(fā)了“盤古存儲(chǔ)2.0”,把百億級別的讀寫操作從毫秒時(shí)代推進(jìn)到微秒時(shí)代。

洛神云網(wǎng)關(guān)

有了這些“重器”墊底,張建鋒才終于“松口”,放阿里云過了自己的“技術(shù)關(guān)”。

現(xiàn)在回望,2017年阿里巴巴成立前沿科技研究部門“達(dá)摩院”,2018年組建芯片公司“平頭哥”,其實(shí)背后的精神都可以匯入那同一道奔涌的大河: 中國的計(jì)算力突圍。

而阿里巴巴的全面上云,正是這場漫長突圍戰(zhàn)的關(guān)鍵一役。

2018年,在那個(gè)無數(shù)人懷戀的“春天里”,已被擱置太久的“全面上云”的戰(zhàn)役終于打響。

(六)“巨炮”挪移

張建鋒宣布:從這一年開始,集團(tuán)所有部門(除了阿里云),將不允許購買任何服務(wù)器,要用計(jì)算力,就必須上阿里云。有趣的是,與此呼應(yīng),阿里云也把對外部客戶的核心口號改成“上云就上阿里云”。

當(dāng)時(shí)業(yè)內(nèi)流傳一句詩:洛陽親友如相問,上云就上阿里云。洗腦程度,可見一斑。。。

終于到了“核心系統(tǒng)”搬家的那一刻,之前死命推動(dòng)這件事的阿里云總裁胡曉明不知為何,突然有點(diǎn)心虛。想了半天,他明白了問題所在:電商那邊“拆”系統(tǒng)肯定成功,他擔(dān)心的是云這邊萬一“裝”不好,可怎么辦?

胡曉明的決定是:要從電商部門“挖”來一個(gè)對核心系統(tǒng)熟悉到“倒背如流”,做夢都能把代碼背出來的大神。

這樣的大神還真有。。。電商有一個(gè)低調(diào)神秘的“中間件”團(tuán)隊(duì),日常的工作職責(zé)恰恰是開發(fā)一些精巧組件,粘合電商所有子系統(tǒng)之間錯(cuò)綜復(fù)雜的運(yùn)作。

“中間件”的負(fù)責(zé)人小邪,就在這樣的背景下,一臉懵逼地被揪到了阿里云,扣上帥帽,統(tǒng)領(lǐng)阿里云的所有技術(shù)產(chǎn)品。

似乎胡曉明也并不關(guān)心,2014年劉振飛的帖子下面,小邪的意見是明顯的“對集團(tuán)上云持保留態(tài)度”。。。。

小邪當(dāng)年的帖子原話,我謄抄了下來。

“我是個(gè)聽話的人,反正領(lǐng)導(dǎo)讓我做什么,我就做好!”

回憶當(dāng)年,小邪說得很誠懇。

事實(shí)也證明,聽話的小邪對崗位無比忠誠——了解了云的夢想和戰(zhàn)略,立刻調(diào)轉(zhuǎn)槍頭,成了鼓搗核心系統(tǒng)上云的“急先鋒”。

小邪

就這樣,從天空俯瞰,“電商核心系統(tǒng)”這門重炮,被從原來的軍艦上拔起來,緩慢地往阿里云上吊裝。

阿里云的這群人驚呆了,他們第一次親眼看到到這門重炮的細(xì)節(jié)結(jié)構(gòu)有多復(fù)雜——管線穿梭,環(huán)環(huán)相扣,精密非凡,巍峨壯麗。

這一瞬間,他們才真正明白“定海神針”張建鋒當(dāng)年的良苦用心。若不是張建鋒逼著阿里云搞出了“零損耗”的神龍,這門炮強(qiáng)行放在原本的阿里云船體上,將是災(zāi)難般的存在。

這邊核心電商系統(tǒng)剛剛遷移完成,放眼阿里云這支艦隊(duì),四周已經(jīng)圍滿了小船:

各個(gè)系統(tǒng)的“上云”工作像春天的花一樣四處開放。

數(shù)據(jù)庫 也打響了上云的第一槍。

陳錦賦,就是當(dāng)時(shí)數(shù)據(jù)庫遷移的主力技術(shù)人。

陳錦賦

數(shù)據(jù)庫上云有多難呢?

還拿戰(zhàn)艦舉例子。

數(shù)據(jù)庫的“艦炮”形狀是很特殊的,只能放在特殊的戰(zhàn)艦上。過去,這個(gè)戰(zhàn)艦都是數(shù)據(jù)庫團(tuán)隊(duì)用物理機(jī)自己搭建的特殊型號。

現(xiàn)在要搬上云,云的戰(zhàn)艦是統(tǒng)一的標(biāo)準(zhǔn)品,原來的艦炮就裝不上去。

這個(gè)過程中,就必須用云上提供的標(biāo)準(zhǔn)原材料重新造出一個(gè)艦炮,也就是說,四舍五入要重做一個(gè)數(shù)據(jù)庫。

而且,之前說到,數(shù)據(jù)庫對計(jì)算性能的要求極其變態(tài)。

有些云的性能達(dá)不到原來服務(wù)器的標(biāo)準(zhǔn),就只能自研很多黑科技,例如“I/O 合并”、“自研文件系統(tǒng)”等等。

況且,數(shù)據(jù)庫還不只有一種。為了適合不同業(yè)務(wù)場景,陳錦賦他們搞出了云原生數(shù)據(jù)庫PolarDB、云原生數(shù)據(jù)倉庫AnalyticDB、云數(shù)據(jù)庫 RDS、云原生內(nèi)存數(shù)據(jù)庫Tair等等很多種類。

作為艦炮設(shè)計(jì)師,陳錦賦他們足足花了幾年的時(shí)間才完成這些復(fù)雜系統(tǒng)的設(shè)計(jì)和交付。

就這樣,數(shù)據(jù)庫這門巨炮,也慢慢被這幫人搬上了云的“艦隊(duì)”。

雖然你我并沒感覺,但從這一刻開始,自2003年以來下單買過的每一件商品記錄,都已被騰挪寫入了阿里云。

那段日子,阿里云上不僅迎來了電商核心、數(shù)據(jù)庫等等重磅系統(tǒng),還迎來了一個(gè)重磅的人,他就是張建鋒本人。

為阿里云的夢想金剛怒目保駕護(hù)航了十年后,他終究成為了新一代阿里云的掌門人。

而另一位為同樣阿里技術(shù)貢獻(xiàn)了十幾年的技術(shù)人魯肅接過 CTO 的沉重火把,繼續(xù)帶隊(duì)前行。

魯肅

2019年,就在“集團(tuán)上云”如火如荼的時(shí)候,張建鋒和魯肅幾乎同時(shí)發(fā)現(xiàn)了一個(gè)大問題,那就是:

大家上云的“姿勢”很可能不對!

(七)“可以計(jì)算”的價(jià)值

阿里巴巴內(nèi)部有很多系統(tǒng),它們都誕生“上云”之前。

這意味著一個(gè)重要的事實(shí):這些系統(tǒng)原本就不是為云而設(shè)計(jì)的。

硬要搬到云上,雖然也不是不行,但有兩個(gè)繞不開的問題:

一來、這樣做最好的效果也就是云上和云下達(dá)到同樣的性能,跑在云上絕不會(huì)比跑在云下更好。 二來、云本身的優(yōu)勢,例如大規(guī)模調(diào)度能力,這些老系統(tǒng)反而享受得不充分。

舉個(gè)生活中的例子你就明白了:

這就像把實(shí)體算盤搬進(jìn)了電腦里,做成了一個(gè)“虛擬算盤”,結(jié)果你的使用方法就從“手動(dòng)撥算盤”變成了“用鼠標(biāo)撥算盤”。這就很雞肋了,因?yàn)槟阆胍氖前褦?shù)字更快地算出來。

你不需要“虛擬算盤”,你需要“計(jì)算器”!

所以,與其費(fèi)盡心思“搬家”,為啥不把原來的系統(tǒng)直接廢棄,在云上用“第一性原理”重構(gòu)一套系統(tǒng)呢?

這個(gè)思路,就叫做“云原生”。

云原生的技術(shù)路線很多,現(xiàn)在最主流的路線是:容器化。

啥是容器化?

簡單來說,就是把過去巨大的程序拆成小模塊,然后把小模塊放進(jìn)類似“玻璃瓶”的容器里,容器和容器之間通過“接口”相互連接、調(diào)用——完成和過去巨型程序同樣的功能。

你可能直覺上覺得:把大程序拆小,不是更難管理了嗎?

其實(shí)不然。

在容器界,有一個(gè)叫做 K8S 的開源神器,專門負(fù)責(zé)海量程序調(diào)度,由于容器很小很輕,恰恰可以需要的時(shí)候,一秒鐘就建立好,不需要的時(shí)候,一秒鐘就關(guān)掉。

如果說原來的程序是“巨炮”,經(jīng)過容器化重構(gòu)的程序就變成了“機(jī)槍”,隨時(shí)可以騰挪,萬彈齊發(fā)如螞蟻吞象——反而靈活了許多。

而且,容器化帶來了兩個(gè)明顯的好處:

其一,是標(biāo)準(zhǔn)。

之前在云下,各個(gè)業(yè)務(wù)都會(huì)自己設(shè)計(jì)“槍炮”,用料獨(dú)特,手法個(gè)性。就像大廚一樣,換個(gè)調(diào)料味道都不對。而現(xiàn)在上云,必須調(diào)用云上提供的組件來組裝自己的武器,就像麥當(dāng)勞,全國各地吃到的都是同樣的味道。

其二,是靈活。

剛才我們講過,一個(gè)虛擬機(jī)里只能跑一種程序,要么是“數(shù)據(jù)庫”,要么是“大數(shù)據(jù)系統(tǒng)”,要么是“在線電商”;現(xiàn)在,各種程序都被“大卸八塊”塞在容器里,一個(gè)虛擬機(jī)里可以跑幾十上百個(gè)容器,至于容器里放的是“胳膊”還是“腿”,放的是“數(shù)據(jù)庫”還是“大數(shù)據(jù)系統(tǒng)”,根本沒區(qū)別!

這種特性,就使得一臺(tái)虛擬機(jī)里可以對各種程序進(jìn)行“混部”。

舉個(gè)例子:白天,阿里云上可以主要跑“電商”,到了晚上,買東西的人少了,同樣的計(jì)算力就可以主要跑“大數(shù)據(jù)”。

這么一來,本來需要開兩個(gè)“單間”分別跑的任務(wù),現(xiàn)在可以通過容器技術(shù)搞“合租”塞進(jìn)一個(gè)房間里,直接節(jié)省50%的成本。

不過,容器技術(shù)也不是千般好:畢竟是把“單間”改成“合租”,一個(gè)屋檐之下,程序之間難免抬杠拌嘴,爭搶資源。

越是把容器塞得密集,越是會(huì)出現(xiàn)這種情況。

這時(shí),K8S 的核心模塊“容器調(diào)度器”身上的壓力陡然變大——一旦調(diào)度得不好,讓程序打起架來,效率不升反降,得不償失。。。

懿川,就是被挖來專門解決這問題的大牛。

懿川是花名,如果提到他的真名,那是“云原生界”人盡皆知的大牛。但他特別囑咐我,別多說他的過去,他不想要光環(huán),只想在阿里做成一點(diǎn)事情。

調(diào)度器的難題,其實(shí)是業(yè)內(nèi)老大難的問題,說到底,是因?yàn)橄到y(tǒng)里原本存在好多調(diào)度器。

調(diào)度“大數(shù)據(jù)計(jì)算”的是一個(gè)調(diào)度器,調(diào)度“在線計(jì)算”的又是一個(gè)調(diào)度器,這兩個(gè)調(diào)度器各自調(diào)度,就像一個(gè)公司有兩個(gè)總經(jīng)理,肯定會(huì)打架。

于是,只好再在他們中間放一個(gè) “仲裁器” ,他倆發(fā)生爭執(zhí),就去“仲裁一下”。

可是。。。每次發(fā)生爭執(zhí),都要打一場“官司”,這事情就耽誤了呀。。。

解決方案其實(shí)很明確:開發(fā)出一個(gè)能夠調(diào)度所有類型“統(tǒng)一調(diào)度器”!

“統(tǒng)一調(diào)度器”說起來容易,但之前不乏技術(shù)大牛挑戰(zhàn)過,都沒能成功。就連谷歌也沒有實(shí)現(xiàn)基于 k8s 的統(tǒng)一調(diào)度并大規(guī)模應(yīng)用。

但懿川不一樣,面孔年輕但頂著一頭白發(fā)的他已經(jīng)把容器技術(shù)玩到“純熟”了,這次來阿里,就是奔著獨(dú)孤求敗來的。

2020年,還在試用期的懿川面不改色跟大家立下軍令狀:三個(gè)月,我要做出“統(tǒng)一調(diào)度器”,如果做不出來,正好,也不用轉(zhuǎn)正了,我走人!

他這個(gè)“自殺式軍令狀”,反而炸出一群大神。

來自“大數(shù)據(jù)”、“搜索”、“數(shù)據(jù)庫”、“電商”里的各路容器大牛,拍拍他的肩膀,決定跟他一起“獨(dú)孤求敗”——組成聯(lián)合研發(fā)小組,開始瘋魔一樣研發(fā)調(diào)度器。

就這樣,當(dāng)年8月,統(tǒng)一調(diào)度器如約發(fā)布。

同事們驚為天人。

“獨(dú)孤求敗”的大神中,就有林偉一個(gè)。

他是阿里云“大數(shù)據(jù)+AI 工程化”領(lǐng)域的技術(shù)大牛。

2008年,林偉也在微軟亞洲研究院,那時(shí)他就有機(jī)會(huì)來阿里云,但他卻拒絕了邀請,選擇去微軟美國前線工作了幾年。

美國的前線戰(zhàn)斗,讓他在軟件工程化能力上爐火純青。2015年,覺得時(shí)機(jī)成熟,林偉鄭重接受了再次發(fā)來的邀請,加盟阿里云。


他加盟的時(shí)間點(diǎn),恰是“登月計(jì)劃”之后不久。

在“登月”的時(shí)代,今天常見的云原生工具還不健全,阿里云建設(shè)了自己的一套云原生系統(tǒng)核心雛形。

林偉面臨的難題,就是如何讓“自有云原生體系”和“開源云原生體系”協(xié)同進(jìn)化。

這時(shí)候,他的工程化絕活就派上了用場。當(dāng)時(shí),他使出畢生絕學(xué),對大數(shù)據(jù)系統(tǒng)進(jìn)行了一次巨大重構(gòu),才使得這個(gè)系統(tǒng)平滑運(yùn)轉(zhuǎn)至今。

林偉

林偉和懿川合作那幾個(gè)月,簡直是高手過招,只見刀光,不見人影。

2020年,林偉帶隊(duì)不僅把大數(shù)據(jù)計(jì)算平臺(tái) MaxCompute 搬進(jìn)了容器,還把計(jì)算平臺(tái)“三劍客”的另外兩個(gè)——人工智能計(jì)算平臺(tái) PAI 和大數(shù)據(jù)治理平臺(tái) DataWorks——統(tǒng)統(tǒng)適配了容器。

至此,數(shù)據(jù)平臺(tái)完成了云原生化。

四大中臺(tái)里, 在線業(yè)務(wù) 、 數(shù)據(jù)庫 、 大數(shù)據(jù) 三大中臺(tái)均已上云。

云原生和容器技術(shù)給云上的產(chǎn)品帶來了 “標(biāo)準(zhǔn)化” ,而標(biāo)準(zhǔn)化意味著 “平等” 。

阿里云上的這些“機(jī)槍大炮”,不僅給阿里巴巴用,同樣可以提供給云上的“非阿里”客戶使用。至此,阿里巴巴集團(tuán)成為了阿里云的“標(biāo)準(zhǔn)”客戶,阿里云并不會(huì)對“阿里巴巴集團(tuán)”有偏袒的支持,而是和“其他客戶”一視同仁。

遙想2014年,阿里云說要和客戶“坐同一架飛機(jī)”。此時(shí),幾番寒暑過去,這群人終于可以驕傲地說:我們自己上飛機(jī)了!

然而,此時(shí)此刻,追光之外的孤島上,還站著一個(gè)人,他背負(fù)著無人能解的遺憾默默前行了十年。

他就是五福。

(八)孤島回歸

2018年底,張獻(xiàn)濤、Jason 帶著一群人坐在五福對面。

五福恍然想起2009年的那個(gè)下午。只不過,對面的人不再是王堅(jiān)。

九年過去了,世界變了許多。唯一沒變的是搜索的“逆天”難度。

講2009年的故事時(shí),我們只提到搜索對底層資源要求高,但沒具體解釋,這里不妨科普兩句:

搜索的靈魂是“快”。 如果你在淘寶搜索框查了一個(gè)“連衣裙”,搜索引擎現(xiàn)場是沒功夫翻遍所有商品詳情的。他們必須在平時(shí)就做好一個(gè)“索引”,把帶有“連衣裙”的書提前整理在一起。 這個(gè)過程叫離線搜索,對“存儲(chǔ)性能”有很高的要求。 但別忘了,淘寶上每分每秒都有新的商品上架,索引庫做不到實(shí)時(shí)更新。所以你搜“連衣裙”的時(shí)候,搜索引擎其實(shí)還要再在“新上架”的商品里翻一遍,用豹的速度幫你把“連衣裙”找出來補(bǔ)到搜索結(jié)果里。 這個(gè)過程叫“在線搜索”,可想而知,這會(huì)對“計(jì)算性能”和“網(wǎng)絡(luò)性能”產(chǎn)生超高的壓力。

一邊是:自從2010年“下云”之后,搜索一直在沿用當(dāng)時(shí)的“保守方案”,此時(shí)舊的技術(shù)路線已經(jīng)接近天花板——這臺(tái)“大炮”的很多組件都年久失修了。

另一邊是:阿里巴巴的商品數(shù)量已增加到將近10億,每一個(gè)商品,都是搜索引擎肩上的“一根稻草”。

搜索作為最后一個(gè)“孤島”,上云迫在眉睫。

就是這個(gè)搜索框,背后有無數(shù)技術(shù)大坑。

但五福還是“留了個(gè)心眼”。

他讓技術(shù)大牛喜得去給阿里云做一個(gè)“體檢”——只有通過各種嚴(yán)苛的性能測試,才能開始遷移。

幾天后的會(huì)上,喜得表情凝重:按照最嚴(yán)苛的標(biāo)準(zhǔn),阿里云的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)性能都還不夠完美。

但與2009年不同的是,這次阿里云離及格線非常非常近。

五福內(nèi)心非常糾結(jié):如果強(qiáng)上,未必不成功。但萬一上云之后頂不住,又要第二次撤下來,那。。。。

討論再三,五福決定:搜索暫時(shí)不上云!但只要阿里云的性能達(dá)標(biāo),第二天搜索就可以啟動(dòng)上云。

說實(shí)話,這個(gè)決定還是出乎了阿里云的意料——畢竟全集團(tuán)都上了云,為什么搜索就是死活上不去?

阿里云的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)幾大團(tuán)隊(duì)受了不小的“刺激”。

2019年初,他們決定組成“攻堅(jiān)小組”,就在搜索團(tuán)隊(duì)的樓下辦公,你搜索要什么性能,我就研發(fā)什么性能,發(fā)誓要用一年時(shí)間把搜索搬上云!

存儲(chǔ)團(tuán)隊(duì)負(fù)責(zé)人Jason(左)和網(wǎng)絡(luò)團(tuán)隊(duì)負(fù)責(zé)人祝江鶴(右)

深入搜索內(nèi)部,阿里云才發(fā)現(xiàn),原來搜索團(tuán)隊(duì)真的不是“矯情”,而是搜索對計(jì)算力的用法就是和別的業(yè)務(wù)有巨大區(qū)別。

現(xiàn)在給搜索準(zhǔn)備的阿里云,就像是給西餐大廚準(zhǔn)備了四川辣子,怎么用都不順手。。。

沒關(guān)系,你有多大的腳,我就有多大的鞋——當(dāng)時(shí)正在研發(fā)最終階段的神龍二代服務(wù)器,專門添加了適合搜索場景的特性;洛神云網(wǎng)關(guān)也從上一代芯片 XGW 進(jìn)化到了新一代芯片 HGW,極限轉(zhuǎn)發(fā)性能提升十倍;盤古2.0專門針對搜索對“速度”的要求研發(fā)了“超高速 POV 鏈路”。

2019年底,一個(gè)超大的會(huì)議室,所有大咖齊聚一堂。

這邊是搜索計(jì)算平臺(tái)總負(fù)責(zé)人周靖人、搜索負(fù)責(zé)人五福、還有一眾技術(shù)骨干;那邊是阿里云神龍服務(wù)器、彈性計(jì)算、盤古存儲(chǔ)、洛神網(wǎng)絡(luò),技術(shù)的骨干悉數(shù)到齊。

阿里云拍著胸脯,向搜索正式發(fā)出“上云邀請函”。

周靖人回憶:“雖然當(dāng)時(shí)還沒有一個(gè)完善的上云方案,但看到阿里云幾乎所有負(fù)責(zé)人都來了,給了我非常大的信心!

當(dāng)時(shí),搜索團(tuán)隊(duì)就決定,2020年雙11,搜索要全面上云。

這一年,雖然疫情來襲,整個(gè)世界都為之冰凍,但是技術(shù)的火焰卻越燒越旺,相比2009年,阿里云的網(wǎng)絡(luò)吞吐性能從5萬 PPS 做到了2500萬PPS,磁盤存儲(chǔ)I/O性能從500次每秒變成了100萬次每秒。

在這樣的變態(tài)性能加持下,搜索引擎一鼓作氣順利完成“云上重構(gòu)”。

昔日一別,苦等12年,阿里云的技術(shù)發(fā)展終于追上了搜索的需要。這個(gè)孤島終于回歸云的懷抱。

只是搜索團(tuán)隊(duì),恐怕已沒人用王堅(jiān)12年前曾經(jīng)送給他們的鍵盤敲代碼了。

2021年1月,小邪提議,為搜索上云舉辦了慶祝儀式。

那一天,阿里云總裁張建鋒來了,阿里巴巴 CTO 魯肅來了,五福來了。

王堅(jiān)也來了。

五福不再是那個(gè)嫩小伙,王堅(jiān)的兩鬢也長了白頭發(fā)。

五福對王堅(jiān)說:博士,12年了,我在你面前沒有遺憾了。

王堅(jiān)

(九)無法計(jì)算的價(jià)值

王堅(jiān)曾經(jīng)說,有些問題十年才能求出解。

他說少了。上云這個(gè)問題,求解了十多年。

2021年“雙11”,被魯肅稱為集團(tuán)100%上云,也就是阿里巴巴的大大小小的業(yè)務(wù),已經(jīng)完全跑在了阿里云上。

阿里巴巴集團(tuán)完成全面上云的壯舉。而這件事,其他國際云計(jì)算的領(lǐng)導(dǎo)者,亞馬遜、谷歌、微軟,都尚未對外宣布完成。

在魯肅看來,數(shù)字是最誠實(shí)的情報(bào)官,每一行代碼的價(jià)值都可以被測算。依靠資源共享和混部,CPU資源利用率提升了30%,而所有業(yè)務(wù)基于云原生統(tǒng)一開發(fā),開發(fā)效能也提升了20%。

2021年底,世界最權(quán)威的技術(shù)評測機(jī)構(gòu) Gartner 發(fā)布了最新一年的云計(jì)算評測報(bào)告《Gartner Solution Scorecard 2021》,通過嚴(yán)格實(shí)驗(yàn)為國際主流云廠商的“計(jì)算”“存儲(chǔ)”“網(wǎng)絡(luò)”“安全”“韌性”“運(yùn)營與治理”等9項(xiàng)水平打分,阿里云橫掃“計(jì)算”、“存儲(chǔ)”、“網(wǎng)絡(luò)”、“安全”4個(gè)第一。在核心技術(shù)指標(biāo)上完全超越亞馬遜 AWS、微軟 Azure 這些頂尖玩家。

如果回到2008年,你告訴任何一個(gè)程序員,中國在未來十幾年計(jì)算力底層技術(shù)上將會(huì)力壓所有人一頭,估計(jì)他們都會(huì)用關(guān)愛的眼光看你。

但如今,云計(jì)算的戰(zhàn)艦已經(jīng)列隊(duì)整齊,在陽光下熠熠,如海之鱗。

雖說計(jì)算力的突圍還遠(yuǎn)遠(yuǎn)不能言成功,在芯片的“海洋”和應(yīng)用軟件的“艦炮”上,尚有遠(yuǎn)路須行。

但誰都不能否認(rèn),昔日計(jì)算力的鐵桶包圍圈,正在被我們撕開裂口。

幾代工程師前赴后繼才完成的 “阿里集團(tuán)全面上云” ,換來的是“異乎尋常的穩(wěn)定”,是“性價(jià)比的提升”,是“運(yùn)維工具的豐富”。

于是,越來越多 “國之重器” 開始信任阿里云,乃至整個(gè)云計(jì)算技術(shù)。

負(fù)責(zé)阿里云客戶交付的張瑞一口氣幫我舉了很多例子:

招商銀行、興業(yè)銀行、華夏銀行、浦發(fā)銀行、南京銀行、富滇銀行等等都在把金融核心系統(tǒng)慢慢向阿里云上遷移,中國金融的權(quán)柄,漸漸被我們自己緊握。 柳州鋼鐵集團(tuán)的生產(chǎn)線如今也跑在阿里云上,全流程數(shù)字化的生產(chǎn)系統(tǒng)也逐漸實(shí)現(xiàn)國產(chǎn)替代。柳鋼冷軋廠廠長陸兆剛把日常管理全部用釘釘進(jìn)行,把自己稱為“酷廠長”。 一家中國頂尖的軌道裝備企業(yè)把核心制造系統(tǒng)跑在了阿里云上,強(qiáng)大的數(shù)據(jù)管理能力可以讓每一臺(tái)高鐵列車都量身定制,各不相同。 而中國自主研制的大飛機(jī)項(xiàng)目,也已經(jīng)在阿里云系統(tǒng)上開發(fā)國產(chǎn)的裝備制造和核心仿真系統(tǒng)。

“有時(shí)從現(xiàn)場回來,就像做夢一樣。我之前從沒想過自己做的事情可以和國家的命運(yùn)血脈相通!睆埲鸶锌

雖然我以“民族主義”的視角講述了整個(gè)故事,但回望王堅(jiān)和團(tuán)隊(duì)們最初的夢想,最讓我個(gè)人感到欣喜的,卻是他們 “人類主義” 的夢想得償所愿。

華大基因在阿里云上,用15分鐘就能完成一個(gè)人身上30億堿基的全基因組測序; 國家地震局把2000個(gè)地震臺(tái)每年30TB的地動(dòng)數(shù)據(jù)在阿里云上進(jìn)行分析,有機(jī)會(huì)把地震預(yù)測時(shí)間縮短; “中國天眼”天文望遠(yuǎn)鏡 FAST 把觀測到的數(shù)據(jù)用阿里云進(jìn)行擬真,為全世界所有科學(xué)家提供探索宇宙的依據(jù); 2020年,疫情降臨,各地政府迅速在云上開發(fā)出“健康碼”,用大數(shù)據(jù)系統(tǒng)保衛(wèi)著每一個(gè)人的安全。

一個(gè)真理不言而喻:

云計(jì)算在“提高生產(chǎn)效率”方面,終歸能找到一個(gè)公式算出節(jié)省的成本究竟有多少;

但是,基因測序、預(yù)測地震、探索宇宙、從病毒手中搶回生命,凡此種種,沒有一個(gè)公式可以衡量出它們的價(jià)值。

這,才是真正“無法計(jì)算的價(jià)值”。

遙想2008,王堅(jiān)一行踽踽獨(dú)行;2012,阿里云末日求生;2016以來,胡曉明鮮衣怒馬,張建鋒羽扇綸巾;2020年,大神齊聚獨(dú)孤求敗,集團(tuán)全面上云;以至于如今,云計(jì)算已經(jīng)成為眾多公司引以為傲的技術(shù)方向,成為我們國度的一張名片。

在看客眼里,一切都發(fā)生得不能再順理成章。

可是,只有劇中人知道,良機(jī)并非天賜,爪牙豈能天成。

三代阿里云領(lǐng)導(dǎo)人聚首。

當(dāng)年阿里金融那位奶爸工程師,他的小孩估計(jì)已經(jīng)上學(xué),不知道ta是否知道,自己的哭聲曾為中國云計(jì)算做出了不可磨滅的貢獻(xiàn)。

當(dāng)年阿里云迷失時(shí)離開它的工程師,早已有了新的彼岸,不會(huì)回頭懷戀。但如今全世界上百萬臺(tái)計(jì)算機(jī)里,也許仍舊燃燒著他當(dāng)年手書的一行行代碼。

當(dāng)年直言敢諫懷疑云計(jì)算的淘寶工程師們,后來很多都心甘情愿地成為了云的忠實(shí)擁躉。在他們眼里,從來只有對錯(cuò),沒有私利。

當(dāng)年那位因?yàn)檠奂獍l(fā)現(xiàn)配置錯(cuò)誤,從而讓阿里云完美扛下“雙11”的工程師,也許并不覺得,自己曾經(jīng)在平行宇宙的岔路口,輕輕撥動(dòng)了云計(jì)算的命運(yùn)輪盤。

而正在看文章的你,可能也并沒意識(shí)到,當(dāng)年你在12306上訂票,在地鐵站刷卡,在“雙11”剁手,在“熊貓TV”上看直播,在支付寶上交水電費(fèi),這一切瞬間,都如細(xì)小的刻刀,十四億刻刀組合起來,便雕刻出了中國云計(jì)算的模樣。

2022年春天,杭州城一片白茫茫。

兩場大雪,恍然合成一扇冰封的大門,連接兩次奧運(yùn)之間的十三載光陰。只是如今,世界并未大好,你我卻都不再少年。

生活即是如此,無數(shù)人倒下,走散,但也會(huì)有人選擇留在此地,薪火相傳。

如長河?xùn)|展,寥寥岸頭,有人影來了又走,走了又還。但如果把時(shí)間的底片一張張疊起,你會(huì)看到一人獨(dú)立,三五對談,人影幢幢,終至鼎沸喧然。

也許一代人終將老去。

但他們營建的花園里,正有孩子追逐嬉鬧。

參考閱讀:

代碼積沙鎮(zhèn)海

將軍北望圖南

再自我介紹一下吧。我叫史中,是一個(gè)傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機(jī)會(huì)相遇,會(huì)是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版