国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

15 年前為雙11“渡劫”的技術(shù),卻打通了AI的任督二脈

0
分享至


淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

15 年前為雙11“渡劫”的技術(shù),

卻打通了AI的任督二脈

文 | 史中

快來吧奔騰電腦 就讓它們代替我來思考

1999 年,樸樹唱出了這句歌詞。

而后,時光把你我綁在刀尖,猛地刺穿新世紀(jì)的四分之一。無數(shù)孩子眼中的遙遠(yuǎn)未知,眨眼已坍縮為大人的細(xì)碎回憶。

2025,我們短暫停靠在了 AI 站臺,回望迷霧,一顆子彈正中眉心:當(dāng)年歌者的無心呢喃,竟是呼嘯而來的預(yù)言。


(一)困在船上的師傅

“10、9、8、7。。?!?/p>

隨著零點讀秒,又一年雙11開始沖刺,紅包如瀑宣泄,直播間吶喊起伏,快遞車連夜奔忙。

此刻誰也不會記起,15 年前,這群工程師曾經(jīng)做過的另一次讀秒——淘寶的“爆炸”倒計時。

那是 2010 年“雙11”,眼看淘寶系統(tǒng)就要被 3 億剁手黨沖垮。在只剩 4 秒的時候,殺掉了一個數(shù)據(jù)庫,才保護(hù)淘寶這艘巨輪沒有被浪頭吞沒。

這就是很多人都聽說過的“驚魂 4 秒”的故事。

之所以要提起這個往事,是因為它不止代表阿里,也不止代表中國師傅,而是代表了整個人類在 15 年前面臨的技術(shù)困境

話說,人類發(fā)展有一個穩(wěn)固的底層邏輯:犯懶——總想用能源驅(qū)動工具來替代自己的勞動。

具體到計算機(jī)這個工具,主要是用來替代人類的“腦力勞動”。比如最早在軍事上替代人類彈道計算員,后來在能源勘探上替代人類地質(zhì)計算員。


這是美國第一顆人造衛(wèi)星“探險者 1 號”使用的計算員,是真正意義上的 Computer。根據(jù)圖靈的定義,計算員是“遵循固定規(guī)則,無權(quán)在任何細(xì)節(jié)上偏離這些規(guī)則的人

那在當(dāng)時的淘寶系統(tǒng)呢?主要替代兩類人:

一類是前臺“售貨員”,剁手黨點什么商品,就給 TA 看什么商品,再推個購物車跟著。


一類是后臺“會計員”,負(fù)責(zé)把下單的價格、數(shù)量、型號都記錄清楚,后續(xù)好給人家發(fā)貨。


在 2010 那個時間點上,它倆代表了兩種經(jīng)典計算架構(gòu):

這“售貨員”跑在小巧的 x86 服務(wù)器上。救它相對還容易,因為服務(wù)器有點兒像隔斷船艙,這個船艙塞滿了,可以找另一個稍空的船艙借點兒地方。

可即便如此,騰挪還得靠人。這邊嘴上吼,那邊手上敲,稍微手慢一點就會掛掉。

這“會計員”就更難救了,它跑在一整套*專用*的軟硬件系統(tǒng),由 IBM 小型機(jī)、 Oracle 數(shù)據(jù)庫和 EMC 存儲系統(tǒng)組成——這就是大名鼎鼎的“IOE”。


“IOE”好比輪船的輪機(jī)室,總共就這么大的功率,商品庫、交易庫、用戶庫,所有庫擠在里面一同施壓,要想不爆炸,只能關(guān)掉一些系統(tǒng)。


直說吧:彼時這倆“賽博牛馬”,都已經(jīng)不太稱職了,這對人類這個老板來說是災(zāi)難。

你也許沒當(dāng)過老板,但肯定打過游戲,用上一關(guān)的武器對付下一關(guān)的 BOSS,會極其吃力,甚至完全失效——BOSS 的毒打會逼迫你尋找新的武器。

就在歷史的巨大縫隙面前,一支敢死隊出發(fā)了,他們的任務(wù)就是:從虛空中悟出一種新武器,能夠打敗“雙11”這個大 BOSS。

這個新武器,絕不能再像孤懸海上的船,有沉重的輪廓阻擋擴(kuò)容;而是要飄在云端,像金箍棒一樣收放自如。

它就是阿里云的基礎(chǔ)技術(shù)——彈性計算。

注意,這個彈,絕不能是“人肉彈”,而是要在賽博空間建立一套*工業(yè)流水線級*穩(wěn)定可靠的系統(tǒng),自動感知及反應(yīng)微小的顫動,毫秒級就把計算力調(diào)度得纖毫不差的彈!


阿里云的第一行代碼

敢死隊手握一紙計算獨立宣言

不僅要讓計算從(美國定義的)傳統(tǒng)軟件時代的 IOE 體系里獨立出來;還要從(中美共同定義的)互聯(lián)網(wǎng)時代造就的“軟件直懟硬件”的框架里獨立出來!

“一次跨兩代”,相當(dāng)于從封建社會直接邁入社會主義。難度有多炸裂,簡直不敢想。

你或許不知道,從起草計算獨立宣言,到彈性計算的旗幟高高飄揚,中間已經(jīng)歷了漫長的 5000 多個日夜求索。

你或許不知道,“獨立”并非終點,計算系統(tǒng)對智能的模擬越來越深刻,竟然創(chuàng)造出了智能本身——AI。

但阿里云這群瘋子早就知道,從出發(fā)的那一刻就知道。

今天,中哥就借著彈性計算團(tuán)隊的故事,科普一下這段中國師傅的十五載硬核征程。


(二)彈性計算就像炒菜

講故事之前,咱們不妨先來點兒暴力——撬開機(jī)箱蓋子看看里面。

都說治大國如烹小鮮,依我看,彈性計算也如廚師炒菜。

每一個機(jī)箱里,都有一個廚師,他就是廚房的靈魂,CPU; 廚師切墩、炒菜的過程,就是計算; 廚師炒菜用到的爐灶、鍋盆、調(diào)料,就是軟件; 不時有食材送進(jìn)來,也有炒好的菜送出去,這些都是數(shù)據(jù); 而傳菜的窗口,就是網(wǎng)卡; 當(dāng)然廚師還會把一些食材、半成品放進(jìn)冰箱儲存,這個冰箱就是硬盤;


這樣幾百萬、幾千萬個廚房組織在一起,所形成的巨大的“炒菜能力”,就叫——計算力!


了解了如上的比喻,你自然會得出結(jié)論:

所謂宏觀上的計算彈性,其實就是微觀上廚師聽話的程度。

想想看,如果你有辦法在*短時間內(nèi)*精準(zhǔn)改變*每個廚師*的任務(wù)狀態(tài):

例如,讓某幾百萬廚師從待命變成顛勺,讓某幾十萬廚師從炒菜變成往冰箱儲存,讓某幾萬廚師從做魚香肉絲改成做法式蝸牛,讓某幾個廚師從切絲變成切條,不就等于能讓計算力瞬間變大變小,隨意調(diào)度了嗎?

這里有大難題!

廚師一直待命,但它不能憑空炒菜,需要很多“家伙事兒”,這些就是操作系統(tǒng)和軟件。而且根據(jù)炒的菜系不同,家伙事兒也不同。

但給電腦裝過系統(tǒng)的都知道,安裝不僅慢,而且還得根據(jù)硬件不同選擇版本,不可能在短時間內(nèi)完成。

誒,那時業(yè)界老師傅已經(jīng)想出一個方法——在廚房里再做一個廚房。

具體分三步:

1、根據(jù)任務(wù)不同,把需要的設(shè)施都打包裝修在一個個“小樣板間”里; 2、樣板間是一個隔絕的小世界,可以隨意挪動,也可以快速克隆; 3、炒菜任務(wù)來臨時,只要提前一兩分鐘把一堆樣板間 Ctrl+V+V+V... 放進(jìn)無數(shù)廚房里,就可以開干了!

沒錯,這個樣板間就是“虛擬機(jī)”。


有了虛擬機(jī),大廚們再也不能以“廚具沒備好”為理由摸魚了,來活兒就得乖乖接。

別急,大廚們的“好日子”才剛來。

由于虛擬廚房很小,一個廚房里可以塞進(jìn)很多個虛擬廚房,這意味著一個廚師可以*同時*照顧很多道菜:在這邊炒兩下青菜,去那邊翻一下烙餅,再去那邊拍一拍黃瓜。

把不同的任務(wù)穿插起來,完美壓榨廚師的時間,真是牛馬看了會落淚?。?/p>


正因有了虛擬化技術(shù),計算這件事被成功推上了工業(yè)流水線:廚房(在調(diào)度層面上)被連在一起,組成*中央廚房*!

這就是“彈性計算”最初的模樣。

手握錘子,趕緊砸釘子:老師傅開始大規(guī)模使用彈性計算替代“前臺的售貨員”,果然效果拔群。

同樣的硬件設(shè)備,因為“廚師”空閑更少了,相當(dāng)于模擬出更多的售貨員。(你品一下)

就像這樣↓↓↓


然而!他們比劃了半天,發(fā)現(xiàn)這“后臺的會計員”還是沒辦法彈。。。

原因跟“工種”有關(guān)。會計員負(fù)責(zé)算數(shù),哪怕算錯了一分錢,記錯了一筆訂單,都是重大事故。

這個活兒相當(dāng)于讓廚師們做滿漢全席給老佛爺吃,但凡有地方鹽多了、醋少了,都是掉腦袋的罪過。

當(dāng)時虛擬化加持的彈性計算系統(tǒng),根本做不到這么穩(wěn)定。(至于原因,我們在下一章詳解。)

好不容易研發(fā)了彈性計算,卻不能一把實現(xiàn)“計算獨立”,未免有些沮喪。。。

不過羅馬不是一天建成的,眼前至少還有個好消息:

就在這個階段,互聯(lián)網(wǎng)行業(yè)崛起了一個新的“工種”——數(shù)據(jù)研究員。數(shù)據(jù)研究員負(fù)責(zé)從海量的數(shù)據(jù)里提煉特征,為不同類型的用戶和商品都打上標(biāo)簽,以備后續(xù)推薦。

沒錯,這就是:大數(shù)據(jù)系統(tǒng)。

在 2015 年以前,很多國民應(yīng)用的爆火,最大的功臣都是大數(shù)據(jù)加持的“猜你喜歡”系統(tǒng)。比如手機(jī)淘寶、今日頭條、微博,不斷推給你感興趣的商品或內(nèi)容,才牢牢抓住你。

多說一句,別看“大數(shù)據(jù)”和“數(shù)據(jù)庫”都帶“數(shù)據(jù)”,實際上大數(shù)據(jù)系統(tǒng)的只是做定性分析,偶爾算錯一個數(shù),或者算得慢一些,都無妨大局。

就以當(dāng)時最主流的大數(shù)據(jù)系統(tǒng) Hadoop 為例,你可以極簡理解為:它就是用一套公式,把數(shù)據(jù)庫里所有的數(shù)都算一遍。

而 Hadoop 的創(chuàng)新在于,它能把這種計算拆分成無數(shù)獨立的小計算。小計算的結(jié)果捏合起來,就能得到最終結(jié)果。


這,不正適合新生的彈性計算系統(tǒng)么?

每一個小計算,都能放在一個(大廚房里的)虛擬廚房里。

每天人類下班以后,“賽博廚師們”就上班,把這一整天新增的數(shù)據(jù)都給“炒熟”。

就像醬↓↓↓


那幾年,阿里巴巴內(nèi)部的各個業(yè)務(wù)線,愛嘗鮮的老師傅都用“中央廚房”搭建了各自的大數(shù)據(jù)系統(tǒng),這些師傅,后來好多也成了阿里云的悍將。

之所以要說“后來”,是因為有個歷史原因:最早阿里巴巴的底層技術(shù)團(tuán)隊和阿里云的技術(shù)團(tuán)隊分屬兩邊,后來慢慢合并的。(詳見)

那么,當(dāng)時的阿里云團(tuán)隊在忙啥呢?

他們忙著把彈性計算包裝成產(chǎn)品(ECS),系上蝴蝶結(jié),滿世界尋找客戶,準(zhǔn)備大庇天下寒士!

最初一批“寒士”,就是阿里巴巴收購萬網(wǎng)之后繼承過來的中小網(wǎng)站們。

中小網(wǎng)站,和淘寶這種網(wǎng)站比起來,那簡直是螞蟻 VS 大象。

很多小網(wǎng)站全部代碼只需要一個虛擬機(jī)就能跑起來,而且一天也沒幾個人訪問,相當(dāng)于廚師們都閑著,就算底層的彈性計算的架構(gòu)“不結(jié)實”,也不至于出問題嘛。

阿里云的師傅們開始樂觀了,小網(wǎng)站行的話,那大網(wǎng)站行不行?網(wǎng)游行不行?政企行不行?

現(xiàn)實的毒打馬上就來了。


(三)煩惱的源頭:“打擾稅”

話說,在轟轟烈烈的“計算獨立運動”中,涌現(xiàn)了一批掃地僧,專門負(fù)責(zé)“搬家”,也就是協(xié)助各個業(yè)務(wù)搬到彈性計算上。

楊曦就是其中一員。

他有點像老中醫(yī),一個系統(tǒng)擺在面前,他把把脈,就知道目前的彈性計算的能力夠不夠支撐,從而決定是現(xiàn)在上還是等等上。

在他和同事的努力下,每一年“雙 11”都有更多的淘寶模塊被搬上彈性計算,不再忍受“人肉云計算”的煎熬。


阿里云彈性計算產(chǎn)品解決方案負(fù)責(zé)人 楊曦

2014年,組織上看中了他的醫(yī)術(shù),調(diào)他來阿里云幫一幫外部大客戶上云。

楊曦一來,才發(fā)現(xiàn)這是個坑。。。

外部客戶不像阿里同事那樣,把自己的業(yè)務(wù)系統(tǒng)全都拆開摸索著上。人家手里的是售貨員、觀察員、各種員長在一起的“連體系統(tǒng)”,要上就一起上!

這樣的系統(tǒng)在彈性計算上能跑明白嗎?

兩個字:看命。

楊曦記得,當(dāng)時手游剛剛開始火爆,有很多游戲廠商面臨和“雙11”類似的難題,一做推廣促銷,服務(wù)器擴(kuò)容就跟不上,結(jié)果浪費金錢、浪費大好機(jī)會。

他們聽說阿里云這個老中醫(yī)專治“雙11”,滿懷期待用了彈性計算。結(jié)果計算力倒是有彈性,可負(fù)載一重,系統(tǒng)就*隨緣*出 Bug。。。

Bug 不怕,怕的是隨緣——老師傅就像原始人看見雷公電母那樣無助。

所有故障都指向一個地方:虛擬化系統(tǒng)。

上一章我答應(yīng)你,要講講不穩(wěn)定的具體原因?,F(xiàn)在咱們開始:

一個廚師,面對眼前的五個虛擬廚房里,最難的是啥?當(dāng)然是掌握每一個廚房的進(jìn)度,在各個任務(wù)里精準(zhǔn)地*切換*。

為了切換,他得有個日程表,而日程要靠“規(guī)矩”來定。

我隨便編幾個規(guī)矩你感受下:1)某個灶上的水開了,就要趕緊中斷其他任務(wù),跑過來下餃子;2)某個爐灶里的菜冒煙了,就要趕緊中斷其他任務(wù),過來翻炒。

像這樣的規(guī)矩有好多條,它們編成了一個厚厚的“操作手冊”,這個手冊就是“虛擬化架構(gòu)”,它放在一個桌子上,也就是“宿主操作系統(tǒng)”。

廚師每炒幾下菜,都得坐回到桌子前面,對照手冊算一下,確定接下來該操作哪個爐灶。


這種情況,其實無法保證菜不糊,因為“確定下一步”這個動作本身,就會占用廚師的時間和精力。

假設(shè):同時五個廚房都在進(jìn)行步驟很復(fù)雜的菜,廚師為了搞清楚下一步該給哪個廚房做,要在桌前算很長時間,這邊剛搞清楚,那邊的菜已經(jīng)糊了。。。

這下你知道,為啥負(fù)載一重,虛擬化系統(tǒng)就愛崩,而且還隨緣崩了吧?


阿里云趕緊滿世界貼告示“重金求子”,如今的阿里云彈性計算通用虛擬化負(fù)責(zé)人,大神沈益斌就是這個當(dāng)口加入團(tuán)隊的。

沈益斌還記得,當(dāng)時他們幾個師傅使出畢生絕學(xué),把各種能想到的情況都做成精巧的補丁,打在系統(tǒng)里,給虛擬化架構(gòu)續(xù)命。

到后來補丁摞補丁,也摞不動了,他們只好采取“惹不起,躲得起”的六字方針:主動幫客戶定時釋放內(nèi)存,或者監(jiān)測到哪個地方負(fù)載高了,趕緊把一部分“虛擬廚房”遷到提前準(zhǔn)備的“備用服務(wù)器”上。

就這樣,云計算又硬生生退回到了“人計算”。

人是最不靠譜的動物了。

即便用人來填,到后來也不好使了:移動互聯(lián)網(wǎng)方興未艾,不到半年,客戶負(fù)載密度又提高了十倍。這時你要保證不出事兒,就得準(zhǔn)備十倍的服務(wù)器放在那準(zhǔn)備騰挪。這么多服務(wù)器,用裸機(jī)都能支撐業(yè)務(wù)峰值了,還“彈”個毛線啊。

老師傅被逼到了懸崖邊。

2015年,團(tuán)隊下定決心,玩命跳向?qū)Π?,重?gòu)所有的虛擬化代碼,從 Xen 架構(gòu)到 KVM 架構(gòu)。

他們跳過去了:KVM 這個新的操作手冊輕巧多了,廚師不用每次都跑回桌子前面,而是可以帶在身上,隨時拿出來算一算下一步該干啥。


這一下,一般的重負(fù)載,彈性計算都能繃住,絕對不抽了。

眼看阿里云上外部客戶罵聲能歇一歇,淘寶也能再挑出一部分負(fù)載較重的系統(tǒng)上云了。


老師傅擦著汗,給自己偷偷點了個贊。

之所以偷偷,是因為他們心里都清楚,更換虛擬化引擎,最多能頂個三年五載,但絕不會是終點。

因為搬家?guī)煾禇铌匾呀?jīng)幫他們試過了,即便最新的 KVM 引擎能承擔(dān)很多重載,卻仍舊沒辦法支撐“雙11”狀態(tài)下滿負(fù)荷工作的會計員(數(shù)據(jù)庫)。

這到底是為啥呢?因為數(shù)據(jù)庫在滿載時有個缺德的特點:“高 I/O”。

還用廚房舉例吧。數(shù)據(jù)庫的基本功能可以抽象為兩件事:存一個數(shù)(I),取一個數(shù)(O)。這就相當(dāng)于讓廚師把食物放冰箱,以及從冰箱里取食物。

在“雙11”這種情況下,它存取的頻率極高。

指令是發(fā)給五個虛擬廚房的,但實際只有一個廚師干活。。。

而且別忘了,這么多請求同時過來,他還得照手里的小本本算,先搞那個后搞那個。

每次“低頭+算一算+抬頭”的時間,就和它放一件東西在冰箱的耗時差不多長了。原本就緊張的時間,這下徹底不夠了!


你看到了沒,這里出現(xiàn)了一個死結(jié):

要想實現(xiàn)彈性,就得有虛擬化;要想虛擬化,就會出現(xiàn)一個廚師對多個虛擬廚房的情況;只要廚師一對多,就涉及到日程切換;一旦編排日程,就得來回看本本;一旦看本本次數(shù)多,廚師的工作效率就直線下降。

這個死結(jié)有一個名字:虛擬化損耗。

而虛擬化損耗的本質(zhì),就是廚師“被打擾”產(chǎn)生的精力開銷。虛擬化損耗的本質(zhì)就是“打擾稅”。

越是小而多的任務(wù),打擾就越頻繁,打擾稅就越重。

別說沈益斌,就是天王老子來了,他也得交這個“稅”。可只要有稅,數(shù)據(jù)庫就交不起!

“計算獨立宣言”言猶在耳,難道說,彈性計算永遠(yuǎn)無法一統(tǒng)山河,永遠(yuǎn)要在土地上給傳統(tǒng)計算留一塊扎眼的“租界”嗎?

孔子曰:面對死結(jié),最好的方法不是去解,而是找一把刀,把丫劈了!


(四)金箍棒鑄成!

我問你:有誰規(guī)定,編排廚師日程這個活兒,必須得廚師自己干?

當(dāng)時老師傅被逼急了,也問出了一毛一樣的話。。。

你給廚師配個秘書,能死嗎?

這個秘書,就是后來救了所有人一命的神龍 CIPU。

秘書守在窗戶前面,舉著小本本,每每從窗口傳進(jìn)來原料,他就直接幫廚師算好了日程。 廚師下一步要干啥,完全不用自己操心,可以兩耳不聞窗外事,一心只顧顛大勺。

這樣一來,打擾稅直接降到了“0”!


你可能會說:不對吧?這個活兒還在,只是換了個牛馬干啊。。。

誒,讓驢拉磨和讓狗拉磨,那效率可是天差地別。

CIPU 的總架構(gòu)師楊航告訴我,CIPU 這個秘書生下來就是為了分配任務(wù)“定向培養(yǎng)”的芯片,它(在這個特定任務(wù)上)的計算密度是廚師的千倍萬倍。

2017 年云棲大會上推出這個專用芯片的時候,楊航完全沒想到一個月后世界云計算的公認(rèn)領(lǐng)導(dǎo)者 AWS 也發(fā)布了同樣的玩意兒,他更沒想到,CIPU 的用處居然比他之前的設(shè)想更廣泛,更激進(jìn)。。。

激進(jìn)到啥程度呢?

激進(jìn)到連“虛擬廚房”都可以拆了!

回憶一下,當(dāng)初之所以要設(shè)立虛擬廚房,是因為啥?因為鍋碗瓢盆很難快速備齊對吧?

現(xiàn)在,老師傅掌握了另一套方案:

1)每個廚房都先安裝好基礎(chǔ)的爐灶、油煙機(jī)。(這不夠?qū)Ω端胁讼担?2)使用一種筐,把當(dāng)前這道菜所需的專用工具和食材打包放在里面,從窗口biu~biu~biu~遞進(jìn)去; 3)廚師不用挪地方,只管站在操作臺前,秘書把哪個筐遞到他面前,他就干哪個活兒!

這個筐,就是大名鼎鼎的“容器”。


當(dāng)然為了復(fù)制和移動方便,最好別一次性把一道大菜的所有工具都裝一個筐里。你可以分在不同的筐里,相當(dāng)于把一道菜的工序切碎,變成“微服務(wù)”。

就像生產(chǎn)線上打螺絲:每個廚師只做一小步,然后就傳給下一個廚師。他甚至不用知道自己在做啥菜,讓你切蘿卜就切蘿卜,讓你給鍋里放蒜就放蒜。

分布式炒菜,妥妥的。

既然廚師們在廣大的網(wǎng)絡(luò)中協(xié)作,秘書們就沒辦法自掃門前雪,而是要拉一個“秘書群”:任何一個秘書都要準(zhǔn)確知道眼前這個筐里的食材從哪來,下一步要送到哪去。

換句話說,在云上協(xié)作體系中,秘書變成了和廚師一樣重要的角色,它成了云計算的基礎(chǔ)設(shè)施計算芯片,沒錯,CIPU 的全稱 Cloud Infrastructure Processing Unit 就是這個意思。


云霧中,“金箍棒”雛形初現(xiàn):

1)有了容器,中央廚房具備了收放自如的彈性,瞬間變大變?。?2)有了 CIPU,廚師們可以在收放自如的前提下擺脫“打擾稅”,聚精會神在自己最擅長的炒菜上。此刻他們的效率,和在最早的“實體廚房”里是一樣的。

看著以上這倆特點,你意識到了什么沒?

沒錯,十年艱苦戰(zhàn)役,打擾稅降為 0,終于可以敲鑼打鼓把“會計員”(數(shù)據(jù)庫)請上彈性計算了。。。

更準(zhǔn)確的說法是:終于可以把賬目交給云上的會計員去管理了!

就在 2020 年前后,阿里巴巴集團(tuán)核心數(shù)據(jù)庫陸續(xù)搬上 PolarDB 等等自研云數(shù)據(jù)庫。

征服“會計員”之后,彈性計算徹底殺瘋了,已經(jīng)沒什么“員”不能被計算力替代了。

比如現(xiàn)場促銷員,就是當(dāng)時已經(jīng)流行的“實時計算大數(shù)據(jù)系統(tǒng)”。它會把用戶的每一次點按拿回去立刻計算,幾毫秒之內(nèi)就要調(diào)整推薦策略——彈性計算可以支持。

比如找貨員,就是你熟悉的“搜索引擎”,這是一個和數(shù)據(jù)庫類似的高 I/O 系統(tǒng),還涉及全球范圍內(nèi)的信息傳輸——彈性計算也可以支持。

湊齊這一套“賽博牛馬”盲盒后,阿里云上的“大遷徙”已經(jīng)勢不可擋。


容器服務(wù)負(fù)責(zé)人易立回憶,智聯(lián)招聘前兩年特別頭疼的就是招聘季突然會有大量的畢業(yè)生涌入平臺,算力需求暴增。為了服務(wù)不掛,他們只能按照峰值準(zhǔn)備廚師(服務(wù)器)。

可一過旺季,很多廚師就閑著了,每天摸魚,實在浪費。后來他們索性遷徙到了阿里云的容器計算上,每秒用幾個廚師就付幾個廚師的工資。

這樣精細(xì)切分,綜合成本比之前降低了恐怖的 40%。

同樣搬遷上來的還有 OPPO、得物、小紅書。。。數(shù)不勝數(shù)。

相當(dāng)于阿里云準(zhǔn)備了一套極其高效的中央廚房,你們這些大酒樓小飯店只管拉客,菜我給你炒!

看到這兒,估計你產(chǎn)生了另一個疑問:

別人用你幾秒鐘廚房就付幾秒鐘的錢,人家倒是沒損失了,你阿里云的中央廚房不就承擔(dān)了閑置的損失嗎?

這個問題,恰恰是我最早有意略過的,也是彈性計算的最精彩一塊拼圖。

一切紅利都來自宇宙的基礎(chǔ)特性:時間!

小紅書的峰值,和 OPPO 的峰值,和智聯(lián)招聘的峰值,和阿里云上千行百業(yè)的峰值會同一分鐘到來嗎?會同一秒到來嗎?會同一毫秒到來嗎?

觀察的時間顆粒度越小,越不會。

要知道,微觀上的廚師根據(jù)“CPU 時鐘”作息,本就比我們感知的顆粒小很多。

推到極端來說,只要這些客戶的峰值不撞進(jìn)同一個調(diào)度時間片之內(nèi),哪怕只差幾微秒,就不算“同時”!廚師就可以先炒 A 客戶的菜,后炒 B 客戶的菜。


對“時間紅利”運用越深刻,就需要“廚師調(diào)度系統(tǒng)”越敏銳:如果你的最小調(diào)動能力僅是分鐘級,當(dāng)然就沒辦法讓客戶們“秒級復(fù)用”你的廚師。

復(fù)用有一個前提:所有彈性計算的客戶,必須在(邏輯上的)同一套中央廚房里!

而當(dāng)時的阿里云上,有人已經(jīng)在用筐(容器),有人還在用虛擬廚房(虛擬機(jī))。

對于楊航來說,任務(wù)非常明確:秘書(CIPU)必須升級,所有形式的彈性計算,它全理解,全支持,全安排,才能把客戶們?nèi)菁{在同一個中央廚房里。

這件事兒,就叫“并池”。


但并池又加劇了一個副作用,那就是所有飯館兒都在一個中央廚房里大鍋炒,萬一有人食材不干凈,污染了其他家的菜品,或者干脆有人惡意下毒怎么辦?

易立和沈益斌兩支團(tuán)隊合作,把虛擬化上的一些關(guān)鍵隔離能力移植到容器上,雖然我炒的是百家飯,但是相互之間絕對不會滲漏。

同時,楊航團(tuán)隊又升級了 CIPU,讓這個秘書經(jīng)手的數(shù)據(jù)完全默認(rèn)加密。

這些技術(shù)組合在一起,就做出了“安全容器”。

宜將剩勇追窮寇!搞完這些,技術(shù)大牛們驀然回首,那面“技術(shù)獨立”的旗幟已經(jīng)高高飄揚。

他們恍然大悟,原來“獨立”從來不是一個時間節(jié)點,而是分布在漫長的時光中一串無盡的腳印。

在這面旗幟下,所有的算力第一次團(tuán)結(jié)為一朵云。

這朵云的每一處都是均勻的,沒有任何特例,可以稱之為“純粹的算力”。

它就像電,你用電的時候,絕對不會糾結(jié)它是水電還是火電,它就是電!你清楚地知道,每一度電,都是完完全全等價的。

而歷史告訴我們:電力誕生的那一刻,并非結(jié)束,甚至并非結(jié)束的開始,而只是開始的結(jié)束。


1893 年芝加哥世博會是人類第一次大規(guī)模使用交流電照明,西屋電氣公司讓二十萬只燈泡齊明,夜空亮如白晝。

(五)AI 奇點

閃回到 2014 年夏天,淘寶低調(diào)地上線了一個功能:拍立淘。

從某個角度理解,這個功能對后來阿里云的意義,甚至大于它對淘寶的意義。

拍立淘的功能是通過對圖片的理解從商品庫里幫你找出對應(yīng)商品,是一個“找貨員”。

那我問你:同樣是找貨員,“拍立淘”和“搜索引擎”有啥不同?

表面上的感覺是:一個用圖搜,一個用字搜。這沒錯。

深一點兒的認(rèn)識是:一個用了 AI,一個沒用 AI。這就更對了。

但我有一個有趣的角度:他們替代人腦的工作是不同的。

搜索引擎模擬的人腦工作是一個——規(guī)則執(zhí)行; 拍立淘模擬的人腦工作是兩個——規(guī)則建立+規(guī)則執(zhí)行。

也就是說:拍立淘在搜索前,必須先建立一套規(guī)則,用以判斷兩個圖片處于相似“模式”。這就是 AI 的經(jīng)典能力:模式識別。

這厲害在哪?

阿里云加速計算的產(chǎn)品技術(shù)負(fù)責(zé)人王超一語道破天機(jī):

規(guī)則執(zhí)行,例如大數(shù)據(jù),大規(guī)模計算一旦停止,價值輸出就隨之停止。 規(guī)則建立,例如大模型,即便大規(guī)模計算停止了,它仍能繼續(xù)噴涌價值。

你上班干的具體工作,手停嘴就停;但你從工作中學(xué)習(xí)的技能,卻受用終生。


拍立淘后,歷史陡然加速。

越來越多的業(yè)務(wù)開始附加 AI 功能,邊干邊學(xué)。

旺盛的需求催生了達(dá)摩院老師傅的熱情,他們開始訓(xùn)練能建立更深層模式的模型,比如(通義大模型的前身)M6 大模型。

底層的硬件,也從拍立淘的 384 張 V100 計算卡變成了 512 張 A100。

訓(xùn)練大模型的計算強度,如舞會的音樂逐漸推高,烈焰一般炙烤著底層的算力平臺。

幸虧,阿里云的師傅們已經(jīng)把彈性計算煉成了金箍棒,能接住 AI 時代的第一波“潑天富貴”。

2022年,王超他們拜訪客戶小鵬汽車,無意中聽到了他們的“絕密計劃”。


阿里云加速計算產(chǎn)品技術(shù)負(fù)責(zé)人 王超

當(dāng)時,特斯拉已經(jīng)開始用計算力模擬“人類駕駛員”——把 10000 張計算卡連在一起,端到端地訓(xùn)練自己的“自動駕駛 AI”。

小鵬也看好這個方向,只是自己嘗試了半天,很難建起這么龐大又穩(wěn)定的計算集群。

王超樂了:您說的這玩意兒,灑家恰好能干!你來我阿里云上用如何?

說干就干,王超申請了天價預(yù)算,準(zhǔn)備啟動萬卡集群建設(shè)。

當(dāng)時采購?fù)瑢W(xué)看到這個單子都慌了:“超哥,你可別沖動啊,一個客戶你敢買這么多卡?萬一將來沒有別的客戶續(xù)上,可就廢了。。。”

但王超心里篤定,AI 浪潮將會席卷,這次不是演習(xí),無數(shù)企業(yè)很快會來阿里云上訓(xùn)練他們的 AI!

一萬張卡可能都買少了。

“彈性計算 AI 版”,就這樣摸黑上路了。

這就是——靈駿集群


后來的故事證明,王超簡直神預(yù)測。就在小鵬上靈駿之后幾個月,ChatGPT 橫空出世,大模型的潮水席卷而來,成千上萬的團(tuán)隊涌上阿里云來訓(xùn)練他們的 AI。

之前的一萬張卡,果然買少了。。。

和潑天富貴一起來的,是兇猛的技術(shù)挑戰(zhàn):

隨著訓(xùn)練模型的規(guī)模擴(kuò)大到千億-萬億參數(shù),底層的算力平臺又開始顫抖了。

這是為啥呢?

眾所周知,AI 訓(xùn)練的核心負(fù)載從 CPU 轉(zhuǎn)移到了 GPU,相當(dāng)于原來的廚師還在,只是炒菜的主要任務(wù)交給了一位新廚師。

廚師變化其實問題不大,關(guān)鍵是這群廚師要做的菜完全變了。

打個比方:

過去 CPU 廚師們做菜,有點像婚宴。一個廚師做十個菜,每盤之間沒有關(guān)系。你炒糊了一盤菜,是不會影響其他菜的。大不了我把這盤重做一下就是了。

現(xiàn)在 GPU 的廚師們做菜,一萬個廚師只做一盤菜,任何一個廚師手抖一下,對不起,剩下九千九百九十九個廚師都白干了。。。

可人無完人,每個廚師都有一定概率出問題:

足夠多的廚師×足夠長的時間=必然出問題


王超回憶,當(dāng)時被阿里全集團(tuán)寄予厚望的通義千問大模型剛剛在靈駿上做訓(xùn)練時,在內(nèi)部論壇直接吐槽:講個笑話,靈駿集群能穩(wěn)定運行八小時,哈哈哈哈。。。

可在那個烈火烹油的當(dāng)口,全世界都在追趕 ChatGPT,老板們天天盯著靈駿團(tuán)隊,讓他們搞快些,哪怕多給撥些人也行。

王超氣得頂嘴:一個人生孩子要 10 個月,兩個人 5 個月就能生出來嗎??

逼到瘋癲,他們只好使出了阿里云的傳統(tǒng)藝能:人計算。

一群 P8、P9 的老師傅夜里輪流值班,手動救火;白天再把昨天救火的經(jīng)驗總結(jié)成GPU巡檢、網(wǎng)絡(luò)優(yōu)化的代碼組件,固定到系統(tǒng)里。

就這樣連軸轉(zhuǎn)了三個月,每個 GPU 身背的出錯概率終于緩緩下降,系統(tǒng)總體的穩(wěn)定性穩(wěn)步爬升。

說到這里,有個普遍誤區(qū)。

很多人覺得 AI 計算是 GPU 的天下, CPU 在這里打醬油。

其實,GPU 廚師主要負(fù)責(zé)炒菜,但是炒菜的同時,大量洗菜(數(shù)據(jù)清洗)、放冰箱(數(shù)據(jù)存儲)之類的任務(wù),還是得交給 CPU 來“幫廚”。

幫廚師傅一點兒不比主廚閑,具體來說,它需要多核心來并行任務(wù),超高主頻來思考,還要大內(nèi)存帶寬來保證同時處理大量數(shù)據(jù)。

找來找去,阿里云找到了 AMD,他們的 EPYC 系列 CPU 就是專門為 AI 計算設(shè)計的。

這個 CPU 的技能簡單說就是:無論是數(shù)據(jù)預(yù)處理,還是調(diào)度任務(wù),都比 GPU 需要得節(jié)奏更快。

這樣,幫廚師傅永遠(yuǎn)等著主廚,主廚不用等幫廚,就能全速炒菜了。

用戶的腳是投票器:最瘋狂的時候,全國一半左右的大模型都在靈駿集群上全速訓(xùn)練,一個個“賽博大腦”自流水線噴涌而出。

可嘆十幾年前,阿里師傅還在“雙11”驚恐地大口嗆水;如今,隱天蔽日的“云上廚房”,已成智能的肥沃土壤。

向前追溯,至 1946 年第一臺電子計算機(jī) ENIAC,甚至 1642年第一臺機(jī)械計算機(jī)“帕斯卡加法器”,人類在漫長的征程中,用計算一點點替代大腦的規(guī)則執(zhí)行部分;

而今,我們終于模擬出了大腦的規(guī)則生成部分,從而湊成了大腦的“完全體”。

腳下,是萬年不遇的 AI 奇點。

我們該期待些什么呢?


ENIAC

(六)計算的銀河

阿里云創(chuàng)始人王堅曾給出絕佳的開示:如果說云計算是電,那么大模型就是電動機(jī)。

實際上,在電發(fā)明后,人類仍忍受了漫長的毫無想象力的生活;

而橫空出世的電動機(jī),才真正攪動萬物,讓電動機(jī)床、卷揚機(jī)、電鉆、風(fēng)扇、洗衣機(jī)、冰箱、縫紉機(jī)、電車、電梯依次誕生,歷史從此澎湃前行。

如此說來,此刻 90% 的人對 AI 的期待都可能是被局限的。

比如,受第一波浪潮 ChatGPT 的影響,很多人天然認(rèn)為 AI 的形態(tài)就該是聊天機(jī)器人。

但王超告訴我:AI 真正的想象力,其實根植在具體的行業(yè)中。

千行百業(yè)都存在領(lǐng)域知識。而這些領(lǐng)域知識,過去都由具體的從業(yè)者體會、發(fā)現(xiàn)、傳承——這個匠人精神成本極高,而且產(chǎn)出不穩(wěn)定。

而之前說過,AI 的本質(zhì)功能就是“規(guī)則生成”,恰可以在細(xì)分的領(lǐng)域里替代那些匠人。

它會進(jìn)入千行百業(yè),成為比人類更資深的客服、卡車司機(jī)、機(jī)器精調(diào)師、醫(yī)生、翻譯、老師、編輯、裁縫。。。

更深刻的改變也許是——當(dāng) AI 腳踩彈性計算,它可以零成本實現(xiàn)“協(xié)作模式”的切換。

100年前,福特發(fā)明了流水線,讓生產(chǎn)效率飛躍;而彈性計算可以讓流水線根據(jù)需要每時每刻重組。

王超開腦洞舉了個例子:

將來也許會出現(xiàn)一種“服裝電話亭”,你站在里面,就有 AI 自動操縱掃描儀給你 3D建模,然后幫你設(shè)計衣服,做裁剪,最后產(chǎn)出一套成衣讓你拿走。

在你看來,自始至終都是在和一個 AI 對話,而它背后,是一套可以隨意組合、對接、改造,無遠(yuǎn)弗屆的計算力。


如果這一天真的到來,意味著在最底層,燃燒著萬倍、億倍于今天的彈性計算。如今讓阿里云師傅們驕傲的技術(shù),仍然需要N次迭代和升級。

“那時的計算底座會是什么樣?”我問。

“我不知道,人的想象力是有限的。就像讓你現(xiàn)在想象 iPhone 20,你也許只會想到更好的攝像頭,更大的屏幕。但最有可能的是,到那時,原來的思考框架已經(jīng)被顛覆。”他回答。

王超很喜歡彈性計算同事們常說的話——為了永不停機(jī)的計算服務(wù)。

永不停機(jī)的計算,并不意味著我們的燈永遠(yuǎn)亮著,而是我能永遠(yuǎn)滿足人類旺盛的計算需求——當(dāng)世界有需要,我們就在那里。

他說。

做算力基礎(chǔ)設(shè)施的人,很難站在聚光燈下接受獎杯。他們像是時代大廈的支柱,深埋在泥土中。

正如這些年手機(jī)芯片提升了百倍,但電池工程師的苦,似乎無人過問。

做算力基礎(chǔ)設(shè)施,就像是做電池,每年你都要逼迫自己把性能增加 15-20%。看上去只是日積跬步,沒有奇跡時刻,但當(dāng)你走過十幾年回頭望,身后就是工程奇跡。

正如愛迪生點亮燈泡的一瞬間,只有他自己知道過去的 1000 次實驗意味著怎樣的艱難跋涉。

回望來路,一個真理不言而喻:世界從來不是某個截面,而是時光中錯綜的連線:

2010年,如果沒有彈性計算師傅趁黎明出發(fā),用十五年鍛造出“大規(guī)模計算的組織能力”,如今像靈駿這樣的 AI 算力集群就不會成立; 2020年,如果沒有全世界 AI 研究者的反復(fù)試錯,就不會有 ChatGPT 的橫空出世; 2025年,如果沒有無數(shù)行業(yè)對大模型的熱烈擁抱,未來那個無遠(yuǎn)弗屆的 AI 也只能是賽博傳說。

如此,我們并不活在一個確定的當(dāng)下,我們活在無數(shù)可能性組成的根系中。

在任何一個時間截面上,你無法看到根系之間的聯(lián)系,他們散落在天穹,恰似遼闊的銀河。

而夢想家知道:在這條銀河中,終將有一顆新星閃耀。



計算是一場

深刻的模擬

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機(jī)會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
痛心!湖北一派出所所長因公犧牲,年僅45歲

痛心!湖北一派出所所長因公犧牲,年僅45歲

極目新聞
2026-04-23 13:43:56
王維當(dāng)選蘇州市市長

王維當(dāng)選蘇州市市長

揚子晚報
2026-04-23 15:36:35
揪心!女生受邀赴泰過潑水節(jié),被轉(zhuǎn)賣緬甸電詐園,20萬元贖金付完仍被困……

揪心!女生受邀赴泰過潑水節(jié),被轉(zhuǎn)賣緬甸電詐園,20萬元贖金付完仍被困……

新民周刊
2026-04-23 18:53:58
蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

做一個合格的吃瓜群眾
2026-04-23 15:09:30
全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

小談食刻美食
2026-04-23 07:54:50
大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

極目新聞
2026-04-23 15:05:28
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復(fù)仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復(fù)仇”

青梅侃史啊
2026-04-21 19:37:02
女子買12萬黃金首飾,金店為何報警?起底退費騙局

女子買12萬黃金首飾,金店為何報警?起底退費騙局

環(huán)球網(wǎng)資訊
2026-04-23 16:39:17
鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

云舟史策
2026-04-23 07:14:45
湖南一高中生200米跑出20.99秒破紀(jì)錄,教練:他曾想放棄高考去打工

湖南一高中生200米跑出20.99秒破紀(jì)錄,教練:他曾想放棄高考去打工

瀟湘晨報
2026-04-22 13:16:27
狂妄到?jīng)]邊!以色列大使聯(lián)合國發(fā)飆,當(dāng)眾逼問中國給伊朗多少錢

狂妄到?jīng)]邊!以色列大使聯(lián)合國發(fā)飆,當(dāng)眾逼問中國給伊朗多少錢

主宰穩(wěn)場
2026-04-23 03:31:24
上海地鐵站內(nèi),這個“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內(nèi),這個“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

環(huán)球網(wǎng)資訊
2026-04-23 11:11:44
斯諾克世錦賽16強對陣!丁俊暉戰(zhàn)趙心童時間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強對陣!丁俊暉戰(zhàn)趙心童時間曝光,吳宜澤PK塞爾比

曹說體育
2026-04-23 11:39:25
不打了!退出G3和G4!雷霆遭遇最大危機(jī)

不打了!退出G3和G4!雷霆遭遇最大危機(jī)

籃球教學(xué)論壇
2026-04-23 17:14:19
CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭議外援

CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭議外援

體壇瞎白話
2026-04-23 18:19:13
賴清德無法竄訪,鄭麗文表態(tài)后,藍(lán)營改口,柯文哲做出驚人預(yù)言

賴清德無法竄訪,鄭麗文表態(tài)后,藍(lán)營改口,柯文哲做出驚人預(yù)言

DS北風(fēng)
2026-04-23 11:52:05
就差1秒!特朗普欲發(fā)射核武器,軍方強行攔截,拒絕為總統(tǒng)扣扳機(jī)

就差1秒!特朗普欲發(fā)射核武器,軍方強行攔截,拒絕為總統(tǒng)扣扳機(jī)

面包夾知識
2026-04-23 17:09:14
特斯拉將迎來重磅更新,太猛了!

特斯拉將迎來重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

娛樂團(tuán)長
2026-04-23 16:11:09
美特使:已向特朗普提議意大利取代伊朗參加世界杯

美特使:已向特朗普提議意大利取代伊朗參加世界杯

體壇周報
2026-04-23 09:51:15
2026-04-23 19:39:00
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
305文章數(shù) 22982關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認(rèn)清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認(rèn)清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

關(guān)于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風(fēng)云A9可不只是樣子貨

態(tài)度原創(chuàng)

藝術(shù)
本地
家居
房產(chǎn)
旅游

藝術(shù)要聞

她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

家居要聞

浪漫協(xié)奏 法式風(fēng)格

房產(chǎn)要聞

三亞安居房,突然官宣!

旅游要聞

偶遇大理天子莊,村后山頂孤伶伶一屋一樹,難道它叫“天子廟”?

無障礙瀏覽 進(jìn)入關(guān)懷版