国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 能陪你親親熱熱,多虧了“存儲硬漢”輸出狠活兒!

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

AI 能陪你親親熱熱,

多虧了“存儲硬漢”輸出狠活兒!

文 | 史中

(一)AI 憑啥免費給你香香?

你有沒有想過,這些國民級的 AI 應(yīng)用憑啥能免費給你用?

現(xiàn)在咱人均都有四五個“在線卑微”的 AI 秘書。

她們化著淡妝站一排,從“霸王龍怎么搓澡”到“喪尸圍城靠一根牙簽如何突圍”,無論多奇葩的問題,只要你問得出口,她們就必須捏著鼻子答。

而且,豆秘書(豆包)的答案不滿意,你扭頭就去找 D 秘書(DeepSeek),是一點兒情面都不看,比皇帝選妃還兇殘,屬實膨脹。

要知道,這些秘書們可都是免費的??!一個個用愛發(fā)電、自帶干糧住你家、 24 小時侍寢還被你挑三揀四。

可見 AI 這行有多卷。

當(dāng)然,免費背后肯定是 AI 廠商在補貼嘛。但這里有個前提:成本不能離譜,太高誰也補不起呀!

AI 廠商的師傅們每天研究一件事兒——怎么高性價比地“開學(xué)?!?!

教學(xué)質(zhì)量要好:隔三差五把自家模型送學(xué)?;貭t,爭取學(xué)完之后色藝雙絕,艷壓群芳; 學(xué)費還得便宜:畢竟就算學(xué)出來是學(xué)貫中西博古通今的花魁,打工的收入還是辣么微薄。。。

從 2023 年開始,各家 AI 都狂暴地請來更好的名師(算法),研發(fā)新的教材(數(shù)據(jù)),蓋更多的教室(GPU),使用更先進的教學(xué)管理制度(訓(xùn)練框架),爭取讓學(xué)生們學(xué)得又好又快又便宜。

忙活了一兩年,賽博世界里一座座嶄新的學(xué)校挺立,”教學(xué)性價比”嗷嗷提升。

夠了嗎?夠了。。。又好像不夠。。。

老師傅們不約而同地緩緩移動懷疑的目光。

他們發(fā)現(xiàn),角落里不起眼的“圖書館”。。。仿佛似乎竟然。。。成了支撐 AI “性價比”的一根重要支柱?。?!

此時從天空俯瞰,歷史恰行至拐點,驚雷炸響,國產(chǎn)存儲技術(shù)的命運齒輪開始緩緩轉(zhuǎn)動。

(二)建圖書館的“天命人”

我們開動時光機,去往 2023 年的北京西二旗。

那真是平靜的日子,袁清波還有空研究“保溫杯里應(yīng)該泡哪種枸杞”。。。不光是他,整個曙光存儲的技術(shù)團隊都在“泡枸杞”。

澄清一下,不是老師傅集體躺平摸魚,正相反,他們有點兒“獨孤求敗”的意思。

這幫師傅就是“圖書館”的施工隊。

所謂圖書館,就是——企業(yè)級存儲系統(tǒng)。

那時候,曙光存儲系統(tǒng)主要服務(wù)于大型的國企央企。這些企業(yè)的數(shù)據(jù)固然很重要,但要求和圖書館類似:存下來,別丟,想要的時候能找出來。

至于一個數(shù)據(jù)是 0.1 秒找到,還是 0.0001 秒找到,同時能找 10 萬條數(shù)據(jù)還是 100 萬條數(shù)據(jù),還真沒啥極致的講究。。。

再看袁清波,是中科院計算所的博士后,主攻系統(tǒng)架構(gòu),他的很多同事都是中科院師兄弟,放眼全中國這是妥妥的明星陣容。雖說要正心誠意地開發(fā)每一代產(chǎn)品,但這個團隊多少有點兒“性能過?!钡囊馑?。

袁清波

靈明石猴棲身花果山,可不是為了量販吃桃,而是有朝一日成為“天命人”。

這不,2024 年春節(jié)剛過,分布式存儲產(chǎn)品 ParaStor 的產(chǎn)品經(jīng)理喬雅楠就找到了袁清波,上來一頓虎狼之詞:

“下一代分布式存儲產(chǎn)品,能不能把帶寬做到190G 每秒,把IOPS 做到 500 萬?”

先按下暫停鍵,科普一下。

這句話的意思是說:

1)每秒鐘傳輸?shù)臄?shù)據(jù)量是 190GB,這相當(dāng)于 38000 張照片。這么說吧,你微信里所有朋友一年的自拍,都能在一秒鐘內(nèi)幫你存好! 2)每秒鐘存取的動作能做 500 萬次,相當(dāng)于天南海北的 500 萬人同時給你小紅書點贊,能在一秒之內(nèi)一個不差地幫你記錄清楚!

不夸張地說,曙光是中國存儲產(chǎn)品的扛把子,性能本來就是“姚明級”的。但下一代產(chǎn)品的要求卻要比現(xiàn)在翻兩番,妥妥是讓姚明穿著增高鞋踩高蹺蹦起來扣籃。。。

這么強悍的性能,是準(zhǔn)備存啥??

咱們繼續(xù)按下播放鍵。

袁清波聽到這話,并不驚詫,而是 45 度仰天長嘆,一副“該來的總算來了”的神情。。。

雖是久居山林的掃地僧,但技術(shù)師傅早有耳聞,曙光存儲正在和很多頭部 AI 廠商勾兌,要幫他們的“AI 學(xué)?!苯ā皥D書館”。

這里,話頭就和最開始接上了:訓(xùn)練個 AI,到底跟圖書館有啥關(guān)系嘞?

不妨跟著中哥鉆進一座 AI 學(xué)校,咱們實地觀摩下目前人類最牛的“萬億參數(shù)大語言模型”是腫么訓(xùn)練的!

我們先來到教學(xué)樓,這里熱火朝天,有 1 萬間教室,每個教室里都能坐下 1 億個葫蘆娃,他們在一本一本地飛速看書。

每個葫蘆娃其實就是 AI 大腦的一個神經(jīng)元。他們看的書,就是訓(xùn)練語料。

每看一本書,他們都會刷新一次自己對世界的認識,然后改一下手里的參數(shù)。

當(dāng)所有的教材都看完之后,每個葫蘆娃手里的最終參數(shù)也固定了下來,一萬億個參數(shù)匯合在一起,就組成了一個水靈靈的 AI 大秘書!

喂養(yǎng)這么一個怪獸級的模型,大概需要消耗 10PB 的語料。這是多少呢?

換成紙質(zhì)書有 220 億本,一本一本豎著放,也能繞地球赤道一圈。比香飄飄還狠。

一萬億個葫蘆娃同時看書,場面如風(fēng)卷殘云:

可能這一秒要從圖書館調(diào)撥 500 萬冊語文書;下一秒鐘就調(diào)撥 500 萬冊英語書。。。

這時候,壓力給到了圖書館,如果供不上這么大的量,那學(xué)校只能停課干等,不就浪費了教學(xué)資源嗎?!

所以,要想支持世界最強 AI 的訓(xùn)練,500 萬 IOPS(也就是每秒 500 萬次讀寫)的能力還真就是必須的↓↓↓

即便如此,還遠遠不夠。

AI 學(xué)校并不真實,而是在賽博世界里構(gòu)建的,每間教室其實就是一張顯卡。這一萬張顯卡同時進行巨量又細密的計算,難免會出現(xiàn) Bug。

這就好像:一萬間教室突然有一個停電了,葫蘆娃同學(xué)一慌,把之前看的書給忘了。。。

這一忘不要緊。因為最終的 AI 秘書由每一個葫蘆娃手里的參數(shù)所共同支撐,有一個教室的學(xué)生學(xué)岔劈了,所有教室的學(xué)生都得重頭再來。

沒錯,是倒回到新學(xué)期第一天,從第一本書開始。。。

就像下圖↓↓↓

不用懷疑,現(xiàn)在人類的技術(shù)就是這么水。

為了讓 AI 好歹能訓(xùn)練完,老師傅摸索出了一個并不優(yōu)雅的辦法:

每隔一段時間,就讓所有葫蘆娃暫停下,把手里的參數(shù)統(tǒng)一抄在本本上,作為一個“檢查點”放在圖書館備著。 萬一后面哪個教室掉鏈子,就全體滾回到最近的“檢查點”開始,總比從頭來要好!

就像醬↓↓↓

這里,壓力又給到了圖書館!

檢查點包括萬億參數(shù),是一個巨巨巨巨大的文件,最大能到 5TB,相當(dāng)于 3 套《四庫全書》。

圖書館存這么多書,可得要點兒時間呢。。。關(guān)鍵是,如果完成這個存檔需要 1 小時,那么下一個存檔最早也要 1 小時之后才能開始。

這中間萬一學(xué)校那邊出錯了,就相當(dāng)于一個小時都白學(xué)了。一退就退一個鐘頭,這不又浪費了教學(xué)資源嗎?!

也許有人覺得,一個小時還好吧。

給你算算,萬卡集群的成本是幾億美元,核算折舊,加上電費、人力,每回滾一秒就是上百美元的損失,回滾兩分鐘就是近萬美元的損失,回滾一個小時幾十萬美元就沒了。。。

幾十萬美元用來買泡面,得吃幾輩子呀?!

如果圖書館(存儲系統(tǒng))每秒能存儲 190GB,那情況就完全不同了——存完一個 5TB 的檢查點只需要 26.32 秒。

這意味著,每分鐘都可以存一次檔!存兩次都行!

這就相當(dāng)于開掛了呀↓↓↓

OK,科普結(jié)束,跳回現(xiàn)實。

喬雅楠粗略算了一下,如果達到每秒 190GB 吞吐能力,500 萬 IOPS,對于 AI 廠商來說,每投入 1 快錢在這樣的存儲上,就能得到 10 快錢的收益。這種“一本十利”的買賣,誰能拒絕呢?

這筆賬算完,技術(shù)團隊的命數(shù)就定了——搞得出來要搞,搞不出來也得搞!

此時,鏡頭緩緩轉(zhuǎn)向?qū)γ娴脑宀?。背景音樂的鼓點兒已經(jīng)由遠及近,保溫杯里震起漣漪。。。

生活不止眼前的枸杞,曙光存儲團隊的師傅們已不再是花果山散仙,而是拯救人工智能于水火的“天命人”。

Mission Accepted!

(三)從頭蓋一座圖書館

話說,曙光存儲老師傅之所以敢接這么兇殘的任務(wù),還有個樸素的原因:當(dāng)時某頂尖美國存儲廠商已經(jīng)放出風(fēng)來,他們的下一代產(chǎn)品可以達到 190G 帶寬。

呵,都是一個鼻子兩個眼,美國人能做出來,中國人做不出來??

原地鼓搗了倆禮拜,技術(shù)團隊已經(jīng)非常有信心了:

基于現(xiàn)有的服務(wù)器硬件,每秒要吞下 190G,只有一個辦法,讓電流傳輸超過光速~~

所以,做不出來。

今天的淺黑故事就到這里,再見。

等等。。。剛才好像有個限定條件:“基于現(xiàn)有的服務(wù)器硬件”。

“如果咱自己從頭設(shè)計一套‘存儲專用服務(wù)器’,有沒有戲呢?”

袁清波被自己的想法嚇了一跳。

他們可是軟件工程師??!過去對圖書館做升級,從來都是在既有的房間里改“軟裝”,現(xiàn)在竟然要把“圖書館本身”推倒重蓋,這也太膨脹了。

但老師傅冷靜一想,幾乎可以肯定:美國同行如果沒有推翻相對論,也必須得重新設(shè)計服務(wù)器。。。至于他們咋設(shè)計的,咱也不知道,咱也沒法問。。。

然而,既然做了中國存儲行業(yè)的扛把子,摸石頭過河不就是曙光的“天命”嗎?!

估計你已經(jīng)好奇圖書館里是啥樣子了。

咱們這就鉆進去,和老師傅們一起設(shè)計設(shè)計。

先介紹主要人物:

書:數(shù)據(jù) 書架:硬盤 圖書管理員:CPU 管理員的桌子:內(nèi)存 借書還書的窗口:網(wǎng)卡

咱們一步一步來。先講講過去“舊圖書館”的樣子:

簡單說,通用服務(wù)器的設(shè)計目標(biāo)不是“圖書管理”,而是“算數(shù)”。

所以,這里的 CPU 不應(yīng)叫圖書管理員,更應(yīng)該叫算數(shù)員。

只要有題目從窗口進來,算數(shù)員就算,算好后返回給窗口。

大多中間步驟數(shù)據(jù)用完就扔了。只有重要的結(jié)果才會歸檔,所以書架放在旁邊即可。

(這里的金色地毯代表硬件通路,數(shù)據(jù)只能從這里走。)

但是,如果用這個布局直接做圖書館,就有一點兒別扭了。

因為圖書館的管理員沒有那么花哨的計算,主要職能就是“搬運”——把從窗口送進來的書籍放到書架上,以及把書架上的書籍送到窗口。

搬運,講究個絲滑。

大家經(jīng)常爭搶線路,就不好了。

于是咱可以把布局微調(diào),把圖書管理員的桌子做大一些,讓書架和桌子之間的路寬一些。

這樣想要什么書,管理員放在桌子上“滴”一下,就直接送到窗口了。

除了基礎(chǔ)布局,額外的通路設(shè)計也很有講究。

袁清波給我舉了個例子:

圖書館里其實有兩組管理員(兩顆 CPU),每組管理員都有距離自己較近的窗口(網(wǎng)卡)、桌子(內(nèi)存)和書架(硬盤)。

假設(shè):一個找書的需求從窗口 A 進來,可它要找的那本書離 B 組 4 號管理員更近。

那么,B 組 4 號管理員就得先從架子上把書拿下來,放在自己面前的桌子上,A 組再過來一個管理員,繞到 B 桌,把東西拿回來 A 桌,再從 A 窗口送出去。

這會導(dǎo)致一個問題:這本書會有相當(dāng)一段時間滯留在桌上。

要是只有一本也就罷了。在每秒幾百萬次的請求中,如果很多書滯留在桌面,就會讓桌面空間吃緊。

它們像管道里的淤泥一樣,影響整個圖書館的周轉(zhuǎn)速度。

估計你也想到了辦法:

如果想辦法在這里加幾條通道,讓 A 桌管理員能更方便地拿到 B 做的東西,不就能大大減少桌面面積(內(nèi)存)被占用的時間了嗎?

以上只是為了畫小人方便,把情況進行了極端簡化,真實的解決方案并非如此顯而易見。

但相信你已經(jīng)有了感覺:硬件布局和通路設(shè)計,這兩件事兒對整個存儲系統(tǒng)的*性能上限*影響巨大。

OK,我們繼續(xù)回到技術(shù)師傅身邊。

他們仰頭,前面出現(xiàn)三座大山:

第一座,把這個服務(wù)器給設(shè)計出來; 第二座:說服領(lǐng)導(dǎo)同意用“專用存儲服務(wù)器”開發(fā)下一代存儲產(chǎn)品; 第三座:說服工程技術(shù)中心把這服務(wù)器給造出來。

先搞“第一座山”。

設(shè)計硬件,好像就是在紙上畫畫圖,但實際遠非這么輕松愉快。一顆 CPU 或者一條內(nèi)存在某種情況下的具體性能,是很難估算準(zhǔn)確的。

要想確切了解,只有把硬件拿來實地測試。

袁清波他們開始搭建環(huán)境,一點點兒調(diào)整圖書館里“桌椅板凳”的位置和遠近。通過觀察性能變化,羅列出所有瓶頸,再從所有瓶頸里尋找最“卡脖子”的部分依次解決。

這種微調(diào),很像玩兒華容道,在方寸里里左挪一下右挪一下,每挪一下都牽連到最終結(jié)局。

越做實驗,袁清波他們就對硬件的脾氣越清楚;越清楚,信心就越足。

這些信心在翻越“第二座山”的時候派上了大用。

團隊在肝設(shè)計方案

老師傅私下憋了很久才敢和領(lǐng)導(dǎo)提出“把圖書館推倒重蓋”。

聽到這個“非分請求”,領(lǐng)導(dǎo)提出疑問:“新搞一套服務(wù)器肯定要成本,團隊努努力,還用標(biāo)準(zhǔn)服務(wù)器克服一下有沒有可能?”

“絕不可能!”袁清波拍案而起。

噗地一聲,他從懷里掏出電腦,把最近幾個月做的各種實驗數(shù)據(jù)一一列舉,跟打辯論一樣,擺出了十來條“舊硬件存在物理極限”的證據(jù)。

領(lǐng)導(dǎo)還沒來得及反應(yīng),他又話鋒一轉(zhuǎn):“再說,咱也不是沒這個實力!”敲下鍵盤,肝了幾個月搞出來的新服務(wù)器設(shè)計圖出現(xiàn)在屏幕上。

釜底抽薪+貼臉殺,領(lǐng)導(dǎo)好像沒有不答應(yīng)的道理。。。

拿到了金牌令箭,接下來就要挖“第三座山”——找工程技術(shù)部商量生產(chǎn)問題。

這是“外交大使”喬雅楠的任務(wù)。

工程技術(shù)部的同事聽明來意,其實有點兒錯愕,設(shè)計硬件,不是我們的活兒嗎?你們咋給干了?

本來愉快地答應(yīng)就行,但他們發(fā)現(xiàn)一些小問題:

存儲團隊設(shè)計的硬件,有很多附加的邏輯和通路,這會提高硬件的制造成本呀!

這些額外的連線,真的有必要嗎?

喬雅楠趕緊把測試軟件拿來,逐一現(xiàn)場演示這些附加的線路都是干啥用的。工程技術(shù)部的師傅們點了點頭,隨即又搖了搖頭:“應(yīng)該還有性價比更高的設(shè)計方法吧?”

他們說得有道理,但現(xiàn)實情況是門外的 AI 客戶已經(jīng)嗷嗷待哺,來不及了呀?。〈鎯F隊干脆一拍胸脯:“先這么生產(chǎn),多出來的成本,我們包了!”

就這樣,第三座大山終于被推為平地。

新的服務(wù)器拿去量產(chǎn)時,已經(jīng)到了 2024 年秋天。190G/s 帶寬終于穩(wěn)了,老師傅回頭一看,這邊還剩一位爺——500 萬 IOPS!

喬雅楠

(四)在 0 和 1 的世界里雕花

我猜還有淺友沒搞清帶寬和 IOPS 的區(qū)別。

這里再用圖書館打個比方:

IOPS,指的是圖書館每秒借出去的書有“多少本”; 帶寬,是指圖書館每秒鐘借出去書的總厚度有“多少頁”。

有啥區(qū)別呢?

假設(shè)圖書館每秒借出的書摞在一起是 1900 萬頁。

如果大多數(shù)書都很厚, 每本書有 1900 頁,那 1900 萬頁總共也就 1 萬本。把這些書借出去,管理員們每秒只需要“滴” 1 萬次。這對于光速工作的 CPU 來說壓力不大。

但同樣總共 1900 萬頁,如果每本書只有 5 頁,那每秒鐘管理員就得“滴” 400 多萬次,工作量瞬間多400倍,比在產(chǎn)線上打螺絲還累了!

腫么辦?

一個所有人都能想到的辦法就是:加管理員(CPU)唄。。。

但袁清波的“加”字還沒說出口,就被喬雅楠的 PUA 給打斷了:“我對你們這群大神有信心,現(xiàn)有資源肯定能撐住 500 萬!”

袁清波點點頭:“嗯,我也對自己有信心!”

咱們繼續(xù)鉆進圖書館里,看老師傅要怎么搞 IOPS。

話說,在圖書館(服務(wù)器)里攏共有 256 個管理員(CPU 核心)。這些管理員如果被充分調(diào)度,干到 500 萬 IOPS 是綽綽有余的。

但問題恰恰是:圖書館的日常工作中,調(diào)度并不充分!“等待”和“繞路”是常態(tài)。

舉兩個:

1)同一時刻,1 號管理員要找 A 書,2 號管理員要找 B 書??汕∏?A、B 兩本書在書架上挨得很近。

為了防止兩個管理員打架,圖書館就得有規(guī)章:一個管理員站在書架前面操作,另一個必須站在一邊等。

2)明明要找的書在 1 號書架上,可是系統(tǒng)隨機指派了距離 1 號書架比較遠的 4 號管理員去取。

4 號就得“跳”過好幾個管理員的位置去拿書。路線一繞,耗時當(dāng)然就長。

從微觀來看,這些操作真的只多了一丟丟時間,但幾百萬個一丟丟疊加起來,浪費就相當(dāng)明顯。

要解決這些浪費,就必須到最微觀的細節(jié)里動手術(shù)。

技術(shù)老師傅開動腦筋,琢磨黑科技:

一個黑科技叫“各管一攤”。

比如,1 號管理員,只允許操作 1 號書架,也只允許坐在桌子的”1 號區(qū)域”,不能亂跑;2 號管理員只能操作 2 號書架, 只能坐在桌子的“2 號區(qū)域”;以此類推。

老師傅把每個獨立的區(qū)域稱為“IO 域”。

這樣一來,管理員等待的問題就消失了——一個書架就我一個人負責(zé),哪還會有人跟我搶?

還有個黑科技叫“接力賽跑”。

簡單來說,就是幾個管理員可以共同完成一個借書任務(wù)。

例如:1 號管理員站在窗口,只負責(zé)接任務(wù);它把任務(wù)推給最靠近這本書的 4 號管理員,后者負責(zé)把書找回來;如果 4 號管理員比較忙,他就會委托離自己最近同時也有閑的 3 號管理員把書送回到窗口。

就像下圖所示↓↓↓

這樣一來,相當(dāng)于把一個任務(wù)拆散成 N 個,讓壓力*總能*分配到比較閑的管理員身上。

實際上,“調(diào)度”是整個存儲系統(tǒng)中最硬核的部分:

每一個 IO,可能有四五個管理員負責(zé)接力。一旦系統(tǒng)指派的管理員之間的距離很遠,或者走的路線很別扭,最后肯定還不如一個管理員全干下來快呢!

每一次調(diào)度,都像是在 0 和 1 的世界里做微雕。策略用不對,就像刻刀抖了一下,滿盤皆輸。

但我之前介紹過,曙光存儲的師傅搞操作系統(tǒng)可是純純童子功,人均”微雕大師“。

十年飲冰,終于等到一朝噴火,此時不干,更待何時?他們擼胳膊挽袖子,各種眼花繚亂的調(diào)度策略都往上招呼!

這時,袁清波突然慶幸去年“把圖書館推倒重蓋”的選擇是多么正確——很多調(diào)度策略必須通過特定的通路才能實現(xiàn),要不是堅持做了專用服務(wù)器,這些騷操作有一多半兒都玩不出來。。。

你看,真正的高手,每一招都不是獨立的,而是承接前手,招招相連,不是加法是乘法。(戰(zhàn)術(shù)后仰)

一次次測試中,500萬 IOPS 的目標(biāo)逐漸逼近。

就在老師傅緊鑼密鼓地在 0 和 1 的世界里雕花的時候,門外突然殺來幾個神秘壯漢。

開門一看,這。。??墒鞘锕獯鎯ζ诖丫玫馁F客。

(五)殺入“主戰(zhàn)場”

敲響大門的,是幾家頭部的云計算廠商。

按理說,計算和存儲本是榫卯不離的好基友。但實際情況是,在過去幾年云計算蓬勃發(fā)展的歷史里,它和企業(yè)級存儲卻并沒有很榫卯的合作。

原因也簡單:云計算廠商自己也有”云存儲”產(chǎn)品,云存儲玩的是一個“容量巨大,價格低廉、兼容各種硬件”。

但有得必有失:既然選擇了性價比和兼容性,極限性能就會受限。

好在過去幾年,大多云上用戶并沒有對存儲有特別兇殘的需求,云存儲游刃有余。

但 AI 時代的朝霞突然降臨,“云上圖書館”支撐高級的 AI 學(xué)校開始吃力。

AI 客戶拍拍錢包:兄嘚,還有沒有更高性能的存儲產(chǎn)品?多少錢,我買!

這么一來,云廠商就得主動去市場上尋找更專業(yè)的存儲系統(tǒng),于是敲響了曙光存儲的山門,請大佬出山!

表面上劉備三顧茅廬,其實孔明也同樣需要劉備。。。

因為存儲系統(tǒng)自己孤芳自賞是不夠的,它要知道自己的上家——計算系統(tǒng)——需要什么姿勢!

云計算是前沿計算的“主戰(zhàn)場”。武器只有開進主戰(zhàn)場,才會面對最復(fù)雜的戰(zhàn)情,才能看到最真實的需求,才能成為更強的武器!

主戰(zhàn)場的戰(zhàn)況很復(fù)雜。

咱就說一個角度:“CPU 和 GPU 的暗戰(zhàn)”。

話說,在過去的幾十年里,CPU 都是賽博世界的王,所有的資源都是圍繞它來設(shè)置的。

比如:內(nèi)存是 CPU 的小弟,CPU 手里抓不下的數(shù)據(jù),就放在內(nèi)存上。網(wǎng)卡也是 CPU 的小弟,它接到的數(shù)據(jù)都得由 CPU 先臨幸一下,再進一步分配。

但 AI 崛起后,GPU 這個“新王”蘇醒。

計算的重擔(dān)雖移到了 GPU 身上,可數(shù)據(jù)通路卻仍由 CPU 霸占。

GPU 查看內(nèi)存里的數(shù)據(jù),需要 CPU 點頭;

GPU 要用硬盤里的數(shù)據(jù),不僅要 CPU 點頭,還得從內(nèi)存里涮一水,才能進自己的顯存。

關(guān)鍵是,你 CPU 和內(nèi)存的速度都不如我快呀。。。

“新王”不開心,思考各種辦法繞開 CPU。

英偉達研發(fā)出了一個名叫 GDS 的協(xié)議——GPU 能直接把數(shù)據(jù)從存儲系統(tǒng)拉到自己的顯存里。這樣就能和 CPU 說白拜,數(shù)據(jù)傳輸大大加快。

當(dāng)然,前提是存儲系統(tǒng)也得支持這個 GDS 協(xié)議。

曙光存儲也支持 GDS 就行了唄?

行,但不夠。

因為你懂的原因,中國的 AI 訓(xùn)練早已不止用英偉達 GPU,越來越多國產(chǎn) GPU 在奔赴戰(zhàn)場。

曙光存儲索性一波帶走,支持市面上所有的 GPU 直讀協(xié)議,起名叫做 XDS。

即使繞過 CPU 和存儲系統(tǒng)直接溝通,新王 GPU 還嫌不夠快。

畢竟 GPU 和存儲系統(tǒng)中間還有一根網(wǎng)線相連,這里網(wǎng)絡(luò)的速度也可能限制 GPU 發(fā)揮實力。

能不能把這根網(wǎng)線也去掉?

當(dāng)然那根實際的網(wǎng)線沒辦法去掉,但是有些黑科技可以讓網(wǎng)線“變粗”。

曙光老師傅從超算中借鑒了一個技術(shù)——Burst Buffer。

簡單來說就是,在網(wǎng)絡(luò)不太忙的時候,把將來可能用到的數(shù)據(jù)先從存儲系統(tǒng)倒騰到 GPU 所在服務(wù)器的本地硬盤里。

這樣,接下來的事情就都發(fā)生在 GPU 的機箱內(nèi)部,就沒網(wǎng)線什么事兒了,速度超快。

注意,Burst Buffer 只是存儲系統(tǒng)在計算系統(tǒng)里的飛地,本質(zhì)上還屬于存儲系統(tǒng)的一部分。

這意味著,老師傅的責(zé)任變多了。。。不僅要讓數(shù)據(jù)能夠穩(wěn)定轉(zhuǎn)移到這些飛地上,還要保證這些數(shù)據(jù)能實時同步,不出現(xiàn)錯漏。。。

以上種種,其實都可以稱為“AI 加速技術(shù)”,屬于存儲系統(tǒng)的“高階技能”。

說到這些高階技能,喬雅楠很感慨。

她帶曙光分布式存儲產(chǎn)品已經(jīng)7年了,就在2023年以前,她一度覺得存儲系統(tǒng)變成了“價格的廝殺”:

當(dāng)時即便我們做了高階功能,遠程復(fù)制,各種克隆快照,業(yè)務(wù)用的也不多。 說到底,存儲系統(tǒng)再厲害,業(yè)務(wù)發(fā)揮不出來,就無法感受到存儲真正的價值。

但這一切都在 2023年反轉(zhuǎn)。

AI 全民化時代的降臨,讓存儲性能成了關(guān)乎生死的“大殺器”;

云計算,又讓存儲的各種高階功能真正成了剛需。

在我探訪的時候,有一個明顯的感覺:團隊師傅雖然比過去幾年忙了十倍,但大伙兒心里有種說不出的美滋滋。那是一種“被需要”的幸福。

在時光中漫長等待,他們不再是誰的附屬。

存儲有了自己的主戰(zhàn)場!

就在 2025 年 3 月,曙光驕傲地推出了最新一代分布式存儲產(chǎn)品 ParaStor F9000,不僅達到了190GB/s 帶寬和 500萬 IOPS 這兩個核心性能,還帶著 XDS、BurstBuffer 和各種 AI 加速特性。

它看上去只是一個性冷淡的“大方盒”,但當(dāng)你了解了這些細密電路中纏繞的點滴故事,也許會從嘶嘶電流的吟唱中,聽到“天命人”對自己的回答。

ParaStor F9000

(六)數(shù)據(jù)的生命

2025 年,DeepSeek 橫空出世,給曙光存儲的師傅帶來一個好消息和一個壞消息。

好消息是:“AI 秘書”的成本有望大幅下降,長期看對存儲的需求更旺盛;

壞消息是:AI 對存儲的要求也在劇烈變化,存儲產(chǎn)品稍不留神就會掉隊。

但無論科技樹的枝丫怎么生長,它的根基永遠不會變。

我們不妨從生命的角度來理解數(shù)據(jù)。

AI 的靈魂是從數(shù)據(jù)的母體中浮現(xiàn)的。這意味著,要想孕育一個強大的 AI 生命,數(shù)據(jù)本身的生命周期要更長、更寬廣。

這就引出了存儲在時間線上的左右延展:

在訓(xùn)練 AI 之前,要滿足數(shù)據(jù)的收集和清洗。 在訓(xùn)練 AI 之后,要滿足數(shù)據(jù)的歸檔和冷卻。

先說 AI 訓(xùn)練之前。

喬雅楠告訴我,數(shù)據(jù)存儲有很多種格式。

在數(shù)據(jù)收集階段,會大量提取互聯(lián)網(wǎng)上的數(shù)據(jù),它們以“對象”的形式存儲;但這些數(shù)據(jù)卻不能直接訓(xùn)練 AI,AI 用到的課本以“文件”的形式存儲更合適。

所以,存儲系統(tǒng)就必須具備一個能力:

同一套數(shù)據(jù),能用對象的格式讀寫,也能用文件的格式讀寫。

老師傅于是做了一個“翻譯官”,底層使用文件存儲,當(dāng)你要用對象的格式提取時,翻譯官就把“文件”翻譯成“對象”。

但袁清波并不滿意,因為翻譯不夠優(yōu)雅,也存在資源損耗。

最近他們在想辦法踢掉翻譯官,讓存儲系統(tǒng)自己學(xué)會”雙語“:你用對象格式請求,它就給你對象數(shù)據(jù),你用文件格式請求,它就給你文件數(shù)據(jù)。

再說 AI 訓(xùn)練之后。

好不容易收集的數(shù)據(jù),訓(xùn)練之后肯定不能丟,應(yīng)該存起來,以備將來再次訓(xùn)練或者不時之需。

于是,怎樣讓數(shù)據(jù)以最低成本沉睡歸檔,就成了一個問題。

目前存儲的介質(zhì)主要分為兩種:“成本高但速度快的閃存”和“成本低但速度慢的機械硬盤”。

在訓(xùn)練的時候,當(dāng)然必須放到閃存介質(zhì)中;但在訓(xùn)練之后,再霸占閃存里就有點兒浪費了。

喬雅楠告訴我,為這事兒曙光存儲專門搞了一個 S6000 “分層存儲”混閃產(chǎn)品,里面有一小部分閃存盤,一大部分機械盤。

在訓(xùn)練時,會自動把數(shù)據(jù)推到閃存中,訓(xùn)練完畢,又會自動落回到機械硬盤中。

他們稱之為“冷熱數(shù)據(jù)分層技術(shù)”。

由于冷熱數(shù)據(jù)是由系統(tǒng)自動挪移的,所以只要在合理的負載范圍內(nèi)使用,你會發(fā)現(xiàn) S6000 的性能會和純閃設(shè)備一樣,但存儲成本卻比純閃設(shè)備低很多。

ParaStor S6000

這種自由游動的感覺,昭示了存儲系統(tǒng)的未來:

也許某一天,只用一套存儲系統(tǒng)就可以承載“AI 秘書的一生”:

無論在訓(xùn)練之前、訓(xùn)練之中、訓(xùn)練之后,AI 師傅都只需要關(guān)心自己的學(xué)校。完全不用操心圖書館這邊的吞吐帶寬、讀取速率、存儲成本、數(shù)據(jù)格式等等亂七八糟的事情。。。

數(shù)據(jù)有了生命,它會自己尋找道路。

告別前,袁清波悄悄告訴我,他已經(jīng)領(lǐng)到了新任務(wù)——在下一代存儲產(chǎn)品上讓性能繼續(xù)暴漲。為此,老師傅不止定制了新服務(wù)器,還定制了 CPU。

CPU 是說定制就定制的嗎?

沒錯,因為它是國產(chǎn)的。

多說一句,由于美國實體清單的制裁,曙光從 2019 年以來就已經(jīng)無法使用美國的關(guān)鍵技術(shù)了,所以今天講述的曙光產(chǎn)品全部是基于國產(chǎn)芯片研發(fā)的。

無獨有偶,中國存儲行業(yè)的另一個巨頭華為也享受了同樣的待遇。

這意味,整個中國高端存儲行業(yè)必須在國產(chǎn)技術(shù)棧之上生根發(fā)芽,而且已經(jīng)枝蔓粗壯。

回望來路,技術(shù)老師傅從沒有能力左右世界局勢,也沒有能力解決政治紛爭。他們能做的,只是在漫長的冬季守護花朵,期待它們在春天綻放。

而所謂天命人,也無非是讓洶涌的扼殺之刃穿過身體,化作滂沱的成全之雨。


方寸騰挪

賽博狠活

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日媒:隨著性能顯著提升,中日電池技術(shù)差距進一步擴大

日媒:隨著性能顯著提升,中日電池技術(shù)差距進一步擴大

財聞
2026-04-22 15:41:13
中央5臺直播乒乓球時間表:4月23日CCTV5直播國乒!附世乒賽消息

中央5臺直播乒乓球時間表:4月23日CCTV5直播國乒!附世乒賽消息

夢憶之淺
2026-04-23 12:36:09
隊史首次闖進季后賽!寧波男籃官宣:與NBL場均20+8內(nèi)線完成簽約

隊史首次闖進季后賽!寧波男籃官宣:與NBL場均20+8內(nèi)線完成簽約

狼叔評論
2026-04-23 16:08:07
許家印到底有多貪得無厭?回老家給村民發(fā)紅包,錢都是公司報銷的

許家印到底有多貪得無厭?回老家給村民發(fā)紅包,錢都是公司報銷的

林小明商業(yè)評說
2026-04-23 13:01:26
1-0!哈蘭德救主,曼城雙喜臨門,豪取5連勝,反超槍手登頂英超

1-0!哈蘭德救主,曼城雙喜臨門,豪取5連勝,反超槍手登頂英超

我的護球最獨特
2026-04-23 04:56:55
“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

80后體育大蜀黍
2026-04-23 11:04:00
警報拉響!英超降級格局初定,熱刺和西漢姆聯(lián)誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯(lián)誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
以色列女兵霸占黎巴嫩民房,面對鏡頭狂笑,在廚房狂炫辣椒

以色列女兵霸占黎巴嫩民房,面對鏡頭狂笑,在廚房狂炫辣椒

阿龍聊軍事
2026-04-23 11:53:36
余承東:我們成本扛不住了,希望大家早點購買

余承東:我們成本扛不住了,希望大家早點購買

映射生活的身影
2026-04-20 21:53:17
蔣萬安壓倒性勝利,政治人物好感度第一,臺名嘴:2028他若選即贏

蔣萬安壓倒性勝利,政治人物好感度第一,臺名嘴:2028他若選即贏

尋墨閣
2026-04-22 16:11:52
每部手機多花1美元,工人就能體面生活

每部手機多花1美元,工人就能體面生活

薛定諤的BUG
2026-04-22 16:36:44
賭狗的話能信嗎網(wǎng)友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

賭狗的話能信嗎網(wǎng)友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

侃神評故事
2026-04-22 17:25:03
“養(yǎng)肥了再殺”,公共充電樁集體漲價,每度電上漲0.2元

“養(yǎng)肥了再殺”,公共充電樁集體漲價,每度電上漲0.2元

墨印齋
2026-04-23 12:09:32
震怒!開拓者100萬侮辱式報價,斯普利特談崩離場

震怒!開拓者100萬侮辱式報價,斯普利特談崩離場

我是阿Sen
2026-04-23 13:57:28
何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

人生錄
2026-04-22 19:01:34
袁詠儀大方分享50歲后消費觀:不買沒必要的,張智霖的反應(yīng)太搞笑了!

袁詠儀大方分享50歲后消費觀:不買沒必要的,張智霖的反應(yīng)太搞笑了!

動物奇奇怪怪
2026-04-23 14:29:00
遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點,事發(fā)地也有成金礦可能

遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點,事發(fā)地也有成金礦可能

極目新聞
2026-04-23 10:00:21
廣東男籃3外援出征福建,拉科塞維奇隨隊,麥考爾缺席 確定被放棄

廣東男籃3外援出征福建,拉科塞維奇隨隊,麥考爾缺席 確定被放棄

中國籃壇快訊
2026-04-23 12:11:48
“東鵬0糖特飲”是商標(biāo),客服:商標(biāo)注冊為品牌保護,原罐裝0糖特飲已暫停售賣

“東鵬0糖特飲”是商標(biāo),客服:商標(biāo)注冊為品牌保護,原罐裝0糖特飲已暫停售賣

界面新聞
2026-04-22 21:43:04
2026-04-23 17:55:00
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
305文章數(shù) 22982關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

關(guān)于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風(fēng)云A9可不只是樣子貨

態(tài)度原創(chuàng)

游戲
手機
家居
藝術(shù)
旅游

R星還是卡普空?十年磨一劍還是年年有得玩?

手機要聞

Find X9 Ultra新增大師配方水印 一鍵閃記拍同款

家居要聞

浪漫協(xié)奏 法式風(fēng)格

藝術(shù)要聞

看看宋徽宗寫的字,極盡華美,網(wǎng)友:這是用江山換來的!

旅游要聞

棗莊:霧鎖青山湖光闊 長橋臥波入畫來

無障礙瀏覽 進入關(guān)懷版