国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

關(guān)于 AI Infra 的一切 | 42章經(jīng)

0
分享至

本文嘉賓朱亦博可以說(shuō)是國(guó)內(nèi)最了解 AI Infra 的人之一,
從微軟、字節(jié) AI Infra 負(fù)責(zé)人到谷歌、再到階躍聯(lián)創(chuàng),他的職業(yè)經(jīng)歷幾乎和 AI Infra 的發(fā)展并行。

本期
播客對(duì)談原文約 19000 字,本文經(jīng)過(guò)刪減整理后約 7000 字。

曲凱:從你的視角來(lái)看,怎么理解 AI Infra?

亦博:AI Infra 包括硬件和軟件兩部分。

硬件是指 AI 芯片、GPU、交換機(jī)等設(shè)備。軟件層面我喜歡用云計(jì)算來(lái)類(lèi)比,可以分為三層:

最底層類(lèi)似 IaaS,解決的是最基礎(chǔ)的計(jì)算、通信和存儲(chǔ)問(wèn)題。

中間一層類(lèi)似 PaaS,包含資源調(diào)度、資源管理等平臺(tái)。MaaS(Model-as-a-Service)就歸屬這一層。

最上層近似 SaaS 應(yīng)用層,但在 AI Infra 領(lǐng)域,我更傾向于把這一層理解為訓(xùn)練及推理框架的優(yōu)化層。

曲凱:可以說(shuō)你的職業(yè)生涯跟 AI Infra 的發(fā)展基本是同步的嗎?

亦博:是,但我其實(shí)是第二批 AI Infra 人,第一批是賈揚(yáng)清、李沐、陳天奇這些有算法背景的人。他們當(dāng)時(shí)要做先進(jìn)的算法,需要充分利用 GPU,于是就做了 AI Infra。

曲凱:所以是第一批人從無(wú)到有把這件事做了出來(lái)?

亦博:可以這么理解。我們這第二批人干的更多是上規(guī)模的事情,讓 AI Infra 在工業(yè)界得到應(yīng)用。

曲凱:那大模型這兩年的興起,對(duì) Infra 從業(yè)者來(lái)說(shuō)應(yīng)該是一個(gè)特別好的機(jī)會(huì)吧?因?yàn)?AI Infra 一下子進(jìn)入了主舞臺(tái)。

亦博:確實(shí)如此,這也是為什么我覺(jué)得一定要出來(lái)創(chuàng)業(yè)。

過(guò)去 Infra 人才很難參與到一個(gè)公司的初創(chuàng)過(guò)程中,因?yàn)?Infra 服務(wù)于上層應(yīng)用和數(shù)據(jù)處理,只有當(dāng)業(yè)務(wù)規(guī)模足夠大時(shí),對(duì) Infra 的需求才會(huì)凸顯。

但是大模型確實(shí)帶來(lái)了一個(gè)非常好的機(jī)會(huì)。

上一次類(lèi)似的節(jié)點(diǎn),是搜索引擎剛剛興起的時(shí)候。比如 Google 當(dāng)年面對(duì)的是規(guī)??涨暗幕ヂ?lián)網(wǎng)數(shù)據(jù),而要處理這些數(shù)據(jù),它就需要世界一流的 Infra。所以從某種程度上講, Google 本質(zhì)是一家 Infra 公司,它的成功從一開(kāi)始就離不開(kāi)它強(qiáng)大的 Infra。

而如今,大模型一上來(lái)就對(duì)算力和數(shù)據(jù)提出了前所未有的要求,所以我認(rèn)為現(xiàn)在是 Infra 從業(yè)者真正進(jìn)入核心舞臺(tái)的少有機(jī)會(huì)。這樣的窗口,可能十年、二十年才會(huì)出現(xiàn)一次。

曲凱:那移動(dòng)互聯(lián)網(wǎng)的 Infra 和 AI Infra 有哪些異同?

亦博:它們的底層目標(biāo)是一致的,就是要高效穩(wěn)定地整合計(jì)算、通信和存儲(chǔ)資源。

但在實(shí)操層面,它們對(duì)硬件、網(wǎng)絡(luò)互聯(lián)、存儲(chǔ)方式的要求都完全不同。比如,AI Infra 的絕對(duì)核心是 GPU,而傳統(tǒng) Infra 的核心是 CPU。

在 Infra 的世界里,太陽(yáng)底下沒(méi)有太多的新鮮事,但 AI Infra 在很多方面要做到更極致、更貼合 AI 的特殊需求。

曲凱:那在這樣的背景下,未來(lái)做 AI Infra 的人,更多會(huì)是新一批成長(zhǎng)起來(lái)的工程師,還是由傳統(tǒng) Infra 人轉(zhuǎn)型而來(lái)的?

亦博:我覺(jué)得都會(huì)有。這方面 Infra 和算法很不一樣。

算法非常依賴(lài)年輕人。甚至我有做算法的朋友說(shuō)過(guò),算法人只有兩年的保質(zhì)期,兩年后 Ta 把自己的聰明才智發(fā)揮完了,就會(huì)陷入思維定勢(shì),反而跟不上后面的新東西了。

但 Infra 相對(duì)來(lái)說(shuō)更強(qiáng)調(diào)積累。

曲凱:那你們關(guān)注的核心指標(biāo)有哪些?

亦博:比如在線(xiàn)上服務(wù)側(cè),我們會(huì)看模型響應(yīng)的首字延遲、后面吐字是不是穩(wěn)定順暢、整體的成本能不能降低等等。在訓(xùn)練側(cè),我們主要看每張 GPU 能處理的數(shù)據(jù)量和訓(xùn)練效率。

曲凱:聽(tīng)起來(lái)是不是只有規(guī)模很大的公司才需要用到 AI Infra?

亦博:其實(shí)所有的產(chǎn)品都依賴(lài) Infra,區(qū)別在于你要不要投入成本去做自己的 Infra,以及這種投入對(duì)你的業(yè)務(wù)來(lái)說(shuō)值不值得。

這筆賬其實(shí)很好算。

假設(shè)你有 1 萬(wàn)張 GPU,每月租金 1 個(gè)億。如果你雇了一批 Infra 工程師,能把 GPU 利用率提升 10%,那你每月就能節(jié)省 1000 萬(wàn),或者說(shuō)多賺 1000 萬(wàn)。

那你愿意為了這 1000 萬(wàn)投入多少人力成本?

無(wú)論是在前司還是現(xiàn)司,我們優(yōu)化 Infra 之后省下的錢(qián),都可以很輕松地 cover 這部分的人力成本。從這個(gè)角度來(lái)說(shuō),投入 Infra 是可以幫公司掙錢(qián)的,而且這件事的確定性很高。

對(duì)于一些較小的公司來(lái)說(shuō),也可以用同樣的邏輯進(jìn)行計(jì)算:你值不值得雇 10 個(gè)人來(lái)優(yōu)化百分之多少的性能?

你可以對(duì)比一下,要做到同樣的優(yōu)化效果,云廠商的標(biāo)準(zhǔn)化方案需要多少錢(qián)。如果你自己做不到更低的成本,那就說(shuō)明用 MaaS 或公有云服務(wù)更劃算。

這也是現(xiàn)在這些服務(wù)商的價(jià)值錨點(diǎn):幫助規(guī)模較小的公司節(jié)省 Infra 優(yōu)化的成本。

曲凱:那按理說(shuō),Infra 這件事應(yīng)該是云廠商和模型方做到極致了才對(duì),為什么還有一些第三方公司在做?

亦博:短期來(lái)看,第三方的價(jià)值,是為客戶(hù)提供一個(gè)「API 集貿(mào)市場(chǎng)」,讓他們自由選擇不同的 API,因?yàn)槟P蛷S商的 Infra 主要服務(wù)于自家的模型或 API。雖然有些公有云也在提供類(lèi)似的服務(wù),但還是有第三方的空間。

不過(guò)長(zhǎng)遠(yuǎn)來(lái)看,如果第三方公司沒(méi)有獨(dú)特的價(jià)值,確實(shí)很容易被云廠商或模型公司吃掉。

那突破口在哪里?我是這么思考的:

AI Infra 的底層是硬件,上層是模型。當(dāng)硬件和模型都逐漸趨于開(kāi)放和普及時(shí),只做中間那一層 Infra 的價(jià)值確實(shí)會(huì)很有限,而且會(huì)非常卷。因?yàn)檎f(shuō)白了,沒(méi)人能在 Infra 這一層拉開(kāi)特別大的技術(shù)差距,也很難形成長(zhǎng)期壁壘。你今天領(lǐng)先一點(diǎn),幾個(gè)月后可能就被趕上了。

所以我認(rèn)為,第三方想做出壁壘,就得和硬件或者模型去做垂直整合。

以 MaaS 的生意為例。MaaS 可以看作是一個(gè) API 的分發(fā)平臺(tái),除了標(biāo)準(zhǔn) API 之外,真正能留住用戶(hù)的,是那些別人沒(méi)有的東西。

就像你為什么要買(mǎi) PS5?是因?yàn)檫@個(gè)游戲機(jī)上有一些獨(dú)占的游戲。

同理,有的 MaaS 服務(wù)商與特定的硬件廠商有深度合作,能以更低成本獲得算力資源,同時(shí)它還有對(duì)硬件的獨(dú)到見(jiàn)解,那這些就是它的差異化優(yōu)勢(shì)。

所以這里可以給從業(yè)者一個(gè)建議,就是不要做夾在模型和硬件中間的那個(gè)人。

我現(xiàn)在選擇站在模型這一側(cè),你也可以選擇站在硬件那一端。

這是因?yàn)?AI Infra 有個(gè)非常獨(dú)特的背景,就是當(dāng)前是硬件和模型都在追求極致的時(shí)刻。如果有人想做出像 DeepSeek 那樣在硬件上跑得非常有效率和性?xún)r(jià)比的模型,就需要既懂硬件又懂模型。而這種「兩頭通」的能力,恰恰是 Infra 人的特長(zhǎng)。

所以,如果你愿意邁出這一步,往上和模型做深度整合,或往下與硬件做 co-design,就有很多機(jī)會(huì)。但如果你固步自封,只在中間做優(yōu)化,那確實(shí)就把路走窄了。

曲凱:但和模型或者硬件綁定之后,萬(wàn)一最后發(fā)現(xiàn)選錯(cuò)了怎么辦?

亦博:所以關(guān)鍵在于你必須是主動(dòng)的參與者,而不是被動(dòng)搭便車(chē)的人。

如果你比硬件廠商更懂模型,那你就可以影響硬件的設(shè)計(jì)方向。如果你比模型團(tuán)隊(duì)更懂硬件,也可以反向影響模型架構(gòu)的設(shè)計(jì)。

當(dāng)你具備了這種影響力,成功了當(dāng)然是共贏,即使失敗,那也是你主動(dòng)做出的判斷和選擇。

曲凱:明白。

我們前面講的主要是 Infra 降本增效的事情,那實(shí)際上它對(duì)模型最終的訓(xùn)練效果到底有多大的影響?該怎么評(píng)判?

亦博:Infra 水平確實(shí)會(huì)影響模型的效果,這也是為什么 Infra 對(duì)大模型公司而言非常重要。

其實(shí)各家公司都在參與同一場(chǎng)比賽,就是「給定算力,怎么訓(xùn)出最好的模型」。

假設(shè)大家都拿 5000 張卡,在其他條件相同的前提下,如果我的 Infra 優(yōu)化得更好,效率高出 20%,那在同樣的時(shí)間里,我就能多學(xué) 20% 的數(shù)據(jù),訓(xùn)練出的模型自然也會(huì)有更好的效果。

曲凱:所以 Infra 是有標(biāo)準(zhǔn)化的性能指標(biāo)的?

亦博:對(duì),比如 MFU 就是一個(gè)比較常見(jiàn)的指標(biāo)。它衡量的是硬件利用率,分子是實(shí)際完成的浮點(diǎn)運(yùn)算次數(shù),分母是理論最大算力,MFU 越高,說(shuō)明硬件被用得越充分。

曲凱:我記得當(dāng)時(shí) DeepSeek 公開(kāi)了他們的 MFU?

亦博:實(shí)際上 DeepSeek 的 MFU 是偏低的,但你也不能說(shuō)他們的 Infra 做得不好。

衡量 Infra 的性能其實(shí)很復(fù)雜,僅靠單一指標(biāo)很難判斷 Infra 的優(yōu)劣。Infra 的性能和硬件、模型,還有優(yōu)化目標(biāo)都密切相關(guān)。

其實(shí) DeepSeek 之所以能沖出來(lái),一大原因是選對(duì)了優(yōu)化目標(biāo)。

當(dāng)時(shí) DeepSeek 的優(yōu)化目標(biāo)和其他所有人都不一樣。比如我們當(dāng)時(shí)的優(yōu)化目標(biāo)是「給定訓(xùn)練算力,怎么訓(xùn)出最好的模型」,而 DeepSeek 的目標(biāo)是「給定推理的成本,怎么訓(xùn)出最好的模型」。

至少在 24 年上半年時(shí),DeepSeek 的基模并不比大家強(qiáng)。

那這個(gè)局面什么時(shí)候扭轉(zhuǎn)了呢?

就是在 24 年 9 月 o1 發(fā)布之后。

o1 讓大家看到,如果在推理階段讓模型多思考一會(huì),模型最終輸出的效果會(huì)更好。這種訓(xùn)練方式,正是強(qiáng)化學(xué)習(xí)的典型機(jī)制。而因?yàn)?DeepSeek 的優(yōu)化目標(biāo)更符合強(qiáng)化學(xué)習(xí)的需求,所以他們能以更低的推理成本、更快的速度去輸出結(jié)果和訓(xùn)練模型。于是他們率先完成了 R1,一下子甩開(kāi)了其他團(tuán)隊(duì)。

你可以說(shuō) DeepSeek 的成功有一些運(yùn)氣因素。他們最初在設(shè)定優(yōu)化目標(biāo)時(shí),大概率也沒(méi)料到 Test-Time Scaling 會(huì)在 24 年下半年變成關(guān)鍵趨勢(shì)。但很多事情的成功,靠的就是天時(shí)地利人和。

所以說(shuō)回來(lái),Infra 確實(shí)有各種性能指標(biāo),但如果想取得好的結(jié)果,最重要的是你要想清楚,哪一個(gè)指標(biāo)的優(yōu)先級(jí)最高。這個(gè)指標(biāo)不僅要符合你的產(chǎn)品需求,也要順應(yīng)整個(gè)行業(yè)的發(fā)展方向和未來(lái)技術(shù)趨勢(shì)。

不同團(tuán)隊(duì)的技術(shù)水平固然有高低之分,但真正拉開(kāi)差距的,往往是有沒(méi)有選對(duì)努力方向。

曲凱:所以當(dāng)下有比較通用的第一指標(biāo)嗎?

亦博:這件事還有很多非共識(shí)。

其實(shí)從 o1、 R1 驗(yàn)證了強(qiáng)化學(xué)習(xí)的路徑之后,我認(rèn)為當(dāng)前最重要的指標(biāo)就是 decoding 的速度。

推理分為輸入和輸出兩部分。輸入的關(guān)鍵指標(biāo)是模型處理長(zhǎng)文本的速度,輸出的關(guān)鍵指標(biāo)則是模型吐字的速度。我認(rèn)為現(xiàn)在最重要的指標(biāo)是后者。它決定了線(xiàn)上業(yè)務(wù)的成本,也直接決定了強(qiáng)化學(xué)習(xí)的效率。因?yàn)槿绻爿敵龊苈?,那你獲得 reward 的速度就比其他模型要慢。

但現(xiàn)在還有人很看重 MFU 之類(lèi)的老指標(biāo)。在我看來(lái),還特別關(guān)注這類(lèi)指標(biāo)的人,對(duì)當(dāng)下技術(shù)的認(rèn)知是有問(wèn)題的。

曲凱:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么樣的?二者該怎么合作?

亦博:最理想也最簡(jiǎn)單的合作方式,就是大家像一個(gè)團(tuán)隊(duì)一樣,為共同目標(biāo)協(xié)作。

很多事情都有 trade-off,比如有時(shí)損傷系統(tǒng)性能,但能換來(lái)算法上的提升,有時(shí)候則是反過(guò)來(lái)。遇到這些情況,最好是兩邊能一起討論該誰(shuí)來(lái)讓步。

不過(guò)這是小團(tuán)隊(duì)的優(yōu)勢(shì)。在很多大廠里,很難實(shí)現(xiàn)這一點(diǎn)。

在大廠,Infra 總被視為支持性的角色。很多時(shí)候是算法人給 Infra 人提需求,但是 Infra 人沒(méi)有反向的影響力。

曲凱:對(duì),而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一個(gè)最優(yōu)先的目標(biāo)。

亦博:這正是我認(rèn)為需要被糾正的觀念。前面提到過(guò),Infra 實(shí)際上是可以對(duì)模型效果有正向影響的,而不僅僅是只能降本。

曲凱:聽(tīng)起來(lái)就是要 Infra 人發(fā)揮主觀能動(dòng)性?

亦博:還不夠。比如你帶一個(gè) Infra 團(tuán)隊(duì),另一個(gè)人帶算法團(tuán)隊(duì),大家向同一個(gè) leader 匯報(bào),但這個(gè) leader 只懂算法,那你猜會(huì)發(fā)生什么?

所以很多問(wèn)題到最后都是組織架構(gòu)的問(wèn)題。

模型其實(shí)由算法、Infra 和數(shù)據(jù)這個(gè)鐵三角決定。三者缺一不可,必須協(xié)同。

但很多人對(duì)模型的理解存在偏差。比如,一個(gè)模型的算法效果往往取決于數(shù)據(jù),而不是算法;一個(gè)模型的效率成本主要由 Infra 決定,也不是算法。

所以實(shí)際上比較合理的組織架構(gòu)是,讓 Infra 人去設(shè)計(jì)模型結(jié)構(gòu),因?yàn)?Infra 人最知道該怎么提高效率、節(jié)省成本,讓數(shù)據(jù)的人去負(fù)責(zé)刷模型的點(diǎn)數(shù)和 benchmark 分?jǐn)?shù),因?yàn)樗麄冏疃趺次鼓P?,而算法人?yīng)該主要負(fù)責(zé)訓(xùn)練的范式革新。

曲凱:聽(tīng)起來(lái)很合理啊,現(xiàn)在很多團(tuán)隊(duì)不是這樣的嗎?

亦博:不是?,F(xiàn)在在很多團(tuán)隊(duì)中,基本都是算法人在設(shè)計(jì)模型結(jié)構(gòu)、刷模型點(diǎn)數(shù)。但實(shí)際上算法人不一定最適合做這些事。

曲凱:所以階躍從一開(kāi)始就在用最正確的方法嗎?還是也踩過(guò)一些坑?

亦博:當(dāng)然也踩過(guò)坑哈哈。比如我們一開(kāi)始對(duì)自己的算力和能力都過(guò)于自信,所以干了一個(gè)比 Llama 還大的模型。雖然我們把它訓(xùn)出來(lái)了,但是這個(gè)巨大的模型有一些問(wèn)題,過(guò)程中我們也犯了一些錯(cuò)誤。

但我覺(jué)得這也沒(méi)什么。你賭的所有事情就是可能會(huì)錯(cuò),踩過(guò)坑之后再爬起來(lái)往前走唄。這一局輸了,那下一局我再干回來(lái)。

曲凱:還有什么業(yè)內(nèi)真實(shí)的踩坑案例嗎?

亦博:比如最近有家公司開(kāi)源了一個(gè)模型,聲稱(chēng)自己雖然參數(shù)量不大,但因?yàn)樗惴ㄗ龅煤茫孕Ч梢栽郊?jí)媲美更大的模型。

但這個(gè)模型因?yàn)榧軜?gòu)設(shè)計(jì)的問(wèn)題,實(shí)際運(yùn)行效率非常低,甚至還不如那些大模型快。

這背后反映的問(wèn)題是,其實(shí)很多做算法的人并不真正懂硬件,也不了解模型在 Infra 層是怎么運(yùn)行的。

算法人員做模型架構(gòu)研究的時(shí)候,可能會(huì)畫(huà)一張圖,橫軸是模型的尺寸或激活量,縱軸是某些算法效果指標(biāo)。然后他們會(huì)試圖在這張圖上找到一個(gè) sweet point,能讓模型在尺寸不大的情況下,算法效果還不錯(cuò),然后就丟給 Infra 人去做優(yōu)化了。

即便 Infra 人能滿(mǎn)足算法人的需求,模型實(shí)際運(yùn)行起來(lái)也會(huì)出問(wèn)題。

如果真要畫(huà)圖,橫軸應(yīng)該是模型的實(shí)際運(yùn)行成本或運(yùn)行效率,縱軸是模型效果。你得跑大量實(shí)驗(yàn),才能在這張圖上畫(huà)出各種點(diǎn),然后在其中找到那個(gè)真正可落地的最優(yōu)點(diǎn)。

而這件事情只有在拉通所有團(tuán)隊(duì)之后,才有可能完成。

曲凱:是。模型這邊上一個(gè) Aha Moment 仍然是年初的 DeepSeek。雖然最近一直有傳言說(shuō) GPT-5 要發(fā)布了,但到底什么時(shí)候發(fā)、表現(xiàn)怎么樣,還沒(méi)人說(shuō)得準(zhǔn)。而且很多人一直在說(shuō) scaling law 撞墻了、數(shù)據(jù)不夠了等問(wèn)題。

那你怎么看未來(lái)模型的發(fā)展?

亦博:模型范式的革新不會(huì)那么快,但多模態(tài)還是有一些突破的可能性的,尤其是多模態(tài)生成和理解的統(tǒng)一。

現(xiàn)在多模態(tài)的狀態(tài),其實(shí)挺像 20 年的 bert 模型,就是具備了理解能力,但還沒(méi)有真正做通理解和生成。

做通的標(biāo)志,是同一個(gè)模型在理解任務(wù)上能超越專(zhuān)門(mén)做理解的模型,在生成任務(wù)上也能擊敗專(zhuān)門(mén)做生成的模型。就像 GPT-3.5 出來(lái)之后,直接讓很多做翻譯之類(lèi)的專(zhuān)用模型退休了一樣。

曲凱:Google Veo 3 的效果看起來(lái)已經(jīng)很不錯(cuò)了。

亦博:但 Veo 3 還是偏上一代的模型,核心是做生成。只不過(guò)它的工程做得比較好,把配樂(lè)之類(lèi)的各種功能都很好地融合了起來(lái)。

其實(shí)技術(shù)突破和產(chǎn)品效果并不是線(xiàn)性相關(guān)的。Veo 3 確實(shí)把上一代的技術(shù)發(fā)揮到了非常強(qiáng)的水平,但它本身并沒(méi)有帶來(lái)太多范式上的創(chuàng)新。

曲凱:明白。那你覺(jué)得對(duì)于初創(chuàng)或者第三方的 AI Infra 公司來(lái)講,機(jī)會(huì)在哪?

亦博:我個(gè)人覺(jué)得訓(xùn)練側(cè)的商業(yè)模式不太成立。因?yàn)楝F(xiàn)在訓(xùn)模型的人都非常懂行,所以你很難掙到這些人的錢(qián)。而且他們也不太愿意把訓(xùn)練過(guò)程中的研發(fā)細(xì)節(jié)交給第三方,否則就泄露了自己的核心競(jìng)爭(zhēng)力。

排除訓(xùn)練之后,推理側(cè)還是有一些機(jī)會(huì)的,比如推理加速、推理優(yōu)化。

曲凱:那開(kāi)源模型對(duì) AI Infra 市場(chǎng)來(lái)講會(huì)有什么影響嗎?

亦博:整體而言,開(kāi)源模型對(duì) AI Infra 的發(fā)展是有促進(jìn)作用的。因?yàn)橐粋€(gè)開(kāi)源模型火起來(lái),大家就會(huì)去研究怎么把它跑得更好,這個(gè)過(guò)程其實(shí)就促進(jìn)了 AI Infra 的進(jìn)步。

但所有事情都有兩面性。如果某個(gè)開(kāi)源模型太火,然后大家都花很多精力去優(yōu)化它,可能反而會(huì)影響創(chuàng)新。比如 DeepSeek 出來(lái)之前,很多人都在優(yōu)化 Llama,結(jié)果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多積累就廢掉了。

這里我還想再補(bǔ)充一點(diǎn)。現(xiàn)在的 Infra 基本都是圍繞英偉達(dá)卡來(lái)做優(yōu)化的,雖然也有團(tuán)隊(duì)嘗試用國(guó)產(chǎn)芯片替代英偉達(dá),但很多時(shí)候國(guó)產(chǎn)卡不是跑不動(dòng),而是性?xún)r(jià)比不如英偉達(dá)。

舉個(gè)例子,當(dāng) DeepSeek 這樣非常好用的開(kāi)源模型出現(xiàn)之后,一些做一體機(jī)的公司會(huì)發(fā)現(xiàn),他們用英偉達(dá)卡跑 DeepSeek 就是比用國(guó)產(chǎn)卡更有性?xún)r(jià)比,所以他們就更愿意選擇英偉達(dá)的卡。

但我們非常希望國(guó)產(chǎn)卡在技術(shù)層面也能具備競(jìng)爭(zhēng)力。比如,是不是可以根據(jù)國(guó)產(chǎn)卡的特性去專(zhuān)門(mén)設(shè)計(jì)模型結(jié)構(gòu),讓它在國(guó)產(chǎn)卡上也能高效運(yùn)行,并達(dá)到 SOTA 水平?

我們最近開(kāi)源的 Step 3,就是在這個(gè)方向上的一次實(shí)踐。Step 3 是國(guó)內(nèi)首個(gè)支持第三方商用的、數(shù)百 B 規(guī)模的視覺(jué)推理模型,并且能跑出 SOTA 水平。

曲凱:怎么理解視覺(jué)推理?

亦博:視覺(jué)推理就是模型可以根據(jù)圖片、視頻抽幀等視覺(jué)信息,直接完成推理任務(wù)。

比如,你讓機(jī)器人去柜子里拿一個(gè)東西,但那個(gè)目標(biāo)物品被雜物遮擋住了。這時(shí)機(jī)器人要完成這個(gè)任務(wù),就要進(jìn)行視覺(jué)推理,來(lái)進(jìn)行任務(wù)的拆解和決策。

對(duì)于機(jī)器人或者手機(jī)、汽車(chē)等智能設(shè)備來(lái)說(shuō),它們天然就有視覺(jué)這個(gè)模態(tài)。那么根據(jù)周邊的環(huán)境、看到的東西去決定怎么完成復(fù)雜任務(wù)的過(guò)程,就是典型的視覺(jué)推理模型做的事情。

視覺(jué)推理模型還有一個(gè)更常見(jiàn)的應(yīng)用場(chǎng)景,就是拍照解題。

曲凱:這件事之前也有一些模型可以做到,它們應(yīng)該就是把圖片轉(zhuǎn)成文字,再去做文字推理。

亦博:但我認(rèn)為這種方式不是真正的視覺(jué)推理。我們現(xiàn)在不需要中間那段轉(zhuǎn)文字的過(guò)程,而是讓模型好似真的能看懂圖片,然后直接看圖推理。

還是舉剛才那個(gè)讓機(jī)器人拿東西的例子。如果你要拿的那個(gè)目標(biāo)物品周?chē)泻芏嗾趽?,你其?shí)很難用文字把它們?cè)谖锢硎澜缰械奈恢藐P(guān)系描述清楚,也會(huì)丟掉很多信息。

但如果模型直接看圖,就能很直觀地知道應(yīng)該先把這個(gè)東西拿開(kāi),再把那個(gè)東西拿開(kāi),最后拿到目標(biāo)物品。

曲凱:明白。那你們?yōu)槭裁催x擇開(kāi)源?

亦博:我們希望做到全國(guó)上下產(chǎn)業(yè)都獲益。

我們決定給所有國(guó)產(chǎn)芯片一份免費(fèi)商用的授權(quán),開(kāi)放模型權(quán)重,并且盡量幫他們做好模型適配。同時(shí)我們也把 Step 3 在國(guó)產(chǎn)卡上的推理成本壓到了一個(gè)很低的水平,提高了國(guó)產(chǎn)卡在性?xún)r(jià)比上的競(jìng)爭(zhēng)力。

通過(guò)開(kāi)源,我們希望能夠幫助國(guó)產(chǎn)芯片構(gòu)建商業(yè)競(jìng)爭(zhēng)力,也希望他們能推廣我們的模型,最后實(shí)現(xiàn)共贏。

曲凱:我突然想到一個(gè)問(wèn)題,就是多模態(tài)模型的成本未來(lái)到底會(huì)以什么速度下降到什么程度?因?yàn)楝F(xiàn)在多模態(tài)還是太貴了。

亦博:多模態(tài)理解現(xiàn)在已經(jīng)不算貴了,不過(guò)生成還是挺貴的,尤其是視頻生成。

但我對(duì)成本降低還是蠻樂(lè)觀的。我覺(jué)得一年后,應(yīng)該能下降很多,能不能到十分之一不好說(shuō),但幾分之一沒(méi)問(wèn)題。

曲凱:你覺(jué)得現(xiàn)在做 Infra 的人在很多公司里,是不是還是容易被低估?

亦博:在大模型時(shí)代,這種情況已經(jīng)好很多了?,F(xiàn)在 Infra 已經(jīng)是模型能力的核心組成部分之一。

之前也有人說(shuō)過(guò),DeepSeek 做得好就是因?yàn)榱何匿h是 Infra 人。

曲凱:這怎么講?

亦博:因?yàn)榱何匿h是做量化出身的,而量化很強(qiáng)調(diào)低延遲,所以他需要對(duì) Infra 有研究。在算法、數(shù)據(jù)和 Infra 之間,他可能最擅長(zhǎng)的就是 Infra。這在業(yè)界也算是共識(shí)。

而且據(jù)我所知,DeepSeek 的 Infra 工程師數(shù)量比算法工程師要多。

但在很多大公司里,這個(gè)情況是反過(guò)來(lái)的。這可能也是在過(guò)去一段時(shí)間里,一些大廠比較掙扎的原因之一。

其實(shí)在大模型快速發(fā)展的階段,就是需要有大量的 Infra 人,來(lái)把硬件設(shè)計(jì)和模型優(yōu)化做到極致,并且做好垂直整合。但在大廠里,他們的人才結(jié)構(gòu)是錯(cuò)配的,不符合做好 AI 的本質(zhì)需求。

曲凱:明白。最后,你會(huì)給正在做或者想轉(zhuǎn)行做 AI Infra 的人什么建議?

亦博:前面有提到過(guò),我的建議就是靠近模型,或者靠近硬件。

另外,希望你還是打心底對(duì) Infra 感興趣,有足夠的主觀能動(dòng)性去做各種各樣的 co-design。

最后我想再補(bǔ)充一點(diǎn)。我最喜歡的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心觀點(diǎn)是,從長(zhǎng)期來(lái)看,勝出的永遠(yuǎn)是那些能最大程度利用計(jì)算資源的方法。短期內(nèi)各種奇技淫巧可能有效,但都不能本質(zhì)地解決問(wèn)題。

雖然這篇文章是從算法視角寫(xiě)的,但對(duì) Infra 人也同樣有很重大的指導(dǎo)意義。因?yàn)槲覀冏罡镜娜蝿?wù),就是設(shè)計(jì)出能發(fā)揮硬件全部性能的模型和系統(tǒng)軟件,讓模型能充分利用這些資源。

當(dāng)然,我最希望的是也許有朝一日,我們還能反過(guò)來(lái)影響硬件,換取摩爾定律的不斷延續(xù)。

42章經(jīng)

思考事物本質(zhì)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
姜昆弟子劉惠:于謙吃不上飯的時(shí)候,我已經(jīng)進(jìn)了中國(guó)廣播說(shuō)唱團(tuán)

姜昆弟子劉惠:于謙吃不上飯的時(shí)候,我已經(jīng)進(jìn)了中國(guó)廣播說(shuō)唱團(tuán)

八斗小先生
2025-11-06 14:26:59
跨年妖只盯這兩只!

跨年妖只盯這兩只!

風(fēng)風(fēng)順
2025-12-29 05:00:03
演員王星自曝被騙緬甸時(shí)手機(jī)被人拿走刷了數(shù)萬(wàn)元網(wǎng)貸,回國(guó)后自己分期還款;透露有人找他出演“人口販賣(mài)”題材影片,但都拒絕了

演員王星自曝被騙緬甸時(shí)手機(jī)被人拿走刷了數(shù)萬(wàn)元網(wǎng)貸,回國(guó)后自己分期還款;透露有人找他出演“人口販賣(mài)”題材影片,但都拒絕了

揚(yáng)子晚報(bào)
2025-12-27 18:49:32
真相大白!王曼昱乒超決賽缺陣原因曝光,和孫穎莎原因可能不一樣

真相大白!王曼昱乒超決賽缺陣原因曝光,和孫穎莎原因可能不一樣

曹說(shuō)體育
2025-12-28 14:34:16
今年底熱鬧了!央視馬年春晚LOGO被網(wǎng)友“比下去”,真相挺有意思

今年底熱鬧了!央視馬年春晚LOGO被網(wǎng)友“比下去”,真相挺有意思

陳意小可愛(ài)
2025-12-28 04:46:16
托雷之死,軍事強(qiáng)人為何總是玩不過(guò)政治高手?

托雷之死,軍事強(qiáng)人為何總是玩不過(guò)政治高手?

掠影后有感
2025-12-28 11:38:44
最高院:被掛靠人未參與工程建設(shè),掛靠人能向其主張工程款嗎?

最高院:被掛靠人未參與工程建設(shè),掛靠人能向其主張工程款嗎?

周軍律師聊案子
2025-12-28 10:36:03
支持以打擊伊朗,兵圍委內(nèi)瑞拉,唆使日菲臺(tái),特朗普這盤(pán)棋很大

支持以打擊伊朗,兵圍委內(nèi)瑞拉,唆使日菲臺(tái),特朗普這盤(pán)棋很大

命運(yùn)自認(rèn)幽默
2025-12-29 00:02:06
成都豐田4S店燃爆事件:關(guān)鍵信息、網(wǎng)傳事故原因、最新進(jìn)展梳理

成都豐田4S店燃爆事件:關(guān)鍵信息、網(wǎng)傳事故原因、最新進(jìn)展梳理

奇思妙想草葉君
2025-12-28 22:37:46
美國(guó)夢(mèng)黃了!自稱(chēng)智力頂峰的羅玉鳳,如今病困交加離死不遠(yuǎn)了

美國(guó)夢(mèng)黃了!自稱(chēng)智力頂峰的羅玉鳳,如今病困交加離死不遠(yuǎn)了

璀璨幻行者
2025-12-28 22:32:12
美國(guó)最差勁的總統(tǒng)是誰(shuí),不是特朗普、不是拜登,而是作惡多端的他

美國(guó)最差勁的總統(tǒng)是誰(shuí),不是特朗普、不是拜登,而是作惡多端的他

真的好愛(ài)你
2025-12-12 21:44:44
“亂港分子”周庭,棄保潛逃加拿大,揚(yáng)言永不回國(guó),如今怎么樣了

“亂港分子”周庭,棄保潛逃加拿大,揚(yáng)言永不回國(guó),如今怎么樣了

甜檸聊史
2025-12-27 10:54:15
全球最精確預(yù)言家:2026,歷史性的一年, 能說(shuō)的都在這里

全球最精確預(yù)言家:2026,歷史性的一年, 能說(shuō)的都在這里

神奇故事
2025-12-24 23:34:15
港獨(dú)害人害己:黃之鋒父親賤賣(mài)房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

港獨(dú)害人害己:黃之鋒父親賤賣(mài)房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

凡知
2025-12-23 18:59:57
汪小菲陪孩子過(guò)節(jié),小玥兒剪短發(fā)真漂亮,馬筱梅親自買(mǎi)菜準(zhǔn)備大餐

汪小菲陪孩子過(guò)節(jié),小玥兒剪短發(fā)真漂亮,馬筱梅親自買(mǎi)菜準(zhǔn)備大餐

叨叨話(huà)影
2025-12-28 11:14:23
炒股再過(guò)50年都不變的黃金定律:七不買(mǎi) 三不賣(mài)

炒股再過(guò)50年都不變的黃金定律:七不買(mǎi) 三不賣(mài)

流蘇晚晴
2025-12-28 17:18:27
破7入6!人民幣強(qiáng)勢(shì)反攻,美元霸權(quán)為何在亞洲節(jié)節(jié)敗退?

破7入6!人民幣強(qiáng)勢(shì)反攻,美元霸權(quán)為何在亞洲節(jié)節(jié)敗退?

羅富強(qiáng)說(shuō)
2025-12-28 17:32:45
難怪當(dāng)初蔣欣那么喜歡他,原來(lái)他這么帥氣啊,這顏值也太高了!

難怪當(dāng)初蔣欣那么喜歡他,原來(lái)他這么帥氣啊,這顏值也太高了!

老吳教育課堂
2025-12-28 09:23:32
遼寧男籃拒絕三連敗!全力戰(zhàn)勝深圳,布朗持續(xù)爆發(fā),央視直播

遼寧男籃拒絕三連??!全力戰(zhàn)勝深圳,布朗持續(xù)爆發(fā),央視直播

體壇瞎白話(huà)
2025-12-28 08:02:15
明確了!不免費(fèi)!定了!休14天

明確了!不免費(fèi)!定了!休14天

pingdubbs
2025-12-27 23:54:06
2025-12-29 05:48:49
42章經(jīng) incentive-icons
42章經(jīng)
創(chuàng)投圈第一自媒體
58文章數(shù) 138關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥(niǎo)喬丹

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
教育
健康
公開(kāi)課
軍事航空

旅游要聞

什剎海這三條斜街胡同彰顯獨(dú)特意蘊(yùn)

教育要聞

揭秘5+3本碩連讀專(zhuān)業(yè)!就業(yè)率超高

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京:俄方已無(wú)興趣等待烏從其占領(lǐng)區(qū)撤出

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版