国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

遙遙無期的AGI是畫大餅嗎?兩位教授「吵起來了」

0
分享至


來源:機(jī)器之心

編輯:冷貓

大模型的通用性和泛化性越來越強(qiáng)大了。

雖說一些新模型,比如說,在專業(yè)任務(wù)和智能水平已經(jīng)達(dá)到了非常出色的水平,但離我們所認(rèn)知的 AGI 依舊十分遙遠(yuǎn)。


不過,這也說明了大家對 AGI 仍然充滿熱情和信心,說不定下一款重磅的大模型就能夠初步實(shí)現(xiàn) AGI 的構(gòu)想呢?

但是,近期卡耐基梅隆大學(xué)教授,AI2 研究科學(xué)家 Tim Dettmers發(fā)布了一篇長文博客,標(biāo)題為《Why AGI Will Not Happen》,認(rèn)為由于物理原因,我們無法實(shí)現(xiàn) AGI,也無法實(shí)現(xiàn)任何有意義的超。

這篇文章著實(shí)給大家對 AGI 的熱情潑上了一盆冰水,引發(fā)了廣泛嘩然。


為什么 AGI 不會發(fā)生

這篇文章涉及到了硬件改進(jìn)、通用人工智能(AGI)、超級智能、規(guī)模法則、人工智能泡沫以及相關(guān)話題。


  • 博客鏈接:https://timdettmers.com/2025/12/10/why-agi-will-not-happen/

計(jì)算是物理的

許多思考 AGI、超級智能、縮放定律以及硬件進(jìn)步的人,往往把這些概念當(dāng)作抽象理念來看待,像哲學(xué)思想實(shí)驗(yàn)一樣加以討論。這一切都建立在對 AI 與規(guī)?;囊粋€(gè)根本性誤解之上:計(jì)算是物理的。

要實(shí)現(xiàn)高效計(jì)算,你需要在兩件事情之間取得平衡:其一,把全局信息移動(dòng)到局部鄰域;其二,將多份局部信息匯聚起來,把舊信息轉(zhuǎn)化為新信息。雖然局部計(jì)算的復(fù)雜性幾乎保持恒定 —— 更小的晶體管能夠大大加速這一過程,但移動(dòng)到局部計(jì)算單元的距離呈平方級增長 —— 雖然也受益于更小的晶體管,但由于內(nèi)存訪問模式的平方特性,改進(jìn)效果很快變得次線性。

有兩個(gè)要點(diǎn)需要記?。旱谝?,緩存越大,速度越慢。第二,隨著晶體管尺寸不斷縮小,計(jì)算變得越來越便宜,而內(nèi)存在相對意義上卻變得越來越昂貴。

如今計(jì)算單元在芯片中的占比已經(jīng)微不足道,幾乎所有面積都被用來做內(nèi)存。若在一塊芯片上實(shí)現(xiàn) 10 exaflops 的算力,但無法為它提供足夠的內(nèi)存服務(wù),于是這些 FLOPS 就成了 「無效算力」。

正因如此,像 Transformer 這樣的 AI 架構(gòu)在本質(zhì)上是物理的。我們的架構(gòu)并非可以隨意構(gòu)思、隨意拋出的抽象想法,而是對信息處理單元進(jìn)行的物理層面的優(yōu)化。

要有意義地處理信息,你需要做兩件事:一是計(jì)算局部關(guān)聯(lián)(MLP),二是將更遠(yuǎn)處的關(guān)聯(lián)匯聚到局部鄰域中(注意力機(jī)制)。這是因?yàn)?,僅靠局部信息只能幫助你區(qū)分高度相近的內(nèi)容,而匯聚遠(yuǎn)程信息則能讓你形成更復(fù)雜的關(guān)聯(lián),用以對比或補(bǔ)充局部細(xì)節(jié)。

Transformer 架構(gòu)以最簡單的方式結(jié)合了局部計(jì)算與全局信息匯聚,已經(jīng)非常接近物理最優(yōu)

計(jì)算是物理的,這一點(diǎn)對生物系統(tǒng)同樣成立。所有動(dòng)物的計(jì)算能力都受限于其生態(tài)位中可獲得的熱量攝入。若大腦再大,人類將無法繁衍,因?yàn)闊o法提供足夠的能量。這使得我們當(dāng)前的智能水平成為一個(gè)由于能量限制而無法跨越的物理邊界。

我們接近了數(shù)字計(jì)算的邊界。

線性進(jìn)步需要指數(shù)級資源

這里同時(shí)存在兩種現(xiàn)實(shí):一種是物理現(xiàn)實(shí),另一種是觀念空間中的現(xiàn)實(shí)。

在物理現(xiàn)實(shí)中,如果你需要在時(shí)間和空間上聚集資源來產(chǎn)生某種結(jié)果,那么出于物流和組織的原因,想要在線性尺度上產(chǎn)出效果,往往就需要線性規(guī)模的資源投入。但由于物理性的限制,這些資源在空間或時(shí)間上會產(chǎn)生競爭,使得資源的匯聚速度必然越來越慢。

在觀念空間中,也存在著類似但不那么顯而易見的現(xiàn)象。如果兩個(gè)想法彼此完全獨(dú)立,它們疊加后的效果可能比任何一個(gè)單獨(dú)想法大上十倍。但如果這些想法彼此相關(guān),那么由于邊際收益遞減,其總體影響就會受到限制。如果一個(gè)想法建立在另一個(gè)之上,它所能帶來的改進(jìn)幅度是有限的。很多時(shí)候,只要存在依賴關(guān)系,其中一個(gè)想法就只是對另一個(gè)的細(xì)化或打磨。而這種 「精修式」 的想法,即便極富創(chuàng)造性,也只能帶來漸進(jìn)式的改進(jìn)。

當(dāng)一個(gè)領(lǐng)域足夠龐大時(shí),即便你刻意去研究看起來非常不同的思路,它們?nèi)匀慌c既有想法高度相關(guān)。比如,狀態(tài)模型和 Transformer 看似是兩種非常不同的注意力機(jī)制路線,但它們其實(shí)都在解決同一個(gè)問題。通過以這種方式改造注意力機(jī)制,所能獲得的收益都非常有限。

這種關(guān)系在物理學(xué)中表現(xiàn)得尤為明顯。曾經(jīng),物理學(xué)的進(jìn)展可以由個(gè)體完成 —— 如今基本不再可能。

觀念空間的核心困境在于:如果你的想法仍然處在同一個(gè)子領(lǐng)域中,那么幾乎不可能產(chǎn)生有意義的創(chuàng)新,因?yàn)榇蠖鄶?shù)東西早已被思考過了。因此,理論物理學(xué)家實(shí)際上只剩下兩條有意義的路可走:要么對現(xiàn)有思想進(jìn)行漸進(jìn)式的修補(bǔ)與細(xì)化,其結(jié)果是影響微乎其微;要么嘗試打破規(guī)則、提出非傳統(tǒng)的想法,這些想法或許很有趣,但卻很難對物理理論產(chǎn)生明確影響。

實(shí)驗(yàn)物理則直觀地展示了物理層面的限制。為了檢驗(yàn)越來越基礎(chǔ)的物理定律和基本粒子 —— 也就是標(biāo)準(zhǔn)模型 —— 實(shí)驗(yàn)的成本正變得越來越高。標(biāo)準(zhǔn)模型并不完整,但我們并不知道該如何修補(bǔ)它。大型強(qiáng)子對撞機(jī)在更高能量下的實(shí)驗(yàn),只帶來了更多不確定的結(jié)果,以及對更多理論的否定。盡管我們建造了耗資數(shù)十億美元、日益復(fù)雜的實(shí)驗(yàn)裝置,但我們依然不知道暗能量和暗物質(zhì)究竟是什么。

如果你想獲得線性的改進(jìn),就必須付出指數(shù)級的資源。

GPU 不再進(jìn)步了

我看到的最常見誤解之一是:人們默認(rèn)硬件會一直不斷進(jìn)步。幾乎所有 AI 的創(chuàng)新,都由 GPU 的效率提升所驅(qū)動(dòng)。

AlexNet 之所以成為可能,是因?yàn)槿藗冮_發(fā)了最早的一批 CUDA 實(shí)現(xiàn),使得卷積能夠在多張 GPU 上并行計(jì)算。此后的大多數(shù)創(chuàng)新,也主要依賴于更強(qiáng)的 GPU 以及更多 GPU 的使用。幾乎所有人都觀察到了這種模式 ——GPU 變強(qiáng),AI 性能提升 —— 于是很自然地認(rèn)為 GPU 還會繼續(xù)變強(qiáng),并持續(xù)推動(dòng) AI 的進(jìn)步。

實(shí)際上,GPU 已經(jīng)不會再有實(shí)質(zhì)性的提升了。我們基本已經(jīng)見證了最后一代真正重要的 GPU 改進(jìn)。GPU 在 「性能 / 成本」 這一指標(biāo)上大約在 2018 年左右達(dá)到了峰值,此后加入的只是一些很快就會被消耗殆盡的一次性特性。

這些一次性特性包括:16 位精度、Tensor Core(或等價(jià)方案)、高帶寬內(nèi)存(HBM)、TMA(或等價(jià)機(jī)制)、8 位精度、4 位精度。而現(xiàn)在,無論是在物理層面還是在觀念空間中,我們都已經(jīng)走到了盡頭。我在論文中已經(jīng)展示過 k-bit 推理縮放定律 :在特定塊大小和計(jì)算布局下,哪些數(shù)據(jù)類型是最優(yōu)的。這些結(jié)論已經(jīng)被硬件廠商采納。

任何進(jìn)一步的改進(jìn),都不再是「純收益」,而只會變成權(quán)衡:要么用更低的計(jì)算效率換取更好的內(nèi)存占用,要么用更高的內(nèi)存占用換取更高的計(jì)算吞吐。即便還能繼續(xù)創(chuàng)新 —— 而因?yàn)榫€性進(jìn)步需要指數(shù)級資源 —— 這些改進(jìn)也將是微不足道的,無法帶來任何有意義的躍遷。

雖然 GPU 本身已經(jīng)無法再顯著改進(jìn),但機(jī)架級(rack-level)的優(yōu)化依然至關(guān)重要。

高效地搬運(yùn) KV cache 是當(dāng)前 AI 基礎(chǔ)設(shè)施中最重要的問題之一。不過,這個(gè)問題的現(xiàn)有解決方案其實(shí)也相當(dāng)直接。因?yàn)樵谶@個(gè)問題上,基本只存在一種最優(yōu)架構(gòu)。實(shí)現(xiàn)起來當(dāng)然復(fù)雜,但更多依賴的是清晰的思路,以及大量艱苦、耗時(shí)的工程工作,而不是新穎的系統(tǒng)設(shè)計(jì)。

無論是 OpenAI 還是其他前沿實(shí)驗(yàn)室,在推理和基礎(chǔ)設(shè)施棧上都不存在根本性的優(yōu)勢。唯一可能形成優(yōu)勢的方式,是在機(jī)架級硬件優(yōu)化或數(shù)據(jù)中心級硬件優(yōu)化上略勝一籌。但這些紅利同樣會很快耗盡 —— 也許是 2026 年,也許是 2027 年。

為什么「規(guī)?;共⒉蛔銐?/strong>

我相信縮放定律,我也相信規(guī)?;_實(shí)能夠提升性能,像 Gemini 這樣的模型顯然是優(yōu)秀的模型。

問題在于:過去,為了獲得線性改進(jìn),我們恰好擁有 GPU 指數(shù)級增長這一 「對沖因素」,它抵消了規(guī)?;璧闹笖?shù)級資源成本。換句話說,以前我們投入大致線性的成本,就能獲得線性的回報(bào);而現(xiàn)在,這已經(jīng)變成了指數(shù)級成本

它意味著一個(gè)清晰且迅速逼近的物理極限。我們可能只剩下一年,最多兩年的規(guī)模化空間,因?yàn)樵偻?,改進(jìn)將變得在物理上不可行。2025 年的規(guī)?;找娌⒉涣裂?;2026 年和 2027 年的規(guī)?;詈媚苷嬲嘈?。

盡管成本呈指數(shù)級增長,目前的基礎(chǔ)設(shè)施建設(shè)在一定程度上仍然是合理的,尤其是在推理需求不斷增長的背景下。但這依然形成了一種非常脆弱的平衡。最大的問題在于:如果規(guī)?;瘞淼氖找娌幻黠@優(yōu)于研究或軟件層面的創(chuàng)新,那么硬件就會從「資產(chǎn)」 變成 「負(fù)債」。

像 MoonshotAI、Z.ai 這樣的中小型玩家已經(jīng)證明,他們并不需要大量資源就能達(dá)到前沿性能。如果這些公司在 「超越規(guī)模化」 的方向上持續(xù)創(chuàng)新,它們完全有可能做出最好的模型。

規(guī)?;A(chǔ)設(shè)施面臨的另一個(gè)重大威脅在于:目前,大模型推理效率與龐大的用戶基數(shù)高度相關(guān),這源于網(wǎng)絡(luò)層面的規(guī)模效應(yīng)。要實(shí)現(xiàn)高效的大模型部署,需要足夠多的 GPU,才能在計(jì)算、網(wǎng)絡(luò)通信以及 KV-cache 分段之間實(shí)現(xiàn)有效重疊。這類部署在技術(shù)上極其高效,但必須依賴龐大的用戶規(guī)模才能實(shí)現(xiàn)充分利用,從而具備成本優(yōu)勢。這也是為什么開源權(quán)重模型至今沒有產(chǎn)生人們預(yù)期中的影響 —— 因?yàn)榇笠?guī)模部署的基礎(chǔ)設(shè)施成本,要求必須有足夠大的用戶群體。

目前,vLLM 和 SGLang 主要在優(yōu)化大規(guī)模部署,但它們并不能在小規(guī)模場景下提供同樣的效率。如果有一套超越 vLLM / SGLang 的推理?xiàng)#藗兙涂梢杂门c OpenAI 或 Anthropic 部署前沿模型幾乎相同的效率,來部署一個(gè)約 3000 億參數(shù)的模型。一旦較小模型變得更強(qiáng)(我們已經(jīng)在 GLM 4.6 上看到了這一趨勢),或者 AI 應(yīng)用變得更加垂直和專用,前沿實(shí)驗(yàn)室的基礎(chǔ)設(shè)施優(yōu)勢可能會在一夜之間消失。軟件復(fù)雜性會迅速蒸發(fā),而開源、開權(quán)重的部署方案,可能在計(jì)算效率和信息處理效率上都接近物理最優(yōu)。這對前沿玩家而言,是一個(gè)巨大的風(fēng)險(xiǎn)。

在規(guī)模化放緩的背景下,以下三種因素中的任何一個(gè),都可能迅速而顯著地削弱 AI 基礎(chǔ)設(shè)施的價(jià)值:

(1)研究與軟件層面的創(chuàng)新;

(2)強(qiáng)大的開源權(quán)重推理?xiàng)#?/p>

(3)向其他硬件平臺的遷移。

從當(dāng)前趨勢來看,這對前沿實(shí)驗(yàn)室并不是一個(gè)樂觀的局面。

前沿 AI 路徑與理念

美國和中國在 AI 上采取了兩種截然不同的路徑。美國遵循的是一種贏家通吃」的思路 —— 誰先構(gòu)建出超級智能,誰就贏了。其核心信念是:把模型做到最大、最強(qiáng),人自然會來。

中國的理念則不同。他們認(rèn)為,模型能力本身并沒有應(yīng)用重要。真正重要的是你如何使用 AI,這個(gè)模型是否實(shí)用、是否能以合理的成本帶來生產(chǎn)力提升。如果一種新方案比舊方案更高效,它就會被采用;但為了略微更好的效果而進(jìn)行極端優(yōu)化,往往并不劃算。在絕大多數(shù)情況下,「足夠好」 反而能帶來最大的生產(chǎn)力提升。

我認(rèn)為,美國的這種理念是短視且問題重重的—— 尤其是在模型能力增速放緩的情況下。相比之下,中國的思路更加長期、更加務(wù)實(shí)。

AI 的核心價(jià)值在于:它是否有用,是否提升生產(chǎn)力。正因如此,它才是有益的。就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,AI 顯然會被用到各個(gè)角落。這使得 AI 在全社會范圍內(nèi)的經(jīng)濟(jì)整合 對其有效性至關(guān)重要。

AGI 不會發(fā)生,超級智能是一種幻想

我注意到一個(gè)反復(fù)出現(xiàn)的模式:當(dāng)你問硅谷的人 AGI 什么時(shí)候會到來,他們總會說 「再過幾年」,而且會帶來巨大沖擊。但當(dāng)你進(jìn)一步問他們 AGI 到底是什么,他們的定義里既不包含任何物理任務(wù),也不考慮資源投入。

真正的 AGI—— 能夠做人類能做的一切 —— 必須具備執(zhí)行物理任務(wù)的能力。簡而言之,AGI 必須包括能夠在現(xiàn)實(shí)世界中完成具有經(jīng)濟(jì)意義工作的實(shí)體機(jī)器人或機(jī)器。

然而,盡管家用機(jī)器人或許能幫你把洗碗機(jī)里的碗拿出來,但你不會看到它們?nèi)〈S里的專用系統(tǒng)。工廠中的專用機(jī)器人效率更高、精度更強(qiáng)。中國已經(jīng)證明,「黑燈工廠」—— 完全自動(dòng)化的工廠 —— 是可行的。在受控環(huán)境中,大多數(shù)機(jī)器人問題其實(shí)已經(jīng)被解決。而那些尚未解決的機(jī)器人問題,往往在經(jīng)濟(jì)上也并不劃算。比如,把 T 恤的袖子縫上去仍是一個(gè)未完全解決的機(jī)器人問題,但在大多數(shù)情境下,這件事并沒有多大的經(jīng)濟(jì)意義。

機(jī)器人領(lǐng)域的根本問題在于:學(xué)習(xí)同樣遵循與語言模型相似的縮放定律。而物理世界的數(shù)據(jù)收集成本極其高昂,且現(xiàn)實(shí)世界的細(xì)節(jié)復(fù)雜到難以處理。

超級智能的根本謬誤

超級智能這一概念建立在一個(gè)錯(cuò)誤前提之上:一旦出現(xiàn)與人類同等甚至更強(qiáng)的智能(即 AGI),這種智能就可以自我改進(jìn),從而引發(fā)失控式的爆炸增長。我認(rèn)為這是一個(gè)對整個(gè)領(lǐng)域有害的、根本性錯(cuò)誤的觀念。

其核心問題在于:它把智能視為一種純抽象的東西,而不是扎根于物理現(xiàn)實(shí)的系統(tǒng)。要改進(jìn)任何系統(tǒng),都需要資源。即便超級智能在利用資源方面比人類高效,它依然受制于我前面提到的縮放規(guī)律 —— 線性改進(jìn)需要指數(shù)級資源。

因此,所謂超級智能,更像是在填補(bǔ)能力空白,而不是推動(dòng)能力邊界外擴(kuò)。填補(bǔ)空白是有用的,但它不會引發(fā)失控式增長,只會帶來漸進(jìn)式改進(jìn)

在我看來,任何以 「追求超級智能」為主要目標(biāo)的組織,最終都會遭遇巨大困難,并被那些真正推動(dòng) AI 經(jīng)濟(jì)擴(kuò)散的參與者所取代。

是的,AGI 完全能夠發(fā)生

看了 Tim Dettmers 的博客心涼了半截,雖說有理有據(jù),Dettmers 認(rèn)為將 AGI 的發(fā)展建立在物理和成本限制的基礎(chǔ)上的觀點(diǎn)自然是正確的,規(guī)模擴(kuò)大并不是魔法,智能的進(jìn)化仍需要高昂的成本。

但我總覺得這個(gè)觀點(diǎn)有些偏激和悲觀?;蛟S AGI 并不等同于指數(shù)增加的算力,軟硬件發(fā)展或許仍有空間。

加州大學(xué)圣地亞哥分校助理教授 Dan Fu 對于 Dettmers 的博客持反對意見,他認(rèn)為 Tim Dettmers 的分析遺漏了關(guān)于目前效率以及如何充分利用系統(tǒng)的關(guān)鍵信息,現(xiàn)在的系統(tǒng)仍有巨大的發(fā)展空間,目前還不存在實(shí)際意義上的限制。


這篇博客將論證當(dāng)今的人工智能系統(tǒng)在軟件和硬件效率方面還有很大的提升空間,并概述幾條前進(jìn)的道路。并將論證我們目前擁有的人工智能系統(tǒng)已經(jīng)非常實(shí)用,即使它們不符合每個(gè)人對 AGI 的定義。


  • 博客鏈接:https://danfu.org/notes/agi/

當(dāng)今的人工智能系統(tǒng)被嚴(yán)重低估

Tim 的文章中一個(gè)核心論點(diǎn)是:當(dāng)今的 AI 系統(tǒng)正在接近 「數(shù)字計(jì)算的極限」。這一論點(diǎn)隱含了兩個(gè)前提假設(shè):其一,當(dāng)下的模型(主要是 Transformer)已經(jīng)極其高效;其二,GPU 的進(jìn)步正在停滯 —— 因此,我們不應(yīng)再期待通往 AGI 的進(jìn)展能夠以同樣的方式繼續(xù)下去。

但如果你更仔細(xì)地審視實(shí)際的數(shù)據(jù),就會發(fā)現(xiàn)情況并非如此。我們可以從訓(xùn)練和推理兩個(gè)角度更深入地分析,這將揭示出截然不同的前景和潛在的前進(jìn)方向。

訓(xùn)練:當(dāng)前的訓(xùn)練效率遠(yuǎn)未達(dá)到上限

今天最先進(jìn)模型的訓(xùn)練效率,其實(shí)比它 「本可以做到的」 要低得多 —— 我們之所以知道這一點(diǎn),是因?yàn)樗踔帘葞啄昵暗男蔬€要低。一個(gè)觀察這一問題的方式,是看訓(xùn)練過程中的 MFU(Mean FLOP Utilization,平均 FLOP 利用率)。這個(gè)指標(biāo)衡量的是計(jì)算效率:你到底用了 GPU 理論算力的多少。

舉例來說,DeepSeek-V3 和 Llama-4 的訓(xùn)練在 FP8 精度下只達(dá)到了大約 20% 的 MFU(。相比之下,像 BLOOM 這樣的開源訓(xùn)練項(xiàng)目,早在 2022 年就已經(jīng)達(dá)到了 50% 的 MFU。

這種效率差距主要來自幾個(gè)因素,其中一個(gè)重要原因是:DeepSeek-V3 和 Llama-4 都是 混合專家(MoE)模型。MoE 層在算術(shù)強(qiáng)度上不如稠密 GEMM(矩陣乘)—— 它們需要更多權(quán)重加載的 I/O、更小規(guī)模的矩陣乘操作,因此更難達(dá)到高 FLOP 利用率。結(jié)果就是:相對于計(jì)算量,它們需要更多通信。換句話說,當(dāng)下的模型設(shè)計(jì)并不是為了在 GPU 上實(shí)現(xiàn)最高的訓(xùn)練 FLOP 利用率。

此外,這些訓(xùn)練本身也已經(jīng)是在上一代硬件上完成的。Blackwell 架構(gòu)芯片的 FP8 吞吐量是 Hopper 的 2.2 倍,并且還支持原生 FP4 Tensor Core。再加上像 GB200 這樣的機(jī)架級方案,以及通過 kernel 設(shè)計(jì)來實(shí)現(xiàn)計(jì)算與通信重疊,都可以緩解當(dāng)前模型中的通信瓶頸。如果我們能實(shí)現(xiàn)高效、高質(zhì)量、且 MFU 很高的 FP4 訓(xùn)練,理論上可用的 FLOPs 將提升到 最多 9 倍。

推理:效率問題甚至更嚴(yán)重

在推理階段,情況實(shí)際上更糟。最優(yōu)化的推理實(shí)現(xiàn)(例如 megakernel)甚至不再使用 MFU 作為指標(biāo),而是關(guān)注 MBU(Maximum Bandwidth Utilization,最大帶寬利用率)。

原因在于:自回歸語言模型的瓶頸通常并不在計(jì)算,而在于從 GPU 內(nèi)存(HBM)把權(quán)重加載到片上存儲(SRAM / 寄存器 / 張量內(nèi)存)。最頂級的優(yōu)化實(shí)現(xiàn),目標(biāo)是盡可能隱藏這種延遲,目前大約能做到~70% 的 MBU。

但如果你把視角切換回 MFU,你會發(fā)現(xiàn) FLOP 利用率往往是個(gè)位數(shù)(<5%)。

這并不是物理或硬件層面的根本極限。僅僅因?yàn)槲覀冏钤缫?guī)?;氖亲曰貧w架構(gòu)(因此遇到了這些限制),并不意味著它們是唯一可行、也必須用來構(gòu)建通用 AI 的架構(gòu)。這個(gè)領(lǐng)域還很新,而我們幾乎可以控制所有變量 —— 無論是軟件(模型架構(gòu)、kernel 設(shè)計(jì)等),還是硬件。

前進(jìn)方向:還有大量可挖掘的空

一旦你真正理解了當(dāng)前所處的位置,就會發(fā)現(xiàn)有幾條非常清晰的前進(jìn)路徑,可以讓我們更充分地利用硬件。這些方向并不輕松,但也并非天方夜譚 —— 事實(shí)上,每一條路徑上都已經(jīng)有實(shí)際進(jìn)展正在發(fā)生:

1. 訓(xùn)練高效的架構(gòu)協(xié)同設(shè)計(jì)(co-design)

設(shè)計(jì)能更好利用硬件的機(jī)器學(xué)習(xí)架構(gòu)。這方面已經(jīng)有大量優(yōu)秀工作。例如,Simran Arora 關(guān)于硬件感知架構(gòu)的研究,以及 Songlin Yang 關(guān)于高效注意力機(jī)制的工作,它們表明:

  • Transformer 并非只有一種形態(tài),很多變體都能保持高質(zhì)量;

  • 我們完全可以設(shè)計(jì)出在硬件利用率上更高、且能良好擴(kuò)展的架構(gòu)。

2. 高質(zhì)量、 高效率的 FP4 訓(xùn)練

如果能夠在 FP4 下完成訓(xùn)練,我們就能獲得 2 倍的可用 FLOPs(推理側(cè)已經(jīng)開始看到 FP4 帶來的加速)。目前已經(jīng)有論文沿著這一方向展開探索,其中包括 Albert Tseng 和 NVIDIA 的一些非常出色的工作。

3. 推理高效的模型設(shè)計(jì)

如果我們能設(shè)計(jì)出在推理階段使用更多 FLOPs 的模型架構(gòu),就有可能顯著提升硬件利用率。這里值得關(guān)注的方向包括:

  • Inception Labs 和 Radical Numerics 的擴(kuò)散式語言模型(diffusion LMs);

  • Ted Zadouri 關(guān)于 「推理感知注意力機(jī)制」 的研究。

  • 巨大但尚未被充分利用的算力來源:分布在全國乃至全球的手機(jī)和筆記本電腦上的計(jì)算資源 —— 能否找到辦法,把這些算力用于推理?

當(dāng)下的 AI 訓(xùn)練和推理范式中,仍然存在大量未被利用的余量。上述每一條研究方向,都是在嘗試填補(bǔ)這些空隙,讓我們用更高的硬件利用率訓(xùn)練出高質(zhì)量模型。

模型是硬件的滯后指標(biāo)

第二個(gè)重要觀點(diǎn)是:模型的發(fā)布與能力水平,本質(zhì)上是已經(jīng)啟動(dòng)的硬件建設(shè)以及新硬件特性的滯后反映。

這一點(diǎn)從第一性原理出發(fā)其實(shí)并不難理解 —— 從一個(gè)新集群上線,到有人在其上完成預(yù)訓(xùn)練,再到后訓(xùn)練結(jié)束、模型真正能夠通過 API 被使用,中間必然存在時(shí)間滯后。

集群規(guī)模(Cluster Size)

這里我再次以 DeepSeek-V3 為例 —— 我們非常清楚它使用了多少硬件、訓(xùn)練了多長時(shí)間。DeepSeek-V3 的預(yù)訓(xùn)練發(fā)生在 2024 年末,只使用了 2048 張 H800 GPU。即便在一年之后,它依然是開源模型生態(tài)中的重要參與者。

而我們也清楚,今天正在進(jìn)行的集群建設(shè)規(guī)模要大得多:從初創(chuàng)公司部署的 4 萬卡集群,到前沿實(shí)驗(yàn)室正在建設(shè)的 10 萬卡以上集群。僅從純粹的集群規(guī)模來看,這意味著高達(dá) 50 倍的算力建設(shè)正在發(fā)生。

新的硬件特性(New Hardware Features)

我們今天使用的大多數(shù)模型,在某種意義上也都是老模型,因?yàn)樗鼈兪窃谏弦淮布嫌?xùn)練的。而新一代硬件帶來了新的特性,模型需要圍繞這些特性進(jìn)行(重新)設(shè)計(jì)。

FP4 訓(xùn)練,如果可行,是一個(gè)非常明確的突破方向;

GB200 的機(jī)架級通信域(NVL72 通過高速 NVLink 將 72 張 GPU 連接在一起)也是另一個(gè)極其清晰的突破點(diǎn) —— 它們既能緩解第一點(diǎn)中提到的低 FLOP 利用率問題,也為探索全新的模型設(shè)計(jì)提供了杠桿。

我們目前仍然處在 Blackwell 硬件周期的非常早期階段。就在最近發(fā)布的 GPT-5.2,是最早一批使用 GB200 訓(xùn)練的模型之一(盡管它似乎也同時(shí)使用了 H100 和 H200)。

此外,還有一些不那么顯眼、但同樣關(guān)鍵的硬件改進(jìn)。一個(gè)例子是:在 B200 上,注意力計(jì)算是受限的,但瓶頸并不在 Tensor Core,而是在指數(shù)運(yùn)算上。原因其實(shí)很簡單 ——Tensor Core 在代際升級中快了 2.2 倍,但超越函數(shù)單元(transcendental units)的數(shù)量或速度卻沒有同比增長。好消息是,這類問題相對容易解決。B300 將超越函數(shù)單元數(shù)量翻倍,這在一定程度上可以緩解這一瓶頸。

這些硬件改進(jìn)當(dāng)然需要工程投入,但再次強(qiáng)調(diào) —— 這并不是什么火箭科學(xué)。這里存在大量唾手可得的低垂果實(shí)。

前進(jìn)路徑

在理解了上述背景之后,我們可以給出一些具體且現(xiàn)實(shí)的前進(jìn)方向,來進(jìn)一步提升驅(qū)動(dòng)頂級模型的有效算力:

1. 「加速等待」

在很大程度上,我們當(dāng)前仍然是在觀察那些基于上一代集群預(yù)訓(xùn)練的模型表現(xiàn)。而一些團(tuán)隊(duì)已經(jīng)完成或正在完成新一代超大規(guī)模集群的建設(shè)。這很可能只是一個(gè)等待模型發(fā)布的階段性問題。

2. 面向硬件的專項(xiàng)優(yōu)化

還有大量工作可以圍繞新一代硬件特性展開:例如我們前面提到的 FP4;再如圍繞完整的機(jī)架級通信域來設(shè)計(jì)模型;或者針對 B200 / B300 上指數(shù)運(yùn)算瓶頸的特性,對注意力機(jī)制進(jìn)行適配和重構(gòu)。

3. 新硬件與新的算力來源

最后,還有大量新硬件平臺正在涌現(xiàn),以及配套的軟件棧,使它們能夠被 AI 所使用。如今的新硬件平臺幾乎層出不窮,許多都專注于推理場景,這里我不點(diǎn)名任何具體方案。但只要其中任何一個(gè)真正產(chǎn)生重大影響,整個(gè)局面都會被徹底改寫。

距離有用的 AGI 到底還有多遠(yuǎn)?

最后一個(gè)觀點(diǎn),關(guān)注點(diǎn)已經(jīng)不再主要是系統(tǒng)層面或算力層面的 AI,而是 AGI 究竟意味著什么,以及要產(chǎn)生真實(shí)、可觀的影響究竟需要什么。

理解這一部分的一個(gè)角度是:即便世界上所有系統(tǒng)層面和效率層面的進(jìn)步都突然停滯,那么距離 「有用的、類似 AGI 的能力」 真正落地,我們還差多遠(yuǎn)?

如果你把 AGI 理解為一種 「魔法棒」—— 可以揮一揮就完成地球上任何一個(gè)人能做的任何事情 —— 那顯然我們還遠(yuǎn)遠(yuǎn)沒有到達(dá)那個(gè)階段。

但如果換一種更務(wù)實(shí)的定義:一套在某些任務(wù)上比大多數(shù)人做得更好、并能產(chǎn)生巨大經(jīng)濟(jì)影響的通用工具體系,那我們或許并沒有想象中那么遙遠(yuǎn)。

在這里,我認(rèn)為有必要回頭看看僅僅兩三年前的狀態(tài)。無論是開源模型還是前沿模型,今天所能做到的許多事情,在當(dāng)時(shí)幾乎都像是魔法。就我個(gè)人而言,像 Claude Code、Cursor Composer 這樣的工具,已經(jīng)越過了一個(gè)關(guān)鍵閾值 —— 我寫的大多數(shù)代碼,已經(jīng)是由模型生成的(這篇博客本身我倒還是用 「傳統(tǒng)方式」 寫的)。

在 GPU 內(nèi)核工程這個(gè)領(lǐng)域,大模型帶來的影響,有幾點(diǎn)尤其讓我感到驚訝:

  • 在人類參與的前提下,這些模型已經(jīng)非常擅長編寫 GPU 內(nèi)核代碼。它們還沒到完全零樣本(zero-shot)的程度,但只要提供足夠的上下文和引導(dǎo),就可以實(shí)現(xiàn)跨越棧中多個(gè)部分的復(fù)雜功能。這本身就是一種極具挑戰(zhàn)性、且在現(xiàn)實(shí)中非常稀缺的工程能力,即便對資深程序員來說也是如此。

  • 這些模型在編寫工具鏈和構(gòu)建可視化方面表現(xiàn)極佳,幫助我們理解下一步性能優(yōu)化該往哪里推進(jìn) —— 從日志系統(tǒng),到工作負(fù)載模擬,再到性能瓶頸的可視化分析。

  • 即便只在現(xiàn)有能力基礎(chǔ)上小幅前進(jìn),也不難想象模型能接管更大比例的技術(shù)棧,尤其是在人類參與的控制模式下。事實(shí)上,這一代模型已經(jīng)好用得離譜了。

即使假設(shè)我們無法獲得任何更高效的新算法或新硬件,我們可能已經(jīng)掌握了一種方法,可以構(gòu)建在特定領(lǐng)域中解決或加速 95% 問題的通用 AI 智能體或模型。

至少可以肯定的是,我們已經(jīng)擁有了一整套工具,只要配合合適的數(shù)據(jù)收集方式(例如 RLHF、構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境)以及領(lǐng)域?qū)<抑R,就能被遷移到各種不同問題中。編程之所以最先被攻克,一個(gè)很自然的原因是:幾乎所有 AI 研究者都會寫代碼,而它本身又具有極高的經(jīng)濟(jì)價(jià)值。

當(dāng)然,這里也正是 AI 研究的 「主戰(zhàn)場」。在上述約束條件下,我們?nèi)匀豢梢栽O(shè)想多種推進(jìn) 「有用 AI 工具」 的方式:

1. 新的后訓(xùn)練范式(Post-training formulas)

今天我們所說的后訓(xùn)練,既新也舊 —— 新在具體實(shí)踐方式(大規(guī)模 RLHF、構(gòu)建環(huán)境測試模型等),舊在其核心思想本身。市面上之所以會出現(xiàn)諸如 Tinker 以及各種微調(diào) API 平臺,并非偶然。

2. 更好的樣本效率(Sample complexity)

構(gòu)建在更少數(shù)據(jù)、更少樣本下也能學(xué)得更好的訓(xùn)練系統(tǒng),或者設(shè)計(jì)更優(yōu)的數(shù)據(jù)篩選算法,以提升樣本效率??傮w而言,「以數(shù)據(jù)為中心的 AI(data-centric AI)」這一研究群體,正持續(xù)在改善這一局面。

3. 傳統(tǒng)意義上的「硬功夫」和領(lǐng)域經(jīng)驗(yàn)

最后,即便我們自縛雙手,假設(shè)模型能力完全不再提升 —— 仍然有大量應(yīng)用場景和垂直領(lǐng)域,今天的 AI 模型就已經(jīng)可以產(chǎn)生巨大影響。即使模型質(zhì)量被凍結(jié),系統(tǒng)層面的效率改進(jìn),也足以讓許多高影響力應(yīng)用真正落地。

我們?nèi)匀惶幵诶斫夂蜆?gòu)建這項(xiàng)新技術(shù)的非常早期階段。從如何將其用于真實(shí)世界的影響,到如何讓它更好地為人類服務(wù),還有大量工作要做。這是一個(gè)令人興奮的時(shí)代。

結(jié)論:通往 AGI 的多條道路

這篇博客的核心觀點(diǎn)是:當(dāng)前的 AI 系統(tǒng)仍然存在巨大的提升空間,而通往更強(qiáng) AI 的道路也遠(yuǎn)不止一條。只要仔細(xì)觀察,你會發(fā)現(xiàn)通向至少一個(gè)數(shù)量級(10×)算力提升的具體路徑和研究議程。

回到這篇文章最初的動(dòng)機(jī):我非常欣賞 Tim 那篇博客的一點(diǎn)在于,它愿意直面從今天走向未來所必須跨越的具體障礙。我們可以共同設(shè)計(jì)更好地利用現(xiàn)有和未來硬件的新模型,也可以沿著多條路徑推進(jìn),構(gòu)建更強(qiáng)、更有用的模型。而將潛在路障如此清晰地?cái)傞_討論,本身就為 「接下來該做什么、如何去做」 提供了一張路線圖。

三點(diǎn)總結(jié)

1. 當(dāng)前 AI 系統(tǒng)對硬件的利用率極低。通過更好的模型–硬件協(xié)同設(shè)計(jì),我們可以實(shí)現(xiàn)更高的 FLOP 利用率,獲得更多 「有用的 FLOPs」。

2. 當(dāng)前模型是硬件建設(shè)的滯后指標(biāo) —— 無論是 GPU 的絕對數(shù)量,還是新硬件特性的利用程度。

3. 即便不依賴系統(tǒng)層面的進(jìn)一步改進(jìn),我們?nèi)匀豢梢酝ㄟ^更好的算法,讓今天的模型在更廣泛的領(lǐng)域中變得極其有用。事實(shí)上,今天的模型已經(jīng)非常有價(jià)值了。

當(dāng)然,前方一定會有技術(shù)挑戰(zhàn)。但我個(gè)人非常歡迎這些挑戰(zhàn),也期待看到研究者和工程師們接下來會給出怎樣的答案。從事 AI 與系統(tǒng)研究,從未有過比現(xiàn)在更好的時(shí)代,也從未如此令人興奮。

完整內(nèi)容,請參閱原始博客。

閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

清風(fēng)鑒史
2025-12-27 19:37:17
1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機(jī)?

1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機(jī)?

宅家伍菇?jīng)?/span>
2025-12-07 09:00:04
日本僧人做出驚人之舉!日本住持向中國捐贈(zèng)5000份日軍侵華史料

日本僧人做出驚人之舉!日本住持向中國捐贈(zèng)5000份日軍侵華史料

扶蘇聊歷史
2025-12-27 11:14:51
回顧:斯大林看完長津湖戰(zhàn)報(bào),當(dāng)即下令:將36個(gè)師的裝備支援我國

回顧:斯大林看完長津湖戰(zhàn)報(bào),當(dāng)即下令:將36個(gè)師的裝備支援我國

清澈之玹
2024-12-25 21:16:59
南博新消息,徐鶯被曝領(lǐng)國家專項(xiàng)補(bǔ)助,還有人冒出頭為她站臺

南博新消息,徐鶯被曝領(lǐng)國家專項(xiàng)補(bǔ)助,還有人冒出頭為她站臺

奇思妙想草葉君
2025-12-26 23:17:24
1945年,女八路忍痛將剛出生的女兒放在路旁,當(dāng)上總理后才敢相認(rèn)

1945年,女八路忍痛將剛出生的女兒放在路旁,當(dāng)上總理后才敢相認(rèn)

古書記史
2025-12-24 20:24:21
60歲以后打斷筋都不要做的14件事,做三件就糊涂到家了,馬上收藏

60歲以后打斷筋都不要做的14件事,做三件就糊涂到家了,馬上收藏

情感大使館
2025-12-01 10:40:53
張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

情感大頭說說
2025-12-28 06:05:04
保時(shí)捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽鄭州兩地三店暫停營業(yè),控股方否認(rèn)“投資人跑路”

保時(shí)捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽鄭州兩地三店暫停營業(yè),控股方否認(rèn)“投資人跑路”

大風(fēng)新聞
2025-12-27 10:39:04
體重降不下來?5個(gè)方法幫你突破減肥平臺期,讓體重咔咔掉!

體重降不下來?5個(gè)方法幫你突破減肥平臺期,讓體重咔咔掉!

運(yùn)動(dòng)健身號
2025-12-26 11:38:19
大波業(yè)主的傳奇

大波業(yè)主的傳奇

求實(shí)處
2025-12-28 00:00:09
17億美元賣掉公司,美國一老板給540名員工發(fā)2.4億美元獎(jiǎng)金

17億美元賣掉公司,美國一老板給540名員工發(fā)2.4億美元獎(jiǎng)金

瀟湘晨報(bào)
2025-12-26 16:32:15
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

博覽歷史
2025-12-26 06:40:03
刀郎為愛徒徐子堯發(fā)聲不到一周,惡心一幕發(fā)生,云朵的話有人信了

刀郎為愛徒徐子堯發(fā)聲不到一周,惡心一幕發(fā)生,云朵的話有人信了

仙味少女心
2025-12-28 08:24:10
云南省委省政府:嚴(yán)肅追責(zé)問責(zé)16名廳級干部

云南省委省政府:嚴(yán)肅追責(zé)問責(zé)16名廳級干部

上觀新聞
2025-12-27 14:42:10
汪小菲一家過圣誕節(jié)!11歲小玥兒露正臉瘦好多,黑黑瘦瘦太像大S

汪小菲一家過圣誕節(jié)!11歲小玥兒露正臉瘦好多,黑黑瘦瘦太像大S

娛樂圈圈圓
2025-12-26 19:52:29
對等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

對等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

奇思妙想草葉君
2025-12-27 11:51:12
2025-12-28 09:56:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37358關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長葉寒冰被通報(bào):長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報(bào):長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
旅游
數(shù)碼
本地
公開課

藝術(shù)要聞

手串種類大盤點(diǎn),全見過的算得上是文玩老手了!

旅游要聞

來松江,就放松丨連續(xù)4天上演煙花秀!上海歡樂谷閃耀歡禧節(jié)開啟

數(shù)碼要聞

彩殼版蘋果初代AirPods耳機(jī)曝光:風(fēng)格酷似iPhone 5C

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版