網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

最新英偉達(dá)經(jīng)濟學(xué)：每美元性能是AMD的15倍，買越多省越多是真的

2026-01-01 12:47:48　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI

為什么AI算力霸主永遠(yuǎn)是英偉達(dá)？

不算不知道，一算嚇一跳：在英偉達(dá)平臺每花一美元，獲得的性能是AMD的15倍。

盡管英偉達(dá)賣的更貴，但只要買齊一套，就更省錢。

來自Signal65的一份最新詳盡報告揭示了這個現(xiàn)實，一定條件下生成同樣數(shù)量的token，英偉達(dá)的成本只有AMD的十五分之一。

這份報告基于SemiAnalysis Inference MAX的公開基準(zhǔn)測試數(shù)據(jù)，時間跨度從2025年10月到12月，覆蓋了從密集模型到前沿MoE推理模型的全場景測試。

黃仁勛的“買的越多，省的越多”原來是真的。

MoE時代：8卡系統(tǒng)撞上Scaling天花板

AI模型正在經(jīng)歷一場架構(gòu)革命，打開Artificial Analysis排行榜就會發(fā)現(xiàn)，智能度排名前十的開源模型清一色都是MoE（Mixture of Experts，專家混合）推理模型。

另一項來自O(shè)penRouter的數(shù)據(jù)顯示，超過50%的token流量正在被路由到推理模型上。

MoE架構(gòu)的核心思路是把模型參數(shù)拆分成多個專門化的“專家”子網(wǎng)絡(luò)，每個token只激活其中一小部分。

以經(jīng)典的DeepSeek-R1為例，它擁有6710億總參數(shù)，但每個token只激活370億——這讓它能以更低的計算成本提供前沿級別的智能。

問題隨之而來。當(dāng)專家分布在多塊GPU上時，GPU之間的通信延遲會導(dǎo)致計算單元空閑等待數(shù)據(jù)，這些空閑時間直接轉(zhuǎn)化為服務(wù)商的成本。

報告指出，無論是英偉達(dá)B200還是AMD MI355X，所有8卡系統(tǒng)在超出單節(jié)點規(guī)模后都會撞上“擴展天花板”（scaling ceiling）。

英偉達(dá)GB200 NVL72的解法是把72塊GPU通過NVLink連接成一個單一域，提供130 TB/s的互聯(lián)帶寬。

在軟件層面，整個系統(tǒng)就像一塊巨型GPU一樣運作。配合英偉達(dá)Dynamo推理框架的分離式預(yù)填充-解碼調(diào)度和動態(tài)KV緩存路由，這套架構(gòu)能夠有效突破8卡系統(tǒng)的通信瓶頸。

模型越復(fù)雜，英偉達(dá)的優(yōu)勢越明顯

報告測試了三類典型模型：模型越復(fù)雜，英偉達(dá)的優(yōu)勢越明顯。

在密集模型Llama 3.3 70B上，英偉達(dá)B200對比AMD MI355X的領(lǐng)先幅度相對溫和。

在基線交互性（30 tokens/sec/user）下，B200的性能約為MI355X的1.8倍；當(dāng)交互性要求提升到110 tokens/sec/user時，這一差距擴大到6倍以上。

中等規(guī)模的MoE模型GPT-OSS-120B開始讓差距變得更加顯著。

這款OpenAI開源模型擁有1170億總參數(shù)，但每個token只激活約51億參數(shù)。在2025年12月的測試數(shù)據(jù)中，100 tokens/sec/user交互性下B200的性能接近MI355X的3倍。

在更符合推理模型需求的250 tokens/sec/user條件下，差距擴大到6.6倍。

兩個平臺的絕對性能相比10月都有顯著提升，英偉達(dá)的峰值吞吐從約7000 tokens/sec躍升至14000以上，AMD則從約6000提升到8500左右，但相對差距反而拉大了。

真正的分水嶺出現(xiàn)在前沿推理模型DeepSeek-R1上。

這款模型集MoE路由、大參數(shù)規(guī)模和高強度推理生成于一身，對基礎(chǔ)設(shè)施的要求極為苛刻。

測試結(jié)果顯示：在25 tokens/sec/user交互性下，GB200 NVL72的每GPU性能是H200的10倍、MI325X的16倍；在60 tokens/sec/user下，相比H200的優(yōu)勢擴大到24倍，相比MI355X達(dá)到11.5倍；在75 tokens/sec/user下，GB200 NVL72的性能是B200單節(jié)點配置的6.5倍，是MI355X的28倍。

更關(guān)鍵的是，GB200 NVL72能夠達(dá)到競爭平臺根本無法企及的水平，在28卡配置下可以輸出超過275 tokens/sec/user，而MI355X在相當(dāng)吞吐水平下的峰值只有75 tokens/sec/user。

Token經(jīng)濟學(xué)：貴了1.86倍，便宜了15倍

直覺上，性能更強的平臺應(yīng)該更貴。事實也確實如此：根據(jù)Oracle Cloud的公開定價，GB200 NVL72的每GPU每小時價格為16美元，MI355X為8.60美元，前者是后者的1.86倍。

如果參照CoreWeave的定價，GB200 NVL72相比上一代H200的價格也貴了約1.67倍。

但報告的計算揭示了一個反直覺的結(jié)論：

在25 tokens/sec/user交互性下，GB200 NVL72的性能優(yōu)勢為5.85倍，除以1.86倍的價格溢價，每美元性能仍是MI355X的3.1倍。

在75 tokens/sec/user交互性下，28倍的性能優(yōu)勢除以1.86倍的價格，每美元性能達(dá)到MI355X的15倍，這意味著生成同等數(shù)量的token，英偉達(dá)平臺的成本只有AMD的十五分之一。

與上一代產(chǎn)品的對比同樣驚人。

報告估算在DeepSeek-R1的典型工作負(fù)載下，GB200 NVL72相比H200的性能提升約20倍。

而GB200 NVL72價格僅上漲1.67倍，換算下來每美元性能提升約12倍，單token成本降至H200的十二分之一。

MoE推理讓網(wǎng)絡(luò)成為推理成本的瓶頸，而機柜級的GB200 NVL72恰好解決了這個問題。價值的衡量標(biāo)準(zhǔn)正在從單純的算力轉(zhuǎn)向“每美元能產(chǎn)出多少智能”。

報告在結(jié)論中指出，AMD的競爭力并未被完全否定——在密集模型和容量驅(qū)動的場景下，MI325X和MI355X仍有用武之地。

AMD的機柜級解決方案Helios也在開發(fā)中，可能在未來12個月內(nèi)縮小差距。

但就當(dāng)前的前沿推理模型而言，從芯片到互聯(lián)到軟件的端到端平臺設(shè)計，已經(jīng)成為成本效益的決定性因素。

[1]https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.