国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)仍是王者!GB200貴一倍卻暴省15倍,AMD輸?shù)脧氐?/h1>
0
分享至

  

  新智元報(bào)道

  編輯:桃子

  【新智元導(dǎo)讀】AI推理游戲規(guī)則,正悄然改變。一份最新報(bào)告揭示了關(guān)鍵轉(zhuǎn)折:如今決定勝負(fù)的,不再是單純的芯片性能或GPU數(shù)量,而是 「每一美元能輸出多少智能」。

  AI推理,現(xiàn)已不只看算力硬指標(biāo)了!

  Signal65一份最新報(bào)告中,英偉達(dá)GB200 NVL72是AMD MI350X吞吐量28倍。

  而且,在高交互場(chǎng)景在,DeepSeek R1每Token成本還能低到15倍。

  

  GB200每小時(shí)單價(jià)大概是貴一倍左右,但這根本不重要。因?yàn)闄C(jī)柜級(jí)NVLink互聯(lián)+軟件調(diào)度能力,徹底改變了成本結(jié)構(gòu)。

  頂級(jí)投資人Ben Pouladian稱,「目前的關(guān)鍵不再是算力或GPU數(shù)量,而是每一美元能買到多少智能輸出」。

  

  如今,英偉達(dá)仍是王者。其他競(jìng)爭(zhēng)對(duì)手根本做不到這種交互水平,這就是護(hù)城河。

  

  最關(guān)鍵的是,這還沒有集成200億刀買入Groq的推理能力。

  這里,再mark下老黃至理名言——The more you buy, the more you save!

  

  AI推理重心:一美元輸出多少智能?

  這篇萬(wàn)字報(bào)告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背后的一些本質(zhì)現(xiàn)象。

  

  傳統(tǒng)的「稠密模型」架構(gòu)要求:在生成每個(gè)Token時(shí)都激活模型里的全部參數(shù)。

  這就意味著:模型越大,運(yùn)行越慢、成本越高,同時(shí)還會(huì)帶來(lái)相應(yīng)的內(nèi)存需求增長(zhǎng)等問題。

  

  MoE架構(gòu),正是為了釋放更高水平的智能而生——在每個(gè)Token上只激活最相關(guān)的「專家」。

  摟一眼Artificial Analysis排行榜即可發(fā)現(xiàn),全球TOP 10開源LLM,全部都是MoE推理模型。

  它們會(huì)在推理階段額外「加算力」來(lái)提高準(zhǔn)確性:

  LLM不會(huì)立刻吐出答案,而是先生成中間的推理Token,再輸出,相當(dāng)于先把請(qǐng)求和解法「想一遍」。

  

  前16名里有12個(gè)是MoE模型

  這些推理Token往往遠(yuǎn)多于最終回復(fù),而且可能完全不會(huì)展示出來(lái)。能否既快又便宜地生成Token,對(duì)推理部署來(lái)說就變得至關(guān)重要。

  那么,MoE方法的主要約束在哪里?

  一個(gè)核心限制在于「通信瓶頸」。

  當(dāng)不同專家分布在多塊GPU上時(shí),任何GPU之間通信的延遲,都會(huì)讓GPU空閑等待數(shù)據(jù)。

  

  OpenRouter一份近期報(bào)告,超50%的Token會(huì)被路由到推理模型上

  這些「空轉(zhuǎn)時(shí)間」(idle time)代表著被浪費(fèi)的、低效的算力,并且會(huì)直接體現(xiàn)在服務(wù)提供商的成本底線上。

  當(dāng)評(píng)估AI基礎(chǔ)設(shè)施的「經(jīng)濟(jì)性」時(shí),一般會(huì)聚焦在三個(gè)方面:

  性能(吞吐量與交互性)

  能效(在既定功耗預(yù)算下,可生成的Token數(shù))

  總體擁有成本(通常以Token/每百萬(wàn)的成本衡量)

  基于公開可用的基準(zhǔn)測(cè)試數(shù)據(jù),Signal65對(duì)不同LLM架構(gòu)下AI基礎(chǔ)設(shè)施方案進(jìn)行了對(duì)比分析。

  分析中,團(tuán)隊(duì)采用第三方基準(zhǔn)測(cè)試所提供的性能數(shù)據(jù),來(lái)估算相對(duì)的Token經(jīng)濟(jì)性。

  具體來(lái)說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結(jié)果,用以對(duì)比它們?cè)诓煌P蛨?chǎng)景下的真實(shí)性能表現(xiàn)及相應(yīng)的TCO估算。

  

  結(jié)果顯示,在稠密架構(gòu)以及較小規(guī)模的MoE中,B200性能優(yōu)于AMD MI355X。

  當(dāng)模型擴(kuò)展到像DeepSeek-R1這樣需跨越單節(jié)點(diǎn)的前沿級(jí)規(guī)模時(shí),GB200 NVL72性能最高可達(dá)到MI355X的28倍。

  

  在高交互性的推理工作負(fù)載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

  盡管GB200 NVL72的單GPU小時(shí)價(jià)格幾乎是這些競(jìng)爭(zhēng)平臺(tái)的2倍,但其機(jī)架級(jí)能力——從NVLink高速互連,到覆蓋72塊GPU的軟件編排——共同推動(dòng)了這種顯著更優(yōu)的單位經(jīng)濟(jì)性。

  價(jià)值評(píng)估的重心,正在從單純的原始FLOPs,轉(zhuǎn)向「每一美元所獲得的總體智能」。

  這一結(jié)論非常明確:

  隨著MoE模型和推理工作負(fù)載帶來(lái)的復(fù)雜性與規(guī)模持續(xù)上升,行業(yè)已無(wú)法僅依賴芯片層面的性能提升。

  能夠在系統(tǒng)層面實(shí)現(xiàn)峰值性能的端到端平臺(tái)設(shè)計(jì),已經(jīng)成為實(shí)現(xiàn)低成本、高響應(yīng)AI服務(wù)的關(guān)鍵杠桿。

  「稠密模型」推理,英偉達(dá)領(lǐng)先

  Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準(zhǔn),結(jié)果如下所示:

  帕累托曲線清晰顯示出,HGX B200-TRT方案在整個(gè)吞吐量與交互性區(qū)間內(nèi),都具備持續(xù)的性能優(yōu)勢(shì)。

  具體到基線交互性水平,B200的性能大約是MI355X的1.8倍,這為交互式應(yīng)用部署,以及更高的單GPU并發(fā)密度提供了顯著余量。

  

  再來(lái)看,當(dāng)交互性提升至110 tokens/sec/user時(shí),這一優(yōu)勢(shì)進(jìn)一步被放大:B200吞吐量超過MI355X的6倍。

  整體上,在Llama 3.3 70B測(cè)試中,AMD MI355X在單位成本性能方面確實(shí)具備一定吸引力。

  但這種優(yōu)勢(shì)并不能代表更現(xiàn)代的推理技術(shù)棧,尤其是以MoE架構(gòu)和高強(qiáng)度推理工作負(fù)載構(gòu)建的系統(tǒng)。

  

  

  MoE推理,英偉達(dá)領(lǐng)先

  那么,在MoE架構(gòu)上,英偉達(dá)和AMD表現(xiàn)又如何?

  中等規(guī)模推理:gpt-oss-120B

  Signal65認(rèn)為,OpenAI gpt-oss-120B是理解MoE部署特性的一個(gè)理想「橋梁案例」。

  它足夠大,可以把MoE的復(fù)雜性暴露出來(lái);

  但規(guī)模又沒有大到離譜,仍然是很多團(tuán)隊(duì)能現(xiàn)實(shí)部署并調(diào)優(yōu)的范圍。

  它處在一個(gè)很有用的中間地帶:介于稠密的70B級(jí)模型,與市場(chǎng)正在快速轉(zhuǎn)向的、更前沿的推理型MoE架構(gòu)之間。

  

  在10月下旬?dāng)?shù)據(jù)里,當(dāng)目標(biāo)是100 tokens/sec/user時(shí),B200大約比MI355X快1.4倍;

  但當(dāng)目標(biāo)提高到250 tokens/sec/user時(shí),差距會(huì)擴(kuò)大到約3.5倍,說明越追求「更快的交互」,平臺(tái)差異越容易被放大。

  不過,12月上旬的數(shù)據(jù)則呈現(xiàn)出不同局面。

  得益于軟件優(yōu)化,兩邊平臺(tái)的絕對(duì)性能都明顯提升:英偉達(dá)單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。

  

  

  前沿推理:DeepSeek-R1

  在DeepSeek-R1推理上,測(cè)試結(jié)果正如開篇所介紹那樣,英偉達(dá)GB200 NVL72大幅領(lǐng)先。

  更多數(shù)據(jù)如下圖所示:

  

  基準(zhǔn)測(cè)試數(shù)據(jù)展示了一個(gè)被重塑的格局:

  GB200 NVL72讓「超過8塊GPU的張量并行配置」也能進(jìn)入帕累托前沿,達(dá)到單節(jié)點(diǎn)平臺(tái)根本無(wú)法匹敵的性能。

  在25 tokens/sec/user交互性目標(biāo)下,GB200 NVL72單GPU性能大約是H200的10倍,并且超過MI325X單GPU性能的16倍。

  這類性能差距,正是能為AI服務(wù)提供商帶來(lái)「斷崖式」TCO改善的那種差距。

  當(dāng)交互性目標(biāo)提高到60 tokens/sec/user時(shí),GB200 NVL72相比H200帶來(lái)了超24倍的代際提升,同時(shí)也接近MI355X的11.5倍性能。

  在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

  而到60 tokens/sec/user時(shí),這些優(yōu)勢(shì)進(jìn)一步擴(kuò)大:相對(duì)單節(jié)點(diǎn)B200達(dá)到5.3倍、相對(duì)MI355X達(dá)到11.5倍。

  

  

  GPU越貴,token成本越低

  英偉達(dá)從Hopper過渡到Blackwell,并推出GB200 NVL72時(shí),不僅提升了每GPU算力、內(nèi)存帶寬以及NVLink互連帶寬,還對(duì)底層系統(tǒng)架構(gòu)做了重新設(shè)計(jì)。

  從8-GPU風(fēng)冷HGX服務(wù)器轉(zhuǎn)向全液冷的機(jī)架級(jí)系統(tǒng),并把72塊GPU連接在同一個(gè)域內(nèi),系統(tǒng)成本和復(fù)雜度顯然都上升了。

  

  據(jù)CoreWeave公布的目錄價(jià),按單GPU口徑,GB200 NVL72價(jià)格大約比H200貴1.7倍。

  不過,每一代新技術(shù)的目標(biāo)之一,就是壓低「每Token成本」。

  對(duì)推理而言,具體就是:實(shí)際交付的Token吞吐提升幅度,要超過底層基礎(chǔ)設(shè)施成本的提升幅度。

  而從公開的性能數(shù)據(jù)來(lái)看,這正是GB200 NVL72相比Hopper所呈現(xiàn)出的結(jié)果。

  Signal65把本次的tokenomics(Token經(jīng)濟(jì)學(xué))分析,錨定在前文建立的DeepSeek-R1性能差距上:

  在25 tokens/sec/user時(shí),GB200 NVL72單GPU性能大約是H200的10倍;

  在更高的交互點(diǎn)位上,這個(gè)差距會(huì)更大(24倍)。

  下表總結(jié)了成本歸一化,以及由此得到的「每美元性能」計(jì)算:

  這些結(jié)果一開始可能有點(diǎn)反直覺:更「貴」的GPU反而更省錢——因?yàn)樗鼛?lái)的性能提升遠(yuǎn)大于價(jià)格差異,使得它能以更低成本生成Token。

  

  

  與AMD相比,英偉達(dá)系統(tǒng)在推理token成本上的一些數(shù)據(jù)對(duì)比:

  

  按單GPU口徑,MI355X價(jià)格大約只有GB200 NVL72配置的一半;

  但由于GB200 NVL72單GPU性能優(yōu)勢(shì)從低端接近6倍,到高交互性時(shí)高達(dá)28倍不等,英偉達(dá)仍然能提供最高15倍的每美元性能優(yōu)勢(shì)。

  換句話說,英偉達(dá)能實(shí)現(xiàn)相對(duì)每Token成本僅為競(jìng)爭(zhēng)對(duì)手的1/15。

  結(jié)論

  前沿AI模型的未來(lái),會(huì)是更大、更復(fù)雜的MoE。

  隨著模型更深地走向MoE與推理架構(gòu),最終效果將不再只取決于原始GPU性能或內(nèi)存容量。

  平臺(tái)級(jí)設(shè)計(jì)會(huì)成為決定性因素——包括互連與通信效率、多節(jié)點(diǎn)擴(kuò)展特性、軟件棧成熟度、生態(tài)支持與編排能力,以及在并發(fā)與混合負(fù)載下維持高利用率的能力。

  從當(dāng)前趨勢(shì)看,來(lái)自O(shè)penAI、Meta、Anthropic等前沿公司的旗艦?zāi)P?,很可能?huì)繼續(xù)沿著MoE與推理方向演進(jìn)。

  如果這一軌跡成立,英偉達(dá)將維持關(guān)鍵的性能與經(jīng)濟(jì)性優(yōu)勢(shì)。

  谷歌TPU這類架構(gòu)也提供機(jī)架級(jí)方案,但它們對(duì)非自家模型的適用性與性能表現(xiàn)仍不明確。

  本文記錄的性能差異,能夠直接轉(zhuǎn)化為可量化的商業(yè)結(jié)果:

  在既定交互性閾值下,每部署一塊GPU能服務(wù)更多用戶,就能降低每個(gè)「有用Token」的生成成本,提高每機(jī)架的收入潛力(通過規(guī)?;桓陡邇r(jià)值的體驗(yàn)),最終AI企業(yè)和部署AI的企業(yè)獲得更好的TCO。

  一個(gè)具體例子足以說明量級(jí):當(dāng)一個(gè)平臺(tái)在某個(gè)交互性目標(biāo)下,能提供28倍的單GPU吞吐提升時(shí),它可以在不需要線性擴(kuò)大硬件規(guī)模的情況下,解鎖新的產(chǎn)品檔位以及更復(fù)雜的功能。

  這就是AI推理「經(jīng)濟(jì)學(xué)」,而它會(huì)更偏向那些從底層就為MoE與推理時(shí)代而設(shè)計(jì)的平臺(tái)。

  參考資料:

  https://x.com/kimmonismus/status/2005753458188771768

  https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
省委書記接見戰(zhàn)斗英雄,突然拔槍指向?qū)Ψ剑耗闶莻€(gè)冒牌貨!

省委書記接見戰(zhàn)斗英雄,突然拔槍指向?qū)Ψ剑耗闶莻€(gè)冒牌貨!

春風(fēng)秋雨
2026-01-06 21:35:03
美媒爆料:華盛頓計(jì)劃7月4日前接管格陵蘭,歐洲徹底炸鍋

美媒爆料:華盛頓計(jì)劃7月4日前接管格陵蘭,歐洲徹底炸鍋

林子說事
2026-01-07 07:08:13
待業(yè)4個(gè)月 55歲滕哈格官宣復(fù)出 重返母隊(duì)任總監(jiān) 執(zhí)教曼聯(lián)2年奪2冠

待業(yè)4個(gè)月 55歲滕哈格官宣復(fù)出 重返母隊(duì)任總監(jiān) 執(zhí)教曼聯(lián)2年奪2冠

我愛英超
2026-01-07 06:27:32
倒計(jì)時(shí)9天!庫(kù)明加換隊(duì)已成定局 勇士想補(bǔ)強(qiáng)鋒線而非再引進(jìn)后衛(wèi)

倒計(jì)時(shí)9天!庫(kù)明加換隊(duì)已成定局 勇士想補(bǔ)強(qiáng)鋒線而非再引進(jìn)后衛(wèi)

羅說NBA
2026-01-07 06:56:09
朗尼克欽點(diǎn)!阿莫林繼任者浮出水面,竟是他的 “戰(zhàn)術(shù)門徒”

朗尼克欽點(diǎn)!阿莫林繼任者浮出水面,竟是他的 “戰(zhàn)術(shù)門徒”

奶蓋熊本熊
2026-01-07 03:38:59
中國(guó)為何大齡剩女泛濫成災(zāi),專家:三大原因,一個(gè)比一個(gè)現(xiàn)實(shí)

中國(guó)為何大齡剩女泛濫成災(zāi),專家:三大原因,一個(gè)比一個(gè)現(xiàn)實(shí)

一簌月光
2025-12-31 19:35:47
死神降臨!杜蘭特3分絕殺太陽(yáng),創(chuàng)59年紀(jì)錄!一戰(zhàn)徹底看清4個(gè)現(xiàn)實(shí)

死神降臨!杜蘭特3分絕殺太陽(yáng),創(chuàng)59年紀(jì)錄!一戰(zhàn)徹底看清4個(gè)現(xiàn)實(shí)

毒舌NBA
2026-01-06 11:47:13
江蘇未來(lái)三天早晨在冰點(diǎn)徘徊,9日短暫回暖

江蘇未來(lái)三天早晨在冰點(diǎn)徘徊,9日短暫回暖

揚(yáng)子晚報(bào)
2026-01-06 23:38:48
沈祥福、高洪波、楊晨當(dāng)選北京市足協(xié)副主席

沈祥福、高洪波、楊晨當(dāng)選北京市足協(xié)副主席

澎湃新聞
2026-01-07 04:22:04
“流氓作家”賈平凹語(yǔ)出驚人:跟睡過的女人比曖昧的女人更有感覺

“流氓作家”賈平凹語(yǔ)出驚人:跟睡過的女人比曖昧的女人更有感覺

百態(tài)人間
2026-01-04 16:18:53
年關(guān):重逢時(shí)間的褶皺

年關(guān):重逢時(shí)間的褶皺

疾跑的小蝸牛
2026-01-06 22:50:19
她的第一目標(biāo),根本不是王石

她的第一目標(biāo),根本不是王石

飛娛日記
2026-01-06 23:34:49
美國(guó)防部:至少7名美軍在委內(nèi)瑞拉行動(dòng)中受傷

美國(guó)防部:至少7名美軍在委內(nèi)瑞拉行動(dòng)中受傷

界面新聞
2026-01-07 07:18:10
抵達(dá)上海,姚明正式上任,新崗位曝光,俱樂部官宣,劉煒期待

抵達(dá)上海,姚明正式上任,新崗位曝光,俱樂部官宣,劉煒期待

樂聊球
2026-01-06 11:22:18
追夢(mèng)炮轟普爾:隊(duì)友打架你怎么能站在身后?你至少得去幫忙啊

追夢(mèng)炮轟普爾:隊(duì)友打架你怎么能站在身后?你至少得去幫忙啊

懂球帝
2026-01-06 13:00:17
中紀(jì)委通報(bào) “天網(wǎng)2025”行動(dòng)成果

中紀(jì)委通報(bào) “天網(wǎng)2025”行動(dòng)成果

看看新聞Knews
2026-01-06 21:37:04
馬筱梅好失落,坦言不要寄希望于他人,疑似孕期被汪小菲忽略

馬筱梅好失落,坦言不要寄希望于他人,疑似孕期被汪小菲忽略

心靜物娛
2026-01-06 10:53:56
馬杜羅還有救,聯(lián)合國(guó)召開大會(huì),6國(guó)出面救人,朝鮮下令發(fā)射導(dǎo)彈

馬杜羅還有救,聯(lián)合國(guó)召開大會(huì),6國(guó)出面救人,朝鮮下令發(fā)射導(dǎo)彈

軍機(jī)Talk
2026-01-06 10:23:09
2026春晚彩排曝光:岳云鵬現(xiàn)身,印證曹云金預(yù)測(cè)準(zhǔn)確無(wú)誤

2026春晚彩排曝光:岳云鵬現(xiàn)身,印證曹云金預(yù)測(cè)準(zhǔn)確無(wú)誤

探索新高度
2026-01-06 16:34:58
美記:開拓者可能選到最大水貨 總經(jīng)理若下課楊瀚森前景不容樂觀

美記:開拓者可能選到最大水貨 總經(jīng)理若下課楊瀚森前景不容樂觀

羅說NBA
2026-01-06 19:18:22
2026-01-07 08:24:49

新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14270文章數(shù) 66448關(guān)注度
往期回顧 全部

數(shù)碼要聞

運(yùn)動(dòng)相機(jī)不再小眾 銷量暴增2倍 大疆獨(dú)占半壁江山

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強(qiáng)喬治

娛樂要聞

2026年央視春晚彩排照曝光!

財(cái)經(jīng)要聞

50萬(wàn)億存款"洪流"將至 四大去向引關(guān)注

科技要聞

米粉終于贏了一次

汽車要聞

摩登出街潮品 實(shí)拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

親子
藝術(shù)
數(shù)碼
手機(jī)
時(shí)尚

親子要聞

流感季寶媽必看:網(wǎng)上說奧司他韋致幻覺純屬誤導(dǎo)

藝術(shù)要聞

行書正道:探討《圣教序》與《蘭亭序》的發(fā)展歷程

數(shù)碼要聞

2025年度數(shù)碼好物大賞【年度評(píng)選】

手機(jī)要聞

榮耀“既Pro又Air”新機(jī)設(shè)計(jì)線稿首曝

冬天,“大衣”是中年女人的穿搭剛需,這樣搭配時(shí)髦提氣質(zhì)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版