国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)仍是王者!GB200貴一倍卻暴省15倍,AMD輸?shù)脧氐?/h1>
0
分享至

  

  新智元報(bào)道

  編輯:桃子

  【新智元導(dǎo)讀】AI推理游戲規(guī)則,正悄然改變。一份最新報(bào)告揭示了關(guān)鍵轉(zhuǎn)折:如今決定勝負(fù)的,不再是單純的芯片性能或GPU數(shù)量,而是 「每一美元能輸出多少智能」。

  AI推理,現(xiàn)已不只看算力硬指標(biāo)了!

  Signal65一份最新報(bào)告中,英偉達(dá)GB200 NVL72是AMD MI350X吞吐量28倍。

  而且,在高交互場(chǎng)景在,DeepSeek R1每Token成本還能低到15倍。

  

  GB200每小時(shí)單價(jià)大概是貴一倍左右,但這根本不重要。因?yàn)闄C(jī)柜級(jí)NVLink互聯(lián)+軟件調(diào)度能力,徹底改變了成本結(jié)構(gòu)。

  頂級(jí)投資人Ben Pouladian稱,「目前的關(guān)鍵不再是算力或GPU數(shù)量,而是每一美元能買到多少智能輸出」。

  

  如今,英偉達(dá)仍是王者。其他競(jìng)爭(zhēng)對(duì)手根本做不到這種交互水平,這就是護(hù)城河。

  

  最關(guān)鍵的是,這還沒有集成200億刀買入Groq的推理能力。

  這里,再mark下老黃至理名言——The more you buy, the more you save!

  

  AI推理重心:一美元輸出多少智能?

  這篇萬(wàn)字報(bào)告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背后的一些本質(zhì)現(xiàn)象。

  

  傳統(tǒng)的「稠密模型」架構(gòu)要求:在生成每個(gè)Token時(shí)都激活模型里的全部參數(shù)。

  這就意味著:模型越大,運(yùn)行越慢、成本越高,同時(shí)還會(huì)帶來相應(yīng)的內(nèi)存需求增長(zhǎng)等問題。

  

  MoE架構(gòu),正是為了釋放更高水平的智能而生——在每個(gè)Token上只激活最相關(guān)的「專家」。

  摟一眼Artificial Analysis排行榜即可發(fā)現(xiàn),全球TOP 10開源LLM,全部都是MoE推理模型。

  它們會(huì)在推理階段額外「加算力」來提高準(zhǔn)確性:

  LLM不會(huì)立刻吐出答案,而是先生成中間的推理Token,再輸出,相當(dāng)于先把請(qǐng)求和解法「想一遍」。

  

  前16名里有12個(gè)是MoE模型

  這些推理Token往往遠(yuǎn)多于最終回復(fù),而且可能完全不會(huì)展示出來。能否既快又便宜地生成Token,對(duì)推理部署來說就變得至關(guān)重要。

  那么,MoE方法的主要約束在哪里?

  一個(gè)核心限制在于「通信瓶頸」。

  當(dāng)不同專家分布在多塊GPU上時(shí),任何GPU之間通信的延遲,都會(huì)讓GPU空閑等待數(shù)據(jù)。

  

  OpenRouter一份近期報(bào)告,超50%的Token會(huì)被路由到推理模型上

  這些「空轉(zhuǎn)時(shí)間」(idle time)代表著被浪費(fèi)的、低效的算力,并且會(huì)直接體現(xiàn)在服務(wù)提供商的成本底線上。

  當(dāng)評(píng)估AI基礎(chǔ)設(shè)施的「經(jīng)濟(jì)性」時(shí),一般會(huì)聚焦在三個(gè)方面:

  性能(吞吐量與交互性)

  能效(在既定功耗預(yù)算下,可生成的Token數(shù))

  總體擁有成本(通常以Token/每百萬(wàn)的成本衡量)

  基于公開可用的基準(zhǔn)測(cè)試數(shù)據(jù),Signal65對(duì)不同LLM架構(gòu)下AI基礎(chǔ)設(shè)施方案進(jìn)行了對(duì)比分析。

  分析中,團(tuán)隊(duì)采用第三方基準(zhǔn)測(cè)試所提供的性能數(shù)據(jù),來估算相對(duì)的Token經(jīng)濟(jì)性。

  具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結(jié)果,用以對(duì)比它們?cè)诓煌P蛨?chǎng)景下的真實(shí)性能表現(xiàn)及相應(yīng)的TCO估算。

  

  結(jié)果顯示,在稠密架構(gòu)以及較小規(guī)模的MoE中,B200性能優(yōu)于AMD MI355X。

  當(dāng)模型擴(kuò)展到像DeepSeek-R1這樣需跨越單節(jié)點(diǎn)的前沿級(jí)規(guī)模時(shí),GB200 NVL72性能最高可達(dá)到MI355X的28倍。

  

  在高交互性的推理工作負(fù)載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

  盡管GB200 NVL72的單GPU小時(shí)價(jià)格幾乎是這些競(jìng)爭(zhēng)平臺(tái)的2倍,但其機(jī)架級(jí)能力——從NVLink高速互連,到覆蓋72塊GPU的軟件編排——共同推動(dòng)了這種顯著更優(yōu)的單位經(jīng)濟(jì)性。

  價(jià)值評(píng)估的重心,正在從單純的原始FLOPs,轉(zhuǎn)向「每一美元所獲得的總體智能」。

  這一結(jié)論非常明確:

  隨著MoE模型和推理工作負(fù)載帶來的復(fù)雜性與規(guī)模持續(xù)上升,行業(yè)已無(wú)法僅依賴芯片層面的性能提升。

  能夠在系統(tǒng)層面實(shí)現(xiàn)峰值性能的端到端平臺(tái)設(shè)計(jì),已經(jīng)成為實(shí)現(xiàn)低成本、高響應(yīng)AI服務(wù)的關(guān)鍵杠桿。

  「稠密模型」推理,英偉達(dá)領(lǐng)先

  Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準(zhǔn),結(jié)果如下所示:

  帕累托曲線清晰顯示出,HGX B200-TRT方案在整個(gè)吞吐量與交互性區(qū)間內(nèi),都具備持續(xù)的性能優(yōu)勢(shì)。

  具體到基線交互性水平,B200的性能大約是MI355X的1.8倍,這為交互式應(yīng)用部署,以及更高的單GPU并發(fā)密度提供了顯著余量。

  

  再來看,當(dāng)交互性提升至110 tokens/sec/user時(shí),這一優(yōu)勢(shì)進(jìn)一步被放大:B200吞吐量超過MI355X的6倍。

  整體上,在Llama 3.3 70B測(cè)試中,AMD MI355X在單位成本性能方面確實(shí)具備一定吸引力。

  但這種優(yōu)勢(shì)并不能代表更現(xiàn)代的推理技術(shù)棧,尤其是以MoE架構(gòu)和高強(qiáng)度推理工作負(fù)載構(gòu)建的系統(tǒng)。

  

  

  MoE推理,英偉達(dá)領(lǐng)先

  那么,在MoE架構(gòu)上,英偉達(dá)和AMD表現(xiàn)又如何?

  中等規(guī)模推理:gpt-oss-120B

  Signal65認(rèn)為,OpenAI gpt-oss-120B是理解MoE部署特性的一個(gè)理想「橋梁案例」。

  它足夠大,可以把MoE的復(fù)雜性暴露出來;

  但規(guī)模又沒有大到離譜,仍然是很多團(tuán)隊(duì)能現(xiàn)實(shí)部署并調(diào)優(yōu)的范圍。

  它處在一個(gè)很有用的中間地帶:介于稠密的70B級(jí)模型,與市場(chǎng)正在快速轉(zhuǎn)向的、更前沿的推理型MoE架構(gòu)之間。

  

  在10月下旬?dāng)?shù)據(jù)里,當(dāng)目標(biāo)是100 tokens/sec/user時(shí),B200大約比MI355X快1.4倍;

  但當(dāng)目標(biāo)提高到250 tokens/sec/user時(shí),差距會(huì)擴(kuò)大到約3.5倍,說明越追求「更快的交互」,平臺(tái)差異越容易被放大。

  不過,12月上旬的數(shù)據(jù)則呈現(xiàn)出不同局面。

  得益于軟件優(yōu)化,兩邊平臺(tái)的絕對(duì)性能都明顯提升:英偉達(dá)單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。

  

  

  前沿推理:DeepSeek-R1

  在DeepSeek-R1推理上,測(cè)試結(jié)果正如開篇所介紹那樣,英偉達(dá)GB200 NVL72大幅領(lǐng)先。

  更多數(shù)據(jù)如下圖所示:

  

  基準(zhǔn)測(cè)試數(shù)據(jù)展示了一個(gè)被重塑的格局:

  GB200 NVL72讓「超過8塊GPU的張量并行配置」也能進(jìn)入帕累托前沿,達(dá)到單節(jié)點(diǎn)平臺(tái)根本無(wú)法匹敵的性能。

  在25 tokens/sec/user交互性目標(biāo)下,GB200 NVL72單GPU性能大約是H200的10倍,并且超過MI325X單GPU性能的16倍。

  這類性能差距,正是能為AI服務(wù)提供商帶來「斷崖式」TCO改善的那種差距。

  當(dāng)交互性目標(biāo)提高到60 tokens/sec/user時(shí),GB200 NVL72相比H200帶來了超24倍的代際提升,同時(shí)也接近MI355X的11.5倍性能。

  在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

  而到60 tokens/sec/user時(shí),這些優(yōu)勢(shì)進(jìn)一步擴(kuò)大:相對(duì)單節(jié)點(diǎn)B200達(dá)到5.3倍、相對(duì)MI355X達(dá)到11.5倍。

  

  

  GPU越貴,token成本越低

  英偉達(dá)從Hopper過渡到Blackwell,并推出GB200 NVL72時(shí),不僅提升了每GPU算力、內(nèi)存帶寬以及NVLink互連帶寬,還對(duì)底層系統(tǒng)架構(gòu)做了重新設(shè)計(jì)。

  從8-GPU風(fēng)冷HGX服務(wù)器轉(zhuǎn)向全液冷的機(jī)架級(jí)系統(tǒng),并把72塊GPU連接在同一個(gè)域內(nèi),系統(tǒng)成本和復(fù)雜度顯然都上升了。

  

  據(jù)CoreWeave公布的目錄價(jià),按單GPU口徑,GB200 NVL72價(jià)格大約比H200貴1.7倍。

  不過,每一代新技術(shù)的目標(biāo)之一,就是壓低「每Token成本」。

  對(duì)推理而言,具體就是:實(shí)際交付的Token吞吐提升幅度,要超過底層基礎(chǔ)設(shè)施成本的提升幅度。

  而從公開的性能數(shù)據(jù)來看,這正是GB200 NVL72相比Hopper所呈現(xiàn)出的結(jié)果。

  Signal65把本次的tokenomics(Token經(jīng)濟(jì)學(xué))分析,錨定在前文建立的DeepSeek-R1性能差距上:

  在25 tokens/sec/user時(shí),GB200 NVL72單GPU性能大約是H200的10倍;

  在更高的交互點(diǎn)位上,這個(gè)差距會(huì)更大(24倍)。

  下表總結(jié)了成本歸一化,以及由此得到的「每美元性能」計(jì)算:

  這些結(jié)果一開始可能有點(diǎn)反直覺:更「貴」的GPU反而更省錢——因?yàn)樗鼛淼男阅芴嵘h(yuǎn)大于價(jià)格差異,使得它能以更低成本生成Token。

  

  

  與AMD相比,英偉達(dá)系統(tǒng)在推理token成本上的一些數(shù)據(jù)對(duì)比:

  

  按單GPU口徑,MI355X價(jià)格大約只有GB200 NVL72配置的一半;

  但由于GB200 NVL72單GPU性能優(yōu)勢(shì)從低端接近6倍,到高交互性時(shí)高達(dá)28倍不等,英偉達(dá)仍然能提供最高15倍的每美元性能優(yōu)勢(shì)。

  換句話說,英偉達(dá)能實(shí)現(xiàn)相對(duì)每Token成本僅為競(jìng)爭(zhēng)對(duì)手的1/15。

  結(jié)論

  前沿AI模型的未來,會(huì)是更大、更復(fù)雜的MoE。

  隨著模型更深地走向MoE與推理架構(gòu),最終效果將不再只取決于原始GPU性能或內(nèi)存容量。

  平臺(tái)級(jí)設(shè)計(jì)會(huì)成為決定性因素——包括互連與通信效率、多節(jié)點(diǎn)擴(kuò)展特性、軟件棧成熟度、生態(tài)支持與編排能力,以及在并發(fā)與混合負(fù)載下維持高利用率的能力。

  從當(dāng)前趨勢(shì)看,來自O(shè)penAI、Meta、Anthropic等前沿公司的旗艦?zāi)P停芸赡軙?huì)繼續(xù)沿著MoE與推理方向演進(jìn)。

  如果這一軌跡成立,英偉達(dá)將維持關(guān)鍵的性能與經(jīng)濟(jì)性優(yōu)勢(shì)。

  谷歌TPU這類架構(gòu)也提供機(jī)架級(jí)方案,但它們對(duì)非自家模型的適用性與性能表現(xiàn)仍不明確。

  本文記錄的性能差異,能夠直接轉(zhuǎn)化為可量化的商業(yè)結(jié)果:

  在既定交互性閾值下,每部署一塊GPU能服務(wù)更多用戶,就能降低每個(gè)「有用Token」的生成成本,提高每機(jī)架的收入潛力(通過規(guī)?;桓陡邇r(jià)值的體驗(yàn)),最終AI企業(yè)和部署AI的企業(yè)獲得更好的TCO。

  一個(gè)具體例子足以說明量級(jí):當(dāng)一個(gè)平臺(tái)在某個(gè)交互性目標(biāo)下,能提供28倍的單GPU吞吐提升時(shí),它可以在不需要線性擴(kuò)大硬件規(guī)模的情況下,解鎖新的產(chǎn)品檔位以及更復(fù)雜的功能。

  這就是AI推理「經(jīng)濟(jì)學(xué)」,而它會(huì)更偏向那些從底層就為MoE與推理時(shí)代而設(shè)計(jì)的平臺(tái)。

  參考資料:

  https://x.com/kimmonismus/status/2005753458188771768

  https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
和珅入獄到死只有5天,臨終與嘉慶談話,說出了誰(shuí)才是大清第一貪

和珅入獄到死只有5天,臨終與嘉慶談話,說出了誰(shuí)才是大清第一貪

銘記歷史呀
2026-01-10 13:13:54
林永健也沒想到,自己辛苦養(yǎng)大的兒子,竟然給宋丹丹做了“嫁衣”

林永健也沒想到,自己辛苦養(yǎng)大的兒子,竟然給宋丹丹做了“嫁衣”

翰林濤濤
2026-01-09 14:02:58
喜報(bào)丨開年第一個(gè)月,事業(yè)就立即發(fā)力的星座TOP5!

喜報(bào)丨開年第一個(gè)月,事業(yè)就立即發(fā)力的星座TOP5!

Pandora占星小巫
2026-01-09 15:44:14
又一個(gè)巨頭崛起!年入8715億,超越華為,成第三民營(yíng)企業(yè)!

又一個(gè)巨頭崛起!年入8715億,超越華為,成第三民營(yíng)企業(yè)!

牛牛叨史
2025-12-23 23:07:38
中美軍事實(shí)力深度對(duì)比:妄自菲薄,是我們所犯的最大錯(cuò)誤!

中美軍事實(shí)力深度對(duì)比:妄自菲薄,是我們所犯的最大錯(cuò)誤!

老范談史
2025-12-21 19:43:17
尺寸超越勞斯萊斯庫(kù)里南!全新ES9申報(bào):蔚來迄今最大新車

尺寸超越勞斯萊斯庫(kù)里南!全新ES9申報(bào):蔚來迄今最大新車

快科技
2026-01-08 23:34:07
法律回旋鏢精準(zhǔn)命中,馬杜羅喊冤聲中,海牙給特朗普定了個(gè)大罪

法律回旋鏢精準(zhǔn)命中,馬杜羅喊冤聲中,海牙給特朗普定了個(gè)大罪

劍哥的思政課
2026-01-09 13:02:52
山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫(yī)生怒斥:太無(wú)知了

山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫(yī)生怒斥:太無(wú)知了

今日養(yǎng)生之道
2026-01-10 00:22:54
上海主場(chǎng)大戰(zhàn)山西懸念重重!超級(jí)外援首戰(zhàn)舊主,盧偉目標(biāo)九連勝

上海主場(chǎng)大戰(zhàn)山西懸念重重!超級(jí)外援首戰(zhàn)舊主,盧偉目標(biāo)九連勝

老葉評(píng)球
2026-01-10 10:32:27
編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

字母榜
2026-01-10 08:15:21
國(guó)家及時(shí)出手了!

國(guó)家及時(shí)出手了!

牛彈琴
2026-01-10 06:17:58
體育圈又曝大瓜!13歲體操少女遭教練打罵索財(cái),跳樓致重傷

體育圈又曝大瓜!13歲體操少女遭教練打罵索財(cái),跳樓致重傷

全景體育V
2026-01-10 06:20:32
華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

南風(fēng)不及你溫柔
2026-01-08 23:52:47
杭州直達(dá)特快列車將永久停運(yùn),最后一班即將發(fā)車

杭州直達(dá)特快列車將永久停運(yùn),最后一班即將發(fā)車

趣味萌寵的日常
2026-01-10 06:16:51
賭詐頭目陳志被押解回國(guó)!哥哥是同謀,他的妻子、父母也應(yīng)被追責(zé)

賭詐頭目陳志被押解回國(guó)!哥哥是同謀,他的妻子、父母也應(yīng)被追責(zé)

王二哥老搞笑
2026-01-09 11:43:14
曾凡博表現(xiàn)拉胯+許利民犯傻,北京豪華戰(zhàn)艦被山東擊沉,奪冠難了

曾凡博表現(xiàn)拉胯+許利民犯傻,北京豪華戰(zhàn)艦被山東擊沉,奪冠難了

舟望停云
2026-01-10 15:31:33
倒反天罡!大布逼父母向妻子道歉,貝嫂也不慣著:沒什么好抱歉的

倒反天罡!大布逼父母向妻子道歉,貝嫂也不慣著:沒什么好抱歉的

妙知
2026-01-09 19:28:29
1月10日,多家上市公司發(fā)布重大利好利空消息

1月10日,多家上市公司發(fā)布重大利好利空消息

A股數(shù)據(jù)表
2026-01-10 06:25:03
“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

卷史
2025-09-15 11:50:59
洗碗機(jī)大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會(huì)崩潰

洗碗機(jī)大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會(huì)崩潰

八斗小先生
2026-01-10 15:30:07
2026-01-10 16:48:49

新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14299文章數(shù) 66451關(guān)注度
往期回顧 全部

數(shù)碼要聞

電視廠商在CES殺瘋了!海信TCL長(zhǎng)虹追覓吸睛,碾壓日韓廠商?

頭條要聞

閆學(xué)晶"哭窮"后多賬號(hào)被禁止關(guān)注 其代言品牌:將索賠

頭條要聞

閆學(xué)晶"哭窮"后多賬號(hào)被禁止關(guān)注 其代言品牌:將索賠

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

汽車要聞

寶馬25年全球銷量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

教育
游戲
房產(chǎn)
時(shí)尚
軍事航空

教育要聞

三年級(jí)培優(yōu),和差問題,一圖看懂

主播抨擊《ARC Raiders》作弊猖獗 開發(fā)商正在應(yīng)對(duì)

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

專欄 |?做“主語(yǔ)”的體驗(yàn)

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版