国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一年后,DeepSeek-R1的每token成本降到了原來的1/32

0
分享至

編輯 | 杜偉、澤南

幾天前,DeepSeek 毫無預(yù)兆地更新了 R1 論文,將原有的 22 頁增加到了現(xiàn)在的 86 頁。

新版本充實了更多細節(jié)內(nèi)容,包括首次公開訓(xùn)練全路徑,即從冷啟動、訓(xùn)練導(dǎo)向 RL、拒絕采樣與再微調(diào)到全場景對齊 RL 的四階段 pipeline,以及「Aha Moment」的數(shù)據(jù)化驗證等等。



DeepSeek-R1 是在 2025 年 1 月 20 日發(fā)布的開源推理大模型,它擁有 6710 億參數(shù)、單 Token 激活參數(shù)為 370 億,并采用了 MoE 架構(gòu),訓(xùn)練效率得到了顯著提升。

R1 在去年的推出震動了全球 AI 領(lǐng)域,其高效率的模型架構(gòu)、訓(xùn)練方法、工程優(yōu)化和蒸餾方法在之后成為了全行業(yè)的趨勢。

沒想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

今天,英偉達發(fā)表了一篇長文博客,展示了其如何在 Blackwell GPU 上通過軟硬協(xié)同對 DeepSeek-R1 進一步降本增效。



隨著 AI 模型智能程度的不斷提升,人們開始依托 AI 處理日益復(fù)雜的任務(wù)。從普通消費者到大型企業(yè),用戶與 AI 交互的頻率顯著增加,這也意味著需要生成的 Token 數(shù)量呈指數(shù)級增長。為了以最低成本提供這些 Token,AI 平臺必須實現(xiàn)極高的每瓦特 Token 吞吐量。

通過在 GPU、CPU、網(wǎng)絡(luò)、軟件、供電及散熱方案上的深度協(xié)同設(shè)計,英偉達持續(xù)提升每瓦特 Token 吞吐量,從而有效降低了每百萬 Token 的成本。此外,英偉達不斷優(yōu)化其軟件棧,從現(xiàn)有平臺中挖掘更強的性能潛力。

那么,英偉達是怎樣協(xié)同利用運行在 Blackwell 架構(gòu)上的推理軟件棧,以實現(xiàn) DeepSeek-R1 在多種應(yīng)用場景中的性能增益呢?我們接著往下看。

最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能

NVIDIA GB200 NVL72 是一個多節(jié)點液冷機架級擴展系統(tǒng),適用于高度密集型的工作負載。該系統(tǒng)通過第五代 NVIDIA NVLink 互連技術(shù)和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU,為機架內(nèi)的所有芯片提供高達 1800 GB/s 的雙向帶寬。

這種大規(guī)模的「擴展域」(Scale-up Domain)專為稀疏 MoE 架構(gòu)優(yōu)化,此類模型在生成 Token 時需要專家之間頻繁的數(shù)據(jù)交換。

Blackwell 架構(gòu)還加入了對 NVFP4 數(shù)據(jù)格式的硬件加速。這是英偉達設(shè)計的一種 4 位浮點格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服務(wù)(Disaggregated Serving)這類優(yōu)化技術(shù)也充分利用了 NVL72 架構(gòu)和 NVLink Switch 技術(shù)。簡單來解釋一下解耦服務(wù),即在一組 GPU 上執(zhí)行 Prefill(預(yù)填充)操作,在另一組 GPU 上執(zhí)行 Decode(解碼)操作。

這些架構(gòu)創(chuàng)新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時,能夠提供行業(yè)領(lǐng)先的性能。

得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協(xié)同,DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。



同樣地,得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協(xié)同,在 1K/1K 序列長度下,DeepSeek-R1 Token 吞吐量同樣大幅提升。



另外,在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上,GB200 NVL72 也展現(xiàn)出了領(lǐng)先的單 GPU 吞吐能力。

而 TensorRT-LLM 開源庫(用于優(yōu)化 LLM 推理)的最新增強功能,在同一平臺上再次大幅增強了性能。在過去三個月中,每個 Blackwell GPU 的吞吐量提升高達 2.8 倍(這里指的是在 8k/1k 輸入 / 輸出序列長度下,去年 10 月到今年 1 月的 Token 吞吐量變化)。

這些優(yōu)化背后的核心技術(shù)包括:

  • 擴大 NVIDIA 程序化依賴啟動 (PDL) 的應(yīng)用:降低核函數(shù)啟動延遲,有助于提升各種交互水平下的吞吐量;
  • 底層核函數(shù)優(yōu)化:更高效地利用 NVIDIA Blackwell Tensor Core;
  • 優(yōu)化的 All-to-all 通信原語:消除了接收端的額外中間緩沖區(qū)。

有業(yè)內(nèi)人士對英偉達放出的一系列圖表進行了直觀的解讀,用一組數(shù)據(jù)來總結(jié)就是,「通過軟硬件的深度協(xié)同,自 2025 年 1 月以來,英偉達已經(jīng)將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍,這意味著單 Token 的推理成本降低到了約 1/32?!?/p>





利用多 token 預(yù)測和 NVFP4 技術(shù)加速 NVIDIA HGX B200 性能

NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成,在風(fēng)冷環(huán)境下也能實現(xiàn)強大的 DeepSeek-R1 推理性能。

兩項關(guān)鍵技術(shù)使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術(shù)是使用多 token 預(yù)測 (MTP),它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現(xiàn)象。



在 HGX B200 平臺上,使用 1K/1K 序列長度和聚合服務(wù)模式下,F(xiàn)P8(不帶 MTP)、FP8(帶 MTP)和 NVFP4(帶 MTP)的吞吐量與交互性曲線對比。

第二種方法是使用 NVFP4,充分利用 Blackwell GPU 計算能力來提升性能,同時保持精度。



在 HGX B200 平臺上,使用 8K/1K 序列長度和聚合服務(wù)模式下,F(xiàn)P8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量與交互性曲線對比。

NVFP4 使用在完整的 NVIDIA 軟件棧上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優(yōu)化器),以確保高性能并保持精度。這使得在給定交互級別下能夠?qū)崿F(xiàn)更高的吞吐量,并且在相同的 HGX B200 平臺上,可以實現(xiàn)更高的交互級別。



在 HGX B200 平臺上,F(xiàn)P8(無 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量與交互性曲線,序列長度分別為 1K 和 8K,并采用聚合服務(wù)模式。

英偉達表示,其正在不斷提升整個技術(shù)堆棧的性能,可以幫助用戶基于現(xiàn)有硬件產(chǎn)品,持續(xù)提升大語言模型的工作負載效率,提升各種模型的 token 吞吐量。

博客地址:

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

等風(fēng)來育兒聯(lián)盟
2025-08-01 12:21:35
這條荒唐新聞,引起公憤了!

這條荒唐新聞,引起公憤了!

胖胖說他不胖
2026-01-11 10:00:11
董路:輸U16國足2-5、輸U23國足0-1,澳大利亞足球到頭了!

董路:輸U16國足2-5、輸U23國足0-1,澳大利亞足球到頭了!

綠茵舞著
2026-01-11 22:32:58
國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

勁爆體壇
2026-01-12 19:22:18
金球獎這一夜,國際女星個個風(fēng)情萬種,但都被一位中國女星艷壓了

金球獎這一夜,國際女星個個風(fēng)情萬種,但都被一位中國女星艷壓了

八卦南風(fēng)
2026-01-12 16:25:50
洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

八斗小先生
2026-01-10 15:30:07
3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢 巴薩擊敗皇馬衛(wèi)冕超級杯

3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢 巴薩擊敗皇馬衛(wèi)冕超級杯

阿超他的體育圈
2026-01-12 05:10:31
“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級過山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級過山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

魯中晨報
2026-01-12 18:49:10
周杰倫宣布以球員身份參加澳網(wǎng)

周杰倫宣布以球員身份參加澳網(wǎng)

現(xiàn)代快報
2026-01-12 16:26:09
哭窮炫富,“知三當三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

韓馳
2026-01-10 13:12:31
2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

小熊侃史
2026-01-12 07:35:07
周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

芊芊子吟
2026-01-06 13:50:03
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
又是明尼阿波利斯!美ICE執(zhí)法人員當街射殺女子事件仍在發(fā)酵,全美上千場抗議爆發(fā)

又是明尼阿波利斯!美ICE執(zhí)法人員當街射殺女子事件仍在發(fā)酵,全美上千場抗議爆發(fā)

新民周刊
2026-01-12 16:45:52
就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

股市皆大事
2026-01-12 08:26:49
中國出手了!石平之子錄取資格被取消,女兒在機場被攔,太解氣了

中國出手了!石平之子錄取資格被取消,女兒在機場被攔,太解氣了

小lu侃侃而談
2026-01-12 19:56:41
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
兩岸喜訊!大陸沒想到,沒等正式收臺,臺當局先送來2份“大禮”

兩岸喜訊!大陸沒想到,沒等正式收臺,臺當局先送來2份“大禮”

趣生活
2026-01-10 22:29:06
天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

全接觸狐狐
2026-01-12 09:34:14
2026-01-12 21:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12101文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

時尚
房產(chǎn)
親子
游戲
軍事航空

伊姐周日熱推:電視劇《御賜小仵作2》;電視劇《偶像瘋子》......

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

親子要聞

寶媽必學(xué),傷害孩子的壞人不分性別!

《暗黑4》DLC全新區(qū)域地圖泄露:奈非天的故鄉(xiāng)!

軍事要聞

官方確認:殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機

無障礙瀏覽 進入關(guān)懷版