国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeek這小子最精了,當(dāng)全世界都在盯著他的GitHub倉庫,等待V4時(shí)——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個(gè)全新的針對(duì)智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話題相關(guān)。

DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸,通過優(yōu)化從外部存儲(chǔ)加載KV-Cache的速度,確保計(jì)算資源不被存儲(chǔ)讀取拖累。

它改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲(chǔ)至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲(chǔ)網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計(jì)算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath實(shí)現(xiàn)了集群存儲(chǔ)帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在660B規(guī)模的生產(chǎn)級(jí)模型的實(shí)測中,DualPath表現(xiàn)驚人:

離線推理吞吐量提高了1.87倍,在線服務(wù)吞吐量平均提升1.96倍



在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來,我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說,DualPath是一個(gè)專門為智能體系統(tǒng)設(shè)計(jì)的推理框架,它的核心洞見是——

KV-Cache的加載不必以預(yù)填充為中心

在以往的理解中,誰負(fù)責(zé)計(jì)算誰就去搬數(shù)據(jù)。但DualPath認(rèn)為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過在兩條路徑間動(dòng)態(tài)選擇,DualPath重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費(fèi)這么大勁去“繞路”?

之所以這樣做,是因?yàn)樵诋?dāng)前的智能體應(yīng)用中,對(duì)話輪數(shù)多且上下文長,KV-Cache命中率通常高達(dá)95%以上。

這意味著,每一輪對(duì)話都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上



在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲(chǔ)網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時(shí),解碼引擎(DE)的存儲(chǔ)網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯(cuò)配。



更進(jìn)一步的,當(dāng)前GPU算力的增長遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長,也加劇了I/O限制。

正如英偉達(dá)首席科學(xué)家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復(fù)強(qiáng)調(diào)的:計(jì)算是免費(fèi)的,但數(shù)據(jù)移動(dòng)是昂貴的。

針對(duì)這些問題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲(chǔ)→PE,緩存直接讀入預(yù)填充引擎。
  • 路徑 B(新增):存儲(chǔ)→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個(gè)引擎管理一塊GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。
  • 流量管理器: 負(fù)責(zé)H2D/D2H拷貝、引擎間傳輸以及SNIC存儲(chǔ)讀寫。
  • 中央調(diào)度器: 擔(dān)任“大腦”角色,實(shí)時(shí)決策每一條請求該走哪條路,從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲(chǔ)至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲(chǔ)至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲(chǔ)至解碼”路徑

該設(shè)計(jì)允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計(jì)算網(wǎng)絡(luò)(RDMA)無損傳輸給預(yù)填充引擎(PE)。

通過在兩條路徑間動(dòng)態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲(chǔ)網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個(gè)全局可調(diào)度的存儲(chǔ)I/O資源池。

具體來說,為了支持層級(jí)流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對(duì)不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲(chǔ)讀入PE緩沖區(qū)。在每層計(jì)算前,該層緩存?zhèn)鬏斨罰E HBM,與計(jì)算過程重疊執(zhí)行。計(jì)算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進(jìn)入DE緩沖區(qū)。在PE預(yù)填充期間,對(duì)應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至PE HBM(計(jì)算重疊)。計(jì)算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動(dòng)解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個(gè)Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會(huì)帶來新問題:比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信,怎么辦?

對(duì)此,DualPath給出了兩套優(yōu)化方案:

首先是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過配對(duì)的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡(luò)中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級(jí)”并預(yù)留99%帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確?;ゲ桓蓴_。

其次是自適應(yīng)請求調(diào)度器: 調(diào)度器會(huì)盯著每個(gè)節(jié)點(diǎn)的磁盤隊(duì)列長度和Token數(shù)。系統(tǒng)會(huì)優(yōu)先將任務(wù)分配給I/O壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn),從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段,DualPath在DeepSeek-V3、Qwen等模型上進(jìn)行了測試,場景覆蓋了離線Rollout和在線服務(wù)。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費(fèi)的I/O帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學(xué)的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)模化部署。



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負(fù)責(zé)大規(guī)模軟件系統(tǒng)在多硬件平臺(tái)上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學(xué),微軟亞研院等機(jī)構(gòu)實(shí)習(xí)。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
籃協(xié)快上訴!中國隊(duì)逆轉(zhuǎn)僅一夜:外國球迷圍攻裁判 FIBA必須調(diào)查

籃協(xié)快上訴!中國隊(duì)逆轉(zhuǎn)僅一夜:外國球迷圍攻裁判 FIBA必須調(diào)查

侃球熊弟
2026-02-27 09:22:35
2026兩會(huì)即將召開,官媒點(diǎn)名霍啟剛,釋放重要信號(hào),郭晶晶安心了

2026兩會(huì)即將召開,官媒點(diǎn)名霍啟剛,釋放重要信號(hào),郭晶晶安心了

東方不敗然多多
2026-02-27 16:59:21
張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
網(wǎng)曝林孝埈已飛韓國大概率缺席世錦賽,短道巨星放棄自我救贖機(jī)會(huì)

網(wǎng)曝林孝埈已飛韓國大概率缺席世錦賽,短道巨星放棄自我救贖機(jī)會(huì)

楊華評(píng)論
2026-02-26 23:39:59
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

阿訊說天下
2026-02-21 12:35:11
方季紅履新,任江蘇一大學(xué)黨委副書記、校長

方季紅履新,任江蘇一大學(xué)黨委副書記、校長

極目新聞
2026-02-27 09:57:24
普京時(shí)代即將落幕?俄羅斯總統(tǒng)候選人浮出水面,誰會(huì)是接班人?

普京時(shí)代即將落幕?俄羅斯總統(tǒng)候選人浮出水面,誰會(huì)是接班人?

老范談史
2026-02-26 23:29:00
沒想到!一場9比2 一下又燃起申花球迷奪冠期待!

沒想到!一場9比2 一下又燃起申花球迷奪冠期待!

80后體育大蜀黍
2026-02-27 21:34:54
蒙古國的人,為啥如此仇視中國人?

蒙古國的人,為啥如此仇視中國人?

賤議你讀史
2026-02-27 15:12:56
退守臺(tái)灣之后,六十萬殘部想要成家生子,蔣介石下令:未滿38歲一律不許成婚

退守臺(tái)灣之后,六十萬殘部想要成家生子,蔣介石下令:未滿38歲一律不許成婚

史海孤雁
2026-02-27 21:04:06
香波特:騎士本能三連冠!如果歐文、樂福不傷!杜蘭特不去勇士!

香波特:騎士本能三連冠!如果歐文、樂福不傷!杜蘭特不去勇士!

氧氣是個(gè)地鐵
2026-02-27 21:56:18
000638,突發(fā)“天地板”!

000638,突發(fā)“天地板”!

中國基金報(bào)
2026-02-27 14:48:50
國際原油價(jià)格漲幅擴(kuò)大

國際原油價(jià)格漲幅擴(kuò)大

界面新聞
2026-02-27 21:34:15
“這場景太讓人膈應(yīng)了”,浙江溫嶺一牛排自助餐廳內(nèi),顧客用吃飯的筷子喂寵物狗; 市監(jiān)所:正調(diào)查

“這場景太讓人膈應(yīng)了”,浙江溫嶺一牛排自助餐廳內(nèi),顧客用吃飯的筷子喂寵物狗; 市監(jiān)所:正調(diào)查

大風(fēng)新聞
2026-02-27 17:28:04
全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

文史旺旺旺
2025-12-27 18:22:03
昔日申花主力門將如今處境不佳,當(dāng)打之年卻淪落中乙,引發(fā)熱議

昔日申花主力門將如今處境不佳,當(dāng)打之年卻淪落中乙,引發(fā)熱議

懂個(gè)球
2026-02-27 17:09:33
網(wǎng)易丁磊,完成驚險(xiǎn)一躍

網(wǎng)易丁磊,完成驚險(xiǎn)一躍

投資人說
2026-02-27 10:22:08
Shams:李凱爾與灰熊達(dá)成買斷,將在澄清期后加盟森林狼

Shams:李凱爾與灰熊達(dá)成買斷,將在澄清期后加盟森林狼

懂球帝
2026-02-27 08:00:10
倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

白面書誏
2025-11-22 17:18:59
美國剛繳納少量拖欠會(huì)費(fèi),特朗普妻子將“史無前例”主持聯(lián)合國安理會(huì)會(huì)議

美國剛繳納少量拖欠會(huì)費(fèi),特朗普妻子將“史無前例”主持聯(lián)合國安理會(huì)會(huì)議

紅星新聞
2026-02-27 12:55:17
2026-02-27 22:19:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12209文章數(shù) 176397關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

殯儀館工作人員紅衣、黃發(fā)主持老人告別儀式 館方致歉

頭條要聞

殯儀館工作人員紅衣、黃發(fā)主持老人告別儀式 館方致歉

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
房產(chǎn)
數(shù)碼

冬季穿搭要避開臃腫感!配色不老氣、穿衣不隨意,越看越高級(jí)

本地新聞

津南好·四時(shí)總相宜

手機(jī)要聞

摩托羅拉新機(jī)曝光,后蓋有世界杯標(biāo)志

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

數(shù)碼要聞

JBL新配色音箱,防水還能組立體聲

無障礙瀏覽 進(jìn)入關(guān)懷版