国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeek這小子最精了,當(dāng)全世界都在盯著他的GitHub倉(cāng)庫(kù),等待V4時(shí)——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個(gè)全新的針對(duì)智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話題相關(guān)。

DualPath的核心在于解決Agent長(zhǎng)文本推理場(chǎng)景下的I/O瓶頸,通過優(yōu)化從外部存儲(chǔ)加載KV-Cache的速度,確保計(jì)算資源不被存儲(chǔ)讀取拖累。

它改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲(chǔ)至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲(chǔ)網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計(jì)算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath實(shí)現(xiàn)了集群存儲(chǔ)帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在660B規(guī)模的生產(chǎn)級(jí)模型的實(shí)測(cè)中,DualPath表現(xiàn)驚人:

離線推理吞吐量提高了1.87倍,在線服務(wù)吞吐量平均提升1.96倍



在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來(lái),我們一起來(lái)看。

雙路徑加載 (Dual-Path Loading)

總的來(lái)說,DualPath是一個(gè)專門為智能體系統(tǒng)設(shè)計(jì)的推理框架,它的核心洞見是——

KV-Cache的加載不必以預(yù)填充為中心

在以往的理解中,誰(shuí)負(fù)責(zé)計(jì)算誰(shuí)就去搬數(shù)據(jù)。但DualPath認(rèn)為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過在兩條路徑間動(dòng)態(tài)選擇,DualPath重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費(fèi)這么大勁去“繞路”?

之所以這樣做,是因?yàn)樵诋?dāng)前的智能體應(yīng)用中,對(duì)話輪數(shù)多且上下文長(zhǎng),KV-Cache命中率通常高達(dá)95%以上。

這意味著,每一輪對(duì)話都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上



在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲(chǔ)網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時(shí),解碼引擎(DE)的存儲(chǔ)網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯(cuò)配。



更進(jìn)一步的,當(dāng)前GPU算力的增長(zhǎng)遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長(zhǎng),也加劇了I/O限制。

正如英偉達(dá)首席科學(xué)家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復(fù)強(qiáng)調(diào)的:計(jì)算是免費(fèi)的,但數(shù)據(jù)移動(dòng)是昂貴的。

針對(duì)這些問題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲(chǔ)→PE,緩存直接讀入預(yù)填充引擎。
  • 路徑 B(新增):存儲(chǔ)→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個(gè)引擎管理一塊GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。
  • 流量管理器: 負(fù)責(zé)H2D/D2H拷貝、引擎間傳輸以及SNIC存儲(chǔ)讀寫。
  • 中央調(diào)度器: 擔(dān)任“大腦”角色,實(shí)時(shí)決策每一條請(qǐng)求該走哪條路,從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲(chǔ)至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲(chǔ)至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲(chǔ)至解碼”路徑

該設(shè)計(jì)允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計(jì)算網(wǎng)絡(luò)(RDMA)無(wú)損傳輸給預(yù)填充引擎(PE)。

通過在兩條路徑間動(dòng)態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲(chǔ)網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個(gè)全局可調(diào)度的存儲(chǔ)I/O資源池。

具體來(lái)說,為了支持層級(jí)流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對(duì)不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲(chǔ)讀入PE緩沖區(qū)。在每層計(jì)算前,該層緩存?zhèn)鬏斨罰E HBM,與計(jì)算過程重疊執(zhí)行。計(jì)算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進(jìn)入DE緩沖區(qū)。在PE預(yù)填充期間,對(duì)應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至PE HBM(計(jì)算重疊)。計(jì)算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動(dòng)解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個(gè)Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會(huì)帶來(lái)新問題:比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信,怎么辦?

對(duì)此,DualPath給出了兩套優(yōu)化方案:

首先是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過配對(duì)的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡(luò)中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級(jí)”并預(yù)留99%帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確?;ゲ桓蓴_。

其次是自適應(yīng)請(qǐng)求調(diào)度器: 調(diào)度器會(huì)盯著每個(gè)節(jié)點(diǎn)的磁盤隊(duì)列長(zhǎng)度和Token數(shù)。系統(tǒng)會(huì)優(yōu)先將任務(wù)分配給I/O壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn),從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段,DualPath在DeepSeek-V3、Qwen等模型上進(jìn)行了測(cè)試,場(chǎng)景覆蓋了離線Rollout和在線服務(wù)。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來(lái)說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費(fèi)的I/O帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學(xué)的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴稹?/p>



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負(fù)責(zé)大規(guī)模軟件系統(tǒng)在多硬件平臺(tái)上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學(xué),微軟亞研院等機(jī)構(gòu)實(shí)習(xí)。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
驟降10℃!中到大雪、局地暴雪!陜西大范圍雨雪來(lái)襲,最新預(yù)警發(fā)布

驟降10℃!中到大雪、局地暴雪!陜西大范圍雨雪來(lái)襲,最新預(yù)警發(fā)布

環(huán)球網(wǎng)資訊
2026-02-27 19:29:09
警惕!凡是微信里有錢的、綁銀行卡的,今后要多注意了

警惕!凡是微信里有錢的、綁銀行卡的,今后要多注意了

冷峻視角下的世界
2026-02-26 22:06:04
山東一工廠開工儀式,員工集體跪拜引爭(zhēng)議,公司:當(dāng)?shù)仫L(fēng)俗,員工自愿

山東一工廠開工儀式,員工集體跪拜引爭(zhēng)議,公司:當(dāng)?shù)仫L(fēng)俗,員工自愿

界面新聞
2026-02-27 19:44:03
樊振東也沒想到,德國(guó)總理訪華僅1天,自己竟因一段采訪口碑暴漲

樊振東也沒想到,德國(guó)總理訪華僅1天,自己竟因一段采訪口碑暴漲

寒士之言本尊
2026-02-27 13:21:48
中英簽下45億大單后,英國(guó)瞬間變臉,中企慘遭拉黑,外交部反擊

中英簽下45億大單后,英國(guó)瞬間變臉,中企慘遭拉黑,外交部反擊

緊跟時(shí)代脈搏
2026-02-28 00:26:47
特斯拉中國(guó):大量全新 Model 3/Y 現(xiàn)車上架

特斯拉中國(guó):大量全新 Model 3/Y 現(xiàn)車上架

新浪財(cái)經(jīng)
2026-02-27 22:31:13
頂尖歷史學(xué)家齊聚北京,說出殘酷真相,我們讀的歷史漏掉99%的人

頂尖歷史學(xué)家齊聚北京,說出殘酷真相,我們讀的歷史漏掉99%的人

墨印齋
2026-02-26 12:58:12
歐冠16強(qiáng)抽簽出爐附賽程:皇馬vs曼城!晉級(jí)懸念不大 8強(qiáng)基本如下

歐冠16強(qiáng)抽簽出爐附賽程:皇馬vs曼城!晉級(jí)懸念不大 8強(qiáng)基本如下

小火箭愛體育
2026-02-27 20:54:30
包鋼板材廠爆炸事故致10人死亡,應(yīng)急管理部披露詳情:事發(fā)前1個(gè)半小時(shí)蒸汽球罐嚴(yán)重泄漏,兩名監(jiān)督員竟強(qiáng)令繼續(xù)施工

包鋼板材廠爆炸事故致10人死亡,應(yīng)急管理部披露詳情:事發(fā)前1個(gè)半小時(shí)蒸汽球罐嚴(yán)重泄漏,兩名監(jiān)督員竟強(qiáng)令繼續(xù)施工

極目新聞
2026-02-27 16:50:24
撿紅包事件陷入僵局!車主不承認(rèn),金額難確認(rèn),失主做法惹爭(zhēng)議!

撿紅包事件陷入僵局!車主不承認(rèn),金額難確認(rèn),失主做法惹爭(zhēng)議!

離離言幾許
2026-02-27 14:24:43
出軌傳聞不知真假,反正是凈身出戶了,連唯一兒子都不愿同他來(lái)往

出軌傳聞不知真假,反正是凈身出戶了,連唯一兒子都不愿同他來(lái)往

夢(mèng)醉為紅顏一笑
2026-02-28 02:20:37
央視肖曉琳:退休5個(gè)月,在美國(guó)兒子家死去,臨終26字遺言太戳心

央視肖曉琳:退休5個(gè)月,在美國(guó)兒子家死去,臨終26字遺言太戳心

卷史
2026-02-28 04:06:45
中方還沒答應(yīng)特朗普,美高官先惱了:不信任中國(guó),訪華只為一件事

中方還沒答應(yīng)特朗普,美高官先惱了:不信任中國(guó),訪華只為一件事

不似少年游
2026-02-27 07:06:54
臺(tái)積電創(chuàng)辦人張忠謀:如果想扼殺中國(guó)大陸,中國(guó)大陸真的無(wú)能為力

臺(tái)積電創(chuàng)辦人張忠謀:如果想扼殺中國(guó)大陸,中國(guó)大陸真的無(wú)能為力

混沌錄
2026-02-27 21:29:05
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
道指、納指跌幅擴(kuò)大至1.4%

道指、納指跌幅擴(kuò)大至1.4%

財(cái)聯(lián)社
2026-02-27 22:45:07
米哈游確認(rèn)員工下班后猝死,律師分析如何認(rèn)定是否工傷

米哈游確認(rèn)員工下班后猝死,律師分析如何認(rèn)定是否工傷

南方都市報(bào)
2026-02-27 16:51:38
“這場(chǎng)景太讓人膈應(yīng)了”,浙江溫嶺一牛排自助餐廳內(nèi),顧客用吃飯的筷子喂寵物狗; 市監(jiān)所:正調(diào)查

“這場(chǎng)景太讓人膈應(yīng)了”,浙江溫嶺一牛排自助餐廳內(nèi),顧客用吃飯的筷子喂寵物狗; 市監(jiān)所:正調(diào)查

大風(fēng)新聞
2026-02-27 17:28:04
突發(fā)!李嘉誠(chéng)跑了,套現(xiàn)1107億,中間還拿500億分紅,16年賺麻了

突發(fā)!李嘉誠(chéng)跑了,套現(xiàn)1107億,中間還拿500億分紅,16年賺麻了

離離言幾許
2026-02-27 18:02:02
臺(tái)北禁令全面失效,國(guó)臺(tái)辦震撼表態(tài)

臺(tái)北禁令全面失效,國(guó)臺(tái)辦震撼表態(tài)

愛意隨風(fēng)起呀
2026-02-28 01:02:24
2026-02-28 04:52:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12209文章數(shù) 176397關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

健康
時(shí)尚
手機(jī)
教育
家居

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

舒淇最愛穿的裙子搭配,真的很適合春天!

手機(jī)要聞

榮耀600系列再次被確認(rèn):9000mAh+兩億像素,處理器有懸念!

教育要聞

?勸退:口碑越來(lái)越差的三所英國(guó)大學(xué)!

家居要聞

素色肌理 品意式格調(diào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版