国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeek這小子最精了,當(dāng)全世界都在盯著他的GitHub倉(cāng)庫(kù),等待V4時(shí)——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個(gè)全新的針對(duì)智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話(huà)題相關(guān)。

DualPath的核心在于解決Agent長(zhǎng)文本推理場(chǎng)景下的I/O瓶頸,通過(guò)優(yōu)化從外部存儲(chǔ)加載KV-Cache的速度,確保計(jì)算資源不被存儲(chǔ)讀取拖累。

它改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲(chǔ)至解碼引擎(Storage-to-Decode)的第二條路徑。

通過(guò)利用解碼引擎閑置的存儲(chǔ)網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計(jì)算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath實(shí)現(xiàn)了集群存儲(chǔ)帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在660B規(guī)模的生產(chǎn)級(jí)模型的實(shí)測(cè)中,DualPath表現(xiàn)驚人:

離線(xiàn)推理吞吐量提高了1.87倍,在線(xiàn)服務(wù)吞吐量平均提升1.96倍



在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來(lái),我們一起來(lái)看。

雙路徑加載 (Dual-Path Loading)

總的來(lái)說(shuō),DualPath是一個(gè)專(zhuān)門(mén)為智能體系統(tǒng)設(shè)計(jì)的推理框架,它的核心洞見(jiàn)是——

KV-Cache的加載不必以預(yù)填充為中心

在以往的理解中,誰(shuí)負(fù)責(zé)計(jì)算誰(shuí)就去搬數(shù)據(jù)。但DualPath認(rèn)為,緩存可以先加載到解碼引擎中,再通過(guò)高性能RDMA網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過(guò)在兩條路徑間動(dòng)態(tài)選擇,DualPath重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費(fèi)這么大勁去“繞路”?

之所以這樣做,是因?yàn)樵诋?dāng)前的智能體應(yīng)用中,對(duì)話(huà)輪數(shù)多且上下文長(zhǎng),KV-Cache命中率通常高達(dá)95%以上。

這意味著,每一輪對(duì)話(huà)都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上



在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲(chǔ)網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時(shí),解碼引擎(DE)的存儲(chǔ)網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯(cuò)配。



更進(jìn)一步的,當(dāng)前GPU算力的增長(zhǎng)遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長(zhǎng),也加劇了I/O限制。

正如英偉達(dá)首席科學(xué)家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復(fù)強(qiáng)調(diào)的:計(jì)算是免費(fèi)的,但數(shù)據(jù)移動(dòng)是昂貴的。

針對(duì)這些問(wèn)題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲(chǔ)→PE,緩存直接讀入預(yù)填充引擎。
  • 路徑 B(新增):存儲(chǔ)→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過(guò)RDMA傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個(gè)引擎管理一塊GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。
  • 流量管理器: 負(fù)責(zé)H2D/D2H拷貝、引擎間傳輸以及SNIC存儲(chǔ)讀寫(xiě)。
  • 中央調(diào)度器: 擔(dān)任“大腦”角色,實(shí)時(shí)決策每一條請(qǐng)求該走哪條路,從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲(chǔ)至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲(chǔ)至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲(chǔ)至解碼”路徑

該設(shè)計(jì)允許KV-Cache先加載至解碼引擎(DE),再通過(guò)高帶寬計(jì)算網(wǎng)絡(luò)(RDMA)無(wú)損傳輸給預(yù)填充引擎(PE)。

通過(guò)在兩條路徑間動(dòng)態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲(chǔ)網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個(gè)全局可調(diào)度的存儲(chǔ)I/O資源池。

具體來(lái)說(shuō),為了支持層級(jí)流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對(duì)不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲(chǔ)讀入PE緩沖區(qū)。在每層計(jì)算前,該層緩存?zhèn)鬏斨罰E HBM,與計(jì)算過(guò)程重疊執(zhí)行。計(jì)算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進(jìn)入DE緩沖區(qū)。在PE預(yù)填充期間,對(duì)應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至PE HBM(計(jì)算重疊)。計(jì)算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動(dòng)解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過(guò)程中,每累積滿(mǎn)一個(gè)Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會(huì)帶來(lái)新問(wèn)題:比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信,怎么辦?

對(duì)此,DualPath給出了兩套優(yōu)化方案:

首先是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過(guò)配對(duì)的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡(luò)中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級(jí)”并預(yù)留99%帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確保互不干擾。

其次是自適應(yīng)請(qǐng)求調(diào)度器: 調(diào)度器會(huì)盯著每個(gè)節(jié)點(diǎn)的磁盤(pán)隊(duì)列長(zhǎng)度和Token數(shù)。系統(tǒng)會(huì)優(yōu)先將任務(wù)分配給I/O壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn),從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段,DualPath在DeepSeek-V3、Qwen等模型上進(jìn)行了測(cè)試,場(chǎng)景覆蓋了離線(xiàn)Rollout和在線(xiàn)服務(wù)。

如開(kāi)頭所說(shuō),在離線(xiàn)推理中,DualPath 將端到端吞吐量提高了高達(dá)1.87倍,在線(xiàn)服務(wù)吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來(lái)說(shuō),DualPath 證明了通過(guò)重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費(fèi)的I/O帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學(xué)的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴?。



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負(fù)責(zé)大規(guī)模軟件系統(tǒng)在多硬件平臺(tái)上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學(xué),微軟亞研院等機(jī)構(gòu)實(shí)習(xí)。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒(méi)有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒(méi)有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

每日經(jīng)濟(jì)新聞
2026-03-02 00:23:54
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開(kāi)發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開(kāi)發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
開(kāi)始搶人!美國(guó)一周挖走4名中國(guó)頂尖人才,年薪1個(gè)億美元令人咋舌

開(kāi)始搶人!美國(guó)一周挖走4名中國(guó)頂尖人才,年薪1個(gè)億美元令人咋舌

說(shuō)歷史的老牢
2026-03-01 11:25:59
父親之謎!谷愛(ài)凌出生證明生父一欄空白 最新傳聞曝光:長(zhǎng)得真像

父親之謎!谷愛(ài)凌出生證明生父一欄空白 最新傳聞曝光:長(zhǎng)得真像

念洲
2026-03-01 21:29:29
女子回湖北婆家過(guò)年,車(chē)被妯娌砸稀爛,竟?fàn)砍渡虾⒆?,原因太炸?>
    </a>
        <h3>
      <a href=社會(huì)日日鮮
2026-03-01 08:30:01
同事借我的奧迪回老家,我拔了ETC卡,果然,2小時(shí)后他就打來(lái)電話(huà)

同事借我的奧迪回老家,我拔了ETC卡,果然,2小時(shí)后他就打來(lái)電話(huà)

小李子體育
2026-03-02 01:20:40
大伯拿走我500萬(wàn)房本說(shuō)保管,我掛失重辦,他兒子打來(lái)80通電話(huà)

大伯拿走我500萬(wàn)房本說(shuō)保管,我掛失重辦,他兒子打來(lái)80通電話(huà)

風(fēng)起見(jiàn)你
2026-03-01 21:45:02
伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

財(cái)聯(lián)社
2026-03-02 13:25:39
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
因“頭巾佩戴不規(guī)范”被警察虐待致死的那位伊朗姑娘艾米尼,或許終于可以安息

因“頭巾佩戴不規(guī)范”被警察虐待致死的那位伊朗姑娘艾米尼,或許終于可以安息

法律學(xué)堂
2026-03-02 00:06:54
內(nèi)賈德,遇襲身亡

內(nèi)賈德,遇襲身亡

新華社
2026-03-01 22:13:51
伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

中國(guó)網(wǎng)
2026-03-01 16:43:10
特朗普,可能失算了!

特朗普,可能失算了!

新動(dòng)察
2026-03-02 09:18:39
美以空襲伊朗,阿拉伯國(guó)家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級(jí)為全面地區(qū)戰(zhàn)爭(zhēng)的時(shí)刻”

美以空襲伊朗,阿拉伯國(guó)家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級(jí)為全面地區(qū)戰(zhàn)爭(zhēng)的時(shí)刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報(bào),作為中國(guó)人真的很感恩現(xiàn)在和平的每一天

演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報(bào),作為中國(guó)人真的很感恩現(xiàn)在和平的每一天

極目新聞
2026-03-02 12:35:35
100%賴(lài)賬,這何嘗不是一種極致的誠(chéng)信!

100%賴(lài)賬,這何嘗不是一種極致的誠(chéng)信!

財(cái)經(jīng)保探長(zhǎng)
2026-02-28 10:46:25
川普活成自己最討厭的人,昔日數(shù)次預(yù)言?shī)W巴馬打伊朗:為挽回顏面與支持率

川普活成自己最討厭的人,昔日數(shù)次預(yù)言?shī)W巴馬打伊朗:為挽回顏面與支持率

不掉線(xiàn)電波
2026-03-02 11:07:35
全國(guó)政協(xié)委員劉永好:建議全民發(fā)放500元通用消費(fèi)券,可拉動(dòng)消費(fèi)近2萬(wàn)億元

全國(guó)政協(xié)委員劉永好:建議全民發(fā)放500元通用消費(fèi)券,可拉動(dòng)消費(fèi)近2萬(wàn)億元

第一財(cái)經(jīng)資訊
2026-03-02 10:53:10
有趣!伊朗被打,“專(zhuān)家們”顏面盡失!

有趣!伊朗被打,“專(zhuān)家們”顏面盡失!

走讀新生
2026-03-02 10:38:39
為什么詹姆斯辦一個(gè)退役巡演這么難?

為什么詹姆斯辦一個(gè)退役巡演這么難?

籃球小煙花
2026-03-02 09:10:03
2026-03-02 13:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12212文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車(chē)要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

旅游
房產(chǎn)
親子
數(shù)碼
本地

旅游要聞

亭亭玉立、暗香浮動(dòng)!醉白池白玉蘭驚艷綻放

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

親子要聞

新型家庭“詐騙”案例,專(zhuān)門(mén)針對(duì)人類(lèi)幼崽的紅包

數(shù)碼要聞

掌閱iReader Tango 2 Pro墨水屏閱讀器發(fā)布,可插SIM卡

本地新聞

津南好·四時(shí)總相宜

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版