国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級(jí)方向清晰了

0
分享至

大模型的進(jìn)化正迎來(lái)關(guān)鍵拐點(diǎn)。

從單輪對(duì)話的聊天機(jī)器人,快速迭代為能自主規(guī)劃、調(diào)用工具、完成百輪交互的Agent智能體,而這一轉(zhuǎn)變也讓底層推理架構(gòu)的核心瓶頸徹底暴露——GPU算力不再是制約性能的關(guān)鍵,KV-Cache存儲(chǔ)I/O帶寬成為了Agent大模型落地的最大攔路虎。


就在DeepSeek V4發(fā)布前夕,DeepSeek-AI聯(lián)合北大、清華團(tuán)隊(duì)發(fā)布了重磅研究DualPath。

DualPath通過(guò)創(chuàng)新的雙路徑架構(gòu),讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務(wù)吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗(yàn)證,為下一代模型的升級(jí)打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。


之所以會(huì)出現(xiàn)如此嚴(yán)重的I/O瓶頸,核心源于Agent大模型的工作特性。


與傳統(tǒng)短對(duì)話不同,Agent需要在數(shù)十甚至上百輪的環(huán)境交互中累積上下文,長(zhǎng)度可達(dá)百萬(wàn)tokens,而每輪新增的有效信息僅有數(shù)百tokens,這讓KV-Cache命中率普遍超過(guò)95%。

此時(shí),GPU的大量時(shí)間并非用于計(jì)算,而是在等待從外部SSD存儲(chǔ)中讀取海量的歷史KV-Cache數(shù)據(jù)。

再加上現(xiàn)代大模型推理普遍采用的Prefill-Decode(預(yù)填充-解碼)分離架構(gòu),進(jìn)一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲(chǔ)加載到預(yù)填充節(jié)點(diǎn),這導(dǎo)致預(yù)填充節(jié)點(diǎn)的存儲(chǔ)網(wǎng)卡帶寬被完全占滿,成為系統(tǒng)性能的絕對(duì)瓶頸,而解碼節(jié)點(diǎn)的存儲(chǔ)網(wǎng)卡卻長(zhǎng)期處于閑置狀態(tài),算力資源被嚴(yán)重浪費(fèi)。


同時(shí),硬件發(fā)展的失衡也讓問(wèn)題雪上加霜,GPU計(jì)算力的增長(zhǎng)速度遠(yuǎn)超網(wǎng)絡(luò)帶寬和顯存容量,計(jì)算與I/O的比例嚴(yán)重失調(diào),讓這一瓶頸愈發(fā)突出。


DualPath的核心創(chuàng)新,正是抓住了解碼節(jié)點(diǎn)帶寬閑置的關(guān)鍵痛點(diǎn),重構(gòu)了KV-Cache的加載架構(gòu)。

在傳統(tǒng)的“存儲(chǔ)→預(yù)填充節(jié)點(diǎn)”加載路徑之外,它創(chuàng)新性地開(kāi)辟了第二條“存儲(chǔ)→解碼節(jié)點(diǎn)→預(yù)填充節(jié)點(diǎn)”的加載通道,通過(guò)動(dòng)態(tài)分配兩條路徑的數(shù)據(jù)流,把原本單一節(jié)點(diǎn)的I/O壓力,轉(zhuǎn)化為全局資源池化的負(fù)載分擔(dān),充分聚合所有節(jié)點(diǎn)的存儲(chǔ)帶寬,從根源上打破了帶寬天花板。


在第一條預(yù)填充讀取路徑中,KV-Cache從持久化存儲(chǔ)讀入預(yù)填充節(jié)點(diǎn)的內(nèi)存緩沖,再傳輸?shù)紾PU顯存完成計(jì)算,最后將完整的KV-Cache傳給解碼節(jié)點(diǎn)。

而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節(jié)點(diǎn)的內(nèi)存緩沖,在預(yù)填充階段通過(guò)高速RDMA計(jì)算網(wǎng)絡(luò),以層級(jí)流式傳輸?shù)姆绞絺鹘o預(yù)填充節(jié)點(diǎn)參與計(jì)算,整個(gè)過(guò)程中數(shù)據(jù)加載還能與模型計(jì)算無(wú)縫重疊,進(jìn)一步提升效率。

當(dāng)然,把這個(gè)看似直觀的想法,落地到亞毫秒級(jí)延遲敏感的大模型推理系統(tǒng)中,需要攻克兩大核心工程難題。

第一個(gè)難題是網(wǎng)絡(luò)流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關(guān)鍵集合通信沖突,拖慢推理速度。

對(duì)此DualPath設(shè)計(jì)了以計(jì)算網(wǎng)卡為中心的流量管理機(jī)制,讓所有進(jìn)出GPU的流量都強(qiáng)制通過(guò)計(jì)算網(wǎng)卡,再利用底層網(wǎng)絡(luò)的QoS控制能力,將模型推理通信分配到占99%帶寬的高優(yōu)先級(jí)通道,KV-Cache傳輸則分配到低優(yōu)先級(jí)通道,僅在計(jì)算網(wǎng)絡(luò)的空閑間隙傳輸,實(shí)現(xiàn)了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

第二個(gè)難題是動(dòng)態(tài)負(fù)載均衡,面對(duì)復(fù)雜多變的請(qǐng)求,系統(tǒng)需要實(shí)時(shí)決定每條請(qǐng)求的讀取路徑,同時(shí)兼顧網(wǎng)卡隊(duì)列長(zhǎng)度和GPU負(fù)載。


DualPath為此打造了自適應(yīng)請(qǐng)求調(diào)度器,將Token數(shù)量作為核心負(fù)載指標(biāo),把節(jié)點(diǎn)劃分為過(guò)載、低讀取隊(duì)列、高讀取隊(duì)列三類,優(yōu)先將任務(wù)分配給未過(guò)載且讀取隊(duì)列較短的節(jié)點(diǎn)。

同時(shí)在節(jié)點(diǎn)內(nèi)部,還會(huì)基于時(shí)間預(yù)估機(jī)制,將執(zhí)行時(shí)間相近的請(qǐng)求打包成批,最大程度減少GPU同步時(shí)的計(jì)算氣泡,讓硬件利用率達(dá)到最優(yōu)。


實(shí)測(cè)數(shù)據(jù)足以印證DualPath的強(qiáng)悍性能。

研究團(tuán)隊(duì)在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結(jié)合真實(shí)的Agent強(qiáng)化學(xué)習(xí)軌跡數(shù)據(jù)集完成了全面測(cè)試。

在離線批量推理場(chǎng)景(如RL訓(xùn)練的Rollout階段),DualPath對(duì)基線系統(tǒng)實(shí)現(xiàn)了碾壓式超越,處理DeepSeek 660B模型時(shí)吞吐量最高提升1.87倍,且無(wú)論每輪追加Token長(zhǎng)度、生成長(zhǎng)度如何變化,都能保持穩(wěn)定的性能提升,證明其徹底消除了存儲(chǔ)網(wǎng)絡(luò)瓶頸。


在在線服務(wù)場(chǎng)景中,在首字延遲≤4秒的嚴(yán)格SLO約束下,DualPath能支撐的請(qǐng)求到達(dá)率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


而消融實(shí)驗(yàn)也證實(shí),雙路徑加載機(jī)制和自適應(yīng)調(diào)度算法,是推動(dòng)性能大幅提升的核心關(guān)鍵。

更值得一提的是,DualPath還具備極強(qiáng)的大規(guī)模擴(kuò)展性,在1152張GPU的千卡集群中,系統(tǒng)實(shí)現(xiàn)了近乎線性的性能擴(kuò)展,調(diào)度器CPU占用還不到10個(gè)核心,完全滿足生產(chǎn)級(jí)的部署需求。


從DualPath的技術(shù)突破中,我們也能清晰看到DeepSeek V4的核心升級(jí)方向。

首先,模型與推理系統(tǒng)的協(xié)同優(yōu)化將進(jìn)一步深化,V4大概率會(huì)內(nèi)置對(duì)雙路徑加載的原生支持,讓模型層的KV-Cache結(jié)構(gòu)優(yōu)化與系統(tǒng)層的路徑調(diào)度深度融合,實(shí)現(xiàn)更高的帶寬利用率。

其次,自適應(yīng)資源配置能力會(huì)成為重點(diǎn),針對(duì)不同的工作負(fù)載,系統(tǒng)能在線動(dòng)態(tài)調(diào)整預(yù)填充/解碼節(jié)點(diǎn)的比例,讓資源分配更貼合實(shí)際需求,避免固定配置的效率浪費(fèi)。

同時(shí),KV-Cache的智能拆分加載也有望落地,將單個(gè)請(qǐng)求的KV-Cache拆分到兩條路徑并行加載,進(jìn)一步挖掘I/O性能潛力。

此外,結(jié)合DeepSeek已有的稀疏注意力技術(shù),V4還可能將模型結(jié)構(gòu)優(yōu)化與DualPath的系統(tǒng)優(yōu)化結(jié)合,在降低計(jì)算量的同時(shí)減少KV-Cache數(shù)據(jù)量,形成“模型+系統(tǒng)”的雙輪驅(qū)動(dòng)。

此次DualPath的發(fā)布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業(yè)看到了大模型發(fā)展的新趨勢(shì)。

當(dāng)模型規(guī)模接近物理極限時(shí),底層架構(gòu)的創(chuàng)新與模型算法的深度協(xié)同,將成為突破性能天花板的核心關(guān)鍵。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張水華被男選手跟跑!比賽解說(shuō)怒斥:沒(méi)有紳士風(fēng)度 想蹭她的熱度

張水華被男選手跟跑!比賽解說(shuō)怒斥:沒(méi)有紳士風(fēng)度 想蹭她的熱度

念洲
2026-03-29 08:30:55
張雪峰骨灰安葬地確定,追悼會(huì)上原配和現(xiàn)任妻子現(xiàn)身,女兒哭昏厥

張雪峰骨灰安葬地確定,追悼會(huì)上原配和現(xiàn)任妻子現(xiàn)身,女兒哭昏厥

博士觀察
2026-03-28 14:21:06
杜鋒卸任?廣東隊(duì)四大熱門新帥曝光,一人自帶王朝血脈,完美適配

杜鋒卸任?廣東隊(duì)四大熱門新帥曝光,一人自帶王朝血脈,完美適配

體育見(jiàn)習(xí)官
2026-03-29 12:52:26
阿里取消入職體檢環(huán)節(jié)

阿里取消入職體檢環(huán)節(jié)

螞蟻大喇叭
2026-03-28 17:06:53
CCTV5直播國(guó)足VS喀麥?。≈x文能火線復(fù)出 邵佳一高位逼搶打平當(dāng)贏

CCTV5直播國(guó)足VS喀麥?。≈x文能火線復(fù)出 邵佳一高位逼搶打平當(dāng)贏

刀鋒體育
2026-03-29 12:55:45
港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

環(huán)球網(wǎng)資訊
2026-03-28 14:37:14
別再傻扔過(guò)期藥了!這6種常備藥養(yǎng)花堪比神藥,植物吃了狂長(zhǎng)爆盆

別再傻扔過(guò)期藥了!這6種常備藥養(yǎng)花堪比神藥,植物吃了狂長(zhǎng)爆盆

復(fù)轉(zhuǎn)這些年
2026-03-23 20:20:36
在北京,到底身價(jià)多少才算中產(chǎn)?90%的人都不達(dá)標(biāo)……

在北京,到底身價(jià)多少才算中產(chǎn)?90%的人都不達(dá)標(biāo)……

毯叔盤錢
2026-03-29 09:26:28
一個(gè)月允許吃幾次他達(dá)拉非?這樣服用,高效擺脫ED困擾

一個(gè)月允許吃幾次他達(dá)拉非?這樣服用,高效擺脫ED困擾

哆啦程醫(yī)生
2026-03-27 18:20:23
KTV聚會(huì)照被瘋傳!郭麒麟認(rèn)了是本人!嚴(yán)浩翔私生公開(kāi)小號(hào)關(guān)注列表

KTV聚會(huì)照被瘋傳!郭麒麟認(rèn)了是本人!嚴(yán)浩翔私生公開(kāi)小號(hào)關(guān)注列表

觀察鑒娛
2026-03-28 09:22:06
為什么要加入CPTPP?啃不下這6塊硬骨頭,未來(lái)中國(guó)可能會(huì)很難!

為什么要加入CPTPP?啃不下這6塊硬骨頭,未來(lái)中國(guó)可能會(huì)很難!

世界圈
2026-03-28 12:25:46
張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

小徐講八卦
2026-03-28 06:21:26
勇士官宣:穆迪成功接受左膝髕腱撕裂修復(fù)手術(shù) 預(yù)計(jì)能完全康復(fù)

勇士官宣:穆迪成功接受左膝髕腱撕裂修復(fù)手術(shù) 預(yù)計(jì)能完全康復(fù)

醉臥浮生
2026-03-29 11:46:58
我去!內(nèi)娛最大的性丑聞,拍出來(lái)了

我去!內(nèi)娛最大的性丑聞,拍出來(lái)了

皮蛋兒電影
2026-03-04 14:39:25
雄鹿提前出局老里開(kāi)啟吐槽模式:別家三巨頭 我這連雙核都湊不齊

雄鹿提前出局老里開(kāi)啟吐槽模式:別家三巨頭 我這連雙核都湊不齊

仰臥撐FTUer
2026-03-29 09:54:05
女人最“花心”的年紀(jì),不是20歲,也不是50歲,而是這個(gè)年齡段

女人最“花心”的年紀(jì),不是20歲,也不是50歲,而是這個(gè)年齡段

匹夫來(lái)搞笑
2026-03-29 04:08:34
伊朗:擊中一架美國(guó)F-16戰(zhàn)斗機(jī),一架美國(guó)MQ-9無(wú)人機(jī);擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

伊朗:擊中一架美國(guó)F-16戰(zhàn)斗機(jī),一架美國(guó)MQ-9無(wú)人機(jī);擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

臺(tái)州交通廣播
2026-03-29 00:55:06
兩性關(guān)系:不管你信不信,女性過(guò)了65歲后,基本都有這7個(gè)現(xiàn)狀

兩性關(guān)系:不管你信不信,女性過(guò)了65歲后,基本都有這7個(gè)現(xiàn)狀

王二哥老搞笑
2026-03-24 09:47:27
心源性猝死來(lái)勢(shì)洶洶!呼吁:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命!

心源性猝死來(lái)勢(shì)洶洶!呼吁:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命!

阿兵科普
2026-03-28 20:08:11
張雪峰骨灰將運(yùn)回老家下葬:兩任妻子現(xiàn)身追悼會(huì),女兒痛哭惹人憐

張雪峰骨灰將運(yùn)回老家下葬:兩任妻子現(xiàn)身追悼會(huì),女兒痛哭惹人憐

博士觀察
2026-03-28 16:28:02
2026-03-29 13:35:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
466文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

媒體:中東戰(zhàn)火燒了一個(gè)月 全球最大產(chǎn)油國(guó)美國(guó)卻慌了

頭條要聞

媒體:中東戰(zhàn)火燒了一個(gè)月 全球最大產(chǎn)油國(guó)美國(guó)卻慌了

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂(lè)要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

游戲
健康
數(shù)碼
公開(kāi)課
軍事航空

現(xiàn)在不買更貴!PS5 Pro價(jià)格暴漲前夕 玩家瘋狂搶購(gòu)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

曝華為多品類紫色新品將陸續(xù)推出 “幻影紫”平板已開(kāi)售

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地?fù)p失最新披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版