国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek再發(fā)新論文,DualPath架構(gòu)如何將推理吞吐量提升近2倍?

0
分享至

【TechWeb】2月27日消息,就在外界翹首期盼DeepSeek-V4大模型發(fā)布之際,DeepSeek團隊再次帶來了一份技術(shù)驚喜。

DeepSeek聯(lián)合北京大學(xué)、清華大學(xué)發(fā)布了一篇題為《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的論文,提出了一種創(chuàng)新的推理系統(tǒng)架構(gòu),直指當(dāng)前大語言模型在多輪Agent交互場景下的核心性能瓶頸。


論文開篇指出了一個重要趨勢:LLM正在從單輪對話機器人演變?yōu)槟軌蜃灾饕?guī)劃、調(diào)用工具、解決現(xiàn)實世界任務(wù)的Agentic系統(tǒng)。在這種新范式下,模型不再處理孤立的提示詞,而是參與長達(dá)數(shù)十甚至數(shù)百輪的長期會話,上下文不斷累積。

這種變化帶來了全新的計算特征:高KV-Cache(鍵值緩存)命中率、低計算需求。論文中的數(shù)據(jù)顯示,在典型的編碼任務(wù)軌跡中,平均輪次達(dá)到157輪,平均上下文長度32.7K tokens,而每次追加的平均長度僅429 tokens,這意味著KV-Cache命中率高達(dá)98.7%。

這種“長上下文、短追加、多輪次”的工作負(fù)載模式,使得KV-Cache的加載效率而非計算效率成為主導(dǎo)性能的關(guān)鍵因素。

現(xiàn)有架構(gòu)的致命弱點

當(dāng)前主流的LLM推理系統(tǒng)普遍采用預(yù)填充-解碼分離架構(gòu)。在這種設(shè)計中,預(yù)填充引擎負(fù)責(zé)從分布式存儲加載KV-Cache,然后傳輸給解碼引擎進(jìn)行自回歸生成。

然而,論文揭示了一個嚴(yán)重的資源利用不平衡問題:預(yù)填充引擎的存儲網(wǎng)絡(luò)帶寬成為整個系統(tǒng)的吞吐瓶頸,而解碼引擎的存儲網(wǎng)絡(luò)帶寬卻基本閑置。

更令人擔(dān)憂的是硬件發(fā)展趨勢。論文數(shù)據(jù)顯示,從NVIDIA Ampere架構(gòu)到Blackwell架構(gòu),I/O與計算的比例下降了14.4倍。這意味著GPU算力增長遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長,導(dǎo)致I/O瓶頸問題日益嚴(yán)重。

DualPath的創(chuàng)新突破

面對這一挑戰(zhàn),DeepSeek團隊提出了一個反直覺的解決方案:讓KV-Cache加載不再局限于預(yù)填充引擎。

DualPath的核心洞察是:可以利用解碼引擎閑置的存儲帶寬來加載KV-Cache,然后通過高性能RDMA計算網(wǎng)絡(luò)傳輸給預(yù)填充引擎。這種“雙路徑加載”架構(gòu)將存儲I/O從單一瓶頸資源轉(zhuǎn)變?yōu)槿挚烧{(diào)度的容量池。

具體實現(xiàn)中,DualPath在預(yù)填充引擎和解碼引擎上各分配少量DRAM作為緩沖區(qū)。當(dāng)采用傳統(tǒng)的預(yù)填充讀取路徑時,KV-Cache從存儲加載到預(yù)填充引擎緩沖區(qū),然后逐層傳輸?shù)紾PU HBM進(jìn)行計算,最后傳輸給解碼引擎。而當(dāng)采用新穎的解碼讀取路徑時,KV-Cache首先加載到解碼引擎緩沖區(qū),然后在預(yù)填充計算過程中逐層傳輸給預(yù)填充引擎。

實現(xiàn)這一設(shè)計面臨三個關(guān)鍵挑戰(zhàn):

第一,細(xì)粒度數(shù)據(jù)傳輸。 層式預(yù)填充技術(shù)將KV-Cache分割成眾多細(xì)粒度塊,傳輸這些小塊數(shù)據(jù)需要極低的開銷。DualPath通過設(shè)計兩種塊布局(全量塊和層塊)來優(yōu)化傳輸效率。

第二,流量隔離。 額外的KV-Cache傳輸流量可能與模型執(zhí)行中的延遲敏感型集體通信產(chǎn)生干擾。DualPath采用CNIC中心化的數(shù)據(jù)傳輸方式,所有進(jìn)出GPU的數(shù)據(jù)都必須通過GPU配對的計算NIC,并利用InfiniBand的虛擬通道技術(shù)實現(xiàn)嚴(yán)格的流量分級。

第三,動態(tài)負(fù)載均衡。 系統(tǒng)需要在線決策每條請求使用哪條加載路徑。DualPath設(shè)計了兩級調(diào)度算法,綜合考慮存儲NIC隊列長度、GPU計算負(fù)載和請求特征,實現(xiàn)計算和網(wǎng)絡(luò)資源的聯(lián)合平衡。

推理吞吐量提升近2倍

論文在三個模型上進(jìn)行了全面評估:DeepSeek-V3.2 660B、一個27B的降規(guī)模版本以及Qwen2.5-32B。

實驗數(shù)據(jù)令人印象深刻:在離線批處理推理場景(如強化學(xué)習(xí)訓(xùn)練中的 rollout 階段)中,DualPath相比基線系統(tǒng)實現(xiàn)了最高1.87倍的吞吐量提升。在在線服務(wù)場景中,DualPath在不違反SLO的前提下,平均提升了1.96倍的Agent每秒處理能力。

研究團隊還在多達(dá)1152塊GPU的規(guī)模上驗證了DualPath的可擴展性。從2個預(yù)填充引擎+4個解碼引擎擴展到48+96配置時,系統(tǒng)實現(xiàn)了接近線性的加速。在在線服務(wù)場景中,44+88配置實現(xiàn)了22倍的吞吐量提升,同時保持相似的延遲特征。

同時,論文也指出了未來工作方向:更自適應(yīng)、更靈活的并行度和預(yù)填充-解碼比例配置方法,以及在大規(guī)模部署中實現(xiàn)更低的TTFT(Time To First Token)百分位數(shù)。

在萬眾期待DeepSeek-V4之際,這篇論文展示了DeepSeek團隊在系統(tǒng)層面的深厚積累。DualPath的創(chuàng)新不僅解決了當(dāng)前Agentic LLM推理的核心瓶頸,也為未來更大規(guī)模、更復(fù)雜的多輪交互應(yīng)用鋪平了道路。(宜月)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本男籃戰(zhàn)韓國12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

日本男籃戰(zhàn)韓國12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

狼叔評論
2026-02-28 17:34:11
養(yǎng)傷23天!皇馬6000萬前鋒回歸:18場僅1球 主力淪為替補

養(yǎng)傷23天!皇馬6000萬前鋒回歸:18場僅1球 主力淪為替補

葉青足球世界
2026-02-28 19:28:16
苦命的謝莉斯:24歲喪母,50歲患腦梗,67歲喪女,如今因病逝世

苦命的謝莉斯:24歲喪母,50歲患腦梗,67歲喪女,如今因病逝世

娛說瑜悅
2026-02-28 16:41:45
4000萬港元成本,《夜王》口碑票房爆棚,江志強助港片大賺一筆

4000萬港元成本,《夜王》口碑票房爆棚,江志強助港片大賺一筆

電影票房預(yù)告片
2026-02-28 00:18:13
為什么不生孩子?康輝正面回應(yīng):養(yǎng)貓已經(jīng)讓我體會到做爸爸的心情

為什么不生孩子?康輝正面回應(yīng):養(yǎng)貓已經(jīng)讓我體會到做爸爸的心情

杜櫚手工制作
2026-02-28 15:17:52
知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

紅星新聞
2026-02-27 17:33:09
“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

北緯的咖啡豆
2026-02-24 09:16:33
伊朗硬氣反擊,向以色列和美軍中東基地發(fā)射導(dǎo)彈

伊朗硬氣反擊,向以色列和美軍中東基地發(fā)射導(dǎo)彈

山河路口
2026-02-28 19:55:56
重慶女子墜崖后續(xù):父親再曝細(xì)節(jié),遺體有缺失,6大疑點越扒越深

重慶女子墜崖后續(xù):父親再曝細(xì)節(jié),遺體有缺失,6大疑點越扒越深

云舟史策
2026-02-28 20:11:01
上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

漢史趣聞
2026-02-28 11:58:20
馬布里,48歲,剛領(lǐng)著一位中國姑娘去領(lǐng)了證。

馬布里,48歲,剛領(lǐng)著一位中國姑娘去領(lǐng)了證。

南權(quán)先生
2026-02-28 15:50:16
新華社快訊:伊朗伊斯法罕、庫姆和洛雷斯坦等多地聽到爆炸聲

新華社快訊:伊朗伊斯法罕、庫姆和洛雷斯坦等多地聽到爆炸聲

新華社
2026-02-28 15:14:08
伊朗武裝部隊高級發(fā)言人:中東地區(qū)任何協(xié)助以色列的基地都將成為伊朗武裝部隊的攻擊目標(biāo)

伊朗武裝部隊高級發(fā)言人:中東地區(qū)任何協(xié)助以色列的基地都將成為伊朗武裝部隊的攻擊目標(biāo)

環(huán)球網(wǎng)資訊
2026-02-28 19:15:15
出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

秋姐居
2026-02-10 09:19:42
向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認(rèn)文明歸屬

向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認(rèn)文明歸屬

談史論天地
2026-02-10 08:16:24
重大讓步!伊朗同意銷毀核料庫,阿曼:突破前所未有,就看美國了

重大讓步!伊朗同意銷毀核料庫,阿曼:突破前所未有,就看美國了

悅心知足
2026-02-28 21:57:40
長餐桌已經(jīng)退出中國家庭,學(xué)浙江人的做法,很多人都開始紛紛效仿

長餐桌已經(jīng)退出中國家庭,學(xué)浙江人的做法,很多人都開始紛紛效仿

室內(nèi)設(shè)計師有料兒
2026-02-27 20:49:11
中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

卷史
2026-02-28 05:06:44
中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

愛意隨風(fēng)起呀
2026-02-28 17:50:25
本科已嚴(yán)重飽和的五個專業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計算機

本科已嚴(yán)重飽和的五個專業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計算機

明智家庭教育
2026-01-31 10:29:14
2026-02-28 22:44:49
TechWeb incentive-icons
TechWeb
做有態(tài)度的互聯(lián)網(wǎng)資訊。
16174文章數(shù) 43067關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
房產(chǎn)
數(shù)碼
本地
藝術(shù)

這6款發(fā)色居然這么火?50張圖可以直接給tony

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

數(shù)碼要聞

達(dá)爾優(yōu)推出聽界A3/Pro無線游戲耳機新品,199~229元

本地新聞

津南好·四時總相宜

藝術(shù)要聞

就是這個畫風(fēng),美的我有點兒接受不了!

無障礙瀏覽 進(jìn)入關(guān)懷版