国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek深夜發(fā)論文,V4前奏來了?聯(lián)手清北破GPU難題,智能體大爆炸

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】一夜之間,AI圈再次地震!這次不是DepSeek V4,而是DeepSeek直接換了推理架構(gòu)。GPU空轉(zhuǎn)的問題,被他們硬生生砍掉了一半。

昨天,DeepSeek-V4要來的消息紛紛揚揚,整個AI圈都被攪動得心緒不寧,隔壁的美國同行們都快崩了。

結(jié)果就在昨晚,DeepSeek突然又雙叒叕更新了!他們聯(lián)手北大、清華的團隊,發(fā)布了針對智能體的推理框架DualPath。

這個框架的核心目標(biāo),就是緩解因大規(guī)模KV-Cache從外部存儲讀取而帶來的I/O瓶頸問題,避免算力資源因數(shù)據(jù)加載速度受限而被閑置。


鏈接:https://arxiv.org/abs/2602.21548

具體來說,此次架構(gòu)升級引入了「Storage-to-Decode」的第二條加載通路,通過「雙路徑KV-Cache加載」機制,有效改善了PD分離架構(gòu)下的讀取瓶頸和資源失衡問題。

可以說,這個框架直接劍指多輪AI智能體(agentic)場景下的大語言模型推理性能瓶頸——

以后,DeepSeek+OpenClaw的玩法兒不遠了!

還是熟悉的味道,DeepSeek在AI基礎(chǔ)設(shè)施上的提升一如既往的出色,如今邁入智能體與強化學(xué)習(xí)時代——

離線推理吞吐量最高提升1.87倍,在線場景下每秒智能體運行次數(shù)提升1.96倍。


論文一出,學(xué)界直呼:如此極致的算力管理,如此精準(zhǔn)的調(diào)控,DeepSeek團隊是真正的經(jīng)濟學(xué)大師!

網(wǎng)友直評:這正是贏得AI大戰(zhàn)的關(guān)鍵基礎(chǔ)設(shè)施思維。


可以說,這篇論文充分體現(xiàn)出DeepSeek的野心——把AI做成像水氣電一樣的基礎(chǔ)設(shè)施!


OpenClaw引爆智能體

DeepSeek窺天機

Claude Code\Cowork、OpenClaw等智能體的爆火,毫無爭議地點燃了Agent黃金時代的開年熱潮!

DeepSeek發(fā)現(xiàn),在智能體推理任務(wù)期間,GPU存在嚴(yán)重的利用率不足問題。

一個Agent任務(wù)有多長?幾十分鐘,有時幾小時。它要寫代碼、查文檔、 跑測試,再回來改代碼。上下文幾百萬token,每一步都要快。

這就帶來了一個巨大的技術(shù)債——KVCache(鍵值緩存)。

KV Cache是什么?一句話,它是AI的草稿紙。

模型每生成一個token,都會把「思考痕跡」存下來;下次繼續(xù)寫,它要翻草稿;草稿越厚,占用顯存越多。

為了讓AI記得上下文,我們必須把這些龐大的數(shù)據(jù)一直存在GPU的顯存(HBM)里。

然而,HBM供不應(yīng)求,死死卡住了AI行業(yè)的脖子。


AI模型推理正演變?yōu)橐粓鰞?nèi)存競賽。

因為AI對HBM需求激增,消費級內(nèi)存被停產(chǎn),導(dǎo)致在短短幾個月內(nèi)主流的內(nèi)存DRAM價格漲了7倍!


所以,把不需要立刻用到的記憶暫時挪到便宜的SSD或主內(nèi)存里,下次要用時,再把它搬回來,這成了行業(yè)的出路。

矛盾就在這里爆發(fā)了:傳統(tǒng)的推理架構(gòu)是串行的。

當(dāng)AI需要調(diào)取舊記憶時,計算單元(Compute Unit)必須停下來,眼巴巴地等著數(shù)據(jù)通過帶寬有限的PCIe總線慢慢爬進顯存。

DeepSeek的研究指出,在多輪智能體推理(Agentic Inference)的場景下,GPU竟然有大量時間是在「空轉(zhuǎn)」等待數(shù)據(jù)!

他們發(fā)布了一些關(guān)于智能體編碼的真實世界數(shù)據(jù),并定義了一個「緩存-計算比率」指標(biāo):該比例取決于模型類型、上下文和追加長度。

他們從代表性編碼任務(wù)中收集的軌跡顯示,平均交互輪數(shù)為157,表明LLMs傾向于進行多輪交互。

平均上下文長度為32.7k,而每次追加長度的平均值僅為429,這意味著KV緩存命中率高達98.7%。

在此場景下,緩存-計算比(定義為KV緩存加載量與所需計算量之比)對于DeepSeek-V3.2約為22GB/PFLOP。


由于每個節(jié)點上單塊存儲網(wǎng)卡的帶寬有限,KV緩存加載速度成為了瓶頸。


近年來,網(wǎng)絡(luò)帶寬和HBM容量的增長落后于GPU FLOPS的增長,I/O計算比率下降了14.4倍。

此外,較小的HBM容量限制了GPU內(nèi)核可同時計算的token批次大小,阻礙了張量核心等計算單元被充分利用。

第三,現(xiàn)有的LLM推理系統(tǒng)在不同引擎類型之間表現(xiàn)出嚴(yán)重的存儲網(wǎng)絡(luò)利用率不均衡。

DeepSeek的黑科技:DualPath

DeepSeek的DualPath架構(gòu),做了一件聽起來簡單、實現(xiàn)起來卻極具顛覆性的事:它把「思考」和「回憶」這兩件事,從串行變成了并行。

在計算機科學(xué)中,這被稱為「計算與存儲訪問的解耦」(Decoupling Compute and Memory Access)。

讓我們換個通俗的比喻。

傳統(tǒng)架構(gòu)是串行的:先把數(shù)據(jù)讀進顯存,讀完后,GPU才開始算。像下載電影,必須等100%,才能播放。

而DualPath做了一件事:邊下載,邊播放。

SemiAnalysis的技術(shù)團隊成員、高級工程師Jordan Nanos認(rèn)為:

DeepSeek在DualPath 論文中提出了一個超酷的點子!


在目前流行的預(yù)填充-解碼分離系統(tǒng)中,命中token的KV緩存完全由預(yù)填充引擎直接從遠程存儲加載。這種設(shè)計將所有存儲I/O壓力集中在預(yù)填充端的網(wǎng)卡上,而解碼引擎端的網(wǎng)卡則基本處于空閑狀態(tài)。

因此,無法充分利用聚合的存儲網(wǎng)絡(luò)帶寬。

DeepSeek則另辟蹊徑:

與其直接從本地NVMe(或 DRAM)將所有KV加載到 GPU 上并受限于本地PCIe總線帶寬,不如先將KV暫存到解碼 GPU服務(wù)器的DRAM 中,再通過GDRDMA將KV傳輸至預(yù)填充(prefill)GPU。


DeepSeek設(shè)計了兩條獨立的流水線:

  1. 存儲路徑(Access Path):負責(zé)瘋狂地從SSD/DRAM中搬運KV Cache數(shù)據(jù)塊。

  2. 計算路徑(Compute Path):負責(zé)利用已經(jīng)搬運好的數(shù)據(jù)塊立刻開始計算。


他們將Prefill GPU定義為PE(Prefill Engines,預(yù)填充引擎),Decode同理;而SNIC表示存儲網(wǎng)卡,CNIC表示計算型網(wǎng)卡

就像你看網(wǎng)劇一樣,不需要等電影下完,只要緩沖好前5秒,你就可以開始看了。

后臺的下載和前臺的播放同時進行,互不干擾。


Inter-Engine PE調(diào)度示意圖。八張GPU均屬于同一個PE引擎組,調(diào)度器會從中選擇最優(yōu)的一個(或一組)進行調(diào)度


Intra-Engine Schedule示意圖。左:基于計算配額的批次選擇。右:應(yīng)用計算配額前后的 GPU 時間線對比

在技術(shù)實現(xiàn)上,DualPath利用了Chunk-based Streaming(塊式流處理)技術(shù),將龐大的KV Cache切分成一個個小塊。


當(dāng)計算單元在處理「第N塊」記憶時,存儲單元已經(jīng)悄悄地把「第N+1塊」預(yù)加載好了。


DRAM緩沖區(qū)(PE緩沖區(qū)和DE緩沖區(qū))用于從層塊構(gòu)建完整塊

具體而言,DeepSeek的GPU顯存只需容納單層的KV向量即可處理一個請求,內(nèi)部是這樣進行推理的:

你發(fā)送一個請求(并緩存命中了一堆token),在推理過程中,當(dāng)執(zhí)行LLM的一層時:下一層的KV向量從CPU加載,以滑動窗口的方式從磁盤加載之后那一層的KV。

而且,該架構(gòu)專為適配其基礎(chǔ)設(shè)施而設(shè)計。

他們分析網(wǎng)絡(luò)接口卡(NIC)與DRAM帶寬,以找出實際可行的Prefill:Decode配置范圍。


P表示預(yù)填充節(jié)點數(shù);D表示解碼節(jié)點;g表示每個節(jié)點的GPU數(shù)量;B表示網(wǎng)卡的帶寬;s表示每臺機器的存儲網(wǎng)卡數(shù)量;M表示每臺機器的DRAM帶寬

最佳結(jié)果是所有P:D從1:7到7:2。

效果驚人:近2倍效果提升!

在標(biāo)準(zhǔn)的代理推理基準(zhǔn)測試中,DualPath將系統(tǒng)的吞吐量直接提升了1.96倍。


請注意,這不是10%或20%的微調(diào),而是近乎200%的性能暴漲。

在半導(dǎo)體日益逼近物理極限的今天,純軟件架構(gòu)的優(yōu)化能帶來這種幅度的提升,堪稱神跡。

這意味著,同樣的硬件成本,Agent的反應(yīng)速度快了一倍;或者說,維持同樣的體驗,推理成本腰斬。

他們使用一個智能體軌跡數(shù)據(jù)集,對DeepSeek V3.2的660B和27B版本以及Qwen 2.5-32B進行了評估。


并在其推理框架中對比啟用與未啟用DualPath的性能,以及與SGLang(帶HiCache和Mooncake)的對比。


基本上,DualPath能帶來近2倍的性能提升;下圖灰色條代表理論上限;JCT是離線場景(即強化學(xué)習(xí)rollout)下的作業(yè)完成時間。

結(jié)果顯示,在在更大的批大小和更長的MAL下,DualPath的優(yōu)勢更加明顯。圖 7 展示了不同批大小和MAL配置下的JCT。

在DS 660B上,DualPath相比Basic最高可實現(xiàn)1.87×的加速,并且性能接近 Oracle,表明KV-cache的I/O開銷基本被消除。


在DS 27B上,DualPath相比Basic最高提升1.78×,但由于1P1D配置下存儲帶寬受限(見圖8),其性能仍比Oracle慢 1.09–1.85×。


當(dāng)追加token和生成token較短時,DualPath的優(yōu)勢更加明顯。

如圖9所示,隨著追加長度增加,Basic的性能逐漸接近DualPath和Oracle。

與Basic相比,在不同追加比例下,DualPath實現(xiàn)了1.82–1.99×的加速。


此外,如圖8所示,DualPath在所有配置下平均實現(xiàn)1.64倍的加速(最高可達2.46倍)。

這進一步驗證了:在智能體場景中,存儲帶寬是主要瓶頸。

他們還調(diào)整了預(yù)填充與解碼(P:D)的比例,分別為1:2,1:1,2:1,看起來差別并不大,在這三種場景下性能大約提升了2倍。

對于在線服務(wù)來說,似乎在更大模型上性能提升更顯著:


APS表示每秒代理到達率;有SLO限制:TTFT<4秒,TPOT<50毫秒;用InferenceX的術(shù)語來說,交互性表示1/TPOT;所以50毫秒的TPOT等于每位用戶每秒20個token

團隊還進行了消融研究,以將TTFT的改進和JCT歸因于所采用的不同技術(shù)。

第一張圖是在不同APS下的堆疊柱狀圖,左側(cè)為使用DualPath的情況,右側(cè)為未使用的情況。時間按百分比分配給:

Sch.表示調(diào)度

A.表示分配

R.表示讀取KV緩存

PF.表示預(yù)填充

因此你可以看到分配所花費的時間消失了,prefill所花費的時間減少了,而(相對而言)讀取KV和調(diào)度所花費的時間增加了


第二張圖逐次加入三種技術(shù)時,對JCT的對比的總性能提升:

  • 分層預(yù)填充(layerwise prefill)占45%

  • 雙路徑加載貢獻了39%

  • 而調(diào)度算法負責(zé)最后的16%


當(dāng)這三種技術(shù)全部應(yīng)用時,總體性能提升使得平均作業(yè)完成時間(JCT)加快了45%。

他們最后提到,其系統(tǒng)在由1,152塊GPU組成的集群上支持4.8萬個并發(fā)智能體,配置為48P:96D。

這是從2P:4D上的2000個智能體線性擴展而來的;還測試了44P:88D,也觀察到了同樣的線性擴展。


一個有意義的限制在于未考慮工具調(diào)用的延遲。

如果智能體在工具調(diào)用期間處于空閑狀態(tài),理論上你可以提高APS(并發(fā)數(shù))

但這也會導(dǎo)致工作集(KV緩存的大?。┏势椒郊壴鲩L,由于命中率降低,進一步加大了對DRAM和存儲的壓力

也讓人質(zhì)疑他們早前提出的緩存-計算比率,很可能會提高GB:PFLOPs表中的GB數(shù)值(再次附上截圖)


從「算力為王」到「帶寬決勝」

DualPath的誕生,不僅僅是一個技術(shù)優(yōu)化,它是一個信號。它宣告了Pre-filling(預(yù)填充)時代的終結(jié),和Agentic Serving(智能體式服務(wù))時代的正式確立。

在過去,我們迷信算力。仿佛只要堆足夠多的H100、B200,AI就會無限變強。

但DeepSeek用DualPath狠狠地打醒了行業(yè):當(dāng)參數(shù)量不再是瓶頸,IO(輸入輸出)才是阿喀琉斯之踵。

實際上,DeepSeek就是在構(gòu)建AGI的高效「海馬體」。

通過徹底榨干PCIe 6.0/7.0的帶寬,通過極致的軟硬件協(xié)同,DeepSeek正在把AI從「在線計算」的束縛中解放出來。

如今,我們離真正的AGI,又近了一步。

參考資料:

https://arxiv.org/pdf/2602.21548

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

凡知
2026-02-24 12:16:24
市場監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識

市場監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識

貝殼財經(jīng)
2026-02-26 21:15:03
醫(yī)學(xué)類最穩(wěn)的5個專業(yè):1、口腔;2、麻醉;3……就業(yè)好、薪酬高!

醫(yī)學(xué)類最穩(wěn)的5個專業(yè):1、口腔;2、麻醉;3……就業(yè)好、薪酬高!

戶外阿毽
2026-02-24 12:54:09
“月嫂是上午走的,娃是下午崩的”,月嫂,并沒有想象中那么好

“月嫂是上午走的,娃是下午崩的”,月嫂,并沒有想象中那么好

艾米兒育兒
2026-02-26 10:10:42
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
廣西給物業(yè)公司發(fā)通牒:限期在3月15日前

廣西給物業(yè)公司發(fā)通牒:限期在3月15日前

廣西地產(chǎn)
2026-02-26 16:40:05
高市早苗:日本重視與中國的溝通并愿與中國展開對話

高市早苗:日本重視與中國的溝通并愿與中國展開對話

俄羅斯衛(wèi)星通訊社
2026-02-26 15:20:12
驚呆!真實案例,公務(wù)員也不香了嗎?

驚呆!真實案例,公務(wù)員也不香了嗎?

慧翔百科
2026-02-27 11:51:51
滬昆高速江西段突發(fā)多車相撞!返程高峰這些坑別踩

滬昆高速江西段突發(fā)多車相撞!返程高峰這些坑別踩

小怪吃美食
2026-02-27 10:37:46
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長成這樣,擼網(wǎng)貸都費勁!

“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長成這樣,擼網(wǎng)貸都費勁!

妍妍教育日記
2026-02-04 19:09:07
中國臺灣女童在日本街頭拍照時遭日本女子故意撞倒,施暴者先肘擊男性再推倒兩名小女孩,疑似日本“撞人族” 專挑弱勢目標(biāo)沖撞

中國臺灣女童在日本街頭拍照時遭日本女子故意撞倒,施暴者先肘擊男性再推倒兩名小女孩,疑似日本“撞人族” 專挑弱勢目標(biāo)沖撞

觀威海
2026-02-27 10:07:13
上海為何越來越北方化?

上海為何越來越北方化?

虔青
2026-02-26 11:40:25
牟宗義被查

牟宗義被查

觀察者網(wǎng)
2026-02-26 09:34:05
大逆襲!魚腩16戰(zhàn)狂取13勝!三人組轟81分,4號秀創(chuàng)歷史新紀(jì)錄

大逆襲!魚腩16戰(zhàn)狂取13勝!三人組轟81分,4號秀創(chuàng)歷史新紀(jì)錄

體壇小李
2026-02-27 11:51:09
戰(zhàn)斗打響了!哈梅內(nèi)伊住所遭襲,斬首行動開始了!

戰(zhàn)斗打響了!哈梅內(nèi)伊住所遭襲,斬首行動開始了!

大嘴說天下
2026-02-26 18:37:30
“艷照門”17年后,她再度翻紅,自曝曾3年沒拍戲,做了12次試管

“艷照門”17年后,她再度翻紅,自曝曾3年沒拍戲,做了12次試管

白面書誏
2026-02-26 14:13:40
王楚欽賽后直言:對陣林德是一場丑陋的勝利,面對張禹珍又是惡戰(zhàn)

王楚欽賽后直言:對陣林德是一場丑陋的勝利,面對張禹珍又是惡戰(zhàn)

乒談
2026-02-26 23:18:09
買美元存款的人虧錢了

買美元存款的人虧錢了

第一財經(jīng)資訊
2026-02-26 21:53:23
1歲男童家門口丟失已遇難!死因曝光,父母一手造成,本來不用死

1歲男童家門口丟失已遇難!死因曝光,父母一手造成,本來不用死

今日搞笑分享
2026-02-27 02:38:23
2026-02-27 14:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14600文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

英偉達業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

牛彈琴:中國的兩個鄰國大打出手 傷亡相當(dāng)慘重

頭條要聞

牛彈琴:中國的兩個鄰國大打出手 傷亡相當(dāng)慘重

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

魅族手機,終成棄子?

汽車要聞

寶馬X5傳承版發(fā)布:給經(jīng)典G05的一場體面謝幕?

態(tài)度原創(chuàng)

親子
數(shù)碼
藝術(shù)
本地
公開課

親子要聞

不要讓“大舌頭”的標(biāo)簽,傷害孩子的自信

數(shù)碼要聞

ROG幻系列,讓每一份靈感都能完美落地

藝術(shù)要聞

紫氣東來,好運一整年!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版