国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對抗KV Cache壓縮脆弱性:兩行代碼最壞風(fēng)險(xiǎn)控制防御底層假設(shè)崩塌

0
分享至



作者介紹:中科大團(tuán)隊(duì)包括共一作者馮源(博二)、郭浩宇(碩一)以及通訊作者謝??疲ㄑ芯繂T),致力于以簡潔算法優(yōu)化大模型長文本推理,曾提出 AdaKV、CriticalKV 等主流 KV Cache 壓縮方法,僅需數(shù)行代碼顯著提升壓縮效果。新作 DefensiveKV 延續(xù)這一理念,僅需兩行算法改動,顯著降低 KV Cache 壓縮損失。

隨著大模型長上下文能力快速增長,海量 KV Cache 存儲需求急劇增加,各類 KV Cache 壓縮方法如雨后春筍般涌現(xiàn)。然而,這些方案在真實(shí)場景中的工程落地卻常常陷入困境。



  • 論文標(biāo)題:DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference
  • 論文鏈接:https://openreview.net/forum?id=nJgS06sX3O
  • 代碼鏈接:https://github.com/FFY0/DefensiveKV/tree/main

中科大研究團(tuán)隊(duì)在 ICLR 2026 的論文 DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference 中給出了答案:KV Cache 壓縮領(lǐng)域的底層假設(shè)存在根本性缺陷!當(dāng)前主流方法都基于一個(gè)核心假設(shè):KV Cache 的重要性在不同時(shí)間段是穩(wěn)定的。因此它們不約而同地選擇觀測一段歷史窗口內(nèi)的平均重要性,并據(jù)此淘汰 "不重要" 的 cache。然而,研究團(tuán)隊(duì)驚訝地發(fā)現(xiàn),這一看似合理的穩(wěn)定性假設(shè)在真實(shí)場景中十分脆弱!

通過深入分析大模型在真實(shí)長文本任務(wù)上的行為,團(tuán)隊(duì)觀察到一個(gè)令人震驚的現(xiàn)象:盡管平均觀測重要性指標(biāo)在絕大多數(shù)時(shí)候能夠準(zhǔn)確反映 cache 的真實(shí)重要性,但在某些特定區(qū)間卻會顯著失效,甚至完全反轉(zhuǎn)!

圖 1:穩(wěn)定性假設(shè)失效現(xiàn)象



如上圖所示,藍(lán)色曲線代表按照平均重要性保留的一半 "重要" Cache。雖然絕大部分時(shí)刻這一半的 cache 能保持整體 90% 以上的真實(shí)重要性,但在特定時(shí)刻(如第 200-300 時(shí)間步),保留的 cache 甚至無法達(dá)到全部 cache 50% 的真實(shí)重要性!這種” 穩(wěn)定性崩潰 " 絕非偶發(fā),在單次回復(fù)中竟出現(xiàn)高達(dá) 65 次之多。

圖 2:穩(wěn)定性崩潰統(tǒng)計(jì)



這揭示了一個(gè)深刻的認(rèn)知盲區(qū):以往工作過分信任 "平均情況",卻忽視了真實(shí)部署中最致命的最壞風(fēng)險(xiǎn)。正如金融領(lǐng)域的經(jīng)典教訓(xùn) —— 只優(yōu)化平均收益而忽視極端風(fēng)險(xiǎn)的策略注定失敗。當(dāng)穩(wěn)定性假設(shè)在關(guān)鍵時(shí)刻失效時(shí),使用平均值作為壓縮指示器就像在薄冰上行走,隨時(shí)可能墜入深淵。

針對這一根本性缺陷,團(tuán)隊(duì)提出了革命性的防御性聚合(Defensive Aggregation)策略。這一策略徹底顛覆了傳統(tǒng)的 "平均優(yōu)化" 范式,轉(zhuǎn)而采用 "最壞風(fēng)險(xiǎn)控制" 的防御性思維 —— 不再關(guān)注平均損失,而是將全部注意力投入到 worst-case 的預(yù)防中。

在重塑關(guān)注點(diǎn)之后,團(tuán)隊(duì)提出了一個(gè)極簡的優(yōu)雅設(shè)計(jì) —— 核心算法僅需兩行代碼即可實(shí)現(xiàn):



圖 3:核心算法僅需兩行代碼

第一步:最壞風(fēng)險(xiǎn)估計(jì)(Worst-case Risk Estimation)

團(tuán)隊(duì)從風(fēng)險(xiǎn)控制角度重新思考驅(qū)逐策略 —— 驅(qū)逐一個(gè) KV cache 的最大風(fēng)險(xiǎn)等價(jià)于它在未來可能達(dá)到的最大重要性。由于未來不可知,團(tuán)隊(duì)巧妙地用歷史觀察中的最大值來估計(jì)這一風(fēng)險(xiǎn):只要一個(gè) cache 在任一歷史時(shí)刻表現(xiàn)重要,就將其視為高風(fēng)險(xiǎn)而保留。這個(gè)看似簡單的 "取最大" 操作,卻能精準(zhǔn)捕獲那些可能在未來關(guān)鍵時(shí)刻大放異彩的 token。

第二步:自適應(yīng)先驗(yàn)風(fēng)險(xiǎn)修正(Adaptive Prior-Risk Correction)

考慮到最壞風(fēng)險(xiǎn)估計(jì)中的觀測次數(shù)有限(通常僅 32 次),可能遺漏一些關(guān)鍵的風(fēng)險(xiǎn)。團(tuán)隊(duì)受貝葉斯估計(jì)中 Laplace 平滑啟發(fā),提出了一種基于先驗(yàn)的觀測風(fēng)險(xiǎn)修正機(jī)制:計(jì)算每個(gè)注意力頭中所有 KV cache 的平均觀測風(fēng)險(xiǎn)作為先驗(yàn)風(fēng)險(xiǎn)。當(dāng)某個(gè) cache 的觀測風(fēng)險(xiǎn)低于該注意力頭中所有 cache 的平均風(fēng)險(xiǎn)時(shí),自動用先驗(yàn)風(fēng)險(xiǎn)進(jìn)行修正,防止因觀測不足而遺漏高風(fēng)險(xiǎn) cache,提供更保守的保護(hù)。

這兩步操作均為線性時(shí)間,計(jì)算復(fù)雜度與傳統(tǒng)平均值聚合相同,卻帶來了質(zhì)的飛躍:圖中防御性聚合(紅色曲線)相較于之前的平均值聚合(藍(lán)色曲線),幾乎完全消除了離群點(diǎn),將最壞情況下保留的重要性分?jǐn)?shù)從 0.45 提升至 0.65。



圖 4:Defensive Aggregation(紅色曲線)有效對抗脆弱假設(shè),消除離群點(diǎn)

研究團(tuán)隊(duì)將之前的 SOTA 壓縮方法 CriticalKV 中的平均聚合替換為防御性聚合,實(shí)現(xiàn)了全新的壓縮方法DefensiveKV及其層間調(diào)度增強(qiáng)版Layer-DefensiveKV。實(shí)驗(yàn)結(jié)果令人震撼:僅需兩行代碼的修改,就實(shí)現(xiàn)了顯著的性能飛躍。



圖 5:DefensiveKV 和 Layer-DefensiveKV 展示了領(lǐng)先的性能

文章中的測評橫跨 7 個(gè)任務(wù)領(lǐng)域、18 個(gè)數(shù)據(jù)集、3 個(gè)不同規(guī)模的主流開源模型,一致性地刷新了 KV Cache 壓縮的性能邊界。例如,在 Llama-3.1-8B 模型 20% cache 預(yù)算的嚴(yán)苛壓縮條件下,相比最強(qiáng)基線 CriticalKV(質(zhì)量損失 9.6%),DefensiveKV 將損失降至 4.1%(2.3 倍提升),而 Layer-DefensiveKV 更是僅為 2.1%(4.6 倍提升)。



圖 6:DefensiveKV 和 Layer-DefensiveKV 平均壓縮損失極低

這項(xiàng)工作的重要價(jià)值不僅在于算法性能提升,更在于重新定義了 KV Cache 壓縮的優(yōu)化目標(biāo)。它首次揭示了現(xiàn)有算法底層穩(wěn)定性假設(shè)的本質(zhì)脆弱性,開創(chuàng)性地將最壞風(fēng)險(xiǎn)控制思想引入該領(lǐng)域,為后續(xù)研究指明了全新方向:與其設(shè)計(jì)更精密的重要性指標(biāo),不如構(gòu)建更具防御性的策略來對抗底層假設(shè)的脆弱性。這種防御性思維 —— 寧可錯(cuò)留、不可錯(cuò)刪 —— 或許是通往真正魯棒長上下文推理的關(guān)鍵鑰匙。

DefensiveKV 的全部代碼已經(jīng)開源,提供了完整的實(shí)驗(yàn)環(huán)境配置、打包數(shù)據(jù)集、評測代碼以及詳細(xì)的使用文檔。團(tuán)隊(duì)額外特別提供了一個(gè)一小時(shí)內(nèi)完成的迷你復(fù)現(xiàn) Demo,感受防御性聚合帶來的強(qiáng)大性能。

  • 一小時(shí)極速驗(yàn)證:基于 10% RULER benchmark 的快速評測腳本,在單張 RTX 4090 上即可在 1 小時(shí)內(nèi)完成 DefensiveKV 和 Layer-DefensiveKV 在 20% cache size 下的性能驗(yàn)證。
  • 性能真相揭秘:通過糾正先前 benchmark 的評測缺陷,團(tuán)隊(duì)發(fā)現(xiàn) SnapKV 在 20% 壓縮率下的真實(shí)得分僅為 39.0,徹底打破了此前 "無損壓縮" 的幻象。
  • 算法持續(xù)提升:感受 KV Cache 壓縮領(lǐng)域近一年來從 AdaKV 到 CriticalKV 再到 DefensiveKV 的迭代提升,性能從 39.0 一路提升至 91.4。
  • 可疊加增益:Defensive Aggregation 作為正交化方法,可與現(xiàn)有各類 KV Cache 壓縮技術(shù)無縫結(jié)合,實(shí)現(xiàn)性能的持續(xù)提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拔出蘿卜帶出泥!釋永信“開光”內(nèi)幕曝光,這4位女星被流言害慘

拔出蘿卜帶出泥!釋永信“開光”內(nèi)幕曝光,這4位女星被流言害慘

潮鹿逐夢
2026-03-24 12:44:49
“上海實(shí)體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實(shí)難

“上海實(shí)體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實(shí)難

新民晚報(bào)
2026-03-25 18:45:33
重磅!詹姆斯正式轉(zhuǎn)型!NBA歷史最離譜的角色球員...

重磅!詹姆斯正式轉(zhuǎn)型!NBA歷史最離譜的角色球員...

林子說事
2026-03-25 11:49:04
蔣經(jīng)國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學(xué)生

蔣經(jīng)國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學(xué)生

鶴羽說個(gè)事
2026-03-20 21:20:03
山東多名區(qū)縣“一把手”調(diào)整

山東多名區(qū)縣“一把手”調(diào)整

濟(jì)寧人
2026-03-25 15:18:25
廣東隊(duì)抵達(dá)順德!徐杰情緒低落,胡明軒和崔永熙有說有笑

廣東隊(duì)抵達(dá)順德!徐杰情緒低落,胡明軒和崔永熙有說有笑

體育哲人
2026-03-25 10:07:15
兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
教育部發(fā)布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

教育部發(fā)布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

另子維愛讀史
2026-03-21 19:52:30
做人一定不要像張雪峰

做人一定不要像張雪峰

羅sir財(cái)話
2026-03-24 21:59:56
國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場開罵:扯破臉、斗到底

國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場開罵:扯破臉、斗到底

小小科普員
2026-03-25 19:25:13
馮怡任浙江省委常委、統(tǒng)戰(zhàn)部部長

馮怡任浙江省委常委、統(tǒng)戰(zhàn)部部長

中國經(jīng)濟(jì)網(wǎng)
2026-03-25 09:28:09
眾星悼念張雪峰,朱偉長文看哭網(wǎng)友!猝逝前直播畫面竟成最后影像

眾星悼念張雪峰,朱偉長文看哭網(wǎng)友!猝逝前直播畫面竟成最后影像

阿訊說天下
2026-03-25 13:48:41
善惡有報(bào),移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報(bào),移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
她出身上海名門,是國家一級演員,嫁東北丈夫,如今66歲生活幸福

她出身上海名門,是國家一級演員,嫁東北丈夫,如今66歲生活幸福

白面書誏
2026-03-23 17:38:15
特朗普:美國伊朗已達(dá)成協(xié)議

特朗普:美國伊朗已達(dá)成協(xié)議

亞太觀瀾
2026-03-25 20:45:07
3-1!山東女排力克天津,李晨瑄強(qiáng)攻給力,楊涵玉攻攔俱佳

3-1!山東女排力克天津,李晨瑄強(qiáng)攻給力,楊涵玉攻攔俱佳

騎馬寺的少年
2026-03-25 21:09:27
小米新SU7上市72小時(shí):客流被稀釋,要拼產(chǎn)品硬功夫

小米新SU7上市72小時(shí):客流被稀釋,要拼產(chǎn)品硬功夫

36氪
2026-03-24 08:09:09
他是CBA現(xiàn)役最老球員,打了20年拿5冠,身家過億,已為退役鋪路

他是CBA現(xiàn)役最老球員,打了20年拿5冠,身家過億,已為退役鋪路

以茶帶書
2026-03-25 16:35:52
4.7萬億!馬斯克打破人類財(cái)富紀(jì)錄:他一個(gè)人的錢抵得過160個(gè)國家

4.7萬億!馬斯克打破人類財(cái)富紀(jì)錄:他一個(gè)人的錢抵得過160個(gè)國家

通鑒史智
2026-03-15 11:45:00
你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
2026-03-25 21:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收場,Sora宣布正式關(guān)停

頭條要聞

于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

頭條要聞

于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財(cái)經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

親子
數(shù)碼
本地
藝術(shù)
公開課

親子要聞

寶寶懂得分辨零食,糖果只要自己能咬開的,網(wǎng)友:這樣鍛煉 寶寶會很聰明

數(shù)碼要聞

外星人16X Aurora首發(fā)!RTX 5070 Ti+OLED屏,游戲黨直呼買不起?

本地新聞

來永泰同安 赴一場春天的約會

藝術(shù)要聞

《百花譜》,這個(gè)春天畫花不用愁!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版