網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI的"記憶倉(cāng)庫(kù)"塞不下時(shí)，它們是怎么聰明騰地方的？

2026-04-22 22:39:48　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由西蒙弗雷澤大學(xué)與哈佛大學(xué)聯(lián)合開(kāi)展的研究，發(fā)表于2026年國(guó)際學(xué)習(xí)表征會(huì)議（ICLR 2026），論文編號(hào)為arXiv:2604.10539，有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

每當(dāng)你用ChatGPT或類似的AI工具進(jìn)行長(zhǎng)對(duì)話、讓它寫(xiě)一篇長(zhǎng)文章，或者要求它分析一份長(zhǎng)達(dá)幾十頁(yè)的合同時(shí)，AI其實(shí)正在悄悄承受一種你看不見(jiàn)的壓力——它的"工作記憶"正在以驚人的速度膨脹。西蒙弗雷澤大學(xué)與哈佛大學(xué)的研究團(tuán)隊(duì)注意到了這個(gè)被大多數(shù)人忽視的瓶頸，并為此提出了一套他們稱之為"IceCache"的解決方案。

以一個(gè)非常直觀的比喻來(lái)理解這個(gè)問(wèn)題：AI在處理長(zhǎng)文本時(shí)，就像一位速記員坐在一張書(shū)桌前，每讀完一個(gè)詞，就要在桌上放一張小紙條，記下這個(gè)詞的相關(guān)信息，以便稍后參考。對(duì)話越長(zhǎng)，桌上的紙條就越多，很快就會(huì)堆滿整張桌子，甚至溢出到地板上。這張"書(shū)桌"，在真實(shí)的AI系統(tǒng)中，就是GPU顯存——圖形處理器上那塊速度極快但容量有限的高速內(nèi)存。而那些紙條，專業(yè)上叫做"KV緩存"（Key-Value Cache），是AI在處理每一個(gè)詞時(shí)生成并保存的中間計(jì)算結(jié)果。

這個(gè)KV緩存的麻煩在于，它的大小和文本長(zhǎng)度成正比，文本翻倍，緩存就翻倍。當(dāng)處理幾萬(wàn)個(gè)詞的長(zhǎng)文本時(shí)，僅僅這個(gè)緩存就能把高端AI服務(wù)器的顯存完全塞滿，讓系統(tǒng)要么崩潰報(bào)錯(cuò)，要么急劇變慢。這不是理論上的擔(dān)憂，而是工程師們每天都在面對(duì)的實(shí)際挑戰(zhàn)。

IceCache的思路是：既然桌子（顯存）有限，我們就必須智慧地管理那些紙條——把暫時(shí)不需要的搬到旁邊的文件柜（CPU內(nèi)存）里，需要時(shí)再取回來(lái)。但取回這個(gè)動(dòng)作本身也需要時(shí)間，關(guān)鍵是如何知道"哪張紙條最有可能被用到"，以及"如何最快地找到并取回它"。這兩個(gè)問(wèn)題，正是這篇論文最核心的貢獻(xiàn)所在。

一、為什么以前的方法總是不夠用

在IceCache出現(xiàn)之前，研究者們已經(jīng)在努力解決這個(gè)問(wèn)題，但各有局限。一部分方法選擇"永久刪除"那些看起來(lái)不重要的紙條，這叫做"驅(qū)逐"策略。比如有一種叫H2O的方法，只保留那些在過(guò)去被頻繁參考的詞的記錄；還有StreamingLLM，它總是保留最開(kāi)頭的幾張紙條和最新的幾張紙條，中間的全部丟棄。這些方法速度很快，因?yàn)閯h掉的東西就真的不見(jiàn)了，不需要取回操作。但代價(jià)是，一旦某張被刪掉的紙條在后面突然變得重要，AI就只能憑著模糊的殘缺記憶工作，準(zhǔn)確性自然會(huì)下降。

另一部分方法更保守，它們把不常用的紙條搬到文件柜（CPU內(nèi)存）里暫存，而不是徹底丟棄，這叫做"卸載"策略。MagicPiG、OmniKV、PQCache都屬于這一類。它們保留的信息更完整，但問(wèn)題出在如何決定"搬哪些紙條回書(shū)桌"這個(gè)環(huán)節(jié)上。這些方法通常按照紙條在桌上擺放的原始順序來(lái)管理，就像圖書(shū)館按照書(shū)的進(jìn)館時(shí)間而不是書(shū)的內(nèi)容來(lái)排列書(shū)架一樣。當(dāng)你要找一本關(guān)于某個(gè)主題的書(shū)時(shí)，可能需要翻遍整個(gè)書(shū)架，順便把大量無(wú)關(guān)的書(shū)也搬下來(lái)翻看一遍。

這種低效還帶來(lái)另一個(gè)問(wèn)題：在AI進(jìn)行長(zhǎng)文本生成時(shí)，比如寫(xiě)一篇推理分析、做多步驟的數(shù)學(xué)題或者總結(jié)超長(zhǎng)報(bào)告，需要反復(fù)參考分散在文本各處的相關(guān)信息。如果緩存的組織方式不合理，每次需要某類信息時(shí)，系統(tǒng)要加載大量無(wú)關(guān)內(nèi)容，速度慢，準(zhǔn)確率也低。研究團(tuán)隊(duì)引用了一項(xiàng)對(duì)這些方法的綜合評(píng)測(cè)，顯示在長(zhǎng)文本生成任務(wù)上，現(xiàn)有方法的性能下降相當(dāng)明顯，這是整個(gè)領(lǐng)域公認(rèn)的痛點(diǎn)。

IceCache的思路是從根本上改變紙條的整理方式：不按時(shí)間順序放，而是按內(nèi)容相似性聚在一起放。這個(gè)看似簡(jiǎn)單的改變，帶來(lái)了一系列連鎖反應(yīng)式的改進(jìn)。

二、核心創(chuàng)新：按"內(nèi)容相關(guān)性"而非"時(shí)間順序"整理記憶

理解IceCache的核心，需要先理解"頁(yè)"這個(gè)概念。在計(jì)算機(jī)的內(nèi)存管理中，就像超市倉(cāng)庫(kù)里的貨架是按固定大小的格子劃分的一樣，內(nèi)存也被劃分成一個(gè)個(gè)固定大小的"頁(yè)"。每次取用數(shù)據(jù)，都是以"頁(yè)"為單位進(jìn)行的——你不能只取一頁(yè)中的一個(gè)詞，必須把整頁(yè)都取出來(lái)。這套管理方式叫做"PagedAttention"，是業(yè)界廣泛使用的成熟技術(shù)。

在傳統(tǒng)方法里，AI按照詞的出現(xiàn)順序把紙條填進(jìn)格子，第一格裝第1到第16個(gè)詞，第二格裝第17到第32個(gè)詞，以此類推。這種方式整齊，但語(yǔ)義上毫無(wú)關(guān)聯(lián)——一頁(yè)里可能同時(shí)裝著"蘋(píng)果公司的季報(bào)"和"蘋(píng)果的營(yíng)養(yǎng)成分"，它們?cè)趦?nèi)容上沒(méi)有任何關(guān)系，只是碰巧在文本里位置相近。

IceCache做的事情是：在處理文本的初始階段，仔細(xì)分析每個(gè)詞對(duì)應(yīng)的"key向量"——這是AI內(nèi)部對(duì)每個(gè)詞語(yǔ)義信息的數(shù)學(xué)表達(dá)，可以理解為每張紙條上凝練的"內(nèi)容標(biāo)簽"——然后把內(nèi)容標(biāo)簽相似的紙條歸攏到同一格子里。如果文章里多處都在討論"財(cái)務(wù)數(shù)據(jù)"，那些詞的紙條就會(huì)被放在同一格。如果多處在討論"產(chǎn)品技術(shù)"，相關(guān)紙條也聚在一起。

這種按內(nèi)容聚類的方式，讓IceCache在決定"取哪一格"時(shí)精準(zhǔn)得多。當(dāng)AI正在生成關(guān)于"財(cái)務(wù)分析"的內(nèi)容，需要參考之前的相關(guān)背景時(shí)，它只需要取出那幾格專門(mén)裝著財(cái)務(wù)信息的頁(yè)面，而不是把整個(gè)書(shū)架都搬出來(lái)翻找。檢索命中率大幅提升，無(wú)效數(shù)據(jù)傳輸大幅減少。

三、DCI樹(shù)：讓記憶整理既快又能隨時(shí)更新

僅僅把相似內(nèi)容放在一起還不夠，還需要一套高效的機(jī)制來(lái)管理這些聚類，并在AI持續(xù)生成新內(nèi)容時(shí)隨時(shí)維護(hù)這個(gè)結(jié)構(gòu)。為此，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"DCI樹(shù)"的層級(jí)數(shù)據(jù)結(jié)構(gòu)，這是整套方案的技術(shù)骨架。

DCI樹(shù)可以用圖書(shū)館的分類體系來(lái)理解。頂層是最寬泛的大類，比如"科學(xué)"；向下一層分成更細(xì)的中類，比如"物理"、"化學(xué)"、"生物"；再向下是小類，比如"量子物理"、"有機(jī)化學(xué)"等；最底層才是具體的書(shū)（詞的紙條）。當(dāng)你要找一本關(guān)于"量子糾纏"的書(shū)時(shí)，不需要從第一本書(shū)翻到最后一本，而是先找到"科學(xué)"大類，再找到"物理"，再找到"量子物理"，最后在這個(gè)小范圍內(nèi)精確定位。每一層都大幅縮小了搜索范圍。

在技術(shù)實(shí)現(xiàn)上，這套結(jié)構(gòu)基于一種叫做"多層動(dòng)態(tài)連續(xù)索引"（M-DCI）的算法，是研究團(tuán)隊(duì)在前人工作（P-DCI算法）基礎(chǔ)上的擴(kuò)展。構(gòu)建樹(shù)的時(shí)候，首先把所有詞的內(nèi)容標(biāo)簽（key向量）做一個(gè)數(shù)學(xué)變換，讓原本計(jì)算內(nèi)積相似度的問(wèn)題轉(zhuǎn)化成計(jì)算歐幾里得距離的問(wèn)題，這樣更容易利用各種高效的近鄰搜索算法。然后，通過(guò)一種隨機(jī)"晉升"機(jī)制構(gòu)建層級(jí)：所有詞先放在最底層，然后隨機(jī)抽取一部分詞晉升到上一層，再?gòu)倪@部分中隨機(jī)抽取更少的詞晉升到再上一層，如此類推，形成一個(gè)金字塔結(jié)構(gòu)。每個(gè)詞都被分配了一個(gè)"父節(jié)點(diǎn)"，就是上一層中和它內(nèi)容最相似的那個(gè)詞。這種層級(jí)關(guān)系形成的聚類，在物理內(nèi)存上直接對(duì)應(yīng)到一個(gè)個(gè)"頁(yè)"——同一個(gè)父節(jié)點(diǎn)下的詞，被存儲(chǔ)在同一頁(yè)里。

這套結(jié)構(gòu)還有一個(gè)關(guān)鍵特性：它支持高效的動(dòng)態(tài)更新。當(dāng)AI生成了新的詞，這個(gè)詞的紙條也要被加入到體系中。DCI樹(shù)不需要推倒重建，只需要根據(jù)新詞的內(nèi)容標(biāo)簽，用同樣的隨機(jī)晉升機(jī)制決定它放在哪一層，然后在該層找到內(nèi)容最相似的父節(jié)點(diǎn)，把它掛上去就好了。這種增量更新的能力，解決了之前方法在長(zhǎng)文本生成任務(wù)中隨著時(shí)間推移性能越來(lái)越差的問(wèn)題——舊方法的組織結(jié)構(gòu)是靜態(tài)的，新生成的內(nèi)容無(wú)法有效融入，導(dǎo)致越往后找到相關(guān)內(nèi)容的概率越低。IceCache的樹(shù)結(jié)構(gòu)則始終保持語(yǔ)義上的有序性。

四、兩項(xiàng)工程優(yōu)化：批量傳輸與流水線并行

搞清楚"怎么找到需要的紙條"之后，還有一個(gè)同樣重要的工程問(wèn)題：怎么把紙條從文件柜（CPU內(nèi)存）搬回書(shū)桌（GPU顯存）的速度盡量快。

第一項(xiàng)優(yōu)化叫做"批量加載"。CPU和GPU之間的數(shù)據(jù)傳輸通道（PCIe總線）就像一條高速公路，每次啟動(dòng)一次傳輸都有固定的"過(guò)路費(fèi)"（延遲開(kāi)銷）。如果每次只搬一張紙條，來(lái)回折騰的開(kāi)銷會(huì)把實(shí)際傳輸?shù)氖找嫒客淌?。IceCache的做法是：先把所有需要的紙條集中到一個(gè)臨時(shí)集中區(qū)（CPU預(yù)加載緩沖區(qū)），打包成一個(gè)整體，通過(guò)一次高吞吐量的傳輸送到GPU的緩沖區(qū)，再?gòu)哪抢锷㈤_(kāi)分配到各自的位置。這就像搬家時(shí)不是一件件家具來(lái)回跑，而是把所有東西裝進(jìn)一輛大卡車一次性運(yùn)過(guò)去，大幅提升了傳輸效率。

第二項(xiàng)優(yōu)化叫做"流水線并行"。在沒(méi)有優(yōu)化的情況下，AI處理文本的流程是串行的：先計(jì)算一層，再把這層的緩存?zhèn)鞯紺PU，再建立索引，再計(jì)算下一層，如此往復(fù)，等待時(shí)間層層疊加。IceCache重新設(shè)計(jì)了這個(gè)流程，讓不同的操作同時(shí)進(jìn)行。具體來(lái)說(shuō)，當(dāng)GPU正在計(jì)算第i+1層的注意力時(shí)，CPU同時(shí)在對(duì)第i層剛剛傳來(lái)的KV數(shù)據(jù)建立DCI樹(shù)索引，而PCIe通道同時(shí)在傳輸?shù)趇層的數(shù)據(jù)。三條流水線并行推進(jìn)，把原本需要串行等待的時(shí)間大幅壓縮。研究論文中專門(mén)用圖示對(duì)比了串行工作流和流水線工作流，后者的端到端處理延遲明顯更短。

五、實(shí)驗(yàn)數(shù)據(jù)說(shuō)話：IceCache在多項(xiàng)測(cè)試中表現(xiàn)如何

研究團(tuán)隊(duì)在四個(gè)不同的語(yǔ)言模型上測(cè)試了IceCache，涵蓋了不同規(guī)模和不同架構(gòu)：70億參數(shù)量級(jí)的Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2、LongChat-7B-v1.5，以及320億參數(shù)量級(jí)的Qwen3-32B。測(cè)試使用了A100和H100兩種高端GPU，軟件環(huán)境包括CUDA 12.2和PyTorch 2.4.1。

第一項(xiàng)測(cè)試叫做"密鑰檢索"，是一個(gè)專門(mén)考驗(yàn)長(zhǎng)程記憶的任務(wù)：在一段長(zhǎng)達(dá)十萬(wàn)個(gè)詞的文本里，隨機(jī)某個(gè)位置藏了一串密碼，AI需要找出來(lái)。這是對(duì)緩存管理能力最極端的考驗(yàn)，因?yàn)槊艽a可能藏在文本的任何位置，AI必須保留對(duì)全文任意位置的有效訪問(wèn)。測(cè)試了10000詞到100000詞不同長(zhǎng)度，以及256、128、64三種不同的緩存預(yù)算大小（即最多保留多少個(gè)詞的緩存）。結(jié)果是：無(wú)論哪種預(yù)算大小，無(wú)論密碼藏在哪個(gè)位置，IceCache都實(shí)現(xiàn)了100%的檢索準(zhǔn)確率。這意味著即便只保留64個(gè)詞的緩存預(yù)算，IceCache依然能精準(zhǔn)找到藏在十萬(wàn)詞文本里的任何一串密碼。

第二項(xiàng)測(cè)試是LongBench，一個(gè)業(yè)界標(biāo)準(zhǔn)的長(zhǎng)文本理解綜合評(píng)測(cè)，涵蓋了單文檔問(wèn)答、多文檔問(wèn)答、文本摘要、少樣本學(xué)習(xí)、合成任務(wù)、代碼生成六大類共十六個(gè)子任務(wù)。在Llama-3.1-8B模型上，使用256的緩存預(yù)算，IceCache平均得分49.0分，而同等預(yù)算下最強(qiáng)的競(jìng)爭(zhēng)對(duì)手PQCache只有47.3分。更引人注目的是，即便IceCache只用64的緩存預(yù)算（是PQCache預(yù)算的四分之一），得分依然達(dá)到47.8，超過(guò)了用256預(yù)算的PQCache。換個(gè)角度理解：IceCache用四倍更省的資源，取得了更好的結(jié)果。而完整緩存（不做任何壓縮）的得分是49.5，IceCache以256預(yù)算距離這個(gè)上限只差0.5分，接近于"理論最優(yōu)"的性能。在Mistral-7B模型上也觀察到類似規(guī)律，256預(yù)算下IceCache得41.7分，比最強(qiáng)基線MagicPiG（39.1分）高出2.6分。

對(duì)于更大規(guī)模的Qwen3-32B，64預(yù)算下的平均分42.2是完整緩存43.4分的97.2%，256預(yù)算下則達(dá)到43.1分，保留了99.3%的性能。對(duì)于使用標(biāo)準(zhǔn)多頭注意力（而非更先進(jìn)的分組查詢注意力）的LongChat-7B-v1.5，64預(yù)算保留了96.3%，256預(yù)算保留了99.4%。這兩項(xiàng)額外測(cè)試，驗(yàn)證了IceCache在不同模型規(guī)模和不同架構(gòu)上都能有效工作。

第三項(xiàng)測(cè)試是GSM8K數(shù)學(xué)推理，用的是"鏈?zhǔn)剿季S"提示方式：讓AI一步步展示解題思路，而不是直接給答案。這類任務(wù)特別考驗(yàn)長(zhǎng)文本生成能力，因?yàn)锳I需要始終保持對(duì)前面推理步驟的一致性和記憶。使用10%的緩存預(yù)算，IceCache在Mistral-7B上達(dá)到47.4%的準(zhǔn)確率，最強(qiáng)基線PQCache是46%，完整緩存是48.2%。IceCache填補(bǔ)了壓縮緩存與完整緩存之間超過(guò)90%的性能差距。

在延遲表現(xiàn)方面，研究團(tuán)隊(duì)在36000詞的序列上進(jìn)行了詳細(xì)測(cè)量。在第二個(gè)詞的生成時(shí)間（TT2T，反映初始處理速度）上，IceCache需要7.7秒，引入層間索引復(fù)用技巧后的加速版本IceCache(reuse)降到5.9秒，與OmniKV的5.8秒相當(dāng)，優(yōu)于PQCache的13.3秒，而精度更高。每個(gè)生成詞的平均時(shí)間（TPOT）上，IceCache(reuse)是0.06秒，PQCache是0.13秒，OmniKV是0.05秒，IceCache在速度和精度之間的平衡點(diǎn)上表現(xiàn)突出，準(zhǔn)確率（相對(duì)完整緩存）達(dá)到99%，同時(shí)速度遠(yuǎn)快于PQCache。對(duì)TPOT的詳細(xì)分解顯示，在總共0.11秒的延遲中，DCI查詢占0.05秒，LLM解碼本身占0.04秒，CPU到GPU的數(shù)據(jù)傳輸只占0.015秒，其余雜項(xiàng)開(kāi)銷0.005秒——傳輸開(kāi)銷被高效的批量加載壓縮到了相當(dāng)?shù)偷乃健?/p>

第四項(xiàng)測(cè)試在超長(zhǎng)上下文場(chǎng)景下進(jìn)行，使用RULER基準(zhǔn)測(cè)試，在150000詞、200000詞、250000詞三個(gè)極端長(zhǎng)度下測(cè)試了單針查找、多鍵查找和問(wèn)答三類任務(wù)，使用的模型是Qwen3-4B-Instruct。結(jié)果顯示，IceCache和加速版IceCache(reuse)在所有任務(wù)和長(zhǎng)度下的準(zhǔn)確率都與完整緩存持平，甚至在部分任務(wù)上略有超出（例如250000詞時(shí)多鍵查找，IceCache得93分，完整緩存得91分）。更重要的是，隨著序列長(zhǎng)度從150000增長(zhǎng)到300000詞，完整緩存的每詞解碼延遲急劇攀升，而IceCache和IceCache(reuse)的延遲增長(zhǎng)則平緩得多，展現(xiàn)出更好的可擴(kuò)展性。

研究團(tuán)隊(duì)還專門(mén)在LongGenBench上進(jìn)行了測(cè)試，這是一個(gè)專注于長(zhǎng)文本生成質(zhì)量的基準(zhǔn)（區(qū)別于長(zhǎng)文本理解）。使用Llama-3.1-8B配合256預(yù)算，IceCache的平均準(zhǔn)確率0.331，完整緩存是0.324，PQCache是0.273。IceCache不僅顯著優(yōu)于PQCache，甚至在這個(gè)指標(biāo)上略微超過(guò)了完整緩存，表明語(yǔ)義聚類的組織方式在某些生成任務(wù)上確實(shí)帶來(lái)了質(zhì)量上的提升。

六、一些值得了解的技術(shù)細(xì)節(jié)

研究團(tuán)隊(duì)將文本中的詞分成三類：最開(kāi)頭的"錨點(diǎn)詞"（sink tokens，通常是特別受注意力關(guān)注的開(kāi)頭標(biāo)記）、最新生成的"窗口詞"，以及中間所有其他詞。錨點(diǎn)頁(yè)和窗口頁(yè)始終保留在GPU上不做卸載，確保AI在生成時(shí)對(duì)最近的上下文有即時(shí)訪問(wèn)能力。只有中間大量的歷史詞的緩存會(huì)被搬到CPU，并由DCI樹(shù)管理。

對(duì)于使用"分組查詢注意力"（GQA）架構(gòu)的模型（如Llama和Mistral），多個(gè)查詢頭共享同一組key，IceCache會(huì)計(jì)算同一組內(nèi)所有查詢頭選出的頁(yè)面的并集，統(tǒng)一使用，減少重復(fù)加載。

索引的數(shù)學(xué)變換（TK和TQ公式）是一個(gè)經(jīng)過(guò)精心設(shè)計(jì)的技巧：通過(guò)對(duì)key向量做歸一化處理，增加一個(gè)額外維度，使得原本的內(nèi)積相似度計(jì)算等價(jià)于歐幾里得距離計(jì)算，從而能夠利用DCI算法高效完成近似最近鄰搜索，避免了暴力遍歷所有詞的高計(jì)算代價(jià)。

IceCache的流水線設(shè)計(jì)注意到了一個(gè)重要的隱藏機(jī)會(huì)：DCI樹(shù)的構(gòu)建是CPU密集型操作，而注意力計(jì)算是GPU密集型操作，兩者使用的硬件資源不同，天然可以并行。通過(guò)精心安排操作順序，研究團(tuán)隊(duì)讓構(gòu)建索引的CPU操作與GPU的計(jì)算完全重疊，使得索引構(gòu)建的時(shí)間開(kāi)銷幾乎完全被隱藏掉。

說(shuō)到底，這項(xiàng)研究做的事情，是把一個(gè)看似是工程優(yōu)化的問(wèn)題，用更聰明的數(shù)學(xué)結(jié)構(gòu)來(lái)解決。以前的方法把效率問(wèn)題交給更快的傳輸速度或更激進(jìn)的刪減策略，而IceCache的回答是：在信息還沒(méi)丟失之前，先把它們整理成更容易被找到的形式。這個(gè)思路的轉(zhuǎn)變，使得用更少的資源維持更高質(zhì)量成為可能。

對(duì)于普通用戶來(lái)說(shuō)，這意味著未來(lái)的AI助手在處理你給它的長(zhǎng)篇報(bào)告、法律文件、學(xué)術(shù)論文或者長(zhǎng)對(duì)話時(shí)，可以用更小的內(nèi)存占用維持更高的準(zhǔn)確性，響應(yīng)速度更快，在資源有限的設(shè)備上也能有更好的表現(xiàn)。對(duì)于AI服務(wù)提供商來(lái)說(shuō)，這意味著同樣的硬件可以同時(shí)服務(wù)更多用戶，或者在相同成本下處理更長(zhǎng)的任務(wù)。

歸根結(jié)底，讓AI變得更聰明有兩條路：一是讓它的大腦更強(qiáng)，二是讓它更會(huì)利用現(xiàn)有的大腦空間。IceCache走的是第二條路，而且走得相當(dāng)扎實(shí)。如果你對(duì)技術(shù)細(xì)節(jié)感興趣，可以通過(guò)arXiv:2604.10539找到完整論文。

Q&A

Q1：KV緩存是什么，為什么會(huì)成為AI的瓶頸？

A：KV緩存是AI在處理文本時(shí)生成并保存的中間計(jì)算結(jié)果，相當(dāng)于AI的工作記憶。它的問(wèn)題在于大小和文本長(zhǎng)度成正比，文本越長(zhǎng)占用的顯存越多。處理幾萬(wàn)個(gè)詞的長(zhǎng)文本時(shí)，KV緩存可能把整個(gè)GPU顯存塞滿，導(dǎo)致系統(tǒng)崩潰或速度急劇下降。這是當(dāng)前長(zhǎng)文本AI推理的核心瓶頸之一。

Q2：IceCache和以前的KV緩存管理方法有什么本質(zhì)區(qū)別？

A：最核心的區(qū)別在于組織方式。以前的方法按詞在文本中的原始出現(xiàn)順序存儲(chǔ)緩存，導(dǎo)致語(yǔ)義相關(guān)的詞分散在各處，查找時(shí)要加載大量無(wú)關(guān)內(nèi)容。IceCache通過(guò)DCI樹(shù)結(jié)構(gòu)，把內(nèi)容語(yǔ)義相似的詞的緩存聚集在同一個(gè)內(nèi)存頁(yè)里，查找時(shí)精準(zhǔn)命中，減少了無(wú)效數(shù)據(jù)傳輸，用更少的緩存預(yù)算維持了更高的準(zhǔn)確率。

Q3：IceCache在實(shí)際測(cè)試中能節(jié)省多少顯存，準(zhǔn)確率損失大嗎？

A：根據(jù)論文的測(cè)試結(jié)果，IceCache使用僅64個(gè)詞的緩存預(yù)算（是對(duì)比方法的四分之一），在LongBench評(píng)測(cè)上的得分仍然超過(guò)使用256預(yù)算的最強(qiáng)競(jìng)爭(zhēng)對(duì)手PQCache。使用256預(yù)算時(shí)，準(zhǔn)確率達(dá)到完整緩存的99%以上。在超長(zhǎng)文本（25萬(wàn)詞）場(chǎng)景下，準(zhǔn)確率與完整緩存持平，但解碼延遲增長(zhǎng)速度遠(yuǎn)低于完整緩存方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.