国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)AI的"記憶倉(cāng)庫(kù)"塞不下時(shí),它們是怎么聰明騰地方的?

0
分享至


這項(xiàng)由西蒙弗雷澤大學(xué)與哈佛大學(xué)聯(lián)合開(kāi)展的研究,發(fā)表于2026年國(guó)際學(xué)習(xí)表征會(huì)議(ICLR 2026),論文編號(hào)為arXiv:2604.10539,有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

每當(dāng)你用ChatGPT或類似的AI工具進(jìn)行長(zhǎng)對(duì)話、讓它寫(xiě)一篇長(zhǎng)文章,或者要求它分析一份長(zhǎng)達(dá)幾十頁(yè)的合同時(shí),AI其實(shí)正在悄悄承受一種你看不見(jiàn)的壓力——它的"工作記憶"正在以驚人的速度膨脹。西蒙弗雷澤大學(xué)與哈佛大學(xué)的研究團(tuán)隊(duì)注意到了這個(gè)被大多數(shù)人忽視的瓶頸,并為此提出了一套他們稱之為"IceCache"的解決方案。

以一個(gè)非常直觀的比喻來(lái)理解這個(gè)問(wèn)題:AI在處理長(zhǎng)文本時(shí),就像一位速記員坐在一張書(shū)桌前,每讀完一個(gè)詞,就要在桌上放一張小紙條,記下這個(gè)詞的相關(guān)信息,以便稍后參考。對(duì)話越長(zhǎng),桌上的紙條就越多,很快就會(huì)堆滿整張桌子,甚至溢出到地板上。這張"書(shū)桌",在真實(shí)的AI系統(tǒng)中,就是GPU顯存——圖形處理器上那塊速度極快但容量有限的高速內(nèi)存。而那些紙條,專業(yè)上叫做"KV緩存"(Key-Value Cache),是AI在處理每一個(gè)詞時(shí)生成并保存的中間計(jì)算結(jié)果。

這個(gè)KV緩存的麻煩在于,它的大小和文本長(zhǎng)度成正比,文本翻倍,緩存就翻倍。當(dāng)處理幾萬(wàn)個(gè)詞的長(zhǎng)文本時(shí),僅僅這個(gè)緩存就能把高端AI服務(wù)器的顯存完全塞滿,讓系統(tǒng)要么崩潰報(bào)錯(cuò),要么急劇變慢。這不是理論上的擔(dān)憂,而是工程師們每天都在面對(duì)的實(shí)際挑戰(zhàn)。

IceCache的思路是:既然桌子(顯存)有限,我們就必須智慧地管理那些紙條——把暫時(shí)不需要的搬到旁邊的文件柜(CPU內(nèi)存)里,需要時(shí)再取回來(lái)。但取回這個(gè)動(dòng)作本身也需要時(shí)間,關(guān)鍵是如何知道"哪張紙條最有可能被用到",以及"如何最快地找到并取回它"。這兩個(gè)問(wèn)題,正是這篇論文最核心的貢獻(xiàn)所在。

一、為什么以前的方法總是不夠用

在IceCache出現(xiàn)之前,研究者們已經(jīng)在努力解決這個(gè)問(wèn)題,但各有局限。一部分方法選擇"永久刪除"那些看起來(lái)不重要的紙條,這叫做"驅(qū)逐"策略。比如有一種叫H2O的方法,只保留那些在過(guò)去被頻繁參考的詞的記錄;還有StreamingLLM,它總是保留最開(kāi)頭的幾張紙條和最新的幾張紙條,中間的全部丟棄。這些方法速度很快,因?yàn)閯h掉的東西就真的不見(jiàn)了,不需要取回操作。但代價(jià)是,一旦某張被刪掉的紙條在后面突然變得重要,AI就只能憑著模糊的殘缺記憶工作,準(zhǔn)確性自然會(huì)下降。

另一部分方法更保守,它們把不常用的紙條搬到文件柜(CPU內(nèi)存)里暫存,而不是徹底丟棄,這叫做"卸載"策略。MagicPiG、OmniKV、PQCache都屬于這一類。它們保留的信息更完整,但問(wèn)題出在如何決定"搬哪些紙條回書(shū)桌"這個(gè)環(huán)節(jié)上。這些方法通常按照紙條在桌上擺放的原始順序來(lái)管理,就像圖書(shū)館按照書(shū)的進(jìn)館時(shí)間而不是書(shū)的內(nèi)容來(lái)排列書(shū)架一樣。當(dāng)你要找一本關(guān)于某個(gè)主題的書(shū)時(shí),可能需要翻遍整個(gè)書(shū)架,順便把大量無(wú)關(guān)的書(shū)也搬下來(lái)翻看一遍。

這種低效還帶來(lái)另一個(gè)問(wèn)題:在AI進(jìn)行長(zhǎng)文本生成時(shí),比如寫(xiě)一篇推理分析、做多步驟的數(shù)學(xué)題或者總結(jié)超長(zhǎng)報(bào)告,需要反復(fù)參考分散在文本各處的相關(guān)信息。如果緩存的組織方式不合理,每次需要某類信息時(shí),系統(tǒng)要加載大量無(wú)關(guān)內(nèi)容,速度慢,準(zhǔn)確率也低。研究團(tuán)隊(duì)引用了一項(xiàng)對(duì)這些方法的綜合評(píng)測(cè),顯示在長(zhǎng)文本生成任務(wù)上,現(xiàn)有方法的性能下降相當(dāng)明顯,這是整個(gè)領(lǐng)域公認(rèn)的痛點(diǎn)。

IceCache的思路是從根本上改變紙條的整理方式:不按時(shí)間順序放,而是按內(nèi)容相似性聚在一起放。這個(gè)看似簡(jiǎn)單的改變,帶來(lái)了一系列連鎖反應(yīng)式的改進(jìn)。

二、核心創(chuàng)新:按"內(nèi)容相關(guān)性"而非"時(shí)間順序"整理記憶

理解IceCache的核心,需要先理解"頁(yè)"這個(gè)概念。在計(jì)算機(jī)的內(nèi)存管理中,就像超市倉(cāng)庫(kù)里的貨架是按固定大小的格子劃分的一樣,內(nèi)存也被劃分成一個(gè)個(gè)固定大小的"頁(yè)"。每次取用數(shù)據(jù),都是以"頁(yè)"為單位進(jìn)行的——你不能只取一頁(yè)中的一個(gè)詞,必須把整頁(yè)都取出來(lái)。這套管理方式叫做"PagedAttention",是業(yè)界廣泛使用的成熟技術(shù)。

在傳統(tǒng)方法里,AI按照詞的出現(xiàn)順序把紙條填進(jìn)格子,第一格裝第1到第16個(gè)詞,第二格裝第17到第32個(gè)詞,以此類推。這種方式整齊,但語(yǔ)義上毫無(wú)關(guān)聯(lián)——一頁(yè)里可能同時(shí)裝著"蘋(píng)果公司的季報(bào)"和"蘋(píng)果的營(yíng)養(yǎng)成分",它們?cè)趦?nèi)容上沒(méi)有任何關(guān)系,只是碰巧在文本里位置相近。

IceCache做的事情是:在處理文本的初始階段,仔細(xì)分析每個(gè)詞對(duì)應(yīng)的"key向量"——這是AI內(nèi)部對(duì)每個(gè)詞語(yǔ)義信息的數(shù)學(xué)表達(dá),可以理解為每張紙條上凝練的"內(nèi)容標(biāo)簽"——然后把內(nèi)容標(biāo)簽相似的紙條歸攏到同一格子里。如果文章里多處都在討論"財(cái)務(wù)數(shù)據(jù)",那些詞的紙條就會(huì)被放在同一格。如果多處在討論"產(chǎn)品技術(shù)",相關(guān)紙條也聚在一起。

這種按內(nèi)容聚類的方式,讓IceCache在決定"取哪一格"時(shí)精準(zhǔn)得多。當(dāng)AI正在生成關(guān)于"財(cái)務(wù)分析"的內(nèi)容,需要參考之前的相關(guān)背景時(shí),它只需要取出那幾格專門(mén)裝著財(cái)務(wù)信息的頁(yè)面,而不是把整個(gè)書(shū)架都搬出來(lái)翻找。檢索命中率大幅提升,無(wú)效數(shù)據(jù)傳輸大幅減少。

三、DCI樹(shù):讓記憶整理既快又能隨時(shí)更新

僅僅把相似內(nèi)容放在一起還不夠,還需要一套高效的機(jī)制來(lái)管理這些聚類,并在AI持續(xù)生成新內(nèi)容時(shí)隨時(shí)維護(hù)這個(gè)結(jié)構(gòu)。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"DCI樹(shù)"的層級(jí)數(shù)據(jù)結(jié)構(gòu),這是整套方案的技術(shù)骨架。

DCI樹(shù)可以用圖書(shū)館的分類體系來(lái)理解。頂層是最寬泛的大類,比如"科學(xué)";向下一層分成更細(xì)的中類,比如"物理"、"化學(xué)"、"生物";再向下是小類,比如"量子物理"、"有機(jī)化學(xué)"等;最底層才是具體的書(shū)(詞的紙條)。當(dāng)你要找一本關(guān)于"量子糾纏"的書(shū)時(shí),不需要從第一本書(shū)翻到最后一本,而是先找到"科學(xué)"大類,再找到"物理",再找到"量子物理",最后在這個(gè)小范圍內(nèi)精確定位。每一層都大幅縮小了搜索范圍。

在技術(shù)實(shí)現(xiàn)上,這套結(jié)構(gòu)基于一種叫做"多層動(dòng)態(tài)連續(xù)索引"(M-DCI)的算法,是研究團(tuán)隊(duì)在前人工作(P-DCI算法)基礎(chǔ)上的擴(kuò)展。構(gòu)建樹(shù)的時(shí)候,首先把所有詞的內(nèi)容標(biāo)簽(key向量)做一個(gè)數(shù)學(xué)變換,讓原本計(jì)算內(nèi)積相似度的問(wèn)題轉(zhuǎn)化成計(jì)算歐幾里得距離的問(wèn)題,這樣更容易利用各種高效的近鄰搜索算法。然后,通過(guò)一種隨機(jī)"晉升"機(jī)制構(gòu)建層級(jí):所有詞先放在最底層,然后隨機(jī)抽取一部分詞晉升到上一層,再?gòu)倪@部分中隨機(jī)抽取更少的詞晉升到再上一層,如此類推,形成一個(gè)金字塔結(jié)構(gòu)。每個(gè)詞都被分配了一個(gè)"父節(jié)點(diǎn)",就是上一層中和它內(nèi)容最相似的那個(gè)詞。這種層級(jí)關(guān)系形成的聚類,在物理內(nèi)存上直接對(duì)應(yīng)到一個(gè)個(gè)"頁(yè)"——同一個(gè)父節(jié)點(diǎn)下的詞,被存儲(chǔ)在同一頁(yè)里。

這套結(jié)構(gòu)還有一個(gè)關(guān)鍵特性:它支持高效的動(dòng)態(tài)更新。當(dāng)AI生成了新的詞,這個(gè)詞的紙條也要被加入到體系中。DCI樹(shù)不需要推倒重建,只需要根據(jù)新詞的內(nèi)容標(biāo)簽,用同樣的隨機(jī)晉升機(jī)制決定它放在哪一層,然后在該層找到內(nèi)容最相似的父節(jié)點(diǎn),把它掛上去就好了。這種增量更新的能力,解決了之前方法在長(zhǎng)文本生成任務(wù)中隨著時(shí)間推移性能越來(lái)越差的問(wèn)題——舊方法的組織結(jié)構(gòu)是靜態(tài)的,新生成的內(nèi)容無(wú)法有效融入,導(dǎo)致越往后找到相關(guān)內(nèi)容的概率越低。IceCache的樹(shù)結(jié)構(gòu)則始終保持語(yǔ)義上的有序性。

四、兩項(xiàng)工程優(yōu)化:批量傳輸與流水線并行

搞清楚"怎么找到需要的紙條"之后,還有一個(gè)同樣重要的工程問(wèn)題:怎么把紙條從文件柜(CPU內(nèi)存)搬回書(shū)桌(GPU顯存)的速度盡量快。

第一項(xiàng)優(yōu)化叫做"批量加載"。CPU和GPU之間的數(shù)據(jù)傳輸通道(PCIe總線)就像一條高速公路,每次啟動(dòng)一次傳輸都有固定的"過(guò)路費(fèi)"(延遲開(kāi)銷)。如果每次只搬一張紙條,來(lái)回折騰的開(kāi)銷會(huì)把實(shí)際傳輸?shù)氖找嫒客淌?。IceCache的做法是:先把所有需要的紙條集中到一個(gè)臨時(shí)集中區(qū)(CPU預(yù)加載緩沖區(qū)),打包成一個(gè)整體,通過(guò)一次高吞吐量的傳輸送到GPU的緩沖區(qū),再?gòu)哪抢锷㈤_(kāi)分配到各自的位置。這就像搬家時(shí)不是一件件家具來(lái)回跑,而是把所有東西裝進(jìn)一輛大卡車一次性運(yùn)過(guò)去,大幅提升了傳輸效率。

第二項(xiàng)優(yōu)化叫做"流水線并行"。在沒(méi)有優(yōu)化的情況下,AI處理文本的流程是串行的:先計(jì)算一層,再把這層的緩存?zhèn)鞯紺PU,再建立索引,再計(jì)算下一層,如此往復(fù),等待時(shí)間層層疊加。IceCache重新設(shè)計(jì)了這個(gè)流程,讓不同的操作同時(shí)進(jìn)行。具體來(lái)說(shuō),當(dāng)GPU正在計(jì)算第i+1層的注意力時(shí),CPU同時(shí)在對(duì)第i層剛剛傳來(lái)的KV數(shù)據(jù)建立DCI樹(shù)索引,而PCIe通道同時(shí)在傳輸?shù)趇層的數(shù)據(jù)。三條流水線并行推進(jìn),把原本需要串行等待的時(shí)間大幅壓縮。研究論文中專門(mén)用圖示對(duì)比了串行工作流和流水線工作流,后者的端到端處理延遲明顯更短。

五、實(shí)驗(yàn)數(shù)據(jù)說(shuō)話:IceCache在多項(xiàng)測(cè)試中表現(xiàn)如何

研究團(tuán)隊(duì)在四個(gè)不同的語(yǔ)言模型上測(cè)試了IceCache,涵蓋了不同規(guī)模和不同架構(gòu):70億參數(shù)量級(jí)的Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2、LongChat-7B-v1.5,以及320億參數(shù)量級(jí)的Qwen3-32B。測(cè)試使用了A100和H100兩種高端GPU,軟件環(huán)境包括CUDA 12.2和PyTorch 2.4.1。

第一項(xiàng)測(cè)試叫做"密鑰檢索",是一個(gè)專門(mén)考驗(yàn)長(zhǎng)程記憶的任務(wù):在一段長(zhǎng)達(dá)十萬(wàn)個(gè)詞的文本里,隨機(jī)某個(gè)位置藏了一串密碼,AI需要找出來(lái)。這是對(duì)緩存管理能力最極端的考驗(yàn),因?yàn)槊艽a可能藏在文本的任何位置,AI必須保留對(duì)全文任意位置的有效訪問(wèn)。測(cè)試了10000詞到100000詞不同長(zhǎng)度,以及256、128、64三種不同的緩存預(yù)算大小(即最多保留多少個(gè)詞的緩存)。結(jié)果是:無(wú)論哪種預(yù)算大小,無(wú)論密碼藏在哪個(gè)位置,IceCache都實(shí)現(xiàn)了100%的檢索準(zhǔn)確率。這意味著即便只保留64個(gè)詞的緩存預(yù)算,IceCache依然能精準(zhǔn)找到藏在十萬(wàn)詞文本里的任何一串密碼。

第二項(xiàng)測(cè)試是LongBench,一個(gè)業(yè)界標(biāo)準(zhǔn)的長(zhǎng)文本理解綜合評(píng)測(cè),涵蓋了單文檔問(wèn)答、多文檔問(wèn)答、文本摘要、少樣本學(xué)習(xí)、合成任務(wù)、代碼生成六大類共十六個(gè)子任務(wù)。在Llama-3.1-8B模型上,使用256的緩存預(yù)算,IceCache平均得分49.0分,而同等預(yù)算下最強(qiáng)的競(jìng)爭(zhēng)對(duì)手PQCache只有47.3分。更引人注目的是,即便IceCache只用64的緩存預(yù)算(是PQCache預(yù)算的四分之一),得分依然達(dá)到47.8,超過(guò)了用256預(yù)算的PQCache。換個(gè)角度理解:IceCache用四倍更省的資源,取得了更好的結(jié)果。而完整緩存(不做任何壓縮)的得分是49.5,IceCache以256預(yù)算距離這個(gè)上限只差0.5分,接近于"理論最優(yōu)"的性能。在Mistral-7B模型上也觀察到類似規(guī)律,256預(yù)算下IceCache得41.7分,比最強(qiáng)基線MagicPiG(39.1分)高出2.6分。

對(duì)于更大規(guī)模的Qwen3-32B,64預(yù)算下的平均分42.2是完整緩存43.4分的97.2%,256預(yù)算下則達(dá)到43.1分,保留了99.3%的性能。對(duì)于使用標(biāo)準(zhǔn)多頭注意力(而非更先進(jìn)的分組查詢注意力)的LongChat-7B-v1.5,64預(yù)算保留了96.3%,256預(yù)算保留了99.4%。這兩項(xiàng)額外測(cè)試,驗(yàn)證了IceCache在不同模型規(guī)模和不同架構(gòu)上都能有效工作。

第三項(xiàng)測(cè)試是GSM8K數(shù)學(xué)推理,用的是"鏈?zhǔn)剿季S"提示方式:讓AI一步步展示解題思路,而不是直接給答案。這類任務(wù)特別考驗(yàn)長(zhǎng)文本生成能力,因?yàn)锳I需要始終保持對(duì)前面推理步驟的一致性和記憶。使用10%的緩存預(yù)算,IceCache在Mistral-7B上達(dá)到47.4%的準(zhǔn)確率,最強(qiáng)基線PQCache是46%,完整緩存是48.2%。IceCache填補(bǔ)了壓縮緩存與完整緩存之間超過(guò)90%的性能差距。

在延遲表現(xiàn)方面,研究團(tuán)隊(duì)在36000詞的序列上進(jìn)行了詳細(xì)測(cè)量。在第二個(gè)詞的生成時(shí)間(TT2T,反映初始處理速度)上,IceCache需要7.7秒,引入層間索引復(fù)用技巧后的加速版本IceCache(reuse)降到5.9秒,與OmniKV的5.8秒相當(dāng),優(yōu)于PQCache的13.3秒,而精度更高。每個(gè)生成詞的平均時(shí)間(TPOT)上,IceCache(reuse)是0.06秒,PQCache是0.13秒,OmniKV是0.05秒,IceCache在速度和精度之間的平衡點(diǎn)上表現(xiàn)突出,準(zhǔn)確率(相對(duì)完整緩存)達(dá)到99%,同時(shí)速度遠(yuǎn)快于PQCache。對(duì)TPOT的詳細(xì)分解顯示,在總共0.11秒的延遲中,DCI查詢占0.05秒,LLM解碼本身占0.04秒,CPU到GPU的數(shù)據(jù)傳輸只占0.015秒,其余雜項(xiàng)開(kāi)銷0.005秒——傳輸開(kāi)銷被高效的批量加載壓縮到了相當(dāng)?shù)偷乃健?/p>

第四項(xiàng)測(cè)試在超長(zhǎng)上下文場(chǎng)景下進(jìn)行,使用RULER基準(zhǔn)測(cè)試,在150000詞、200000詞、250000詞三個(gè)極端長(zhǎng)度下測(cè)試了單針查找、多鍵查找和問(wèn)答三類任務(wù),使用的模型是Qwen3-4B-Instruct。結(jié)果顯示,IceCache和加速版IceCache(reuse)在所有任務(wù)和長(zhǎng)度下的準(zhǔn)確率都與完整緩存持平,甚至在部分任務(wù)上略有超出(例如250000詞時(shí)多鍵查找,IceCache得93分,完整緩存得91分)。更重要的是,隨著序列長(zhǎng)度從150000增長(zhǎng)到300000詞,完整緩存的每詞解碼延遲急劇攀升,而IceCache和IceCache(reuse)的延遲增長(zhǎng)則平緩得多,展現(xiàn)出更好的可擴(kuò)展性。

研究團(tuán)隊(duì)還專門(mén)在LongGenBench上進(jìn)行了測(cè)試,這是一個(gè)專注于長(zhǎng)文本生成質(zhì)量的基準(zhǔn)(區(qū)別于長(zhǎng)文本理解)。使用Llama-3.1-8B配合256預(yù)算,IceCache的平均準(zhǔn)確率0.331,完整緩存是0.324,PQCache是0.273。IceCache不僅顯著優(yōu)于PQCache,甚至在這個(gè)指標(biāo)上略微超過(guò)了完整緩存,表明語(yǔ)義聚類的組織方式在某些生成任務(wù)上確實(shí)帶來(lái)了質(zhì)量上的提升。

六、一些值得了解的技術(shù)細(xì)節(jié)

研究團(tuán)隊(duì)將文本中的詞分成三類:最開(kāi)頭的"錨點(diǎn)詞"(sink tokens,通常是特別受注意力關(guān)注的開(kāi)頭標(biāo)記)、最新生成的"窗口詞",以及中間所有其他詞。錨點(diǎn)頁(yè)和窗口頁(yè)始終保留在GPU上不做卸載,確保AI在生成時(shí)對(duì)最近的上下文有即時(shí)訪問(wèn)能力。只有中間大量的歷史詞的緩存會(huì)被搬到CPU,并由DCI樹(shù)管理。

對(duì)于使用"分組查詢注意力"(GQA)架構(gòu)的模型(如Llama和Mistral),多個(gè)查詢頭共享同一組key,IceCache會(huì)計(jì)算同一組內(nèi)所有查詢頭選出的頁(yè)面的并集,統(tǒng)一使用,減少重復(fù)加載。

索引的數(shù)學(xué)變換(TK和TQ公式)是一個(gè)經(jīng)過(guò)精心設(shè)計(jì)的技巧:通過(guò)對(duì)key向量做歸一化處理,增加一個(gè)額外維度,使得原本的內(nèi)積相似度計(jì)算等價(jià)于歐幾里得距離計(jì)算,從而能夠利用DCI算法高效完成近似最近鄰搜索,避免了暴力遍歷所有詞的高計(jì)算代價(jià)。

IceCache的流水線設(shè)計(jì)注意到了一個(gè)重要的隱藏機(jī)會(huì):DCI樹(shù)的構(gòu)建是CPU密集型操作,而注意力計(jì)算是GPU密集型操作,兩者使用的硬件資源不同,天然可以并行。通過(guò)精心安排操作順序,研究團(tuán)隊(duì)讓構(gòu)建索引的CPU操作與GPU的計(jì)算完全重疊,使得索引構(gòu)建的時(shí)間開(kāi)銷幾乎完全被隱藏掉。

說(shuō)到底,這項(xiàng)研究做的事情,是把一個(gè)看似是工程優(yōu)化的問(wèn)題,用更聰明的數(shù)學(xué)結(jié)構(gòu)來(lái)解決。以前的方法把效率問(wèn)題交給更快的傳輸速度或更激進(jìn)的刪減策略,而IceCache的回答是:在信息還沒(méi)丟失之前,先把它們整理成更容易被找到的形式。這個(gè)思路的轉(zhuǎn)變,使得用更少的資源維持更高質(zhì)量成為可能。

對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手在處理你給它的長(zhǎng)篇報(bào)告、法律文件、學(xué)術(shù)論文或者長(zhǎng)對(duì)話時(shí),可以用更小的內(nèi)存占用維持更高的準(zhǔn)確性,響應(yīng)速度更快,在資源有限的設(shè)備上也能有更好的表現(xiàn)。對(duì)于AI服務(wù)提供商來(lái)說(shuō),這意味著同樣的硬件可以同時(shí)服務(wù)更多用戶,或者在相同成本下處理更長(zhǎng)的任務(wù)。

歸根結(jié)底,讓AI變得更聰明有兩條路:一是讓它的大腦更強(qiáng),二是讓它更會(huì)利用現(xiàn)有的大腦空間。IceCache走的是第二條路,而且走得相當(dāng)扎實(shí)。如果你對(duì)技術(shù)細(xì)節(jié)感興趣,可以通過(guò)arXiv:2604.10539找到完整論文。

Q&A

Q1:KV緩存是什么,為什么會(huì)成為AI的瓶頸?

A:KV緩存是AI在處理文本時(shí)生成并保存的中間計(jì)算結(jié)果,相當(dāng)于AI的工作記憶。它的問(wèn)題在于大小和文本長(zhǎng)度成正比,文本越長(zhǎng)占用的顯存越多。處理幾萬(wàn)個(gè)詞的長(zhǎng)文本時(shí),KV緩存可能把整個(gè)GPU顯存塞滿,導(dǎo)致系統(tǒng)崩潰或速度急劇下降。這是當(dāng)前長(zhǎng)文本AI推理的核心瓶頸之一。

Q2:IceCache和以前的KV緩存管理方法有什么本質(zhì)區(qū)別?

A:最核心的區(qū)別在于組織方式。以前的方法按詞在文本中的原始出現(xiàn)順序存儲(chǔ)緩存,導(dǎo)致語(yǔ)義相關(guān)的詞分散在各處,查找時(shí)要加載大量無(wú)關(guān)內(nèi)容。IceCache通過(guò)DCI樹(shù)結(jié)構(gòu),把內(nèi)容語(yǔ)義相似的詞的緩存聚集在同一個(gè)內(nèi)存頁(yè)里,查找時(shí)精準(zhǔn)命中,減少了無(wú)效數(shù)據(jù)傳輸,用更少的緩存預(yù)算維持了更高的準(zhǔn)確率。

Q3:IceCache在實(shí)際測(cè)試中能節(jié)省多少顯存,準(zhǔn)確率損失大嗎?

A:根據(jù)論文的測(cè)試結(jié)果,IceCache使用僅64個(gè)詞的緩存預(yù)算(是對(duì)比方法的四分之一),在LongBench評(píng)測(cè)上的得分仍然超過(guò)使用256預(yù)算的最強(qiáng)競(jìng)爭(zhēng)對(duì)手PQCache。使用256預(yù)算時(shí),準(zhǔn)確率達(dá)到完整緩存的99%以上。在超長(zhǎng)文本(25萬(wàn)詞)場(chǎng)景下,準(zhǔn)確率與完整緩存持平,但解碼延遲增長(zhǎng)速度遠(yuǎn)低于完整緩存方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說(shuō)NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

悠悠說(shuō)世界
2026-04-25 14:03:58
賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說(shuō)
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開(kāi)房,女人每次偷情都在車?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂(lè)悠悠
2026-04-27 09:21:13
5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

洞見(jiàn)小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

游戲
親子
教育
數(shù)碼
家居

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫(huà)面

親子要聞

拍這期視頻時(shí)眼淚止不住地流

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開(kāi)啟預(yù)約

家居要聞

江景風(fēng)格 流動(dòng)的秩序

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版