網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI大模型的"文件包"技術(shù)，讓推理速度提升近20倍

2026-04-26 19:09:19　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)研究由慕尼黑工業(yè)大學(xué)、達(dá)姆施塔特工業(yè)大學(xué)、浙江大學(xué)以及伊爾梅瑙工業(yè)大學(xué)的研究團(tuán)隊(duì)聯(lián)合完成，發(fā)表于2026年第40屆神經(jīng)信息處理系統(tǒng)大會(huì)（NeurIPS 2026），論文編號(hào)為arXiv:2604.13226，有興趣深入了解的讀者可通過該編號(hào)查閱完整論文。

每當(dāng)你向ChatGPT或類似的AI助手提問，背后發(fā)生的事情遠(yuǎn)比你以為的復(fù)雜得多。AI需要先"讀懂"你提供的所有文件、背景資料，然后才能回答你的問題。這個(gè)"讀懂"的過程，在專業(yè)術(shù)語里叫做"預(yù)填充"，它消耗的時(shí)間直接決定了你等待第一個(gè)字出現(xiàn)在屏幕上需要多久。這段等待時(shí)間有個(gè)專門的名字，叫做"首Token時(shí)延"。

現(xiàn)在設(shè)想一個(gè)場(chǎng)景：你是一家公司的客服AI，每天要回答數(shù)百個(gè)用戶的問題，而很多問題都涉及同一批公司文檔——產(chǎn)品說明書、退換貨政策、常見問題解答。如果每次有用戶提問，AI都要把這些文檔從頭到尾重新讀一遍，那效率無疑極為低下。工程師們很早就想到了一個(gè)優(yōu)化方案：把這些文檔預(yù)先"消化"好，把消化后的結(jié)果存儲(chǔ)起來，下次直接拿來用，省去重新閱讀的過程。這個(gè)存儲(chǔ)消化結(jié)果的機(jī)制，就是"KV緩存"。

然而，這個(gè)聽起來很美妙的方案在實(shí)際使用中碰到了一堵墻。

一、AI閱讀理解的獨(dú)特癖好：為何緩存會(huì)"失效"

要理解這堵墻，需要先搞清楚AI是怎么"讀"文字的。現(xiàn)代大型語言模型在處理一段文字時(shí)，每一個(gè)詞（或者說每一個(gè)"Token"）的理解都不是孤立的——它會(huì)受到前面所有詞的影響。就好比你讀到"銀行"這個(gè)詞時(shí)，你需要看前面的語境才能判斷它指的是金融機(jī)構(gòu)還是河流兩岸。AI也是如此，它對(duì)每個(gè)詞的內(nèi)部表示（就是所謂的"KV狀態(tài)"，即Key-Value狀態(tài)）是在考慮了前面所有內(nèi)容之后計(jì)算出來的。

這就帶來了一個(gè)根本問題：當(dāng)一篇文檔被單獨(dú)預(yù)先處理并緩存起來時(shí)，它的每個(gè)詞都是"以為自己是開頭"的狀態(tài)被計(jì)算的。但當(dāng)真正使用時(shí)，這篇文檔可能是排在第二位、第三位甚至第五位被讀取的，前面還有其他文檔或用戶的問題。這時(shí)候，這個(gè)預(yù)先緩存的結(jié)果就不準(zhǔn)確了，因?yàn)樗鄙倭藖碜郧懊嫠袃?nèi)容的語境影響。

這就像你預(yù)先準(zhǔn)備好了一段發(fā)言稿，但你在準(zhǔn)備時(shí)完全不知道前面的演講者會(huì)說什么。等到你真正上臺(tái)時(shí)，會(huì)場(chǎng)的語境已經(jīng)完全不同了，你的發(fā)言可能就會(huì)顯得突?；蛘咔昂蟛淮?。

除了這個(gè)"語境依賴"問題之外，還有一個(gè)"位置依賴"問題?，F(xiàn)代AI用一種叫做"旋轉(zhuǎn)位置編碼"（RoPE）的技術(shù)來感知每個(gè)詞在文章中的位置。如果一篇文檔原本是從位置0開始的，但現(xiàn)在需要放在位置100之后，那每個(gè)詞的位置信息都需要更新。好在這個(gè)問題有現(xiàn)成的數(shù)學(xué)解法：只需要做一個(gè)簡(jiǎn)單的旋轉(zhuǎn)變換，就能把舊位置"平移"到新位置，計(jì)算量極小，幾乎可以忽略不計(jì)。

真正麻煩的是語境依賴，它沒有這么簡(jiǎn)單的數(shù)學(xué)解法。

二、現(xiàn)有方案的兩條路：要么傷筋動(dòng)骨，要么亡羊補(bǔ)牢

面對(duì)語境依賴這道難題，研究者們之前主要探索了兩個(gè)方向。

第一個(gè)方向是直接對(duì)AI模型"動(dòng)手術(shù)"——通過微調(diào)（Fine-tuning）來改變模型本身的行為方式，讓它學(xué)會(huì)處理這種拼接文檔的場(chǎng)景。KVLink、Block-Attention、CacheClip等方案都走的是這條路。但這個(gè)方向有幾個(gè)明顯的代價(jià)。其一，微調(diào)大模型需要消耗大量的計(jì)算資源，成本極高。其二，改變了模型參數(shù)之后，模型可能會(huì)在某些方面退步，這在機(jī)器學(xué)習(xí)領(lǐng)域叫做"災(zāi)難性遺忘"——模型在學(xué)會(huì)新技能的同時(shí)忘掉了一些原本掌握的知識(shí)。其三，像CacheClip這類方案還需要同時(shí)部署多個(gè)模型協(xié)同工作，內(nèi)存壓力劇增，維護(hù)難度大幅提升。

第二個(gè)方向是在使用緩存時(shí)"臨時(shí)修補(bǔ)"——在正式回答用戶問題之前，對(duì)緩存中的一部分詞重新計(jì)算，把缺失的語境信息補(bǔ)回來。CacheBlend會(huì)找出那些偏差最大的詞重新算，A3會(huì)根據(jù)用戶問題與文檔的相關(guān)性來選詞，EPIC專門重算文檔邊界處的關(guān)鍵詞，SAM-KV則用層次化壓縮來處理多文檔場(chǎng)景。這些方法統(tǒng)稱為"選擇性重計(jì)算"。

這條路的問題在于：無論選多少詞重算，都意味著在正式回答之前需要額外做一輪計(jì)算，首Token時(shí)延不可避免地增加。而且這些方案在工程實(shí)現(xiàn)上相當(dāng)復(fù)雜，需要深入干預(yù)AI模型的注意力機(jī)制和前向傳播邏輯，換一種模型架構(gòu)就可能需要大量重寫代碼。更關(guān)鍵的是，這些方法與現(xiàn)代KV緩存壓縮技術(shù)（一種減少緩存占用內(nèi)存的技術(shù)）難以兼容，因?yàn)閴嚎s后的緩存結(jié)構(gòu)不規(guī)整，重計(jì)算時(shí)找不到對(duì)應(yīng)的位置。

由此可見，現(xiàn)有的兩條路都有明顯的缺陷：要么代價(jià)太大，要么補(bǔ)丁太多。

三、"文件包"方案的核心思路：給文檔穿上一件"隔離服"

研究團(tuán)隊(duì)提出的KV Packet方案走的是一條完全不同的路。他們重新審視了這個(gè)問題，提出了一個(gè)新的假設(shè)：語境不連續(xù)導(dǎo)致性能下降，主要原因并不是文檔之間缺乏深層語義交互，而是文檔邊界處出現(xiàn)了"結(jié)構(gòu)性偽影"——更具體地說，是一種叫做"注意力匯聚"的現(xiàn)象在作怪。

所謂注意力匯聚（Attention Sink），是指AI模型在處理文本時(shí)，會(huì)自然地把大量注意力集中到序列最開頭的那幾個(gè)詞上，無論這些詞是否重要。這是大型語言模型的一種普遍行為特征。當(dāng)多個(gè)獨(dú)立緩存的文檔被拼接在一起時(shí)，每個(gè)文檔的第一個(gè)詞都會(huì)被模型誤認(rèn)為是一段新序列的開頭，從而觸發(fā)這種不正常的注意力匯聚效應(yīng)，擾亂了整體的推理過程。

基于這個(gè)認(rèn)識(shí)，研究團(tuán)隊(duì)設(shè)計(jì)了一種非常簡(jiǎn)潔的解決方案：在每個(gè)文檔的前面和后面各插入幾個(gè)特殊的"軟標(biāo)記"（Soft Token），分別叫做"頭部適配器"（Header）和"尾部適配器"（Trailer）。這些軟標(biāo)記不是普通的文字，而是可以通過訓(xùn)練來學(xué)習(xí)的連續(xù)向量——你可以把它們理解為"占位符"或"緩沖墊"。

一個(gè)KV Packet（KV文件包）的結(jié)構(gòu)就是：頭部適配器 + 文檔正文 + 尾部適配器。每個(gè)文檔都被單獨(dú)包裹成這樣一個(gè)包，在離線階段預(yù)先計(jì)算好KV緩存并存儲(chǔ)起來。到了正式使用時(shí)，只需要把多個(gè)包的緩存直接拼接在一起，再加上位置編碼的簡(jiǎn)單調(diào)整，就可以直接開始回答用戶問題，完全不需要任何額外計(jì)算。

這就好像給每個(gè)文檔穿上了一件特制的"隔離服"——隔離服的領(lǐng)口（頭部適配器）和袖口（尾部適配器）經(jīng)過專門設(shè)計(jì)，使得多件隔離服可以無縫拼接在一起，不會(huì)產(chǎn)生接縫處的漏風(fēng)問題（也就是注意力匯聚偽影）。隔離服本身（適配器參數(shù)）是通用的，所有文檔都穿同一款，提前做好，用時(shí)直接取來即可。

四、如何訓(xùn)練這件"隔離服"：讓AI自己當(dāng)老師

這件隔離服雖然概念簡(jiǎn)潔，但要讓它真正有效，需要經(jīng)過專門的訓(xùn)練。研究團(tuán)隊(duì)設(shè)計(jì)了一套精妙的自監(jiān)督蒸餾訓(xùn)練方法。

所謂自監(jiān)督，是指訓(xùn)練過程不需要人工標(biāo)注的數(shù)據(jù)，模型自己給自己當(dāng)"老師"。具體流程是這樣的：

訓(xùn)練開始時(shí)，從語料庫中隨機(jī)抽取一批文檔和一個(gè)配套的問題，把它們拼接成一段完整的上下文。然后讓模型以正常方式——也就是完整地看完所有內(nèi)容、所有詞互相關(guān)注——生成一段回答。這個(gè)回答的每一步預(yù)測(cè)概率分布被記錄下來，作為"黃金標(biāo)準(zhǔn)"，即"教師輸出"。

接下來，用KV Packet的方式重新處理同樣的內(nèi)容：把每篇文檔單獨(dú)包裹成文件包并預(yù)算好緩存，然后拼接在一起，再讓模型基于這個(gè)拼接緩存對(duì)剛才那段問題和回答做前向計(jì)算，同樣記錄每一步的預(yù)測(cè)概率分布，這是"學(xué)生輸出"。

訓(xùn)練的目標(biāo)就是讓學(xué)生輸出盡可能接近教師輸出。用來衡量"接近程度"的指標(biāo)叫KL散度（Kullback-Leibler Divergence），可以理解為兩個(gè)概率分布之間的"差距"，差距越小越好。在整個(gè)訓(xùn)練過程中，模型本身的參數(shù)完全不動(dòng)，唯一被更新的是那些頭部和尾部適配器的向量值。

這樣做有幾個(gè)顯著的好處。模型本身完全不受影響，不存在災(zāi)難性遺忘的風(fēng)險(xiǎn)。訓(xùn)練所需的計(jì)算量遠(yuǎn)比微調(diào)整個(gè)模型小得多，因?yàn)樾枰荻葌鞑サ膮?shù)極少。任何文本語料都可以用來訓(xùn)練，不需要為特定任務(wù)收集標(biāo)注數(shù)據(jù)。而且適配器一旦訓(xùn)練好，可以用于所有文檔，是一個(gè)真正"一次訓(xùn)練、到處使用"的通用組件。

在實(shí)際實(shí)驗(yàn)中，研究團(tuán)隊(duì)使用了256到512個(gè)訓(xùn)練樣本，批次大小64，訓(xùn)練30輪，學(xué)習(xí)率在千分之一左右，在單張NVIDIA A100（80GB顯存）上就能完成訓(xùn)練。整個(gè)訓(xùn)練成本相當(dāng)?shù)土?/p>

五、實(shí)驗(yàn)結(jié)果：數(shù)字說話，效果如何

研究團(tuán)隊(duì)在四個(gè)不同類型的數(shù)據(jù)集上進(jìn)行了評(píng)測(cè)，覆蓋了兩大類任務(wù)：簡(jiǎn)單信息檢索和多跳推理。簡(jiǎn)單信息檢索任務(wù)包括"大海撈針"（Needle-in-a-Haystack，NIAH，在海量文本中找到特定信息）和"人物傳記"（Biography，從傳記文本中提取特定事實(shí)）；多跳推理任務(wù)包括HotpotQA（需要綜合兩個(gè)以上文檔的信息才能回答）和MusiQue（更復(fù)雜的多跳推理）。測(cè)試的AI模型為L(zhǎng)lama-3.1-8B-Instruct和Qwen-3-4B-Instruct兩款。

實(shí)驗(yàn)設(shè)置了每個(gè)文檔使用8個(gè)頭部適配器和8個(gè)尾部適配器，也就是每個(gè)文檔前后各加8個(gè)軟標(biāo)記。這個(gè)數(shù)量看起來很少，但效果出人意料地好。

在回答質(zhì)量方面，KV Packet在絕大多數(shù)配置下都達(dá)到了與"完整重計(jì)算"（Full Recompute，也就是完全不使用緩存、每次從頭處理所有文本的理想上限）相當(dāng)?shù)腇1分?jǐn)?shù)，大幅超越"不做任何修補(bǔ)的直接拼接"（No Recompute）。在Qwen模型上處理MusiQue數(shù)據(jù)集時(shí)，KV Packet與完整重計(jì)算之間存在一定差距，但考慮到它幾乎為零的額外計(jì)算成本，這個(gè)取舍仍然非常劃算。那些依賴重計(jì)算的競(jìng)爭(zhēng)方案（如EPIC和CacheBlend）在重計(jì)算比例較低時(shí)表現(xiàn)相當(dāng)糟糕，尤其是在長(zhǎng)文本場(chǎng)景下，說明它們的質(zhì)量非常依賴于重計(jì)算的充分程度。

在計(jì)算效率方面，KV Packet的優(yōu)勢(shì)極為突出。由于完全不需要任何額外的前向傳播計(jì)算，它消耗的浮點(diǎn)運(yùn)算次數(shù)（FLOPs）比完整重計(jì)算低了整整5到6個(gè)數(shù)量級(jí)，也就是低了約十萬倍到百萬倍。它的FLOPs與"完全不做任何修補(bǔ)直接拼接"的方法相同，幾乎只剩下位置編碼調(diào)整那一點(diǎn)點(diǎn)微小的計(jì)算量。在F1分?jǐn)?shù)與FLOPs的對(duì)比圖中，KV Packet穩(wěn)穩(wěn)地占據(jù)了左上角的理想?yún)^(qū)域——質(zhì)量高、計(jì)算少。

在等待時(shí)間方面，KV Packet的首Token時(shí)延非常接近于"不做任何修補(bǔ)直接拼接"的水平，只比"完全不提供任何文檔"（No Cache）稍慢一點(diǎn)點(diǎn)。與重計(jì)算類方法相比，速度優(yōu)勢(shì)非常顯著。在Llama模型上，KV Packet在人物傳記任務(wù)上比最接近的重計(jì)算方案快1.36倍，在HotpotQA上快3.3倍。在長(zhǎng)文本場(chǎng)景下，優(yōu)勢(shì)更加驚人：大海撈針任務(wù)上首Token時(shí)延降低了整整19.45倍，MusiQue任務(wù)上降低了5.81倍。這意味著用戶幾乎感覺不到等待，而傳統(tǒng)方案用戶可能需要等待接近20倍的時(shí)間才能看到第一個(gè)字。

六、與KV緩存壓縮技術(shù)的天然兼容：解決了一個(gè)老大難問題

現(xiàn)代AI推理系統(tǒng)除了要緩存KV狀態(tài)之外，還面臨另一個(gè)挑戰(zhàn)：這些緩存非常占用內(nèi)存。一段很長(zhǎng)的文檔，其KV緩存可能達(dá)到數(shù)百M(fèi)B甚至更多。因此，KV緩存壓縮技術(shù)應(yīng)運(yùn)而生，核心思路是丟棄那些"不那么重要"的詞對(duì)應(yīng)的緩存，只保留關(guān)鍵詞，從而大幅減少內(nèi)存占用。

這里有一個(gè)微妙的問題：不同的壓縮算法會(huì)根據(jù)不同的標(biāo)準(zhǔn)決定保留哪些詞，而且不同層的AI網(wǎng)絡(luò)可能會(huì)保留不同的詞——也就是說，壓縮之后的緩存結(jié)構(gòu)是不規(guī)則的。這對(duì)于重計(jì)算類方案來說是災(zāi)難性的，因?yàn)橹赜?jì)算需要知道每個(gè)被保留詞的準(zhǔn)確位置，而壓縮打亂了這個(gè)結(jié)構(gòu)。更何況，那些壓縮算法本來就是為生成階段優(yōu)化的，用它們來處理重計(jì)算場(chǎng)景的穩(wěn)定性和有效性根本沒有經(jīng)過驗(yàn)證。

KV Packet完全沒有這個(gè)煩惱。由于它把每個(gè)文檔的緩存視為一個(gè)不透明的"黑盒子"，從不在推理時(shí)重新進(jìn)入緩存內(nèi)部做計(jì)算，所以壓縮算法怎么改變緩存的內(nèi)部結(jié)構(gòu)，對(duì)KV Packet來說完全無所謂，該怎么用就怎么用。

研究團(tuán)隊(duì)用五種最先進(jìn)的壓縮方法（CUR、KVzap、LeverageScore、TOVA以及隨機(jī)剪枝）在10%到50%的壓縮率下進(jìn)行了測(cè)試，對(duì)比了三種配置：KV Packet正常模式（壓縮覆蓋整個(gè)文件包包括適配器）、KV Packet保留適配器模式（壓縮時(shí)保護(hù)適配器不被刪除）以及單一緩存模式（對(duì)完整拼接緩存做壓縮的基線方法）。

結(jié)果顯示，在隨機(jī)剪枝這種最極端的壓縮方式下，KV Packet相比基線表現(xiàn)出了顯著更強(qiáng)的魯棒性——性能曲線隨壓縮率提升而下降的幅度遠(yuǎn)比基線平緩。此外，正常模式（允許壓縮算法自由處理整個(gè)文件包）的效果普遍優(yōu)于保留適配器模式，這說明訓(xùn)練好的適配器向量本身就具有相當(dāng)強(qiáng)的抗壓縮能力，即便被壓縮算法刪除一部分，整體性能也不會(huì)受到太大影響。這一發(fā)現(xiàn)出乎研究團(tuán)隊(duì)的預(yù)料，也進(jìn)一步驗(yàn)證了KV Packet設(shè)計(jì)的內(nèi)在穩(wěn)健性。

七、跨領(lǐng)域泛化實(shí)驗(yàn)：一件"隔離服"能適配多少場(chǎng)景

一個(gè)自然而然的疑問是：適配器在一種類型的文檔上訓(xùn)練好之后，拿到完全不同類型的文檔上還能用嗎？

為了回答這個(gè)問題，研究團(tuán)隊(duì)做了一個(gè)"交叉訓(xùn)練"實(shí)驗(yàn)：分別用四個(gè)數(shù)據(jù)集的一個(gè)訓(xùn)練適配器，然后拿到另外三個(gè)數(shù)據(jù)集上測(cè)試，看看跨領(lǐng)域效果如何。

結(jié)果揭示了一個(gè)有意思的規(guī)律。不做任何修補(bǔ)的基線方法在所有測(cè)試上都非常差，F(xiàn)1分?jǐn)?shù)在0.01到0.39之間，基本處于失效狀態(tài)。在單一領(lǐng)域訓(xùn)練的適配器中，用人物傳記數(shù)據(jù)訓(xùn)練的適配器在傳記任務(wù)上幾乎完美（0.96），但在多跳推理任務(wù)上表現(xiàn)慘淡（HotpotQA僅0.18，MusiQue僅0.16）——它學(xué)會(huì)了處理簡(jiǎn)單的信息檢索，但沒有學(xué)會(huì)處理復(fù)雜的邏輯推理。用大海撈針數(shù)據(jù)訓(xùn)練的適配器在合成檢索任務(wù)上表現(xiàn)極佳（0.80），但在自然語言理解方面泛化能力有限。

最耀眼的結(jié)果來自"通用混合"配置——在四個(gè)數(shù)據(jù)集的混合語料上訓(xùn)練出來的適配器。這個(gè)配置在所有四個(gè)測(cè)試集上都表現(xiàn)穩(wěn)?。簜饔浫蝿?wù)0.95（幾乎與專門訓(xùn)練的適配器持平），HotpotQA 0.42，MusiQue 0.43（兩者都顯著超越所有單領(lǐng)域適配器）。這說明，當(dāng)訓(xùn)練數(shù)據(jù)涵蓋了不同類型的文本結(jié)構(gòu)時(shí)，適配器能夠?qū)W到更通用的"文檔邊界拼接"模式，不依賴于特定領(lǐng)域的文字風(fēng)格，從而成為一個(gè)可以在真實(shí)RAG系統(tǒng)中直接部署的通用組件——畢竟在真實(shí)系統(tǒng)里，誰也不知道用戶下一個(gè)問題會(huì)涉及什么領(lǐng)域的文檔。

八、注意力分布的可視化分析：從內(nèi)部理解為什么有效

除了數(shù)字上的驗(yàn)證，研究團(tuán)隊(duì)還深入到模型內(nèi)部，觀察了注意力分布的變化，為KV Packet的有效性提供了直觀的解釋。

他們測(cè)量了問題中的詞對(duì)前文各部分的平均注意力得分，對(duì)比了直接拼接（No Recompute）和KV Packet兩種情況，在四個(gè)數(shù)據(jù)集上各取50個(gè)隨機(jī)樣本做平均。

在直接拼接的情況下，注意力分布呈現(xiàn)出非常明顯的"尖峰"模式：在每個(gè)文檔的開頭處，都會(huì)出現(xiàn)一個(gè)極高的注意力得分峰值，而其他位置的得分則相對(duì)低平。這正是前文提到的注意力匯聚效應(yīng)在作怪——模型把每個(gè)文檔的開頭誤認(rèn)為是序列的開頭，過度關(guān)注這些位置，從而無法均勻地從文檔正文中提取信息，導(dǎo)致推理質(zhì)量下降。

在KV Packet的情況下，這種尖峰消失了，取而代之的是：頭部和尾部適配器的位置獲得了較高的注意力得分，而文檔正文的注意力分布相對(duì)均勻。換句話說，適配器"吸收"了本來會(huì)集中到文檔第一個(gè)詞上的那些注意力，把它們引導(dǎo)到了自己身上，從而讓文檔正文的注意力更加均衡，模型可以更有效地從整篇文檔中提取信息。

這個(gè)觀察不僅驗(yàn)證了研究團(tuán)隊(duì)最初的"邊界偽影假設(shè)"，也解釋了為什么只需要區(qū)區(qū)8個(gè)適配器標(biāo)記就能取得如此顯著的效果——它們不需要重新計(jì)算語義信息，只需要在結(jié)構(gòu)層面扮演好"緩沖墊"和"導(dǎo)流器"的角色，把注意力匯聚的"洪水"疏導(dǎo)開來即可。

說到底，KV Packet做的事情用一句話總結(jié)就是：它找到了AI緩存拼接時(shí)最核心的結(jié)構(gòu)性問題，并用一個(gè)極其輕量的方式把它解決了。研究團(tuán)隊(duì)沒有試圖讓AI重新學(xué)習(xí)語義，而是發(fā)現(xiàn)了一個(gè)更底層、更簡(jiǎn)單的問題根源，并用幾個(gè)精心訓(xùn)練的"緩沖標(biāo)記"把它化解于無形。

效果非常實(shí)在：推理時(shí)等待第一個(gè)字出現(xiàn)的時(shí)間最多縮短了將近20倍，計(jì)算量減少了十萬倍以上，同時(shí)回答質(zhì)量與理想狀態(tài)相差無幾。與此同時(shí)，它完全不改動(dòng)原有模型，不需要人工標(biāo)注數(shù)據(jù)，與各種緩存壓縮技術(shù)自然兼容，工程實(shí)現(xiàn)也遠(yuǎn)比現(xiàn)有方案簡(jiǎn)單。

當(dāng)然，研究團(tuán)隊(duì)也坦誠(chéng)地指出了這套方案目前的局限：如果檢索到的文檔與訓(xùn)練時(shí)的語料分布差異極大，適配器的效果可能會(huì)打折扣；目前只在Llama和Qwen這兩個(gè)模型家族上做了充分驗(yàn)證；另外，當(dāng)被檢索的多個(gè)文檔之間本身存在強(qiáng)邏輯依賴關(guān)系時(shí)（比如多步推理鏈），KV Packet能否處理好這種情況還需要進(jìn)一步研究。

這項(xiàng)研究為AI推理系統(tǒng)的工程優(yōu)化提供了一個(gè)全新的思路：與其在使用時(shí)修補(bǔ)已有問題，不如在存儲(chǔ)時(shí)就把問題預(yù)防掉。對(duì)于任何需要頻繁調(diào)用AI助手處理文檔的人來說，這種技術(shù)進(jìn)步最終都會(huì)以更快的響應(yīng)速度、更低的運(yùn)營(yíng)成本體現(xiàn)在實(shí)際體驗(yàn)中。如果你對(duì)完整的技術(shù)細(xì)節(jié)感興趣，可以通過論文編號(hào)arXiv:2604.13226查閱原文。

Q&A

Q1：KV緩存是什么，為什么大語言模型需要它？

A：KV緩存是大語言模型把已經(jīng)處理過的文本信息存儲(chǔ)起來的一種機(jī)制，避免每次對(duì)話都要從頭重新計(jì)算。打個(gè)比方，就像你讀過一本書之后做了筆記，下次回答關(guān)于這本書的問題時(shí)直接查筆記就好，不用重新從頭讀一遍。沒有KV緩存，AI每次回答都要把所有背景文檔重新處理一遍，等待時(shí)間會(huì)非常長(zhǎng)。

Q2：KV Packet方案和傳統(tǒng)的選擇性重計(jì)算方案相比，速度上到底快多少？

A：在首Token時(shí)延（即用戶發(fā)出問題到AI輸出第一個(gè)字的等待時(shí)間）方面，KV Packet在某些場(chǎng)景下比傳統(tǒng)重計(jì)算方案快了近20倍。例如在"大海撈針"長(zhǎng)文本任務(wù)中，首Token時(shí)延縮短了19.45倍；在MusiQue多跳推理任務(wù)中縮短了5.81倍。在計(jì)算量方面，KV Packet比傳統(tǒng)方法低了5到6個(gè)數(shù)量級(jí)，也就是少算了約十萬倍到百萬倍的運(yùn)算量。

Q3：KV Packet的頭部和尾部適配器需要針對(duì)每個(gè)新文檔重新訓(xùn)練嗎？

A：不需要。適配器是通用的，只需要訓(xùn)練一次，就可以用于所有文檔。研究團(tuán)隊(duì)發(fā)現(xiàn)，在多種類型文檔混合的語料上訓(xùn)練出來的"通用適配器"，在信息檢索和多跳推理等不同類型任務(wù)上都表現(xiàn)良好。新文檔只需要套用已訓(xùn)練好的適配器，在離線階段預(yù)算一次KV緩存后存儲(chǔ)起來，之后直接調(diào)用即可，幾乎沒有額外的維護(hù)成本。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.