国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI大模型的"文件包"技術(shù),讓推理速度提升近20倍

0
分享至


這項(xiàng)研究由慕尼黑工業(yè)大學(xué)、達(dá)姆施塔特工業(yè)大學(xué)、浙江大學(xué)以及伊爾梅瑙工業(yè)大學(xué)的研究團(tuán)隊(duì)聯(lián)合完成,發(fā)表于2026年第40屆神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2026),論文編號(hào)為arXiv:2604.13226,有興趣深入了解的讀者可通過該編號(hào)查閱完整論文。

每當(dāng)你向ChatGPT或類似的AI助手提問,背后發(fā)生的事情遠(yuǎn)比你以為的復(fù)雜得多。AI需要先"讀懂"你提供的所有文件、背景資料,然后才能回答你的問題。這個(gè)"讀懂"的過程,在專業(yè)術(shù)語里叫做"預(yù)填充",它消耗的時(shí)間直接決定了你等待第一個(gè)字出現(xiàn)在屏幕上需要多久。這段等待時(shí)間有個(gè)專門的名字,叫做"首Token時(shí)延"。

現(xiàn)在設(shè)想一個(gè)場(chǎng)景:你是一家公司的客服AI,每天要回答數(shù)百個(gè)用戶的問題,而很多問題都涉及同一批公司文檔——產(chǎn)品說明書、退換貨政策、常見問題解答。如果每次有用戶提問,AI都要把這些文檔從頭到尾重新讀一遍,那效率無疑極為低下。工程師們很早就想到了一個(gè)優(yōu)化方案:把這些文檔預(yù)先"消化"好,把消化后的結(jié)果存儲(chǔ)起來,下次直接拿來用,省去重新閱讀的過程。這個(gè)存儲(chǔ)消化結(jié)果的機(jī)制,就是"KV緩存"。

然而,這個(gè)聽起來很美妙的方案在實(shí)際使用中碰到了一堵墻。

一、AI閱讀理解的獨(dú)特癖好:為何緩存會(huì)"失效"

要理解這堵墻,需要先搞清楚AI是怎么"讀"文字的。現(xiàn)代大型語言模型在處理一段文字時(shí),每一個(gè)詞(或者說每一個(gè)"Token")的理解都不是孤立的——它會(huì)受到前面所有詞的影響。就好比你讀到"銀行"這個(gè)詞時(shí),你需要看前面的語境才能判斷它指的是金融機(jī)構(gòu)還是河流兩岸。AI也是如此,它對(duì)每個(gè)詞的內(nèi)部表示(就是所謂的"KV狀態(tài)",即Key-Value狀態(tài))是在考慮了前面所有內(nèi)容之后計(jì)算出來的。

這就帶來了一個(gè)根本問題:當(dāng)一篇文檔被單獨(dú)預(yù)先處理并緩存起來時(shí),它的每個(gè)詞都是"以為自己是開頭"的狀態(tài)被計(jì)算的。但當(dāng)真正使用時(shí),這篇文檔可能是排在第二位、第三位甚至第五位被讀取的,前面還有其他文檔或用戶的問題。這時(shí)候,這個(gè)預(yù)先緩存的結(jié)果就不準(zhǔn)確了,因?yàn)樗鄙倭藖碜郧懊嫠袃?nèi)容的語境影響。

這就像你預(yù)先準(zhǔn)備好了一段發(fā)言稿,但你在準(zhǔn)備時(shí)完全不知道前面的演講者會(huì)說什么。等到你真正上臺(tái)時(shí),會(huì)場(chǎng)的語境已經(jīng)完全不同了,你的發(fā)言可能就會(huì)顯得突?;蛘咔昂蟛淮?。

除了這個(gè)"語境依賴"問題之外,還有一個(gè)"位置依賴"問題?,F(xiàn)代AI用一種叫做"旋轉(zhuǎn)位置編碼"(RoPE)的技術(shù)來感知每個(gè)詞在文章中的位置。如果一篇文檔原本是從位置0開始的,但現(xiàn)在需要放在位置100之后,那每個(gè)詞的位置信息都需要更新。好在這個(gè)問題有現(xiàn)成的數(shù)學(xué)解法:只需要做一個(gè)簡(jiǎn)單的旋轉(zhuǎn)變換,就能把舊位置"平移"到新位置,計(jì)算量極小,幾乎可以忽略不計(jì)。

真正麻煩的是語境依賴,它沒有這么簡(jiǎn)單的數(shù)學(xué)解法。

二、現(xiàn)有方案的兩條路:要么傷筋動(dòng)骨,要么亡羊補(bǔ)牢

面對(duì)語境依賴這道難題,研究者們之前主要探索了兩個(gè)方向。

第一個(gè)方向是直接對(duì)AI模型"動(dòng)手術(shù)"——通過微調(diào)(Fine-tuning)來改變模型本身的行為方式,讓它學(xué)會(huì)處理這種拼接文檔的場(chǎng)景。KVLink、Block-Attention、CacheClip等方案都走的是這條路。但這個(gè)方向有幾個(gè)明顯的代價(jià)。其一,微調(diào)大模型需要消耗大量的計(jì)算資源,成本極高。其二,改變了模型參數(shù)之后,模型可能會(huì)在某些方面退步,這在機(jī)器學(xué)習(xí)領(lǐng)域叫做"災(zāi)難性遺忘"——模型在學(xué)會(huì)新技能的同時(shí)忘掉了一些原本掌握的知識(shí)。其三,像CacheClip這類方案還需要同時(shí)部署多個(gè)模型協(xié)同工作,內(nèi)存壓力劇增,維護(hù)難度大幅提升。

第二個(gè)方向是在使用緩存時(shí)"臨時(shí)修補(bǔ)"——在正式回答用戶問題之前,對(duì)緩存中的一部分詞重新計(jì)算,把缺失的語境信息補(bǔ)回來。CacheBlend會(huì)找出那些偏差最大的詞重新算,A3會(huì)根據(jù)用戶問題與文檔的相關(guān)性來選詞,EPIC專門重算文檔邊界處的關(guān)鍵詞,SAM-KV則用層次化壓縮來處理多文檔場(chǎng)景。這些方法統(tǒng)稱為"選擇性重計(jì)算"。

這條路的問題在于:無論選多少詞重算,都意味著在正式回答之前需要額外做一輪計(jì)算,首Token時(shí)延不可避免地增加。而且這些方案在工程實(shí)現(xiàn)上相當(dāng)復(fù)雜,需要深入干預(yù)AI模型的注意力機(jī)制和前向傳播邏輯,換一種模型架構(gòu)就可能需要大量重寫代碼。更關(guān)鍵的是,這些方法與現(xiàn)代KV緩存壓縮技術(shù)(一種減少緩存占用內(nèi)存的技術(shù))難以兼容,因?yàn)閴嚎s后的緩存結(jié)構(gòu)不規(guī)整,重計(jì)算時(shí)找不到對(duì)應(yīng)的位置。

由此可見,現(xiàn)有的兩條路都有明顯的缺陷:要么代價(jià)太大,要么補(bǔ)丁太多。

三、"文件包"方案的核心思路:給文檔穿上一件"隔離服"

研究團(tuán)隊(duì)提出的KV Packet方案走的是一條完全不同的路。他們重新審視了這個(gè)問題,提出了一個(gè)新的假設(shè):語境不連續(xù)導(dǎo)致性能下降,主要原因并不是文檔之間缺乏深層語義交互,而是文檔邊界處出現(xiàn)了"結(jié)構(gòu)性偽影"——更具體地說,是一種叫做"注意力匯聚"的現(xiàn)象在作怪。

所謂注意力匯聚(Attention Sink),是指AI模型在處理文本時(shí),會(huì)自然地把大量注意力集中到序列最開頭的那幾個(gè)詞上,無論這些詞是否重要。這是大型語言模型的一種普遍行為特征。當(dāng)多個(gè)獨(dú)立緩存的文檔被拼接在一起時(shí),每個(gè)文檔的第一個(gè)詞都會(huì)被模型誤認(rèn)為是一段新序列的開頭,從而觸發(fā)這種不正常的注意力匯聚效應(yīng),擾亂了整體的推理過程。

基于這個(gè)認(rèn)識(shí),研究團(tuán)隊(duì)設(shè)計(jì)了一種非常簡(jiǎn)潔的解決方案:在每個(gè)文檔的前面和后面各插入幾個(gè)特殊的"軟標(biāo)記"(Soft Token),分別叫做"頭部適配器"(Header)和"尾部適配器"(Trailer)。這些軟標(biāo)記不是普通的文字,而是可以通過訓(xùn)練來學(xué)習(xí)的連續(xù)向量——你可以把它們理解為"占位符"或"緩沖墊"。

一個(gè)KV Packet(KV文件包)的結(jié)構(gòu)就是:頭部適配器 + 文檔正文 + 尾部適配器。每個(gè)文檔都被單獨(dú)包裹成這樣一個(gè)包,在離線階段預(yù)先計(jì)算好KV緩存并存儲(chǔ)起來。到了正式使用時(shí),只需要把多個(gè)包的緩存直接拼接在一起,再加上位置編碼的簡(jiǎn)單調(diào)整,就可以直接開始回答用戶問題,完全不需要任何額外計(jì)算。

這就好像給每個(gè)文檔穿上了一件特制的"隔離服"——隔離服的領(lǐng)口(頭部適配器)和袖口(尾部適配器)經(jīng)過專門設(shè)計(jì),使得多件隔離服可以無縫拼接在一起,不會(huì)產(chǎn)生接縫處的漏風(fēng)問題(也就是注意力匯聚偽影)。隔離服本身(適配器參數(shù))是通用的,所有文檔都穿同一款,提前做好,用時(shí)直接取來即可。

四、如何訓(xùn)練這件"隔離服":讓AI自己當(dāng)老師

這件隔離服雖然概念簡(jiǎn)潔,但要讓它真正有效,需要經(jīng)過專門的訓(xùn)練。研究團(tuán)隊(duì)設(shè)計(jì)了一套精妙的自監(jiān)督蒸餾訓(xùn)練方法。

所謂自監(jiān)督,是指訓(xùn)練過程不需要人工標(biāo)注的數(shù)據(jù),模型自己給自己當(dāng)"老師"。具體流程是這樣的:

訓(xùn)練開始時(shí),從語料庫中隨機(jī)抽取一批文檔和一個(gè)配套的問題,把它們拼接成一段完整的上下文。然后讓模型以正常方式——也就是完整地看完所有內(nèi)容、所有詞互相關(guān)注——生成一段回答。這個(gè)回答的每一步預(yù)測(cè)概率分布被記錄下來,作為"黃金標(biāo)準(zhǔn)",即"教師輸出"。

接下來,用KV Packet的方式重新處理同樣的內(nèi)容:把每篇文檔單獨(dú)包裹成文件包并預(yù)算好緩存,然后拼接在一起,再讓模型基于這個(gè)拼接緩存對(duì)剛才那段問題和回答做前向計(jì)算,同樣記錄每一步的預(yù)測(cè)概率分布,這是"學(xué)生輸出"。

訓(xùn)練的目標(biāo)就是讓學(xué)生輸出盡可能接近教師輸出。用來衡量"接近程度"的指標(biāo)叫KL散度(Kullback-Leibler Divergence),可以理解為兩個(gè)概率分布之間的"差距",差距越小越好。在整個(gè)訓(xùn)練過程中,模型本身的參數(shù)完全不動(dòng),唯一被更新的是那些頭部和尾部適配器的向量值。

這樣做有幾個(gè)顯著的好處。模型本身完全不受影響,不存在災(zāi)難性遺忘的風(fēng)險(xiǎn)。訓(xùn)練所需的計(jì)算量遠(yuǎn)比微調(diào)整個(gè)模型小得多,因?yàn)樾枰荻葌鞑サ膮?shù)極少。任何文本語料都可以用來訓(xùn)練,不需要為特定任務(wù)收集標(biāo)注數(shù)據(jù)。而且適配器一旦訓(xùn)練好,可以用于所有文檔,是一個(gè)真正"一次訓(xùn)練、到處使用"的通用組件。

在實(shí)際實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用了256到512個(gè)訓(xùn)練樣本,批次大小64,訓(xùn)練30輪,學(xué)習(xí)率在千分之一左右,在單張NVIDIA A100(80GB顯存)上就能完成訓(xùn)練。整個(gè)訓(xùn)練成本相當(dāng)?shù)土?/p>

五、實(shí)驗(yàn)結(jié)果:數(shù)字說話,效果如何

研究團(tuán)隊(duì)在四個(gè)不同類型的數(shù)據(jù)集上進(jìn)行了評(píng)測(cè),覆蓋了兩大類任務(wù):簡(jiǎn)單信息檢索和多跳推理。簡(jiǎn)單信息檢索任務(wù)包括"大海撈針"(Needle-in-a-Haystack,NIAH,在海量文本中找到特定信息)和"人物傳記"(Biography,從傳記文本中提取特定事實(shí));多跳推理任務(wù)包括HotpotQA(需要綜合兩個(gè)以上文檔的信息才能回答)和MusiQue(更復(fù)雜的多跳推理)。測(cè)試的AI模型為L(zhǎng)lama-3.1-8B-Instruct和Qwen-3-4B-Instruct兩款。

實(shí)驗(yàn)設(shè)置了每個(gè)文檔使用8個(gè)頭部適配器和8個(gè)尾部適配器,也就是每個(gè)文檔前后各加8個(gè)軟標(biāo)記。這個(gè)數(shù)量看起來很少,但效果出人意料地好。

在回答質(zhì)量方面,KV Packet在絕大多數(shù)配置下都達(dá)到了與"完整重計(jì)算"(Full Recompute,也就是完全不使用緩存、每次從頭處理所有文本的理想上限)相當(dāng)?shù)腇1分?jǐn)?shù),大幅超越"不做任何修補(bǔ)的直接拼接"(No Recompute)。在Qwen模型上處理MusiQue數(shù)據(jù)集時(shí),KV Packet與完整重計(jì)算之間存在一定差距,但考慮到它幾乎為零的額外計(jì)算成本,這個(gè)取舍仍然非常劃算。那些依賴重計(jì)算的競(jìng)爭(zhēng)方案(如EPIC和CacheBlend)在重計(jì)算比例較低時(shí)表現(xiàn)相當(dāng)糟糕,尤其是在長(zhǎng)文本場(chǎng)景下,說明它們的質(zhì)量非常依賴于重計(jì)算的充分程度。

在計(jì)算效率方面,KV Packet的優(yōu)勢(shì)極為突出。由于完全不需要任何額外的前向傳播計(jì)算,它消耗的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)比完整重計(jì)算低了整整5到6個(gè)數(shù)量級(jí),也就是低了約十萬倍到百萬倍。它的FLOPs與"完全不做任何修補(bǔ)直接拼接"的方法相同,幾乎只剩下位置編碼調(diào)整那一點(diǎn)點(diǎn)微小的計(jì)算量。在F1分?jǐn)?shù)與FLOPs的對(duì)比圖中,KV Packet穩(wěn)穩(wěn)地占據(jù)了左上角的理想?yún)^(qū)域——質(zhì)量高、計(jì)算少。

在等待時(shí)間方面,KV Packet的首Token時(shí)延非常接近于"不做任何修補(bǔ)直接拼接"的水平,只比"完全不提供任何文檔"(No Cache)稍慢一點(diǎn)點(diǎn)。與重計(jì)算類方法相比,速度優(yōu)勢(shì)非常顯著。在Llama模型上,KV Packet在人物傳記任務(wù)上比最接近的重計(jì)算方案快1.36倍,在HotpotQA上快3.3倍。在長(zhǎng)文本場(chǎng)景下,優(yōu)勢(shì)更加驚人:大海撈針任務(wù)上首Token時(shí)延降低了整整19.45倍,MusiQue任務(wù)上降低了5.81倍。這意味著用戶幾乎感覺不到等待,而傳統(tǒng)方案用戶可能需要等待接近20倍的時(shí)間才能看到第一個(gè)字。

六、與KV緩存壓縮技術(shù)的天然兼容:解決了一個(gè)老大難問題

現(xiàn)代AI推理系統(tǒng)除了要緩存KV狀態(tài)之外,還面臨另一個(gè)挑戰(zhàn):這些緩存非常占用內(nèi)存。一段很長(zhǎng)的文檔,其KV緩存可能達(dá)到數(shù)百M(fèi)B甚至更多。因此,KV緩存壓縮技術(shù)應(yīng)運(yùn)而生,核心思路是丟棄那些"不那么重要"的詞對(duì)應(yīng)的緩存,只保留關(guān)鍵詞,從而大幅減少內(nèi)存占用。

這里有一個(gè)微妙的問題:不同的壓縮算法會(huì)根據(jù)不同的標(biāo)準(zhǔn)決定保留哪些詞,而且不同層的AI網(wǎng)絡(luò)可能會(huì)保留不同的詞——也就是說,壓縮之后的緩存結(jié)構(gòu)是不規(guī)則的。這對(duì)于重計(jì)算類方案來說是災(zāi)難性的,因?yàn)橹赜?jì)算需要知道每個(gè)被保留詞的準(zhǔn)確位置,而壓縮打亂了這個(gè)結(jié)構(gòu)。更何況,那些壓縮算法本來就是為生成階段優(yōu)化的,用它們來處理重計(jì)算場(chǎng)景的穩(wěn)定性和有效性根本沒有經(jīng)過驗(yàn)證。

KV Packet完全沒有這個(gè)煩惱。由于它把每個(gè)文檔的緩存視為一個(gè)不透明的"黑盒子",從不在推理時(shí)重新進(jìn)入緩存內(nèi)部做計(jì)算,所以壓縮算法怎么改變緩存的內(nèi)部結(jié)構(gòu),對(duì)KV Packet來說完全無所謂,該怎么用就怎么用。

研究團(tuán)隊(duì)用五種最先進(jìn)的壓縮方法(CUR、KVzap、LeverageScore、TOVA以及隨機(jī)剪枝)在10%到50%的壓縮率下進(jìn)行了測(cè)試,對(duì)比了三種配置:KV Packet正常模式(壓縮覆蓋整個(gè)文件包包括適配器)、KV Packet保留適配器模式(壓縮時(shí)保護(hù)適配器不被刪除)以及單一緩存模式(對(duì)完整拼接緩存做壓縮的基線方法)。

結(jié)果顯示,在隨機(jī)剪枝這種最極端的壓縮方式下,KV Packet相比基線表現(xiàn)出了顯著更強(qiáng)的魯棒性——性能曲線隨壓縮率提升而下降的幅度遠(yuǎn)比基線平緩。此外,正常模式(允許壓縮算法自由處理整個(gè)文件包)的效果普遍優(yōu)于保留適配器模式,這說明訓(xùn)練好的適配器向量本身就具有相當(dāng)強(qiáng)的抗壓縮能力,即便被壓縮算法刪除一部分,整體性能也不會(huì)受到太大影響。這一發(fā)現(xiàn)出乎研究團(tuán)隊(duì)的預(yù)料,也進(jìn)一步驗(yàn)證了KV Packet設(shè)計(jì)的內(nèi)在穩(wěn)健性。

七、跨領(lǐng)域泛化實(shí)驗(yàn):一件"隔離服"能適配多少場(chǎng)景

一個(gè)自然而然的疑問是:適配器在一種類型的文檔上訓(xùn)練好之后,拿到完全不同類型的文檔上還能用嗎?

為了回答這個(gè)問題,研究團(tuán)隊(duì)做了一個(gè)"交叉訓(xùn)練"實(shí)驗(yàn):分別用四個(gè)數(shù)據(jù)集的一個(gè)訓(xùn)練適配器,然后拿到另外三個(gè)數(shù)據(jù)集上測(cè)試,看看跨領(lǐng)域效果如何。

結(jié)果揭示了一個(gè)有意思的規(guī)律。不做任何修補(bǔ)的基線方法在所有測(cè)試上都非常差,F(xiàn)1分?jǐn)?shù)在0.01到0.39之間,基本處于失效狀態(tài)。在單一領(lǐng)域訓(xùn)練的適配器中,用人物傳記數(shù)據(jù)訓(xùn)練的適配器在傳記任務(wù)上幾乎完美(0.96),但在多跳推理任務(wù)上表現(xiàn)慘淡(HotpotQA僅0.18,MusiQue僅0.16)——它學(xué)會(huì)了處理簡(jiǎn)單的信息檢索,但沒有學(xué)會(huì)處理復(fù)雜的邏輯推理。用大海撈針數(shù)據(jù)訓(xùn)練的適配器在合成檢索任務(wù)上表現(xiàn)極佳(0.80),但在自然語言理解方面泛化能力有限。

最耀眼的結(jié)果來自"通用混合"配置——在四個(gè)數(shù)據(jù)集的混合語料上訓(xùn)練出來的適配器。這個(gè)配置在所有四個(gè)測(cè)試集上都表現(xiàn)穩(wěn)?。簜饔浫蝿?wù)0.95(幾乎與專門訓(xùn)練的適配器持平),HotpotQA 0.42,MusiQue 0.43(兩者都顯著超越所有單領(lǐng)域適配器)。這說明,當(dāng)訓(xùn)練數(shù)據(jù)涵蓋了不同類型的文本結(jié)構(gòu)時(shí),適配器能夠?qū)W到更通用的"文檔邊界拼接"模式,不依賴于特定領(lǐng)域的文字風(fēng)格,從而成為一個(gè)可以在真實(shí)RAG系統(tǒng)中直接部署的通用組件——畢竟在真實(shí)系統(tǒng)里,誰也不知道用戶下一個(gè)問題會(huì)涉及什么領(lǐng)域的文檔。

八、注意力分布的可視化分析:從內(nèi)部理解為什么有效

除了數(shù)字上的驗(yàn)證,研究團(tuán)隊(duì)還深入到模型內(nèi)部,觀察了注意力分布的變化,為KV Packet的有效性提供了直觀的解釋。

他們測(cè)量了問題中的詞對(duì)前文各部分的平均注意力得分,對(duì)比了直接拼接(No Recompute)和KV Packet兩種情況,在四個(gè)數(shù)據(jù)集上各取50個(gè)隨機(jī)樣本做平均。

在直接拼接的情況下,注意力分布呈現(xiàn)出非常明顯的"尖峰"模式:在每個(gè)文檔的開頭處,都會(huì)出現(xiàn)一個(gè)極高的注意力得分峰值,而其他位置的得分則相對(duì)低平。這正是前文提到的注意力匯聚效應(yīng)在作怪——模型把每個(gè)文檔的開頭誤認(rèn)為是序列的開頭,過度關(guān)注這些位置,從而無法均勻地從文檔正文中提取信息,導(dǎo)致推理質(zhì)量下降。

在KV Packet的情況下,這種尖峰消失了,取而代之的是:頭部和尾部適配器的位置獲得了較高的注意力得分,而文檔正文的注意力分布相對(duì)均勻。換句話說,適配器"吸收"了本來會(huì)集中到文檔第一個(gè)詞上的那些注意力,把它們引導(dǎo)到了自己身上,從而讓文檔正文的注意力更加均衡,模型可以更有效地從整篇文檔中提取信息。

這個(gè)觀察不僅驗(yàn)證了研究團(tuán)隊(duì)最初的"邊界偽影假設(shè)",也解釋了為什么只需要區(qū)區(qū)8個(gè)適配器標(biāo)記就能取得如此顯著的效果——它們不需要重新計(jì)算語義信息,只需要在結(jié)構(gòu)層面扮演好"緩沖墊"和"導(dǎo)流器"的角色,把注意力匯聚的"洪水"疏導(dǎo)開來即可。

說到底,KV Packet做的事情用一句話總結(jié)就是:它找到了AI緩存拼接時(shí)最核心的結(jié)構(gòu)性問題,并用一個(gè)極其輕量的方式把它解決了。研究團(tuán)隊(duì)沒有試圖讓AI重新學(xué)習(xí)語義,而是發(fā)現(xiàn)了一個(gè)更底層、更簡(jiǎn)單的問題根源,并用幾個(gè)精心訓(xùn)練的"緩沖標(biāo)記"把它化解于無形。

效果非常實(shí)在:推理時(shí)等待第一個(gè)字出現(xiàn)的時(shí)間最多縮短了將近20倍,計(jì)算量減少了十萬倍以上,同時(shí)回答質(zhì)量與理想狀態(tài)相差無幾。與此同時(shí),它完全不改動(dòng)原有模型,不需要人工標(biāo)注數(shù)據(jù),與各種緩存壓縮技術(shù)自然兼容,工程實(shí)現(xiàn)也遠(yuǎn)比現(xiàn)有方案簡(jiǎn)單。

當(dāng)然,研究團(tuán)隊(duì)也坦誠(chéng)地指出了這套方案目前的局限:如果檢索到的文檔與訓(xùn)練時(shí)的語料分布差異極大,適配器的效果可能會(huì)打折扣;目前只在Llama和Qwen這兩個(gè)模型家族上做了充分驗(yàn)證;另外,當(dāng)被檢索的多個(gè)文檔之間本身存在強(qiáng)邏輯依賴關(guān)系時(shí)(比如多步推理鏈),KV Packet能否處理好這種情況還需要進(jìn)一步研究。

這項(xiàng)研究為AI推理系統(tǒng)的工程優(yōu)化提供了一個(gè)全新的思路:與其在使用時(shí)修補(bǔ)已有問題,不如在存儲(chǔ)時(shí)就把問題預(yù)防掉。對(duì)于任何需要頻繁調(diào)用AI助手處理文檔的人來說,這種技術(shù)進(jìn)步最終都會(huì)以更快的響應(yīng)速度、更低的運(yùn)營(yíng)成本體現(xiàn)在實(shí)際體驗(yàn)中。如果你對(duì)完整的技術(shù)細(xì)節(jié)感興趣,可以通過論文編號(hào)arXiv:2604.13226查閱原文。

Q&A

Q1:KV緩存是什么,為什么大語言模型需要它?

A:KV緩存是大語言模型把已經(jīng)處理過的文本信息存儲(chǔ)起來的一種機(jī)制,避免每次對(duì)話都要從頭重新計(jì)算。打個(gè)比方,就像你讀過一本書之后做了筆記,下次回答關(guān)于這本書的問題時(shí)直接查筆記就好,不用重新從頭讀一遍。沒有KV緩存,AI每次回答都要把所有背景文檔重新處理一遍,等待時(shí)間會(huì)非常長(zhǎng)。

Q2:KV Packet方案和傳統(tǒng)的選擇性重計(jì)算方案相比,速度上到底快多少?

A:在首Token時(shí)延(即用戶發(fā)出問題到AI輸出第一個(gè)字的等待時(shí)間)方面,KV Packet在某些場(chǎng)景下比傳統(tǒng)重計(jì)算方案快了近20倍。例如在"大海撈針"長(zhǎng)文本任務(wù)中,首Token時(shí)延縮短了19.45倍;在MusiQue多跳推理任務(wù)中縮短了5.81倍。在計(jì)算量方面,KV Packet比傳統(tǒng)方法低了5到6個(gè)數(shù)量級(jí),也就是少算了約十萬倍到百萬倍的運(yùn)算量。

Q3:KV Packet的頭部和尾部適配器需要針對(duì)每個(gè)新文檔重新訓(xùn)練嗎?

A:不需要。適配器是通用的,只需要訓(xùn)練一次,就可以用于所有文檔。研究團(tuán)隊(duì)發(fā)現(xiàn),在多種類型文檔混合的語料上訓(xùn)練出來的"通用適配器",在信息檢索和多跳推理等不同類型任務(wù)上都表現(xiàn)良好。新文檔只需要套用已訓(xùn)練好的適配器,在離線階段預(yù)算一次KV緩存后存儲(chǔ)起來,之后直接調(diào)用即可,幾乎沒有額外的維護(hù)成本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長(zhǎng)期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長(zhǎng)期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長(zhǎng)”

警惕經(jīng)濟(jì)的“無就業(yè)增長(zhǎng)”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭(zhēng)議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭(zhēng)議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺(tái)州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績(jī)炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績(jī)炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國(guó)安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長(zhǎng)

動(dòng)真格了,國(guó)安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長(zhǎng)

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國(guó)舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國(guó)舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺(tái)球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來審美點(diǎn)上

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
公開課
軍事航空

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4?。?/h3>

親子要聞

拍這期視頻時(shí)眼淚止不住地流

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大省!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進(jìn)入關(guān)懷版