国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

內(nèi)存通脹“終結(jié)者”?谷歌公開最新極限壓縮算法

0
分享至


破解算力問題,降低模型所需的存算空間,有很多種途徑,是減少訓(xùn)練時算力,還是減少推理時算力?稀疏化、量化、壓縮、蒸餾等手段,都是方法之一。只是當(dāng)前鑒于不同方法的優(yōu)勢特征,各家模型企業(yè)及研究機構(gòu)都會選擇不同的策略。

以長上下文任務(wù)為例,過去兩年,AI算法團隊曾提出要以鍵值緩存(KV Cache)為中心的分離架構(gòu)設(shè)計,即根據(jù)不同計算特性將預(yù)填充服務(wù)器與解碼服務(wù)器分開,在大batch size及隊列場景下需要更大的系統(tǒng)內(nèi)存帶寬。簡而言之,對于許多推理時任務(wù)來說,瓶頸在于內(nèi)存帶寬。

今日,谷歌發(fā)布了一項名為TurboQuant的算法,這項技術(shù)旨在解決上述提及的問題:大模型運行時的內(nèi)存消耗。其核心是讓AI在思考和回答問題時,占用少得多的工作內(nèi)存,同時保持幾乎相同的智力水平,甚至速度更快。

根據(jù)官方描述,TurboQuant的推出預(yù)計會帶來多項利好:模型推理方面,百萬Token上下文成本會明顯下降;向量數(shù)據(jù)庫領(lǐng)域,更容易做到實時索引和亞毫秒查詢;邊緣AI領(lǐng)域,手機和嵌入式設(shè)備的上下文推理更現(xiàn)實。此外,該思路同樣可擴展到多模態(tài)領(lǐng)域的向量壓縮。

事實上,就在該技術(shù)發(fā)布當(dāng)日,美股存儲板塊如美光科技、閃迪等應(yīng)聲下跌。近年來,內(nèi)存(RAM)、固態(tài)硬盤(SSD)、硬盤驅(qū)動器(HDD)等存儲產(chǎn)品受下游數(shù)據(jù)中心建設(shè)擴張需求的激增,出現(xiàn)了一段時間的供應(yīng)短缺及價格推高。該市場反應(yīng)可以理解為,TurboQuant一旦廣泛應(yīng)用,或?qū)@著影響未來對AI推理服務(wù)器中內(nèi)存容量規(guī)格的需求判斷,重塑相關(guān)硬件的成本曲線。


要理解TurboQuant的價值,首先要明白大模型在生成文本時是如何工作的。它們并非一次性處理所有信息,而是像人類閱讀一樣,一個字一個字地生成。在這個過程中,模型需要一個“臨時記事本”來記住之前所有對話的內(nèi)容,以免重復(fù)計算。這個“記事本”在技術(shù)上被稱為鍵值緩存(KV Cache)。但問題在于,對話越長,這個“記事本”就越厚,占用的內(nèi)存就越多。以長文本為例,在處理超長文檔或復(fù)雜多輪對話時,KV Cache會迅速撐滿昂貴的高性能內(nèi)存,成為制約AI處理速度、推高運行成本的主要瓶頸。

TurboQuant運用了兩個結(jié)算的核心算法:PolarQuant主壓縮和QJL(量化Johnson-Lindenstrauss變換)殘差校正,目標(biāo)是壓縮KV Cache中的向量。

第一步:PolarQuant——高質(zhì)量壓縮

傳統(tǒng)量化方法類似于用直角坐標(biāo)系(東、北方向)記錄一個點的位置。TurboQuant的第一步,是PolarQuant,改用極坐標(biāo)(角度和距離)來描述。研究發(fā)現(xiàn),經(jīng)過特定的數(shù)學(xué)變換(隨機旋轉(zhuǎn))后,高維向量的數(shù)值分布會變得非常規(guī)律和集中,就像一個固定的圓形網(wǎng)格。這樣一來,系統(tǒng)可以預(yù)先計算好一套最優(yōu)的壓縮碼本,無需針對每次對話進行復(fù)雜的校準(zhǔn),實現(xiàn)了在線實時壓縮。這一步用大部分比特對數(shù)據(jù)主體進行了高質(zhì)量壓縮。

第二步:QJL——消除隱藏誤差

第一步壓縮后,會殘留微小的誤差。如果放任不管,在AI計算注意力(即決定關(guān)注對話中哪部分內(nèi)容)時,這些誤差會累積并導(dǎo)致結(jié)果出現(xiàn)偏差。TurboQuant的第二步創(chuàng)新在于,它用一個名為QJL的方法來處理這些殘差。QJL的特點在于,它僅用1個比特(即一個正負(fù)號)來表征殘差,并與高精度的原始查詢向量結(jié)合,最終能實現(xiàn)無偏的內(nèi)積估計。這意味著,盡管數(shù)據(jù)被大幅壓縮,但AI在計算“哪些信息更重要”時,得到的結(jié)果依然是準(zhǔn)確無誤的。

什么是QJL?簡單說,就是一種把高維向量“投影”到低維空間的方法,且能以數(shù)學(xué)證明保證距離關(guān)系不被破壞太多。QJL把這個投影結(jié)果進一步壓縮到1比特,體積極小,但仍能作為無偏估計器。

根據(jù)谷歌官方博客闡述,TurboQuant帶來了接近理論極限的性能提升:


  • 極致壓縮:可以將KV Cache壓縮到每通道僅3比特,相比傳統(tǒng)的16或32比特存儲,減少了至少6倍的內(nèi)存占用。在長上下文測試中,即使壓縮后,模型依然能找到隱藏的信息,表現(xiàn)滿分。
  • 精度無損:在多個標(biāo)準(zhǔn)長上下文基準(zhǔn)測試(如LongBench、Needle in a Haystack)上,使用3.5比特配置的TurboQuant,模型性能與使用全精度緩存時完全一致,2.5比特配置下也只有輕微的性能下降。
  • 速度提升:由于需要從內(nèi)存中讀取的數(shù)據(jù)量銳減,計算速度得到極大提升。在H100 GPU上,4比特TurboQuant的注意力核心步驟的速度,比未壓縮的32比特版本快8倍。

TurboQuant能夠以極低的內(nèi)存占用、近乎零預(yù)處理時間和最先進的精度構(gòu)建和查詢大型向量索引。這使得谷歌規(guī)模的語義搜索速度更快、效率更高。當(dāng)然,TurboQuant的意義遠(yuǎn)不止于一項實驗室突破。據(jù)博客所述,向量量化雖然目前主要解決的是Gemini等模型中的KV-cash瓶頸,但該技術(shù)同樣適用于需要在高維向量數(shù)據(jù)庫中進行海量搜索的場景(如現(xiàn)代語義搜索引擎)。

相關(guān)論文將在ICLR 2026和AISTATS 2026發(fā)表。

相關(guān)鏈接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相關(guān)論文鏈接:https://arxiv.org/pdf/2502.02617

(本文作者 | 楊麗,編輯 | 楊林)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂
2026-03-25 13:03:57
全線跳水!剛剛,伊朗發(fā)動攻擊

全線跳水!剛剛,伊朗發(fā)動攻擊

中國基金報
2026-03-26 16:15:26
張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

藍鯨新聞
2026-03-26 17:41:20
蘋果 Max 新品正式開售,3999 元起!

蘋果 Max 新品正式開售,3999 元起!

科技堡壘
2026-03-26 11:36:39
伊朗稱已組織超百萬人為地面戰(zhàn)斗做準(zhǔn)備

伊朗稱已組織超百萬人為地面戰(zhàn)斗做準(zhǔn)備

財聯(lián)社
2026-03-26 22:50:26
繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號已變黑白

繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號已變黑白

180視角
2026-03-26 11:52:12
醫(yī)保大變革!4月1日執(zhí)行,取消備案、全家共濟、藥店可報銷

醫(yī)保大變革!4月1日執(zhí)行,取消備案、全家共濟、藥店可報銷

復(fù)轉(zhuǎn)這些年
2026-03-26 09:27:58
官宣!中國最大省再設(shè)立新縣,什么信號?

官宣!中國最大省再設(shè)立新縣,什么信號?

西部城市
2026-03-26 21:08:33
痛心!張雪峰女兒哭成淚人!再多的財富也無法填補父愛的空缺

痛心!張雪峰女兒哭成淚人!再多的財富也無法填補父愛的空缺

魔都姐姐雜談
2026-03-26 20:54:38
俄軍北極最強戰(zhàn)艦,被擊沉!烏軍集中390架自殺機飽和突破成功

俄軍北極最強戰(zhàn)艦,被擊沉!烏軍集中390架自殺機飽和突破成功

滄海旅行家
2026-03-26 18:23:44
突發(fā)心梗,吃丹參滴丸有用嗎?醫(yī)生:這2種藥才是心梗急救藥!

突發(fā)心梗,吃丹參滴丸有用嗎?醫(yī)生:這2種藥才是心梗急救藥!

健康科普365
2026-03-26 09:57:24
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
多地將舉辦“紀(jì)念張國榮”演唱會,行情火爆?張國榮摯友:請停止所有非法行為

多地將舉辦“紀(jì)念張國榮”演唱會,行情火爆?張國榮摯友:請停止所有非法行為

上觀新聞
2026-03-26 15:06:07
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強硬拒絕

6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強硬拒絕

風(fēng)過鄉(xiāng)
2026-03-26 19:13:28
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
廣東報告梅大高速“5·1”塌方災(zāi)害整改落實情況:發(fā)現(xiàn)公路隱患1.6萬余處

廣東報告梅大高速“5·1”塌方災(zāi)害整改落實情況:發(fā)現(xiàn)公路隱患1.6萬余處

封面新聞
2026-03-26 15:36:07
伊朗軍方:已擊中或擊落202架各類美以軍機

伊朗軍方:已擊中或擊落202架各類美以軍機

界面新聞
2026-03-26 15:29:15
48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

飯小妹說歷史
2026-03-26 20:26:05
清純得不像動作片女一號!

清純得不像動作片女一號!

貴圈真亂
2026-03-26 11:33:33
2026-03-27 00:04:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
131380文章數(shù) 862014關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產(chǎn)
親子
家居
數(shù)碼
公開課

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

親子要聞

看看把孩子嚇得哈哈哈

家居要聞

傍海而居 靜觀蝴蝶海

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版