国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌沖破內(nèi)存墻!新算法內(nèi)存占用暴砍83%,速度提升8倍!

0
分享至


智東西
編譯 劉煜
編輯 陳駿達

智東西3月26日報道,昨天,谷歌于發(fā)布了一款針對大語言模型鍵值緩存(KV Cache)的無損極限壓縮算法TurboQuant,它能夠從根本上解決向量量化中內(nèi)存開銷問題。谷歌稱,TurboQuant可將大語言模型鍵值緩存內(nèi)存占用至少降至原來的1/6,推理速度最高提升8倍,同時保持100%精確程度。

Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱,谷歌推出TurboQuant堪稱“谷歌的DeepSeek時刻”。


▲Matthew Prince的推文(圖源:X)

向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù),主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會引入額外的內(nèi)存開銷(每一小塊數(shù)據(jù)都要單獨算、單獨存一套完整的“壓縮參數(shù)”),這些參數(shù)很占內(nèi)存,每個數(shù)字都要多占1-2 bit,這樣反而會影響向量量化的效果。

谷歌稱,此次推出的TurboQuant借助了谷歌提出的1 bit無偏誤差校正算法QJL極坐標量化壓縮技術(shù)PolarQuant,實現(xiàn)了壓縮算法的突破。

谷歌官宣推出TurboQuant后,引發(fā)資本市場短期內(nèi)對該技術(shù)會降低存儲芯片采購需求的擔(dān)憂,導(dǎo)致存儲芯片板塊集體回調(diào)。

當(dāng)天美股盤中,美光股票跌幅超過5%,收盤時下跌3.4%,市值蒸發(fā)約151.6億美元(約合人民幣1047.37億元)。閃迪股票下跌幅度更大,一度超過7%,收盤時下跌3.5%,市值蒸發(fā)約36.44億美元(約合人民幣251.75億元)。韓股收盤時,SK海力士股價下跌了6.23%。


▲美光、閃迪股價圖(圖源:騰訊自選股)SK海力士股價圖(圖源:Investing)

博客鏈接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高質(zhì)量壓縮與誤差修正

TurboQuant能夠在零精度損失下實現(xiàn)模型尺寸的大幅縮小,非常適合支持鍵值緩存壓縮和向量搜索。它主要通過兩個關(guān)鍵步驟實現(xiàn)這一目標。

TurboQuant首先對數(shù)據(jù)向量進行隨機旋轉(zhuǎn)變換,這樣處理簡化了數(shù)據(jù)的幾何結(jié)構(gòu),使得TurboQuant可以對向量的每個部分單獨應(yīng)用標準的高質(zhì)量量化器(量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號或數(shù)值的工具,比如音頻量化與JPEG壓縮)。

第一階段,PolarQuant利用大部分壓縮算力(絕大多數(shù)比特位)來捕捉原始向量的核心語義與特征強度,完成主體壓縮。

PolarQuant不再使用表示各軸距離的標準坐標系(即X、Y、Z坐標)來描述向量,而是通過笛卡爾坐標系將向量轉(zhuǎn)換為極坐標。這就好比把“向東走3個街區(qū),向北走4個街區(qū)”,替換成“沿37度方向走5個街區(qū)”。

PolarQuant轉(zhuǎn)換后只會保留半徑(代表核心數(shù)據(jù)的強度)和角度(代表數(shù)據(jù)的方向或語義)。由于角度的分布規(guī)律已知且高度集中,模型不再需要執(zhí)行計算代價高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個邊界固定、可預(yù)測的圓形網(wǎng)格上,PolarQuant就不用再存那些“用來表示數(shù)據(jù)范圍”的額外信息,從而省下了一大塊內(nèi)存空間。


▲PolarQuant工作概念圖(圖源:谷歌官網(wǎng))

第二階段,TurboQuant僅以1 bit的極小額外內(nèi)存開銷,將QJL作用于第一階段壓縮后殘留的微小誤差上,消除誤差。

QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數(shù)學(xué)方法,在保留數(shù)據(jù)點之間基本距離與關(guān)聯(lián)關(guān)系的前提下,把復(fù)雜的數(shù)據(jù)壓縮成了一種超級簡單、幾乎不占額外內(nèi)存、計算又特別快的格式。

QJL在高精度查詢與低精度簡化數(shù)據(jù)之間進行結(jié)構(gòu)化平衡,相當(dāng)于一個數(shù)學(xué)誤差校正器,能夠消除壓縮帶來的偏差。這使得模型能夠精準計算注意力分數(shù)(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過程)。

二、拆解測試:TurboQuant強在哪?

谷歌稱,在實驗中,TurboQuant能在完全不降低AI模型效果、不損失精度的前提下,顯著解決鍵值緩存給模型推理帶來的性能瓶頸。

谷歌拿Meta開源的Llama-3.1-8B模型做測試,將TurboQuant、PolarQuant和KIVI算法相比較,可以看到,與官方基準線Full Cache相比,TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit,并且沒有損失模型精度。同時,PolarQuant也幾乎實現(xiàn)了無損壓縮。


▲TurboQuant的緩存壓縮性能圖(橫軸為性能得分,縱軸為量化方案)(圖源:谷歌官網(wǎng))

谷歌對3種不同量化位寬的TurboQuant進行測試,結(jié)果表明,在下圖的所有序列長度(模型處理的文本token數(shù)量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超長上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同時,谷歌稱TurboQuant在JAX框架(谷歌的超級加速框架)的基礎(chǔ)上,仍能實現(xiàn)顯著加速。在英偉達的H100 GPU上,TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存,速度最高提升8倍,不僅能加速大模型推理,還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場景。


▲TurboQuant計算注意力logits的加速效果圖(橫軸為序列長度,縱軸為加速比)(圖源:谷歌官網(wǎng))

在高維向量搜索任務(wù)中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個近似結(jié)果中,壓縮后的向量和不壓縮時算出“最相似結(jié)果”一樣的概率。)為指標,將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進行了效果對比。

從下圖可以看到,不管是2 bit還是4 bit版本的TurboQuant,都在召回率指標上持續(xù)取得了更優(yōu)表現(xiàn)。這證實了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

同時,谷歌稱,在GloVe數(shù)據(jù)集(維度d=200)(斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集)上,TurboQuant在與當(dāng)前多種主流先進量化方法的對比中,展現(xiàn)出穩(wěn)健的檢索性能,并實現(xiàn)了最優(yōu)的1@k召回率。


▲TurboQuant的召回率圖(橫軸是檢索范圍,縱軸是召回率)(圖源:谷歌官網(wǎng))

由此可見,TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上,通過極低比特量化與誤差校正,使鍵值緩存的存儲空間顯著減少,讓模型能夠在相同硬件條件下處理更長的上下文、更大的批量數(shù)據(jù),同時降低推理成本。

此外,TurboQuant的推理速度極快,精度幾乎達到無損效果,即使在超長文本下其推理能力依然穩(wěn)定高效。

結(jié)語:算法博弈下的存儲焦慮,企業(yè)推動大模型“瘦身”革命

TurboQuant在谷歌的測試中表現(xiàn)出了出色的出成績,它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時,完成大規(guī)模向量索引的構(gòu)建與查詢,這讓“谷歌級別”的語義搜索變得更加快速高效。

早在2025年,英偉達于在arXiv上公開了第一版KVTC,證明它能把大模型的鍵值緩存壓縮到原來的 1/20,同時精度損失不到1%。近期,英偉達更新了實測數(shù)據(jù),稱在H100 GPU上處理8000 Token的長提示時,模型生成第一個詞的時間,從傳統(tǒng)方案的3秒左右,縮短至380毫秒,速度提升8倍。

科技大廠正通過持續(xù)的算法創(chuàng)新與迭代,不斷提升AI大模型的推理效率。在當(dāng)前存儲芯片供應(yīng)緊張的背景下,企業(yè)通過對大模型推理過程中的鍵值緩存進行高效壓縮,來提升大模型自身的推理效率,或許可以在一定程度上緩解存儲芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

阿七說史
2026-03-09 16:01:03
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
“公路閃電”終于換代,但我覺得不如豐田

“公路閃電”終于換代,但我覺得不如豐田

差評XPIN
2026-03-26 09:57:20
5月1日起,全國電動車徹底“變天”,家家戶戶都要注意

5月1日起,全國電動車徹底“變天”,家家戶戶都要注意

番外行
2026-03-26 08:19:47
11歲華人男孩被白人繼父拐走,雙雙墜崖身亡!給母親留下一句“你不配做媽媽”

11歲華人男孩被白人繼父拐走,雙雙墜崖身亡!給母親留下一句“你不配做媽媽”

發(fā)現(xiàn)新西蘭
2026-03-26 12:46:52
75年春節(jié),蔣介石帶病給毛主席發(fā)電報,電報中提到了自己最后心愿

75年春節(jié),蔣介石帶病給毛主席發(fā)電報,電報中提到了自己最后心愿

芳芳歷史燴
2026-03-26 15:04:03
12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

就一點
2026-03-08 23:09:47
油價降了!3月26日全國油價下調(diào)85元噸,4月7日油價將迎下跌!

油價降了!3月26日全國油價下調(diào)85元噸,4月7日油價將迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
又一位大佬因心梗去世,年僅55歲!

又一位大佬因心梗去世,年僅55歲!

犀利辣椒
2026-03-27 06:39:59
中國摩托在越南被日本本田打的慘?。‖F(xiàn)在又一路翻盤,太解氣!

中國摩托在越南被日本本田打的慘?。‖F(xiàn)在又一路翻盤,太解氣!

萬物知識圈
2026-03-26 15:19:33
扎哈羅娃警告日本:任何試圖向烏提供致命武器之舉,都將招致強硬回應(yīng)

扎哈羅娃警告日本:任何試圖向烏提供致命武器之舉,都將招致強硬回應(yīng)

環(huán)球網(wǎng)資訊
2026-03-26 08:55:12
85萬元買的瑪莎拉蒂汽車故障后更換發(fā)動機,6年后車主才發(fā)現(xiàn)4S店換上的是老舊拆車件!法院判了:構(gòu)成欺詐

85萬元買的瑪莎拉蒂汽車故障后更換發(fā)動機,6年后車主才發(fā)現(xiàn)4S店換上的是老舊拆車件!法院判了:構(gòu)成欺詐

揚子晚報
2026-03-26 22:51:04
中國女主管跳海逃生:豪華郵輪上,多的是你不知道的事

中國女主管跳海逃生:豪華郵輪上,多的是你不知道的事

她刊
2026-03-13 18:36:53
美媒:調(diào)解方稱伊朗沒“求”美國推遲空襲能源設(shè)施

美媒:調(diào)解方稱伊朗沒“求”美國推遲空襲能源設(shè)施

界面新聞
2026-03-27 08:04:19
克洛普:我給薩拉赫發(fā)了短信,真的希望他能好好享受余下賽季

克洛普:我給薩拉赫發(fā)了短信,真的希望他能好好享受余下賽季

懂球帝
2026-03-27 07:34:12
手握18棟樓!魔方公寓暴雷后,大房東替租客追債

手握18棟樓!魔方公寓暴雷后,大房東替租客追債

廣州樓市發(fā)布
2026-03-26 19:44:39
從歐爾班行為,看北約當(dāng)年拒絕俄羅斯的遠見

從歐爾班行為,看北約當(dāng)年拒絕俄羅斯的遠見

民間胡扯老哥
2026-03-23 18:53:38
白鹿,張凌赫被傳復(fù)合?男方被曝只跟她談過,熱搜炸了:這倆兜兜轉(zhuǎn)轉(zhuǎn),好體面....

白鹿,張凌赫被傳復(fù)合?男方被曝只跟她談過,熱搜炸了:這倆兜兜轉(zhuǎn)轉(zhuǎn),好體面....

阿廢冷眼觀察所
2026-03-27 00:13:22
南京男子回家迫不及待抱住妻子,結(jié)果家中鸚鵡一開口,讓他崩潰!

南京男子回家迫不及待抱住妻子,結(jié)果家中鸚鵡一開口,讓他崩潰!

白云故事
2025-03-14 19:05:07
2025年演唱會票房最高的10位歌手排行榜,這些歌手太賺錢了!

2025年演唱會票房最高的10位歌手排行榜,這些歌手太賺錢了!

小椰的奶奶
2026-03-26 08:40:13
2026-03-27 08:32:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11443文章數(shù) 117016關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普再表態(tài):伊朗必須達成協(xié)議 否則將面臨猛烈攻勢

頭條要聞

特朗普再表態(tài):伊朗必須達成協(xié)議 否則將面臨猛烈攻勢

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
旅游
時尚
教育
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

旅游要聞

從有形商品到無形感受,用“情緒價值”解開消費密碼

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

教育要聞

健康第一理念下,校長管理的智慧:有所為,有所不為

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版