国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

谷歌論文炸場!AI內(nèi)存砍6倍,存儲(chǔ)巨頭股價(jià)集體跳水

0
分享至



2026年3月25日,美股開盤即上演“黑色星期三”——存儲(chǔ)芯片板塊集體重挫,美光、西部數(shù)據(jù)、希捷、閃迪等巨頭股價(jià)全線飄綠,最大跌幅超6%。這場突如其來的市場震蕩,導(dǎo)火索并非芯片產(chǎn)能、需求數(shù)據(jù)等傳統(tǒng)因素,而是谷歌一篇尚未正式發(fā)表的論文:TurboQuant。

這篇即將亮相ICLR2026的技術(shù)成果,用一套“暴力”壓縮方案,將大模型推理的核心瓶頸——KV緩存,在幾乎零精度損耗的前提下壓縮至3-bit,內(nèi)存開銷驟降6倍,推理速度飆升8倍。消息一出,市場瞬間炸鍋:AI服務(wù)器的“內(nèi)存剛需”邏輯被直接動(dòng)搖,萬億存儲(chǔ)芯片市場的底層邏輯遭遇前所未有的沖擊。

一、KV緩存:大模型的“內(nèi)存吞金獸”

要理解TurboQuant的顛覆性,得先搞懂它瞄準(zhǔn)的靶心——KV緩存到底有多“吃內(nèi)存”。

大模型生成每一個(gè)新Token時(shí),都要“回看”之前所有對(duì)話內(nèi)容,避免重復(fù)計(jì)算。為了提速,模型會(huì)把每一層注意力機(jī)制生成的Key(鍵)和Value(值)向量全部緩存起來,形成一張高速“速查表”,這就是KV緩存。

問題在于,這張表會(huì)隨對(duì)話長度線性膨脹:

上下文從4K擴(kuò)展到128K,甚至百萬級(jí)別時(shí),KV緩存占用的顯存往往反超模型參數(shù)本身,成為推理階段最大的內(nèi)存瓶頸。

傳統(tǒng)量化方案(如16-bit轉(zhuǎn)4-bit)雖能壓縮,但需額外存儲(chǔ)歸一化參數(shù),每塊數(shù)據(jù)多占1-2bit,實(shí)際壓縮效果大打折扣。

簡單說,KV緩存就是大模型的“短期記憶”,越長對(duì)話越占內(nèi)存,直接決定了AI服務(wù)器的硬件門檻和推理成本。過去兩年,AI大模型的爆發(fā)式增長,讓“高帶寬、大容量內(nèi)存”成了存儲(chǔ)芯片廠商的核心增長邏輯,美光、SK海力士等企業(yè)的估值,幾乎都建立在“AI單機(jī)內(nèi)存需求只增不減”的預(yù)期之上。





二、TurboQuant:用數(shù)學(xué)暴力破解內(nèi)存瓶頸

谷歌TurboQuant的厲害之處,在于它用一套極簡的數(shù)學(xué)方案,徹底解決了傳統(tǒng)壓縮的“附加開銷”問題,實(shí)現(xiàn)了近乎無損的極致壓縮。

1.兩步“絕殺”:極坐標(biāo)+1-bit校正

TurboQuant的核心是兩階段壓縮流程,沒有復(fù)雜的模型重訓(xùn),全靠數(shù)學(xué)變換:

第一步:PolarQuant極坐標(biāo)變換

傳統(tǒng)量化在笛卡爾坐標(biāo)系下操作,需額外存儲(chǔ)“比例尺”(歸一化參數(shù)),占內(nèi)存。TurboQuant先對(duì)高維向量做隨機(jī)旋轉(zhuǎn),再切換到極坐標(biāo)系描述——旋轉(zhuǎn)后向量分量收斂到統(tǒng)一分布,無需存儲(chǔ)任何歸一化常數(shù),直接把這部分內(nèi)存開銷“歸零”。



第二步:1-bit誤差校正

壓縮必然帶來偏差,TurboQuant僅用1-bit額外空間,加入數(shù)學(xué)“校正器”,精準(zhǔn)抹平系統(tǒng)性誤差,確保模型推理表現(xiàn)幾乎零損耗。

2.實(shí)戰(zhàn)效果:碾壓傳統(tǒng)方案,性能拉滿

谷歌在LongBench、NeedleInAHaystack等五大長上下文基準(zhǔn)測試中,對(duì)Gemma、Mistral、Llama-3.1-8B等模型做了嚴(yán)格驗(yàn)證,結(jié)果堪稱“暴力”:

壓縮能力:3-bit配置下,KV緩存開銷直接降6倍,2.5-bit也能實(shí)現(xiàn)4.9倍壓縮,且精度逼近全精度模型。



速度提升:在H100GPU上,4-bitTurboQuant的注意力計(jì)算速度,比32-bit基線快8倍,且運(yùn)行時(shí)開銷幾乎可忽略。



極限測試:“大海撈針”任務(wù)中,6倍壓縮后,模型在10萬Token文本里精準(zhǔn)檢索信息,與全精度版本完全一致。



更關(guān)鍵的是,論文發(fā)布不到24小時(shí),獨(dú)立開發(fā)者就基于PyTorch和Tritonkernel完成復(fù)現(xiàn)——在RTX4090上用2-bit跑Gemma34B,輸出與未壓縮版本逐字符相同,用代碼驗(yàn)證了“零損耗”的真實(shí)性。









三、市場震蕩:存儲(chǔ)巨頭的“底層邏輯地震”

TurboQuant的出現(xiàn),對(duì)存儲(chǔ)芯片行業(yè)而言,是一場不折不扣的底層邏輯大地震。

1.直接沖擊:AI硬件邏輯被改寫

過去兩年,存儲(chǔ)廠商的估值核心是“AI服務(wù)器單機(jī)容量紅利”——大模型越長、越復(fù)雜,需要的高端內(nèi)存就越多,“量價(jià)齊升”成了行業(yè)共識(shí)。

但TurboQuant直接打破了這個(gè)邏輯:

同樣的內(nèi)存,能跑更長上下文、更多并發(fā)、更大模型;

每臺(tái)服務(wù)器所需的高端內(nèi)存芯片,理論上可能大幅減少;

推理成本的“地板價(jià)”被直接改寫,3-bit能做過去16-bit的事。

這也是為什么消息一出,美股存儲(chǔ)板塊瞬間崩盤——市場開始重新評(píng)估:如果AI內(nèi)存需求能靠軟件算法“砍半”,那些押注硬件剛需的資金,自然要緊急避險(xiǎn)。CloudflareCEO甚至將其形容為“谷歌的DeepSeek時(shí)刻”,直指這項(xiàng)技術(shù)徹底動(dòng)搖了“高內(nèi)存=高性能”的行業(yè)迷信。

2.行業(yè)連鎖反應(yīng):從實(shí)驗(yàn)室到產(chǎn)業(yè)的沖擊波

TurboQuant的影響遠(yuǎn)不止股價(jià):

對(duì)AI公司:推理成本大幅下降,端側(cè)部署門檻降低——16GBMacmini都能跑大模型,中小團(tuán)隊(duì)也能低成本落地AI服務(wù)。

對(duì)存儲(chǔ)廠商:壓力陡增。過去靠“堆容量”賺錢的模式受到挑戰(zhàn),必須轉(zhuǎn)向更高帶寬、更低功耗、更適配AI算法的產(chǎn)品創(chuàng)新,否則將被淘汰。

對(duì)技術(shù)生態(tài):核心思想開源后,全行業(yè)都能跟進(jìn)優(yōu)化,KV緩存壓縮將從“實(shí)驗(yàn)室技術(shù)”快速走向規(guī)?;涞?,重塑AI算力的成本結(jié)構(gòu)。











四、天沒塌:杰文斯悖論下的行業(yè)新邏輯

很多人驚呼“存儲(chǔ)芯片的天塌了”,但真相是:天沒塌,只是邏輯變了。

科技行業(yè)有一條反復(fù)驗(yàn)證的鐵律——杰文斯悖論:資源使用效率越高,總消耗量反而越大。就像蒸汽機(jī)效率提升后,英國煤炭消耗量不降反增;AI算力效率年增30%,但數(shù)據(jù)中心耗電卻持續(xù)飆升。

放到TurboQuant身上,邏輯同樣成立:

內(nèi)存壓縮6倍,不是“少買內(nèi)存”,而是用同樣內(nèi)存做更多事——更長上下文、更多并發(fā)、更大模型,最終推動(dòng)AI應(yīng)用更廣泛落地,反而刺激總內(nèi)存需求增長。

目前TurboQuant僅在8B參數(shù)模型上驗(yàn)證,70B以上大模型、MoE架構(gòu)、百萬級(jí)上下文的表現(xiàn)尚未證實(shí),距離大規(guī)模商用仍有距離。

存儲(chǔ)行業(yè)正處于供應(yīng)極度緊張階段,短期需求不會(huì)因一項(xiàng)技術(shù)而驟降,股價(jià)下跌更多是市場情緒的“獲利了結(jié)”。



五、算力競賽的新戰(zhàn)場:數(shù)學(xué)比芯片更鋒利

TurboQuant事件,給整個(gè)科技行業(yè)上了一課:在算力軍備競賽里,最鋒利的武器未必是更大的芯片,而是更聰明的數(shù)學(xué)。

過去幾年,行業(yè)陷入“堆硬件”的誤區(qū)——大模型越大、顯存越高、算力越強(qiáng),就越有競爭力。但TurboQuant證明,軟件算法的優(yōu)化,能直接撬動(dòng)硬件的效率天花板,用更低成本實(shí)現(xiàn)同等甚至更好的性能。

未來,AI行業(yè)的競爭將從“單純拼硬件”,轉(zhuǎn)向硬件+算法的協(xié)同創(chuàng)新:

芯片廠商需要設(shè)計(jì)更適配壓縮算法、稀疏計(jì)算的硬件;

算法團(tuán)隊(duì)需要持續(xù)突破內(nèi)存、算力的效率邊界;

整個(gè)行業(yè)將在“降本增效”的驅(qū)動(dòng)下,走向更健康、更普惠的發(fā)展路徑。

谷歌一篇論文引發(fā)的存儲(chǔ)地震,本質(zhì)是AI行業(yè)從“野蠻生長”走向“精耕細(xì)作”的縮影。TurboQuant沒有摧毀存儲(chǔ)市場,而是重塑了市場的底層邏輯——效率優(yōu)先、算法驅(qū)動(dòng)、普惠落地,將成為AI算力發(fā)展的新主線。

對(duì)存儲(chǔ)廠商而言,這是挑戰(zhàn),更是機(jī)遇;對(duì)整個(gè)行業(yè)而言,這是一次關(guān)鍵的“糾偏”——真正的AI革命,從來不是堆硬件,而是用技術(shù)讓算力更高效、更普惠。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
原來她是李嘉誠大兒媳,57歲打扮樸素認(rèn)不出,和老公同框像兩代人

原來她是李嘉誠大兒媳,57歲打扮樸素認(rèn)不出,和老公同框像兩代人

以茶帶書
2026-04-17 16:13:14
皇馬近5位主帥勝率:阿隆索70.5%第1,阿韋洛亞 61.9%倒數(shù)第2

皇馬近5位主帥勝率:阿隆索70.5%第1,阿韋洛亞 61.9%倒數(shù)第2

懂球帝
2026-04-17 11:47:57
潘石屹回來了?他又嗅到了什么信號(hào)

潘石屹回來了?他又嗅到了什么信號(hào)

中產(chǎn)先生
2026-04-17 11:33:47
70歲大學(xué)教授向家中保姆表白被拒,保姆:你不是愛我,只是想省錢

70歲大學(xué)教授向家中保姆表白被拒,保姆:你不是愛我,只是想省錢

熱心柚子姐姐
2026-04-16 16:48:17
前人砍樹后人遭殃!一隱瞞懷孕入職的女員工,休完產(chǎn)假辭職引熱議

前人砍樹后人遭殃!一隱瞞懷孕入職的女員工,休完產(chǎn)假辭職引熱議

火山詩話
2026-04-17 10:28:05
600696,地天板!此前4連跌停!

600696,地天板!此前4連跌停!

證券時(shí)報(bào)e公司
2026-04-17 16:18:11
山東省紀(jì)委監(jiān)委網(wǎng)站通報(bào):2人被查

山東省紀(jì)委監(jiān)委網(wǎng)站通報(bào):2人被查

齊魯壹點(diǎn)
2026-04-17 16:07:06
悲催!工作群又走一位同事,79年的,心梗走的,一網(wǎng)友發(fā)帖引熱議

悲催!工作群又走一位同事,79年的,心梗走的,一網(wǎng)友發(fā)帖引熱議

火山詩話
2026-04-17 16:00:17
第二輪要來?巴基斯坦插手后,伊朗突然發(fā)現(xiàn),不能隨便打美基地了

第二輪要來?巴基斯坦插手后,伊朗突然發(fā)現(xiàn),不能隨便打美基地了

聊歷史的阿稼
2026-04-17 11:51:30
價(jià)格狂飆6倍!日本連夜求購遭中方一劍封喉,高端制造全線崩盤?

價(jià)格狂飆6倍!日本連夜求購遭中方一劍封喉,高端制造全線崩盤?

趣文說娛
2026-04-17 19:46:19
華人團(tuán)隊(duì)解散,印度天才入職!馬斯克承認(rèn)xAI的技術(shù)路線走錯(cuò)了

華人團(tuán)隊(duì)解散,印度天才入職!馬斯克承認(rèn)xAI的技術(shù)路線走錯(cuò)了

書紀(jì)文譚
2026-03-17 15:03:58
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

秋姐居
2026-04-15 22:06:55
醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

白話電影院
2026-04-05 15:34:47
將完整生產(chǎn)線轉(zhuǎn)讓中國?只為報(bào)答“舊恩”,連美俄兩國都羨慕不已

將完整生產(chǎn)線轉(zhuǎn)讓中國?只為報(bào)答“舊恩”,連美俄兩國都羨慕不已

攬星辰入夢
2026-04-15 18:22:07
開國第一少將、第一中將、第一上將、第一大將、第一元帥都是誰

開國第一少將、第一中將、第一上將、第一大將、第一元帥都是誰

興趣知識(shí)
2026-03-21 18:56:40
慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:原來是她拿來干那種事

慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:原來是她拿來干那種事

近史談
2026-04-14 18:51:51
這三位演員是誰?有兩人已經(jīng)走了

這三位演員是誰?有兩人已經(jīng)走了

TVB的四小花
2026-04-17 18:09:41
不靠票房不靠流量!張頌文穩(wěn)坐北影節(jié)C位,憑的是實(shí)力

不靠票房不靠流量!張頌文穩(wěn)坐北影節(jié)C位,憑的是實(shí)力

一禾的世界
2026-04-17 18:03:55
外國人扎堆來中國看病:住院3天賬單4萬美元,被歐美醫(yī)療逼瘋了!

外國人扎堆來中國看?。鹤≡?天賬單4萬美元,被歐美醫(yī)療逼瘋了!

古事尋蹤記
2026-04-15 07:21:44
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細(xì)說職場
2026-04-07 11:32:47
2026-04-17 20:27:00
魏家東 incentive-icons
魏家東
一個(gè)人的營銷商學(xué)院!
2650文章數(shù) 12237關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

"封鎖"行動(dòng)升級(jí) 美軍:在全球公海追捕所有"涉伊"船只

頭條要聞

"封鎖"行動(dòng)升級(jí) 美軍:在全球公海追捕所有"涉伊"船只

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
數(shù)碼
時(shí)尚

家居要聞

法式線條 時(shí)光靜淌

藝術(shù)要聞

18幅印象風(fēng)景寫生 | 烏克蘭畫家Daniil Volkov

旅游要聞

不想走,還想來!“賞花+采摘+農(nóng)家飯+夜游”鄉(xiāng)村農(nóng)趣新體驗(yàn)點(diǎn)亮春日經(jīng)濟(jì)

數(shù)碼要聞

零門檻"養(yǎng)蝦"!聯(lián)想天禧Claw體驗(yàn):關(guān)機(jī)也能幫你干活

直播|| 小預(yù)算也能買到好看又能裝的上班包

無障礙瀏覽 進(jìn)入關(guān)懷版