国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌全新TurboQuant算法:AI內(nèi)存處理速度提升8倍,成本降低50%

0
分享至



隨著大語言模型持續(xù)擴(kuò)大上下文窗口,以處理海量文檔和復(fù)雜對話,它們正面臨一個(gè)嚴(yán)峻的硬件難題——鍵值緩存(KV Cache)瓶頸

模型處理的每個(gè)詞匯,都需要以高維向量的形式存儲(chǔ)在高速內(nèi)存中。在長文本處理任務(wù)中,這份“數(shù)字備忘單”會(huì)迅速膨脹,吞噬模型推理過程中所使用的圖形處理器(GPU)視頻隨機(jī)存取存儲(chǔ)器(VRAM),并導(dǎo)致模型性能隨時(shí)間推移急劇下降。

不過無需擔(dān)憂,谷歌研究院已給出解決方案:昨日,這家搜索巨頭旗下的研究院發(fā)布了TurboQuant算法套件。這一純軟件層面的突破性成果,為極致的鍵值緩存壓縮提供了數(shù)學(xué)實(shí)現(xiàn)方案,能讓任意模型的鍵值內(nèi)存占用量平均減少6倍,注意力對數(shù)似然值的計(jì)算性能提升8倍,企業(yè)在自有模型上部署該算法后,成本可降低50%以上。

這套有扎實(shí)理論支撐的算法及相關(guān)研究論文現(xiàn)已免費(fèi)向公眾開放,企業(yè)也可使用,為模型在不損失智能性的前提下實(shí)現(xiàn)輕量化,提供了一種無需重新訓(xùn)練的解決方案。

TurboQuant的問世,是谷歌自2024年起歷時(shí)多年研究的成果。盡管其中的核心數(shù)學(xué)框架,包括極坐標(biāo)量化(PolarQuant)和量化約翰遜-林登施特勞斯變換(QJL),早在2025年初就已形成文獻(xiàn)記錄,但此次正式發(fā)布,標(biāo)志著該技術(shù)從學(xué)術(shù)理論走向了大規(guī)模量產(chǎn)應(yīng)用。

此次發(fā)布的時(shí)機(jī)頗具戰(zhàn)略意義,恰逢相關(guān)研究成果即將在兩大國際會(huì)議上亮相——巴西里約熱內(nèi)盧舉辦的2026年學(xué)習(xí)表示國際會(huì)議(ICLR 2026),以及摩洛哥丹吉爾舉辦的2026年人工智能與統(tǒng)計(jì)年會(huì)(AISTATS 2026)。

谷歌通過開放研究框架發(fā)布這些方法,為蓬勃發(fā)展的**智能體化人工智能(Agentic AI)**時(shí)代搭建了核心的“底層架構(gòu)”:滿足了對海量、高效、可檢索的矢量化內(nèi)存的需求,且這類內(nèi)存最終可在用戶現(xiàn)有的硬件設(shè)備上運(yùn)行。據(jù)悉,該算法的發(fā)布已對股市產(chǎn)生影響,內(nèi)存供應(yīng)商的股價(jià)出現(xiàn)下跌,原因是交易員認(rèn)為這一技術(shù)的推出意味著市場對內(nèi)存的需求將減少(不過從杰文斯悖論來看,這一判斷或許并不準(zhǔn)確)。

內(nèi)存架構(gòu)優(yōu)化:破解效率損耗難題

要理解TurboQuant的重要性,首先需要了解現(xiàn)代人工智能面臨的“內(nèi)存效率損耗”問題。傳統(tǒng)的向量量化技術(shù),歷來是一個(gè)存在“精度流失”的過程。

當(dāng)高精度小數(shù)被壓縮為簡單整數(shù)時(shí),產(chǎn)生的量化誤差會(huì)不斷累積,最終導(dǎo)致模型出現(xiàn)幻覺現(xiàn)象,或喪失語義連貫性。

此外,大多數(shù)現(xiàn)有量化方法都需要依賴量化常數(shù)——這類元數(shù)據(jù)與壓縮后的比特?cái)?shù)據(jù)一同存儲(chǔ),用于指導(dǎo)模型完成解壓縮。在很多情況下,這些常數(shù)會(huì)帶來巨大的額外開銷,有時(shí)每個(gè)數(shù)值的開銷甚至達(dá)到1至2個(gè)比特,這使得壓縮帶來的收益被完全抵消。

TurboQuant通過兩道數(shù)學(xué)“防護(hù)屏障”解決了這一矛盾。第一道屏障采用極坐標(biāo)量化技術(shù),重新設(shè)計(jì)了高維空間的映射方式。

該技術(shù)不再使用標(biāo)準(zhǔn)的笛卡爾坐標(biāo)系(X、Y、Z軸),而是將向量轉(zhuǎn)換為由半徑和一組角度構(gòu)成的極坐標(biāo)系。

這一設(shè)計(jì)的突破性體現(xiàn)在幾何層面:經(jīng)過隨機(jī)旋轉(zhuǎn)后,這些角度的分布會(huì)變得高度可預(yù)測且集中。由于數(shù)據(jù)的“分布形態(tài)”已明確,系統(tǒng)無需再為每個(gè)數(shù)據(jù)塊存儲(chǔ)昂貴的歸一化常數(shù),只需將數(shù)據(jù)映射到一個(gè)固定的圓形網(wǎng)格上,即可消除傳統(tǒng)方法必須承擔(dān)的額外開銷。

第二道屏障則充當(dāng)數(shù)學(xué)誤差校驗(yàn)器。即便有極坐標(biāo)量化的高效處理,仍會(huì)殘留少量誤差。TurboQuant會(huì)對這些剩余數(shù)據(jù)應(yīng)用1比特量化約翰遜-林登施特勞斯變換,將每個(gè)誤差值簡化為一個(gè)簡單的符號比特(+1或-1),該變換同時(shí)作為無偏估計(jì)器發(fā)揮作用。這確保了模型在計(jì)算注意力分?jǐn)?shù)(即判斷提示詞中哪些詞匯最相關(guān)的關(guān)鍵過程)時(shí),壓縮后的數(shù)據(jù)與高精度的原始數(shù)據(jù)在統(tǒng)計(jì)層面完全一致。

性能基準(zhǔn)測試與實(shí)際應(yīng)用可靠性

檢驗(yàn)任何壓縮算法的黃金標(biāo)準(zhǔn),是“大海撈針”基準(zhǔn)測試——該測試用于評估人工智能能否在10萬字的文本中,找到隱藏的某一個(gè)特定句子。

在對Llama-3.1-8B、Mistral-7B等開源模型的測試中,TurboQuant取得了滿分的召回率,性能與未壓縮的模型完全一致,同時(shí)將鍵值緩存的內(nèi)存占用量至少降低了6倍。

這種“無損精度”在極致量化領(lǐng)域極為罕見,畢竟傳統(tǒng)的3比特量化系統(tǒng)往往會(huì)出現(xiàn)顯著的邏輯性能衰減。

除聊天機(jī)器人外,TurboQuant對高維檢索技術(shù)也具有變革性意義?,F(xiàn)代搜索引擎正越來越依賴語義檢索技術(shù),通過對比數(shù)十億個(gè)向量的語義含義實(shí)現(xiàn)檢索,而非簡單的關(guān)鍵詞匹配。與RabbiQ、乘積量化(PQ)等現(xiàn)有主流量化方法相比,TurboQuant的召回率始終更優(yōu),且?guī)缀鯚o需任何索引時(shí)間。

這一特性使其成為實(shí)時(shí)應(yīng)用場景的理想選擇——在這類場景中,數(shù)據(jù)會(huì)持續(xù)加入數(shù)據(jù)庫,且需要實(shí)現(xiàn)即時(shí)檢索。此外,在英偉達(dá)H100加速器等硬件上,TurboQuant的4比特實(shí)現(xiàn)方案讓注意力對數(shù)似然值的計(jì)算性能提升了8倍,這一提速對技術(shù)的實(shí)際落地至關(guān)重要。

業(yè)界的熱烈反響

通過Grok搜索發(fā)現(xiàn),X平臺(tái)上的網(wǎng)友對該算法的反響,兼具技術(shù)層面的驚嘆與迫不及待的實(shí)踐嘗試。

谷歌研究院官方賬號發(fā)布的這一消息引發(fā)了巨大關(guān)注,瀏覽量超770萬次,可見行業(yè)對于內(nèi)存危機(jī)的解決方案早已翹首以盼。

在算法發(fā)布后的24小時(shí)內(nèi),社區(qū)開發(fā)者就開始將其移植到主流的本地人工智能庫中,如適用于蘋果硅芯片的MLX庫和llama.cpp庫。

技術(shù)分析師普林斯·卡努馬分享了一組極具說服力的早期基準(zhǔn)測試數(shù)據(jù):他在MLX庫中部署TurboQuant并測試通義千問3.5-35B模型,結(jié)果顯示,在8500至64000個(gè)令牌的不同上下文長度下,所有量化級別均實(shí)現(xiàn)了100%的精準(zhǔn)匹配;2.5比特版本的TurboQuant更是將鍵值緩存占用量降低了近5倍,且無任何精度損失。這一實(shí)際測試結(jié)果與谷歌的內(nèi)部研究相印證,證明該算法的優(yōu)勢可無縫遷移至第三方模型。

還有部分用戶關(guān)注到該算法對高性能人工智能平民化的推動(dòng)作用。諾亞·愛潑斯坦用通俗的語言解讀了TurboQuant的價(jià)值,認(rèn)為該算法大幅縮小了免費(fèi)的本地人工智能與昂貴的云端人工智能服務(wù)之間的差距。

他指出,在Mac Mini等消費(fèi)級硬件上運(yùn)行的本地模型,性能得到了質(zhì)的提升,即便處理10萬個(gè)令牌的長對話,也不會(huì)出現(xiàn)常見的精度衰減問題。

普拉賈瓦爾·托馬爾也強(qiáng)調(diào)了免費(fèi)在本地運(yùn)行超高性能人工智能模型的安全性和速度優(yōu)勢,對谷歌選擇公開研究成果、而非將其私有化的決定表達(dá)了高度贊賞。

市場影響與硬件技術(shù)的未來發(fā)展

TurboQuant的發(fā)布,已開始對整個(gè)科技經(jīng)濟(jì)領(lǐng)域產(chǎn)生連鎖反應(yīng)。在周二該算法發(fā)布后,分析師觀察到美光、西部數(shù)據(jù)等主流內(nèi)存供應(yīng)商的股價(jià)出現(xiàn)下行趨勢。

市場的這一反應(yīng)反映出一種共識(shí):如果人工智能巨頭僅通過軟件優(yōu)化,就能將內(nèi)存需求壓縮6倍,那么市場對高帶寬內(nèi)存(HBM)無止境的需求,或許會(huì)因算法層面的效率提升而得到緩解。

步入2026年,TurboQuant的問世預(yù)示著,人工智能技術(shù)的下一個(gè)發(fā)展階段,將既依賴算力的硬實(shí)力,也依托數(shù)學(xué)設(shè)計(jì)的巧思。谷歌通過極致壓縮重新定義了效率,為多步驟智能體和密集檢索流水線實(shí)現(xiàn)了“更智能的內(nèi)存調(diào)度”。整個(gè)行業(yè)正從追求“更大的模型”轉(zhuǎn)向打造“更高效的內(nèi)存”,這一轉(zhuǎn)變有望降低全球人工智能推理服務(wù)的成本。

企業(yè)決策者的戰(zhàn)略考量

對于當(dāng)前正在使用或微調(diào)自有人工智能模型的企業(yè)而言,TurboQuant的發(fā)布為其實(shí)現(xiàn)業(yè)務(wù)運(yùn)營的即時(shí)優(yōu)化提供了難得的機(jī)遇。

與許多需要高額重訓(xùn)練成本或?qū)S脭?shù)據(jù)集的人工智能技術(shù)突破不同,TurboQuant無需重新訓(xùn)練模型,且與數(shù)據(jù)類型無關(guān)。

這意味著企業(yè)可將該量化技術(shù)應(yīng)用于現(xiàn)有的微調(diào)模型——無論模型基于Llama、Mistral還是谷歌自研的Gemma打造,都能立即實(shí)現(xiàn)內(nèi)存節(jié)約和性能提速,且不會(huì)損害企業(yè)為打造模型專屬性能所付出的努力。

從實(shí)際應(yīng)用角度,企業(yè)的信息技術(shù)和開發(fā)運(yùn)維團(tuán)隊(duì)可考慮通過以下步驟,將該研究成果融入業(yè)務(wù)運(yùn)營:

  1. 優(yōu)化推理流水線:將TurboQuant集成到生產(chǎn)級推理服務(wù)器中,可減少長上下文應(yīng)用推理所需的GPU數(shù)量,有望將云端計(jì)算成本降低50%甚至更多;
  2. 拓展上下文處理能力:處理海量內(nèi)部文檔的企業(yè),如今可為檢索增強(qiáng)生成(RAG)任務(wù)配置大得多的上下文窗口,而無需承擔(dān)以往讓這類功能因成本過高而難以落地的巨額顯存開銷;
  3. 升級本地部署能力:對于有嚴(yán)格數(shù)據(jù)隱私要求的企業(yè),TurboQuant讓在本地硬件或邊緣設(shè)備上運(yùn)行高性能大模型成為可能——這些設(shè)備此前甚至無法支撐32比特乃至8比特的模型權(quán)重;
  4. 重新評估硬件采購計(jì)劃:在投資搭建大規(guī)模的高帶寬內(nèi)存密集型GPU集群前,運(yùn)營管理者應(yīng)先評估,現(xiàn)有業(yè)務(wù)的性能瓶頸有多少可通過這類軟件驅(qū)動(dòng)的效率提升來解決。

歸根結(jié)底,TurboQuant證明了人工智能的發(fā)展極限,不僅取決于我們能在芯片中集成多少晶體管,更在于我們能否以精妙的方式,將信息的無限復(fù)雜性轉(zhuǎn)化為數(shù)字比特的有限存儲(chǔ)空間。對于企業(yè)而言,這遠(yuǎn)不止是一篇研究論文,更是一把戰(zhàn)術(shù)密鑰,能讓現(xiàn)有硬件資產(chǎn)的性能實(shí)現(xiàn)質(zhì)的飛躍。

聲明:取材網(wǎng)絡(luò),謹(jǐn)慎辨別

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月1日起,高血壓、糖尿病患者去社區(qū)辦這個(gè)證,一年能省下不少錢

4月1日起,高血壓、糖尿病患者去社區(qū)辦這個(gè)證,一年能省下不少錢

牛鍋巴小釩
2026-04-05 20:20:47
性感巨星新婚之夜初嘗禁果 坦言:美好又純潔 不尷尬

性感巨星新婚之夜初嘗禁果 坦言:美好又純潔 不尷尬

可樂談情感
2026-04-05 18:13:39
特魯姆普3-10慘敗,趙心童開心捧杯享受歡呼

特魯姆普3-10慘敗,趙心童開心捧杯享受歡呼

劉笤說體壇
2026-04-06 04:53:49
5-2!2-2!瘋狂一夜,國米擊敗羅馬,阿拉維斯絕平,西漢姆聯(lián)淘汰

5-2!2-2!瘋狂一夜,國米擊敗羅馬,阿拉維斯絕平,西漢姆聯(lián)淘汰

足球狗說
2026-04-06 05:28:47
張雪機(jī)車創(chuàng)始人自曝,國產(chǎn)率未達(dá)100%,因用了兩個(gè)日廠小零件

張雪機(jī)車創(chuàng)始人自曝,國產(chǎn)率未達(dá)100%,因用了兩個(gè)日廠小零件

小陸搞笑日常
2026-04-04 14:44:27
美國明明是全球第一產(chǎn)油國,為何還要死磕中東高硫原油?

美國明明是全球第一產(chǎn)油國,為何還要死磕中東高硫原油?

知識(shí)圈
2026-04-05 10:42:35
毛新宇攜家人到楊開慧烈士陵園祭掃

毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體
2026-04-05 08:48:13
“自動(dòng)鉛筆”事件火了,面相學(xué)果然權(quán)威,帶入同學(xué)視角天都塌了!

“自動(dòng)鉛筆”事件火了,面相學(xué)果然權(quán)威,帶入同學(xué)視角天都塌了!

番外行
2026-04-04 12:52:45
油價(jià)下跌180°大拐彎!92號汽油一夜升溫?4月7日調(diào)價(jià)!全國92、95號汽油報(bào)價(jià)!92號油價(jià)...

油價(jià)下跌180°大拐彎!92號汽油一夜升溫?4月7日調(diào)價(jià)!全國92、95號汽油報(bào)價(jià)!92號油價(jià)...

新浪財(cái)經(jīng)
2026-04-05 17:43:23
伊朗官方確認(rèn):翼龍-2首次參戰(zhàn)即被擊落,海灣國家反應(yīng)強(qiáng)烈

伊朗官方確認(rèn):翼龍-2首次參戰(zhàn)即被擊落,海灣國家反應(yīng)強(qiáng)烈

衣服固元膏
2026-04-04 15:53:17
美國宇航員代表人類首次肉眼看見月球背面:六小時(shí)里他們在找什么

美國宇航員代表人類首次肉眼看見月球背面:六小時(shí)里他們在找什么

楠楠自語
2026-04-06 02:37:49
4億美元,灰飛煙滅

4億美元,灰飛煙滅

中國新聞周刊
2026-04-05 18:06:30
李訥帶全家去祭拜毛主席,兒媳王偉漂亮懂事,王景清攙扶著李訥

李訥帶全家去祭拜毛主席,兒媳王偉漂亮懂事,王景清攙扶著李訥

大江
2026-03-14 08:17:36
鄭麗文訪問大陸,島內(nèi)民調(diào)驚人,吳伯雄重磅表態(tài),賴清德遭到重?fù)?>
    </a>
        <h3>
      <a href=肖茲探秘說
2026-04-05 19:23:07
網(wǎng)傳一高校英語專業(yè)班級22名畢業(yè)生無一找到工作,輔導(dǎo)員氣到崩潰

網(wǎng)傳一高校英語專業(yè)班級22名畢業(yè)生無一找到工作,輔導(dǎo)員氣到崩潰

狐貍先森講升學(xué)規(guī)劃
2026-04-06 00:05:03
研究顯示:我國男性陰莖疲軟狀態(tài)下的均值是6.5厘米,你達(dá)標(biāo)了嗎

研究顯示:我國男性陰莖疲軟狀態(tài)下的均值是6.5厘米,你達(dá)標(biāo)了嗎

黯泉
2026-04-05 19:00:47
油價(jià)再迎調(diào)整

油價(jià)再迎調(diào)整

蓬勃新聞
2026-04-05 10:10:56
曹操墓前擺滿布洛芬,高陵遺址博物館:清明游客眾多,每天有新的人來送,會(huì)擺放整齊不會(huì)隨意清理

曹操墓前擺滿布洛芬,高陵遺址博物館:清明游客眾多,每天有新的人來送,會(huì)擺放整齊不會(huì)隨意清理

極目新聞
2026-04-05 18:09:27
從敬畏到挑釁!松島輝空差異化點(diǎn)評國乒雙雄,點(diǎn)破王楚欽命門

從敬畏到挑釁!松島輝空差異化點(diǎn)評國乒雙雄,點(diǎn)破王楚欽命門

體育見習(xí)官
2026-04-05 13:08:20
戰(zhàn)滿7局!王楚欽4-3險(xiǎn)勝日本新星,首次加冕世界杯男單冠軍

戰(zhàn)滿7局!王楚欽4-3險(xiǎn)勝日本新星,首次加冕世界杯男單冠軍

全景體育V
2026-04-05 22:12:53
2026-04-06 06:27:00
超級AI時(shí)代
超級AI時(shí)代
發(fā)現(xiàn)價(jià)值,創(chuàng)造價(jià)值
58文章數(shù) 21關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

伊朗軍方:過去兩天擊落美12架戰(zhàn)機(jī) 含4架“黑鷹”

頭條要聞

伊朗軍方:過去兩天擊落美12架戰(zhàn)機(jī) 含4架“黑鷹”

體育要聞

CBA最老球員,身價(jià)7500萬美元

娛樂要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財(cái)經(jīng)要聞

誰造出了優(yōu)思益這頭“怪物”?

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

教育
本地
時(shí)尚
公開課
軍事航空

教育要聞

臨時(shí)組隊(duì)、跨國搭檔!兩個(gè)成都女孩拿下亞洲辯論冠軍

本地新聞

跟著歌聲游安徽,聽古村回響

伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美飛行員獲救細(xì)節(jié):美伊發(fā)生激烈交火 至少4死1傷

無障礙瀏覽 進(jìn)入關(guān)懷版