国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

給AI做微創(chuàng)手術(shù):哈工大博士發(fā)明新算法,5分鐘讓大模型減重近半

0
分享至

作為一名 AI 領(lǐng)域的博士生,徐玉莊的經(jīng)歷比較特殊。本科畢業(yè)于國(guó)防科技大學(xué),隨后在部隊(duì)工作了 5 年,接著在清華大學(xué)獲得碩士學(xué)位,目前在哈爾濱工業(yè)大學(xué)讀博。


圖 | 徐玉莊(來(lái)源:徐玉莊)

由其擔(dān)任第一作者的一篇論文于近日被 AAAI 2026 接收,在論文中他和所在團(tuán)隊(duì)打造出一種名為 CAMERA 的新技術(shù),該技術(shù)能在短短五分鐘,為一個(gè)擁有 570 億參數(shù)的巨型模型 Qwen2-57B-A14B 完成一次全面的冗余檢查,并在此基礎(chǔ)上進(jìn)行高效的修剪和壓縮,從而讓大模型在手機(jī)、平板等小型設(shè)備上的高效運(yùn)行距離普通人更進(jìn)一步。

徐玉莊告訴 DeepTech:“我們的方法能夠?qū)崿F(xiàn)精準(zhǔn)剪枝 20% 后模型效果幾乎無(wú)損。我甚至有一個(gè)或許還值得討論的提議就是,基礎(chǔ)模型訓(xùn)練團(tuán)隊(duì)可以用我們這個(gè)分析框架判斷自己的模型是不是充分訓(xùn)練了,如果沒(méi)有或許值得多訓(xùn)一些!

思維大轉(zhuǎn)變:從修剪枝葉到修剪神經(jīng)元

此次成果要解決的問(wèn)題是:想象一下,你有一個(gè)由上百位不同領(lǐng)域的專(zhuān)家組成的超級(jí)智庫(kù),每當(dāng)你問(wèn)一個(gè)問(wèn)題,一個(gè)聰明的調(diào)度員就會(huì)根據(jù)問(wèn)題類(lèi)型,立刻叫出其中幾位最擅長(zhǎng)的專(zhuān)家來(lái)為你解答。這就是當(dāng)前的大模型內(nèi)部的一種名為混合專(zhuān)家模型的先進(jìn)工作方式,它讓 AI 擁有了處理海量知識(shí)和復(fù)雜任務(wù)的能力。

然而,這個(gè)超級(jí)智庫(kù)有一個(gè)幸福的煩惱:專(zhuān)家太多了。雖然每次只需要激活幾位,但是所有專(zhuān)家的知識(shí)儲(chǔ)備也就是模型參數(shù)都需要時(shí)刻準(zhǔn)備著,這會(huì)帶來(lái)驚人的計(jì)算消耗和存儲(chǔ)成本。

更關(guān)鍵的是,人們發(fā)現(xiàn)增加專(zhuān)家數(shù)量帶來(lái)的性能提升,遠(yuǎn)不如增加的成本那么明顯,這意味著智庫(kù)里存在大量的冗余或不那么關(guān)鍵的知識(shí)。

而徐玉莊等人就像是給這個(gè)巨型大腦做手術(shù)的神經(jīng)外科醫(yī)生,他們發(fā)現(xiàn)了一種更加精妙的手術(shù)方案,不僅能讓大模型大幅瘦身,還能保持甚至提高其智商。


(來(lái)源:資料圖)

在過(guò)去,人們?yōu)榱俗尰旌蠈?zhuān)家模型(MoE,Mixture of Experts)瘦身,主要采用兩種粗放式的方法:

第一種方法是專(zhuān)家級(jí)修剪,即直接砍掉整個(gè)專(zhuān)家,就好比由于某個(gè)專(zhuān)家的偶爾懶散,因此把他的整個(gè)團(tuán)隊(duì)解散了,但這難免會(huì)丟失重要知識(shí);

第二種方法是專(zhuān)家級(jí)合并,即把幾個(gè)看似相似的專(zhuān)家合并為一個(gè),這就像讓一位文學(xué)教授去教高等數(shù)學(xué),往往效果不佳。

這些方法之所以效果有限,是因?yàn)樗鼈円窗岩粋(gè)專(zhuān)家當(dāng)做不可分割的整體來(lái)決定去留,要么僅局限于對(duì)單個(gè)參數(shù)矩陣進(jìn)行孤立地壓縮。但是,徐玉莊等人想到一個(gè)更加本質(zhì)的視角:為什么不看得更細(xì)一點(diǎn)呢?

基于此,他們提出了微專(zhuān)家這樣一個(gè)全新的概念。如果把每個(gè)專(zhuān)家看做一個(gè)功能部門(mén),那么微專(zhuān)家就是這個(gè)部門(mén)里最基礎(chǔ)的、一個(gè)個(gè)獨(dú)立負(fù)責(zé)具體任務(wù)的神經(jīng)元或工作小組。

關(guān)鍵在于,一個(gè)微專(zhuān)家是由跨三個(gè)矩陣的特定行列共同定義的,它們通過(guò)協(xié)同工作完成了一個(gè)最基礎(chǔ)的知識(shí)轉(zhuǎn)換動(dòng)作。

整個(gè) MoE 層的輸出,實(shí)際上是所有微專(zhuān)家工作成果的加權(quán)綜合。徐玉莊等人的核心發(fā)現(xiàn)是:在不同的任務(wù)場(chǎng)景下,這些微專(zhuān)家的貢獻(xiàn)天差地別。大部分輸出其實(shí)是由一小部分至關(guān)重要的微專(zhuān)家決定的,而很多微專(zhuān)家則貢獻(xiàn)甚微,存在大量的冗余和馬太效應(yīng)。

這就好比在解答如何做番茄炒蛋這一問(wèn)題時(shí),負(fù)責(zé)烹飪技巧和食材特性的微專(zhuān)家大放異彩,而負(fù)責(zé)量子物理的專(zhuān)家則幾乎在圍觀。

傳統(tǒng)的粗放修剪可能會(huì)誤傷重要的烹飪專(zhuān)家,或者把量子物理專(zhuān)家硬塞進(jìn)烹飪團(tuán)隊(duì)。而 CAMERA 的思路是:精準(zhǔn)定位每一個(gè)圍觀或者低效的微專(zhuān)家,然后以幾乎無(wú)傷害的方式剔除它。


(來(lái)源:資料圖)

CAMERA 算法:給每個(gè)微專(zhuān)家打分的智能秤

那么,如何從數(shù)以萬(wàn)計(jì)的微專(zhuān)家中,快速準(zhǔn)確地找出誰(shuí)重要、誰(shuí)冗余呢?這聽(tīng)起來(lái)像是一個(gè)超級(jí)復(fù)雜的組合優(yōu)化問(wèn)題,在數(shù)學(xué)上被證明是 NP 難題,即無(wú)法在短時(shí)間內(nèi)精確求解。

但是,徐玉莊等人的巧思在于:他們?cè)O(shè)計(jì)了一個(gè)極其巧妙的近似估計(jì)算法,為每個(gè)微專(zhuān)家定義了一個(gè)能量指標(biāo)。

這個(gè)能量由兩部分決定:

第一部分是激活系數(shù),它指的是當(dāng)模型處理不同問(wèn)題的時(shí)候,這個(gè)微專(zhuān)家被調(diào)用的頻繁程度和強(qiáng)度;第二部分是權(quán)重向量范數(shù),它指的是微專(zhuān)家自身知識(shí)儲(chǔ)備的規(guī)模大小。

一個(gè)微專(zhuān)家的能量越高,意味著它越經(jīng)常得到使用,而且自身承載的知識(shí)量越大,也就越重要。相反,能量極低的,就是可以?xún)?yōu)先考慮修剪的冗余部分。

CAMERA 算法利用一個(gè)很小的校準(zhǔn)數(shù)據(jù)集比如 128 段文本,就能在幾分鐘內(nèi)為模型所有層中的所有微專(zhuān)家計(jì)算出來(lái)能量并進(jìn)行排序。這就像使用一把智能秤,可以快速地稱(chēng)出來(lái)每個(gè)工作小組的貢獻(xiàn)度。

更令人贊嘆的是,他們從數(shù)學(xué)上證明了基于這種能量排序的修剪策略,其效果與理論上的最優(yōu)的壓縮方法之間的差距不僅很小而且是可控的,這為 CAMERA 的可靠性和有效性提供了堅(jiān)實(shí)的理論背書(shū)。


(來(lái)源:資料圖)

CAMERA-P:一把精準(zhǔn)的大模型手術(shù)刀

有了精準(zhǔn)的微專(zhuān)家能量排名,就可以開(kāi)始做手術(shù)了,這就是 Camera-P,P 指的是 Pruning,也就是修剪的意思。

Camera-P 的目標(biāo)是:按照設(shè)定的比例比如 20% 或者 40%,移除能量最低的那部分微專(zhuān)家。具體操作非常的結(jié)構(gòu)化,對(duì)于一個(gè)被選中的冗余微專(zhuān)家,Camera-P 會(huì)將其對(duì)應(yīng)的三個(gè)矩陣中的特定行或特定列同時(shí)置零或直接剪除。

這樣做的好處是顯而易見(jiàn)的:

首先,可以保持功能完整,避免了過(guò)去單獨(dú)修剪某個(gè)矩陣可能造成的功能失調(diào);其次,可以真正實(shí)現(xiàn)加速推理,被置零的權(quán)重在計(jì)算時(shí)會(huì)被跳過(guò),這直接可以減少計(jì)算量,提高模型的運(yùn)行速度;再次,無(wú)需進(jìn)行重新訓(xùn)練,整個(gè)過(guò)程是訓(xùn)練后的,無(wú)需使用大量數(shù)據(jù)來(lái)重新訓(xùn)練模型。

實(shí)驗(yàn)結(jié)果表明:Camera-P 在多個(gè)主流 MoE 模型上比如 DeepSeek-MoE-16B、Qwen2-57B 上,從 20% 到 60% 的不同修剪比例下,在語(yǔ)言理解、常識(shí)推理、數(shù)學(xué)問(wèn)題等 9 項(xiàng)任務(wù)上的表現(xiàn),都超越了之前最好的方法。尤其在高達(dá) 60% 的激進(jìn)修剪下,模型性能下降遠(yuǎn)遠(yuǎn)小于其他方法,展現(xiàn)了驚人的魯棒性。


(來(lái)源:資料圖)

CAMERA-Q:給重要知識(shí)進(jìn)行高保真,給次要知識(shí)省空間

除了直接修剪,另一種常見(jiàn)的模型壓縮技術(shù)是量化,即降低存儲(chǔ)每個(gè)權(quán)重?cái)?shù)值所需的比特位數(shù),比如從 16 比特降低到 4 比特,這就像把高清無(wú)損音樂(lè)轉(zhuǎn)換成 MP3,在盡量保持聽(tīng)感的同時(shí)大幅減少文件體積。

現(xiàn)有的 MoE 量化方法主要是在專(zhuān)家級(jí)別分配不同的精度也就是比特?cái)?shù),比如給活躍的專(zhuān)家高精度,給不活躍的專(zhuān)家低精度。但是,徐玉莊等人認(rèn)為這仍然不夠精細(xì),每個(gè)專(zhuān)家內(nèi)部也有重要的微專(zhuān)家和次要的微專(zhuān)家。

于是,他們提出了 CAMERA-Q,Q 指的是 Quantization,就是量化的意思。它利用 CAMERA 得到全局微專(zhuān)家的能量排名,然后在每個(gè)專(zhuān)家內(nèi)部進(jìn)行混合精度分配。

具體來(lái)說(shuō):能量排名最高的那一小部分微專(zhuān)家,分配較高的比特位,精心保留其知識(shí)細(xì)節(jié);能量中等的那一小部分微專(zhuān)家,分配標(biāo)準(zhǔn)的比特位比如 2 比特;能量最低的那一小部分微專(zhuān)家,分配較低的比特位比如 1 比特,從而可以大大節(jié)省空間。

這種方法的精妙之處在于,它確保了每個(gè)微專(zhuān)家內(nèi)部三個(gè)矩陣的精度是一致的,避免了好比“一條腿穿皮鞋,一條腿穿草鞋”的尷尬,維護(hù)了基本功能單元的完整性。

實(shí)驗(yàn)證明,這種微專(zhuān)家感知的量化策略,在激進(jìn)的 2 比特平均精度下,效果顯著優(yōu)于傳統(tǒng)的專(zhuān)家級(jí)量化方法。

CAMERA 技術(shù)的意義遠(yuǎn)不止于學(xué)術(shù)論文中的漂亮數(shù)據(jù)。它為解決大模型落地應(yīng)用的核心瓶頸——計(jì)算成本與存儲(chǔ)開(kāi)銷(xiāo)提供了一套高效、實(shí)用的解決方案。


(來(lái)源:資料圖)

徐玉莊表示:“在路線上,我們首次把大模型的壓縮單元從一個(gè)權(quán)重矩陣內(nèi)部擴(kuò)展到了跨越多個(gè)權(quán)重矩陣的情形,首次把微專(zhuān)家這個(gè)功能完備的微結(jié)構(gòu)作為剪枝或混合精度配置對(duì)象。”

在方法論上,這一研究也首次在數(shù)學(xué)上給出混合微專(zhuān)家的簡(jiǎn)潔表示形式,首次描述微專(zhuān)家壓縮這一最優(yōu)化問(wèn)題并給出一個(gè)還算簡(jiǎn)單有效的解決方案。

未來(lái),人們或許能在手機(jī)、平板電腦甚至智能手表上,運(yùn)行如今需要龐大算力支撐的尖端 AI 模型。CAMERA 技術(shù)能讓這些模型在保持高性能的同時(shí),體積更小、耗電更少、響應(yīng)更快。

對(duì)于提供 AI 服務(wù)的公司來(lái)說(shuō),模型壓縮意味著可以用更少的服務(wù)器資源來(lái)服務(wù)更多的用戶(hù),從而可以降低運(yùn)營(yíng)成本,最終可能讓 AI 服務(wù)的價(jià)格得到降低。

在生物、醫(yī)藥、材料等需要復(fù)雜 AI 模擬的科研領(lǐng)域,研究者們往往受限于計(jì)算資源,而更加輕量級(jí)的強(qiáng)大模型,能讓更多科研機(jī)構(gòu)參與前沿探索。

CAMERA 尤其是 CAMERA-P 還可以和其他模型壓縮技術(shù)進(jìn)行無(wú)縫結(jié)合,從而實(shí)現(xiàn)組合拳般的效果,進(jìn)而達(dá)到更高的壓縮率。

如前所述,徐玉莊目前在哈爾濱工業(yè)大學(xué)讀博。此外,他也在以端側(cè)大模型業(yè)務(wù)見(jiàn)長(zhǎng)的面壁智能擔(dān)任實(shí)習(xí)算法研究員。未來(lái),他將繼續(xù)深耕大模型領(lǐng)域。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2508.02322

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
意外嗎?北京國(guó)安王牌正式離隊(duì),當(dāng)紅國(guó)腳身份,或?qū)⒓用舜筮B英博

意外嗎?北京國(guó)安王牌正式離隊(duì),當(dāng)紅國(guó)腳身份,或?qū)⒓用舜筮B英博

羅掌柜體育
2025-12-30 17:31:01
全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國(guó)資一把

全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國(guó)資一把

文史旺旺旺
2025-12-27 18:22:03
實(shí)探Manus公司武漢辦公室 團(tuán)隊(duì)已基本搬離

實(shí)探Manus公司武漢辦公室 團(tuán)隊(duì)已基本搬離

財(cái)聯(lián)社
2025-12-30 12:10:06
王金平首提統(tǒng)一,話音剛落,鄭麗文遞邀請(qǐng)函,島內(nèi)77歲鐵娘子出山

王金平首提統(tǒng)一,話音剛落,鄭麗文遞邀請(qǐng)函,島內(nèi)77歲鐵娘子出山

策略述
2025-12-29 23:37:59
普京官邸凌晨突遭圍攻,安然無(wú)恙的普京,給全世界演了出苦肉計(jì)?

普京官邸凌晨突遭圍攻,安然無(wú)恙的普京,給全世界演了出苦肉計(jì)?

混沌錄
2025-12-30 21:49:03
隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

近史談
2025-12-27 13:49:49
85-91!北京男籃首敗引發(fā)連鎖反應(yīng):原因曝光,媒體人一針見(jiàn)血!

85-91!北京男籃首敗引發(fā)連鎖反應(yīng):原因曝光,媒體人一針見(jiàn)血!

大秦壁虎白話體育
2025-12-30 22:17:17
日本人預(yù)測(cè),未來(lái)35年將成為世界領(lǐng)先強(qiáng)國(guó)的“5個(gè)國(guó)家”,都有誰(shuí)

日本人預(yù)測(cè),未來(lái)35年將成為世界領(lǐng)先強(qiáng)國(guó)的“5個(gè)國(guó)家”,都有誰(shuí)

顧史
2025-12-29 20:07:01
11萬(wàn)平米!抖音集團(tuán)成都總部,全面投入使用!

11萬(wàn)平米!抖音集團(tuán)成都總部,全面投入使用!

GA環(huán)球建筑
2025-12-30 15:11:35
商業(yè)航天退潮 誰(shuí)來(lái)接力

商業(yè)航天退潮 誰(shuí)來(lái)接力

趨勢(shì)巡航
2025-12-30 14:51:32
以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

歷史求知所
2025-12-29 21:30:04
冠心病如果沒(méi)有這6種情況,幾乎沒(méi)有大問(wèn)題!別自己嚇自己

冠心病如果沒(méi)有這6種情況,幾乎沒(méi)有大問(wèn)題!別自己嚇自己

岐黃傳人孫大夫
2025-12-27 13:20:03
中國(guó)隊(duì)墊底!2026聯(lián)合杯奪冠賠率來(lái)襲

中國(guó)隊(duì)墊底!2026聯(lián)合杯奪冠賠率來(lái)襲

網(wǎng)球之家
2025-12-30 14:07:25
2026年1月1日起 數(shù)字人民幣將產(chǎn)生利息

2026年1月1日起 數(shù)字人民幣將產(chǎn)生利息

中國(guó)能源網(wǎng)
2025-12-30 09:18:05
廣東新粵物流實(shí)業(yè)有限公司鋼材業(yè)務(wù)部經(jīng)理廖三接受監(jiān)察調(diào)查

廣東新粵物流實(shí)業(yè)有限公司鋼材業(yè)務(wù)部經(jīng)理廖三接受監(jiān)察調(diào)查

南方都市報(bào)
2025-12-30 18:41:10
炸鍋了!中年婦女真的很容易被殺豬盤(pán)啊,評(píng)論看的一陣后怕

炸鍋了!中年婦女真的很容易被殺豬盤(pán)啊,評(píng)論看的一陣后怕

有趣的火烈鳥(niǎo)
2025-12-30 14:14:31
期待的事終于發(fā)生!美武器運(yùn)輸船和飛機(jī)被攔截?臺(tái)軍購(gòu)路線或被斷

期待的事終于發(fā)生!美武器運(yùn)輸船和飛機(jī)被攔截?臺(tái)軍購(gòu)路線或被斷

科普100克克
2025-12-30 18:18:40
iPhone 18 Pro Max 提前曝光,新配色來(lái)了

iPhone 18 Pro Max 提前曝光,新配色來(lái)了

全是技能
2025-12-30 15:33:01
12.8萬(wàn)億天量提前還貸!老百姓扛不住, 樓市救市, 這次真的要來(lái)了

12.8萬(wàn)億天量提前還貸!老百姓扛不住, 樓市救市, 這次真的要來(lái)了

現(xiàn)代小青青慕慕
2025-12-29 12:02:38
閆學(xué)晶哭窮翻車(chē):一頓11個(gè)菜,客廳能打球,兒子也被她坑慘了

閆學(xué)晶哭窮翻車(chē):一頓11個(gè)菜,客廳能打球,兒子也被她坑慘了

一盅情懷
2025-12-30 14:57:39
2025-12-30 22:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16057文章數(shù) 514443關(guān)注度
往期回顧 全部

科技要聞

估值150億的智元,開(kāi)始批量"制造"小獨(dú)角獸

頭條要聞

車(chē)主質(zhì)疑步行街停車(chē)掃私人碼繳費(fèi)不合規(guī) 物業(yè)公司回應(yīng)

頭條要聞

車(chē)主質(zhì)疑步行街停車(chē)掃私人碼繳費(fèi)不合規(guī) 物業(yè)公司回應(yīng)

體育要聞

這個(gè)59歲的胖子,還在表演“蝎子擺尾”

娛樂(lè)要聞

林俊杰女友被扒 父親涉經(jīng)濟(jì)案卷款13億?

財(cái)經(jīng)要聞

朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

汽車(chē)要聞

標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
手機(jī)
家居

教育要聞

物理學(xué)專(zhuān)業(yè)進(jìn)央企機(jī)會(huì)多?招聘崗位最新數(shù)據(jù)全公開(kāi)!

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

藝術(shù)要聞

謝稚柳雪景山水20圖

手機(jī)要聞

iQOO Z11 Turbo性能跑分出爐:驍龍8 Gen5,性能數(shù)據(jù)顛覆想象!

家居要聞

當(dāng)歸之宅 三胎圓滿(mǎn)居所

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版