国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

訓練中壓縮模型:CompreSSM讓AI邊學邊"瘦身"

0
分享至


訓練一個大型人工智能模型的成本極為高昂,不僅體現在資金上,還涵蓋時間、能耗和計算資源等多個維度。傳統(tǒng)方法若想獲得一個體積更小、運行更快的模型,要么先訓練一個龐大的模型再進行裁剪,要么從頭訓練小模型但不得不接受性能上的妥協(xié)。

來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)、馬克斯·普朗克智能系統(tǒng)研究所、歐洲學習與智能系統(tǒng)實驗室、蘇黎世聯(lián)邦理工學院以及Liquid AI的研究人員,聯(lián)合開發(fā)出一種全新方法,徹底繞開了上述兩難困境——在訓練過程中直接壓縮模型,而非等到訓練完成之后。

這項名為CompreSSM的技術,專門針對一類名為狀態(tài)空間模型的AI架構。該類架構廣泛應用于語言處理、音頻生成和機器人控制等領域。研究團隊借助控制理論中的數學工具,能夠在訓練早期識別出模型中哪些部分真正發(fā)揮作用、哪些是冗余負擔,并在此基礎上將不必要的組件精準剔除。

"這本質上是一種讓模型在訓練過程中同步變得更小、更快的技術,"該論文第一作者、麻省理工學院電氣工程與計算機科學系博士生、CSAIL成員Makram Chahine說,"模型在學習的同時,也在不斷淘汰那些對其發(fā)展沒有價值的部分。"

該方法的核心發(fā)現在于:模型內部各組件的相對重要性,在訓練早期便會出現驚人的穩(wěn)定性。研究團隊利用一種稱為Hankel奇異值的數學量——它可以衡量每個內部狀態(tài)對模型整體行為的貢獻程度——證明了在訓練完成約10%時,就能可靠地對各維度的重要性進行排序。一旦排序確定,重要性較低的組件便可安全丟棄,剩余90%的訓練過程將以更小模型的速度高效推進。

"這項工作令人興奮之處在于,它將壓縮從事后補救變成了學習過程本身的一部分,"資深作者、麻省理工學院教授兼CSAIL主任Daniela Rus說,"CompreSSM不是先訓練大模型再想辦法縮小,而是讓模型在學習過程中自己發(fā)現高效結構。這是構建AI系統(tǒng)的一種根本性的不同思路。"

實驗結果十分亮眼。在圖像分類基準測試中,壓縮后的模型在保持與全尺寸模型幾乎相同精度的同時,訓練速度提升了約1.5倍。一個狀態(tài)維度被壓縮至原始大小約四分之一的模型,在CIFAR-10基準上實現了85.7%的準確率,而從頭訓練的同等小模型僅達到81.8%。在廣泛使用的Mamba狀態(tài)空間架構上,該方法實現了約4倍的訓練加速,將128維模型壓縮至約12維,同時保持了具有競爭力的性能表現。

"你能獲得大模型的性能,因為在預熱階段就捕捉到了大部分復雜動態(tài),之后只保留最有用的狀態(tài),"Chahine解釋道,"模型的最終表現仍然優(yōu)于從一開始就訓練小模型的方案。"

CompreSSM區(qū)別于現有方案的關鍵在于其堅實的理論基礎。傳統(tǒng)剪枝方法需要先完整訓練一個大模型,再事后裁剪參數,意味著仍需承擔大模型訓練的全部計算成本。知識蒸餾這一流行技術則要求先將大"教師"模型完整訓練一遍,再在此基礎上訓練第二個較小的"學生"模型,實際上讓訓練成本翻倍。CompreSSM通過在訓練中途做出有據可依的壓縮決策,同時避免了上述兩種開銷。

研究團隊將CompreSSM與上述兩種方案進行了直接對比。與近年提出的用于鼓勵緊湊狀態(tài)空間模型的譜技術——Hankel核范數正則化相比,CompreSSM的速度快出逾40倍,且精度更高。該正則化方法因需要在每個梯度步驟都進行高成本的特征值計算,導致訓練速度降低約16倍,且最終模型性能反而更差。在CIFAR-10上與知識蒸餾的對比中,CompreSSM對于高度壓縮的模型優(yōu)勢明顯:在較小狀態(tài)維度下,蒸餾模型的準確率出現顯著下降,而CompreSSM壓縮后的模型仍維持接近完整的性能。此外,由于蒸餾在每個訓練步驟都需要同時對教師和學生模型進行前向傳播,即便是其較小的學生模型,訓練速度也慢于全尺寸基準模型。

研究人員借助Weyl定理從數學上證明,模型各狀態(tài)的重要性在訓練過程中平滑變化,并通過實驗驗證了這些狀態(tài)相對排名的穩(wěn)定性。這兩項發(fā)現共同為實踐者提供了保障:在早期被判定為無關緊要的維度,不會在后續(xù)訓練中突然變得至關重要。

該方法還內置了一個實用的安全機制。若某次壓縮步驟導致性能出現意外下降,實踐者可以回滾至此前保存的檢查點。"這給了用戶更直觀的控制權,讓他們能自主決定愿意在性能上付出多少代價,而不是被迫去定義一個不那么直觀的能量閾值,"Chahine說。

當然,該技術也存在一定的適用邊界。CompreSSM在內部狀態(tài)維度與整體性能之間相關性較強的模型上效果最佳,而這一特性因任務和架構的不同而有所差異。該方法在多輸入多輸出(MIMO)模型上尤為有效,因為這類模型中狀態(tài)大小與表達能力的關聯(lián)最為緊密。對于按通道處理的單輸入單輸出架構,收益則相對有限,原因在于這類模型本身對狀態(tài)維度變化就不那么敏感。

該理論最適用于線性時不變系統(tǒng),但研究團隊也針對日益流行的輸入相關、時變架構開發(fā)了相應擴展。由于狀態(tài)空間模型家族還延伸至線性注意力等架構——作為傳統(tǒng)Transformer替代方案的這一領域正日益受到關注——CompreSSM的潛在應用范圍相當廣闊。

Chahine和團隊將這項工作視為一塊跳板。目前團隊已完成向Mamba等線性時變系統(tǒng)的擴展,未來方向包括將CompreSSM進一步推廣至線性注意力機制中使用的矩陣值動力系統(tǒng),從而使該技術更接近支撐當今絕大多數大型AI系統(tǒng)的Transformer架構。

"這必須是第一步,因為這里的理論最為清晰,方法也能保持嚴謹,"Chahine說,"這是向行業(yè)中廣泛使用的其他架構延伸的基礎。"

"Chahine及其同事的工作為現代狀態(tài)空間模型的壓縮提供了一個引人入勝、具有堅實理論基礎的新視角,"未參與本研究的ELLIS圖賓根研究所首席研究員、馬克斯·普朗克智能系統(tǒng)研究所獨立團隊負責人Antonio Orvieto評價道,"該方法提供了充分證據,表明這些模型的狀態(tài)維度可以在訓練過程中有效降低,控制理論視角能夠成功指導這一過程。這項工作為未來研究開辟了新方向,所提出的算法有望成為預訓練大型基于狀態(tài)空間模型時的標準方法。"

這項研究已被國際學習表征大會2026(ICLR 2026)接收為會議論文,將于本月晚些時候正式發(fā)表。研究工作部分得到了馬克斯·普朗克-蘇黎世聯(lián)邦理工學院學習系統(tǒng)中心、赫克托基金會、波音公司以及美國海軍研究辦公室的資助。

Q&A

Q1:CompreSSM是什么技術?它解決了什么問題?

A:CompreSSM是一種在AI模型訓練過程中直接壓縮模型的新技術,專門針對狀態(tài)空間模型架構。它解決的核心問題是:傳統(tǒng)獲得小型高效模型的方式要么需要先訓練大模型再裁剪,要么從頭訓練小模型但性能較差。CompreSSM通過在訓練早期識別并丟棄不重要的模型組件,讓模型邊學習邊"瘦身",同時兼顧速度與性能。

Q2:CompreSSM與知識蒸餾、傳統(tǒng)剪枝相比有什么優(yōu)勢?

A:傳統(tǒng)剪枝需要完整訓練大模型再裁剪,計算成本高;知識蒸餾要先訓練完整的教師模型,再訓練學生模型,相當于雙倍訓練成本。CompreSSM在訓練中途就做出壓縮決策,避免了這兩種額外開銷。實驗顯示,在CIFAR-10測試中,CompreSSM壓縮模型的準確率明顯優(yōu)于知識蒸餾,與Hankel核范數正則化相比速度快逾40倍,且精度更高。

Q3:CompreSSM適用于哪些AI架構?有沒有局限性?

A:CompreSSM主要針對狀態(tài)空間模型(SSM)架構,在多輸入多輸出(MIMO)模型上效果最佳,也已擴展至Mamba等線性時變架構,未來有望延伸至線性注意力機制乃至Transformer架構。局限性在于:該方法在狀態(tài)維度與性能相關性強的模型上效果更顯著;對于單輸入單輸出架構,收益相對有限;理論基礎最適用于線性時不變系統(tǒng)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
玉淵譚天:特殊時刻,兩部反制新規(guī)全方位保護中國海外利益

玉淵譚天:特殊時刻,兩部反制新規(guī)全方位保護中國海外利益

環(huán)球網資訊
2026-04-18 11:58:06
已經打了2200枚,中國的中近程彈道導彈,竟然還不如伊朗多?

已經打了2200枚,中國的中近程彈道導彈,竟然還不如伊朗多?

阿龍聊軍事
2026-04-17 22:20:43
上線第一!《鬼吹燈》新電影來了!張涵予、姜武領銜,不火不行了

上線第一!《鬼吹燈》新電影來了!張涵予、姜武領銜,不火不行了

草本紀年
2026-04-18 19:26:46
“鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

“鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

貓叔東山再起
2026-04-18 11:10:10
48歲田蕊妮癌癥復發(fā),心情沉痛難以接受,持續(xù)低燒宣布停工治病

48歲田蕊妮癌癥復發(fā),心情沉痛難以接受,持續(xù)低燒宣布停工治病

開開森森
2026-04-18 07:02:40
賀希寧封神一夜!深圳坐穩(wěn)前3 北京反超廣東,季后賽首輪對陣明朗

賀希寧封神一夜!深圳坐穩(wěn)前3 北京反超廣東,季后賽首輪對陣明朗

后仰大風車
2026-04-17 22:51:18
賴清德最怕的人出現!支持率62.6%碾壓43.9%,蔣萬安要選2028?

賴清德最怕的人出現!支持率62.6%碾壓43.9%,蔣萬安要選2028?

愛看劇的阿峰
2026-04-18 15:47:43
央視調查暗黑動漫正侵蝕青少年:多平臺公然傳播被禁多年的《東京食尸鬼》,內容充斥絕望與暴力,偽裝成0.3元可買的資源或超長風光片

央視調查暗黑動漫正侵蝕青少年:多平臺公然傳播被禁多年的《東京食尸鬼》,內容充斥絕望與暴力,偽裝成0.3元可買的資源或超長風光片

極目新聞
2026-04-17 14:26:49
伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

郭蛹包工頭
2026-04-17 14:14:44
在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

米果說識
2026-04-13 14:33:48
伊朗一仗點醒普京,俄羅斯或不再是世界大國,中國不是第二強?

伊朗一仗點醒普京,俄羅斯或不再是世界大國,中國不是第二強?

阿雹娛樂
2026-04-16 07:46:23
廢掉一個人最快的方法:讓他學滿一肚子“無用的文化”

廢掉一個人最快的方法:讓他學滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
長公主給老公養(yǎng)情人求子

長公主給老公養(yǎng)情人求子

毒舌扒姨太
2026-04-17 22:46:32
鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

葉老四
2026-04-15 09:44:36
鄭麗文心都定了,上海的吸引力在哪里?

鄭麗文心都定了,上海的吸引力在哪里?

新民晚報
2026-04-18 09:48:38
伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

云霄紀史觀
2026-04-14 02:08:48
岸田文雄出山!當著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

岸田文雄出山!當著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

標體
2026-04-18 13:35:56
市場上這5種魚,目前無法人工養(yǎng)殖,都是野生魚,肉厚刺少營養(yǎng)高

市場上這5種魚,目前無法人工養(yǎng)殖,都是野生魚,肉厚刺少營養(yǎng)高

秀廚娘
2026-04-15 10:25:17
688270,將被ST!下周一停牌

688270,將被ST!下周一停牌

證券時報e公司
2026-04-18 11:31:13
2026-04-18 22:55:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
3365文章數 170關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

本地
時尚
健康
家居
公開課

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

選對發(fā)型,真的能少走很多變美彎路

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

法式線條 時光靜淌

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版