国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務的主要挑戰(zhàn)在于視覺理解和生成任務本身在網(wǎng)絡層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應的圖像,可以在模型做數(shù)學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統(tǒng)一模型基準所關注,也是它本身被獨立成一個領域的初衷。

再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯(lián)合推出了 AIA。



  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構(gòu)解耦,理解和生成任務在同一層網(wǎng)絡中始終呈現(xiàn)負相關的關系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關系,這說明是模型自發(fā)在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務之間沖突的問題。

研究者進一步在最后一列可視化了現(xiàn)在單任務 SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應的跨模態(tài)交互模式會趨向于單任務的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因。



基于這個發(fā)現(xiàn),研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態(tài)交互模式作為學習目標,在訓練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進行了實驗,如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務沖突問題,尋找更優(yōu)的解法。

AIA 好訓嗎?

由于 Emu3 只有預訓練 (PT) 階段是統(tǒng)一訓練的,因此研究者在其 PT 權重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權重,研究者在此基礎上進行后訓練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優(yōu)勢?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓練的正確道路是什么?

通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓練的過程中動態(tài)分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為?



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務的線索(即采用統(tǒng)一分詞器、消除任務相關特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學習真正的統(tǒng)一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統(tǒng)一模型真正的意義,不要一味地關注當前單任務基準上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
四次搭檔白鹿都帶不動:王星越的“失靈”,根本不是演技!

四次搭檔白鹿都帶不動:王星越的“失靈”,根本不是演技!

兩只米老鼠
2026-04-21 09:35:14
天才的隕落:23歲拿頂薪,29歲混底薪,從全明星變成流浪漢

天才的隕落:23歲拿頂薪,29歲混底薪,從全明星變成流浪漢

體壇熱評
2026-04-21 08:25:12
四大“雙機場”城市:第二機場大爭奪!

四大“雙機場”城市:第二機場大爭奪!

民航之翼
2026-04-21 07:10:01
恭喜!曾春蕾當選,成中國女排接應第一人,江川給她做副手

恭喜!曾春蕾當選,成中國女排接應第一人,江川給她做副手

跑者排球視角
2026-04-20 22:01:45
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

火山詩話
2026-04-21 09:46:21
首都北京市未來10年城市規(guī)劃...

首都北京市未來10年城市規(guī)劃...

我不叫阿哏
2026-04-20 18:42:03
喲!三分18中4,活活投死廣東隊,球迷:沒什么用,下季可放棄了

喲!三分18中4,活活投死廣東隊,球迷:沒什么用,下季可放棄了

南海浪花
2026-04-21 07:02:45
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
以色列已失控?以軍炮打聯(lián)合國維和部隊,法軍犧牲,馬克龍表態(tài)

以色列已失控?以軍炮打聯(lián)合國維和部隊,法軍犧牲,馬克龍表態(tài)

青煙小先生
2026-04-21 09:36:56
全程瞪眼原形畢露,演技被丁勇岱吊打,這位演員不紅是有原因的

全程瞪眼原形畢露,演技被丁勇岱吊打,這位演員不紅是有原因的

冷紫葉
2026-04-20 19:25:48
勇士隊內(nèi)部人士:庫里目前合同剩1年6260萬美元,計劃今夏續(xù)約2年

勇士隊內(nèi)部人士:庫里目前合同剩1年6260萬美元,計劃今夏續(xù)約2年

好火子
2026-04-21 00:24:13
睡夢中錢被轉(zhuǎn)走!北京連發(fā)18起,睡前自查,別讓血汗錢憑空消失

睡夢中錢被轉(zhuǎn)走!北京連發(fā)18起,睡前自查,別讓血汗錢憑空消失

小蜜情感說
2026-04-20 13:13:46
一年多后終于說出口!小S含淚懺悔:那場日本旅行是我執(zhí)意要去

一年多后終于說出口!小S含淚懺悔:那場日本旅行是我執(zhí)意要去

行者聊官
2026-04-20 19:09:13
長白山驚現(xiàn)“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

長白山驚現(xiàn)“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

抽象派大師
2026-04-20 01:30:41
戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

千秋文化
2026-04-18 19:08:36
終于修復卡頓!蘋果發(fā)布 iOS 26.5 新系統(tǒng)更新

終于修復卡頓!蘋果發(fā)布 iOS 26.5 新系統(tǒng)更新

XCiOS俱樂部
2026-04-21 06:57:13
上海女子晨跑忘記穿內(nèi)衣,汗?jié)窈筝喞苊黠@,被路人拍下傳到抖音

上海女子晨跑忘記穿內(nèi)衣,汗?jié)窈筝喞苊黠@,被路人拍下傳到抖音

解說阿洎
2026-04-21 00:08:30
14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現(xiàn)大公

14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現(xiàn)大公

大魚簡科
2026-02-07 09:52:29
美國終于發(fā)現(xiàn)離譜真相!中國根本不是對手,是你打不動的底層系統(tǒng)

美國終于發(fā)現(xiàn)離譜真相!中國根本不是對手,是你打不動的底層系統(tǒng)

杰絲聊古今
2026-04-21 00:38:06
高市早苗向靖國神社獻祭品

高市早苗向靖國神社獻祭品

新華社
2026-04-21 05:59:03
2026-04-21 10:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12814文章數(shù) 142633關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

健康
家居
時尚
房產(chǎn)
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

詩意光影 窺見自然之境

“爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

房產(chǎn)要聞

大規(guī)模商改!?谖骱0叮@波項目要贏麻了!

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版