国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

架構解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務的主要挑戰(zhàn)在于視覺理解和生成任務本身在網(wǎng)絡層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構,極大地減小了與單任務模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構解耦的缺點」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應的圖像,可以在模型做數(shù)學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統(tǒng)一模型基準所關注,也是它本身被獨立成一個領域的初衷。

再回到架構解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構解耦不是統(tǒng)一模型必須的

為了探究清楚「架構解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯(lián)合推出了 AIA。



  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構的統(tǒng)一模型在每一層網(wǎng)絡中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構解耦,理解和生成任務在同一層網(wǎng)絡中始終呈現(xiàn)負相關的關系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關系,這說明是模型自發(fā)在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構解耦本質上并沒有解決任務之間沖突的問題。

研究者進一步在最后一列可視化了現(xiàn)在單任務 SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側重于生成效果),結果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應的跨模態(tài)交互模式會趨向于單任務的表現(xiàn),這也是能夠實現(xiàn)性能提升的主要原因。



基于這個發(fā)現(xiàn),研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態(tài)交互模式作為學習目標,在訓練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構、輕微模型解耦架構上進行了實驗,如下表所示,結果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務沖突問題,尋找更優(yōu)的解法。

AIA 好訓嗎?

由于 Emu3 只有預訓練 (PT) 階段是統(tǒng)一訓練的,因此研究者在其 PT 權重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權重,研究者在此基礎上進行后訓練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結果發(fā)現(xiàn)訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優(yōu)勢?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓練的正確道路是什么?

通過結合現(xiàn)在所有統(tǒng)一模型訓練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓練的過程中動態(tài)分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務的線索(即采用統(tǒng)一分詞器、消除任務相關特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學習真正的統(tǒng)一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統(tǒng)一模型現(xiàn)在的理論、架構都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統(tǒng)一模型真正的意義,不要一味地關注當前單任務基準上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炸鍋!安徽父子娶母女親上加親,知情人透露隱情

炸鍋!安徽父子娶母女親上加親,知情人透露隱情

凡知
2026-03-02 14:30:05
伊朗總統(tǒng)任命代理國防部長

伊朗總統(tǒng)任命代理國防部長

澎湃新聞
2026-03-02 19:57:02
哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

夢在深巷aqa
2026-03-02 01:17:46
資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

觀察鑒娛
2026-03-02 10:18:18
大量日系“電視棒”流入閑魚,跟打火機一樣小,預裝安卓系統(tǒng)

大量日系“電視棒”流入閑魚,跟打火機一樣小,預裝安卓系統(tǒng)

科技拌飯
2025-09-08 19:21:46
最高法:明確夫妻一方違反忠實義務將共同財產(chǎn)贈與第三人的行為無效

最高法:明確夫妻一方違反忠實義務將共同財產(chǎn)贈與第三人的行為無效

紅星新聞
2026-03-02 15:17:26
一場戰(zhàn)爭掀開了一個政治乞丐

一場戰(zhàn)爭掀開了一個政治乞丐

維美麗心甜
2025-11-12 07:20:03
你敢相信伊朗領導層48人團滅,而現(xiàn)任總統(tǒng)佩澤希齊揚卻完好無損

你敢相信伊朗領導層48人團滅,而現(xiàn)任總統(tǒng)佩澤希齊揚卻完好無損

我心縱橫天地間
2026-03-02 14:22:23
有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負責協(xié)防伊朗

有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負責協(xié)防伊朗

老馬拉車莫少裝
2026-03-02 23:29:20
78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

洲洲影視娛評
2026-01-28 12:23:18
撕毀合同倒向日本,拒賠中國361億違約金,這個國家如今怎么樣了

撕毀合同倒向日本,拒賠中國361億違約金,這個國家如今怎么樣了

墨印齋
2026-02-17 13:48:41
為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

嫹筆牂牂
2026-03-02 17:03:39
美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費用國家全買單

美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費用國家全買單

環(huán)球趣聞分享
2026-03-02 16:45:37
湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結婚

湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結婚

爆角追蹤
2025-11-23 11:25:00
豬油再次被關注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

懂球帝
2026-03-02 22:29:12
山西一高速服務區(qū)附近四五十輛車被扎胎,多名車主凌晨補胎,交警:大貨車散落鐵屑導致,已找到涉事司機,正在走理賠程序

山西一高速服務區(qū)附近四五十輛車被扎胎,多名車主凌晨補胎,交警:大貨車散落鐵屑導致,已找到涉事司機,正在走理賠程序

極目新聞
2026-03-02 13:20:04
300344,或被終止上市!

300344,或被終止上市!

中國基金報
2026-03-02 21:11:33
油市“末日時鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價沖擊200美元?

油市“末日時鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價沖擊200美元?

每日經(jīng)濟新聞
2026-03-02 21:42:28
中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

財聯(lián)社
2026-03-02 19:58:18
2026-03-03 06:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
旅游
親子
手機
家居

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

旅游要聞

不用遠行!重慶家門口的花海,治愈所有疲憊

親子要聞

開學了!珠海香洲:筑牢安全防線,保障托育機構順利開園復托

手機要聞

小米17 Ultra徠卡版全新黑銀配色預售:7999元起,10日發(fā)售

家居要聞

萬物互聯(lián) 享科技福祉

無障礙瀏覽 進入關懷版