国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務(wù)的主要挑戰(zhàn)在于視覺理解和生成任務(wù)本身在網(wǎng)絡(luò)層間會(huì)產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務(wù)的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務(wù)模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達(dá)到極致的性能。

香港中文大學(xué) MMLab 和美團(tuán)的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達(dá)到單任務(wù)的水平,但同時(shí)也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點(diǎn)」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯(cuò)思考過程,提高單任務(wù)的性能,例如讓模型走迷宮時(shí)統(tǒng)一模型可以生成每一步對(duì)應(yīng)的圖像,可以在模型做數(shù)學(xué)題的時(shí)候給圖像畫上輔助線,或者是在生成一張圖像的時(shí)候邊畫邊思考有沒有生成不合理的地方并且自動(dòng)修正,這些都是 Uni-MMMU 等當(dāng)前統(tǒng)一模型基準(zhǔn)所關(guān)注,也是它本身被獨(dú)立成一個(gè)領(lǐng)域的初衷。

再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實(shí)現(xiàn)圖文交錯(cuò)思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復(fù)雜過程,兩個(gè)任務(wù)也幾乎不在同一個(gè)模型空間中,具有計(jì)算開銷大、信息丟失兩大問題。雖然在當(dāng)前情況下相比于其可觀的性能,這個(gè)問題似乎并不顯著,但是研究者認(rèn)為隨著研究的進(jìn)行,這會(huì)是一個(gè)很大的問題。

AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學(xué) MMLab 和美團(tuán)聯(lián)合推出了 AIA。



  • 論文標(biāo)題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡(luò)中跨模態(tài)交互的強(qiáng)度,他們驚訝地發(fā)現(xiàn)不管如何進(jìn)行模型架構(gòu)解耦,理解和生成任務(wù)在同一層網(wǎng)絡(luò)中始終呈現(xiàn)負(fù)相關(guān)的關(guān)系,同時(shí)進(jìn)一步驗(yàn)證了這個(gè)現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關(guān)系,這說明是模型自發(fā)在學(xué)習(xí)如何合理地分配兩個(gè)任務(wù)在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務(wù)之間沖突的問題。

研究者進(jìn)一步在最后一列可視化了現(xiàn)在單任務(wù) SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強(qiáng),其對(duì)應(yīng)的跨模態(tài)交互模式會(huì)趨向于單任務(wù)的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因。



基于這個(gè)發(fā)現(xiàn),研究者設(shè)計(jì)了Attention Interaction Alignment (AIA) 損失,通過將單任務(wù)模型的跨模態(tài)交互模式作為學(xué)習(xí)目標(biāo),在訓(xùn)練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進(jìn)行了實(shí)驗(yàn),如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時(shí),研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個(gè)模型的交互曲線都向單任務(wù)模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時(shí)也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當(dāng)然,研究者也承認(rèn)在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認(rèn)為這個(gè)差距會(huì)越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務(wù)沖突問題,尋找更優(yōu)的解法。

AIA 好訓(xùn)嗎?

由于 Emu3 只有預(yù)訓(xùn)練 (PT) 階段是統(tǒng)一訓(xùn)練的,因此研究者在其 PT 權(quán)重上進(jìn)行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權(quán)重,研究者在此基礎(chǔ)上進(jìn)行后訓(xùn)練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測(cè)試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓(xùn)練 Emu3 的時(shí)候由于其預(yù)訓(xùn)練知識(shí)比較薄弱,AIA 損失在一個(gè)很大的范圍內(nèi)都能達(dá)到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預(yù)訓(xùn)練知識(shí)很強(qiáng),AIA 的加入非常容易影響模型訓(xùn)練,但在合適的比重情況下仍然能夠達(dá)到不錯(cuò)的效果。

AIA 有什么優(yōu)勢(shì)?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達(dá)到更好的效果,這說明在一定程度上兩個(gè)任務(wù)的訓(xùn)練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓(xùn)練的正確道路是什么?

通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓(xùn)練的問題以及本文的實(shí)驗(yàn)分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會(huì)在統(tǒng)一訓(xùn)練的過程中動(dòng)態(tài)分配不同任務(wù)在同一層的權(quán)重來緩解沖突,那這是否實(shí)際上代表了統(tǒng)一模型的正確行為?



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務(wù)的線索(即采用統(tǒng)一分詞器、消除任務(wù)相關(guān)特殊 token、使用交錯(cuò)數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學(xué)習(xí)真正的統(tǒng)一空間。雖然這種方法或許可以解決任務(wù)間的負(fù)相關(guān)問題,但也會(huì)顯著增加訓(xùn)練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓(xùn)練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個(gè)領(lǐng)域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠(yuǎn)遠(yuǎn)沒有達(dá)到成熟,需要大家共同進(jìn)行探索。同時(shí)研究者也希望大家能夠更加關(guān)注統(tǒng)一模型真正的意義,不要一味地關(guān)注當(dāng)前單任務(wù)基準(zhǔn)上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

帝哥說史
2025-12-19 06:25:03
《老舅》張曉梅:戲里演服務(wù)員,戲外膚白貌美大長腿,還是個(gè)副總

《老舅》張曉梅:戲里演服務(wù)員,戲外膚白貌美大長腿,還是個(gè)副總

娛樂圈十三太保
2025-12-23 17:39:04
笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

夜深愛雜談
2025-12-19 16:39:58
有一次,馬未都去地?cái)倱炻?0元一個(gè)杯子,馬未都花200元買了5個(gè)

有一次,馬未都去地?cái)倱炻?0元一個(gè)杯子,馬未都花200元買了5個(gè)

忠于法紀(jì)
2025-12-19 18:24:40
滄州殺妻案兇手得知被判死刑:大小便失禁,晚上睡覺不敢睜開眼睛

滄州殺妻案兇手得知被判死刑:大小便失禁,晚上睡覺不敢睜開眼睛

詩意世界
2025-12-12 21:47:03
碰上硬茬子!克林頓拼了,就算身敗名裂,也要拉特朗普“陪葬”

碰上硬茬子!克林頓拼了,就算身敗名裂,也要拉特朗普“陪葬”

二大爺觀世界
2025-12-24 14:35:09
中國專家:日本政客訪臺(tái)對(duì)中日政治基礎(chǔ)背棄,或能在中日關(guān)系出現(xiàn)不可逆結(jié)構(gòu)性倒退

中國專家:日本政客訪臺(tái)對(duì)中日政治基礎(chǔ)背棄,或能在中日關(guān)系出現(xiàn)不可逆結(jié)構(gòu)性倒退

俄羅斯衛(wèi)星通訊社
2025-12-24 15:02:26
山姆爆火的400克女款羽絨服,打了多少商家的臉?

山姆爆火的400克女款羽絨服,打了多少商家的臉?

娛樂資本論
2025-12-22 11:53:59
湖人24分慘?。∫粓?chǎng)恥辱的失利,詹姆斯23+6,不得不承認(rèn)6個(gè)現(xiàn)實(shí)

湖人24分慘??!一場(chǎng)恥辱的失利,詹姆斯23+6,不得不承認(rèn)6個(gè)現(xiàn)實(shí)

籃球掃地僧
2025-12-24 15:00:32
一個(gè)精神分裂的程序員,用10年寫了一個(gè)拯救世界的操作系統(tǒng)

一個(gè)精神分裂的程序員,用10年寫了一個(gè)拯救世界的操作系統(tǒng)

碼農(nóng)翻身
2025-12-24 08:58:10
穆勒:若梅西參加明年世界杯,會(huì)改變阿根廷的整體實(shí)力平衡

穆勒:若梅西參加明年世界杯,會(huì)改變阿根廷的整體實(shí)力平衡

懂球帝
2025-12-24 07:00:34
野村:中國經(jīng)濟(jì)兩大支柱的極端分化

野村:中國經(jīng)濟(jì)兩大支柱的極端分化

紫京講談
2025-12-21 22:53:13
紅軍長征路上吃什么?并非相傳的草根樹皮,其實(shí)非?!柏S富”

紅軍長征路上吃什么?并非相傳的草根樹皮,其實(shí)非常“豐富”

鶴羽說個(gè)事
2025-12-23 11:38:31
快手直播事故:畫面流出,時(shí)間巧合令人憤怒,預(yù)告下一個(gè)受害者

快手直播事故:畫面流出,時(shí)間巧合令人憤怒,預(yù)告下一個(gè)受害者

溫柔看世界
2025-12-23 10:59:28
黑惡勢(shì)力換馬甲,湖南打響新戰(zhàn)役。

黑惡勢(shì)力換馬甲,湖南打響新戰(zhàn)役。

石辰搞笑日常
2025-12-24 11:21:13
祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

老特有話說
2025-12-23 21:35:49
楊瀚森總得分超河村!亞洲排名第12位,前十是誰?姚明9247分第三

楊瀚森總得分超河村!亞洲排名第12位,前十是誰?姚明9247分第三

你的籃球頻道
2025-12-24 14:57:18
弘一法師:任何關(guān)系,走到最后,只不過是相識(shí)一場(chǎng)

弘一法師:任何關(guān)系,走到最后,只不過是相識(shí)一場(chǎng)

杏花煙雨江南的碧園
2025-12-17 11:59:51
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
“搶劫殺害發(fā)小一家三口”案兇手獲死刑 兇手父親:把他埋到地下便不能作惡

“搶劫殺害發(fā)小一家三口”案兇手獲死刑 兇手父親:把他埋到地下便不能作惡

上游新聞
2025-12-23 21:58:08
2025-12-24 15:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11984文章數(shù) 142517關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

美國再向委內(nèi)瑞拉施壓 中方在安理會(huì)上連說5個(gè)"反對(duì)"

頭條要聞

美國再向委內(nèi)瑞拉施壓 中方在安理會(huì)上連說5個(gè)"反對(duì)"

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
房產(chǎn)
數(shù)碼
公開課
軍事航空

殺瘋了!2025獨(dú)游諸神之戰(zhàn)鴨科夫殺入前五

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

數(shù)碼要聞

HKC推出27英寸2K 235Hz FastIPS顯示器星際G7,售價(jià)849元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個(gè)正步 每步75厘米

無障礙瀏覽 進(jìn)入關(guān)懷版