国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ImageNet分?jǐn)?shù)越高,生成反而越糊?iREPA給出解釋

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】學(xué)霸的謊言被揭穿!一篇來自Adobe Research的論文發(fā)現(xiàn),高語義理解并不會提升生成質(zhì)量,反而可能破壞空間結(jié)構(gòu)。用iREPA簡單修改,削弱全局干擾,生成質(zhì)量立即飆升 。

我們經(jīng)常會疑惑:為什么視覺模型越高級,生成效果反而越差?

最近,Adobe Research發(fā)了一篇論文,專門解釋了這個看起來有點反常、但反復(fù)出現(xiàn)的現(xiàn)象。


論文地址:https://arxiv.org/pdf/2512.10794

按直覺,模型要先知道「這是什么」,才能把它畫出來。

ImageNet上的分類準(zhǔn)確率越高,說明模型的語義理解越強,生成的內(nèi)容越穩(wěn)定、越靠譜。

但這篇論文給出的結(jié)果,完全相反:

一些在識別任務(wù)中表現(xiàn)平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結(jié)構(gòu)更清晰、質(zhì)量更高的圖像。

全局語義能力越強,生成反而越容易出問題。

很可能我們從一開始,就誤會了生成模型真正擅長的是什么。


為什么視覺模型越「聰明」,生成的反而越差?

先看一個已經(jīng)被反復(fù)驗證的事實:一個模型在ImageNet上的線性探測準(zhǔn)確率越高,并不意味著它更適合用來做生成。

最直觀的例子是SAM2。這是一個在識別任務(wù)里不出彩的模型,驗證準(zhǔn)確率只有24.1%,遠(yuǎn)低于主流視覺大模型。

但當(dāng)這些編碼器被用于REPA時,SAM2的生成質(zhì)量反而優(yōu)于一批準(zhǔn)確率高出約60%的模型。


SAM2的ImageNet驗證準(zhǔn)確率僅為24.1%,但在REPA框架下的生成gFID明顯優(yōu)于多種準(zhǔn)確率超過70%的視覺編碼器。

這還不是某一個模型的偶然表現(xiàn)。

論文進(jìn)一步比較了同一編碼器家族中不同規(guī)模的模型,結(jié)果發(fā)現(xiàn):模型越大、分類準(zhǔn)確率越高,生成質(zhì)量反而可能相似或更差。


隨著模型規(guī)模和分類準(zhǔn)確率提升,生成gFID反而整體變差,表明這一現(xiàn)象并非由個別模型導(dǎo)致。

顯然,「高語義能力=好生成」這條默認(rèn)路徑,在大量實驗中并不成立 。

更關(guān)鍵的是,這種現(xiàn)象并不是噪聲。

在跨模型、跨設(shè)置的系統(tǒng)性分析中,全局語義指標(biāo)與生成質(zhì)量之間的相關(guān)性始終非常弱。


分類能力與生成質(zhì)量幾乎無關(guān),空間結(jié)構(gòu)卻高度相關(guān)。左:線性探測準(zhǔn)確率與生成 gFID 的相關(guān)性極弱(Pearson r=-0.26)。中:空間結(jié)構(gòu)指標(biāo)(LDS)與生成質(zhì)量呈現(xiàn)出顯著強相關(guān)(Pearson r=-0.85)。右:基于空間結(jié)構(gòu)改進(jìn)的iREPA,在多種編碼器上穩(wěn)定優(yōu)于REPA。

論文進(jìn)一步對多種視覺編碼器做了相關(guān)性分析,結(jié)果非常明確:

線性探測準(zhǔn)確率與生成質(zhì)量之間幾乎不存在相關(guān)性。

相比之下,反映patch空間結(jié)構(gòu)的指標(biāo),與生成質(zhì)量呈現(xiàn)出極強的正相關(guān)關(guān)系。

如果不是「懂得多」,那生成模型到底依賴的是什么?

反復(fù)確認(rèn)會壓扁空間結(jié)構(gòu)

在理解了「高語義≠好生成」之后,真正的問題變成了:

為什么模型越是反復(fù)確認(rèn),生成反而越容易出問題?

關(guān)鍵就是,全局語義會在生成過程中壓扁空間結(jié)構(gòu)。

在生成任務(wù)中,模型并不是一次性輸出圖像,而是在訓(xùn)練和采樣過程中,不斷對局部patch之間的關(guān)系做判斷。

論文將這種能力概括為「空間結(jié)構(gòu)」:即相鄰patch之間應(yīng)保持更高相似性,而遠(yuǎn)處patch不應(yīng)被全局語義過早拉近。

但當(dāng)模型過度追求全局語義一致性,比如通過CLS token ,或?qū)λ衟atch做全局平均來強化「這是什么」,這些局部差異就會被系統(tǒng)性地削弱。

這種做法會導(dǎo)致一個直接后果:前景物體的patch,與本應(yīng)無關(guān)的背景patch之間,出現(xiàn)異常高的相似性。

空間對比度下降,邊界變得模糊,生成結(jié)果因此糊成一片。


PE-G和WebSSL-1B在ImageNet上具有更高的分類準(zhǔn)確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結(jié)構(gòu)更清晰的SpatialPE-B,生成質(zhì)量顯著更好。

研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質(zhì)量的變化。

結(jié)果如下圖所示:


增強全局語義信息會損害生成質(zhì)量

隨著全局信息權(quán)重α從0增加到0.5,模型的線性探測準(zhǔn)確率持續(xù)上升。

但生成質(zhì)量卻顯著下降,F(xiàn)ID明顯惡化。

也就是說,「更懂這是什么」確實在發(fā)生;但與此同時,模型也失去生成所依賴的空間結(jié)構(gòu)。

這并不是優(yōu)化不充分的副作用,而是因為全局語義在生成階段扮演了一個「過強約束」的角色。

它讓模型更快達(dá)成結(jié)論,卻也更早放棄了對局部結(jié)構(gòu)的精細(xì)刻畫。

既然語義會干擾生成,iREPA選擇退后一步

如果說前面的實驗回答了「問題出在哪」,那 iREPA 回答的就是另一個問題:

既然全局語義會干擾生成,那該怎么對齊表示,才不會把結(jié)構(gòu)壓扁?

iREPA給出了答案。它對原本的REPA訓(xùn)練流程做了兩處非常簡單的修改,總共不到四行代碼 。

第一處,是投影方式的改變。

在標(biāo)準(zhǔn)REPA中,patch表征通常會經(jīng)過MLP投影層進(jìn)行對齊。

但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對比度 。

因此,iREPA用一個3×3的卷積層(padding=1)替換了MLP投影。

卷積的歸納偏置能保留局部鄰域關(guān)系:相鄰patch的相互影響被保留,遠(yuǎn)處區(qū)域則不會被過早混在一起 。

第二處修改,直接針對全局語義。

iREPA在對齊過程中引入了一個空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。


iREPA如何通過兩處修改,恢復(fù)生成所需的空間結(jié)構(gòu)。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關(guān)系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對比度。 (c) 經(jīng)過這兩步修改后,iREPA生成的diffusion特征呈現(xiàn)出更清晰的空間結(jié)構(gòu)。

正是這兩點改動,讓iREPA在機制上與前一節(jié)的問題形成了嚴(yán)格對應(yīng):

全局語義太強會抹平結(jié)構(gòu),那就在對齊階段削弱全局分量、強化空間關(guān)系 。

結(jié)果也在意料之中。

無論是在ImageNet規(guī)模的生成任務(wù),還是更高分辨率的設(shè)置,亦或是文本到圖像的多模態(tài)生成任務(wù)中,iREPA都表現(xiàn)出更快的收斂速度和更好的最終生成質(zhì)量。

更重要的是,這種提升并不依賴于某一個特定編碼器。

在不同模型規(guī)模、不同視覺骨干網(wǎng)絡(luò)、不同訓(xùn)練設(shè)置下,iREPA都能穩(wěn)定改進(jìn)。

這不僅是一個技巧,而是順著生成任務(wù)本身對結(jié)構(gòu)的需求,把表示對齊這件事做得更克制、更精細(xì)。

很多時候,我們討論生成模型時,會下意識沿用一個標(biāo)準(zhǔn)。

但這篇論文提醒了我們,生成并不是理解的自然下游。

對生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。

當(dāng)我們一味強化全局語義,反復(fù)催促模型給出答案,其實是在替它提前下結(jié)論。

iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結(jié)構(gòu)還給結(jié)構(gòu)。

結(jié)果不是理解能力的飛躍,而是生成質(zhì)量的回歸。

參考資料:

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
重磅!現(xiàn)金存取新規(guī)出臺,2026年1月1日執(zhí)行,具體規(guī)定明確

重磅!現(xiàn)金存取新規(guī)出臺,2026年1月1日執(zhí)行,具體規(guī)定明確

復(fù)轉(zhuǎn)這些年
2025-12-22 15:42:28
戰(zhàn)局突變24小時,澤連斯基松口撤軍,普京拋出橄欖枝

戰(zhàn)局突變24小時,澤連斯基松口撤軍,普京拋出橄欖枝

人類的關(guān)注
2025-12-22 23:56:10
重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽感?這是要把農(nóng)民逼上絕路

重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽感?這是要把農(nóng)民逼上絕路

剛哥說法365
2025-09-24 16:33:59
行業(yè)人士稱南京博物館展覽的銅錢是機制工藝品

行業(yè)人士稱南京博物館展覽的銅錢是機制工藝品

映射生活的身影
2025-12-22 03:49:02
原來郭京飛年輕時這么帥!《老舅》他又火了,20歲顏值帥上熱搜

原來郭京飛年輕時這么帥!《老舅》他又火了,20歲顏值帥上熱搜

娛君墜星河
2025-12-22 13:28:01
眼前一黑!妻子曬出自己老公的日常穿搭,結(jié)果只有穿沒有搭!

眼前一黑!妻子曬出自己老公的日常穿搭,結(jié)果只有穿沒有搭!

夜深愛雜談
2025-12-11 20:23:58
84年葉劍英找宋時輪辦事,遭宋時輪拒絕,葉大怒:我看你是嫌麻煩

84年葉劍英找宋時輪辦事,遭宋時輪拒絕,葉大怒:我看你是嫌麻煩

搜史君
2025-11-23 17:15:06
她拿下10個世界冠軍,今43歲身價8億卻無人敢娶,擇偶標(biāo)準(zhǔn)太嚇人

她拿下10個世界冠軍,今43歲身價8億卻無人敢娶,擇偶標(biāo)準(zhǔn)太嚇人

攬星河的筆記
2025-12-21 23:24:49
62票贊成,被彈劾不止賴清德一人,不到24小時,上百萬人聯(lián)署力挺

62票贊成,被彈劾不止賴清德一人,不到24小時,上百萬人聯(lián)署力挺

王墨觀察
2025-12-22 15:55:06
不捧老板不吹平臺!董宇輝直言:我的伯樂是普通觀眾

不捧老板不吹平臺!董宇輝直言:我的伯樂是普通觀眾

雷科技
2025-12-18 17:37:42
南博“碩鼠”叼走《江南春》,作者竟與唐伯虎齊名

南博“碩鼠”叼走《江南春》,作者竟與唐伯虎齊名

凹凹滴
2025-12-22 21:03:50
30多名員工聯(lián)名舉報!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡單

30多名員工聯(lián)名舉報!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡單

奇思妙想草葉君
2025-12-22 20:02:05
縱覽熱點|南博出示《江南春》銷售清單多處存疑,律師:6800元購畫人如屬善意取得,無權(quán)要求退回,反之買賣行為無效

縱覽熱點|南博出示《江南春》銷售清單多處存疑,律師:6800元購畫人如屬善意取得,無權(quán)要求退回,反之買賣行為無效

縱覽新聞
2025-12-20 22:01:14
北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

180視角
2025-12-22 11:38:11
禁止所有中國外交官入境,不讓兩岸統(tǒng)一,這個國家比美國還要囂張

禁止所有中國外交官入境,不讓兩岸統(tǒng)一,這個國家比美國還要囂張

諦聽骨語本尊
2025-11-22 20:06:07
技師上線了空姐版本

技師上線了空姐版本

微微熱評
2025-12-20 15:16:51
舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

梅子的小情緒
2025-12-19 14:04:18
偷稅小花被前經(jīng)紀(jì)勒索?李昀銳孟子義劇組吵架?丞磊被王影璐搶座?黃楊鈿甜新公司?姨太問答

偷稅小花被前經(jīng)紀(jì)勒索?李昀銳孟子義劇組吵架?丞磊被王影璐搶座?黃楊鈿甜新公司?姨太問答

毒舌扒姨太
2025-12-22 23:09:02
新華社發(fā)布《江南春》跟蹤去向,南博律師:龐家人要討回畫不占理

新華社發(fā)布《江南春》跟蹤去向,南博律師:龐家人要討回畫不占理

蜜桔娛樂
2025-12-19 15:48:42
2025-12-23 03:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14161文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機器人技術(shù)大錯

頭條要聞

高市早苗政府創(chuàng)下一項27年來最差紀(jì)錄

頭條要聞

高市早苗政府創(chuàng)下一項27年來最差紀(jì)錄

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

教育
本地
親子
家居
軍事航空

教育要聞

高二英語成績120分左右,看英文原版小說是大坑,和提分南轅北轍

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

親子要聞

小孩便秘,家長很苦惱?!中醫(yī)分享豬油洗澡

家居要聞

現(xiàn)代手法 詮釋東方文化

軍事要聞

俄軍中將在汽車炸彈爆炸中身亡 現(xiàn)場畫面披露

無障礙瀏覽 進(jìn)入關(guān)懷版