国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ImageNet分?jǐn)?shù)越高,生成反而越糊?iREPA給出解釋

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】學(xué)霸的謊言被揭穿!一篇來自Adobe Research的論文發(fā)現(xiàn),高語義理解并不會(huì)提升生成質(zhì)量,反而可能破壞空間結(jié)構(gòu)。用iREPA簡單修改,削弱全局干擾,生成質(zhì)量立即飆升 。

我們經(jīng)常會(huì)疑惑:為什么視覺模型越高級(jí),生成效果反而越差?

最近,Adobe Research發(fā)了一篇論文,專門解釋了這個(gè)看起來有點(diǎn)反常、但反復(fù)出現(xiàn)的現(xiàn)象。


論文地址:https://arxiv.org/pdf/2512.10794

按直覺,模型要先知道「這是什么」,才能把它畫出來。

ImageNet上的分類準(zhǔn)確率越高,說明模型的語義理解越強(qiáng),生成的內(nèi)容越穩(wěn)定、越靠譜。

但這篇論文給出的結(jié)果,完全相反:

一些在識(shí)別任務(wù)中表現(xiàn)平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結(jié)構(gòu)更清晰、質(zhì)量更高的圖像。

全局語義能力越強(qiáng),生成反而越容易出問題。

很可能我們從一開始,就誤會(huì)了生成模型真正擅長的是什么。


為什么視覺模型越「聰明」,生成的反而越差?

先看一個(gè)已經(jīng)被反復(fù)驗(yàn)證的事實(shí):一個(gè)模型在ImageNet上的線性探測準(zhǔn)確率越高,并不意味著它更適合用來做生成。

最直觀的例子是SAM2。這是一個(gè)在識(shí)別任務(wù)里不出彩的模型,驗(yàn)證準(zhǔn)確率只有24.1%,遠(yuǎn)低于主流視覺大模型。

但當(dāng)這些編碼器被用于REPA時(shí),SAM2的生成質(zhì)量反而優(yōu)于一批準(zhǔn)確率高出約60%的模型。


SAM2的ImageNet驗(yàn)證準(zhǔn)確率僅為24.1%,但在REPA框架下的生成gFID明顯優(yōu)于多種準(zhǔn)確率超過70%的視覺編碼器。

這還不是某一個(gè)模型的偶然表現(xiàn)。

論文進(jìn)一步比較了同一編碼器家族中不同規(guī)模的模型,結(jié)果發(fā)現(xiàn):模型越大、分類準(zhǔn)確率越高,生成質(zhì)量反而可能相似或更差。


隨著模型規(guī)模和分類準(zhǔn)確率提升,生成gFID反而整體變差,表明這一現(xiàn)象并非由個(gè)別模型導(dǎo)致。

顯然,「高語義能力=好生成」這條默認(rèn)路徑,在大量實(shí)驗(yàn)中并不成立 。

更關(guān)鍵的是,這種現(xiàn)象并不是噪聲。

在跨模型、跨設(shè)置的系統(tǒng)性分析中,全局語義指標(biāo)與生成質(zhì)量之間的相關(guān)性始終非常弱。


分類能力與生成質(zhì)量幾乎無關(guān),空間結(jié)構(gòu)卻高度相關(guān)。左:線性探測準(zhǔn)確率與生成 gFID 的相關(guān)性極弱(Pearson r=-0.26)。中:空間結(jié)構(gòu)指標(biāo)(LDS)與生成質(zhì)量呈現(xiàn)出顯著強(qiáng)相關(guān)(Pearson r=-0.85)。右:基于空間結(jié)構(gòu)改進(jìn)的iREPA,在多種編碼器上穩(wěn)定優(yōu)于REPA。

論文進(jìn)一步對(duì)多種視覺編碼器做了相關(guān)性分析,結(jié)果非常明確:

線性探測準(zhǔn)確率與生成質(zhì)量之間幾乎不存在相關(guān)性。

相比之下,反映patch空間結(jié)構(gòu)的指標(biāo),與生成質(zhì)量呈現(xiàn)出極強(qiáng)的正相關(guān)關(guān)系。

如果不是「懂得多」,那生成模型到底依賴的是什么?

反復(fù)確認(rèn)會(huì)壓扁空間結(jié)構(gòu)

在理解了「高語義≠好生成」之后,真正的問題變成了:

為什么模型越是反復(fù)確認(rèn),生成反而越容易出問題?

關(guān)鍵就是,全局語義會(huì)在生成過程中壓扁空間結(jié)構(gòu)。

在生成任務(wù)中,模型并不是一次性輸出圖像,而是在訓(xùn)練和采樣過程中,不斷對(duì)局部patch之間的關(guān)系做判斷。

論文將這種能力概括為「空間結(jié)構(gòu)」:即相鄰patch之間應(yīng)保持更高相似性,而遠(yuǎn)處patch不應(yīng)被全局語義過早拉近。

但當(dāng)模型過度追求全局語義一致性,比如通過CLS token ,或?qū)λ衟atch做全局平均來強(qiáng)化「這是什么」,這些局部差異就會(huì)被系統(tǒng)性地削弱。

這種做法會(huì)導(dǎo)致一個(gè)直接后果:前景物體的patch,與本應(yīng)無關(guān)的背景patch之間,出現(xiàn)異常高的相似性。

空間對(duì)比度下降,邊界變得模糊,生成結(jié)果因此糊成一片。


PE-G和WebSSL-1B在ImageNet上具有更高的分類準(zhǔn)確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結(jié)構(gòu)更清晰的SpatialPE-B,生成質(zhì)量顯著更好。

研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質(zhì)量的變化。

結(jié)果如下圖所示:


增強(qiáng)全局語義信息會(huì)損害生成質(zhì)量

隨著全局信息權(quán)重α從0增加到0.5,模型的線性探測準(zhǔn)確率持續(xù)上升。

但生成質(zhì)量卻顯著下降,F(xiàn)ID明顯惡化。

也就是說,「更懂這是什么」確實(shí)在發(fā)生;但與此同時(shí),模型也失去生成所依賴的空間結(jié)構(gòu)。

這并不是優(yōu)化不充分的副作用,而是因?yàn)槿终Z義在生成階段扮演了一個(gè)「過強(qiáng)約束」的角色。

它讓模型更快達(dá)成結(jié)論,卻也更早放棄了對(duì)局部結(jié)構(gòu)的精細(xì)刻畫。

既然語義會(huì)干擾生成,iREPA選擇退后一步

如果說前面的實(shí)驗(yàn)回答了「問題出在哪」,那 iREPA 回答的就是另一個(gè)問題:

既然全局語義會(huì)干擾生成,那該怎么對(duì)齊表示,才不會(huì)把結(jié)構(gòu)壓扁?

iREPA給出了答案。它對(duì)原本的REPA訓(xùn)練流程做了兩處非常簡單的修改,總共不到四行代碼 。

第一處,是投影方式的改變。

在標(biāo)準(zhǔn)REPA中,patch表征通常會(huì)經(jīng)過MLP投影層進(jìn)行對(duì)齊。

但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對(duì)比度 。

因此,iREPA用一個(gè)3×3的卷積層(padding=1)替換了MLP投影。

卷積的歸納偏置能保留局部鄰域關(guān)系:相鄰patch的相互影響被保留,遠(yuǎn)處區(qū)域則不會(huì)被過早混在一起 。

第二處修改,直接針對(duì)全局語義。

iREPA在對(duì)齊過程中引入了一個(gè)空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。


iREPA如何通過兩處修改,恢復(fù)生成所需的空間結(jié)構(gòu)。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關(guān)系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對(duì)比度。 (c) 經(jīng)過這兩步修改后,iREPA生成的diffusion特征呈現(xiàn)出更清晰的空間結(jié)構(gòu)。

正是這兩點(diǎn)改動(dòng),讓iREPA在機(jī)制上與前一節(jié)的問題形成了嚴(yán)格對(duì)應(yīng):

全局語義太強(qiáng)會(huì)抹平結(jié)構(gòu),那就在對(duì)齊階段削弱全局分量、強(qiáng)化空間關(guān)系 。

結(jié)果也在意料之中。

無論是在ImageNet規(guī)模的生成任務(wù),還是更高分辨率的設(shè)置,亦或是文本到圖像的多模態(tài)生成任務(wù)中,iREPA都表現(xiàn)出更快的收斂速度和更好的最終生成質(zhì)量。

更重要的是,這種提升并不依賴于某一個(gè)特定編碼器。

在不同模型規(guī)模、不同視覺骨干網(wǎng)絡(luò)、不同訓(xùn)練設(shè)置下,iREPA都能穩(wěn)定改進(jìn)。

這不僅是一個(gè)技巧,而是順著生成任務(wù)本身對(duì)結(jié)構(gòu)的需求,把表示對(duì)齊這件事做得更克制、更精細(xì)。

很多時(shí)候,我們討論生成模型時(shí),會(huì)下意識(shí)沿用一個(gè)標(biāo)準(zhǔn)。

但這篇論文提醒了我們,生成并不是理解的自然下游。

對(duì)生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。

當(dāng)我們一味強(qiáng)化全局語義,反復(fù)催促模型給出答案,其實(shí)是在替它提前下結(jié)論。

iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結(jié)構(gòu)還給結(jié)構(gòu)。

結(jié)果不是理解能力的飛躍,而是生成質(zhì)量的回歸。

參考資料:

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京出租車亂象:外地司機(jī)成主力,公司“割韭菜”式管理何時(shí)休?

北京出租車亂象:外地司機(jī)成主力,公司“割韭菜”式管理何時(shí)休?

劉哥談體育
2026-01-09 00:44:17
突發(fā)!特朗普宣布,暴漲!

突發(fā)!特朗普宣布,暴漲!

中國基金報(bào)
2026-01-09 00:13:04
伊能靜57歲泳裝照太絕!蜂腰翹臀,秦昊眼光太毒了?

伊能靜57歲泳裝照太絕!蜂腰翹臀,秦昊眼光太毒了?

娛樂領(lǐng)航家
2026-01-08 23:00:03
1970年江青哥哥帶兒子來北京,江青得知對(duì)方想見自己后:這事難辦

1970年江青哥哥帶兒子來北京,江青得知對(duì)方想見自己后:這事難辦

談古論今歷史有道
2026-01-08 11:50:03
萬科郁亮辭職背后的故事

萬科郁亮辭職背后的故事

地產(chǎn)微資訊
2026-01-09 11:35:32
特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國會(huì)執(zhí)行死刑的

特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國會(huì)執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
1981年鄧小平視察新疆,看到荒涼景象眉頭緊鎖,隨即下了一道死命令,不僅挽救了危局,還造就了世界奇跡

1981年鄧小平視察新疆,看到荒涼景象眉頭緊鎖,隨即下了一道死命令,不僅挽救了危局,還造就了世界奇跡

史海殘?jiān)?/span>
2026-01-08 18:42:16
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

章眽八卦
2026-01-05 12:27:07
建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復(fù)的?

建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復(fù)的?

嘮叨說歷史
2025-12-30 10:35:28
美硬扣俄油輪后,不到24小時(shí),特朗普迎來噩耗,這一次沒人能幫他

美硬扣俄油輪后,不到24小時(shí),特朗普迎來噩耗,這一次沒人能幫他

云上烏托邦
2026-01-08 12:32:14
3名男子舉報(bào)上海移動(dòng) 為創(chuàng)收逼迫員工上門斷用戶網(wǎng)絡(luò) 上海移動(dòng)客服人員:舉報(bào)內(nèi)容是不存在的

3名男子舉報(bào)上海移動(dòng) 為創(chuàng)收逼迫員工上門斷用戶網(wǎng)絡(luò) 上海移動(dòng)客服人員:舉報(bào)內(nèi)容是不存在的

閃電新聞
2026-01-08 15:01:28
1945年重慶酒局,毛主席偶遇江青前夫,握手時(shí)說了3個(gè)字,讓張治中冷汗直流

1945年重慶酒局,毛主席偶遇江青前夫,握手時(shí)說了3個(gè)字,讓張治中冷汗直流

歷史回憶室
2026-01-05 11:05:14
0.1秒反殺!連著2場絕殺!他46分統(tǒng)治加時(shí)!

0.1秒反殺!連著2場絕殺!他46分統(tǒng)治加時(shí)!

柚子說球
2026-01-08 21:20:43
本賽季得分榜前10得出2結(jié)論,3超巨漸漸老去,3歷史級(jí)別球員偉大

本賽季得分榜前10得出2結(jié)論,3超巨漸漸老去,3歷史級(jí)別球員偉大

體育世界信隆
2026-01-08 12:01:34
三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

墨蘭史書
2026-01-08 21:25:03
美軍綁架馬杜羅當(dāng)天,16艘油輪同時(shí)出港突圍,僅一艘遼寧油輪被扣

美軍綁架馬杜羅當(dāng)天,16艘油輪同時(shí)出港突圍,僅一艘遼寧油輪被扣

安安說
2026-01-09 13:03:19
方媛曬一家四口逛街照,郭富城好矮,方媛腰胯很寬,成了中年婦女

方媛曬一家四口逛街照,郭富城好矮,方媛腰胯很寬,成了中年婦女

樂悠悠娛樂
2026-01-09 09:42:08
1950年,師級(jí)首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

1950年,師級(jí)首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

寄史言志
2026-01-07 20:37:09
結(jié)果不錯(cuò)但場面難看,安東尼奧臨場現(xiàn)“敗筆”,李昊拯救U22國足

結(jié)果不錯(cuò)但場面難看,安東尼奧臨場現(xiàn)“敗筆”,李昊拯救U22國足

中國足球的那些事兒
2026-01-09 00:45:57
年薪50萬遭妻子嫌棄后續(xù):丈夫身份曝光,工資全上交,挨罵是日常

年薪50萬遭妻子嫌棄后續(xù):丈夫身份曝光,工資全上交,挨罵是日常

單手搓核彈
2026-01-06 13:44:21
2026-01-09 13:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14293文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會(huì)貴多少?

態(tài)度原創(chuàng)

手機(jī)
家居
數(shù)碼
游戲
公開課

手機(jī)要聞

小米17降價(jià)、榮耀全家桶現(xiàn)身、vivo上映大片

家居要聞

木色留白 演繹現(xiàn)代自由

數(shù)碼要聞

哈趣K3 Ultra Max:亮度碾壓同級(jí),哈曼音質(zhì)讓人“耳前一亮”

《PUBG:BLINDSPOT》定檔2月5日上線搶先體驗(yàn)版

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版