国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI參與,重卷ImageNet:終于把FID做成訓(xùn)練

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

統(tǒng)治AI圖像生成近10年的黃金標(biāo)準(zhǔn),第一次被拉下場(chǎng)當(dāng)了教練。

我說的是FID(Frechet Inception Distance)。

這個(gè)指標(biāo)從2017年沿用至今,一直無法無法投入日常訓(xùn)練使用。

現(xiàn)在有人打破了這個(gè)窘境——

來自USC、CMU、CUHK和OpenAI的全華陣容研究團(tuán)隊(duì),提出了一種叫FD-loss的方法,把“算統(tǒng)計(jì)的樣本池”和“算梯度的batch”徹底解耦。

依靠數(shù)萬張圖像組成的大容量緩存隊(duì)列或指數(shù)移動(dòng)平均機(jī)制,穩(wěn)定完成分布估算,僅針對(duì)當(dāng)下小批量數(shù)據(jù)開展梯度回傳。

僅憑這一個(gè)idea,長(zhǎng)期受限的FID終于能夠作為訓(xùn)練損失函數(shù),參與模型的直接優(yōu)化。

實(shí)驗(yàn)帶來了多項(xiàng)出人意料的結(jié)果:

  • 一個(gè)已有的單步生成器,后訓(xùn)練后直接刷出FID 0.72(ImageNet 256×256),而且推理成本零增加。
  • 一個(gè)訓(xùn)練了50步的多步擴(kuò)散模型,被他們直接repurposing成1步生成器,無需教師蒸餾、無需對(duì)抗訓(xùn)練,效果還能打。
  • 其中最違背固有認(rèn)知的發(fā)現(xiàn)在于,FID數(shù)值最優(yōu)的模型,視覺觀感未必出眾。依托DINOv2、MAE、SigLIP等前沿視覺表征訓(xùn)練的模型,F(xiàn)ID表現(xiàn)不如基于Inception架構(gòu)優(yōu)化的版本,但畫面物體結(jié)構(gòu)完整性與細(xì)節(jié)還原度都會(huì)明顯更好。



業(yè)內(nèi)長(zhǎng)期扎堆優(yōu)化FID分?jǐn)?shù),可這項(xiàng)沿用近十年的評(píng)價(jià)標(biāo)準(zhǔn)早已達(dá)到性能瓶頸,甚至?xí)龑?dǎo)模型走入錯(cuò)誤的優(yōu)化方向。

對(duì)6種表征空間的歸一化弗雷歇特距離(Fréchet Distance,F(xiàn)D)比值取平均,得到更魯棒的綜合指標(biāo)FDrk。

按照這套新標(biāo)準(zhǔn)測(cè)算,真實(shí)驗(yàn)證集基準(zhǔn)數(shù)值為1.0,現(xiàn)階段頂尖生成模型的數(shù)值依舊高達(dá)1.89。

這足以說明ImageNet圖像生成領(lǐng)域,距離技術(shù)成熟還有很遠(yuǎn)的距離。

解耦統(tǒng)計(jì)量與梯度計(jì)算

FID是所有生成模型性能測(cè)評(píng)的核心評(píng)判標(biāo)準(zhǔn)。

這個(gè)歌值越小,意味著生成圖越真實(shí)、分布越接近真實(shí)。

它的計(jì)算方式是把真實(shí)圖和生成圖用Inception-v3提特征,各算一個(gè)高斯分布,再求兩個(gè)分布之間的距離。

不過過去,F(xiàn)ID只能當(dāng)評(píng)測(cè)指標(biāo)。

因?yàn)闇y(cè)算一次FID需要50000張圖片的統(tǒng)計(jì)數(shù)據(jù),而GPU每步訓(xùn)練能塞下的batch撐死也就1024張。

如果強(qiáng)行把5萬樣本全部參與反向傳播,顯存多半當(dāng)場(chǎng)爆炸。

新研究的破局思路是“徹底解耦”。

簡(jiǎn)單來說,研究團(tuán)隊(duì)用數(shù)萬張圖組成的大窗口(隊(duì)列或 EMA)穩(wěn)定估算真實(shí)與生成分布的均值、協(xié)方差,保證FD計(jì)算準(zhǔn)確;梯度只回傳當(dāng)前小批量數(shù)據(jù),不增加訓(xùn)練算力負(fù)擔(dān)。

研究者設(shè)計(jì)了兩種工程實(shí)現(xiàn)。

第一種叫隊(duì)列法(Queue)。

這種方法維護(hù)一個(gè)超大特征隊(duì)列(比如5萬條),每次生成新batch就enqueue,同時(shí)把最老的batch踢出去。

算FD時(shí),用整個(gè)隊(duì)列的均值和協(xié)方差;反向傳播時(shí),只給當(dāng)前這1024條特征開梯度流,歷史特征不參與梯度回傳,保證統(tǒng)計(jì)穩(wěn)健性的同時(shí)不增加訓(xùn)練開銷。

第二種叫EMA法。

這種方法干脆不存儲(chǔ)任何特征數(shù)據(jù),僅通過指數(shù)移動(dòng)平均實(shí)時(shí)更新生成樣本特征的一階矩與二階矩,每一步使用當(dāng)前批次的統(tǒng)計(jì)量平滑更新全局均值與協(xié)方差估計(jì),梯度同樣只作用于當(dāng)前批次。

這種方式無需占用大量顯存,統(tǒng)計(jì)結(jié)果更平滑穩(wěn)定,還能輕松適配多表征空間聯(lián)合優(yōu)化,在實(shí)驗(yàn)中表現(xiàn)更優(yōu),也成為論文默認(rèn)的實(shí)現(xiàn)方案。



為了驗(yàn)證這套解耦機(jī)制是否真的有效,研究者在最小的pMF-B/16(118M)上做了兩組消融實(shí)驗(yàn)。

(注:論文在實(shí)驗(yàn)中使用了明確的模型規(guī)模分級(jí),其中B代表Base小模型,參數(shù)規(guī)模約89M到131M。)

第一組對(duì)比隊(duì)列長(zhǎng)度。

不用隊(duì)列(N=0)時(shí),F(xiàn)ID反而從3.31劣化到3.84。

隊(duì)列加到5萬時(shí),F(xiàn)ID驟降至0.89;但狂堆到50萬后,因歷史特征嚴(yán)重stale,F(xiàn)Dr6直接崩回17.67。

第二組對(duì)比EMA衰減率。

β=0.999時(shí),F(xiàn)ID刷到0.81,比隊(duì)列版更優(yōu),且顯著好于過短的0.9(0.98)和過長(zhǎng)的0.9999(0.98)。

因此后續(xù)所有實(shí)驗(yàn)——無論pixel/latent空間、多步轉(zhuǎn)單步、還是2.5B參數(shù)的文本模型——均默認(rèn)采用EMA方案。

三個(gè)“反常識(shí)”的實(shí)驗(yàn)發(fā)現(xiàn)

新提出的FD-loss本質(zhì)上是一個(gè)后訓(xùn)練的分布對(duì)齊目標(biāo)。

研究者從已經(jīng)訓(xùn)練好的生成器出發(fā),只用FD-loss做輕量微調(diào)。

真實(shí)圖像只在離線階段出現(xiàn)一次——預(yù)先把訓(xùn)練集的均值和協(xié)方差算好存盤,之后模型再也不見真圖,只對(duì)著自己生成的樣本做自我修正。

這意味著它不需要修改原有架構(gòu),不需要從頭訓(xùn)練,也不需要教師蒸餾或?qū)箤W(xué)習(xí),像插件一樣直接嵌入現(xiàn)有流程。

而且無論像素空間還是隱空間、單步還是多步模型,都能即插即用。

有了這個(gè)輕量框架,研究團(tuán)隊(duì)才得以系統(tǒng)性地測(cè)試當(dāng)FID真的變成損失函數(shù),生成模型會(huì)發(fā)生什么。



FD-loss帶來了三個(gè)重要的實(shí)驗(yàn)發(fā)現(xiàn)。

發(fā)現(xiàn)一,F(xiàn)D-loss讓單步生成模型首次實(shí)現(xiàn)畫質(zhì)與速度的新高度。

研究者拿了一個(gè)已經(jīng)訓(xùn)練好的單步生成器 pMF-H,直接上FD-loss微調(diào)100輪。

結(jié)果在ImageNet 256×256上,F(xiàn)ID從2.29干到了0.77,同時(shí)依然保持 1-NFE(單步生成)。

這一分?jǐn)?shù)大幅超越過往多步擴(kuò)散模型的最好水平,打破了 “高質(zhì)量必須多步、單步只能低畫質(zhì)” 的固有枷鎖。

換句話說,推理成本一分錢沒多花,畫質(zhì)直接躍升。

同樣的操作放到latent-space的iMF-XL上,F(xiàn)ID也從1.82壓到0.76。

更關(guān)鍵的是,這種提升不是刷分。在論文圖4的定性對(duì)比里,后訓(xùn)練的鸚鵡羽毛更分明,雪豹的斑點(diǎn)也更清晰。



發(fā)現(xiàn)二,F(xiàn)D-loss可以直接將成熟的多步擴(kuò)散模型改造為高性能單步生成器。

研究者把原本訓(xùn)練來跑50步的多步模型JiT-L,強(qiáng)行拉到單步模式,也就是直接輸入純?cè)肼暎P椭慌芤淮,輸出就?dāng)最終圖像。

結(jié)果就是FID直接崩到291.59,畫面糊成一鍋粥。

然后,他們什么都不改,就用FD-loss繼續(xù)微調(diào)這個(gè)的單步模式。

整個(gè)過程無需教師蒸餾,無需對(duì)抗訓(xùn)練,無需逐樣本監(jiān)督信號(hào)。

50輪后,F(xiàn)ID從291驟降到 0.77,生成質(zhì)量與原多步模型相當(dāng)甚至更優(yōu),而且推理速度提升數(shù)十倍。



發(fā)現(xiàn)三,F(xiàn)ID最低的,未必是最好的。

這也是該試驗(yàn)最具行業(yè)反思價(jià)值的一點(diǎn)。

當(dāng)研究者把FD-loss放到不同的表征空間里優(yōu)化時(shí),事情變得詭異起來(驚恐.jpg)。

實(shí)驗(yàn)清晰表明,F(xiàn)ID最低的模型,在人眼主觀評(píng)價(jià)中并非最優(yōu)。

基于Inception特征優(yōu)化的模型能獲得最低FID,卻在物體結(jié)構(gòu)、細(xì)節(jié)紋理、整體感知上弱于使用DINOv2、MAE、SigLIP等現(xiàn)代視覺表征訓(xùn)練的模型。

后者FID數(shù)值更高,但人眼看更銳利、物體結(jié)構(gòu)更完整,視覺質(zhì)量顯著更優(yōu)。

這說明長(zhǎng)期被奉為金標(biāo)準(zhǔn)的FID可能會(huì)誤導(dǎo)研究方向……

團(tuán)隊(duì)提出新標(biāo)準(zhǔn)

那么,如果FID已經(jīng)靠不住了,我們拿什么來相信生成模型的進(jìn)步?

研究團(tuán)隊(duì)提出跨6種表征空間的歸一化平均指標(biāo)FDrk。

該指標(biāo)通過對(duì)Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6種不同維度的表征空間計(jì)算歸一化FD比值并取平均,得到綜合評(píng)估結(jié)果FDr6。

按照這一標(biāo)準(zhǔn),真實(shí)驗(yàn)證集的基準(zhǔn)值為1.0,而當(dāng)前最強(qiáng)生成模型的FDr6仍高達(dá)1.89,直觀揭示 ImageNet生成任務(wù)遠(yuǎn)未被解決。

此外,在人類盲選偏好實(shí)驗(yàn)中,即便最優(yōu)的pMF-H模型,得票率也只有37.4%,真實(shí)圖片依舊以62.6%的勝率占優(yōu)。



值得一提的是,F(xiàn)D?loss具備極低的使用門檻與極強(qiáng)的泛化能力,可作為輕量化后訓(xùn)練插件直接嵌入現(xiàn)有訓(xùn)練流程,無需從零搭建模型,也不依賴復(fù)雜的訓(xùn)練策略與工程調(diào)優(yōu)。

該方法同時(shí)兼容像素空間與隱空間生成模型,適配單步生成器與多步擴(kuò)散模型,支持類別條件生成與文生圖等多種任務(wù)模式。

在整個(gè)優(yōu)化過程中,F(xiàn)D?loss無需修改原有主干網(wǎng)絡(luò)結(jié)構(gòu),不引入復(fù)雜的架構(gòu)改動(dòng)和從頭訓(xùn)練的巨大開銷,依托隊(duì)列或EMA統(tǒng)計(jì)更新即可穩(wěn)定收斂,具備優(yōu)秀的復(fù)現(xiàn)性與落地可行性。

憑借簡(jiǎn)潔通用的設(shè)計(jì),它大幅降低了高質(zhì)量極速生成模型的工程實(shí)現(xiàn)門檻,讓各類生成架構(gòu)都能快速獲得顯著的質(zhì)量提升。

低成本、高回報(bào),這正是FD-loss之于工業(yè)界的誘惑力所在。

團(tuán)隊(duì)介紹

公開信息顯示,五位作者全部是華人背景。

一作Jiawei Yang,USC計(jì)算機(jī)系博士生,師從Yue Wang教授,目前的研究聚焦于以視覺為中心的多模態(tài)模型的統(tǒng)一生成與理解。

他碩士畢業(yè)于UCLA,曾獲NVIDIA Graduate Fellowship。



Zhengyang Geng本科畢業(yè)于四川大學(xué)計(jì)算金融專業(yè),現(xiàn)為CMU計(jì)算機(jī)科學(xué)博士生,導(dǎo)師為Zico Kolter。

他長(zhǎng)期專注單步生成、動(dòng)態(tài)系統(tǒng)與模型高效化,是MeanFlow、pMF等系列工作核心作者。

他的個(gè)人主頁寫道“與Kaiming He有緊密合作”,兩人曾連續(xù)合作多篇單步生成領(lǐng)域核心論文。



Xuan Ju是香港中文大學(xué)博士生,師從徐強(qiáng)教授,主攻圖像與視頻生成、高效多模態(tài)模型。

她在ICCV、SIGGRAP 等頂會(huì)發(fā)表多篇成果。



Yonglong Tian博士畢業(yè)于MIT計(jì)算機(jī)科學(xué)專業(yè),現(xiàn)為OpenAI研究員。

他是監(jiān)督對(duì)比學(xué)習(xí)SupContrast等表征學(xué)習(xí)標(biāo)志性工作的作者,曾任職于Google DeepMind。



通訊作者Yue Wang,USC助理教授,同時(shí)兼任英偉達(dá)研究科學(xué)家。

他本科畢業(yè)于浙江大學(xué),碩士畢業(yè)于UCSD,博士畢業(yè)于MIT,研究橫跨3D視覺、生成模型與機(jī)器人。



論文arXiv:
https://arxiv.org/abs/2604.28190

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
終于對(duì)美國(guó)上陽謀了!中國(guó)正式通告全球,美國(guó)不愿干的事中國(guó)干!

終于對(duì)美國(guó)上陽謀了!中國(guó)正式通告全球,美國(guó)不愿干的事中國(guó)干!

安安說
2026-05-03 14:06:34
徹底沒了,三星電子宣布退出中國(guó)市場(chǎng)!

徹底沒了,三星電子宣布退出中國(guó)市場(chǎng)!

XCiOS俱樂部
2026-05-02 18:53:05
后續(xù)!世界杯版權(quán)談崩,央視拒絕足聯(lián)3億要價(jià),3大受害者已經(jīng)出現(xiàn)

后續(xù)!世界杯版權(quán)談崩,央視拒絕足聯(lián)3億要價(jià),3大受害者已經(jīng)出現(xiàn)

譚談社會(huì)
2026-05-02 14:53:41
央視曝光“減肥針”地下交易亂象后,警方摧毀特大制售醫(yī)美黑針劑犯罪網(wǎng)絡(luò),涉案金額1.5億;有女子打針后送進(jìn)搶救室,“沒有脈搏了”

央視曝光“減肥針”地下交易亂象后,警方摧毀特大制售醫(yī)美黑針劑犯罪網(wǎng)絡(luò),涉案金額1.5億;有女子打針后送進(jìn)搶救室,“沒有脈搏了”

北青網(wǎng)-北京青年報(bào)
2026-05-03 14:57:07
連扳3局逆轉(zhuǎn)!吳宜澤17比16擊敗馬克·艾倫,首次晉級(jí)斯諾克世錦賽決賽,將與肖恩·墨菲爭(zhēng)冠

連扳3局逆轉(zhuǎn)!吳宜澤17比16擊敗馬克·艾倫,首次晉級(jí)斯諾克世錦賽決賽,將與肖恩·墨菲爭(zhēng)冠

環(huán)球網(wǎng)資訊
2026-05-03 06:37:20
上?萍即髮W(xué)王晨輝教授因營(yíng)救自己孩子不幸溺水去世,年僅39歲 孩子安全獲救

上?萍即髮W(xué)王晨輝教授因營(yíng)救自己孩子不幸溺水去世,年僅39歲 孩子安全獲救

紅星新聞
2026-05-03 17:11:16
杰倫-布朗:76人不止第七的實(shí)力,恩比德給我們帶來了巨大麻煩

杰倫-布朗:76人不止第七的實(shí)力,恩比德給我們帶來了巨大麻煩

懂球帝
2026-05-03 12:00:12
請(qǐng)大家做好準(zhǔn)備:地方因?yàn)槿卞X,正在發(fā)生很明顯的變化

請(qǐng)大家做好準(zhǔn)備:地方因?yàn)槿卞X,正在發(fā)生很明顯的變化

財(cái)經(jīng)保探長(zhǎng)
2026-05-02 21:23:41
張雪機(jī)車奪冠,頒獎(jiǎng)臺(tái)響起的卻是法國(guó)國(guó)歌,張雪1年投100萬誓破局

張雪機(jī)車奪冠,頒獎(jiǎng)臺(tái)響起的卻是法國(guó)國(guó)歌,張雪1年投100萬誓破局

風(fēng)過鄉(xiāng)
2026-05-03 13:27:13
黃芪傷腎,黃芪泡水喝危害多?再次提醒:真正傷腎的是這3類中藥

黃芪傷腎,黃芪泡水喝危害多?再次提醒:真正傷腎的是這3類中藥

芹姐說生活
2026-05-03 15:18:12
中俄絕對(duì)不是朋友,中美絕對(duì)不是敵人。

中俄絕對(duì)不是朋友,中美絕對(duì)不是敵人。

大秦共和國(guó)
2026-04-30 16:55:06
烏軍方駁斥俄國(guó)防部造謠,澤連斯基制裁前總統(tǒng)辦公室主任

烏軍方駁斥俄國(guó)防部造謠,澤連斯基制裁前總統(tǒng)辦公室主任

史政先鋒
2026-05-03 16:50:13
震驚!網(wǎng)傳大學(xué)生生娃后女方跑路,網(wǎng)友:100000得一孫子,賺大了

震驚!網(wǎng)傳大學(xué)生生娃后女方跑路,網(wǎng)友:100000得一孫子,賺大了

火山詩話
2026-05-03 07:46:48
來了,綠凱被黑7后!爭(zhēng)冠格局一目了然:僅這4隊(duì)有機(jī)會(huì)!

來了,綠凱被黑7后!爭(zhēng)冠格局一目了然:僅這4隊(duì)有機(jī)會(huì)!

運(yùn)籌帷幄的籃球
2026-05-03 14:22:04
臺(tái)灣經(jīng)濟(jì)狂飆同比增長(zhǎng)13.6%,創(chuàng)近39年新高

臺(tái)灣經(jīng)濟(jì)狂飆同比增長(zhǎng)13.6%,創(chuàng)近39年新高

鳳眼論
2026-05-03 13:15:01
鐵路員工站臺(tái)抽煙遭舉報(bào),沈女士已“社死”:發(fā)文認(rèn)錯(cuò)不該砸飯碗

鐵路員工站臺(tái)抽煙遭舉報(bào),沈女士已“社死”:發(fā)文認(rèn)錯(cuò)不該砸飯碗

漢史趣聞
2026-05-02 18:11:50
恒大集團(tuán)許家印前妻找了一個(gè)小男友

恒大集團(tuán)許家印前妻找了一個(gè)小男友

地產(chǎn)微資訊
2026-05-03 08:17:10
越南4月份貿(mào)易逆差為32.8億美元,預(yù)計(jì)逆差為4億美元。

越南4月份貿(mào)易逆差為32.8億美元,預(yù)計(jì)逆差為4億美元。

每日經(jīng)濟(jì)新聞
2026-05-03 10:18:05
35歲主管被公司用AI替崗,月薪從2.5萬降至1.5萬,協(xié)商不成后被裁,公司被判支付26萬余元賠償金

35歲主管被公司用AI替崗,月薪從2.5萬降至1.5萬,協(xié)商不成后被裁,公司被判支付26萬余元賠償金

環(huán)球網(wǎng)資訊
2026-05-03 16:56:51
一夜之間大跳水!最低不到2折!網(wǎng)友直呼“2000多元憑空蒸發(fā)”

一夜之間大跳水!最低不到2折!網(wǎng)友直呼“2000多元憑空蒸發(fā)”

魯中晨報(bào)
2026-05-03 08:34:29
2026-05-03 18:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12572文章數(shù) 176460關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

男童在野生景點(diǎn)徒步時(shí)落水 34歲父親營(yíng)救時(shí)不幸遇難

頭條要聞

男童在野生景點(diǎn)徒步時(shí)落水 34歲父親營(yíng)救時(shí)不幸遇難

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場(chǎng)股東會(huì)透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺(tái)

態(tài)度原創(chuàng)

游戲
數(shù)碼
時(shí)尚
健康
本地

鷹角,“太夠勁了”

數(shù)碼要聞

華為5A最新支持設(shè)備清單公布,含Pura X Max、暢享90系列等

春天別總傻傻穿一身黑,看看這些日常穿搭,高級(jí)舒適又優(yōu)雅

干細(xì)胞治燒燙傷面臨這些“瓶頸”

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進(jìn)入關(guān)懷版