国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)讓AI畫圖從"差強(qiáng)人意"變"以假亂真"

0
分享至


這項(xiàng)由字節(jié)跳動(dòng)Seed部門完成的研究,以預(yù)印本形式于2026年4月13日發(fā)布于arXiv,論文編號(hào)為arXiv:2604.11521,有興趣深入了解的讀者可以通過這個(gè)編號(hào)查詢完整論文。

**一、AI畫圖有個(gè)藏了很久的老毛病**

你有沒有注意到,用AI生成圖片的時(shí)候,如果不開什么"引導(dǎo)"功能,出來的圖往往怪怪的?狗的毛發(fā)亂成一團(tuán),魚缸里的魚像是從噩夢(mèng)里游出來的,整張圖透著一股說不清道不明的"不對(duì)勁"。但一旦開了引導(dǎo)功能,質(zhì)量就蹭蹭上去了——只不過那樣生成的圖,和真實(shí)世界里的數(shù)據(jù)分布已經(jīng)不完全一樣了,像是經(jīng)過了某種美化濾鏡。

這背后有一個(gè)根本性的矛盾,而字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的這篇論文,正是專門沖著解決這個(gè)矛盾去的。

在講他們的解法之前,先得理解主角——流匹配模型(Flow Matching)是怎么工作的??梢园阉斫獬梢粋€(gè)"流水線導(dǎo)航員":它的任務(wù)是把一團(tuán)隨機(jī)的噪聲,沿著一條預(yù)先規(guī)劃好的路徑,一步步引導(dǎo)成一張真實(shí)的圖片。這條路徑是固定的,而"導(dǎo)航員"要學(xué)的,是在路徑上的每一個(gè)位置告訴粒子"接下來往哪里走、走多快",也就是預(yù)測所謂的"速度場"。

訓(xùn)練這個(gè)導(dǎo)航員的方式,是讓它預(yù)測的速度和真實(shí)應(yīng)該走的速度之間的距離盡可能小,用的是最經(jīng)典的方法——?dú)W氏距離,也就是空間中兩點(diǎn)之間最直的那條線的長度。聽起來合情合理,但問題就藏在這里。

歐氏距離衡量的是幾何空間上的遠(yuǎn)近,而真實(shí)圖片其實(shí)分布在一個(gè)極其復(fù)雜、彎彎繞繞的"數(shù)據(jù)流形"上。簡單來說,不是所有在幾何上"近"的圖片,在感知上也"像"。兩張圖在像素值上差不多,但一張可能是正常的金毛獵犬,另一張可能是被壓扁的幽靈獵犬。歐氏距離對(duì)這兩種情況一視同仁,但人類的眼睛絕對(duì)不會(huì)。

正因如此,當(dāng)模型的容量有限、無法死記硬背所有訓(xùn)練圖片時(shí),它就會(huì)用歐氏距離來"猜"應(yīng)該生成什么。這種"猜法"不符合真實(shí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),于是生成的圖就會(huì)偏離正常分布,出現(xiàn)那些叫人看了難受的怪異樣本。這就是導(dǎo)航員雖然在正確的路上走,卻不知道目的地長什么樣的困境。

**二、前人想了哪些辦法,又卡在哪里**

當(dāng)然,不止字節(jié)跳動(dòng)一家在想這個(gè)問題。過去已經(jīng)有幾條思路被嘗試過。

一種思路是換個(gè)空間再做流匹配。把圖片先壓縮到一個(gè)特殊的"表示空間"里,那個(gè)空間的結(jié)構(gòu)比原始像素空間更規(guī)整,流匹配在里面效果就會(huì)好一點(diǎn)。這確實(shí)有用,但本質(zhì)上是換了個(gè)戰(zhàn)場,并沒有直接解決距離度量不對(duì)的問題。

另一種思路是換用"黎曼幾何"(Riemannian Geometry),也就是在彎曲的曲面上重新定義距離和路徑。這就像在地球表面上,從北京到紐約的最短路不是直線穿地球,而是沿著地球曲面走的大圓弧。把流匹配搬到這種彎曲空間里,理論上更符合數(shù)據(jù)的真實(shí)分布。但問題是,你得事先知道數(shù)據(jù)流形的形狀才行,而這個(gè)形狀正是我們想學(xué)習(xí)的東西——雞生蛋還是蛋生雞的死循環(huán)。

還有一種思路是用一個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來充當(dāng)"感知距離計(jì)",讓模型的訓(xùn)練目標(biāo)從歐氏距離換成這個(gè)網(wǎng)絡(luò)認(rèn)為的"像不像"。深層神經(jīng)網(wǎng)絡(luò)確實(shí)比像素距離更擅長判斷兩張圖在感知上的差距,麻省理工等機(jī)構(gòu)的研究者早就驗(yàn)證了這一點(diǎn)。但固定的距離計(jì)有個(gè)致命弱點(diǎn):生成模型會(huì)慢慢摸清它的規(guī)律,找到各種"走捷徑"的方式來欺騙它,讓生成圖在這個(gè)距離計(jì)的眼里看起來很棒,但在真實(shí)人眼里依然奇怪。

解決"被欺騙"問題的自然延伸,是讓這個(gè)距離計(jì)和生成模型一起訓(xùn)練,互相博弈——你學(xué)著生成,我學(xué)著分辨,誰也別想一勞永逸地騙過對(duì)方。這就是生成對(duì)抗網(wǎng)絡(luò)(GAN)的核心思想,由深度學(xué)習(xí)先驅(qū)伊恩·古德費(fèi)洛在2014年提出。GAN的鑒別器在圖片的紋理、清晰度、輪廓等感知細(xì)節(jié)上表現(xiàn)出色,在ImageNet等圖像生成基準(zhǔn)上屢創(chuàng)佳績,也被廣泛應(yīng)用于流模型的"蒸餾加速"——通過對(duì)抗訓(xùn)練讓模型用極少步數(shù)就生成高質(zhì)量圖片。

在GAN和流模型的融合方向上,此前已經(jīng)有"對(duì)抗流模型"(AFM)的工作存在,它把對(duì)抗訓(xùn)練引入了離散時(shí)間的流模型,取得了不錯(cuò)的效果。但AFM在時(shí)間步長無限縮小的時(shí)候會(huì)不穩(wěn)定,根本上無法推廣到連續(xù)時(shí)間的流建??蚣?。這個(gè)空白,就是本文想要填補(bǔ)的。

**三、核心創(chuàng)新:讓鑒別器學(xué)會(huì)"分辨速度"而非"分辨圖片"**

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的方法叫做"連續(xù)對(duì)抗流模型"(Continuous Adversarial Flow Models,簡稱CAFM)。它的核心創(chuàng)新點(diǎn),是徹底解決了如何在連續(xù)時(shí)間框架下做對(duì)抗訓(xùn)練的問題。

在普通的GAN里,鑒別器看的是生成的圖片本身,判斷它是真是假。在離散時(shí)間的AFM里,鑒別器看的是從一個(gè)時(shí)間步跳到另一個(gè)時(shí)間步的"傳輸結(jié)果"。但在CAFM要處理的連續(xù)時(shí)間流中,基本單元不再是有限的"步",而是一個(gè)瞬間的"速度"——也就是粒子在路徑上某一刻應(yīng)該往哪走、走多快這個(gè)向量。

速度是位置對(duì)時(shí)間的導(dǎo)數(shù),它是個(gè)方向和大小都隨時(shí)變化的東西,你沒法直接把它塞進(jìn)一個(gè)普通的鑒別器里說"你來分辨這個(gè)速度是真是假"。那怎么辦?

團(tuán)隊(duì)想到的方法非常精妙,用到了數(shù)學(xué)里一個(gè)叫"雅可比-向量積"(Jacobian-Vector Product,JVP)的工具。先不管這個(gè)名字,用一個(gè)直覺來理解:鑒別器D本質(zhì)上是一個(gè)把空間中的每個(gè)點(diǎn)映射到一個(gè)數(shù)值的"勢場"——就像地圖上的海拔高度圖,每個(gè)位置對(duì)應(yīng)一個(gè)高度數(shù)字。在這個(gè)勢場里,一個(gè)向量(速度)的"好壞",可以用它沿著該速度方向前進(jìn)時(shí)勢場高度的變化率來衡量。如果朝著某個(gè)方向走,勢場高度上升很快,那這個(gè)方向就是"好的方向"。

JVP干的正是這件事:它計(jì)算的是當(dāng)你站在空間中某個(gè)位置,沿著某個(gè)給定方向(速度向量)前進(jìn)時(shí),鑒別器的值會(huì)以多快的速度變化。這個(gè)變化率本身是個(gè)標(biāo)量(一個(gè)單獨(dú)的數(shù)),就可以被當(dāng)作鑒別器的輸出來使用了。

具體來說,訓(xùn)練時(shí)的對(duì)抗游戲是這樣進(jìn)行的:鑒別器D被訓(xùn)練成,對(duì)于真實(shí)的條件速度(標(biāo)準(zhǔn)答案),JVP輸出接近+1;對(duì)于生成模型G預(yù)測的速度,JVP輸出接近-1。與此同時(shí),生成模型G被訓(xùn)練成讓自己預(yù)測的速度在鑒別器眼里越來越像真實(shí)速度——也就是讓JVP輸出盡量接近+1。

這個(gè)設(shè)計(jì)有一個(gè)非常優(yōu)雅的性質(zhì):鑒別器現(xiàn)在看的不再是圖片或者某個(gè)中間狀態(tài),而是整條流路徑的"局部方向偏好"。而且,由于JVP是線性的(它只是在當(dāng)前點(diǎn)對(duì)速度做線性近似),對(duì)整條路徑上所有點(diǎn)的JVP做積分,恰好等于鑒別器在路徑終點(diǎn)和起點(diǎn)的值之差。這意味著鑒別器在全局路徑上的判斷是自洽的,不會(huì)出現(xiàn)互相矛盾的評(píng)價(jià)。

為了防止訓(xùn)練過程中一些不穩(wěn)定的現(xiàn)象,團(tuán)隊(duì)還加入了幾個(gè)輔助的正則化項(xiàng)。一個(gè)叫"中心化懲罰",因?yàn)镴VP只約束了鑒別器的導(dǎo)數(shù),而鑒別器本身的絕對(duì)值是自由漂移的,需要把它拉回到零附近。另一個(gè)叫"最優(yōu)傳輸正則化",它鼓勵(lì)生成模型在預(yù)測速度時(shí)傾向于選擇范數(shù)最小的方向,這和物理上最省力路徑的直覺相符,有助于在高維空間里防止模型利用鑒別器的"盲區(qū)"走捷徑。

還有一個(gè)工程細(xì)節(jié)同樣重要:對(duì)抗訓(xùn)練歷來有個(gè)"梯度消失"的問題,就是當(dāng)真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的分布差得太遠(yuǎn)、沒有重疊時(shí),鑒別器能輕松分辨二者,于是給生成模型的梯度信號(hào)就近乎為零,學(xué)習(xí)陷入停滯。JVP的線性化特性在數(shù)學(xué)上保證了這個(gè)問題不會(huì)發(fā)生——只要生成的速度和真實(shí)速度不同,鑒別器的雅可比矩陣就會(huì)給出非零梯度,學(xué)習(xí)信號(hào)始終存在。因此,CAFM無需像AFM那樣依賴梯度懲罰和鑒別器重置等繁瑣的補(bǔ)丁措施。

**四、工程落地:如何讓這套方法真正跑起來**

從數(shù)學(xué)原理到能在GPU集群上運(yùn)行,還需要一系列工程決策。

JVP的計(jì)算在現(xiàn)代深度學(xué)習(xí)框架里并不復(fù)雜——PyTorch的`torch.func.jvp`函數(shù)支持前向模式自動(dòng)微分,可以在一次前向傳播中同時(shí)算出鑒別器的輸出值和JVP值,非常高效。更妙的是,訓(xùn)練鑒別器時(shí)需要同時(shí)用真實(shí)速度和生成速度各算一次JVP,利用向量化映射(`vmap`)可以把這兩次計(jì)算批量并行處理,無需跑兩遍網(wǎng)絡(luò)。

在網(wǎng)絡(luò)架構(gòu)上,生成模型G和原來的流匹配模型完全一樣,沒有任何改動(dòng),直接復(fù)用現(xiàn)有架構(gòu)。鑒別器D則采用和G相同的變換器(Transformer)架構(gòu),但有一個(gè)關(guān)鍵修改:把所有的層歸一化(LayerNorm)替換成均方根歸一化(RMSNorm)。這個(gè)看似微小的改動(dòng)極大提升了訓(xùn)練穩(wěn)定性。實(shí)驗(yàn)發(fā)現(xiàn),LayerNorm在JVP計(jì)算過程中會(huì)產(chǎn)生巨大的梯度尖峰,而RMSNorm則完全沒有這個(gè)問題。這與其他涉及JVP計(jì)算的工作中的發(fā)現(xiàn)一致。

在訓(xùn)練策略上,團(tuán)隊(duì)采用了"N步鑒別器更新,1步生成器更新"的節(jié)奏,即每更新一次生成模型,就把鑒別器單獨(dú)訓(xùn)練N步,讓鑒別器始終保持在一個(gè)接近最優(yōu)的狀態(tài)。實(shí)驗(yàn)表明N=16是個(gè)合適的選擇——太少(N=8)會(huì)導(dǎo)致鑒別器跟不上生成模型而訓(xùn)練發(fā)散,太多(N=32)則會(huì)使生成模型學(xué)得太慢。

大規(guī)模分布式訓(xùn)練方面,JVP和vmap能夠與PyTorch的多機(jī)并行訓(xùn)練框架(DDP、FSDP)以及梯度檢查點(diǎn)(用于節(jié)省顯存)完美配合,唯一需要注意的是包裝順序:應(yīng)該是`ddp(jvp(D))`而非`jvp(ddp(D))`,前者讓JVP只包裹網(wǎng)絡(luò)本身,后者則會(huì)把JVP套在包含梯度同步邏輯的分布式包裝器上,造成不兼容。

**五、主要用途是"后訓(xùn)練"而非從頭訓(xùn)練**

CAFM有一個(gè)非常實(shí)際的定位:它主要被設(shè)計(jì)為對(duì)現(xiàn)有流匹配模型的"后訓(xùn)練"工具,而非替代從頭訓(xùn)練。

道理很簡單:CAFM和標(biāo)準(zhǔn)流匹配在理論上收斂到同一個(gè)"真實(shí)速度場",兩者的本質(zhì)區(qū)別只在于有限容量的模型如何"泛化"——也就是在見過的訓(xùn)練樣本之外,如何應(yīng)對(duì)新的情況。既然目標(biāo)相同,就沒必要從零開始,完全可以先用標(biāo)準(zhǔn)流匹配把模型訓(xùn)練到一個(gè)不錯(cuò)的狀態(tài),再切換到CAFM目標(biāo)進(jìn)行微調(diào),讓模型的泛化方向從"歐氏距離最近"調(diào)整為"感知距離最近"。

從頭用CAFM訓(xùn)練也是可以的,團(tuán)隊(duì)也做了這個(gè)實(shí)驗(yàn)。但結(jié)果符合預(yù)期:在相同的訓(xùn)練輪次下,CAFM從頭訓(xùn)練的收斂速度比標(biāo)準(zhǔn)流匹配慢——畢竟額外引入了鑒別器和JVP計(jì)算,計(jì)算開銷約是標(biāo)準(zhǔn)流匹配的4.8倍。而且從頭訓(xùn)練時(shí)需要精心調(diào)節(jié)最優(yōu)傳輸正則化的權(quán)重λ和鑒別器更新步數(shù)N,隨著訓(xùn)練進(jìn)行,λ應(yīng)逐漸減小,N應(yīng)逐漸增大,才能獲得最佳效果。相比之下,后訓(xùn)練只需10個(gè)訓(xùn)練輪次,設(shè)置λ=0(完全關(guān)閉最優(yōu)傳輸正則化),就能獲得顯著的性能提升,簡單得多。

**六、ImageNet實(shí)驗(yàn):數(shù)字說明一切**

團(tuán)隊(duì)在最經(jīng)典的圖像生成基準(zhǔn)——ImageNet 256像素分類條件生成任務(wù)上驗(yàn)證了CAFM的效果,測試對(duì)象是兩個(gè)有代表性的流匹配模型。

第一個(gè)是SiT-XL/2,一個(gè)在SD-VAE潛在空間(也就是把圖片壓縮成更小的表示再處理)中運(yùn)行的模型。它有6.75億參數(shù),已經(jīng)過1400個(gè)訓(xùn)練輪次的標(biāo)準(zhǔn)流匹配預(yù)訓(xùn)練。用CAFM對(duì)它進(jìn)行10個(gè)輪次的后訓(xùn)練后,在不使用任何引導(dǎo)的情況下,衡量生成質(zhì)量的FID分?jǐn)?shù)(越低越好,越接近真實(shí)圖片分布越好)從8.26驟降至3.63——這是一個(gè)質(zhì)的飛躍,相當(dāng)于僅用極小的額外訓(xùn)練代價(jià)就幾乎將"出戲感"減半。同期做的對(duì)照實(shí)驗(yàn)表明,用標(biāo)準(zhǔn)流匹配再繼續(xù)訓(xùn)練10個(gè)輪次反而讓FID從8.26微升到8.64,說明這個(gè)提升完全來自CAFM目標(biāo)本身,而非額外的訓(xùn)練數(shù)據(jù)或輪次。

在有引導(dǎo)的情況下,CAFM同樣表現(xiàn)出色。掃描一系列引導(dǎo)強(qiáng)度(CFG)發(fā)現(xiàn),CAFM在CFG=1.3時(shí)就能達(dá)到最優(yōu)FID=1.53,而原始SiT需要CFG=1.5才能達(dá)到2.06。這意味著CAFM不僅在無引導(dǎo)時(shí)更接近真實(shí)分布,還讓引導(dǎo)變得更高效——需要的引導(dǎo)強(qiáng)度更小,得到的質(zhì)量卻更好。

第二個(gè)測試對(duì)象是JiT-H/16,一個(gè)直接在像素空間(不經(jīng)過潛在空間壓縮)運(yùn)行的模型,有9.56億參數(shù),已經(jīng)過600個(gè)訓(xùn)練輪次的預(yù)訓(xùn)練。CAFM后訓(xùn)練同樣10個(gè)輪次,無引導(dǎo)FID從7.17降至3.57,最佳引導(dǎo)FID從1.86降至1.80。

與同期其他方法的橫向?qū)Ρ雀苷f明問題。在SD-VAE潛在空間模型中,同樣使用DiT架構(gòu)和類似訓(xùn)練設(shè)置的各方法中,CAFM的無引導(dǎo)FID(3.63)超過了DiT-XL/2的9.62、SiT的8.26、加入特殊正則化的SiT+Disperse的7.43,以及引入了表示對(duì)齊技術(shù)的SiT+REPA的5.90(后者借助了DINOv2這個(gè)強(qiáng)大的預(yù)訓(xùn)練視覺模型)。在有引導(dǎo)的情況下,CAFM的1.53也優(yōu)于SiT+Disperse的1.97和原始SiT的2.06,只遜于同樣借助DINOv2的SiT+REPA(1.42)和DDT-XL(1.26)。

**七、文生圖實(shí)驗(yàn):從工廠級(jí)到產(chǎn)品級(jí)**

ImageNet實(shí)驗(yàn)驗(yàn)證了方法的可行性,而真正的"戰(zhàn)場"在于實(shí)際產(chǎn)品中廣泛使用的文生圖模型。團(tuán)隊(duì)選擇在Z-Image上進(jìn)行后訓(xùn)練實(shí)驗(yàn)——這是字節(jié)跳動(dòng)開源的、擁有60億參數(shù)的單流擴(kuò)散變換器,是一個(gè)真正產(chǎn)品級(jí)規(guī)模的模型。

實(shí)驗(yàn)設(shè)計(jì)同樣注重公平性。由于Z-Image的原始訓(xùn)練數(shù)據(jù)不可獲取,團(tuán)隊(duì)用了自己整理的開源自然圖像數(shù)據(jù)集。為了排除數(shù)據(jù)集差異對(duì)結(jié)果的干擾,他們先用標(biāo)準(zhǔn)流匹配在這批數(shù)據(jù)上微調(diào)Z-Image訓(xùn)練1萬次迭代,再分兩路:一路繼續(xù)用流匹配訓(xùn)練,另一路切換到CAFM訓(xùn)練,兩路都跑到同樣的總迭代次數(shù),然后對(duì)比。

在鑒別器架構(gòu)上,這次沒有在輸入端加入分類標(biāo)記,而是在最后一層的視覺特征上加了一個(gè)交叉注意力層來輸出鑒別分?jǐn)?shù),這樣主干網(wǎng)絡(luò)可以完全保持不變,改動(dòng)最小。

GenEval基準(zhǔn)(測試文生圖對(duì)各種細(xì)粒度視覺語義的理解,如兩個(gè)物體、顏色屬性、空間位置、計(jì)數(shù)等)和DPG基準(zhǔn)(測試圖像與復(fù)雜文本描述的一致性)的結(jié)果顯示,CAFM后訓(xùn)練顯著提升了無引導(dǎo)生成的質(zhì)量。在有提示詞擴(kuò)展且有引導(dǎo)的完整配置下,CAFM的GenEval總分從0.81提升至0.85,DPG總分從83.7提升至85.2。在兩個(gè)物體、顏色屬性、位置理解等細(xì)粒度指標(biāo)上,提升尤為明顯,反映出CAFM確實(shí)讓模型對(duì)復(fù)雜語義場景的理解更準(zhǔn)確、生成更到位。

**八、方法的局限與邊界**

研究團(tuán)隊(duì)也坦誠地指出了方法的局限。CAFM在經(jīng)驗(yàn)上確實(shí)能讓模型的泛化更接近真實(shí)數(shù)據(jù)分布,但無法從理論上保證它能完美覆蓋低密度區(qū)域,也就是那些在訓(xùn)練數(shù)據(jù)中很罕見的特殊情況。文生圖實(shí)驗(yàn)的失敗案例也印證了這一點(diǎn):對(duì)于"四支筆圍成一個(gè)矩形,中間五支鉛筆排成圓圈"這樣極度精細(xì)的空間計(jì)數(shù)描述,無引導(dǎo)的CAFM生成結(jié)果依然會(huì)出錯(cuò),需要加上引導(dǎo)才能勉強(qiáng)處理。

這說明CAFM改善了模型的泛化方向,但沒有神奇地解決所有問題。引導(dǎo)作為一種"低溫采樣"技術(shù),可以和CAFM疊加使用,正交互補(bǔ)。實(shí)驗(yàn)數(shù)據(jù)也確認(rèn),在有引導(dǎo)的情況下,CAFM的底層模型質(zhì)量提升會(huì)同樣傳遞到引導(dǎo)生成的結(jié)果上。

歸根結(jié)底,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)這項(xiàng)工作解決的是流匹配模型一個(gè)根本性的訓(xùn)練目標(biāo)問題:與其用直尺量感知距離,不如訓(xùn)練一個(gè)懂感知的裁判來打分。通過將對(duì)抗訓(xùn)練優(yōu)雅地?cái)U(kuò)展到連續(xù)時(shí)間框架,并用JVP將鑒別器錨定在流速度場的導(dǎo)數(shù)空間中,他們?cè)诓桓淖兡P图軜?gòu)、不增加推理成本的前提下,讓AI生成的圖片更自然地融入了真實(shí)圖像的世界。

Q&A

Q1:CAFM和普通流匹配模型有什么本質(zhì)區(qū)別?

A:兩者都在學(xué)習(xí)同一條從噪聲到圖片的路徑,理論上收斂到同一個(gè)速度場。本質(zhì)區(qū)別在于訓(xùn)練目標(biāo)不同:普通流匹配用歐氏距離衡量速度預(yù)測的好壞,這種距離不符合圖像感知規(guī)律;CAFM引入了一個(gè)和生成模型一起訓(xùn)練的鑒別器,用感知質(zhì)量來評(píng)判速度預(yù)測的好壞。這種差異不影響模型結(jié)構(gòu),只影響"泛化方向",所以CAFM可以直接對(duì)已有的流匹配模型做后訓(xùn)練,不用從頭來過。

Q2:CAFM使用的JVP技術(shù)是什么,為什么要這么設(shè)計(jì)?

A:JVP(雅可比-向量積)本質(zhì)上是計(jì)算一個(gè)函數(shù)在某個(gè)方向上的變化率。CAFM的鑒別器是一個(gè)把圖片位置映射到標(biāo)量勢能的函數(shù),JVP則計(jì)算這個(gè)勢能沿某個(gè)速度方向的變化率。這樣鑒別器就能直接對(duì)速度向量好壞進(jìn)行打分,而不需要看圖片本身。這個(gè)設(shè)計(jì)的好處在于:數(shù)學(xué)上自洽、訓(xùn)練中不會(huì)出現(xiàn)梯度消失、還能保證鑒別器對(duì)整條生成路徑的判斷前后一致。

Q3:CAFM后訓(xùn)練大概需要多少計(jì)算資源?

A:以ImageNet上SiT-XL/2模型的實(shí)驗(yàn)為例,后訓(xùn)練只需要10個(gè)訓(xùn)練輪次,批次大小256,學(xué)習(xí)率1e-5,整體設(shè)置非常輕量。但由于引入了鑒別器網(wǎng)絡(luò)以及JVP的前向和反向計(jì)算,每個(gè)輪次的墻鐘時(shí)間約是標(biāo)準(zhǔn)流匹配的4.8倍。綜合來看,相對(duì)于從頭訓(xùn)練一個(gè)大模型,這點(diǎn)額外開銷對(duì)于后訓(xùn)練場景是完全可以接受的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆?。?>
    </a>
        <h3>
      <a href=互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??! BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺(tái)州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢力,評(píng)論區(qū)意味深長

動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢力,評(píng)論區(qū)意味深長

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺(tái)球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
時(shí)尚
公開課

家居要聞

江景風(fēng)格 流動(dòng)的秩序

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4??!

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版