国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<menu id="nrdgq"><address id="nrdgq"></address></menu>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)讓AI畫圖從"差強(qiáng)人意"變"以假亂真"

2026-04-21 21:58:35　來源: 科技行者

天津舉報(bào)

0

分享至

這項(xiàng)由字節(jié)跳動(dòng)Seed部門完成的研究，以預(yù)印本形式于2026年4月13日發(fā)布于arXiv，論文編號(hào)為arXiv:2604.11521，有興趣深入了解的讀者可以通過這個(gè)編號(hào)查詢完整論文。

**一、AI畫圖有個(gè)藏了很久的老毛病**

你有沒有注意到，用AI生成圖片的時(shí)候，如果不開什么"引導(dǎo)"功能，出來的圖往往怪怪的？狗的毛發(fā)亂成一團(tuán)，魚缸里的魚像是從噩夢(mèng)里游出來的，整張圖透著一股說不清道不明的"不對(duì)勁"。但一旦開了引導(dǎo)功能，質(zhì)量就蹭蹭上去了——只不過那樣生成的圖，和真實(shí)世界里的數(shù)據(jù)分布已經(jīng)不完全一樣了，像是經(jīng)過了某種美化濾鏡。

這背后有一個(gè)根本性的矛盾，而字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的這篇論文，正是專門沖著解決這個(gè)矛盾去的。

在講他們的解法之前，先得理解主角——流匹配模型（Flow Matching）是怎么工作的?？梢园阉斫獬梢粋€(gè)"流水線導(dǎo)航員"：它的任務(wù)是把一團(tuán)隨機(jī)的噪聲，沿著一條預(yù)先規(guī)劃好的路徑，一步步引導(dǎo)成一張真實(shí)的圖片。這條路徑是固定的，而"導(dǎo)航員"要學(xué)的，是在路徑上的每一個(gè)位置告訴粒子"接下來往哪里走、走多快"，也就是預(yù)測所謂的"速度場"。

訓(xùn)練這個(gè)導(dǎo)航員的方式，是讓它預(yù)測的速度和真實(shí)應(yīng)該走的速度之間的距離盡可能小，用的是最經(jīng)典的方法——?dú)W氏距離，也就是空間中兩點(diǎn)之間最直的那條線的長度。聽起來合情合理，但問題就藏在這里。

歐氏距離衡量的是幾何空間上的遠(yuǎn)近，而真實(shí)圖片其實(shí)分布在一個(gè)極其復(fù)雜、彎彎繞繞的"數(shù)據(jù)流形"上。簡單來說，不是所有在幾何上"近"的圖片，在感知上也"像"。兩張圖在像素值上差不多，但一張可能是正常的金毛獵犬，另一張可能是被壓扁的幽靈獵犬。歐氏距離對(duì)這兩種情況一視同仁，但人類的眼睛絕對(duì)不會(huì)。

正因如此，當(dāng)模型的容量有限、無法死記硬背所有訓(xùn)練圖片時(shí)，它就會(huì)用歐氏距離來"猜"應(yīng)該生成什么。這種"猜法"不符合真實(shí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，于是生成的圖就會(huì)偏離正常分布，出現(xiàn)那些叫人看了難受的怪異樣本。這就是導(dǎo)航員雖然在正確的路上走，卻不知道目的地長什么樣的困境。

**二、前人想了哪些辦法，又卡在哪里**

當(dāng)然，不止字節(jié)跳動(dòng)一家在想這個(gè)問題。過去已經(jīng)有幾條思路被嘗試過。

一種思路是換個(gè)空間再做流匹配。把圖片先壓縮到一個(gè)特殊的"表示空間"里，那個(gè)空間的結(jié)構(gòu)比原始像素空間更規(guī)整，流匹配在里面效果就會(huì)好一點(diǎn)。這確實(shí)有用，但本質(zhì)上是換了個(gè)戰(zhàn)場，并沒有直接解決距離度量不對(duì)的問題。

另一種思路是換用"黎曼幾何"（Riemannian Geometry），也就是在彎曲的曲面上重新定義距離和路徑。這就像在地球表面上，從北京到紐約的最短路不是直線穿地球，而是沿著地球曲面走的大圓弧。把流匹配搬到這種彎曲空間里，理論上更符合數(shù)據(jù)的真實(shí)分布。但問題是，你得事先知道數(shù)據(jù)流形的形狀才行，而這個(gè)形狀正是我們想學(xué)習(xí)的東西——雞生蛋還是蛋生雞的死循環(huán)。

還有一種思路是用一個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來充當(dāng)"感知距離計(jì)"，讓模型的訓(xùn)練目標(biāo)從歐氏距離換成這個(gè)網(wǎng)絡(luò)認(rèn)為的"像不像"。深層神經(jīng)網(wǎng)絡(luò)確實(shí)比像素距離更擅長判斷兩張圖在感知上的差距，麻省理工等機(jī)構(gòu)的研究者早就驗(yàn)證了這一點(diǎn)。但固定的距離計(jì)有個(gè)致命弱點(diǎn)：生成模型會(huì)慢慢摸清它的規(guī)律，找到各種"走捷徑"的方式來欺騙它，讓生成圖在這個(gè)距離計(jì)的眼里看起來很棒，但在真實(shí)人眼里依然奇怪。

解決"被欺騙"問題的自然延伸，是讓這個(gè)距離計(jì)和生成模型一起訓(xùn)練，互相博弈——你學(xué)著生成，我學(xué)著分辨，誰也別想一勞永逸地騙過對(duì)方。這就是生成對(duì)抗網(wǎng)絡(luò)（GAN）的核心思想，由深度學(xué)習(xí)先驅(qū)伊恩·古德費(fèi)洛在2014年提出。GAN的鑒別器在圖片的紋理、清晰度、輪廓等感知細(xì)節(jié)上表現(xiàn)出色，在ImageNet等圖像生成基準(zhǔn)上屢創(chuàng)佳績，也被廣泛應(yīng)用于流模型的"蒸餾加速"——通過對(duì)抗訓(xùn)練讓模型用極少步數(shù)就生成高質(zhì)量圖片。

在GAN和流模型的融合方向上，此前已經(jīng)有"對(duì)抗流模型"（AFM）的工作存在，它把對(duì)抗訓(xùn)練引入了離散時(shí)間的流模型，取得了不錯(cuò)的效果。但AFM在時(shí)間步長無限縮小的時(shí)候會(huì)不穩(wěn)定，根本上無法推廣到連續(xù)時(shí)間的流建?？蚣?。這個(gè)空白，就是本文想要填補(bǔ)的。

**三、核心創(chuàng)新：讓鑒別器學(xué)會(huì)"分辨速度"而非"分辨圖片"**

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的方法叫做"連續(xù)對(duì)抗流模型"（Continuous Adversarial Flow Models，簡稱CAFM）。它的核心創(chuàng)新點(diǎn)，是徹底解決了如何在連續(xù)時(shí)間框架下做對(duì)抗訓(xùn)練的問題。

在普通的GAN里，鑒別器看的是生成的圖片本身，判斷它是真是假。在離散時(shí)間的AFM里，鑒別器看的是從一個(gè)時(shí)間步跳到另一個(gè)時(shí)間步的"傳輸結(jié)果"。但在CAFM要處理的連續(xù)時(shí)間流中，基本單元不再是有限的"步"，而是一個(gè)瞬間的"速度"——也就是粒子在路徑上某一刻應(yīng)該往哪走、走多快這個(gè)向量。

速度是位置對(duì)時(shí)間的導(dǎo)數(shù)，它是個(gè)方向和大小都隨時(shí)變化的東西，你沒法直接把它塞進(jìn)一個(gè)普通的鑒別器里說"你來分辨這個(gè)速度是真是假"。那怎么辦？

團(tuán)隊(duì)想到的方法非常精妙，用到了數(shù)學(xué)里一個(gè)叫"雅可比-向量積"（Jacobian-Vector Product，JVP）的工具。先不管這個(gè)名字，用一個(gè)直覺來理解：鑒別器D本質(zhì)上是一個(gè)把空間中的每個(gè)點(diǎn)映射到一個(gè)數(shù)值的"勢場"——就像地圖上的海拔高度圖，每個(gè)位置對(duì)應(yīng)一個(gè)高度數(shù)字。在這個(gè)勢場里，一個(gè)向量（速度）的"好壞"，可以用它沿著該速度方向前進(jìn)時(shí)勢場高度的變化率來衡量。如果朝著某個(gè)方向走，勢場高度上升很快，那這個(gè)方向就是"好的方向"。

JVP干的正是這件事：它計(jì)算的是當(dāng)你站在空間中某個(gè)位置，沿著某個(gè)給定方向（速度向量）前進(jìn)時(shí)，鑒別器的值會(huì)以多快的速度變化。這個(gè)變化率本身是個(gè)標(biāo)量（一個(gè)單獨(dú)的數(shù)），就可以被當(dāng)作鑒別器的輸出來使用了。

具體來說，訓(xùn)練時(shí)的對(duì)抗游戲是這樣進(jìn)行的：鑒別器D被訓(xùn)練成，對(duì)于真實(shí)的條件速度（標(biāo)準(zhǔn)答案），JVP輸出接近+1；對(duì)于生成模型G預(yù)測的速度，JVP輸出接近-1。與此同時(shí)，生成模型G被訓(xùn)練成讓自己預(yù)測的速度在鑒別器眼里越來越像真實(shí)速度——也就是讓JVP輸出盡量接近+1。

這個(gè)設(shè)計(jì)有一個(gè)非常優(yōu)雅的性質(zhì)：鑒別器現(xiàn)在看的不再是圖片或者某個(gè)中間狀態(tài)，而是整條流路徑的"局部方向偏好"。而且，由于JVP是線性的（它只是在當(dāng)前點(diǎn)對(duì)速度做線性近似），對(duì)整條路徑上所有點(diǎn)的JVP做積分，恰好等于鑒別器在路徑終點(diǎn)和起點(diǎn)的值之差。這意味著鑒別器在全局路徑上的判斷是自洽的，不會(huì)出現(xiàn)互相矛盾的評(píng)價(jià)。

為了防止訓(xùn)練過程中一些不穩(wěn)定的現(xiàn)象，團(tuán)隊(duì)還加入了幾個(gè)輔助的正則化項(xiàng)。一個(gè)叫"中心化懲罰"，因?yàn)镴VP只約束了鑒別器的導(dǎo)數(shù)，而鑒別器本身的絕對(duì)值是自由漂移的，需要把它拉回到零附近。另一個(gè)叫"最優(yōu)傳輸正則化"，它鼓勵(lì)生成模型在預(yù)測速度時(shí)傾向于選擇范數(shù)最小的方向，這和物理上最省力路徑的直覺相符，有助于在高維空間里防止模型利用鑒別器的"盲區(qū)"走捷徑。

還有一個(gè)工程細(xì)節(jié)同樣重要：對(duì)抗訓(xùn)練歷來有個(gè)"梯度消失"的問題，就是當(dāng)真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的分布差得太遠(yuǎn)、沒有重疊時(shí)，鑒別器能輕松分辨二者，于是給生成模型的梯度信號(hào)就近乎為零，學(xué)習(xí)陷入停滯。JVP的線性化特性在數(shù)學(xué)上保證了這個(gè)問題不會(huì)發(fā)生——只要生成的速度和真實(shí)速度不同，鑒別器的雅可比矩陣就會(huì)給出非零梯度，學(xué)習(xí)信號(hào)始終存在。因此，CAFM無需像AFM那樣依賴梯度懲罰和鑒別器重置等繁瑣的補(bǔ)丁措施。

**四、工程落地：如何讓這套方法真正跑起來**

從數(shù)學(xué)原理到能在GPU集群上運(yùn)行，還需要一系列工程決策。

JVP的計(jì)算在現(xiàn)代深度學(xué)習(xí)框架里并不復(fù)雜——PyTorch的`torch.func.jvp`函數(shù)支持前向模式自動(dòng)微分，可以在一次前向傳播中同時(shí)算出鑒別器的輸出值和JVP值，非常高效。更妙的是，訓(xùn)練鑒別器時(shí)需要同時(shí)用真實(shí)速度和生成速度各算一次JVP，利用向量化映射（`vmap`）可以把這兩次計(jì)算批量并行處理，無需跑兩遍網(wǎng)絡(luò)。

在網(wǎng)絡(luò)架構(gòu)上，生成模型G和原來的流匹配模型完全一樣，沒有任何改動(dòng)，直接復(fù)用現(xiàn)有架構(gòu)。鑒別器D則采用和G相同的變換器（Transformer）架構(gòu)，但有一個(gè)關(guān)鍵修改：把所有的層歸一化（LayerNorm）替換成均方根歸一化（RMSNorm）。這個(gè)看似微小的改動(dòng)極大提升了訓(xùn)練穩(wěn)定性。實(shí)驗(yàn)發(fā)現(xiàn)，LayerNorm在JVP計(jì)算過程中會(huì)產(chǎn)生巨大的梯度尖峰，而RMSNorm則完全沒有這個(gè)問題。這與其他涉及JVP計(jì)算的工作中的發(fā)現(xiàn)一致。

在訓(xùn)練策略上，團(tuán)隊(duì)采用了"N步鑒別器更新，1步生成器更新"的節(jié)奏，即每更新一次生成模型，就把鑒別器單獨(dú)訓(xùn)練N步，讓鑒別器始終保持在一個(gè)接近最優(yōu)的狀態(tài)。實(shí)驗(yàn)表明N=16是個(gè)合適的選擇——太少（N=8）會(huì)導(dǎo)致鑒別器跟不上生成模型而訓(xùn)練發(fā)散，太多（N=32）則會(huì)使生成模型學(xué)得太慢。

大規(guī)模分布式訓(xùn)練方面，JVP和vmap能夠與PyTorch的多機(jī)并行訓(xùn)練框架（DDP、FSDP）以及梯度檢查點(diǎn)（用于節(jié)省顯存）完美配合，唯一需要注意的是包裝順序：應(yīng)該是`ddp(jvp(D))`而非`jvp(ddp(D))`，前者讓JVP只包裹網(wǎng)絡(luò)本身，后者則會(huì)把JVP套在包含梯度同步邏輯的分布式包裝器上，造成不兼容。

**五、主要用途是"后訓(xùn)練"而非從頭訓(xùn)練**

CAFM有一個(gè)非常實(shí)際的定位：它主要被設(shè)計(jì)為對(duì)現(xiàn)有流匹配模型的"后訓(xùn)練"工具，而非替代從頭訓(xùn)練。

道理很簡單：CAFM和標(biāo)準(zhǔn)流匹配在理論上收斂到同一個(gè)"真實(shí)速度場"，兩者的本質(zhì)區(qū)別只在于有限容量的模型如何"泛化"——也就是在見過的訓(xùn)練樣本之外，如何應(yīng)對(duì)新的情況。既然目標(biāo)相同，就沒必要從零開始，完全可以先用標(biāo)準(zhǔn)流匹配把模型訓(xùn)練到一個(gè)不錯(cuò)的狀態(tài)，再切換到CAFM目標(biāo)進(jìn)行微調(diào)，讓模型的泛化方向從"歐氏距離最近"調(diào)整為"感知距離最近"。

從頭用CAFM訓(xùn)練也是可以的，團(tuán)隊(duì)也做了這個(gè)實(shí)驗(yàn)。但結(jié)果符合預(yù)期：在相同的訓(xùn)練輪次下，CAFM從頭訓(xùn)練的收斂速度比標(biāo)準(zhǔn)流匹配慢——畢竟額外引入了鑒別器和JVP計(jì)算，計(jì)算開銷約是標(biāo)準(zhǔn)流匹配的4.8倍。而且從頭訓(xùn)練時(shí)需要精心調(diào)節(jié)最優(yōu)傳輸正則化的權(quán)重λ和鑒別器更新步數(shù)N，隨著訓(xùn)練進(jìn)行，λ應(yīng)逐漸減小，N應(yīng)逐漸增大，才能獲得最佳效果。相比之下，后訓(xùn)練只需10個(gè)訓(xùn)練輪次，設(shè)置λ=0（完全關(guān)閉最優(yōu)傳輸正則化），就能獲得顯著的性能提升，簡單得多。

**六、ImageNet實(shí)驗(yàn)：數(shù)字說明一切**

團(tuán)隊(duì)在最經(jīng)典的圖像生成基準(zhǔn)——ImageNet 256像素分類條件生成任務(wù)上驗(yàn)證了CAFM的效果，測試對(duì)象是兩個(gè)有代表性的流匹配模型。

第一個(gè)是SiT-XL/2，一個(gè)在SD-VAE潛在空間（也就是把圖片壓縮成更小的表示再處理）中運(yùn)行的模型。它有6.75億參數(shù)，已經(jīng)過1400個(gè)訓(xùn)練輪次的標(biāo)準(zhǔn)流匹配預(yù)訓(xùn)練。用CAFM對(duì)它進(jìn)行10個(gè)輪次的后訓(xùn)練后，在不使用任何引導(dǎo)的情況下，衡量生成質(zhì)量的FID分?jǐn)?shù)（越低越好，越接近真實(shí)圖片分布越好）從8.26驟降至3.63——這是一個(gè)質(zhì)的飛躍，相當(dāng)于僅用極小的額外訓(xùn)練代價(jià)就幾乎將"出戲感"減半。同期做的對(duì)照實(shí)驗(yàn)表明，用標(biāo)準(zhǔn)流匹配再繼續(xù)訓(xùn)練10個(gè)輪次反而讓FID從8.26微升到8.64，說明這個(gè)提升完全來自CAFM目標(biāo)本身，而非額外的訓(xùn)練數(shù)據(jù)或輪次。

在有引導(dǎo)的情況下，CAFM同樣表現(xiàn)出色。掃描一系列引導(dǎo)強(qiáng)度（CFG）發(fā)現(xiàn)，CAFM在CFG=1.3時(shí)就能達(dá)到最優(yōu)FID=1.53，而原始SiT需要CFG=1.5才能達(dá)到2.06。這意味著CAFM不僅在無引導(dǎo)時(shí)更接近真實(shí)分布，還讓引導(dǎo)變得更高效——需要的引導(dǎo)強(qiáng)度更小，得到的質(zhì)量卻更好。

第二個(gè)測試對(duì)象是JiT-H/16，一個(gè)直接在像素空間（不經(jīng)過潛在空間壓縮）運(yùn)行的模型，有9.56億參數(shù)，已經(jīng)過600個(gè)訓(xùn)練輪次的預(yù)訓(xùn)練。CAFM后訓(xùn)練同樣10個(gè)輪次，無引導(dǎo)FID從7.17降至3.57，最佳引導(dǎo)FID從1.86降至1.80。

與同期其他方法的橫向?qū)Ρ雀苷f明問題。在SD-VAE潛在空間模型中，同樣使用DiT架構(gòu)和類似訓(xùn)練設(shè)置的各方法中，CAFM的無引導(dǎo)FID（3.63）超過了DiT-XL/2的9.62、SiT的8.26、加入特殊正則化的SiT+Disperse的7.43，以及引入了表示對(duì)齊技術(shù)的SiT+REPA的5.90（后者借助了DINOv2這個(gè)強(qiáng)大的預(yù)訓(xùn)練視覺模型）。在有引導(dǎo)的情況下，CAFM的1.53也優(yōu)于SiT+Disperse的1.97和原始SiT的2.06，只遜于同樣借助DINOv2的SiT+REPA（1.42）和DDT-XL（1.26）。

**七、文生圖實(shí)驗(yàn)：從工廠級(jí)到產(chǎn)品級(jí)**

ImageNet實(shí)驗(yàn)驗(yàn)證了方法的可行性，而真正的"戰(zhàn)場"在于實(shí)際產(chǎn)品中廣泛使用的文生圖模型。團(tuán)隊(duì)選擇在Z-Image上進(jìn)行后訓(xùn)練實(shí)驗(yàn)——這是字節(jié)跳動(dòng)開源的、擁有60億參數(shù)的單流擴(kuò)散變換器，是一個(gè)真正產(chǎn)品級(jí)規(guī)模的模型。

實(shí)驗(yàn)設(shè)計(jì)同樣注重公平性。由于Z-Image的原始訓(xùn)練數(shù)據(jù)不可獲取，團(tuán)隊(duì)用了自己整理的開源自然圖像數(shù)據(jù)集。為了排除數(shù)據(jù)集差異對(duì)結(jié)果的干擾，他們先用標(biāo)準(zhǔn)流匹配在這批數(shù)據(jù)上微調(diào)Z-Image訓(xùn)練1萬次迭代，再分兩路：一路繼續(xù)用流匹配訓(xùn)練，另一路切換到CAFM訓(xùn)練，兩路都跑到同樣的總迭代次數(shù)，然后對(duì)比。

在鑒別器架構(gòu)上，這次沒有在輸入端加入分類標(biāo)記，而是在最后一層的視覺特征上加了一個(gè)交叉注意力層來輸出鑒別分?jǐn)?shù)，這樣主干網(wǎng)絡(luò)可以完全保持不變，改動(dòng)最小。

GenEval基準(zhǔn)（測試文生圖對(duì)各種細(xì)粒度視覺語義的理解，如兩個(gè)物體、顏色屬性、空間位置、計(jì)數(shù)等）和DPG基準(zhǔn)（測試圖像與復(fù)雜文本描述的一致性）的結(jié)果顯示，CAFM后訓(xùn)練顯著提升了無引導(dǎo)生成的質(zhì)量。在有提示詞擴(kuò)展且有引導(dǎo)的完整配置下，CAFM的GenEval總分從0.81提升至0.85，DPG總分從83.7提升至85.2。在兩個(gè)物體、顏色屬性、位置理解等細(xì)粒度指標(biāo)上，提升尤為明顯，反映出CAFM確實(shí)讓模型對(duì)復(fù)雜語義場景的理解更準(zhǔn)確、生成更到位。

**八、方法的局限與邊界**

研究團(tuán)隊(duì)也坦誠地指出了方法的局限。CAFM在經(jīng)驗(yàn)上確實(shí)能讓模型的泛化更接近真實(shí)數(shù)據(jù)分布，但無法從理論上保證它能完美覆蓋低密度區(qū)域，也就是那些在訓(xùn)練數(shù)據(jù)中很罕見的特殊情況。文生圖實(shí)驗(yàn)的失敗案例也印證了這一點(diǎn)：對(duì)于"四支筆圍成一個(gè)矩形，中間五支鉛筆排成圓圈"這樣極度精細(xì)的空間計(jì)數(shù)描述，無引導(dǎo)的CAFM生成結(jié)果依然會(huì)出錯(cuò)，需要加上引導(dǎo)才能勉強(qiáng)處理。

這說明CAFM改善了模型的泛化方向，但沒有神奇地解決所有問題。引導(dǎo)作為一種"低溫采樣"技術(shù)，可以和CAFM疊加使用，正交互補(bǔ)。實(shí)驗(yàn)數(shù)據(jù)也確認(rèn)，在有引導(dǎo)的情況下，CAFM的底層模型質(zhì)量提升會(huì)同樣傳遞到引導(dǎo)生成的結(jié)果上。

歸根結(jié)底，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)這項(xiàng)工作解決的是流匹配模型一個(gè)根本性的訓(xùn)練目標(biāo)問題：與其用直尺量感知距離，不如訓(xùn)練一個(gè)懂感知的裁判來打分。通過將對(duì)抗訓(xùn)練優(yōu)雅地?cái)U(kuò)展到連續(xù)時(shí)間框架，并用JVP將鑒別器錨定在流速度場的導(dǎo)數(shù)空間中，他們?cè)诓桓淖兡Ｐ图軜?gòu)、不增加推理成本的前提下，讓AI生成的圖片更自然地融入了真實(shí)圖像的世界。

Q&A

Q1：CAFM和普通流匹配模型有什么本質(zhì)區(qū)別？

A：兩者都在學(xué)習(xí)同一條從噪聲到圖片的路徑，理論上收斂到同一個(gè)速度場。本質(zhì)區(qū)別在于訓(xùn)練目標(biāo)不同：普通流匹配用歐氏距離衡量速度預(yù)測的好壞，這種距離不符合圖像感知規(guī)律；CAFM引入了一個(gè)和生成模型一起訓(xùn)練的鑒別器，用感知質(zhì)量來評(píng)判速度預(yù)測的好壞。這種差異不影響模型結(jié)構(gòu)，只影響"泛化方向"，所以CAFM可以直接對(duì)已有的流匹配模型做后訓(xùn)練，不用從頭來過。

Q2：CAFM使用的JVP技術(shù)是什么，為什么要這么設(shè)計(jì)？

A：JVP（雅可比-向量積）本質(zhì)上是計(jì)算一個(gè)函數(shù)在某個(gè)方向上的變化率。CAFM的鑒別器是一個(gè)把圖片位置映射到標(biāo)量勢能的函數(shù)，JVP則計(jì)算這個(gè)勢能沿某個(gè)速度方向的變化率。這樣鑒別器就能直接對(duì)速度向量好壞進(jìn)行打分，而不需要看圖片本身。這個(gè)設(shè)計(jì)的好處在于：數(shù)學(xué)上自洽、訓(xùn)練中不會(huì)出現(xiàn)梯度消失、還能保證鑒別器對(duì)整條生成路徑的判斷前后一致。

Q3：CAFM后訓(xùn)練大概需要多少計(jì)算資源？

A：以ImageNet上SiT-XL/2模型的實(shí)驗(yàn)為例，后訓(xùn)練只需要10個(gè)訓(xùn)練輪次，批次大小256，學(xué)習(xí)率1e-5，整體設(shè)置非常輕量。但由于引入了鑒別器網(wǎng)絡(luò)以及JVP的前向和反向計(jì)算，每個(gè)輪次的墻鐘時(shí)間約是標(biāo)準(zhǔn)流匹配的4.8倍。綜合來看，相對(duì)于從頭訓(xùn)練一個(gè)大模型，這點(diǎn)額外開銷對(duì)于后訓(xùn)練場景是完全可以接受的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

36年卷積猜想被解決，華人唯一作者，AI或受益

機(jī)器之心Pro 2025-11-26 14:30:39
1 跟貼 1
OpenAI強(qiáng)硬回?fù)粼鲩L質(zhì)疑：一切業(yè)務(wù)“運(yùn)轉(zhuǎn)如飛”

財(cái)聯(lián)社 2026-04-29 02:06:06
0 跟貼 0

AGI很蠢？AI教父Hinton預(yù)警：4.8萬億美元市場已鎖死，AI正撕裂全球！

新智元 2026-04-28 19:31:11
1 跟貼 1

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
華為泰勒實(shí)驗(yàn)室提出SHAPE，給LLM推理裝了個(gè)「推理稅」

機(jī)器之心Pro 2026-04-28 16:10:00
0 跟貼 0

向量量化如何影響存儲(chǔ)？與RaBitQ兩位作者，從與谷歌TurboQuant學(xué)術(shù)爭議聊起

鈦媒體APP 2026-04-28 16:03:13
0 跟貼 0

辦公室不夠用了？字節(jié)跳動(dòng)2個(gè)月狂砸61億拿地，布局AI產(chǎn)業(yè)發(fā)展

閩商報(bào) 2026-04-26 11:01:38
0 跟貼 0
蘋果Numbers憑什么挑戰(zhàn)Excel？

時(shí)光慢郵啊 2026-04-29 00:58:08
0 跟貼 0

女生芝宮容積確定了，超過這個(gè)數(shù)值很危險(xiǎn)，雙方這個(gè)度要把握好

阿米奇葩哥 2026-04-24 09:35:46
0 跟貼 0
原生理解生成統(tǒng)一:商湯SenseNova U1,用統(tǒng)一架構(gòu)終結(jié)縫合怪多模態(tài)

機(jī)器之心Pro 2026-04-28 21:41:55
0 跟貼 0
上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對(duì)方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
給婆婆碗筷做標(biāo)記，婆婆不滿兒媳拿出監(jiān)控，他兒子有媳婦算燒高香

八嘎說生活 2026-04-27 09:55:10
0 跟貼 0
比亞迪閃充還是太權(quán)威，老外扎堆學(xué)中國造，硬核技術(shù)矩陣驚艷全場

鵬行天Car 2026-04-28 16:55:11
1 跟貼 1
《強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》

新浪財(cái)經(jīng) 2026-04-27 17:57:43
0 跟貼 0
誰來定義AI手機(jī)：蘋果華為，還是OpenAI或字節(jié)？

鈦媒體APP 2026-04-28 12:41:11
0 跟貼 0
網(wǎng)傳深圳東部華僑城結(jié)業(yè)、閉園？最新回應(yīng)：不實(shí)

魯中晨報(bào) 2026-04-28 17:08:10
294 跟貼 294
莆田地標(biāo)太像抖音logo，網(wǎng)友：字節(jié)跳動(dòng)，快來掛牌！

GA環(huán)球建筑 2026-04-26 16:23:07
3 跟貼 3
羅納爾多的接球邏輯，獨(dú)屬于外星人的無解調(diào)整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
159 跟貼 159
南都報(bào)道后，區(qū)長現(xiàn)場督辦！廣州天河這條路“驚心”變順心

南方都市報(bào) 2026-04-28 15:12:23
192 跟貼 192
0.9秒破百! 追覓“火箭超跑”亮相售價(jià)或超千萬

TechWeb 2026-04-28 16:59:04
0 跟貼 0
又一省份推動(dòng)帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
102 跟貼 102
HappyHorse初體驗(yàn)，阿里能掀翻字節(jié)Seedance的桌子么？

鈦媒體APP 2026-04-28 13:46:42
28 跟貼 28
上汽榮威×字節(jié)火山：三步定調(diào)

曉見知微 2026-04-27 21:24:43
4 跟貼 4
利弗莫爾中概股龍頭指數(shù)收跌1.4% 熱門中概股多數(shù)下跌

財(cái)聯(lián)社 2026-04-29 04:14:07
0 跟貼 0
4秒58！上海小將趙一程創(chuàng)造新的世界紀(jì)錄！

澎湃新聞 2026-04-28 15:13:06
974 跟貼 974
31省份去年常住人口數(shù)據(jù)公布

第一財(cái)經(jīng)資訊 2026-04-28 18:58:16
693 跟貼 693
LangFlow: 挑戰(zhàn)離散擴(kuò)散，探索下一代語言模型新范式

機(jī)器之心Pro 2026-04-28 22:22:24
0 跟貼 0
邏輯鬼才劉能裝傻充愣第一名

秦嶺扒娛 2026-04-27 18:20:16
1 跟貼 1
比亞迪：旗下部分車型選裝天神之眼B輔助駕駛激光版的價(jià)格將從9900元上調(diào)為12000元

界面新聞 2026-04-28 15:38:04
790 跟貼 790
微信緊急公告：立即掛斷，不要回答！

第一財(cái)經(jīng)資訊 2026-04-28 10:33:04
516 跟貼 516
撒貝寧獲全國五一勞動(dòng)獎(jiǎng)?wù)?/a>

閃電新聞 2026-04-28 16:25:55
200 跟貼 200
文旅部集中整治景區(qū)擺渡車，點(diǎn)名龍虎山、長白山、稻城亞丁等

南方都市報(bào) 2026-04-27 16:21:12
2131 跟貼 2131
爆冷！廣東隊(duì)季后賽首秀主場不敵廣州龍獅，下輪將迎背水一戰(zhàn)

南方都市報(bào) 2026-04-28 22:37:07
19 跟貼 19
金屬件中空外壁的內(nèi)部結(jié)構(gòu) ，金屬模型加工，中空外壁內(nèi)層設(shè)計(jì)

小明不講理 2026-04-26 10:27:03
1 跟貼 1
深圳“電雞”治理別只靠勸！專家：人海戰(zhàn)術(shù)撐不起長效秩序

南方都市報(bào) 2026-04-28 07:00:37
471 跟貼 471
數(shù)據(jù)工程師面試考算法？Databricks偏要這么玩

像素與芯片 2026-04-28 20:16:30
0 跟貼 0
智能一切移動(dòng) 卓馭科技發(fā)布首個(gè)原生多模態(tài)基礎(chǔ)模型

智谷趨勢 2026-04-28 19:53:24
0 跟貼 0
比亞迪北京車展硬核技術(shù)矩陣驚艷全場

機(jī)氪 2026-04-28 21:16:02
14 跟貼 14
異地戀女友日常報(bào)備：ai訓(xùn)練模型+空腹普拉提1.5h

YYz 2026-04-24 19:19:18
0 跟貼 0

50歲男子肌肉溶解離世，醫(yī)生痛心提醒：長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世，醫(yī)生痛心提醒：長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康

2026-04-28 11:15:14

隨著特魯姆普爆冷12-13，吳宜澤13-11，斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13，吳宜澤13-11，斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬

2026-04-28 05:28:25

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈

2026-04-27 21:39:53

警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明

2026-04-28 07:23:38

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議：由于職業(yè)原因，像這樣的旅行是第一次，看到了不足，有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議：由于職業(yè)原因，像這樣的旅行是第一次，看到了不足，有一個(gè)好老婆很重要

魯中晨報(bào)

2026-04-28 09:53:07

伊朗最高法院維持死刑判決父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決父親被判死刑女兒獲刑25年

桂系007

2026-04-27 23:59:53

名記：杜蘭特或已打完火箭生涯最后一場球，下家是紐約和熱火

名記：杜蘭特或已打完火箭生涯最后一場球，下家是紐約和熱火

懂球帝

2026-04-28 09:32:05

戚薇這腳趾看著好辛苦，隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦，隔著屏幕都替她累得慌

東方不敗然多多

2026-04-23 10:37:33

互聯(lián)網(wǎng)是有記憶的，她的黑歷史一大堆?。?>
</a>
<h3>
<a href=

互聯(lián)網(wǎng)是有記憶的，她的黑歷史一大堆??！ BenSir本色說

2026-04-15 22:38:07

放棄克洛普！皇馬換帥突生變數(shù)，伯納烏或?qū)⒂瓉怼白约胰?>
</a>
<h3>
<a href=

奶蓋熊本熊

2026-04-29 00:05:53

600678，將被“ST”！

中國基金報(bào)

2026-04-28 23:15:48

美股三大指數(shù)集體收跌，道指跌0.06%，納指跌0.9%，標(biāo)普500指數(shù)跌0.49%，熱門科技股多數(shù)下跌，博通跌超4%，英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌，道指跌0.06%，納指跌0.9%，標(biāo)普500指數(shù)跌0.49%，熱門科技股多數(shù)下跌，博通跌超4%，英偉達(dá)跌超1%。

財(cái)聯(lián)社

2026-04-29 04:08:08

新娘確實(shí)漂亮，但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮，但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪

2026-04-12 12:44:36

三連鞭后五連鞭，趙心童3：5墨菲暫時(shí)落后

三連鞭后五連鞭，趙心童3：5墨菲暫時(shí)落后

佳佳說奇事故事

2026-04-29 03:43:45

林志玲自曝和公婆住一起：換了一個(gè)比較大的房子，老公每天傍晚準(zhǔn)時(shí)回家，陪兒子一起吃飯

林志玲自曝和公婆住一起：換了一個(gè)比較大的房子，老公每天傍晚準(zhǔn)時(shí)回家，陪兒子一起吃飯

臺(tái)州交通廣播

2026-04-28 13:46:36

鋰電池板塊業(yè)績炸裂，多家公司凈利漲超1000%，最高漲超2297%

鋰電池板塊業(yè)績炸裂，多家公司凈利漲超1000%，最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道

2026-04-28 22:55:26

動(dòng)真格了，國安部出手，揪出鼓吹躺平的境外勢力，評(píng)論區(qū)意味深長

動(dòng)真格了，國安部出手，揪出鼓吹躺平的境外勢力，評(píng)論區(qū)意味深長

譚談社會(huì)

2026-04-28 15:10:51

7天第3艘，美軍開始在印度洋獵殺伊朗油輪，目的地是中國舟山

7天第3艘，美軍開始在印度洋獵殺伊朗油輪，目的地是中國舟山

矚望云霄

2026-04-28 13:04:41

廣東男籃主場17分負(fù)廣州，杜鋒難受，正義必勝！

廣東男籃主場17分負(fù)廣州，杜鋒難受，正義必勝！

二爺臺(tái)球解說

2026-04-29 03:36:39

跑馬人最慘遭遇：酒店不隔音，隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇：酒店不隔音，隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身

2026-04-26 21:41:40

科技正在如何變革商業(yè)世界

8183文章數(shù) 563關(guān)注度

往期回顧全部

科技要聞

10億周活目標(biāo)落空！傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

網(wǎng)紅白冰公司賬上有大量奢侈品發(fā)票突擊執(zhí)法畫面流出

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

網(wǎng)紅白冰公司賬上有大量奢侈品發(fā)票突擊執(zhí)法畫面流出

體育要聞

魔術(shù)黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結(jié)婚，老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào)，八大看點(diǎn)速覽！

汽車要聞

拒絕瘋狂套娃！現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

房產(chǎn)

時(shí)尚

公開課

家居要聞

江景風(fēng)格流動(dòng)的秩序

自然肌理溫潤美學(xué)
浪漫協(xié)奏法式風(fēng)格
極簡繪夢(mèng) 克制和諧

本地新聞

用青花瓷的方式，打開西溪濕地

房產(chǎn)要聞

紅利爆發(fā)！海南，沖到全國人口增量第4??！

普通女性春天穿什么好看？這些穿搭值得借鑒，自然舒適

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
七個(gè)無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版