国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICCV 2025最佳學生論文 | FlowEdit:告別反演,一種更直接的圖像編輯范式,結構保持力SOTA!

0
分享至

文章來源:我愛計算機視覺(ID:aicvml)


剛剛ICCV 2025 大會公布了最佳論文和最佳學生論文,最佳論文由卡內基梅隆大學研究團隊摘得,最佳學生論文由以色列理工學院獲得,從11000多篇投稿論文中被選中,這些論文有哪些值得關注的點,我們一起來看看。(本文關注的是最佳學生論文,最佳論文解讀請參見今天的另一篇文章)

簡單來說,我們想讓AI根據(jù)一句話(比如“把貓變成狗”)來修改圖片,同時又盡可能保留原圖的結構和風格,這其實并不容易。傳統(tǒng)的“先反演再編輯”方法,就像是把一張畫拆解成一堆雜亂的顏料點(噪聲),然后再用這些顏料點根據(jù)新的指令去畫一幅新畫。這個過程很容易“手抖”,導致最終畫面要么不像話,要么丟失了原作的精髓。

而這篇論文提出的 FlowEdit ,則完全跳過了“拆解成顏料點”這一步。它更像一位高明的畫家,直接在原畫上進行修改,構建了一條從“原始圖像”到“目標圖像”的直接、平滑的路徑。這樣做的好處是顯而易見的:編輯過程更穩(wěn)定,對原圖結構的破壞更小,效果達到了新的SOTA水平。



  • 論文標題 :FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

  • 作者 :Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

  • 機構 :以色列理工學院 (Technion – Israel Institute of Technology)

  • 會議 :ICCV 2025 Oral

  • 論文終稿地址 : https://openaccess.thecvf.com/content/ICCV2025/papers/Kulikov_FlowEdit_Inversion-Free_Text-Based_Editing_Using_Pre-Trained_Flow_Models_ICCV_2025_paper.pdf

  • 項目主頁 :https://matankleiner.github.io/flowedit/

  • 代碼倉庫 :https://github.com/fallenshock/FlowEdit

ps.下載該論文并所有ICCV 2025 論文,請在“我愛計算機視覺”公眾號后臺回復“頂會論文”(小寫)。

為何需要“告別反演”?

在深入了解 FlowEdit 之前,我們先快速回顧一下當前主流的AI圖像編輯范式。很多方法,比如大家熟知的 SDEdit、Prompt-to-Prompt 等,都依賴于一個叫做“反演”(Inversion)的過程。

這個過程有點像一個“先拆解再重建”的流程:

  1. 反演(拆解) :首先,將原始圖片(比如一張老虎的照片)通過一個前向的常微分方程(ODE)過程,一步步“拆解”成一個純粹的噪聲圖。這個噪聲圖可以看作是生成這張圖片的“種子”。

  2. 編輯與生成(重建) :然后,用這個“種子”噪聲圖,結合新的文本指令(比如“把老虎換成貓”),通過一個反向的ODE過程,再一步步“重建”出一張新的圖片。


上圖生動地展示了“反演編輯”與FlowEdit的路徑差異。左側(a)就是傳統(tǒng)的反演路徑,需要先走到噪聲空間(N(0,1)),再返回。而右側(c)的FlowEdit則選擇了一條更直接的路徑。

這個“繞遠路”去噪聲空間溜達一圈的范式,雖然可行,但存在明顯缺陷:

  • 信息損失 :在“拆解”和“重建”的過程中,很容易丟失原始圖像的精細結構和布局信息。

  • 錯誤累積 :反演過程本身可能不完全精確,導致最終生成的圖像與原圖結構偏差較大,出現(xiàn)不自然的“P圖”痕跡。

深入技術:從ODE反演到FlowEdit

為了真正理解FlowEdit的巧妙之處,我們需要深入其數(shù)學原理。

技術背景:基于ODE反演的編輯范式

當前許多方法都基于流模型(Flow Models),特別是矯正流(Rectified Flow)。這類模型學習一個含時的速度場(velocity field)V(Z_t, t, C),它可以將一個分布的樣本(如高斯噪聲)通過求解一個常微分方程(Ordinary Differential Equation, ODE)“輸送”到另一個分布(如真實圖像)。這里的 Z_tt 時刻的圖像狀態(tài),C 是文本條件。

基于此,“反演編輯” 的具體技術步驟如下(對應上圖a):

  1. 前向過程(反演) :給定源圖像 X_src 和源提示 C_src 。我們從 Z_0 = X_src 開始,求解前向ODE: dZ_t = V(Z_t, t, C_src) dt ,直到 t=1 時刻,得到一個理論上與 X_src 對應的噪聲向量 Z_1 。這就是所謂的“反演到噪聲”。

  2. 后向過程(生成) :拿到這個噪聲 Z_1 后,我們換上新的目標提示 C_tar 。從 Z_1 開始,反向求解ODE: dZ_t = V(Z_t, t, C_tar) dt ,從 t=1 回到 t=0 ,最終得到編輯后的圖像 X_tar 。

這個過程雖然理論上可行,但其致命弱點在于,它將源圖像和目標圖像的關聯(lián)完全寄托于那個唯一的、在反演時計算出的噪聲向量 Z_1 上。任何計算上的不精確都會導致結構信息的丟失。

FlowEdit的核心思想:從“單一路徑”到“多路徑平均”

FlowEdit的作者首先提出了一個深刻的洞見:上述兩步走的“反演編輯”過程,其實等價于一個從 X_srcX_tar直接ODE路徑(對應上圖b)。這條直接路徑的速度場,恰好是目標速度場與源速度場的差值 V_tar - V_src

然而,這條由反演決定的“唯一”直接路徑,依然不是最優(yōu)的。因為它經過了噪聲空間的“瓶頸”,會導致不合理的匹配(如下圖所示,源分布中的藍點可能被錯誤地匹配到目標分布中較遠的紅點,而不是更近的藍點),從而增加了“傳輸成本”,損害了圖像結構。


FlowEdit的解決方案(對應上圖 Figure 2中的 c)正是為了打破這種僵硬的“唯一路徑”。它的核心思想是:不再依賴于某一次具體的反演,而是通過對大量可能的“編輯方向”進行平均,來動態(tài)地、啟發(fā)式地尋找一條更好的路徑。

具體步驟如下: 在求解編輯路徑的每一步 t,對于當前的中間結果 Z_FE_t

  1. 它并不進行完整的反演,而是構造一個“假設的”帶噪源圖像 ?_src_t 。這是通過給原始圖像 X_src 混合一個 隨機高斯噪聲 N_t 得到的。

  2. 基于這個帶噪源圖像 ?_src_t 和當前編輯狀態(tài) Z_FE_t ,可以推算出一個“假設的”帶噪目標圖像 ?_tar_t

  3. 然后,模型分別計算出指向這兩個“假設”圖像的速度場 V_src(?_src_t)V_tar(?_tar_t) 。

  4. 計算出當前這個隨機噪聲下的“編輯速度”: V_delta = V_tar - V_src

  5. 最關鍵的一步 :重復上述1-4步多次(每次都用 新的隨機噪聲 N_t ),然后將得到的多個 V_delta 取平均值 。

  6. 使用這個平均后的、更魯棒的“編輯速度”,來更新當前圖像 Z_FE_t ,完成ODE的一步積分。

CV君認為,這個“隨機采樣與平均”的策略是FlowEdit的精髓所在。它不再把寶押在一次反演上,而是通過“集思廣益”,綜合了大量可能路徑的“意見”,從而找到了一條整體上“傳輸成本”更低、更能保持原始結構的演化路徑。這是一種非常聰明的啟發(fā)式搜索,它讓編輯過程變得更加靈活和穩(wěn)定。

實驗效果:眼見為實

理論說再多,不如直接看效果。FlowEdit 在各種復雜的編輯任務上,都展現(xiàn)出了SOTA級別的性能。


無論是物體替換(自行車變Vespa、兔子變小狗)、概念更換(皇冠變禮帽、椰子變棒球),還是更細微的屬性修改,F(xiàn)lowEdit都能精準地執(zhí)行指令,同時幾乎完美地保留了背景、光照、姿態(tài)等原始圖像信息。


比如這個將蛋糕上的“水果”換成“草莓”的例子,F(xiàn)lowEdit不僅準確地添加了草莓,還保持了蛋糕原有的奶油質感和盤子背景。

定量對比:用數(shù)據(jù)說話

除了肉眼可見的出色效果,F(xiàn)lowEdit在量化指標上也全面超越了基于反演的方法。


在一個“千貓變千狗”的合成數(shù)據(jù)集實驗中,研究者對比了FlowEdit和反演編輯的“傳輸成本”(即編輯前后圖像的差異)。結果顯示,F(xiàn)lowEdit的傳輸成本(MSE 1376 vs 2239, LPIPS 0.15 vs 0.25)遠低于反演方法,同時在生成圖像的真實性指標(FID/KID)上也表現(xiàn)更優(yōu)。這有力地證明了其在結構保持上的巨大優(yōu)勢。


上圖展示了不同方法在“文本-圖像一致性”(CLIP,越高越好)和“結構保持性”(LPIPS,越低越好)上的權衡。FlowEdit(Ours)在兩個維度上都取得了最佳的平衡點。


在風格編輯方面,F(xiàn)lowEdit同樣游刃有余,可以在動漫、繪畫等風格間自由切換,同時保留主體內容。

總結

總的來說,F(xiàn)lowEdit的提出,為基于流模型的文本圖像編輯領域帶來了一股清新的空氣。它不僅在效果和性能上達到了新的SOTA,更重要的是,它提供了一種更優(yōu)雅、更符合直覺的“直接編輯”新范式。CV君認為,這種“告別反演”的思路,很可能會啟發(fā)未來更多的研究,并有望被集成到主流的文生圖模型(如Stable Diffusion、FLUX)中,讓AI“P圖”變得更加得心應手。

大家對這種“直接編輯”的思路怎么看?歡迎在評論區(qū)留下你的看法!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普提高攻擊調門,安理會舉行緊急會議,馬杜羅公開信反擊美國施壓

特朗普提高攻擊調門,安理會舉行緊急會議,馬杜羅公開信反擊美國施壓

環(huán)球網(wǎng)資訊
2025-12-24 06:59:26
南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

名人茍或
2025-12-24 06:02:23
明年1月1日起,向好友發(fā)淫穢信息,無論是公開微信群還是私人私聊均違法

明年1月1日起,向好友發(fā)淫穢信息,無論是公開微信群還是私人私聊均違法

觀威海
2025-12-23 09:18:13
20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

社會日日鮮
2025-12-24 05:45:22
官方回應“哪位少爺吸了”、治安違法記錄封存等問題

官方回應“哪位少爺吸了”、治安違法記錄封存等問題

揚子晚報
2025-12-24 11:11:41
雷軍急推YU9被質疑,網(wǎng)友:中年人怎敢把全家托付給小米!

雷軍急推YU9被質疑,網(wǎng)友:中年人怎敢把全家托付給小米!

熱點菌本君
2025-12-23 19:06:18
山東警方:公開懸賞追捕2名臺灣籍犯罪嫌疑人

山東警方:公開懸賞追捕2名臺灣籍犯罪嫌疑人

新京報政事兒
2025-12-24 10:16:09
泰軍端掉電詐呼叫中心,繳獲千萬現(xiàn)金黃金,網(wǎng)友沸騰

泰軍端掉電詐呼叫中心,繳獲千萬現(xiàn)金黃金,網(wǎng)友沸騰

胡嚴亂語
2025-12-23 15:47:01
唇語專家揭秘勇士將帥爭吵!追夢情緒失控怒噴科爾:法克魷

唇語專家揭秘勇士將帥爭吵!追夢情緒失控怒噴科爾:法克魷

羅說NBA
2025-12-24 10:08:26
確認了,今天起全面影響廣東!下班早點回家!

確認了,今天起全面影響廣東!下班早點回家!

深圳晚報
2025-12-24 10:41:49
“捐精災難”,近200名新生兒極大概率患癌

“捐精災難”,近200名新生兒極大概率患癌

中國新聞周刊
2025-12-24 07:29:09
網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測溫”,公司回應:為服務記錄儀

網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測溫”,公司回應:為服務記錄儀

界面新聞
2025-12-24 08:49:04
為了錢,強制家長捐款1000元,常德芷蘭實驗學校連臉都不要了

為了錢,強制家長捐款1000元,常德芷蘭實驗學校連臉都不要了

筆桿論道
2025-12-24 08:44:21
被舉報后,徐湖平之子徐湘江商業(yè)版圖曝光,果然不簡單

被舉報后,徐湖平之子徐湘江商業(yè)版圖曝光,果然不簡單

數(shù)字財經智庫
2025-12-23 12:40:11
新加坡總統(tǒng):中國不要自給自足,海南封關將會砸了新加坡的鐵飯碗

新加坡總統(tǒng):中國不要自給自足,海南封關將會砸了新加坡的鐵飯碗

歲暮的歸南山
2025-12-24 04:33:29
遼寧給農民評職稱:擬設初、中、副高、正高四個級別

遼寧給農民評職稱:擬設初、中、副高、正高四個級別

新京報政事兒
2025-12-23 22:40:00
南博事件升級!高層震怒,南博曾多次向龐家討要藏品,被逐一披露

南博事件升級!高層震怒,南博曾多次向龐家討要藏品,被逐一披露

火山詩話
2025-12-23 18:07:03
“富二代”一年花光1300萬:每頓飯1萬多,出去一次100多萬!真相……

“富二代”一年花光1300萬:每頓飯1萬多,出去一次100多萬!真相……

春城晚報
2025-12-24 09:30:08
首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

深度報
2025-12-23 22:47:10
京東深夜回應“巴黎倉庫遭盜搶”事件

京東深夜回應“巴黎倉庫遭盜搶”事件

都市快報橙柿互動
2025-12-24 00:11:51
2025-12-24 11:24:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5276文章數(shù) 64598關注度
往期回顧 全部

科技要聞

黑產大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

曝闞清子女兒早產但沒保住

財經要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內飾官圖發(fā)布

態(tài)度原創(chuàng)

時尚
教育
藝術
公開課
軍事航空

歲月不敗美人,50歲銀發(fā)的她們也太會穿了

教育要聞

美國社區(qū)大學課程是如何安排的?真的免費嗎?

藝術要聞

砸了20億的恒大“五國溫泉”小鎮(zhèn),如今泡池冷清,別墅荒了?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突關鍵人物在莫斯科被炸死 烏方尚未公開認領

無障礙瀏覽 進入關懷版