国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

解鎖任意步數(shù)文生圖,港大&Adobe全新Self-E框架學會自我評估

0
分享至



盡管擴散模型(Diffusion Model)與流匹配(Flow Matching)已經把文本到圖像生成(Text-to-Image, T2I)推向了更高的視覺質量與可控性,但他們通常在推理時需要數(shù)十步網(wǎng)絡迭代,限制了其對于一些需要低延遲,Real-Time 的應用。

為了把推理步數(shù)降下來,現(xiàn)有路線通常依賴知識蒸餾(Distillation):先訓練一個多步教師模型,再把能力遷移到少步學生模型。但這條路的代價同樣明顯 —— 既依賴預訓練教師,又引入了額外的訓練開銷,并在「從零訓練(from scratch)」與「極少步高質量」之間留下了長期空白。

近日,香港大學(The University of Hong Kong)與 Adobe Research 聯(lián)合發(fā)布 Self-E(Self-Evaluating Model):一種無需預訓練教師蒸餾、從零開始訓練的任意步數(shù)文生圖框架。其目標非常直接:讓同一個模型在極少步數(shù)也能生成語義清晰、結構穩(wěn)定的圖像,同時在 50 步等常規(guī)設置下保持頂級質量,并且隨著步數(shù)增加呈現(xiàn)單調提升。



  • 論文標題:Self-Evaluation Unlocks Any-Step Text-to-Image Generation
  • 項目主頁:https://xinyu-andy.github.io/SelfE-project/
  • 論文 PDF:https://www.arxiv.org/pdf/2512.22374



引言:從「軌跡匹配」到「落點評估」

擴散 / 流匹配范式本質上是在學習一張「局部向量場」:給定噪聲狀態(tài),預測下一步該往哪里走。這個監(jiān)督信號在「小步、密集積分」時非常有效,但一旦嘗試「大步跳躍」,誤差會被軌跡曲率放大,生成往往滑向平均解、語義漂移或結構坍塌。


Self-E 的切入點是一個根本上的范式改變:我們能否不再執(zhí)著于「每一步走得對不對」,而是把訓練重心轉向「落點好不好」?也就是把目標從「軌跡匹配(trajectory matching)」轉變?yōu)椤嘎潼c評估(destination/landing evaluation)」。

換句話說,傳統(tǒng) Diffusion Model 訓練強調「在起點對齊局部方向」;Self-E 強調「在落點評估結果并給出糾偏方向」。監(jiān)督位置的改變,帶來了訓練信號性質的改變:從靜態(tài)監(jiān)督變成動態(tài)反饋。

作者在項目主頁用動圖展示了這兩者的區(qū)別:





這也是為什么模型在測試階段有少步推理能力:擴散模型在測試時只能逐步跟隨當前點預測的最好局部路徑,最終走到全局最優(yōu);而 Self-E 在訓練階段就逐步學會了走向全局最優(yōu)的落點。

這也不同于目前多數(shù)少步生成模型所采用的學習軌跡的積分,如 Consistency Model, Mean Flow;Self-E不局限于沿著預定義的軌跡走,而是直接關心每步結果好不好,對不對。

Self-E 的核心:兩條互補訓練信號(Two Complementary Signals)

Self-E 用同一個網(wǎng)絡在兩種「模式」下工作:一方面像 Flow Matching 一樣從真實數(shù)據(jù)學習分布的局部結構;另一方面用「模型自身正在學到的局部估計」去評估自生成樣本,形成自反饋閉環(huán)。

1)從數(shù)據(jù)學習:Learning from Data

  • 學什么:分布的局部結構(local score /velocity 的期望形式),即「在鄰域內密度如何變化」。
  • 怎么學:采樣真實圖像與文本條件,加噪得到噪聲輸入,用條件流匹配式目標訓練模型去預測干凈樣本(或等價參數(shù)化),提供穩(wěn)定的局部監(jiān)督。

2)自我評估學習:Learning by Self-Evaluation

  • 學什么:分布層面的正確性(distribution-level correctness)——生成樣本是否與真實分布一致、是否與描述的文本對齊。
  • 關鍵機制:模型先做一次「長距離跳躍」(從起始時間步跳到落點時間步),然后在落點處用自己當前學到的局部估計產生一個「方向信號」,告訴生成樣本應如何移動才能進入更高質量、更符合文本的概率分布區(qū)域。
  • 最大差異:評估信號不來自外部教師(pretrained diffusion teacher),而是來自模型自身的在訓估計(dynamic self-teacher)。



訓練細節(jié):把「自我評估」做成可反傳的學習信號

Self-E 在理論上把評估寫成分布級目標(例如以反向 KL 為代表的分布匹配視角),但真正落地的難點在于:真實分布與生成分布的 score 都不可得。

Self-E 的關鍵觀察是:模型在「從數(shù)據(jù)學習」階段會逐步學到某種條件期望形式,而該量與 score 通過 Tweedie’s formula 存在聯(lián)系,因此可以用「正在訓練的模型」去近似提供評估方向。

在實現(xiàn)上,作者發(fā)現(xiàn)理論目標中包含「classifier score term」等項,并實證發(fā)現(xiàn)僅使用 classifier score 項就足夠有效,甚至更利于收斂,從而避免早期還要額外訓練一個用于 fake score 的模型分支。



為了把這種「評估方向」變成可訓練的損失,Self-E 采用 stop-gradient 的雙前向構造 pseudo-target,通過最小化 MSE 誘導出與所需方向一致的梯度;并在最終目標中將數(shù)據(jù)驅動損失與自評估損失進行混合加權。



最終,我們可以用一個統(tǒng)一的形式來訓練:



其中,等式右邊第一項正是 Learning-from-data 的目標,而第二項對應 Self-Evaluation。

推理:任意步數(shù)(Any-Step Inference),并隨步數(shù)單調變好

在推理階段,Self-E 與擴散 / 流匹配一樣進行迭代去噪,但不同之處在于:由于訓練中已經顯式學習「長距離落點」的質量與糾偏方向,它可以在非常少的步數(shù)下保持可用的語義與結構,同時在增加步數(shù)時繼續(xù)提升細節(jié)與真實感。

性能:GenEval 全步數(shù)段 SOTA,少步優(yōu)勢尤其顯著

在 GenEval 基準上,Self-E 對比其他方法取得全面領先,并且隨著步數(shù)增加呈現(xiàn)單調提升。更關鍵的是少步區(qū)間的「斷層式」優(yōu)勢:在 2-step 設置下,Self-E 相比當時最佳對比方法的提升約為+0.12(0.7531 相比 0.6338),而多種傳統(tǒng)擴散 / 流匹配模型在 2-step 下幾乎無法生成可用結果。





另一角度解讀:把「預訓練」與「反饋學習」拉到同一條線上

從更宏觀的視角看,Self-E 把訓練過程組織成一個類似強化學習中的「環(huán)境 — 智能體(environment–agent)閉環(huán)」:

  • Data Phase:模型從真實數(shù)據(jù)學習分布的局部結構,得到越來越可靠的局部估計(可視作學習環(huán)境,并給出評估)。
  • Self-Evaluation Phase:模型提出長距離跳躍方案(可視作智能體執(zhí)行動作),在落點處用內部估計產生反饋方向并更新參數(shù)(可視作獲得環(huán)境的反饋)。
  • Closed Loop:評估器隨訓練變強,反饋信號質量隨之提升,反過來又進一步強化少步生成能力。

作者在項目主頁指出:這種內部評估器在角色上接近「可查詢的學習型獎勵模型」,為后續(xù)把強化學習(RL)更系統(tǒng)地引入視覺生成訓練提供了新的接口與想象空間。

結語

Self-E 的價值不只是在「少步生成」這一條指標上跑得更快,而在于它把文生圖訓練范式從「沿著既定軌跡走」推進到「學會評估落點并自我糾偏」:在不依賴預訓練教師蒸餾的前提下,讓單一模型同時覆蓋極低時延與高質量長軌跡兩種需求,并在不同推理預算下保持可擴展的性能曲線。

對內容創(chuàng)作與生成式系統(tǒng)落地而言,「one model, any compute」的工程意義非常直接:同一個 checkpoint 可以按場景動態(tài)選擇步數(shù) —— 交互式場景用 1~4 步追求即時反饋,高質量離線渲染用 50 步追求細節(jié)上限;而訓練側則繞開了教師蒸餾鏈路,把「從零訓練 + 少步推理」真正拉回到可討論、可復現(xiàn)、可擴展的主流路徑上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

另子維愛讀史
2025-12-13 21:53:50
馮唐:我貪財好色!當婦科醫(yī)生,就是為了光明正大地看女人

馮唐:我貪財好色!當婦科醫(yī)生,就是為了光明正大地看女人

近史博覽
2025-11-23 19:22:45
克洛普為什么拒絕出任皇馬主帥?

克洛普為什么拒絕出任皇馬主帥?

赫逗足球解說
2026-01-15 12:45:01
轟22+7+3+2!楊瀚森練級大閃耀:攻防一體真穩(wěn),背打大秀腳步

轟22+7+3+2!楊瀚森練級大閃耀:攻防一體真穩(wěn),背打大秀腳步

李喜林籃球絕殺
2026-01-15 12:38:57
伊朗的局勢與美國的顧慮

伊朗的局勢與美國的顧慮

西樓飲月
2026-01-13 21:25:12
特變電工10億債券引爆!金風科技、藍色光標被主力狂拋

特變電工10億債券引爆!金風科技、藍色光標被主力狂拋

風風順
2026-01-15 08:59:27
攜程因涉嫌壟斷被立案調查 追覓CEO俞浩放話:讓攜程不在壟斷

攜程因涉嫌壟斷被立案調查 追覓CEO俞浩放話:讓攜程不在壟斷

新浪財經
2026-01-14 19:26:45
演都不演了!徐帆回應離婚傳聞后,馮小剛1個舉動撕下她體面

演都不演了!徐帆回應離婚傳聞后,馮小剛1個舉動撕下她體面

生性灑脫
2026-01-15 08:42:05
聶衛(wèi)平:娶三個太太很正常!因出軌第二任與首任離婚 最后一任小23歲

聶衛(wèi)平:娶三個太太很正常!因出軌第二任與首任離婚 最后一任小23歲

小椰的奶奶
2026-01-15 08:52:46
央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

觀察者小海風
2025-12-15 19:03:13
太狠了!蘋果宣布這些自帶應用未來將收費使用

太狠了!蘋果宣布這些自帶應用未來將收費使用

XCiOS俱樂部
2026-01-14 14:06:43
上演逆襲!U23國足是本屆賽事唯一一支小組出線的第四檔球隊

上演逆襲!U23國足是本屆賽事唯一一支小組出線的第四檔球隊

懂球帝
2026-01-14 23:22:14
合川殺豬飯剛結束,榜一大哥坐不住了,上門邀請呆呆參加公司活動

合川殺豬飯剛結束,榜一大哥坐不住了,上門邀請呆呆參加公司活動

天天熱點見聞
2026-01-13 12:31:28
看到韓媒公布的數(shù)據(jù),我才知道,原來中國的強大早已超乎世界想象

看到韓媒公布的數(shù)據(jù),我才知道,原來中國的強大早已超乎世界想象

南宗歷史
2026-01-14 18:09:57
賀嬌龍的最后8天:從朋友圈到墜馬永別,27年天山情終成絕唱

賀嬌龍的最后8天:從朋友圈到墜馬永別,27年天山情終成絕唱

行者聊官
2026-01-15 10:37:42
絕!李在明故意在訪問日本期間,讓檢查組示意法庭判尹錫悅死刑

絕!李在明故意在訪問日本期間,讓檢查組示意法庭判尹錫悅死刑

我心縱橫天地間
2026-01-14 18:57:12
西部排名又變了:掘金創(chuàng)NBA奇跡,快船收大禮,2隊排名互換

西部排名又變了:掘金創(chuàng)NBA奇跡,快船收大禮,2隊排名互換

籃球大視野
2026-01-14 18:52:47
王新軍沒想到,閆學晶人設崩塌不到半月,秦海璐因一句話口碑暴增

王新軍沒想到,閆學晶人設崩塌不到半月,秦海璐因一句話口碑暴增

夢錄的西方史話
2026-01-15 13:56:21
穎兒帶女兒回付辛博老家,不住婆家住酒店,公婆出鏡都好寵月亮

穎兒帶女兒回付辛博老家,不住婆家住酒店,公婆出鏡都好寵月亮

八怪娛
2026-01-14 18:25:27
以色列宣布與7個聯(lián)合國機構和國際組織“切斷聯(lián)系”

以色列宣布與7個聯(lián)合國機構和國際組織“切斷聯(lián)系”

新華社
2026-01-14 05:12:03
2026-01-15 14:55:01
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12123文章數(shù) 142536關注度
往期回顧 全部

科技要聞

千問接入淘寶支付寶,大模型開卷辦事能力

頭條要聞

51:50美參院否決限制特朗普戰(zhàn)爭權議案 萬斯投關鍵1票

頭條要聞

51:50美參院否決限制特朗普戰(zhàn)爭權議案 萬斯投關鍵1票

體育要聞

你是個好球員,我們就拿你交易吧

娛樂要聞

傳奇棋圣聶衛(wèi)平離世,網(wǎng)友集體悼念

財經要聞

“瘋狂的白銀”,還能走多遠?

汽車要聞

今年推出超40款新車,BBA要把失去的奪回來

態(tài)度原創(chuàng)

教育
房產
數(shù)碼
本地
公開課

教育要聞

12歲小學生留遺書后,吞下100粒藥自殺,家長將英語老師告上法庭

房產要聞

近60萬㎡!2026??跇鞘校_始大規(guī)模補貨!

數(shù)碼要聞

米物上架小魔方45W氮化鎵充電器,69元

本地新聞

云游內蒙|黃沙與碧波撞色,烏海天生會“混搭”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版