国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華段岳圻團(tuán)隊論文:從調(diào)參數(shù)到做控制,文生圖迎來一次方法論升級丨CVPR 2026

0
分享至

很多人在使用文生圖工具時都會遇到類似的情況,輸入一段很清晰的描述,希望畫面中人物站在左邊、動物在右邊,或者希望海報上出現(xiàn)一段完整可讀的文字,但生成結(jié)果卻常常讓人失望。

要么位置關(guān)系混亂,要么文字變形,要么整體畫面看起來不自然。繼續(xù)調(diào)整參數(shù),有時結(jié)果會更接近描述,但畫面質(zhì)量卻明顯下降,顏色變得奇怪,結(jié)構(gòu)開始扭曲。反復(fù)嘗試之后,往往需要生成十幾張甚至幾十張圖,才能勉強(qiáng)挑出一張可用的。

這種既想讓模型聽懂指令,又不希望畫面被破壞的矛盾體驗,已經(jīng)成為很多用戶在實際使用生成模型時的共同感受。

隨著生成式人工智能逐漸進(jìn)入設(shè)計、電商、內(nèi)容創(chuàng)作等真實場景,這種問題變得更加突出。用戶不再只是追求一張看起來不錯的圖,而是希望結(jié)果穩(wěn)定、結(jié)構(gòu)正確、細(xì)節(jié)可靠,可以直接用于實際工作。

然而現(xiàn)有方法在可控性和穩(wěn)定性之間始終存在明顯沖突,模型越是強(qiáng)調(diào)語義對齊,就越容易犧牲視覺質(zhì)量,這種內(nèi)在限制逐漸成為生成模型走向更廣泛應(yīng)用的一道門檻。

在這樣的背景下,清華大學(xué)段岳圻團(tuán)隊提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》這一研究工作,從更底層的角度重新審視這一問題。

研究不再把 CFG 當(dāng)作簡單的參數(shù)調(diào)節(jié)手段,而是將整個生成過程看作一個動態(tài)系統(tǒng),把語義偏差理解為需要被控制的誤差,并引入控制理論來重新設(shè)計 guidance 機(jī)制。這種思路的變化,使得生成過程不再依賴反復(fù)試錯,而是可以通過更穩(wěn)定的方式逐步收斂到符合語義約束的結(jié)果。

這種改進(jìn)在實際場景中的意義也很直觀。當(dāng)需要生成具有明確空間關(guān)系的畫面時,模型能夠更穩(wěn)定地保持結(jié)構(gòu)一致;當(dāng)畫面中包含文字時,內(nèi)容更容易保持清晰和正確;在復(fù)雜場景中,多對象之間的關(guān)系也更不容易出現(xiàn)錯亂。

用戶不再需要通過大量嘗試去碰運(yùn)氣,而更有可能在較少次數(shù)內(nèi)得到符合預(yù)期的結(jié)果。這樣的變化,正體現(xiàn)出生成模型從偶爾成功走向穩(wěn)定可靠的關(guān)鍵一步,也讓這項研究在當(dāng)前發(fā)展階段顯得尤為重要。


論文地址:https://arxiv.org/pdf/2603.03281

從高 scale 穩(wěn)定性到復(fù)雜 prompt 表現(xiàn)

在實驗結(jié)果方面,研究人員首先關(guān)心的是,相比標(biāo)準(zhǔn) CFG(Classifier-Free Guidance),性能提升是否全面且穩(wěn)定。結(jié)論是肯定的,而且提升并不是集中在某一個指標(biāo)上,而是體現(xiàn)在多個維度同時改善。

比如在圖像質(zhì)量指標(biāo) FID(Fréchet Inception Distance) 上,SMC-CFG 比標(biāo)準(zhǔn) CFG 進(jìn)一步下降了一小截,說明生成結(jié)果更接近真實圖像分布。在語義對齊指標(biāo) CLIP 上,提升幅度雖然不算特別大,但表現(xiàn)很穩(wěn)定,基本能夠持續(xù)領(lǐng)先其他方法,這說明這種改進(jìn)并不是靠某類樣本上的偶然優(yōu)勢,而是真正增強(qiáng)了模型對文本語義的理解能力。

在人類偏好相關(guān)指標(biāo)上,像 ImageReward、HPS、PickScore 等提升更明顯,而且很多時候都處在所有方法里的最高水平。真正重要的是,SMC-CFG 不是只把某一個指標(biāo)做高,而是在圖像質(zhì)量、語義對齊和主觀偏好這些通常很難兼顧的方向上一起變好。

從跨模型的一致性來看,研究使用了 3 種不同規(guī)模的文生圖模型,分別是中等規(guī)模的 SD3.5、較大規(guī)模的 Flux,以及超大規(guī)模的 Qwen-Image。實驗中有一個很明顯的現(xiàn)象,就是模型規(guī)模越大,SMC-CFG 的優(yōu)勢越清楚。


在較小模型上,這種優(yōu)勢更多體現(xiàn)為略優(yōu),而在更大模型上,它在多個指標(biāo)上能夠持續(xù)拉開差距。這說明,SMC-CFG 解決的并不只是一個局部調(diào)參問題,而更像是在處理模型規(guī)模增大后更容易出現(xiàn)的不穩(wěn)定性問題。

研究還把它與 CFG-Zero* 和 Rectified-CFG++ 這些已經(jīng)改進(jìn)過的方法做了比較,結(jié)果顯示,SMC-CFG 依然能夠繼續(xù)取得提升,而且這種優(yōu)勢不是某個指標(biāo)上的局部突破,而更接近整體性的領(lǐng)先,這也說明它不是簡單技巧,而是機(jī)制層面的改進(jìn)。

高 guidance scale 下的表現(xiàn),是整項研究最關(guān)鍵的結(jié)果之一。傳統(tǒng) CFG 的典型問題是,guidance scale 增大后,語義對齊通常會更強(qiáng),但圖像質(zhì)量往往會明顯下降,也就是模型越努力貼近文本,越容易把畫面做壞。

實驗顯示,標(biāo)準(zhǔn) CFG 隨著 scale 提升,圖像劣化會越來越明顯,而 SMC-CFG 在同樣條件下仍然能夠繼續(xù)增強(qiáng)語義信息,同時把圖像質(zhì)量維持在相對穩(wěn)定的狀態(tài)。這意味著它在一定程度上打破了語義準(zhǔn)確性和圖像質(zhì)量之間那種經(jīng)典的此消彼長關(guān)系。


與此同時,在復(fù)雜 prompt 下,傳統(tǒng)方法容易出現(xiàn)空間關(guān)系錯位、結(jié)構(gòu)混亂、文字模糊或錯誤等問題,而 SMC-CFG 在空間關(guān)系、細(xì)節(jié)穩(wěn)定性和文字清晰度上都更好,這說明它不僅分?jǐn)?shù)更高,也確實提升了模型對復(fù)雜結(jié)構(gòu)和關(guān)系的理解能力。

研究團(tuán)隊還做了消融實驗,分析兩個關(guān)鍵參數(shù)的作用。其中,λ 控制收斂方向,k 控制糾正力度。實驗發(fā)現(xiàn),λ 過小或過大都會讓系統(tǒng)偏離更理想的穩(wěn)定軌道,而 k 過小會讓收斂變慢,語義表現(xiàn)偏弱,k 過大又會引發(fā)震蕩,讓畫面顯得不自然。

綜合來看,最佳狀態(tài)對應(yīng)的是中等 λ 加上適中的 k,在這種組合下,系統(tǒng)能夠同時實現(xiàn)穩(wěn)定、快速和精準(zhǔn)。更深一層地說,這部分結(jié)果說明 SMC-CFG 的優(yōu)勢不是偶然調(diào)參得到的,而是符合控制系統(tǒng)里很典型的規(guī)律,也就是穩(wěn)定性和響應(yīng)速度之間需要找到平衡。雷峰網(wǎng)


并非簡單跑分,而是一種新的控制邏輯

在實驗經(jīng)過方面,研究人員并不是簡單進(jìn)行指標(biāo)對比,而是圍繞一個明確的核心假設(shè)展開,也就是 CFG 的問題本質(zhì)上來源于線性控制方式本身,因此需要通過新的控制機(jī)制來驗證是否能夠系統(tǒng)性改進(jìn)這一問題。

基于這一前提,整個實驗設(shè)計圍繞三個關(guān)鍵方向推進(jìn)。首先是穩(wěn)定性驗證,研究人員通過在高 guidance scale 條件下進(jìn)行測試,因為這一設(shè)置會放大 CFG 的不穩(wěn)定問題,如果方法在這種情況下仍然保持穩(wěn)定,就能夠說明控制機(jī)制本身更加魯棒。


其次是準(zhǔn)確性驗證,通過引入語義指標(biāo)并結(jié)合復(fù)雜 prompt 場景,例如包含空間關(guān)系、多物體關(guān)系或細(xì)粒度描述的輸入,來檢驗生成結(jié)果是否真正理解文本內(nèi)容,而不是僅僅在簡單場景下表現(xiàn)良好。

最后是對真實感的評估,通過 FID 和多種人類偏好相關(guān)指標(biāo)來判斷生成圖像是否接近真實分布,同時是否符合人類審美和直覺判斷。從整體邏輯來看,這一系列實驗并不是在比較不同模型誰更強(qiáng),而是在驗證一種控制系統(tǒng)是否能夠更有效地引導(dǎo)生成過程。


在模型選擇上,研究團(tuán)隊刻意選用了 SD3.5、Flux 和 Qwen-Image 三種具有明顯差異的模型。這些模型不僅在參數(shù)規(guī)模上從中等到超大存在明顯跨度,而且在具體架構(gòu)上也有所不同,但都屬于 flow-matching diffusion 這一技術(shù)路線。

這樣的選擇使實驗?zāi)軌蚋采w不同復(fù)雜度和不同表達(dá)能力的生成系統(tǒng),從而檢驗方法是否具備跨模型的通用性。如果一種方法只在單一模型上有效,很可能只是針對特定結(jié)構(gòu)進(jìn)行了適配,而在多模型上都能保持提升,則更能說明其改進(jìn)具有普適意義。

在評價體系的設(shè)計上,研究人員采用了分層結(jié)構(gòu)來避免單一指標(biāo)帶來的偏差。第一層關(guān)注分布層面,通過 FID 衡量生成圖像與真實數(shù)據(jù)分布之間的距離,從而反映整體圖像質(zhì)量和真實性。

第二層關(guān)注語義層面,通過 CLIP 等指標(biāo)評估圖像內(nèi)容與文本之間的一致性,這一層主要反映模型是否正確理解輸入語義。第三層則引入人類偏好相關(guān)指標(biāo),用于評估生成結(jié)果在視覺上是否自然、是否具有審美價值以及是否符合人類直覺。

這三層從統(tǒng)計分布、語義匹配和主觀感受三個角度共同約束模型表現(xiàn),可以有效避免模型在某一指標(biāo)上表現(xiàn)突出但整體效果不佳的問題。


研究團(tuán)隊還通過消融實驗對方法內(nèi)部機(jī)制進(jìn)行了進(jìn)一步分析。由于 SMC-CFG 引入了滑模面作為控制目標(biāo),并通過 switching 控制實現(xiàn)非線性反饋,這些設(shè)計都可能影響系統(tǒng)的穩(wěn)定性和收斂行為,因此需要單獨(dú)驗證各個組成部分的作用。

通過調(diào)整關(guān)鍵參數(shù),可以觀察到系統(tǒng)在收斂速度、穩(wěn)定性以及生成效果之間的變化關(guān)系,從而判斷性能提升是否確實來源于控制機(jī)制本身,而不是偶然的參數(shù)組合。這一步對于證明方法的可靠性非常關(guān)鍵,因為只有在不同設(shè)置下仍然表現(xiàn)出一致規(guī)律,才能說明設(shè)計具有理論支撐。

綜合來看,這一系列實驗構(gòu)成了一個清晰的驗證邏輯,也就是從線性控制到非線性控制的轉(zhuǎn)變所帶來的影響。傳統(tǒng) CFG 作為線性控制方式,在復(fù)雜生成過程中容易引發(fā)不穩(wěn)定行為,而引入滑??刂坪螅到y(tǒng)能夠更穩(wěn)定地收斂到目標(biāo)狀態(tài)。

在這種更穩(wěn)定的動態(tài)過程中,語義信息能夠更有效地注入,同時圖像質(zhì)量不會受到明顯破壞,因此最終表現(xiàn)為語義對齊更好且圖像質(zhì)量更高。整個實驗過程實際上是在逐步驗證這一因果鏈條,從而證明新的控制機(jī)制確實能夠從根本上改進(jìn)生成過程。

不是改進(jìn) CFG,而是重寫 CFG

這項研究并不只是說明研究提出了一種更強(qiáng)的方法,更重要的是,它改變了人們理解圖像生成模型的方式。過去,CFG 更像是一種經(jīng)驗性的調(diào)節(jié)手段,很多時候只能靠不斷試參數(shù)來找平衡,知道它有用,但很難解釋為什么有時有效、有時會失控。雷峰網(wǎng)

研究團(tuán)隊把這個問題提升成了控制問題,也就是把條件預(yù)測和無條件預(yù)測之間的差異看成誤差信號,把 guidance 看成控制輸入,把 diffusion flow 看成一個動態(tài)系統(tǒng)。這樣一來,后續(xù)研究就不再只是反復(fù)調(diào) guidance,而是可以像設(shè)計控制系統(tǒng)一樣,去分析穩(wěn)定性、收斂性和魯棒性,從經(jīng)驗技巧走向系統(tǒng)理論。

研究還有一個很重要的意義,就是把 CFG 為什么會失敗這件事講清楚了。很多人都知道,guidance scale 一旦調(diào)高,模型雖然會更聽 prompt 的話,但圖像也更容易崩,出現(xiàn)顏色不自然、結(jié)構(gòu)扭曲、細(xì)節(jié)變壞的問題。

研究人員說明,根本原因在于 CFG 本質(zhì)上是在做線性誤差放大,而 diffusion 本身卻是一個非線性系統(tǒng),所以一旦放大過頭,就容易出現(xiàn)振蕩和發(fā)散。也正因為如此,研究團(tuán)隊引入了滑??刂七@種非線性控制方法,讓系統(tǒng)在復(fù)雜情況下也能被拉回更穩(wěn)定的軌道。

這個突破的意義在于,它說明 diffusion guidance 本質(zhì)上不是一個簡單調(diào)權(quán)重的問題,而是一個需要用非線性控制來處理的問題。

對普通人來說,這項研究的影響也很直接。用戶在使用 AI 繪圖工具時,最關(guān)心的不是背后的理論,而是輸入一句話之后,結(jié)果能不能穩(wěn)定、能不能少翻車、能不能更接近自己的想法。更穩(wěn)定的 guidance 機(jī)制意味著,以后生成復(fù)雜畫面時,空間關(guān)系錯亂、文字錯誤、結(jié)構(gòu)崩壞這些問題會更少,用戶不需要為了得到一張能用的圖反復(fù)嘗試很多次。

對于設(shè)計師、自媒體創(chuàng)作者、電商運(yùn)營等人來說,這會直接降低試錯成本,提高出圖效率。更長遠(yuǎn)地看,這項研究的價值就在于,它推動文生圖模型從偶爾驚艷但不穩(wěn)定,逐漸走向真正可靠、可以進(jìn)入日常工作和生活的工具。

CFG-Ctrl 背后的科研工作者

論文一作為汪晗陽,現(xiàn)為清華大學(xué)電子工程系碩士一年級學(xué)生,本科畢業(yè)于清華大學(xué)計算機(jī)科學(xué)與技術(shù)系,2025 年獲得工學(xué)學(xué)士學(xué)位,師從段岳圻,研究方向集中在 3D 計算機(jī)視覺、視頻生成和 AIGC。

相關(guān)學(xué)術(shù)成果發(fā)表于 CVPR、ICCV、NeurIPS、ECCV、TIP 和 TPAMI 等重要會議與期刊,內(nèi)容涉及稀疏視角 3D 重建、3D 生成中的人類偏好對齊、語言嵌入場景重建、視頻生成測試時擴(kuò)展、物理屬性學(xué)習(xí),以及從單張圖像生成高質(zhì)量 3D 網(wǎng)格等方向。

論文的通訊作者為段岳圻,他是清華大學(xué)電子工程系教研系列副教授,博士生導(dǎo)師。研究方向為計算機(jī)視覺、模式識別。2014 年和 2019 年在清華大學(xué)自動化系分別獲得工學(xué)學(xué)士和博士學(xué)位,2019 至 2021 年在斯坦福大學(xué)計算機(jī)系擔(dān)任博士后研究員,合作導(dǎo)師為美國三院院士Leonidas J. Guibas教授。

他以第一/通訊作者發(fā)表計算機(jī)視覺與模式識別領(lǐng)域 IEEE匯 刊和 CCF-A 類會議論文 40 余篇,以通訊作者獲 2024 年 ICME 最佳論文提名。

段岳圻入選中國科協(xié)青年人才托舉工程項目,獲 2025 年中國電子學(xué)會技術(shù)發(fā)明一等獎、2024 年中國電子學(xué)會自然科學(xué)一等獎、2024 年公安部科學(xué)技術(shù)一等獎。

擔(dān)任IEEE TCSVT期刊編委,CVPR、ICCV、ECCV、ICML、ICLR等國際會議領(lǐng)域主席,中國計算機(jī)學(xué)會計算機(jī)視覺、人工智能與模式識別、多媒體技術(shù)專委會執(zhí)行委員。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
周立波是個好同志,因為他敢講真話

周立波是個好同志,因為他敢講真話

布衣亂彈
2026-04-11 18:06:24
大快人心!張敬軒復(fù)出泡湯,霍汶希被拖下水,英皇如坐針氈

大快人心!張敬軒復(fù)出泡湯,霍汶希被拖下水,英皇如坐針氈

一盅情懷
2026-04-21 19:20:32
全新一代問界M9今晚發(fā)布,HUAWEI SOUND Ultimate非凡系列上車

全新一代問界M9今晚發(fā)布,HUAWEI SOUND Ultimate非凡系列上車

IT之家
2026-04-22 16:07:34
馬杜羅被捕100天之后,委內(nèi)瑞拉代總統(tǒng)終于翻臉,掀起內(nèi)部大清洗

馬杜羅被捕100天之后,委內(nèi)瑞拉代總統(tǒng)終于翻臉,掀起內(nèi)部大清洗

墨蘭史書
2026-04-22 19:10:03
15次丟球權(quán)+單刀必進(jìn)踢飛!被捧殺的王鈺棟,早已不堪大用?

15次丟球權(quán)+單刀必進(jìn)踢飛!被捧殺的王鈺棟,早已不堪大用?

圣西羅的太陽
2026-04-22 13:43:09
加工販賣淫穢手辦6萬件獲刑 《原神》可莉手辦遭盜版

加工販賣淫穢手辦6萬件獲刑 《原神》可莉手辦遭盜版

游民星空
2026-04-22 19:20:25
日本請求訪華,與中方高層會面,不到24小時,高市連干2件蠢事

日本請求訪華,與中方高層會面,不到24小時,高市連干2件蠢事

生活魔術(shù)專家
2026-04-22 17:16:37
情侶登瑞士雪山忘情親密10分鐘 氣象鏡頭全直播

情侶登瑞士雪山忘情親密10分鐘 氣象鏡頭全直播

環(huán)球趣聞分享
2026-04-22 13:40:09
5月初偏財運(yùn)爆發(fā),這3個生肖迎來意外驚喜,翻身日子就在眼前

5月初偏財運(yùn)爆發(fā),這3個生肖迎來意外驚喜,翻身日子就在眼前

毅談生肖
2026-04-22 11:35:16
町田是第二支首次參加亞冠就進(jìn)決賽的日本球隊,上支為2007奪冠的浦和

町田是第二支首次參加亞冠就進(jìn)決賽的日本球隊,上支為2007奪冠的浦和

懂球帝
2026-04-22 12:01:19
女學(xué)生婚后回母校捐款,張桂梅怒斥“滾出去”,她為何如此憤怒

女學(xué)生婚后回母校捐款,張桂梅怒斥“滾出去”,她為何如此憤怒

每一次點(diǎn)擊
2026-04-21 09:40:42
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
爆料瘋傳,中南醫(yī)院“王護(hù)士長”被扒,她到底有沒有問題?。?>
    </a>
        <h3>
      <a href=觀星賞月
2026-04-22 13:10:32
徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

蓓小西
2026-04-21 12:27:46
毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個流芳百世,1個遺臭萬年

毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個流芳百世,1個遺臭萬年

品點(diǎn)歷史
2026-04-22 06:00:14
英媒:吳宜澤是中國斯諾克流水線最新旗艦產(chǎn)品,他有一項隱藏技能

英媒:吳宜澤是中國斯諾克流水線最新旗艦產(chǎn)品,他有一項隱藏技能

楊華評論
2026-04-21 15:38:52
中方已做最壞準(zhǔn)備,一旦中美爆發(fā)戰(zhàn)爭,中國三大底牌一個比一個狠

中方已做最壞準(zhǔn)備,一旦中美爆發(fā)戰(zhàn)爭,中國三大底牌一個比一個狠

草莓信箱
2026-04-14 09:10:54
老當(dāng)益壯!斯馬特:我從詹姆斯身上看到了兩個字——偉大

老當(dāng)益壯!斯馬特:我從詹姆斯身上看到了兩個字——偉大

懂球帝
2026-04-22 13:48:26
2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

零度眼看球
2026-04-22 06:38:02
2026-04-22 20:04:50
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
69083文章數(shù) 656117關(guān)注度
往期回顧 全部

教育要聞

叮咚!全??苿?chuàng)青年聚集!“搖籃杯”科創(chuàng)作品展!

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

健康
教育
時尚
本地
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

【媒體聚焦】南方工報 | 廣東省教育研究院走進(jìn)湛江開展教研幫扶

初夏穿赫本的白褲子,清新又高級!

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版