国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

5秒出4張2K大圖!阿里提出2步生成方案,拉爆AI生圖進(jìn)度條

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

AI生成一張圖片,你愿意等多久?

在主流擴(kuò)散模型還在迭代中反復(fù)“磨嘰”、讓用戶盯著進(jìn)度條發(fā)呆時(shí),阿里智能引擎團(tuán)隊(duì)直接把進(jìn)度條“拉爆”了——

5秒鐘,到手4張2K級(jí)高清大圖。

針對(duì)Qwen最新開源模型,將SOTA壓縮水平從80-100步前向計(jì)算,驟降至2步(Step),速度提升整整40倍

這意味著,此前像Qwen-Image這樣需要近一分鐘才能吐出來(lái)的一張圖片,現(xiàn)在真的成了“眨眼之間”。



目前,團(tuán)隊(duì)已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺(tái),歡迎開發(fā)者下載體驗(yàn):

  • HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
  • ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

同時(shí),該模型已經(jīng)集成到嗚哩AI平臺(tái)上(https://www.wuli.art)支持調(diào)用。

上述這種近乎“物理外掛”般的蒸餾方案,究竟是怎么做到的?一起來(lái)看。

傳統(tǒng)軌跡蒸餾的“細(xì)節(jié)困境”

早期的蒸餾方案[1,2],往往可以被歸納為軌跡蒸餾(Trajectory Distillation)

具體來(lái)看,其本身主要思想是希望蒸餾后模型(student model)能夠模仿原模型(teacher model)在多步生成的路徑:

  • Progressive Distillation:student model需要直接對(duì)齊teacher model多次迭代后的輸出;
  • Consistency Distillation:student model需要保證在teacher model的去噪軌跡上,輸出相同的結(jié)果。

但在實(shí)踐中,這類方法很難在低迭代步數(shù)下實(shí)現(xiàn)高質(zhì)量生成。最突出的問題是生成圖像模糊,這一現(xiàn)象在近期研究[3]中也得到了驗(yàn)證:



問題根源在于約束方式:軌跡蒸餾直接對(duì)student model的生成樣本x_{student}做約束,使其在特定距離度量下對(duì)齊teacher預(yù)測(cè)出的高質(zhì)量輸出x_{teacher},具體可以表達(dá)為:



其中$f(\cdot)$是特定的距離函數(shù),x_{teacher}是teacher經(jīng)過多次去噪以后得到的輸出。

可以看出,這一Loss對(duì)所有圖像patch一視同仁,對(duì)于一些特別細(xì)節(jié)的部分(如文字、人物五官)因占比低而學(xué)習(xí)不充分,student模型的細(xì)節(jié)常出現(xiàn)明顯扭曲。

從樣本空間到概率空間,直接降低缺陷樣本生成概率

近期,基于概率空間的蒸餾方案,在較少步數(shù)場(chǎng)景(4~8步)獲得了巨大的成功,基本解決了上述的細(xì)節(jié)丟失問題。

其中最有影響力的工作之一是DMD2算法,這里具體的算法方案可以參考原論文[4]。

DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間,其Loss設(shè)計(jì)為:



這是典型的Reverse-KL的蒸餾Loss,其本身有一個(gè)顯著的特性:

當(dāng)p_{teacher}(x_0)\to 0,如果p_{student}(x_0) > 0,那就會(huì)有Loss \to +\infty。

這意味著:對(duì)于student model生成的每一張圖片,如果它不符合真實(shí)圖片分布(p_{teacher}(x_0)\to 0),就會(huì)導(dǎo)致Loss爆炸。

因此,DMD2這類算法的本質(zhì)思想是——不直接告訴student“應(yīng)該模仿什么”,而是讓student自己生成圖片,然后讓teacher model指導(dǎo)“哪里不對(duì)”

這種Reverse-KL Loss的設(shè)計(jì),可以顯著提升生成圖片的細(xì)節(jié)性和合理性,已經(jīng)成為當(dāng)下擴(kuò)散步數(shù)蒸餾的主要策略。

熱啟動(dòng)緩解分布退化

盡管Reverse-KL可以顯著降低不合理樣本的生成概率,其本身也存在著嚴(yán)重的mode-collapse和分布過于銳化的問題[5]。

具體表現(xiàn)在多樣性降低,飽和度增加,形體增加等問題上。這些問題在2步蒸餾的設(shè)定下變得尤為突出。

為了緩解分布退化問題,常見做法是給模型一個(gè)更合理的初始化[6]。在這里該團(tuán)隊(duì)使用PCM[7]蒸餾進(jìn)行模型熱啟動(dòng)。

實(shí)驗(yàn)表明,熱啟動(dòng)后的模型的形體扭曲問題得到明顯改善。


△左圖為直接dmd訓(xùn)練,右圖為經(jīng)過PCM熱啟動(dòng)后的2步模型,更好的初

對(duì)抗學(xué)習(xí)引入真實(shí)數(shù)據(jù)先驗(yàn)

如上所述,DMD2本質(zhì)上是“學(xué)生生成—>教師指導(dǎo)”,蒸餾過程不依賴真實(shí)數(shù)據(jù),這種做法有優(yōu)有劣:

  • 優(yōu)勢(shì):極大提升方案普適性(高質(zhì)量真實(shí)數(shù)據(jù)難獲取);
  • 局限:設(shè)定了天然上限——student永遠(yuǎn)學(xué)習(xí)teacher的生成分布,無(wú)法超越teacher。

同時(shí)由于loss設(shè)計(jì)的問題,DMD2蒸餾在高質(zhì)量細(xì)節(jié)紋理(如苔蘚、動(dòng)物毛發(fā)等)上生成的效果,往往差強(qiáng)人意,如下圖所示。


△左圖為Z-Image 50步生成,右圖為Z-Image-Turbo 8步生成,在苔蘚

為了增強(qiáng)2步student model在細(xì)節(jié)上的表現(xiàn)能力,阿里智能引擎團(tuán)隊(duì)引入了對(duì)抗學(xué)習(xí)(GAN)來(lái)進(jìn)一步提升監(jiān)督效果。

GAN的Loss可以拆解為:

生成Loss(讓生成圖騙過判別器):



判別Loss(區(qū)分真假圖):



這里x_0是student生成的圖片,x_{real}是訓(xùn)練集中引入的真實(shí)數(shù)據(jù),D(\cdot)是判別器根據(jù)輸入樣本判斷其為真實(shí)數(shù)據(jù)的概率。

簡(jiǎn)單來(lái)說(shuō),對(duì)抗訓(xùn)練一方面需要判別器盡可能判定student model生成的圖片為假,另一方面需要student model盡可能欺騙判別器。

為了提升對(duì)抗訓(xùn)練的穩(wěn)定性和效果,該團(tuán)隊(duì)做了如下改進(jìn):

  1. 真實(shí)數(shù)據(jù)混合策略:按固定比例混合高質(zhì)量真實(shí)數(shù)據(jù)和teacher生成圖,提升泛化度和訓(xùn)練穩(wěn)定性;
  2. 特征提取器引入:使用額外的DINO模型作為feature extractor,提供更魯棒的特征表示;
  3. Loss權(quán)重調(diào)整:增加對(duì)抗訓(xùn)練在loss中的占比。

經(jīng)實(shí)驗(yàn)驗(yàn)證,增加對(duì)抗訓(xùn)練后,student model的畫面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升:


△增加GAN顯著提升畫面真實(shí)性和細(xì)節(jié)

從應(yīng)用效果出發(fā),細(xì)節(jié)決定成敗

極少步數(shù)擴(kuò)散生成一直是一個(gè)重要的方向。

然而,單一算法方案受限于其本身的原理設(shè)計(jì),往往不盡如人意。

阿里巴巴智能引擎團(tuán)隊(duì)正是從落地效果出發(fā),逐個(gè)發(fā)現(xiàn)并分析蒸餾帶來(lái)的效果問題(如扭曲、紋理確實(shí)),并針對(duì)性解決,才能使得最后的2步生成模型,最終達(dá)到工業(yè)場(chǎng)景可落地的水準(zhǔn)。



然而,盡管在大多數(shù)場(chǎng)景下Wuli-Qwen-Image-Turbo能夠和原模型比肩;但在一些復(fù)雜場(chǎng)景下,受限于去噪步數(shù),仍存在可改進(jìn)空間。團(tuán)隊(duì)在后續(xù)的release中將會(huì)持續(xù)發(fā)布速度更快、效果更好的生成模型。

接下來(lái),他們將持續(xù)推出,并迭代更多擴(kuò)散加速技術(shù),并開源模型權(quán)重。

而以上這些突破的背后,離不開他們長(zhǎng)期以來(lái)的深厚積淀——

作為阿里AI工程系統(tǒng)的建設(shè)者與維護(hù)者,團(tuán)隊(duì)聚焦于大模型全鏈路工程能力建設(shè),持續(xù)優(yōu)化研發(fā)范式,專注大模型訓(xùn)推性能優(yōu)化、引擎平臺(tái)、Agent應(yīng)用平臺(tái)等關(guān)鍵組件,致力于為阿里集團(tuán)各業(yè)務(wù)提供高效穩(wěn)定的AI工程基礎(chǔ)設(shè)施。

智能引擎團(tuán)隊(duì)始終堅(jiān)持開放共享的技術(shù)文化,此前已貢獻(xiàn)了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在內(nèi)的多項(xiàng)優(yōu)秀開源項(xiàng)目。

未來(lái),他們期待與開源社區(qū)共同成長(zhǎng),希望將更先進(jìn)的工程能力轉(zhuǎn)化為觸手可及的創(chuàng)作工具。

該團(tuán)隊(duì)所有技術(shù)后續(xù)都會(huì)同步在嗚哩AI平臺(tái)上線,無(wú)論你是專業(yè)設(shè)計(jì)師、內(nèi)容創(chuàng)作者,還是AI愛好者,嗚哩或許都能讓你的創(chuàng)意即刻成像。

參考文獻(xiàn):
[1] Progressive Distillation for Fast Sampling of Diffusion Models
[2] Consistency Models
[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
[4] Improved Distribution Matching Distillation for Fast Image Synthesis
[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
[6] Transition Matching Distillation for Fast Video Generation
[7] Phased Consistency Models

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿森納 8000 萬(wàn)王牌鐵心離隊(duì)!阿爾特塔無(wú)奈松口,兩大豪門搶瘋了

阿森納 8000 萬(wàn)王牌鐵心離隊(duì)!阿爾特塔無(wú)奈松口,兩大豪門搶瘋了

瀾歸序
2026-01-30 05:31:22
某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語(yǔ)?

某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語(yǔ)?

戧詞奪理
2026-01-24 16:05:41
“尼帕病毒”來(lái)勢(shì)洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命

“尼帕病毒”來(lái)勢(shì)洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時(shí)刻能救命

路醫(yī)生健康科普
2026-01-28 12:18:49
美國(guó)公開人造黃金技術(shù) 年產(chǎn)達(dá)5000公斤 國(guó)內(nèi):2306噸黃金白囤了?

美國(guó)公開人造黃金技術(shù) 年產(chǎn)達(dá)5000公斤 國(guó)內(nèi):2306噸黃金白囤了?

科技説説説
2026-01-30 15:22:57
零關(guān)稅!阿根廷放開中國(guó)汽車進(jìn)口

零關(guān)稅!阿根廷放開中國(guó)汽車進(jìn)口

花朵財(cái)經(jīng)
2026-01-30 15:48:56
被核武轟炸45次,羅布泊本該寸草不生,結(jié)果卻成世界最大鉀肥基地

被核武轟炸45次,羅布泊本該寸草不生,結(jié)果卻成世界最大鉀肥基地

鑒史錄
2026-01-23 12:12:32
捷克掌控4大頂端技術(shù),就連美國(guó)也甘拜下風(fēng),這幾項(xiàng)你都知道嗎?

捷克掌控4大頂端技術(shù),就連美國(guó)也甘拜下風(fēng),這幾項(xiàng)你都知道嗎?

史海孤雁
2026-01-29 16:26:13
五盤大戰(zhàn)不敵阿爾卡拉斯,無(wú)緣澳網(wǎng)決賽,茲維列夫?yàn)楹坞y過心理關(guān)?

五盤大戰(zhàn)不敵阿爾卡拉斯,無(wú)緣澳網(wǎng)決賽,茲維列夫?yàn)楹坞y過心理關(guān)?

上觀新聞
2026-01-30 19:01:06
孫守剛、張弓,有新職

孫守剛、張弓,有新職

新京報(bào)政事兒
2026-01-30 10:15:03
請(qǐng)馬上停止給孩子吃!傷肝臟或還影響生殖系統(tǒng),很多店還在偷偷賣

請(qǐng)馬上停止給孩子吃!傷肝臟或還影響生殖系統(tǒng),很多店還在偷偷賣

垚垚分享健康
2026-01-19 17:50:48
華爾街深夜反擊,金價(jià)一夜暴跌3500元,黃金都搬進(jìn)了上海金庫(kù)?

華爾街深夜反擊,金價(jià)一夜暴跌3500元,黃金都搬進(jìn)了上海金庫(kù)?

好賢觀史記
2026-01-30 19:08:06
新加坡地產(chǎn)圈桃色風(fēng)波持續(xù)發(fā)酵:涉事女職員背景引發(fā)熱議

新加坡地產(chǎn)圈桃色風(fēng)波持續(xù)發(fā)酵:涉事女職員背景引發(fā)熱議

新加坡眼
2026-01-30 19:02:24
霍震霆沒有想到,離過年不到一月,77歲的弟弟霍震寰給霍家爭(zhēng)光了

霍震霆沒有想到,離過年不到一月,77歲的弟弟霍震寰給霍家爭(zhēng)光了

寒士之言本尊
2026-01-30 15:08:40
36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
球迷批烏克蘭名將演戲:咋不把600萬(wàn)獎(jiǎng)金捐給祖國(guó)母親 有種去當(dāng)兵

球迷批烏克蘭名將演戲:咋不把600萬(wàn)獎(jiǎng)金捐給祖國(guó)母親 有種去當(dāng)兵

風(fēng)過鄉(xiāng)
2026-01-30 07:42:37
超200人被捕!香港黑幫大佬剛下葬,港警就開始全城掃黑……

超200人被捕!香港黑幫大佬剛下葬,港警就開始全城掃黑……

港漂圈
2026-01-30 20:14:58
法國(guó)貓徒步5個(gè)月從西班牙回家!只為再蹭蹭主人的手

法國(guó)貓徒步5個(gè)月從西班牙回家!只為再蹭蹭主人的手

新歐洲
2026-01-28 21:37:40
7分惜敗!32歲球星,11中3+致命失誤,球迷:打不動(dòng)就別硬撐了

7分惜敗!32歲球星,11中3+致命失誤,球迷:打不動(dòng)就別硬撐了

金山話體育
2026-01-30 09:03:50
3元續(xù)面結(jié)局:面館老板被罰慘,大學(xué)生拿百元賠償,和網(wǎng)友杠上了

3元續(xù)面結(jié)局:面館老板被罰慘,大學(xué)生拿百元賠償,和網(wǎng)友杠上了

法老不說(shuō)教
2026-01-30 16:20:34
農(nóng)民把10頭豬趕到無(wú)人島,12年后再次登島,眼前畫面讓他不敢信

農(nóng)民把10頭豬趕到無(wú)人島,12年后再次登島,眼前畫面讓他不敢信

白云故事
2026-01-22 17:30:05
2026-01-30 23:11:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12090文章數(shù) 176368關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

博士生在意失聯(lián) 姐姐:父母搬磚供他 眼看要熬出頭了

頭條要聞

博士生在意失聯(lián) 姐姐:父母搬磚供他 眼看要熬出頭了

體育要聞

“假賭黑”的子彈,還要再飛一會(huì)兒?jiǎn)幔?/h3>

娛樂要聞

警方通報(bào)金晨交通事故,否認(rèn)網(wǎng)傳騙保

財(cái)經(jīng)要聞

水貝驚雷:揭秘杰我睿百億黃金賭局的背后

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
教育
時(shí)尚
健康

手機(jī)要聞

蘋果iPhone 17在中國(guó)賣爆,庫(kù)克驚到了

藝術(shù)要聞

風(fēng)景畫選刊 | 中國(guó)油畫學(xué)會(huì)三十年藝術(shù)展

教育要聞

數(shù)學(xué)提分的關(guān)鍵,從來(lái)不是多做題

今日熱點(diǎn):《閃靈》今日上映;保險(xiǎn)公司確認(rèn)金晨方曾放棄索賠……

耳石癥分類型,癥狀大不同

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版