国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | 20步也能穩(wěn)住畫質(zhì),這個擴散加速方法不一樣

0
分享至



作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實習(xí)生、浙江大學(xué))主要研究領(lǐng)域為多模態(tài)理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學(xué))主要研究領(lǐng)域分別為多模態(tài)大語言模型、語音理解生成等方向。

近年來,擴散模型已成為圖像、音頻、視頻等多模態(tài)生成的核心技術(shù)路線,并在工業(yè)界得到廣泛應(yīng)用。但在實際落地中仍存在關(guān)鍵瓶頸:工業(yè)級推理預(yù)算通常只有 20–30 步,在這一約束下,許多加速方法仍會出現(xiàn)紋理錯亂、顏色漂移、軌跡偏離等問題,影響生成質(zhì)量與穩(wěn)定性。

這一問題也限制了生成技術(shù)在理解側(cè)訓(xùn)練中的大規(guī)模應(yīng)用,而這對于補充安全場景中的高危稀缺樣本、構(gòu)造生產(chǎn)環(huán)境下的對抗變異樣本至關(guān)重要。高危圖片和視頻往往傳播快、危害大,但樣本數(shù)量有限,因此需要借助生成技術(shù)大規(guī)模合成相關(guān)數(shù)據(jù),以提升審核模型的識別能力。

同時,AI 時代用戶生成變異樣本的成本大幅降低,使內(nèi)容安全面臨更強的對抗壓力。因此,需要在管控側(cè)引入生成技術(shù),構(gòu)造對抗訓(xùn)練樣本,提升審核模型的魯棒性。然而,對于這類大規(guī)模工業(yè)應(yīng)用而言,擴散模型過高的推理時延仍然不可接受。如何在有限步數(shù)預(yù)算下兼顧生成質(zhì)量與推理效率,已成為工業(yè)級擴散落地的核心挑戰(zhàn)。

針對這一挑戰(zhàn),阿里安全 AGI 實驗室 - 御風(fēng)大模型團隊聯(lián)合浙江大學(xué)提出了一種全新的擴散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構(gòu)建殘差預(yù)測框架,在無需訓(xùn)練、即插即用的前提下,實現(xiàn)對擴散采樣過程的高效加速,并在低步數(shù)設(shè)置下依然保持穩(wěn)定、高質(zhì)量的生成效果。實驗表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務(wù)上都取得了出色表現(xiàn)。例如,在 FLUX.1-dev 上可實現(xiàn) 2.88× 加速,在 Wan2.1 視頻生成模型上可實現(xiàn) 1.72× 加速,同時顯著優(yōu)于已有緩存類加速方法?;谝陨霞铀俜椒ǎL(fēng)大模型團隊得以產(chǎn)出大量高質(zhì)量冷門風(fēng)險訓(xùn)練樣本,大幅度提升模型對風(fēng)險的視覺理解能力,賦能百項以上廣泛業(yè)務(wù)場景。

該研究論文已被 CVPR 2026 錄用。



  • 論文標(biāo)題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
  • 論文鏈接:https://arxiv.org/pdf/2603.02943
  • Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

擴散模型的生成質(zhì)量雖然已經(jīng)達到很高水平,但其推理效率始終是落地應(yīng)用中的核心制約因素。由于擴散采樣依賴多步迭代去噪,一個樣本通常需要經(jīng)歷數(shù)十次甚至上百次網(wǎng)絡(luò)前向計算,這使得模型在實時交互、批量生成和資源受限場景中面臨較高的時延與成本。

為降低這一開銷,近年來出現(xiàn)了多類擴散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時間步之間特征變化較小的性質(zhì),減少重復(fù)計算,從而實現(xiàn) “免訓(xùn)練、可插拔” 的推理加速?,F(xiàn)有方法主要包括兩種路線:

(1)基于復(fù)用的方法:直接緩存并復(fù)用中間特征;

(2)基于預(yù)測的方法:根據(jù)歷史特征變化趨勢預(yù)測未來特征。

盡管這些方法在較高采樣步數(shù)(如 50 步)下能夠取得一定加速效果,但在工業(yè)場景更常見的 20~30 步低步數(shù)采樣中,其局限性會明顯暴露出來。隨著時間步間隔變大,特征之間的相似性快速下降:

(1)復(fù)用類方法容易因緩存特征與當(dāng)前狀態(tài)不匹配而產(chǎn)生偏差;

(2)多項式外推類方法則容易因誤差積累導(dǎo)致軌跡漂移。

如下圖所示,在低步數(shù)設(shè)置下,已有加速方法往往會帶來明顯的畫質(zhì)下降,而 TC-Padé 能夠在實現(xiàn)更高加速比的同時,保持更好的視覺一致性。



圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩(wěn)定的紋理與色彩表現(xiàn)

為何現(xiàn)有方法在低步數(shù)下容易失效?低步數(shù)采樣意味著:相鄰?fù)评聿街g的時間跨度更大,特征演化不再平滑。這會帶來兩個直接問題。第一,傳統(tǒng)緩存復(fù)用方法默認(rèn)相鄰時間步特征 “足夠相似”,但在低步數(shù)場景下,這一假設(shè)很容易被打破,導(dǎo)致緩存信息與當(dāng)前狀態(tài)錯位,從而影響生成質(zhì)量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項式本質(zhì)上更適合小范圍、平滑變化的趨勢建模。

當(dāng)時間間隔增大、特征變化更復(fù)雜時,就容易出現(xiàn)外推誤差放大、采樣軌跡偏移的問題。論文通過 PCA 可視化進一步表明,已有方法在加速采樣過程中往往無法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現(xiàn)出更強的穩(wěn)定性。



圖 2 不同緩存方法在 20 步采樣設(shè)置下的軌跡一致性對比,TC-Padé 更接近原始軌跡,體現(xiàn)出更強的穩(wěn)定性

二、研究方法:TC-Padé 核心創(chuàng)新

針對上述問題,本文提出了 TC-Padé,從 “預(yù)測對象”“預(yù)測形式” 和 “采樣階段策略” 三個層面重新設(shè)計擴散緩存加速框架,核心包括以下兩點:

1、創(chuàng)新一:基于) Padé 逼近的軌跡一致性殘差預(yù)測

與直接預(yù)測原始特征不同,TC-Padé 首先將建模對象轉(zhuǎn)向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時間連續(xù)性和更穩(wěn)定的變化規(guī)律,因此更適合做跨時間步預(yù)測。

殘差定義如下:



其中,x_{t} l 和 x_{t} r 分別表示時間步 t 下不同層的特征表示,R_{t} l:r 表示對應(yīng)層間殘差。

在此基礎(chǔ)上,TC-Padé 使用 Padé 逼近替代傳統(tǒng)的泰勒多項式展開。Padé 逼近采用 “分子多項式 / 分母多項式” 的有理函數(shù)形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數(shù)、大跨度時間間隔下具有更好的穩(wěn)定性。其一般形式為:



在本文中,為平衡效果與開銷,采用了低階 Padé 型預(yù)測器,對當(dāng)前殘差進行預(yù)測:



進一步可恢復(fù)當(dāng)前時刻輸出特征:



這一設(shè)計避免了直接在高維原始特征空間進行預(yù)測,使模型能夠更聚焦于結(jié)構(gòu)更穩(wěn)定的殘差動態(tài),從而有效降低低步數(shù)采樣中的誤差累積問題。

2、創(chuàng)新二:面向去噪階段差異的步感知預(yù)測策略

擴散模型在不同采樣階段的動態(tài)特性并不相同:早期階段,噪聲高,結(jié)構(gòu)變化劇烈;中期階段,整體結(jié)構(gòu)逐漸穩(wěn)定,適合進行軌跡預(yù)測;后期階段,主要進行細節(jié)修復(fù)與紋理優(yōu)化?,F(xiàn)有方法通常采用統(tǒng)一策略處理整個去噪過程,難以適應(yīng)不同階段的變化特點。為此,TC-Padé 提出了一種去噪步感知(step-aware)預(yù)測策略,針對不同階段采用不同的殘差更新方式:



其中,T 為總?cè)ピ氩綌?shù)。這一策略使 TC-Padé 能夠在采樣早期避免過度外推,在中期充分發(fā)揮 Padé 逼近的優(yōu)勢,并在后期捕捉更細粒度的變化趨勢,從而提升整體加速過程的穩(wěn)定性與生成質(zhì)量。

3、創(chuàng)新三:自適應(yīng)軌跡穩(wěn)定性判別機制

除了預(yù)測方式的設(shè)計外,TC-Padé 還引入了一個軌跡穩(wěn)定性指標(biāo)(Trajectory Stableness Indicator, TSI),用于判斷當(dāng)前時間段是否適合跳過計算、直接使用預(yù)測結(jié)果。其定義為:



當(dāng)軌跡變化平穩(wěn)時,模型可安全地跳過部分計算并采用預(yù)測;當(dāng)軌跡不穩(wěn)定時,則恢復(fù)完整計算,以保證生成質(zhì)量。這樣就實現(xiàn)了在穩(wěn)定區(qū)間盡可能加速,在關(guān)鍵變化區(qū)間保留精細計算的自適應(yīng)推理機制。



圖 3 在每個緩存區(qū)間內(nèi),系統(tǒng)通過軌跡穩(wěn)定性指標(biāo)動態(tài)判斷是執(zhí)行完整計算還是進行殘差預(yù)測

三、實驗亮點:低步數(shù)下依然保持高質(zhì)量與高速度

(一)圖像生成任務(wù):更快的同時保持更高保真度

在文本到圖像生成任務(wù)中,TC-Padé 在 FLUX.1-dev 上展現(xiàn)出非常突出的效率 — 質(zhì)量平衡能力。實驗結(jié)果表明:

(1)TC-Padé(fast)實現(xiàn) 2.88× 加速

(2)在 FID、CLIP Score 等指標(biāo)上保持與原始模型接近的性能

(3)在 PSNR、SSIM、LPIPS 等保真度指標(biāo)上明顯優(yōu)于其他緩存類方法

相比之下,已有方法雖然在部分設(shè)置下可以進一步壓縮 FLOPs,但往往伴隨顯著的畫質(zhì)下降,甚至出現(xiàn)無法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結(jié)構(gòu)與語義一致性。



表 1 方法在實現(xiàn)高達 2.88× 加速的同時,依然保持高質(zhì)量圖像生成效果

(二)視頻生成任務(wù):在時序生成中同樣有效

視頻生成對一致性要求更高,任何預(yù)測偏差都可能在時間維度被進一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優(yōu)異結(jié)果:

(1)1.72× 推理加速,1.74× FLOPs 降低

(2)VBench-2.0 總分僅較原始 20 步基線小幅下降

(3)在 PSNR、SSIM、LPIPS 等指標(biāo)上顯著優(yōu)于泰勒預(yù)測類方法

這說明 TC-Padé 不僅適用于靜態(tài)圖像生成,也能夠較好適配視頻場景中的復(fù)雜時空動態(tài)。



表 2 在視頻生成任務(wù)中的效果對比。相較于其他方法,TC-Padé 在保證視頻內(nèi)容穩(wěn)定性的同時實現(xiàn)了更高效率

(三)類別條件圖像生成:兼顧樣本保真度與多樣性

在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務(wù)中,TC-Padé 同樣表現(xiàn)穩(wěn)定:

(1)1.46× 時延加速,1.64× FLOPs 降低

(2)FID 優(yōu)于對比的緩存加速方法

(3)Precision 與 Recall 保持更好平衡

這表明 TC-Padé 不僅適用于文本條件生成任務(wù),也能在標(biāo)準(zhǔn)視覺生成基準(zhǔn)上保持較強競爭力。



表 3 TC-Padé 在 DiT-XL/2 上的定量結(jié)果,展示了其在類別條件圖像生成任務(wù)中的穩(wěn)定泛化能力

(四)消融實驗:關(guān)鍵設(shè)計帶來穩(wěn)定收益

論文進一步通過消融實驗驗證了 TC-Padé 各組成模塊的有效性。

1、殘差緩存粒度分析:實驗比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結(jié)果顯示,在整個 block 粒度上進行殘差緩存與預(yù)測時效果最佳,能夠在速度和質(zhì)量之間取得更優(yōu)平衡。

2、穩(wěn)定性閾值分析:通過調(diào)整軌跡穩(wěn)定性閾值 θ,可以靈活控制加速比與質(zhì)量之間的權(quán)衡。實驗顯示,θ=0.7 時可獲得最高 2.88× 加速,而 θ=1.0 則在質(zhì)量和效率之間表現(xiàn)出更均衡的綜合效果。

3、與量化技術(shù)兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優(yōu)化技術(shù)疊加使用。實驗顯示,在結(jié)合量化后,其整體時延下降可進一步擴大,體現(xiàn)出良好的實際部署潛力。

四、總結(jié)

TC-Padé 針對擴散模型低步數(shù)采樣中 “加速容易、穩(wěn)定很難” 的核心問題,提出了一套兼顧理論與實踐的新方案。通過基于 Padé 逼近的殘差預(yù)測、步感知預(yù)測策略以及軌跡穩(wěn)定性自適應(yīng)判別機制,該方法在無需訓(xùn)練的條件下顯著提升了擴散推理效率,并在多個任務(wù)上保持了高質(zhì)量生成效果。對于追求低延遲、高吞吐、可落地部署的擴散模型應(yīng)用而言,TC-Padé 提供了一種具有現(xiàn)實價值的高效加速思路,也為未來擴散模型推理優(yōu)化打開了新的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人民日報都下場了!張雪奪冠沒火,12天后在墨西哥火得一塌糊涂

人民日報都下場了!張雪奪冠沒火,12天后在墨西哥火得一塌糊涂

童叔不飆車
2026-04-09 21:27:53
中紀(jì)委:禁止機關(guān)事業(yè)單位在編職工去做這幾種副業(yè)!

中紀(jì)委:禁止機關(guān)事業(yè)單位在編職工去做這幾種副業(yè)!

細說職場
2026-04-09 15:34:47
男子吐槽公司旅游去了自己從小長大的地方,我卻笑死在評論區(qū)!

男子吐槽公司旅游去了自己從小長大的地方,我卻笑死在評論區(qū)!

另子維愛讀史
2026-04-10 11:50:41
亞錦賽5場大爆冷!高昉潔親吻球場山口茜送祝福,國羽4強名單出爐

亞錦賽5場大爆冷!高昉潔親吻球場山口茜送祝福,國羽4強名單出爐

舟望停云
2026-04-11 00:26:45
保時捷逆行威脅后續(xù)!車主“底褲”被扒,正臉流出,結(jié)局大快人心

保時捷逆行威脅后續(xù)!車主“底褲”被扒,正臉流出,結(jié)局大快人心

以茶帶書
2026-04-10 20:08:51
誰能懂我的心:后來我才明白,最先該懂的人是自己

誰能懂我的心:后來我才明白,最先該懂的人是自己

疾跑的小蝸牛
2026-04-10 23:12:02
嘴瓢說出來的話有多離譜?網(wǎng)友:清一色的人生陰影哦

嘴瓢說出來的話有多離譜?網(wǎng)友:清一色的人生陰影哦

解讀熱點事件
2026-04-11 00:05:07
當(dāng)不成首相了?高市身體出了問題,日本請求對話,伊朗潑了冷水

當(dāng)不成首相了?高市身體出了問題,日本請求對話,伊朗潑了冷水

絕世的畫a
2026-04-09 20:38:57
不止打伊朗!美以發(fā)動斬首行動同時,對中國電網(wǎng)下手,動作曝光

不止打伊朗!美以發(fā)動斬首行動同時,對中國電網(wǎng)下手,動作曝光

心靈得以滋養(yǎng)
2026-04-09 18:36:32
安徽一廳干履新!三地黨政主要負責(zé)同志調(diào)整

安徽一廳干履新!三地黨政主要負責(zé)同志調(diào)整

鳳凰網(wǎng)安徽
2026-04-10 16:44:57
中超只踢了四輪,泰山隊球迷該向崔康熙道歉了,當(dāng)然這不怪韓鵬

中超只踢了四輪,泰山隊球迷該向崔康熙道歉了,當(dāng)然這不怪韓鵬

姜大叔侃球
2026-04-10 10:40:54
鯨魚賣身給大佬了

鯨魚賣身給大佬了

毒舌扒姨太
2026-04-10 22:39:03
震驚!2025年收入216360.18元,一份南京小學(xué)教師個稅清單引熱議

震驚!2025年收入216360.18元,一份南京小學(xué)教師個稅清單引熱議

火山詩話
2026-04-10 15:51:39
女神穿黑裙李小冉,深V展胸圍,這身材是真實存在的嗎?

女神穿黑裙李小冉,深V展胸圍,這身材是真實存在的嗎?

娛樂領(lǐng)航家
2026-04-10 20:30:08
遲先生哭了 ,陳麗華追悼會現(xiàn)場,兒子兒媳接待眾人,孫子罕見露面

遲先生哭了 ,陳麗華追悼會現(xiàn)場,兒子兒媳接待眾人,孫子罕見露面

起喜電影
2026-04-10 07:57:14
梁文鋒稱DeepSeek V4于4月下旬發(fā)布,將以Apache 2.0協(xié)議開源

梁文鋒稱DeepSeek V4于4月下旬發(fā)布,將以Apache 2.0協(xié)議開源

PChome電腦之家
2026-04-10 19:13:14
永遠不會倒閉的四大行業(yè),選對一輩子衣食無憂!

永遠不會倒閉的四大行業(yè),選對一輩子衣食無憂!

細說職場
2026-04-08 06:22:58
上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時傻眼了

上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時傻眼了

詭譎怪談
2025-05-02 00:08:52
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
一個去責(zé)任化的中年男人

一個去責(zé)任化的中年男人

求實處
2026-04-10 00:24:53
2026-04-11 02:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142621關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關(guān)鍵窗口

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關(guān)鍵窗口

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認(rèn)戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

數(shù)碼
家居
教育
時尚
健康

數(shù)碼要聞

聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

家居要聞

復(fù)古風(fēng)格 自然簡約

教育要聞

山東中考數(shù)學(xué),0的倒數(shù)是多少?

今日熱點:陳添祥長文道歉;夏克立曾給前經(jīng)紀(jì)人傳上廁所照片……

干細胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關(guān)懷版