国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | 20步也能穩(wěn)住畫質(zhì),這個擴散加速方法不一樣

0
分享至



作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實習生、浙江大學)主要研究領(lǐng)域為多模態(tài)理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學)主要研究領(lǐng)域分別為多模態(tài)大語言模型、語音理解生成等方向。

近年來,擴散模型已成為圖像、音頻、視頻等多模態(tài)生成的核心技術(shù)路線,并在工業(yè)界得到廣泛應(yīng)用。但在實際落地中仍存在關(guān)鍵瓶頸:工業(yè)級推理預(yù)算通常只有 20–30 步,在這一約束下,許多加速方法仍會出現(xiàn)紋理錯亂、顏色漂移、軌跡偏離等問題,影響生成質(zhì)量與穩(wěn)定性。

這一問題也限制了生成技術(shù)在理解側(cè)訓練中的大規(guī)模應(yīng)用,而這對于補充安全場景中的高危稀缺樣本、構(gòu)造生產(chǎn)環(huán)境下的對抗變異樣本至關(guān)重要。高危圖片和視頻往往傳播快、危害大,但樣本數(shù)量有限,因此需要借助生成技術(shù)大規(guī)模合成相關(guān)數(shù)據(jù),以提升審核模型的識別能力。

同時,AI 時代用戶生成變異樣本的成本大幅降低,使內(nèi)容安全面臨更強的對抗壓力。因此,需要在管控側(cè)引入生成技術(shù),構(gòu)造對抗訓練樣本,提升審核模型的魯棒性。然而,對于這類大規(guī)模工業(yè)應(yīng)用而言,擴散模型過高的推理時延仍然不可接受。如何在有限步數(shù)預(yù)算下兼顧生成質(zhì)量與推理效率,已成為工業(yè)級擴散落地的核心挑戰(zhàn)。

針對這一挑戰(zhàn),阿里安全 AGI 實驗室 - 御風大模型團隊聯(lián)合浙江大學提出了一種全新的擴散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構(gòu)建殘差預(yù)測框架,在無需訓練、即插即用的前提下,實現(xiàn)對擴散采樣過程的高效加速,并在低步數(shù)設(shè)置下依然保持穩(wěn)定、高質(zhì)量的生成效果。實驗表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務(wù)上都取得了出色表現(xiàn)。例如,在 FLUX.1-dev 上可實現(xiàn) 2.88× 加速,在 Wan2.1 視頻生成模型上可實現(xiàn) 1.72× 加速,同時顯著優(yōu)于已有緩存類加速方法?;谝陨霞铀俜椒ǎL大模型團隊得以產(chǎn)出大量高質(zhì)量冷門風險訓練樣本,大幅度提升模型對風險的視覺理解能力,賦能百項以上廣泛業(yè)務(wù)場景。

該研究論文已被 CVPR 2026 錄用。



  • 論文標題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
  • 論文鏈接:https://arxiv.org/pdf/2603.02943
  • Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

擴散模型的生成質(zhì)量雖然已經(jīng)達到很高水平,但其推理效率始終是落地應(yīng)用中的核心制約因素。由于擴散采樣依賴多步迭代去噪,一個樣本通常需要經(jīng)歷數(shù)十次甚至上百次網(wǎng)絡(luò)前向計算,這使得模型在實時交互、批量生成和資源受限場景中面臨較高的時延與成本。

為降低這一開銷,近年來出現(xiàn)了多類擴散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時間步之間特征變化較小的性質(zhì),減少重復計算,從而實現(xiàn) “免訓練、可插拔” 的推理加速?,F(xiàn)有方法主要包括兩種路線:

(1)基于復用的方法:直接緩存并復用中間特征;

(2)基于預(yù)測的方法:根據(jù)歷史特征變化趨勢預(yù)測未來特征。

盡管這些方法在較高采樣步數(shù)(如 50 步)下能夠取得一定加速效果,但在工業(yè)場景更常見的 20~30 步低步數(shù)采樣中,其局限性會明顯暴露出來。隨著時間步間隔變大,特征之間的相似性快速下降:

(1)復用類方法容易因緩存特征與當前狀態(tài)不匹配而產(chǎn)生偏差;

(2)多項式外推類方法則容易因誤差積累導致軌跡漂移。

如下圖所示,在低步數(shù)設(shè)置下,已有加速方法往往會帶來明顯的畫質(zhì)下降,而 TC-Padé 能夠在實現(xiàn)更高加速比的同時,保持更好的視覺一致性。



圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩(wěn)定的紋理與色彩表現(xiàn)

為何現(xiàn)有方法在低步數(shù)下容易失效?低步數(shù)采樣意味著:相鄰推理步之間的時間跨度更大,特征演化不再平滑。這會帶來兩個直接問題。第一,傳統(tǒng)緩存復用方法默認相鄰時間步特征 “足夠相似”,但在低步數(shù)場景下,這一假設(shè)很容易被打破,導致緩存信息與當前狀態(tài)錯位,從而影響生成質(zhì)量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項式本質(zhì)上更適合小范圍、平滑變化的趨勢建模。

當時間間隔增大、特征變化更復雜時,就容易出現(xiàn)外推誤差放大、采樣軌跡偏移的問題。論文通過 PCA 可視化進一步表明,已有方法在加速采樣過程中往往無法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現(xiàn)出更強的穩(wěn)定性。



圖 2 不同緩存方法在 20 步采樣設(shè)置下的軌跡一致性對比,TC-Padé 更接近原始軌跡,體現(xiàn)出更強的穩(wěn)定性

二、研究方法:TC-Padé 核心創(chuàng)新

針對上述問題,本文提出了 TC-Padé,從 “預(yù)測對象”“預(yù)測形式” 和 “采樣階段策略” 三個層面重新設(shè)計擴散緩存加速框架,核心包括以下兩點:

1、創(chuàng)新一:基于) Padé 逼近的軌跡一致性殘差預(yù)測

與直接預(yù)測原始特征不同,TC-Padé 首先將建模對象轉(zhuǎn)向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時間連續(xù)性和更穩(wěn)定的變化規(guī)律,因此更適合做跨時間步預(yù)測。

殘差定義如下:



其中,x_{t} l 和 x_{t} r 分別表示時間步 t 下不同層的特征表示,R_{t} l:r 表示對應(yīng)層間殘差。

在此基礎(chǔ)上,TC-Padé 使用 Padé 逼近替代傳統(tǒng)的泰勒多項式展開。Padé 逼近采用 “分子多項式 / 分母多項式” 的有理函數(shù)形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數(shù)、大跨度時間間隔下具有更好的穩(wěn)定性。其一般形式為:



在本文中,為平衡效果與開銷,采用了低階 Padé 型預(yù)測器,對當前殘差進行預(yù)測:



進一步可恢復當前時刻輸出特征:



這一設(shè)計避免了直接在高維原始特征空間進行預(yù)測,使模型能夠更聚焦于結(jié)構(gòu)更穩(wěn)定的殘差動態(tài),從而有效降低低步數(shù)采樣中的誤差累積問題。

2、創(chuàng)新二:面向去噪階段差異的步感知預(yù)測策略

擴散模型在不同采樣階段的動態(tài)特性并不相同:早期階段,噪聲高,結(jié)構(gòu)變化劇烈;中期階段,整體結(jié)構(gòu)逐漸穩(wěn)定,適合進行軌跡預(yù)測;后期階段,主要進行細節(jié)修復與紋理優(yōu)化?,F(xiàn)有方法通常采用統(tǒng)一策略處理整個去噪過程,難以適應(yīng)不同階段的變化特點。為此,TC-Padé 提出了一種去噪步感知(step-aware)預(yù)測策略,針對不同階段采用不同的殘差更新方式:



其中,T 為總?cè)ピ氩綌?shù)。這一策略使 TC-Padé 能夠在采樣早期避免過度外推,在中期充分發(fā)揮 Padé 逼近的優(yōu)勢,并在后期捕捉更細粒度的變化趨勢,從而提升整體加速過程的穩(wěn)定性與生成質(zhì)量。

3、創(chuàng)新三:自適應(yīng)軌跡穩(wěn)定性判別機制

除了預(yù)測方式的設(shè)計外,TC-Padé 還引入了一個軌跡穩(wěn)定性指標(Trajectory Stableness Indicator, TSI),用于判斷當前時間段是否適合跳過計算、直接使用預(yù)測結(jié)果。其定義為:



當軌跡變化平穩(wěn)時,模型可安全地跳過部分計算并采用預(yù)測;當軌跡不穩(wěn)定時,則恢復完整計算,以保證生成質(zhì)量。這樣就實現(xiàn)了在穩(wěn)定區(qū)間盡可能加速,在關(guān)鍵變化區(qū)間保留精細計算的自適應(yīng)推理機制。



圖 3 在每個緩存區(qū)間內(nèi),系統(tǒng)通過軌跡穩(wěn)定性指標動態(tài)判斷是執(zhí)行完整計算還是進行殘差預(yù)測

三、實驗亮點:低步數(shù)下依然保持高質(zhì)量與高速度

(一)圖像生成任務(wù):更快的同時保持更高保真度

在文本到圖像生成任務(wù)中,TC-Padé 在 FLUX.1-dev 上展現(xiàn)出非常突出的效率 — 質(zhì)量平衡能力。實驗結(jié)果表明:

(1)TC-Padé(fast)實現(xiàn) 2.88× 加速

(2)在 FID、CLIP Score 等指標上保持與原始模型接近的性能

(3)在 PSNR、SSIM、LPIPS 等保真度指標上明顯優(yōu)于其他緩存類方法

相比之下,已有方法雖然在部分設(shè)置下可以進一步壓縮 FLOPs,但往往伴隨顯著的畫質(zhì)下降,甚至出現(xiàn)無法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結(jié)構(gòu)與語義一致性。



表 1 方法在實現(xiàn)高達 2.88× 加速的同時,依然保持高質(zhì)量圖像生成效果

(二)視頻生成任務(wù):在時序生成中同樣有效

視頻生成對一致性要求更高,任何預(yù)測偏差都可能在時間維度被進一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優(yōu)異結(jié)果:

(1)1.72× 推理加速,1.74× FLOPs 降低

(2)VBench-2.0 總分僅較原始 20 步基線小幅下降

(3)在 PSNR、SSIM、LPIPS 等指標上顯著優(yōu)于泰勒預(yù)測類方法

這說明 TC-Padé 不僅適用于靜態(tài)圖像生成,也能夠較好適配視頻場景中的復雜時空動態(tài)。



表 2 在視頻生成任務(wù)中的效果對比。相較于其他方法,TC-Padé 在保證視頻內(nèi)容穩(wěn)定性的同時實現(xiàn)了更高效率

(三)類別條件圖像生成:兼顧樣本保真度與多樣性

在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務(wù)中,TC-Padé 同樣表現(xiàn)穩(wěn)定:

(1)1.46× 時延加速,1.64× FLOPs 降低

(2)FID 優(yōu)于對比的緩存加速方法

(3)Precision 與 Recall 保持更好平衡

這表明 TC-Padé 不僅適用于文本條件生成任務(wù),也能在標準視覺生成基準上保持較強競爭力。



表 3 TC-Padé 在 DiT-XL/2 上的定量結(jié)果,展示了其在類別條件圖像生成任務(wù)中的穩(wěn)定泛化能力

(四)消融實驗:關(guān)鍵設(shè)計帶來穩(wěn)定收益

論文進一步通過消融實驗驗證了 TC-Padé 各組成模塊的有效性。

1、殘差緩存粒度分析:實驗比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結(jié)果顯示,在整個 block 粒度上進行殘差緩存與預(yù)測時效果最佳,能夠在速度和質(zhì)量之間取得更優(yōu)平衡。

2、穩(wěn)定性閾值分析:通過調(diào)整軌跡穩(wěn)定性閾值 θ,可以靈活控制加速比與質(zhì)量之間的權(quán)衡。實驗顯示,θ=0.7 時可獲得最高 2.88× 加速,而 θ=1.0 則在質(zhì)量和效率之間表現(xiàn)出更均衡的綜合效果。

3、與量化技術(shù)兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優(yōu)化技術(shù)疊加使用。實驗顯示,在結(jié)合量化后,其整體時延下降可進一步擴大,體現(xiàn)出良好的實際部署潛力。

四、總結(jié)

TC-Padé 針對擴散模型低步數(shù)采樣中 “加速容易、穩(wěn)定很難” 的核心問題,提出了一套兼顧理論與實踐的新方案。通過基于 Padé 逼近的殘差預(yù)測、步感知預(yù)測策略以及軌跡穩(wěn)定性自適應(yīng)判別機制,該方法在無需訓練的條件下顯著提升了擴散推理效率,并在多個任務(wù)上保持了高質(zhì)量生成效果。對于追求低延遲、高吞吐、可落地部署的擴散模型應(yīng)用而言,TC-Padé 提供了一種具有現(xiàn)實價值的高效加速思路,也為未來擴散模型推理優(yōu)化打開了新的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

上觀新聞
2026-04-11 14:49:04
A股:不用等周一開盤了,明天(4月13日),不出意外會這么走

A股:不用等周一開盤了,明天(4月13日),不出意外會這么走

財經(jīng)大拿
2026-04-12 07:10:10
上海二手房單日成交1632套:連續(xù)打破5年峰值紀錄,高端房源成交占比提升

上海二手房單日成交1632套:連續(xù)打破5年峰值紀錄,高端房源成交占比提升

澎湃新聞
2026-04-12 13:52:27
角力伊斯蘭堡,美伊都到了!宮殿風格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗;預(yù)計雙方各占酒店一邊,避免走廊偶遇

角力伊斯蘭堡,美伊都到了!宮殿風格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗;預(yù)計雙方各占酒店一邊,避免走廊偶遇

每日經(jīng)濟新聞
2026-04-11 16:34:11
明天周一A股將會怎么走?到底是漲是跌?我做了一個大膽的預(yù)判

明天周一A股將會怎么走?到底是漲是跌?我做了一個大膽的預(yù)判

股市皆大事
2026-04-12 11:30:57
馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

楓塵余往逝
2026-04-11 23:52:17
48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

羅氏八卦
2026-04-11 18:00:03
美媒預(yù)測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

美媒預(yù)測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

你的籃球頻道
2026-04-12 12:01:46
笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
48 小時 2 架飛機:鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機抵臺

48 小時 2 架飛機:鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機抵臺

眼界看視野
2026-04-11 20:50:20
鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
浪姐7一公排名:蕭薔團墊底,李小冉團喜劇效果拉滿,大黑馬誕生

浪姐7一公排名:蕭薔團墊底,李小冉團喜劇效果拉滿,大黑馬誕生

娛樂圈筆娛君
2026-04-12 11:17:01
巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

參考消息
2026-04-11 19:52:15
太復雜了!天津一司機把奔馳開進了中心路的地道…差幾步就到平地了…

太復雜了!天津一司機把奔馳開進了中心路的地道…差幾步就到平地了…

天津人
2026-04-11 15:34:18
4人輪休+2人缺陣!火箭隊超級殘陣對戰(zhàn)灰熊!預(yù)計全新首發(fā)出爐

4人輪休+2人缺陣!火箭隊超級殘陣對戰(zhàn)灰熊!預(yù)計全新首發(fā)出爐

熊哥愛籃球
2026-04-12 12:36:12
不要錯過!下周,光通信測試龍頭來了

不要錯過!下周,光通信測試龍頭來了

新浪財經(jīng)
2026-04-12 13:37:47
投資群2947人,2946人是托:殺豬盤進化史,只有你一個獵物

投資群2947人,2946人是托:殺豬盤進化史,只有你一個獵物

覺叔說
2026-04-11 13:57:01
伊朗代表團離開巴基斯坦

伊朗代表團離開巴基斯坦

上觀新聞
2026-04-12 12:54:04
體檢報告出現(xiàn)這幾個字,距離腦梗只有一步之遙!別等嚴重了才后悔

體檢報告出現(xiàn)這幾個字,距離腦梗只有一步之遙!別等嚴重了才后悔

荊醫(yī)生科普
2026-04-11 14:23:04
解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
2026-04-12 16:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產(chǎn):尊重同行

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
健康
家居
藝術(shù)
公開課

多款經(jīng)典卡普空游戲獲Steam Deck兼容效果提升

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

復古風格 自然簡約

藝術(shù)要聞

日本建筑大師的中國首個住宅項目,被防盜網(wǎng)毀了?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版