国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓擴散模型「可解釋」不再降質(zhì),開啟圖片編輯新思路

0
分享至



過去三年,擴散模型席卷圖像生成領域。以 DiT (Diffusion Transformer) 為代表的新一代架構(gòu)不斷刷新圖像質(zhì)量的極限,讓模型愈發(fā)接近真實世界的視覺規(guī)律。

然而,與 LLM 可解釋性研究的蓬勃發(fā)展相對,擴散模型內(nèi)部的語義結(jié)構(gòu)、時間規(guī)律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優(yōu)化架構(gòu),但外界無法真正理解擴散模型在生成過程中的「思考方式」。

更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動……無論采用哪種方法,只要試圖將擴散模型拆開來看,生成質(zhì)量就會顯著劣化。這讓「可解釋擴散模型」在很長一段時間里被視為不切實際的小眾方向。

在這樣的背景下,香港中文大學 MMLab 與上海人工智能實驗室的研究團隊提出了一個不同的觀點:擴散模型作為當今視覺世界最重要的生成器,其內(nèi)部機制不應永遠處于不可見狀態(tài);可解釋性也不應該以犧牲生成質(zhì)量為代價。

基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個真正意義上面向擴散 Transformer 的時序稀疏自編碼器框架。



  • 論文標題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

讓「時序」成為擴散可解釋性的核心

以往的可解釋方法大多忽視了擴散過程最大的特點:生成是一個隨時間展開的漸進式構(gòu)造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結(jié)構(gòu),后期步驟填充材質(zhì)與細節(jié)。如果忽略這條時間線,擴散模型看起來就像一團混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個靜態(tài)特征,而是讓模型自己在時間維度上對齊語義:

同一個因子會在不同時間步中保持一致的語義軌跡,最終形成一個可讀、可控、穩(wěn)固的「時間語義剖面」。

也正是在這樣的時序框架下,擴散模型內(nèi)部原本模糊的過程第一次被清晰呈現(xiàn)出來:粗結(jié)構(gòu)從噪聲中浮現(xiàn)、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時間軸被完整雕刻出來。

更重要的是,這一切并不會破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進行無損重構(gòu),擴散軌跡保持穩(wěn)定,模型幾乎感受不到被「觀察」的存在。同時在 scaling latent 維度時,也優(yōu)于原有 vanilla SAE 方法。



TIDE 架構(gòu)與訓練

在 Stable Diffusion XL、PixArt-α、Flux 等主流擴散框架上,TIDE 將擴散特征分解為具有可控語義的因子:

負責輪廓的因子、負責物體姿態(tài)的因子、負責材質(zhì)紋理的因子……甚至可以捕捉到跨時間的概念演化。基于這些因子,研究團隊構(gòu)建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復調(diào)參,而是可以沿著清晰的語義方向直接操控擴散過程。例如:

  • 提升紋理細節(jié)而不改變?nèi)纸Y(jié)構(gòu)
  • 調(diào)整物體姿態(tài)但保持背景一致
  • 加強某類語義而不干擾其它部分



這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴散模型有望出現(xiàn)一種全新的「因子級編輯器」,具備高度可控性與透明性。

與此同時,TIDE 對模型生成質(zhì)量的影響幾乎可以忽略不計。FID、sFID 變化小于 0.1%,噪聲預測軌跡保持穩(wěn)定,實現(xiàn)了真正意義上的「可解釋而不降質(zhì)」。

TIDE 的效果

TIDE 在不同設置、不同模型規(guī)模以及不同任務維度下的整體表現(xiàn)。無論是在超參數(shù)選擇、在 DiT 不同層級進行因子學習,還是在 SDXL、FLUX-dev 等主流擴散架構(gòu)上的泛化能力,TIDE 都表現(xiàn)出高度穩(wěn)定且持續(xù)的優(yōu)勢。

可以看到,TIDE 在幾乎不增加 FID 代價的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區(qū)域關系理解(空間與非空間關系),其中多處指標在表中以綠色標記為最優(yōu)表現(xiàn)。

此外,在安全性評測部分,TIDE 相比多個現(xiàn)有方法大幅降低了攻擊成功率,顯示出更穩(wěn)健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質(zhì)量、可解釋的語義因子,還在保持生成質(zhì)量的同時,提升了模型的結(jié)構(gòu)理解、關系推理與安全性,成為一種真正可泛化、可落地的可解釋擴散框架。



TIDE 的意義:

補齊擴散模型的「理解」能力

擴散模型已經(jīng)成為現(xiàn)代視覺生成系統(tǒng)的核心支柱,但它們的內(nèi)部機制一直缺乏系統(tǒng)、透明的解釋路徑。TIDE 的出現(xiàn)不僅提供了首個真正實用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時間」這條線索觀察擴散模型內(nèi)部的語義結(jié)構(gòu)。



這種理解能力將直接影響未來的多個方向:

  • 更可控、更穩(wěn)健的擴散編輯系統(tǒng)
  • 統(tǒng)一理解——生成模型的因子級橋接
  • 擴散模型的因果與語義理論研究
  • 新一代透明、可信的視覺生成系統(tǒng)

TIDE 不僅是一個方法,更是一種新的研究范式:擴散模型并非不可解釋,只是缺少一個合適的視角。

未來展望

研究團隊表示,當前 TIDE 已成功驗證了時序稀疏自編碼器框架的有效性,但可解釋擴散模型的潛力遠未被完全發(fā)掘。未來的工作將進一步:

  • 擴展更大規(guī)模、更精細的時序字典
  • 探索跨模態(tài)共享的語義因子
  • 結(jié)合 LLM-SAE 構(gòu)建統(tǒng)一解釋空間
  • 將因子級編輯推向產(chǎn)品化工具

隨著更多研究者的加入,擴散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉(zhuǎn)變具有代表性的第一步。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遠古病毒導致芬蘭出現(xiàn)變異貓

遠古病毒導致芬蘭出現(xiàn)變異貓

萬物雜志
2026-03-01 07:04:13
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

都市快報橙柿互動
2026-03-02 00:56:20
哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

愛醫(yī)斯坦
2026-02-28 10:01:47
小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

林子說事
2026-03-02 14:41:57
汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

萱小蕾o
2026-03-02 13:31:09
神似柳巖?新晉女神!天賦異稟啊…

神似柳巖?新晉女神!天賦異稟啊…

碧波萬覽
2026-01-11 00:24:54
比亞迪官宣2026年3月5日召開"顛覆性技術發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

比亞迪官宣2026年3月5日召開"顛覆性技術發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

金融界
2026-03-02 16:59:36
他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

文立于塵
2026-03-01 18:16:43
李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

溫柔娛公子
2026-03-02 17:25:03
年終盤點:速騰L連續(xù)十年細分市場銷冠,品牌護城河深不可測?

年終盤點:速騰L連續(xù)十年細分市場銷冠,品牌護城河深不可測?

汽車網(wǎng)評
2025-12-29 15:42:26
是追還是逃,明天迎來大決戰(zhàn)!

是追還是逃,明天迎來大決戰(zhàn)!

鴻牛
2026-03-02 15:46:14
中美戰(zhàn)爭可能有多大?22年前美學者已預測,就怕中國一項能力變強

中美戰(zhàn)爭可能有多大?22年前美學者已預測,就怕中國一項能力變強

今墨緣
2025-11-23 20:26:27
WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調(diào)整

WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調(diào)整

羅納爾說個球
2026-03-02 23:06:07
罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

邱澤云
2026-03-02 18:04:24
中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

似水流年忘我
2026-01-29 01:24:08
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
蘋果發(fā)布iPhone 17e,起售價4499元

蘋果發(fā)布iPhone 17e,起售價4499元

澎湃新聞
2026-03-02 22:26:26
河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

環(huán)球網(wǎng)資訊
2026-03-02 17:46:01
第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

烈史
2026-03-02 23:26:13
哈梅內(nèi)伊可能是中國短視頻刷太多了

哈梅內(nèi)伊可能是中國短視頻刷太多了

蔥哥說
2026-03-02 21:23:34
2026-03-03 02:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

旅游
時尚
本地
房產(chǎn)
家居

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

今年春天一定要擁有的4件衣服,太好看了!

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

家居要聞

萬物互聯(lián) 享科技福祉

無障礙瀏覽 進入關懷版