国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

UniLumos: 物理反饋統(tǒng)一圖像視頻重打光框架,20倍加速光影重塑

0
分享至



圖像與視頻重光照(Relighting)技術在計算機視覺與圖形學中備受關注,尤其在電影、游戲及增強現(xiàn)實等領域應用廣泛。當前,基于擴散模型的方法能夠生成多樣且可控的光照效果,但其優(yōu)化過程通常依賴于語義空間,而語義上的相似性無法保證視覺空間中的物理合理性,導致生成結果常出現(xiàn)高光過曝、陰影錯位、遮擋關系錯誤等不合理現(xiàn)象。

針對上述問題,我們提出了 UniLumos,一個統(tǒng)一的圖像與視頻重光照框架。本工作的主要創(chuàng)新點主要為:

  • 引入幾何反饋以增強物理一致性:為緩解物理不合理現(xiàn)象,我們在生成過程中引入了來自 RGB 空間的幾何反饋(如深度圖與法線圖),使光照效果與場景結構對齊,從而顯著提升物理一致性。然而,該反饋機制依賴高質量輸出作為視覺空間監(jiān)督,而傳統(tǒng)的流匹配多步去噪過程計算開銷大。為此,我們采用路徑一致性學習,在少步訓練條件下保持有效監(jiān)督,同時大幅提升推理速度。
  • 構建細粒度光影評估基準:為實現(xiàn)對光影效果的細粒度控制與評估,我們設計了一個結構化的六維光影描述標簽,以捕捉核心光照屬性。在此基礎上,提出了 LumosBench,一個基于視覺語言模型(VLM)的光照可控性評估基準,實現(xiàn)了對重光照精度的自動化、可解釋評估。

實驗表明,UniLumos 在顯著提升物理一致性的同時,其重光照質量也達到了當前 SOTA 水平,并且在計算效率上比現(xiàn)有方法提升約 20 倍,實現(xiàn)了高質量與高效率的統(tǒng)一。

  • 論文標題:UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
  • 論文地址:https://arxiv.org/abs/2511.01678
  • 代碼倉庫:https://github.com/alibaba-damo-academy/Lumos-Custom
  • WanVideo ComfyUI支持: https://github.com/kijai/ComfyUI-WanVideoWrapper

Demo









本演示所呈現(xiàn)內容均來源于真實用戶的生成內容,僅用于展示模型的效果。

研究背景與現(xiàn)有方案的局限性

重光照(Relighting)是計算機視覺與圖形學中的一項核心任務,旨在保持場景幾何、材質等內容固有屬性不變的前提下,對圖像或視頻中的光照效果進行自由編輯與調整。該技術在電影后期、游戲開發(fā)、虛擬現(xiàn)實(VR)與增強現(xiàn)實(AR)等領域具有重要應用價值,例如實現(xiàn)演員在不同光照虛擬場景中的無縫合成,或對游戲環(huán)境氛圍進行實時調節(jié)。

近年來,基于擴散模型(Diffusion Models)的方法在重光照任務中展現(xiàn)出強大的生成潛力。然而,當前主流方法在生成質量與實用性之間仍面臨兩個根本性挑戰(zhàn):

  • 挑戰(zhàn)一:物理一致性的缺失

現(xiàn)有方法通常在語義潛空間中進行優(yōu)化,其目標是實現(xiàn)語義層面的相似性,而非物理層面的準確性。這種設計導致模型易產生物理不一致現(xiàn)象,具體表現(xiàn)為:

  • 陰影錯位(Misaligned Shadows):陰影方向與物體三維結構不符;
  • 高光過曝(Overexposed Highlights):高光區(qū)域細節(jié)丟失,不符合真實光學反射特性;
  • 遮擋關系錯誤(Incorrect Occlusions): 光線與物體之間的相互遮擋邏輯混亂。

盡管已有研究(如 IC-Light、Light-A-Video 等)嘗試引入幾何先驗或強化時序一致性,但它們要么缺乏視覺域(Visual Domain)中的顯式物理監(jiān)督,要么為保持一致性而犧牲了推理效率。

  • 挑戰(zhàn)二:評估體系的不完善

如何系統(tǒng)評估重光照結果的質量,是當前研究中的另一大瓶頸?,F(xiàn)有通用圖像評價指標(如 FID、LPIPS)主要關注整體感知相似度,卻無法針對性衡量光照屬性的準確性。例如,它們難以判斷生成結果在「陰影方向是否正確」、「色溫是否匹配」、「光照強度是否合理」等細粒度維度上的表現(xiàn)。這種評估體系的局限,嚴重制約了模型在光照可控性(Controllability)方面的迭代與優(yōu)化。



圖 1:各基線方法的定性對比。所有方法均以一段主體視頻和一段文本光影描述作為輸入,生成在指定光照條件下具有相應背景的視頻。UniLumos 生成效果更自然且符合物理一致性。其中,基線方法 IC-Light(逐幀閃爍嚴重)和 Light-A-Video(光照方向錯誤、細節(jié)丟失)相比,UniLumos 展現(xiàn)出更準確的陰影對齊與更高的時序穩(wěn)定性。

統(tǒng)一的圖像與視頻重光照框架 (UniLumos)

為應對上述挑戰(zhàn),我們提出 UniLumos——一個統(tǒng)一的圖像與視頻重光照框架。如下圖所示,該框架基于視頻生成模型 Wan 2.1 構建,能夠依據(jù)用戶指定的光照條件(如圖像參考、視頻片段或文本提示),在保持場景內容結構與時序一致性的前提下,實現(xiàn)對圖像與視頻的高質量重光照。



圖 2:UniLumos 整體框架圖。左側為 LumosData(我們提出的數(shù)據(jù)構建流程),該流程包含四個階段,用于從真實場景數(shù)據(jù)生成多樣化的重光照樣本對。右側展示了 UniLumos 的架構,一個統(tǒng)一的圖像與視頻重光照框架,其設計目標是實現(xiàn)物理合理的光照控制。

核心創(chuàng)新

我們的核心創(chuàng)新包括一個旨在增強物理一致性的幾何反饋機制,以及一個用于細粒度效果評估的基準:

  • 引入幾何反饋以增強物理一致性。為解決擴散模型缺乏物理約束的問題,我們引入了一種來自 RGB 空間的幾何反饋機制。該機制采用深度圖與表面法線圖作為監(jiān)督信號,二者均為場景的固有幾何屬性,具備光照不變性。在訓練過程中,我們將模型生成的 RGB 圖像輸入預訓練的密集幾何估計模型(如 Lotus),實時提取其深度與法線信息,并通過計算其與原始圖像幾何信息之間的差異構建反饋信號,反向傳播以約束生成過程。此機制強制模型學習光影與三維場景結構的對齊關系,從而顯著改善陰影、著色與空間一致性。然而,該物理反饋機制依賴高質量的 RGB 輸出以提取準確的幾何信息,而傳統(tǒng)的多步去噪過程計算成本高昂。為此,UniLumos 引入了路徑一致性學習,使模型在少步訓練模式下仍能保持有效的幾何監(jiān)督。最終,UniLumos 在推理速度上較現(xiàn)有 SOTA 方法提升達 20 倍,同時保持了更高的物理一致性。
  • 構建細粒度評估基準。為解決評估體系不完善的問題,我們構建了以下數(shù)據(jù)與評估基礎基準:
  • LumosData:引入一套結構化的六維光照標注協(xié)議,用于精確捕捉核心光照屬性,包括光照方向、光源類型、強度、色溫、時間動態(tài)與光學現(xiàn)象。
  • LumosBench:提出一個基于大規(guī)模視覺語言模型的自動化評估基準,通過判斷生成結果是否在六個維度上與控制指令精確匹配,實現(xiàn)對重光照效果的細粒度、可解釋評估。

方法詳述

高質量訓練數(shù)據(jù)構建 (LumosData)

我們首先構建了一個高質量的光影訓練數(shù)據(jù)集 LumosData,其流程如上圖(左)所示。這是一個可擴展的數(shù)據(jù)集構建流程,用于從真實世界視頻中提取高質量的重光照訓練樣本。





模型架構與訓練

  • 潛空間擴散與條件注入



  • 聯(lián)合目標函數(shù)

我們的訓練目標融合了三種互補的損失函數(shù),以權衡外觀保真度、幾何一致性與推理速度。整體損失定義為:







  • 訓練策略

為平衡物理監(jiān)督與訓練效率,我們借鑒路徑一致性調度思想,采用選擇性優(yōu)化策略。在每輪訓練迭代中,我們按 80/20 比例劃分批次,以避免全監(jiān)督帶來的過高開銷,同時保留有效的學習信號。



實驗結果與分析

我們在圖像與視頻重光照任務上進行了廣泛實驗,并與多種重光影 SOTA 方法進行了系統(tǒng)比較。

A. 定量結果:多項指標達到 SOTA

如下表所示,UniLumos 在所有關鍵指標上均取得最優(yōu)性能:

  • 視覺保真度:在圖像與視頻任務中,PSNR 與 SSIM 均優(yōu)于所有基線模型,表明其生成結果更清晰、結構保持更好。
  • 時間一致性:在視頻任務中,UniLumos 的 R-Motion 指標顯著低于其他方法(如 Light-A-Video),說明其生成視頻的光影過渡更平滑,閃爍與抖動現(xiàn)象更少。
  • 物理一致性:在我們提出的 Lumos 一致性指標上,UniLumos 的生成光影準確性得分顯著高于基線,其密集幾何誤差也大幅降低,驗證了其物理合理性的顯著提升。



B. LumosBench 細粒度可控性分析

我們進一步使用 LumosBench 評估模型在六個光照維度上的可控性。具體而言,我們構建了一個包含 2000 條測試提示詞的數(shù)據(jù)集,每條提示詞由一個視頻和一條結構化文本描述組成,旨在每次僅變動一個光照屬性,同時保持其他變量恒定。這些提示詞覆蓋六大類別:方向、光源類型、強度、色溫、時間動態(tài)與光學現(xiàn)象,每個類別下包含多個子類型(例如方向分為前/側/后光)。

為衡量生成光照屬性與預期屬性之間的一致性,我們采用 Qwen2.5-VL 對重光照結果進行分析,并判斷目標屬性是否正確呈現(xiàn)。每個維度獨立評分,最終的可控性得分為所有六個維度的平均值。

UniLumos (1.3B) 的平均可控性得分達 [此處缺失具體數(shù)值],顯著高于其他專有重光照模型,如 IC-Light Per-Frame 與 Light-A-Video。其表現(xiàn)甚至優(yōu)于參數(shù)量更大的通用視頻生成模型(如 Wan2.1 14B),說明 UniLumos 在光照屬性的細粒度控制方面具備顯著優(yōu)勢。



C. 定性結果:視覺效果更真實、更穩(wěn)定

我在基線方法對比和下圖中提供了定性比較結果,充分展現(xiàn)了 UniLumos 在光照真實感、時序一致性與可控性方面的優(yōu)勢:

  • 光照質量與可控性:如基線方法對比圖所示,UniLumos 生成的光照效果能更準確地匹配目標描述,細膩地捕捉方向性陰影、色調與強度變化。對比方法則要么未能有效反映預期的光照變化,要么產生過度均勻、缺乏真實感的結果。
  • 時序一致性:與逐幀處理的 IC-Light、Light-A-Video 等基線方法相比,UniLumos 實現(xiàn)了更平滑的幀間過渡,有效避免了閃爍或結構畸變。這一優(yōu)勢得益于我們所采用的時空聯(lián)合建模機制,以及物理感知監(jiān)督與路徑一致性訓練的進一步增強。
  • 前景細節(jié)保持:UniLumos 在面部結構、衣物紋理等主體細節(jié)的保持上優(yōu)于基線模型。例如,Light-A-Video 偶爾會出現(xiàn)形變或身份特征漂移,而我們的模型在長序列中仍能保持高度保真。
  • 基于參考視頻的重光照:下圖展示了 UniLumos 在不同參考視頻條件下的生成效果。模型成功實現(xiàn)了全局光照方向與細微空間變化的跨場景適配,展現(xiàn)出在真實場景下優(yōu)異的泛化能力。



D. 效率對比:實現(xiàn) 20 倍加速

在生成 49 幀 480p 視頻的任務中:UniLumos (1.3B) 僅需12 秒;IC-Light(逐幀處理)需277 秒;Light-A-Video (Wan-1.3B) 需756 秒;Light-A-Video (CogVideoX-2B) 需917 秒。UniLumos 在保持 SOTA 生成質量的同時,實現(xiàn)了顯著的推理效率提升。



E. 消融實驗:關鍵模塊分析

如下表和圖所示,我們通過消融研究驗證各模塊的貢獻:

  • 物理引導反饋:在同時移除深度與法向反饋(w/o All Feedback)的條件下,模型在圖像質量與物理一致性方面均出現(xiàn)顯著下降,驗證了本文所提出物理引導損失函數(shù)的必要性。值得注意的是,僅移除法向監(jiān)督所造成的性能下降遠大于僅移除深度監(jiān)督,這表明在光影交互建模中,表面朝向信息相較于場景距離信息具有更關鍵的作用。
  • 路徑一致性學習:在去除路徑一致性模塊(w/o Path Consistency)的情況下,各項物理指標僅出現(xiàn)輕微下滑,同時 SSIM 與 LPIPS 指標仍保持競爭力。這表明路徑一致性模塊在幾乎不犧牲生成性能的前提下,為少步生成場景帶來了可觀的效率優(yōu)勢,證明了其實際應用價值。
  • 訓練模式:為評估本文統(tǒng)一訓練范式的有效性,我們對比了分領域訓練的模型變體:僅使用視頻訓練會導致視覺質量下降,而僅使用圖像訓練則會損失時序平滑性。相比之下,我們的統(tǒng)一方法在兩類輸入上均取得了高質量的重光照結果,并實現(xiàn)了最優(yōu)的時序一致性平衡。





結論

針對現(xiàn)有基于擴散模型的重光照方法在物理真實性差和評估維度單一等方面的挑戰(zhàn),我們提出了 UniLumos,一個統(tǒng)一的圖像與視頻重光照框架。該框架引入 RGB 空間的幾何反饋,包括深度圖與法線圖作為監(jiān)督信號,并將其與流匹配基模相結合,顯著提升了光照效果的物理一致性。

為克服該反饋機制帶來的計算效率瓶頸,我們采用路徑一致性學習來增強物理監(jiān)督的有效性,在實現(xiàn)當前最優(yōu)生成質量的同時,帶來了 20 倍的推理加速。

此外,為解決評估體系不完善的問題,我們構建了 LumosBench,一個基于視覺語言模型的光照可控性評估基準,實現(xiàn)了對重光照精度的自動化、可解釋評估。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為何去少林寺訓練?文班:被他們的功夫折服了,也想做到那樣

為何去少林寺訓練?文班:被他們的功夫折服了,也想做到那樣

懂球帝
2026-04-17 11:15:12
美軍大舉增兵,中方援助抵達伊朗,王毅深夜遞出一句話,分量很重

美軍大舉增兵,中方援助抵達伊朗,王毅深夜遞出一句話,分量很重

音樂時光的娛樂
2026-04-18 01:37:37
iPhone 18 Pro新配色曝光!深櫻桃紅成最大亮點,黑色依然缺席

iPhone 18 Pro新配色曝光!深櫻桃紅成最大亮點,黑色依然缺席

科技獸
2026-04-17 22:10:51
中方接到消息,高市通告時機已到,日本掀桌,5500枚核彈原料就位

中方接到消息,高市通告時機已到,日本掀桌,5500枚核彈原料就位

手里有讀
2026-04-17 09:15:17
特寫:蘇林的十小時中國高鐵深度體驗

特寫:蘇林的十小時中國高鐵深度體驗

澎湃新聞
2026-04-17 08:57:38
“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

妍妍教育日記
2026-03-29 07:40:03
喬迪:津門虎沒做什么特別的東西,可能再踢5次我們會贏下4次

喬迪:津門虎沒做什么特別的東西,可能再踢5次我們會贏下4次

懂球帝
2026-04-17 23:39:04
iPhone 錢包更新,支持支付寶了!

iPhone 錢包更新,支持支付寶了!

花果科技
2026-04-17 16:32:26
橘子海樂隊喊話華為:下架道歉賠償

橘子海樂隊喊話華為:下架道歉賠償

ZAKER新聞
2026-04-17 17:12:59
家長分享孩子送的拼豆,網友:你知道孩子在偷偷陰陽你嗎哈哈哈

家長分享孩子送的拼豆,網友:你知道孩子在偷偷陰陽你嗎哈哈哈

新東方
2026-04-17 17:58:12
僅剩最后一席!奧沙利文+常冰玉分別打出2桿147分均獲14.7萬榜

僅剩最后一席!奧沙利文+常冰玉分別打出2桿147分均獲14.7萬榜

籃球看比賽
2026-04-17 13:03:46
八國聯(lián)軍中,有七國主動退還賠款,唯獨一國分文不退,是哪個?

八國聯(lián)軍中,有七國主動退還賠款,唯獨一國分文不退,是哪個?

千秋文化
2025-03-28 10:37:53
他是梁天的徒弟,相貌平庸憨頭憨腦,甘愿演20年配角,今片約不斷

他是梁天的徒弟,相貌平庸憨頭憨腦,甘愿演20年配角,今片約不斷

樂天閑聊
2026-04-18 01:53:20
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

秋姐居
2026-04-15 22:06:55
有人預測:今年五一,可能出現(xiàn)以下5大“現(xiàn)象”,都很現(xiàn)實!

有人預測:今年五一,可能出現(xiàn)以下5大“現(xiàn)象”,都很現(xiàn)實!

小談食刻美食
2026-04-17 07:28:27
40連敗+跨季45連?。∷拇ㄔ獗笨貦M掃 鄒雨宸17+11卡迪姆傷退

40連敗+跨季45連敗!四川遭北控橫掃 鄒雨宸17+11卡迪姆傷退

醉臥浮生
2026-04-17 21:21:03
一年暴漲1500%,超越茅臺登頂A股“新王”,源杰科技憑什么?

一年暴漲1500%,超越茅臺登頂A股“新王”,源杰科技憑什么?

華爾街見聞官方
2026-04-17 18:10:45
北影開幕人氣大洗牌:“四大頂流”全缺席,2人上桌,張若昀邊緣

北影開幕人氣大洗牌:“四大頂流”全缺席,2人上桌,張若昀邊緣

可樂談情感
2026-04-18 00:25:29
奇怪!飛機改成硬座、高鐵也在降速,交通工具為何集體降級?

奇怪!飛機改成硬座、高鐵也在降速,交通工具為何集體降級?

丁丁鯉史紀
2026-04-16 14:07:38
國防科技大學歷任校長

國防科技大學歷任校長

祁州校尉
2026-04-05 17:30:05
2026-04-18 02:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12790文章數(shù) 142631關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅

態(tài)度原創(chuàng)

家居
手機
時尚
旅游
教育

家居要聞

法式線條 時光靜淌

手機要聞

vivo萬級電池新機曝光:10200mAh電池+90W快充,友商接得住嗎!

今日熱點:許光漢否認和周子瑜戀情;郝熠然與誠實一口終止合作……

旅游要聞

三月三登泰山!蟠桃會+古風巡游驚艷出圈

教育要聞

別再無效卷了你需要一套不累的學習系統(tǒng)!!

無障礙瀏覽 進入關懷版