国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025 | 突破渲染局限,IntrinsiX - 高質(zhì)量的物理一致性生成模型

0
分享至

在現(xiàn)代人工智能的發(fā)展中,如何讓模型在生成質(zhì)量與物理一致性之間取得平衡,已成為實現(xiàn)真實可控內(nèi)容生成的關(guān)鍵問題,尤其在三維內(nèi)容創(chuàng)作、虛擬現(xiàn)實與影視特效等對光照一致性要求極高的應(yīng)用中尤為重要。盡管現(xiàn)有的文本到圖像生成模型(Text-to-Image Models)在視覺表現(xiàn)上已能生成極其逼真的結(jié)果,但其生成的圖像通常包含烘烤光照(baked-in lighting),導(dǎo)致生成內(nèi)容無法適配不同光照環(huán)境或進行物理編輯。本文介紹一篇來自慕尼黑工業(yè)大學(xué)的最新工作,剛剛發(fā)表在人工智能頂會NeurIPS 2025上。該工作提出了一種基于圖像先驗的高質(zhì)量PBR生成方法IntrinsiX,通過引入跨模態(tài)注意力機制與可微分渲染監(jiān)督,實現(xiàn)了從文本直接生成可重光照的貼圖。IntrinsiX 在視覺真實感和細節(jié)一致性上顯著優(yōu)于傳統(tǒng)反向渲染方法,為通用生成模型向物理世界一致性邁出了重要一步。


論文題目: IntrinsiX:High-Quality PBR Generation using Image Priors 文章鏈接: https://arxiv.org/abs/2504.01008
一、研究背景

物理基礎(chǔ)渲染(Physically-Based Rendering, PBR)貼圖是計算機圖形學(xué)中用于精確描述物體表面光學(xué)屬性的一組參數(shù)映射,共同定義了材質(zhì)在光照下的真實視覺效果。典型的PBR貼圖包括 Albedo(反射率)、Normal(法線)、Roughness(表面粗糙度)和 Metallic(金屬度) 四種。這些貼圖分別控制了物體的顏色反射、幾何微結(jié)構(gòu)、光線散射以及金屬反射特性。PBR使得渲染系統(tǒng)能夠通過物理一致的方式模擬光與物體表面的交互,從而生成具有真實光照變化和質(zhì)感細節(jié)的圖像。

當前主流的文本生成圖像模型生成的圖像是帶有“烘焙光照”的RGB圖像,即圖像中已經(jīng)包含了光照、陰影、高光等效果,導(dǎo)致生成內(nèi)容無法直接用于游戲、虛擬現(xiàn)實(VR)等需要動態(tài)調(diào)整光照或編輯材質(zhì)的場景,這類場景通常依賴獨立的PBR映射圖來實現(xiàn)物理真實的渲染效果。此外,傳統(tǒng)的圖像分解方法(如 IID [1]、RGBX [2])雖能從RGB圖像中分離出PBR組件,但存在兩大固有缺陷:

  1. 歧義性 :從單張RGB圖像反推PBR組件的數(shù)學(xué)解不唯一,易導(dǎo)致結(jié)果過度平滑或細節(jié)丟失。

  2. 泛化能力弱 :這類方法多基于合成數(shù)據(jù)集訓(xùn)練,對真實世界或分布外場景的分解效果差,且無法處理大規(guī)模3D場景的PBR生成需求。

二、本文方法

下圖為IntrinsiX方法的整體框架圖,IntrinsiX采用兩階段訓(xùn)練 + 對齊的整體設(shè)計。在階段一中,分別為反射率、法線以及粗糙度與金屬度獨立訓(xùn)練 LoRA 模型,以學(xué)習(xí)各自的分布特征。在階段二中,通過內(nèi)在交叉注意力實現(xiàn)不同組件間的語義對齊,并結(jié)合渲染損失約束其物理一致性,從而實現(xiàn)從文本輸入到四張高質(zhì)量 PBR 映射圖的聯(lián)合生成。


2.1 階段 一:PBR 先驗訓(xùn)練

該階段的訓(xùn)練目標是讓預(yù)訓(xùn)練的文本圖像生成模型分別學(xué)習(xí)反射率 、法線 、粗糙度與金屬度 的生成規(guī)律。具體做法是在每個 attention block 中注入 LoRA 層,以捕獲各 PBR 模態(tài)的特征分布。

該階段采用條件流匹配損失(Conditional Flow Matching Loss)優(yōu)化LoRA參數(shù),該損失用于擴散模型的生成過程,公式如下:


2.2 階段二:PBR 先驗對齊

階段一中訓(xùn)練得到的獨立LoRA模型雖然能夠分別生成各自的PBR組件,但其結(jié)果在語義上并不一致。為此,階段二通過內(nèi)在交叉注意力與RGB渲染損失實現(xiàn)了語義對齊與物理一致性約束。

(1)內(nèi)在交叉注意力:在DiT的每個 block 中,作者用跨模態(tài)注意力替代標準的 self-attention,將不同模態(tài)的 query、key、value 拼接在序列維度上,使各PBR模態(tài)在一次去噪前向傳播中能夠相互傳遞信息,從而實現(xiàn)語義對齊。其計算形式如下:


這種機制確保模型在生成每個模態(tài)時能夠參考其他模態(tài)的特征信息,避免局部結(jié)構(gòu)的不一致問題。

(2)RGB 渲染損失:盡管內(nèi)在交叉注意力保證了語義對齊,但仍無法確保各PBR模態(tài)在物理層面合理。因此,作者引入基于簡化 Disney BRDF 模型的渲染損失,用生成的PBR組件重建對應(yīng)的RGB圖像,計算公式為:


其中, 表示BRDF函數(shù), 為生成的PBR組件集合, 與 分別表示入射光強與方向。最終的渲染損失結(jié)合了像素級的L2誤差與感知損失,以同時保證圖像的數(shù)值準確性與視覺真實感:


通過這一機制,模型在優(yōu)化過程中被迫生成符合物理規(guī)律的PBR映射圖,從而在保持語義一致的同時提升整體物理可信度。

三、實驗結(jié)果

本文在圖像編輯生成和PBR場景紋理生成兩大關(guān)鍵下游應(yīng)用中驗證了IntrinsiX方法的實用性。本文的對比實驗選取了三種典型的反向渲染方法IID、RGBX和ColorfulShading,這些方法通過從RGB圖像分解出PBR貼圖來重建,而IntrinsiX則采用直接生成式建模策略。評估指標包括定量與感知兩類,F(xiàn)ID(A-ID-FID 與 A-OOD-FID)用于衡量生成圖像的分布差異,R-PQ、S-PQ與PC分別評估渲染質(zhì)量、語義一致性及物理合理性,同時通過用戶偏好指標A-PP衡量主觀感知效果。

3.1 定量分析

上表的實驗結(jié)果充分展示了IntrinsiX在生成質(zhì)量與實用性方面的綜合優(yōu)勢。盡管在分布內(nèi)場景(A-ID-FID)的反照率生成質(zhì)量上略低于最優(yōu)基線,IntrinsiX在更具實際意義的分布外泛化能力(A-OOD-FID)上表現(xiàn)最佳,顯示出優(yōu)異的場景適應(yīng)能力。此外,其生成的反照率(A-PP)與渲染效果(R-PQ、S-PQ)均獲得顯著偏好,反映出所生成PBR貼圖在物理正確性與視覺感知質(zhì)量上的突出表現(xiàn)。消融實驗同時驗證,內(nèi)在交叉注意力機制與渲染損失作為核心組件,對生成語義清晰、細節(jié)豐富的結(jié)果具有關(guān)鍵作用。

3.2 定性評估

下圖展示了IntrinsiX與基于RGB圖像輸入的圖像分解方法(如IID、RGBX)的生成效果對比。


實驗結(jié)果顯示,傳統(tǒng)分解方法受限于合成室內(nèi)數(shù)據(jù)集的訓(xùn)練分布,在面對“卡通民謠歌手”等分布外場景時,其分解結(jié)果易出現(xiàn)細節(jié)模糊(粗糙度圖紋理缺失)與語義不一致(反照率圖中殘留非本征陰影)等問題。相比之下,IntrinsiX生成了語義更準確、細節(jié)更豐富的PBR貼圖,其反照率圖純凈無陰影殘留,粗糙度與金屬度圖也表現(xiàn)出更高的清晰度與材質(zhì)區(qū)分度。

3.3 圖像編輯生成效果

IntrinsiX生成的PBR貼圖可直接接入標準物理渲染,實現(xiàn)靈活的編輯與渲染。如上圖所示,IntrinsiX在三種典型編輯任務(wù)中均表現(xiàn)出優(yōu)異性能。

1) 重新打光:在固定光源高度下旋轉(zhuǎn)其方向,場景的光影與陰影能夠隨之自然、連貫地變化。2) 反照率編輯:例如降低月亮顏色的飽和度,編輯后的表面屬性能與動態(tài)光照無縫融合。3) 鏡面反射編輯:通過降低粗糙度并提高金屬度值,可使宇航員頭盔等區(qū)域產(chǎn)生更強烈、準確的鏡面高光。

所有這些編輯效果均能隨光源角度變化而保持一致性與物理合理性,充分證明了IntrinsiX在光影控制與材質(zhì)屬性編輯方面出色的靈活性與實用性。

3.4 場景紋理生成效果

上圖展示了IntrinsiX為三維場景生成PBR紋理的流程與效果。IntrinsiX通過分數(shù)蒸餾采樣技術(shù),以場景幾何信息(如法線貼圖)為條件進行迭代優(yōu)化,可以自動生成風(fēng)格統(tǒng)一的全套PBR貼圖。生成的漫反射、粗糙度、金屬度及法線貼圖細節(jié)豐富,使得最終渲染的室內(nèi)場景在多種光照條件下均表現(xiàn)出高度的真實感與視覺一致性。這充分證明了IntrinsiX能夠?qū)⑽谋久枋鲇行У剞D(zhuǎn)化為可直接用于游戲或VR應(yīng)用的全場景PBR,顯著降低了高質(zhì)量場景紋理制作的技術(shù)門檻。

四、總結(jié)

本文提出的IntrinsiX方法,首次實現(xiàn)了從文本描述直接生成高質(zhì)量PBR材質(zhì)貼圖的突破。其核心創(chuàng)新在于一個兩階段訓(xùn)練策略。IntrinsiX首先利用LoRA技術(shù)為各類材質(zhì)屬性分別訓(xùn)練獨立的生成先驗,隨后引入內(nèi)在交叉注意力機制與基于物理渲染的損失函數(shù),實現(xiàn)多模態(tài)材質(zhì)的語義對齊與協(xié)同生成。生成質(zhì)量媲美甚至超越現(xiàn)有文本生圖模型,且在圖像編輯、場景紋理生成等下游任務(wù)均有不錯的表現(xiàn),未來可以為游戲、VR可編輯內(nèi)容等領(lǐng)域的創(chuàng)作開辟高效的新路徑。

參考

[1] Kocsis P, Sitzmann V, Nie?ner M. Intrinsic image diffusion for indoor single-view material estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5198-5208.

[2] Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, and Milos Hasan. Rgb?x: Image decomposition and synthesis using material- and lighting-aware diffusion models. In ACM SIGGRAPH 2024 Conference Papers, SIGGRAPH 2024, Denver, CO, USA, 27 July 2024- 1 August 2024, page 75. ACM, 2024.

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

半身Naked
2026-03-11 20:25:32
于冬被曝欠澳門賭場百萬!律師稱已還清,投了沈騰新片票房已41億

于冬被曝欠澳門賭場百萬!律師稱已還清,投了沈騰新片票房已41億

頭號電影院
2026-03-13 21:56:30
半天11艘船,亮出“中方身份”

半天11艘船,亮出“中方身份”

觀察者網(wǎng)
2026-03-13 23:21:09
北京樓市:用真實的數(shù)據(jù)說話

北京樓市:用真實的數(shù)據(jù)說話

說故事的阿襲
2026-03-14 19:22:02
包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

來科點譜
2026-02-16 07:12:06
令人唏噓!5年過去了,曾經(jīng)打進東決的五人首發(fā),如今全部離隊!

令人唏噓!5年過去了,曾經(jīng)打進東決的五人首發(fā),如今全部離隊!

籃球圈里的那些事
2026-03-14 22:21:15
今年“3·15”晚會將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費者權(quán)益違法行為

今年“3·15”晚會將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費者權(quán)益違法行為

新京報
2026-03-13 22:06:17
楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

犀利強哥
2026-03-04 21:40:54
兩艘印度運輸船順利通過霍爾木茲海峽

兩艘印度運輸船順利通過霍爾木茲海峽

界面新聞
2026-03-14 17:42:02
上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

次元君情感
2026-03-14 19:05:05
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

青煙小先生
2026-03-14 10:26:24
致命碰撞!伊以同時吹響總攻號角,終極對決正式打響!

致命碰撞!伊以同時吹響總攻號角,終極對決正式打響!

大嘴說天下
2026-03-13 19:45:52
86:76拿下南蘇丹,中國女籃余下的任務(wù)就一個

86:76拿下南蘇丹,中國女籃余下的任務(wù)就一個

丑蕪
2026-03-14 21:20:45
伊朗女足主帥:國家電視臺把我們定性為戰(zhàn)時叛徒 迫使球員們逃走

伊朗女足主帥:國家電視臺把我們定性為戰(zhàn)時叛徒 迫使球員們逃走

念洲
2026-03-14 06:48:31
低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

中國新聞周刊
2026-03-13 16:48:07
哈梅內(nèi)伊沒有“遇害”

哈梅內(nèi)伊沒有“遇害”

西樓飲月
2026-03-02 22:33:08
江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當場愣住

江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當場愣住

感覺會火
2026-03-14 14:52:10
2026-03-14 23:04:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

數(shù)碼
時尚
家居
健康
教育

數(shù)碼要聞

設(shè)計還在20年前的冰箱如何升級?容聲:中國人需要自己的中國冰箱

女人到了三四十歲穿衣要顯貴,這些穿搭值得借鑒,大方又好看

家居要聞

藝術(shù)之家 法式優(yōu)雅

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

童年的天空的云彩會伴隨孩子的一生

無障礙瀏覽 進入關(guān)懷版