網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Lightricks與特拉維夫大學(xué)讓普通視頻"煥發(fā)光彩"的秘密

2026-04-26 19:12:54　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由以色列科技公司Lightricks、Gear Productions與特拉維夫大學(xué)聯(lián)合完成的研究，以預(yù)印本形式發(fā)布于2026年4月13日，論文編號(hào)為arXiv:2604.11788。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)上查閱完整論文。

**拍照時(shí)有沒(méi)有遇到過(guò)這樣的情況**

你用手機(jī)拍了一張逆光照片，想把背光處的人臉看清楚，卻發(fā)現(xiàn)一旦調(diào)亮了人臉，背景的天空就變成了刺眼的白色；把天空調(diào)暗了，人臉又陷入了一片黑暗。這種"顧此失彼"的困境，正是現(xiàn)有視頻和圖像技術(shù)面臨的核心難題之一。

專(zhuān)業(yè)攝影師或電影攝制組為了解決這個(gè)問(wèn)題，會(huì)使用一種叫做"高動(dòng)態(tài)范圍"（HDR）的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，普通的照片和視頻就像一雙戴著墨鏡的眼睛，只能看到亮度適中的區(qū)域，極亮和極暗的細(xì)節(jié)都會(huì)丟失；而HDR內(nèi)容則像一雙健康的裸眼，能夠同時(shí)看清強(qiáng)烈陽(yáng)光下的云朵紋理和陰暗角落里的磚石紋路。好萊塢電影的調(diào)色師正是依賴HDR格式，才能在后期制作中自由調(diào)整畫(huà)面曝光，實(shí)現(xiàn)那種令人嘆為觀止的視覺(jué)質(zhì)感。

問(wèn)題在于，絕大多數(shù)人手頭的視頻內(nèi)容都是普通的SDR格式（可以理解為"戴著墨鏡拍攝的"），而將這些普通視頻升級(jí)為HDR格式，長(zhǎng)期以來(lái)是個(gè)極其困難的任務(wù)——因?yàn)槟切┍?墨鏡"遮住的細(xì)節(jié)，根本沒(méi)有被記錄下來(lái)，又怎么可能憑空還原呢？

Lightricks與特拉維夫大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)叫做LumiVid的系統(tǒng)，它的核心思路出人意料地簡(jiǎn)潔：不需要重新發(fā)明新的AI模型，只需找到一種聰明的方式，讓現(xiàn)有的、已經(jīng)在海量普通視頻上"見(jiàn)多識(shí)廣"的AI，學(xué)會(huì)從普通視頻中"想象"出那些原本被遮蔽的光影細(xì)節(jié)。

一、被"遮住"的光：HDR與SDR的根本差異

要理解這項(xiàng)研究的意義，首先需要明白普通視頻（SDR）和高動(dòng)態(tài)范圍視頻（HDR）之間的本質(zhì)差異是什么。

普通視頻的亮度范圍是有限的，就好像你把世界上所有的顏色都?jí)嚎s進(jìn)了一個(gè)小盒子里。當(dāng)場(chǎng)景中有非常亮的燈光（比如正午的太陽(yáng)、舞臺(tái)上的聚光燈）或者非常暗的陰影區(qū)域時(shí)，這個(gè)小盒子裝不下，就只能"截?cái)?——亮的地方變成一片死白，暗的地方變成一片死黑，細(xì)節(jié)全部消失。

HDR視頻使用的則是一個(gè)大得多的"盒子"。它記錄的是場(chǎng)景中真實(shí)的光線強(qiáng)度數(shù)值，從近乎黑暗的陰影到比太陽(yáng)還亮的高光，都可以忠實(shí)地保存下來(lái)。這些數(shù)據(jù)用的是一種叫做"場(chǎng)景線性"的格式，就像科學(xué)家記錄實(shí)驗(yàn)數(shù)據(jù)時(shí)精確到小數(shù)點(diǎn)后很多位一樣，保留了完整的物理信息。電影后期制作人員拿到這樣的素材，就可以自由地"重新決定"每個(gè)區(qū)域應(yīng)該顯示多亮，仿佛重新設(shè)置了攝像機(jī)的曝光參數(shù)一樣。

然而，正因?yàn)镠DR數(shù)據(jù)的數(shù)值范圍極廣、分布非常不均勻，現(xiàn)有的主流AI視頻生成模型根本不認(rèn)識(shí)它。這些AI模型從小就只"見(jiàn)過(guò)"普通SDR視頻，它們的"世界觀"里只有那個(gè)小盒子的范圍。把一段HDR數(shù)據(jù)直接送進(jìn)去，就好像把一篇用外語(yǔ)寫(xiě)的文章送給只懂中文的人——對(duì)方看不懂，只能輸出一堆亂碼。

二、"翻譯官"困境：為什么簡(jiǎn)單地"教"AI認(rèn)識(shí)HDR這么難

既然現(xiàn)有AI不認(rèn)識(shí)HDR，一個(gè)直接的想法是：重新訓(xùn)練一個(gè)專(zhuān)門(mén)懂HDR的AI不就行了？或者專(zhuān)門(mén)為HDR設(shè)計(jì)一個(gè)新的"翻譯層"，讓AI先通過(guò)這個(gè)翻譯層來(lái)理解HDR數(shù)據(jù)？

這個(gè)方向確實(shí)有人嘗試過(guò)，但代價(jià)極其高昂。首先，HDR視頻數(shù)據(jù)非常稀缺。普通SDR視頻在互聯(lián)網(wǎng)上數(shù)以億計(jì)，而高質(zhì)量的HDR場(chǎng)景線性視頻數(shù)據(jù)少得可憐，絕大多數(shù)號(hào)稱"HDR"的消費(fèi)級(jí)內(nèi)容其實(shí)只是經(jīng)過(guò)處理的顯示端格式，并不是攝影師需要的原始場(chǎng)景數(shù)據(jù)。其次，現(xiàn)有的AI視頻模型（比如這項(xiàng)研究所用的底層模型LTX-Video）是用數(shù)以億計(jì)的普通視頻訓(xùn)練出來(lái)的，包含了關(guān)于光影、物體、運(yùn)動(dòng)的極其豐富的"常識(shí)"。如果為了適配HDR而重新從頭訓(xùn)練，不僅代價(jià)極大，還會(huì)白白丟失這些已經(jīng)積累的寶貴知識(shí)。

這就像一位經(jīng)驗(yàn)極其豐富的廚師，已經(jīng)掌握了數(shù)千種食材的處理方式和口味搭配?，F(xiàn)在你想讓他做一道使用新型調(diào)料的菜，最笨的辦法是讓他忘掉所有過(guò)去的廚藝重新學(xué)習(xí)，而最聰明的辦法是找到一種方法，把這種新型調(diào)料轉(zhuǎn)換成他熟悉的口味語(yǔ)言，讓他用已有的廚藝知識(shí)來(lái)處理它。

LumiVid的核心貢獻(xiàn)，正是找到了這個(gè)"轉(zhuǎn)換成熟悉口味"的方法。

三、電影工業(yè)的秘密武器：LogC3編碼如何充當(dāng)完美翻譯

研究團(tuán)隊(duì)發(fā)現(xiàn)，解決方案來(lái)自電影行業(yè)一個(gè)已經(jīng)使用多年的工具：**LogC3編碼**。這是著名電影攝影機(jī)制造商ARRI（專(zhuān)門(mén)生產(chǎn)好萊塢御用攝像機(jī)的公司）開(kāi)發(fā)的一種數(shù)據(jù)壓縮方式，設(shè)計(jì)初衷是把攝像機(jī)傳感器采集到的寬廣光線信息，以一種對(duì)人眼和后期工作流友好的方式存儲(chǔ)下來(lái)。

LogC3的工作原理可以用一個(gè)簡(jiǎn)單的類(lèi)比來(lái)理解。普通亮度數(shù)據(jù)的分布就像一排長(zhǎng)短極不均勻的柱子，有幾根高聳入云（高光區(qū)域），有幾根矮得幾乎看不見(jiàn)（陰影區(qū)域）。如果你直接把這排柱子搬進(jìn)AI的"理解范圍"，大部分的柱子要么被截?cái)?，要么被壓縮到幾乎消失。而LogC3做的事情，是把這排柱子按照數(shù)學(xué)上的"對(duì)數(shù)"規(guī)律重新排列——把那些過(guò)高的柱子壓矮，把那些過(guò)矮的柱子適度拔高，最終讓整排柱子的高度變得相當(dāng)均勻，恰好落在AI能夠舒服處理的范圍內(nèi)。

更關(guān)鍵的發(fā)現(xiàn)來(lái)自于研究團(tuán)隊(duì)的一個(gè)實(shí)驗(yàn)：他們把經(jīng)過(guò)LogC3處理的HDR幀與AI模型已經(jīng)熟悉的普通SDR視頻幀進(jìn)行了統(tǒng)計(jì)學(xué)上的比較。比較的方式是測(cè)量?jī)烧叩?分布相似度"——用一個(gè)叫做KL散度（可以理解為"陌生程度"的測(cè)量值，越小代表越像，越大代表越陌生）的指標(biāo)來(lái)量化。結(jié)果發(fā)現(xiàn)，LogC3處理后的HDR數(shù)據(jù)，與普通SDR數(shù)據(jù)的"陌生程度"僅為0.215，幾乎可以說(shuō)是"一家人"。相比之下，另一種常見(jiàn)的高亮度格式HLG（混合對(duì)數(shù)伽馬，多用于廣播電視）的陌生程度高達(dá)0.373，而用于電影色彩映射的ACES格式更是高達(dá)3.338，跟SDR的差距就像把牛排菜單送給只吃素的人。

這個(gè)發(fā)現(xiàn)的意義在于：既然LogC3處理過(guò)的HDR數(shù)據(jù)在統(tǒng)計(jì)分布上已經(jīng)非常接近AI"從小見(jiàn)慣"的SDR數(shù)據(jù)，那么AI就不需要重新學(xué)習(xí)一套全新的"語(yǔ)言"，只需要在原有能力基礎(chǔ)上做小幅度的微調(diào)，就能處理HDR內(nèi)容了。

為了進(jìn)一步驗(yàn)證這個(gè)想法，研究團(tuán)隊(duì)做了一個(gè)叫做"VAE往返測(cè)試"的實(shí)驗(yàn)。VAE（變分自編碼器）是AI模型內(nèi)部負(fù)責(zé)"理解"圖像的核心組件，就像大腦的視覺(jué)皮層一樣。他們把各種格式處理過(guò)的HDR幀送進(jìn)VAE，讓VAE壓縮再解壓（就像把一張紙折疊再展開(kāi)，看損失了多少細(xì)節(jié)），然后測(cè)量還原質(zhì)量。LogC3和PQ（另一種對(duì)數(shù)格式，常用于流媒體HDR標(biāo)準(zhǔn)）在這個(gè)測(cè)試中表現(xiàn)最好，還原質(zhì)量指標(biāo)SSIM達(dá)到0.9747，幾乎沒(méi)有損失；而HLG會(huì)導(dǎo)致高光細(xì)節(jié)嚴(yán)重?fù)p失，ACES則在整體結(jié)構(gòu)上產(chǎn)生明顯偏差。

就這樣，研究團(tuán)隊(duì)用一個(gè)固定的數(shù)學(xué)變換（不需要訓(xùn)練，計(jì)算量極?。?，就把HDR內(nèi)容"翻譯"成了AI能夠自然理解的格式，整個(gè)過(guò)程不需要修改AI模型的任何內(nèi)部結(jié)構(gòu)，就像給外語(yǔ)文件找到了一位可靠的翻譯官，而無(wú)需重新培訓(xùn)閱讀外語(yǔ)的能力。

四、解決"無(wú)中生有"：當(dāng)AI需要憑空填補(bǔ)消失的光影

即便解決了格式兼容問(wèn)題，還有一個(gè)更深層的挑戰(zhàn)沒(méi)有解決：那些在SDR視頻中完全丟失的高光和陰影細(xì)節(jié)，從來(lái)沒(méi)有被記錄下來(lái)過(guò)，又怎么可能被"還原"出來(lái)呢？

這里涉及到的其實(shí)是一種有趣的能力。一位經(jīng)驗(yàn)豐富的老畫(huà)家，即便給他看一張局部被墨水污染的畫(huà)作，他也能根據(jù)畫(huà)面的整體風(fēng)格、光源方向、物體特征，憑借多年的經(jīng)驗(yàn)合理地"補(bǔ)全"那些被遮住的部分。他的大腦里儲(chǔ)存著關(guān)于光影、材質(zhì)、空間的大量知識(shí)，讓他能夠進(jìn)行有依據(jù)的"創(chuàng)造性推斷"。

現(xiàn)代AI視頻模型經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練之后，實(shí)際上也積累了類(lèi)似的能力——它"知道"燈泡周?chē)鷳?yīng)該有光暈，知道金屬表面如何反光，知道深邃的陰影里應(yīng)該藏著什么樣的紋理。但問(wèn)題是，如果你直接把一段SDR視頻（高光處一片死白，陰影處一片死黑）送給它，讓它生成對(duì)應(yīng)的HDR版本，它很可能選擇最省力的方式：把輸入的內(nèi)容直接照搬過(guò)去，只做一些表面處理，而不會(huì)真正發(fā)揮自己"見(jiàn)多識(shí)廣"的優(yōu)勢(shì)去創(chuàng)造性地填補(bǔ)那些缺失的細(xì)節(jié)。

為了逼迫AI真正動(dòng)用自己的"創(chuàng)造性推斷"能力，LumiVid的研究團(tuán)隊(duì)設(shè)計(jì)了一套叫做"攝像機(jī)模擬損壞"的訓(xùn)練策略。這套策略的思路非常直接：在訓(xùn)練階段，刻意把輸入給AI的SDR參考幀"弄得更爛"，讓那些原本在參考幀中還隱約可見(jiàn)的高光和陰影細(xì)節(jié)徹底消失，讓AI面對(duì)的是一個(gè)更"殘破"的輸入，從而不得不依賴自己的學(xué)習(xí)經(jīng)驗(yàn)來(lái)填補(bǔ)空白。

具體來(lái)說(shuō)，這套損壞策略包含四種操作，分別模擬真實(shí)攝像機(jī)在極端光照條件下會(huì)產(chǎn)生的各種缺陷。第一種是MP4壓縮失真，模擬視頻經(jīng)過(guò)壓縮后產(chǎn)生的塊狀偽影；第二種是對(duì)比度裁剪，把畫(huà)面的亮部和暗部直接截?cái)嗟綐O端值，徹底消除這些區(qū)域的細(xì)節(jié)；第三種是對(duì)高光和陰影區(qū)域進(jìn)行選擇性模糊，專(zhuān)門(mén)把那些極亮或極暗的區(qū)域弄模糊，讓AI無(wú)法直接復(fù)制這些區(qū)域；第四種是隨機(jī)的曝光偏移，同時(shí)對(duì)SDR輸入和HDR目標(biāo)做對(duì)應(yīng)的亮度調(diào)整，讓AI學(xué)會(huì)處理各種明暗程度的輸入場(chǎng)景。

前三種操作只施加在輸入的SDR幀上，而HDR目標(biāo)幀保持完整。這樣一來(lái)，AI面對(duì)的是一個(gè)"壞掉的"輸入，卻需要生成一個(gè)"完好的"HDR輸出。它唯一的辦法就是真正利用自己大腦里積累的關(guān)于光影世界的知識(shí)，去推斷那些被刻意破壞的區(qū)域應(yīng)該長(zhǎng)什么樣。

五、系統(tǒng)如何運(yùn)作：從普通視頻到專(zhuān)業(yè)級(jí)HDR的完整流水線

把前面所有的思路組合在一起，LumiVid的工作流程就像一條分工明確的生產(chǎn)線，訓(xùn)練階段和使用階段各有其角色。

在訓(xùn)練階段，研究團(tuán)隊(duì)首先需要收集高質(zhì)量的HDR視頻素材來(lái)教導(dǎo)AI。由于真實(shí)拍攝的場(chǎng)景線性HDR視頻極為稀缺，他們采用了兩種來(lái)源相結(jié)合的方式。一方面，他們使用了PolyHaven提供的HDRI（高動(dòng)態(tài)范圍全景圖）環(huán)境貼圖庫(kù)——這些是攝影師在各種真實(shí)場(chǎng)景中拍攝的360度光照環(huán)境圖，研究團(tuán)隊(duì)通過(guò)在這些靜態(tài)環(huán)境圖中模擬攝像機(jī)旋轉(zhuǎn)，生成了大量人工合成的HDR視頻片段，涵蓋多種真實(shí)光照環(huán)境。另一方面，他們引入了開(kāi)源HDR電影《鋼鐵之淚》（Tears of Steel，由Blender基金會(huì)制作）的場(chǎng)景線性EXR渲染素材，這些素材包含了真實(shí)人物運(yùn)動(dòng)和復(fù)雜現(xiàn)實(shí)光照，彌補(bǔ)了合成視頻在人物和自然運(yùn)動(dòng)方面的不足。

訓(xùn)練時(shí)，同一段HDR原始素材會(huì)被同時(shí)處理成兩路數(shù)據(jù)：目標(biāo)輸出是經(jīng)過(guò)LogC3轉(zhuǎn)換的HDR幀，經(jīng)過(guò)AI的VAE編碼器變成"目標(biāo)潛在向量"；而輸入則是把同一段HDR幀先做色調(diào)映射（轉(zhuǎn)換成SDR），再施加前面介紹的四種模擬損壞，然后同樣經(jīng)過(guò)VAE編碼變成"參考潛在向量"。兩路向量被拼接在一起，送進(jìn)AI模型的核心——一個(gè)叫做Diffusion Transformer（擴(kuò)散變換器，簡(jiǎn)稱DiT）的大型神經(jīng)網(wǎng)絡(luò)，讓它學(xué)習(xí)如何從"壞掉的SDR參考"推斷出"完整的HDR目標(biāo)"。

值得一提的是，整個(gè)訓(xùn)練過(guò)程中，AI模型原本的絕大多數(shù)參數(shù)都保持凍結(jié)不變，就像那位經(jīng)驗(yàn)豐富的廚師不需要忘記任何過(guò)去的技能。真正被更新的只是一個(gè)叫做LoRA（低秩適應(yīng)，一種極其輕量的微調(diào)技術(shù)）的附加模塊，它只占整個(gè)模型參數(shù)量的不到1%，卻足以讓模型學(xué)會(huì)處理HDR任務(wù)。整個(gè)訓(xùn)練在單塊GPU上大約需要8小時(shí)，處理約300個(gè)視頻片段，是相當(dāng)高效的訓(xùn)練規(guī)模。

到了實(shí)際使用（推斷）階段，流程就更加簡(jiǎn)潔了。用戶提供一段普通的SDR視頻，系統(tǒng)將其通過(guò)VAE編碼為參考向量，與隨機(jī)噪聲拼接后送入帶有LoRA適配器的DiT，經(jīng)過(guò)僅11步擴(kuò)散去噪（普通擴(kuò)散模型通常需要數(shù)十到數(shù)百步），輸出一組HDR潛在向量。這些向量經(jīng)過(guò)VAE解碼器還原為圖像，再通過(guò)LogC3的逆變換轉(zhuǎn)換回場(chǎng)景線性數(shù)值，最終保存為float16（16位浮點(diǎn)數(shù)）精度的EXR文件——這是專(zhuān)業(yè)電影后期制作中的標(biāo)準(zhǔn)格式，調(diào)色師可以直接拿來(lái)在專(zhuān)業(yè)軟件中調(diào)整曝光、進(jìn)行色彩分級(jí)，如同擁有了重新"設(shè)置攝像機(jī)"的權(quán)力。

六、與同類(lèi)方法的較量：數(shù)據(jù)說(shuō)話

研究團(tuán)隊(duì)在兩個(gè)完全不同于訓(xùn)練數(shù)據(jù)的測(cè)試集上對(duì)LumiVid進(jìn)行了嚴(yán)格評(píng)測(cè)，目的是檢驗(yàn)它的泛化能力——能不能在從沒(méi)見(jiàn)過(guò)的場(chǎng)景上也表現(xiàn)出色。

第一個(gè)測(cè)試集來(lái)自ARRI公司（前面提到的專(zhuān)業(yè)電影攝影機(jī)制造商）發(fā)布的48段專(zhuān)業(yè)級(jí)12位HDR視頻素材，涵蓋6種不同攝像機(jī)型號(hào)的拍攝風(fēng)格，包含各種復(fù)雜的專(zhuān)業(yè)級(jí)光照和色彩空間，是真正的高難度考場(chǎng)。第二個(gè)測(cè)試集UPIQ則包含30張經(jīng)過(guò)嚴(yán)格標(biāo)定的HDR圖像，每張圖像的絕對(duì)亮度數(shù)值都經(jīng)過(guò)了精確校準(zhǔn)，代表了目前學(xué)術(shù)界最嚴(yán)格的HDR質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)之一。

LumiVid的對(duì)手包括三種當(dāng)前最先進(jìn)的方法：HDRTVNet（一種專(zhuān)門(mén)為SDR轉(zhuǎn)HDR設(shè)計(jì)的確定性卷積神經(jīng)網(wǎng)絡(luò)）、X2HDR（與LumiVid思路最為接近的并行研究，也是使用預(yù)訓(xùn)練擴(kuò)散模型配合LoRA微調(diào)，但只處理單張圖片且使用不同的編碼方式）、以及LEDiff（另一種基于擴(kuò)散模型的HDR生成方法）。

評(píng)價(jià)指標(biāo)方面，研究團(tuán)隊(duì)使用了專(zhuān)門(mén)為HDR內(nèi)容設(shè)計(jì)的PU21-PSNR（一種對(duì)人眼感知敏感的圖像質(zhì)量評(píng)分，數(shù)值越高越好）、LPIPS（感知圖像相似度，數(shù)值越低越好）以及ColorVideoVDP的JOD分?jǐn)?shù)（0到10的感知質(zhì)量評(píng)分，滿分10分代表完美，普通人眼無(wú)法察覺(jué)任何失真）。

在ARRI專(zhuān)業(yè)視頻測(cè)試集上，LumiVid的PU21-PSNR達(dá)到36.20分，遠(yuǎn)超HDRTVNet的26.48分和X2HDR的20.68分；LPIPS僅為0.020（HDRTVNet為0.089，X2HDR為0.250）；JOD感知質(zhì)量評(píng)分7.86（HDRTVNet 6.94，X2HDR 3.54）。

在更嚴(yán)苛的UPIQ標(biāo)定圖像測(cè)試集上，LumiVid同樣保持領(lǐng)先：PU21-PSNR 30.05，JOD 8.22，對(duì)比HDRTVNet的22.59分和4.48分，以及X2HDR的17.47分和6.06分。這意味著LumiVid生成的HDR內(nèi)容，在專(zhuān)業(yè)標(biāo)準(zhǔn)下更接近真實(shí)的HDR場(chǎng)景。

特別值得關(guān)注的是時(shí)間一致性這個(gè)指標(biāo)，這是視頻處理中極為重要但容易被忽視的維度。由于LumiVid是一個(gè)原生視頻模型，它會(huì)同時(shí)生成一段視頻的所有幀，幀與幀之間天然地保持連貫。相比之下，X2HDR這類(lèi)逐幀處理的圖像模型，每一幀都獨(dú)立生成，幀間的閃爍問(wèn)題非常嚴(yán)重。測(cè)試數(shù)據(jù)顯示，LumiVid的幀間PSNR（F2F-PSNR）為45.63，穩(wěn)定性遠(yuǎn)超X2HDR的36.36；在衡量畫(huà)面閃爍程度的Flicker指標(biāo)上，LumiVid僅為0.0245，而X2HDR高達(dá)0.1630，幾乎是前者的七倍。換句話說(shuō)，用X2HDR生成的"HDR視頻"會(huì)像老式日光燈一樣閃爍，而LumiVid生成的視頻則平滑穩(wěn)定，真正可用于專(zhuān)業(yè)場(chǎng)景。

七、消融實(shí)驗(yàn)：每個(gè)設(shè)計(jì)選擇的價(jià)值

為了證明各個(gè)設(shè)計(jì)選擇都是必要的，研究團(tuán)隊(duì)還做了一系列"如果去掉某個(gè)關(guān)鍵設(shè)計(jì)會(huì)怎樣"的對(duì)比實(shí)驗(yàn)，在學(xué)術(shù)上叫做"消融實(shí)驗(yàn)"。

在編碼方式的選擇上，他們訓(xùn)練了三個(gè)版本的模型，分別使用LogC3、PQ和ACES三種不同的HDR編碼方式。結(jié)果顯示，LogC3在KL散度（與SDR的"陌生程度"）方面表現(xiàn)最好（0.302），且在感知質(zhì)量JOD評(píng)分上獲得最高的7.86分，而ACES盡管在某些像素級(jí)指標(biāo)上數(shù)值更高，但其JOD感知評(píng)分僅7.40，說(shuō)明在人眼實(shí)際感知的質(zhì)量上有明顯差距。

在訓(xùn)練數(shù)據(jù)增強(qiáng)策略上，他們對(duì)比了三種配置：完整的攝像機(jī)模擬損壞流程、完全不加任何損壞、以及只加模糊而不做其他處理。結(jié)果表明，完整損壞流程在JOD感知質(zhì)量上獲得7.86分，顯著優(yōu)于無(wú)增強(qiáng)版本的7.43分；而只加模糊的版本表現(xiàn)最差，JOD僅6.90，說(shuō)明不適當(dāng)?shù)脑鰪?qiáng)反而會(huì)干擾模型的學(xué)習(xí)。一個(gè)看似反直覺(jué)的現(xiàn)象是，無(wú)增強(qiáng)版本在像素級(jí)PSNR數(shù)值上反而更高（39.00對(duì)36.97），但感知質(zhì)量更低——這正說(shuō)明了簡(jiǎn)單地追求像素級(jí)相似度并不等于生成出真正高質(zhì)量的HDR內(nèi)容，模型在沒(méi)有損壞壓力的情況下會(huì)傾向于"偷懶地"復(fù)制輸入，而不是真正去合成高光和陰影中的細(xì)節(jié)。

說(shuō)到底，LumiVid這項(xiàng)研究揭示的核心洞見(jiàn)是：解鎖一項(xiàng)新能力，往往不需要重新打造一套新工具，而是找到正確的方式來(lái)對(duì)話已有的工具。那位訓(xùn)練了數(shù)年的AI視頻模型，其實(shí)早就在海量的自然視頻中見(jiàn)識(shí)過(guò)無(wú)數(shù)種光影變化的規(guī)律，它"知道"燈光如何在墻上散漫，知道深夜街頭的路燈如何在濕漉漉的路面上暈開(kāi)光暈。它所缺少的，不過(guò)是一座能讓它理解HDR語(yǔ)言的橋梁，以及一點(diǎn)點(diǎn)讓它不得不主動(dòng)思考的"壓力"。

對(duì)于普通用戶來(lái)說(shuō)，這項(xiàng)技術(shù)意味著什么？它意味著未來(lái)的視頻編輯工具或許能讓你把手機(jī)拍的普通短視頻，升級(jí)成具有專(zhuān)業(yè)級(jí)光影細(xì)節(jié)的HDR內(nèi)容，可以在支持HDR的新型顯示器或電視上展現(xiàn)出真正的色彩深度。對(duì)于影視后期從業(yè)者而言，這意味著可以把大量已有的SDR存檔素材賦予新的生命，以更低的成本制作出更高質(zhì)量的內(nèi)容。更廣泛地看，這項(xiàng)研究中"通過(guò)分布對(duì)齊來(lái)解鎖預(yù)訓(xùn)練模型的潛在能力"的思路，或許可以推廣到許多其他場(chǎng)景——任何時(shí)候當(dāng)你有一種特殊格式的數(shù)據(jù)，想讓現(xiàn)有AI處理卻又不想重新訓(xùn)練的時(shí)候，找到正確的"翻譯方式"往往比重新培訓(xùn)一個(gè)新AI更加高效。

有興趣深入了解這項(xiàng)研究的讀者，可以在arXiv平臺(tái)通過(guò)論文編號(hào)arXiv:2604.11788查閱完整的原文，里面包含更詳細(xì)的數(shù)學(xué)推導(dǎo)和實(shí)驗(yàn)細(xì)節(jié)。

**Q&A**

Q1：LumiVid生成HDR視頻時(shí)，那些原本在SDR中完全消失的高光細(xì)節(jié)是憑什么"恢復(fù)"出來(lái)的？

A：這些細(xì)節(jié)并不是從原始SDR視頻中提取的，而是AI模型根據(jù)自己從大量普通視頻中學(xué)到的"光影常識(shí)"推斷出來(lái)的。就像一位老畫(huà)師能根據(jù)畫(huà)面風(fēng)格合理地填補(bǔ)被墨跡污染的區(qū)域，LumiVid在訓(xùn)練時(shí)通過(guò)刻意損壞SDR輸入（模擬真實(shí)攝像機(jī)在極端光照下的缺陷），迫使AI不能依賴復(fù)制輸入，而必須動(dòng)用自己學(xué)到的知識(shí)進(jìn)行創(chuàng)造性推斷。因此，生成的高光和陰影細(xì)節(jié)是"合理推斷"而非"精確恢復(fù)"。

Q2：LogC3是一種專(zhuān)為L(zhǎng)umiVid開(kāi)發(fā)的新技術(shù)嗎？

A：不是。LogC3是由德國(guó)專(zhuān)業(yè)攝影機(jī)制造商ARRI早已開(kāi)發(fā)并在電影行業(yè)廣泛使用的一種對(duì)數(shù)編碼方式，設(shè)計(jì)初衷是幫助后期調(diào)色師處理攝像機(jī)采集的寬廣光線信息。LumiVid的創(chuàng)新在于發(fā)現(xiàn)了這種編碼方式恰好能讓HDR數(shù)據(jù)的統(tǒng)計(jì)分布與普通SDR視頻高度相似，從而可以直接借用現(xiàn)有AI視頻模型處理SDR數(shù)據(jù)的能力，無(wú)需重新訓(xùn)練。

Q3：LumiVid與同類(lèi)的X2HDR方法相比最大的區(qū)別是什么？

A：兩者的最大區(qū)別有兩點(diǎn)。第一，LumiVid是原生視頻模型，一次性同時(shí)生成整段視頻的所有幀，幀間自然平滑連貫；X2HDR逐幀處理圖像，應(yīng)用于視頻時(shí)會(huì)產(chǎn)生嚴(yán)重的幀間閃爍，測(cè)試數(shù)據(jù)中X2HDR的閃爍指標(biāo)是LumiVid的約7倍。第二，LumiVid采用了攝像機(jī)模擬損壞的訓(xùn)練策略，迫使模型真正合成高光和陰影細(xì)節(jié)；X2HDR沒(méi)有類(lèi)似機(jī)制，更傾向于在已有信息基礎(chǔ)上做表面處理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.