国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Lightricks與特拉維夫大學(xué)讓普通視頻"煥發(fā)光彩"的秘密

0
分享至


這項(xiàng)由以色列科技公司Lightricks、Gear Productions與特拉維夫大學(xué)聯(lián)合完成的研究,以預(yù)印本形式發(fā)布于2026年4月13日,論文編號(hào)為arXiv:2604.11788。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)上查閱完整論文。

**拍照時(shí)有沒(méi)有遇到過(guò)這樣的情況**

你用手機(jī)拍了一張逆光照片,想把背光處的人臉看清楚,卻發(fā)現(xiàn)一旦調(diào)亮了人臉,背景的天空就變成了刺眼的白色;把天空調(diào)暗了,人臉又陷入了一片黑暗。這種"顧此失彼"的困境,正是現(xiàn)有視頻和圖像技術(shù)面臨的核心難題之一。

專(zhuān)業(yè)攝影師或電影攝制組為了解決這個(gè)問(wèn)題,會(huì)使用一種叫做"高動(dòng)態(tài)范圍"(HDR)的技術(shù)。簡(jiǎn)單來(lái)說(shuō),普通的照片和視頻就像一雙戴著墨鏡的眼睛,只能看到亮度適中的區(qū)域,極亮和極暗的細(xì)節(jié)都會(huì)丟失;而HDR內(nèi)容則像一雙健康的裸眼,能夠同時(shí)看清強(qiáng)烈陽(yáng)光下的云朵紋理和陰暗角落里的磚石紋路。好萊塢電影的調(diào)色師正是依賴HDR格式,才能在后期制作中自由調(diào)整畫(huà)面曝光,實(shí)現(xiàn)那種令人嘆為觀止的視覺(jué)質(zhì)感。

問(wèn)題在于,絕大多數(shù)人手頭的視頻內(nèi)容都是普通的SDR格式(可以理解為"戴著墨鏡拍攝的"),而將這些普通視頻升級(jí)為HDR格式,長(zhǎng)期以來(lái)是個(gè)極其困難的任務(wù)——因?yàn)槟切┍?墨鏡"遮住的細(xì)節(jié),根本沒(méi)有被記錄下來(lái),又怎么可能憑空還原呢?

Lightricks與特拉維夫大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)叫做LumiVid的系統(tǒng),它的核心思路出人意料地簡(jiǎn)潔:不需要重新發(fā)明新的AI模型,只需找到一種聰明的方式,讓現(xiàn)有的、已經(jīng)在海量普通視頻上"見(jiàn)多識(shí)廣"的AI,學(xué)會(huì)從普通視頻中"想象"出那些原本被遮蔽的光影細(xì)節(jié)。

一、被"遮住"的光:HDR與SDR的根本差異

要理解這項(xiàng)研究的意義,首先需要明白普通視頻(SDR)和高動(dòng)態(tài)范圍視頻(HDR)之間的本質(zhì)差異是什么。

普通視頻的亮度范圍是有限的,就好像你把世界上所有的顏色都?jí)嚎s進(jìn)了一個(gè)小盒子里。當(dāng)場(chǎng)景中有非常亮的燈光(比如正午的太陽(yáng)、舞臺(tái)上的聚光燈)或者非常暗的陰影區(qū)域時(shí),這個(gè)小盒子裝不下,就只能"截?cái)?——亮的地方變成一片死白,暗的地方變成一片死黑,細(xì)節(jié)全部消失。

HDR視頻使用的則是一個(gè)大得多的"盒子"。它記錄的是場(chǎng)景中真實(shí)的光線強(qiáng)度數(shù)值,從近乎黑暗的陰影到比太陽(yáng)還亮的高光,都可以忠實(shí)地保存下來(lái)。這些數(shù)據(jù)用的是一種叫做"場(chǎng)景線性"的格式,就像科學(xué)家記錄實(shí)驗(yàn)數(shù)據(jù)時(shí)精確到小數(shù)點(diǎn)后很多位一樣,保留了完整的物理信息。電影后期制作人員拿到這樣的素材,就可以自由地"重新決定"每個(gè)區(qū)域應(yīng)該顯示多亮,仿佛重新設(shè)置了攝像機(jī)的曝光參數(shù)一樣。

然而,正因?yàn)镠DR數(shù)據(jù)的數(shù)值范圍極廣、分布非常不均勻,現(xiàn)有的主流AI視頻生成模型根本不認(rèn)識(shí)它。這些AI模型從小就只"見(jiàn)過(guò)"普通SDR視頻,它們的"世界觀"里只有那個(gè)小盒子的范圍。把一段HDR數(shù)據(jù)直接送進(jìn)去,就好像把一篇用外語(yǔ)寫(xiě)的文章送給只懂中文的人——對(duì)方看不懂,只能輸出一堆亂碼。

二、"翻譯官"困境:為什么簡(jiǎn)單地"教"AI認(rèn)識(shí)HDR這么難

既然現(xiàn)有AI不認(rèn)識(shí)HDR,一個(gè)直接的想法是:重新訓(xùn)練一個(gè)專(zhuān)門(mén)懂HDR的AI不就行了?或者專(zhuān)門(mén)為HDR設(shè)計(jì)一個(gè)新的"翻譯層",讓AI先通過(guò)這個(gè)翻譯層來(lái)理解HDR數(shù)據(jù)?

這個(gè)方向確實(shí)有人嘗試過(guò),但代價(jià)極其高昂。首先,HDR視頻數(shù)據(jù)非常稀缺。普通SDR視頻在互聯(lián)網(wǎng)上數(shù)以億計(jì),而高質(zhì)量的HDR場(chǎng)景線性視頻數(shù)據(jù)少得可憐,絕大多數(shù)號(hào)稱"HDR"的消費(fèi)級(jí)內(nèi)容其實(shí)只是經(jīng)過(guò)處理的顯示端格式,并不是攝影師需要的原始場(chǎng)景數(shù)據(jù)。其次,現(xiàn)有的AI視頻模型(比如這項(xiàng)研究所用的底層模型LTX-Video)是用數(shù)以億計(jì)的普通視頻訓(xùn)練出來(lái)的,包含了關(guān)于光影、物體、運(yùn)動(dòng)的極其豐富的"常識(shí)"。如果為了適配HDR而重新從頭訓(xùn)練,不僅代價(jià)極大,還會(huì)白白丟失這些已經(jīng)積累的寶貴知識(shí)。

這就像一位經(jīng)驗(yàn)極其豐富的廚師,已經(jīng)掌握了數(shù)千種食材的處理方式和口味搭配?,F(xiàn)在你想讓他做一道使用新型調(diào)料的菜,最笨的辦法是讓他忘掉所有過(guò)去的廚藝重新學(xué)習(xí),而最聰明的辦法是找到一種方法,把這種新型調(diào)料轉(zhuǎn)換成他熟悉的口味語(yǔ)言,讓他用已有的廚藝知識(shí)來(lái)處理它。

LumiVid的核心貢獻(xiàn),正是找到了這個(gè)"轉(zhuǎn)換成熟悉口味"的方法。

三、電影工業(yè)的秘密武器:LogC3編碼如何充當(dāng)完美翻譯

研究團(tuán)隊(duì)發(fā)現(xiàn),解決方案來(lái)自電影行業(yè)一個(gè)已經(jīng)使用多年的工具:**LogC3編碼**。這是著名電影攝影機(jī)制造商ARRI(專(zhuān)門(mén)生產(chǎn)好萊塢御用攝像機(jī)的公司)開(kāi)發(fā)的一種數(shù)據(jù)壓縮方式,設(shè)計(jì)初衷是把攝像機(jī)傳感器采集到的寬廣光線信息,以一種對(duì)人眼和后期工作流友好的方式存儲(chǔ)下來(lái)。

LogC3的工作原理可以用一個(gè)簡(jiǎn)單的類(lèi)比來(lái)理解。普通亮度數(shù)據(jù)的分布就像一排長(zhǎng)短極不均勻的柱子,有幾根高聳入云(高光區(qū)域),有幾根矮得幾乎看不見(jiàn)(陰影區(qū)域)。如果你直接把這排柱子搬進(jìn)AI的"理解范圍",大部分的柱子要么被截?cái)?,要么被壓縮到幾乎消失。而LogC3做的事情,是把這排柱子按照數(shù)學(xué)上的"對(duì)數(shù)"規(guī)律重新排列——把那些過(guò)高的柱子壓矮,把那些過(guò)矮的柱子適度拔高,最終讓整排柱子的高度變得相當(dāng)均勻,恰好落在AI能夠舒服處理的范圍內(nèi)。

更關(guān)鍵的發(fā)現(xiàn)來(lái)自于研究團(tuán)隊(duì)的一個(gè)實(shí)驗(yàn):他們把經(jīng)過(guò)LogC3處理的HDR幀與AI模型已經(jīng)熟悉的普通SDR視頻幀進(jìn)行了統(tǒng)計(jì)學(xué)上的比較。比較的方式是測(cè)量?jī)烧叩?分布相似度"——用一個(gè)叫做KL散度(可以理解為"陌生程度"的測(cè)量值,越小代表越像,越大代表越陌生)的指標(biāo)來(lái)量化。結(jié)果發(fā)現(xiàn),LogC3處理后的HDR數(shù)據(jù),與普通SDR數(shù)據(jù)的"陌生程度"僅為0.215,幾乎可以說(shuō)是"一家人"。相比之下,另一種常見(jiàn)的高亮度格式HLG(混合對(duì)數(shù)伽馬,多用于廣播電視)的陌生程度高達(dá)0.373,而用于電影色彩映射的ACES格式更是高達(dá)3.338,跟SDR的差距就像把牛排菜單送給只吃素的人。

這個(gè)發(fā)現(xiàn)的意義在于:既然LogC3處理過(guò)的HDR數(shù)據(jù)在統(tǒng)計(jì)分布上已經(jīng)非常接近AI"從小見(jiàn)慣"的SDR數(shù)據(jù),那么AI就不需要重新學(xué)習(xí)一套全新的"語(yǔ)言",只需要在原有能力基礎(chǔ)上做小幅度的微調(diào),就能處理HDR內(nèi)容了。

為了進(jìn)一步驗(yàn)證這個(gè)想法,研究團(tuán)隊(duì)做了一個(gè)叫做"VAE往返測(cè)試"的實(shí)驗(yàn)。VAE(變分自編碼器)是AI模型內(nèi)部負(fù)責(zé)"理解"圖像的核心組件,就像大腦的視覺(jué)皮層一樣。他們把各種格式處理過(guò)的HDR幀送進(jìn)VAE,讓VAE壓縮再解壓(就像把一張紙折疊再展開(kāi),看損失了多少細(xì)節(jié)),然后測(cè)量還原質(zhì)量。LogC3和PQ(另一種對(duì)數(shù)格式,常用于流媒體HDR標(biāo)準(zhǔn))在這個(gè)測(cè)試中表現(xiàn)最好,還原質(zhì)量指標(biāo)SSIM達(dá)到0.9747,幾乎沒(méi)有損失;而HLG會(huì)導(dǎo)致高光細(xì)節(jié)嚴(yán)重?fù)p失,ACES則在整體結(jié)構(gòu)上產(chǎn)生明顯偏差。

就這樣,研究團(tuán)隊(duì)用一個(gè)固定的數(shù)學(xué)變換(不需要訓(xùn)練,計(jì)算量極?。?,就把HDR內(nèi)容"翻譯"成了AI能夠自然理解的格式,整個(gè)過(guò)程不需要修改AI模型的任何內(nèi)部結(jié)構(gòu),就像給外語(yǔ)文件找到了一位可靠的翻譯官,而無(wú)需重新培訓(xùn)閱讀外語(yǔ)的能力。

四、解決"無(wú)中生有":當(dāng)AI需要憑空填補(bǔ)消失的光影

即便解決了格式兼容問(wèn)題,還有一個(gè)更深層的挑戰(zhàn)沒(méi)有解決:那些在SDR視頻中完全丟失的高光和陰影細(xì)節(jié),從來(lái)沒(méi)有被記錄下來(lái)過(guò),又怎么可能被"還原"出來(lái)呢?

這里涉及到的其實(shí)是一種有趣的能力。一位經(jīng)驗(yàn)豐富的老畫(huà)家,即便給他看一張局部被墨水污染的畫(huà)作,他也能根據(jù)畫(huà)面的整體風(fēng)格、光源方向、物體特征,憑借多年的經(jīng)驗(yàn)合理地"補(bǔ)全"那些被遮住的部分。他的大腦里儲(chǔ)存著關(guān)于光影、材質(zhì)、空間的大量知識(shí),讓他能夠進(jìn)行有依據(jù)的"創(chuàng)造性推斷"。

現(xiàn)代AI視頻模型經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練之后,實(shí)際上也積累了類(lèi)似的能力——它"知道"燈泡周?chē)鷳?yīng)該有光暈,知道金屬表面如何反光,知道深邃的陰影里應(yīng)該藏著什么樣的紋理。但問(wèn)題是,如果你直接把一段SDR視頻(高光處一片死白,陰影處一片死黑)送給它,讓它生成對(duì)應(yīng)的HDR版本,它很可能選擇最省力的方式:把輸入的內(nèi)容直接照搬過(guò)去,只做一些表面處理,而不會(huì)真正發(fā)揮自己"見(jiàn)多識(shí)廣"的優(yōu)勢(shì)去創(chuàng)造性地填補(bǔ)那些缺失的細(xì)節(jié)。

為了逼迫AI真正動(dòng)用自己的"創(chuàng)造性推斷"能力,LumiVid的研究團(tuán)隊(duì)設(shè)計(jì)了一套叫做"攝像機(jī)模擬損壞"的訓(xùn)練策略。這套策略的思路非常直接:在訓(xùn)練階段,刻意把輸入給AI的SDR參考幀"弄得更爛",讓那些原本在參考幀中還隱約可見(jiàn)的高光和陰影細(xì)節(jié)徹底消失,讓AI面對(duì)的是一個(gè)更"殘破"的輸入,從而不得不依賴自己的學(xué)習(xí)經(jīng)驗(yàn)來(lái)填補(bǔ)空白。

具體來(lái)說(shuō),這套損壞策略包含四種操作,分別模擬真實(shí)攝像機(jī)在極端光照條件下會(huì)產(chǎn)生的各種缺陷。第一種是MP4壓縮失真,模擬視頻經(jīng)過(guò)壓縮后產(chǎn)生的塊狀偽影;第二種是對(duì)比度裁剪,把畫(huà)面的亮部和暗部直接截?cái)嗟綐O端值,徹底消除這些區(qū)域的細(xì)節(jié);第三種是對(duì)高光和陰影區(qū)域進(jìn)行選擇性模糊,專(zhuān)門(mén)把那些極亮或極暗的區(qū)域弄模糊,讓AI無(wú)法直接復(fù)制這些區(qū)域;第四種是隨機(jī)的曝光偏移,同時(shí)對(duì)SDR輸入和HDR目標(biāo)做對(duì)應(yīng)的亮度調(diào)整,讓AI學(xué)會(huì)處理各種明暗程度的輸入場(chǎng)景。

前三種操作只施加在輸入的SDR幀上,而HDR目標(biāo)幀保持完整。這樣一來(lái),AI面對(duì)的是一個(gè)"壞掉的"輸入,卻需要生成一個(gè)"完好的"HDR輸出。它唯一的辦法就是真正利用自己大腦里積累的關(guān)于光影世界的知識(shí),去推斷那些被刻意破壞的區(qū)域應(yīng)該長(zhǎng)什么樣。

五、系統(tǒng)如何運(yùn)作:從普通視頻到專(zhuān)業(yè)級(jí)HDR的完整流水線

把前面所有的思路組合在一起,LumiVid的工作流程就像一條分工明確的生產(chǎn)線,訓(xùn)練階段和使用階段各有其角色。

在訓(xùn)練階段,研究團(tuán)隊(duì)首先需要收集高質(zhì)量的HDR視頻素材來(lái)教導(dǎo)AI。由于真實(shí)拍攝的場(chǎng)景線性HDR視頻極為稀缺,他們采用了兩種來(lái)源相結(jié)合的方式。一方面,他們使用了PolyHaven提供的HDRI(高動(dòng)態(tài)范圍全景圖)環(huán)境貼圖庫(kù)——這些是攝影師在各種真實(shí)場(chǎng)景中拍攝的360度光照環(huán)境圖,研究團(tuán)隊(duì)通過(guò)在這些靜態(tài)環(huán)境圖中模擬攝像機(jī)旋轉(zhuǎn),生成了大量人工合成的HDR視頻片段,涵蓋多種真實(shí)光照環(huán)境。另一方面,他們引入了開(kāi)源HDR電影《鋼鐵之淚》(Tears of Steel,由Blender基金會(huì)制作)的場(chǎng)景線性EXR渲染素材,這些素材包含了真實(shí)人物運(yùn)動(dòng)和復(fù)雜現(xiàn)實(shí)光照,彌補(bǔ)了合成視頻在人物和自然運(yùn)動(dòng)方面的不足。

訓(xùn)練時(shí),同一段HDR原始素材會(huì)被同時(shí)處理成兩路數(shù)據(jù):目標(biāo)輸出是經(jīng)過(guò)LogC3轉(zhuǎn)換的HDR幀,經(jīng)過(guò)AI的VAE編碼器變成"目標(biāo)潛在向量";而輸入則是把同一段HDR幀先做色調(diào)映射(轉(zhuǎn)換成SDR),再施加前面介紹的四種模擬損壞,然后同樣經(jīng)過(guò)VAE編碼變成"參考潛在向量"。兩路向量被拼接在一起,送進(jìn)AI模型的核心——一個(gè)叫做Diffusion Transformer(擴(kuò)散變換器,簡(jiǎn)稱DiT)的大型神經(jīng)網(wǎng)絡(luò),讓它學(xué)習(xí)如何從"壞掉的SDR參考"推斷出"完整的HDR目標(biāo)"。

值得一提的是,整個(gè)訓(xùn)練過(guò)程中,AI模型原本的絕大多數(shù)參數(shù)都保持凍結(jié)不變,就像那位經(jīng)驗(yàn)豐富的廚師不需要忘記任何過(guò)去的技能。真正被更新的只是一個(gè)叫做LoRA(低秩適應(yīng),一種極其輕量的微調(diào)技術(shù))的附加模塊,它只占整個(gè)模型參數(shù)量的不到1%,卻足以讓模型學(xué)會(huì)處理HDR任務(wù)。整個(gè)訓(xùn)練在單塊GPU上大約需要8小時(shí),處理約300個(gè)視頻片段,是相當(dāng)高效的訓(xùn)練規(guī)模。

到了實(shí)際使用(推斷)階段,流程就更加簡(jiǎn)潔了。用戶提供一段普通的SDR視頻,系統(tǒng)將其通過(guò)VAE編碼為參考向量,與隨機(jī)噪聲拼接后送入帶有LoRA適配器的DiT,經(jīng)過(guò)僅11步擴(kuò)散去噪(普通擴(kuò)散模型通常需要數(shù)十到數(shù)百步),輸出一組HDR潛在向量。這些向量經(jīng)過(guò)VAE解碼器還原為圖像,再通過(guò)LogC3的逆變換轉(zhuǎn)換回場(chǎng)景線性數(shù)值,最終保存為float16(16位浮點(diǎn)數(shù))精度的EXR文件——這是專(zhuān)業(yè)電影后期制作中的標(biāo)準(zhǔn)格式,調(diào)色師可以直接拿來(lái)在專(zhuān)業(yè)軟件中調(diào)整曝光、進(jìn)行色彩分級(jí),如同擁有了重新"設(shè)置攝像機(jī)"的權(quán)力。

六、與同類(lèi)方法的較量:數(shù)據(jù)說(shuō)話

研究團(tuán)隊(duì)在兩個(gè)完全不同于訓(xùn)練數(shù)據(jù)的測(cè)試集上對(duì)LumiVid進(jìn)行了嚴(yán)格評(píng)測(cè),目的是檢驗(yàn)它的泛化能力——能不能在從沒(méi)見(jiàn)過(guò)的場(chǎng)景上也表現(xiàn)出色。

第一個(gè)測(cè)試集來(lái)自ARRI公司(前面提到的專(zhuān)業(yè)電影攝影機(jī)制造商)發(fā)布的48段專(zhuān)業(yè)級(jí)12位HDR視頻素材,涵蓋6種不同攝像機(jī)型號(hào)的拍攝風(fēng)格,包含各種復(fù)雜的專(zhuān)業(yè)級(jí)光照和色彩空間,是真正的高難度考場(chǎng)。第二個(gè)測(cè)試集UPIQ則包含30張經(jīng)過(guò)嚴(yán)格標(biāo)定的HDR圖像,每張圖像的絕對(duì)亮度數(shù)值都經(jīng)過(guò)了精確校準(zhǔn),代表了目前學(xué)術(shù)界最嚴(yán)格的HDR質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)之一。

LumiVid的對(duì)手包括三種當(dāng)前最先進(jìn)的方法:HDRTVNet(一種專(zhuān)門(mén)為SDR轉(zhuǎn)HDR設(shè)計(jì)的確定性卷積神經(jīng)網(wǎng)絡(luò))、X2HDR(與LumiVid思路最為接近的并行研究,也是使用預(yù)訓(xùn)練擴(kuò)散模型配合LoRA微調(diào),但只處理單張圖片且使用不同的編碼方式)、以及LEDiff(另一種基于擴(kuò)散模型的HDR生成方法)。

評(píng)價(jià)指標(biāo)方面,研究團(tuán)隊(duì)使用了專(zhuān)門(mén)為HDR內(nèi)容設(shè)計(jì)的PU21-PSNR(一種對(duì)人眼感知敏感的圖像質(zhì)量評(píng)分,數(shù)值越高越好)、LPIPS(感知圖像相似度,數(shù)值越低越好)以及ColorVideoVDP的JOD分?jǐn)?shù)(0到10的感知質(zhì)量評(píng)分,滿分10分代表完美,普通人眼無(wú)法察覺(jué)任何失真)。

在ARRI專(zhuān)業(yè)視頻測(cè)試集上,LumiVid的PU21-PSNR達(dá)到36.20分,遠(yuǎn)超HDRTVNet的26.48分和X2HDR的20.68分;LPIPS僅為0.020(HDRTVNet為0.089,X2HDR為0.250);JOD感知質(zhì)量評(píng)分7.86(HDRTVNet 6.94,X2HDR 3.54)。

在更嚴(yán)苛的UPIQ標(biāo)定圖像測(cè)試集上,LumiVid同樣保持領(lǐng)先:PU21-PSNR 30.05,JOD 8.22,對(duì)比HDRTVNet的22.59分和4.48分,以及X2HDR的17.47分和6.06分。這意味著LumiVid生成的HDR內(nèi)容,在專(zhuān)業(yè)標(biāo)準(zhǔn)下更接近真實(shí)的HDR場(chǎng)景。

特別值得關(guān)注的是時(shí)間一致性這個(gè)指標(biāo),這是視頻處理中極為重要但容易被忽視的維度。由于LumiVid是一個(gè)原生視頻模型,它會(huì)同時(shí)生成一段視頻的所有幀,幀與幀之間天然地保持連貫。相比之下,X2HDR這類(lèi)逐幀處理的圖像模型,每一幀都獨(dú)立生成,幀間的閃爍問(wèn)題非常嚴(yán)重。測(cè)試數(shù)據(jù)顯示,LumiVid的幀間PSNR(F2F-PSNR)為45.63,穩(wěn)定性遠(yuǎn)超X2HDR的36.36;在衡量畫(huà)面閃爍程度的Flicker指標(biāo)上,LumiVid僅為0.0245,而X2HDR高達(dá)0.1630,幾乎是前者的七倍。換句話說(shuō),用X2HDR生成的"HDR視頻"會(huì)像老式日光燈一樣閃爍,而LumiVid生成的視頻則平滑穩(wěn)定,真正可用于專(zhuān)業(yè)場(chǎng)景。

七、消融實(shí)驗(yàn):每個(gè)設(shè)計(jì)選擇的價(jià)值

為了證明各個(gè)設(shè)計(jì)選擇都是必要的,研究團(tuán)隊(duì)還做了一系列"如果去掉某個(gè)關(guān)鍵設(shè)計(jì)會(huì)怎樣"的對(duì)比實(shí)驗(yàn),在學(xué)術(shù)上叫做"消融實(shí)驗(yàn)"。

在編碼方式的選擇上,他們訓(xùn)練了三個(gè)版本的模型,分別使用LogC3、PQ和ACES三種不同的HDR編碼方式。結(jié)果顯示,LogC3在KL散度(與SDR的"陌生程度")方面表現(xiàn)最好(0.302),且在感知質(zhì)量JOD評(píng)分上獲得最高的7.86分,而ACES盡管在某些像素級(jí)指標(biāo)上數(shù)值更高,但其JOD感知評(píng)分僅7.40,說(shuō)明在人眼實(shí)際感知的質(zhì)量上有明顯差距。

在訓(xùn)練數(shù)據(jù)增強(qiáng)策略上,他們對(duì)比了三種配置:完整的攝像機(jī)模擬損壞流程、完全不加任何損壞、以及只加模糊而不做其他處理。結(jié)果表明,完整損壞流程在JOD感知質(zhì)量上獲得7.86分,顯著優(yōu)于無(wú)增強(qiáng)版本的7.43分;而只加模糊的版本表現(xiàn)最差,JOD僅6.90,說(shuō)明不適當(dāng)?shù)脑鰪?qiáng)反而會(huì)干擾模型的學(xué)習(xí)。一個(gè)看似反直覺(jué)的現(xiàn)象是,無(wú)增強(qiáng)版本在像素級(jí)PSNR數(shù)值上反而更高(39.00對(duì)36.97),但感知質(zhì)量更低——這正說(shuō)明了簡(jiǎn)單地追求像素級(jí)相似度并不等于生成出真正高質(zhì)量的HDR內(nèi)容,模型在沒(méi)有損壞壓力的情況下會(huì)傾向于"偷懶地"復(fù)制輸入,而不是真正去合成高光和陰影中的細(xì)節(jié)。

說(shuō)到底,LumiVid這項(xiàng)研究揭示的核心洞見(jiàn)是:解鎖一項(xiàng)新能力,往往不需要重新打造一套新工具,而是找到正確的方式來(lái)對(duì)話已有的工具。那位訓(xùn)練了數(shù)年的AI視頻模型,其實(shí)早就在海量的自然視頻中見(jiàn)識(shí)過(guò)無(wú)數(shù)種光影變化的規(guī)律,它"知道"燈光如何在墻上散漫,知道深夜街頭的路燈如何在濕漉漉的路面上暈開(kāi)光暈。它所缺少的,不過(guò)是一座能讓它理解HDR語(yǔ)言的橋梁,以及一點(diǎn)點(diǎn)讓它不得不主動(dòng)思考的"壓力"。

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)意味著什么?它意味著未來(lái)的視頻編輯工具或許能讓你把手機(jī)拍的普通短視頻,升級(jí)成具有專(zhuān)業(yè)級(jí)光影細(xì)節(jié)的HDR內(nèi)容,可以在支持HDR的新型顯示器或電視上展現(xiàn)出真正的色彩深度。對(duì)于影視后期從業(yè)者而言,這意味著可以把大量已有的SDR存檔素材賦予新的生命,以更低的成本制作出更高質(zhì)量的內(nèi)容。更廣泛地看,這項(xiàng)研究中"通過(guò)分布對(duì)齊來(lái)解鎖預(yù)訓(xùn)練模型的潛在能力"的思路,或許可以推廣到許多其他場(chǎng)景——任何時(shí)候當(dāng)你有一種特殊格式的數(shù)據(jù),想讓現(xiàn)有AI處理卻又不想重新訓(xùn)練的時(shí)候,找到正確的"翻譯方式"往往比重新培訓(xùn)一個(gè)新AI更加高效。

有興趣深入了解這項(xiàng)研究的讀者,可以在arXiv平臺(tái)通過(guò)論文編號(hào)arXiv:2604.11788查閱完整的原文,里面包含更詳細(xì)的數(shù)學(xué)推導(dǎo)和實(shí)驗(yàn)細(xì)節(jié)。

**Q&A**

Q1:LumiVid生成HDR視頻時(shí),那些原本在SDR中完全消失的高光細(xì)節(jié)是憑什么"恢復(fù)"出來(lái)的?

A:這些細(xì)節(jié)并不是從原始SDR視頻中提取的,而是AI模型根據(jù)自己從大量普通視頻中學(xué)到的"光影常識(shí)"推斷出來(lái)的。就像一位老畫(huà)師能根據(jù)畫(huà)面風(fēng)格合理地填補(bǔ)被墨跡污染的區(qū)域,LumiVid在訓(xùn)練時(shí)通過(guò)刻意損壞SDR輸入(模擬真實(shí)攝像機(jī)在極端光照下的缺陷),迫使AI不能依賴復(fù)制輸入,而必須動(dòng)用自己學(xué)到的知識(shí)進(jìn)行創(chuàng)造性推斷。因此,生成的高光和陰影細(xì)節(jié)是"合理推斷"而非"精確恢復(fù)"。

Q2:LogC3是一種專(zhuān)為L(zhǎng)umiVid開(kāi)發(fā)的新技術(shù)嗎?

A:不是。LogC3是由德國(guó)專(zhuān)業(yè)攝影機(jī)制造商ARRI早已開(kāi)發(fā)并在電影行業(yè)廣泛使用的一種對(duì)數(shù)編碼方式,設(shè)計(jì)初衷是幫助后期調(diào)色師處理攝像機(jī)采集的寬廣光線信息。LumiVid的創(chuàng)新在于發(fā)現(xiàn)了這種編碼方式恰好能讓HDR數(shù)據(jù)的統(tǒng)計(jì)分布與普通SDR視頻高度相似,從而可以直接借用現(xiàn)有AI視頻模型處理SDR數(shù)據(jù)的能力,無(wú)需重新訓(xùn)練。

Q3:LumiVid與同類(lèi)的X2HDR方法相比最大的區(qū)別是什么?

A:兩者的最大區(qū)別有兩點(diǎn)。第一,LumiVid是原生視頻模型,一次性同時(shí)生成整段視頻的所有幀,幀間自然平滑連貫;X2HDR逐幀處理圖像,應(yīng)用于視頻時(shí)會(huì)產(chǎn)生嚴(yán)重的幀間閃爍,測(cè)試數(shù)據(jù)中X2HDR的閃爍指標(biāo)是LumiVid的約7倍。第二,LumiVid采用了攝像機(jī)模擬損壞的訓(xùn)練策略,迫使模型真正合成高光和陰影細(xì)節(jié);X2HDR沒(méi)有類(lèi)似機(jī)制,更傾向于在已有信息基礎(chǔ)上做表面處理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開(kāi)始慌了

倒查13年,央國(guó)企開(kāi)始慌了

職場(chǎng)資深秘書(shū)
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

手機(jī)
游戲
親子
教育
軍事航空

手機(jī)要聞

三星裸眼3D屏來(lái)了,廣告牌能“跳”出來(lái)

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫(huà)面

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版