国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大廣州、快手可靈發(fā)布立體視頻轉(zhuǎn)換單步推理新方案

0
分享至



近年來,隨著 VR 頭戴設(shè)備、智能眼鏡、3D 影院的發(fā)展,人們對于 3D 立體視頻內(nèi)容的需求不斷增加。3D 電影帶來的沉浸式體驗著實令人著迷,但因其制作過程需要專業(yè)的相機設(shè)備、復(fù)雜耗時的專家后處理,3D 內(nèi)容的制作讓普通玩家望而卻步:

2010 年,卡梅隆導(dǎo)演為了實現(xiàn)經(jīng)典著作《泰坦尼克號》的 3D 版本重制,制作團隊投入了高達 1800 萬美元,動用了 300 名專業(yè)工程師,耗時整整 60 周才完成[1]。

如此高昂的成本和復(fù)雜的人力投入,一直是 3D 內(nèi)容生產(chǎn)的最大阻礙。盡管近年來自動化的“單目轉(zhuǎn)雙目”(Monocular-to-Stereo)技術(shù)有所發(fā)展,但效果往往不盡如人意,轉(zhuǎn)換的結(jié)果往往要么產(chǎn)生錯誤的視差,要么無法處理復(fù)雜的鏡面場景,且速度極慢:現(xiàn)有的研究工作轉(zhuǎn)換一段 5 秒的視頻,耗時15 分鐘到 70 分鐘不等。

針對這一難題,快手可靈團隊與香港科技大學(xué)(廣州)陳穎聰教授團隊(共同一作博士生沈貴寶、紅鳥碩士生杜壹華、博士生葛汶杭)聯(lián)合提出了一種全新的解決方案 ——StereoPilot。這是一種基于生成式先驗的統(tǒng)一高效立體視頻轉(zhuǎn)換模型,能夠在極短的時間內(nèi)(11 秒),將一段 5 秒的普通 2D 視頻轉(zhuǎn)換為高質(zhì)量的 3D 立體視頻,在所有定量指標(biāo)上均超越了當(dāng)前 SOTA 方法。



  • 論文鏈接:https://arxiv.org/abs/2512.16915
  • 項目主頁:https://hit-perfect.github.io/StereoPilot/
  • 代碼鏈接:https://github.com/KlingTeam/StereoPilot/

當(dāng)解鎖了 3D 視頻的制作部分,接下來,你只需要購買一副大約價格 10 元人民幣的紅藍眼鏡,即可跟隨 StereoPliot 一起,開啟沉浸式視覺體驗:

論文的作者,對單目轉(zhuǎn)雙目視頻,從以往的研究方法到數(shù)據(jù)格式,由表及里地進行了深入分析:

傳統(tǒng)困境:為何 "Depth-Warp-Inpaint" 走不通?



在 StereoPilot 之前的研究工作中,學(xué)術(shù)界和工業(yè)界主流的 2D 轉(zhuǎn) 3D 方案通常采用“深度估計 - 重投影 - 補全”(Depth-Warp-Inpaint, DWI)的多階段流水線 :首先估計輸入視角(如 left-view)每個像素的深度,再依據(jù)深度和視差(disparity)的反比關(guān)系計算出視差進而重投影到目標(biāo)視角(right-view),最后再對遮擋位置進行補全。雖然這種方法符合直覺,但在實際應(yīng)用中卻存在三大致命缺陷:

1. 誤差累積(Error Propagation)

DWI 流程是串行的:先估計深度圖,再根據(jù)深度圖將像素 “重投影”(Warp)到另一只眼睛的視角,最后修補空洞。這導(dǎo)致了一個嚴重的問題:一步錯,步步錯。如果初始的深度估計不準(zhǔn)確,后續(xù)的重投影步驟會直接放大這種錯誤,導(dǎo)致最終生成的畫面出現(xiàn)嚴重的幾何畸變和偽影 。

2. 深度歧義(Depth Ambiguity)

搞不定的 “鏡中花”這是 DWI 方法面臨的最棘手的物理難題。在現(xiàn)實世界中,鏡子或玻璃等反光表面存在一種特殊的現(xiàn)象:鏡子表面的物理深度與鏡子里反射物體的成像深度是不同的。 然而,傳統(tǒng)的深度估計算法在同一個像素點上只能預(yù)測一個深度值。這導(dǎo)致 DWI 方法無法正確處理反射場景 —— 它們往往會將物體反射的光學(xué)成像如同紋理一樣錯誤地 “貼” 在鏡子表面,導(dǎo)致 3D 觀感極度違和。







基于以上的現(xiàn)象觀察和論述,我們可以得到:在鏡面反射、透明等一個位置具備多個光學(xué)深度的場景下,單目深度估計算法預(yù)測得出的單一深度值,將無法通過簡單的反比幾何關(guān)系導(dǎo)出視差從而進行正確的重投影(warp)操作,而作者提出的 StereoPilot 則很好處理了“鏡中花”的場景,如下圖所示:



3. 格式不一致(Format Inconsistency)與幾何假設(shè)失效

目前的 DWI 方法通常假設(shè):深度(Depth)與視差(Disparity)之間存在簡單的反比關(guān)系。這種假設(shè)僅對平行攝像機(Parallel)配置有效。然而, 3D 電影影視工業(yè)中,為了獲得更好的觀影體驗,通常使用的是匯聚攝像機(Converged/Toe-in)。 在匯聚模式下,上述簡單的幾何假設(shè)不再成立,強行使用 DWI 方法會導(dǎo)致視差計算錯誤,和需要還原的 3D 訓(xùn)練數(shù)據(jù)無法達成一致。

撥開迷霧:Converged(匯聚式) vs. Parallel(平行式)

為了徹底解決格式問題,我們必須先理清 3D 視頻數(shù)據(jù)的兩種主要格式,StereoPlilot 的作者用下面的圖例形象地展示了兩種數(shù)據(jù)格式的區(qū)別:



  • 平行格式(Parallel): 左右兩個相機的光軸是完全平行的。這種格式常見于計算機視覺數(shù)據(jù)集,其視差與深度成簡單的反比關(guān)系,常常被用于計算高精度的深度值。
  • 匯聚格式(Converged): 左右相機的光軸向內(nèi)旋轉(zhuǎn),匯聚于一點(匯聚點)。這會產(chǎn)生一個 “零視差平面”—— 在這個平面之前的物體會有出屏效果(正視差),而在其之后的物體則 “深陷” 屏幕中(負視差),而處于零視差面的主體則沒有視差,觀眾的眼睛提供了休息區(qū)。這是 3D 電影工業(yè)的標(biāo)準(zhǔn)格式。深度與視差之間不再存在簡單的反比關(guān)系。

下面兩個例子形象展示了了兩種 3D 數(shù)據(jù)格式的區(qū)別:



平行格式(Parallel)vs 匯聚格式(Converged)

由于先前的研究工作往往從未對這兩種格式進行區(qū)分,或者只在單一格式上進行訓(xùn)練,不可避免的帶來了一些不合理的對比,如將匯聚式 3D 電影數(shù)據(jù)集上訓(xùn)練的模型在平行光軸的數(shù)據(jù)集上進行測試對比。

StereoPilot:統(tǒng)一、高效的端到端解決方案

為了攻克上述難題,快手可靈聯(lián)合港科大(廣州)團隊提出了StereoPilot

UniStereo:首個大規(guī)模統(tǒng)一 3D 立體視頻數(shù)據(jù)集

團隊構(gòu)建了UniStereo數(shù)據(jù)集,數(shù)據(jù)處理打標(biāo)流程如下圖所示,這是業(yè)界首個同時包含 Parallel 和 Converged 兩種格式的大規(guī)模 3D 立體視頻數(shù)據(jù)集。UniStereo 數(shù)據(jù)集包含了兩個部分:



  • Stereo4D (Parallel): 包含了 Stereo4D 的數(shù)據(jù)中 58,000 個 5 秒的源自真實世界的平行視角視頻片段 。
  • 3DMovie (Converged): 從 142 部高質(zhì)量 3D 電影中精選并處理了 48,000 個 5 秒的匯聚視角視頻片段。

作者將會公開 Parallel 格式的所有數(shù)據(jù)和 Converged 格式數(shù)據(jù)的處理流程。

統(tǒng)一高效的模型結(jié)構(gòu)



StereoPilot 的模型結(jié)構(gòu)如上圖所示,主要包含下面三個核心部分:

  • Diffusion as Feed-Forward 11 秒極速轉(zhuǎn)換:不同于傳統(tǒng)的迭代式擴散模型(需要幾十步采樣,速度慢),StereoPilot 首次在該任務(wù)中采用了的"Diffusion as Feed-Forward"架構(gòu)。作者將時間步 固定為一個極小值,利用預(yù)訓(xùn)練視頻擴散模型(Video Diffusion Transformer)強大的生成先驗,直接在單次前向傳播中預(yù)測目標(biāo)視圖。 這使得 StereoPilot 處理一個 5 秒(81 幀)的視頻僅需 11 秒,而同類方法(如 Mono2Stereo, SVG)往往需要十幾分鐘甚至一小時。
  • Domain Switcher 全能格式切換:為了讓一個模型同時搞定兩種 3D 格式并提高模型的泛化能力,StereoPilot 引入了一個可學(xué)習(xí)的 Domain Switcher。這就好比給模型裝了一個 “開關(guān)”,用戶可以根據(jù)需要,自由控制生成 Parallel 還是 Converged 格式的 3D 視頻,實現(xiàn)了真正的統(tǒng)一。
  • Cycle Consistency 保證幾何一致性:為了確保生成的左眼和右眼視頻在幾何上更好的對齊,團隊還設(shè)計了循環(huán)一致性損失(Cycle Consistency Loss),強制模型在從左圖生成右圖、再從右圖還原左圖的過程中保持信息不丟失,提升了目標(biāo)視角與源視角的幾何一致性。

實驗對比展示

定量指標(biāo)對比

作者在 UniStereo 基準(zhǔn)測試集中對近期的 SOTA 方法進行了全面的對比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指標(biāo)上均顯著優(yōu)于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等現(xiàn)有 SOTA 方法,在推理性能上,對比其他方法動輒十幾分鐘到一個多小時的推理時間,StereoPilot 的 11 秒的推理速度實現(xiàn)了壓倒性的優(yōu)勢。



可視化對比

根據(jù)作者展示的可視化對比結(jié)果,相比其他的 SOTA 方法,StereoPilot 預(yù)測的結(jié)果具有更加準(zhǔn)確的視差和更高的視覺質(zhì)量。此外,如前文中分析,StereoPilot 可以處理復(fù)雜的鏡面場景(如下圖中的最后一列的樣本),這是其他方法從原理上無法做到的事情。



消融分析

為了驗證 StereoPilot 方法中的模塊的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析實驗。

首先,如下展示的動態(tài)效果所示,StereoPilot 可以在 Domain Switcher 的加持下,實現(xiàn) parallel 和 converged 的兩種 3D 格式的靈活轉(zhuǎn)換。





除了實現(xiàn)靈活統(tǒng)一的 3D 視頻轉(zhuǎn)換外,作者進一步地進行定量和定性實驗,驗證統(tǒng)一地訓(xùn)練方式對模型泛化性能的影響,如下圖表所示:





從圖表展示的結(jié)果可以看出 Domain Switcher 和 Cycle Consistency 為模型在測試集上提供了更好的泛化性能與一致性。

結(jié)語

快手可靈團隊和港科大廣州聯(lián)合提出的 StereoPilot,實現(xiàn)了快速高質(zhì)量的端到端 2D 視頻轉(zhuǎn) 3D 視頻,打破了 2D 轉(zhuǎn) 3D 依賴昂貴人工或低效深度重投影的桎梏,為 VR/AR 內(nèi)容創(chuàng)作、老電影修復(fù)以及沉浸式視頻體驗提供了新的可能性。此外,團隊首次闡明 parallel 和 converged 兩種 3D 立體視頻數(shù)據(jù)的格式,并首次構(gòu)建了大規(guī)模統(tǒng)一 3D 立體視頻數(shù)據(jù)集,澄清了該領(lǐng)域的訓(xùn)練、測評標(biāo)準(zhǔn)。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普闖下大禍!五角大樓報告:中國100枚洲際彈道導(dǎo)彈或已裝載

特朗普闖下大禍!五角大樓報告:中國100枚洲際彈道導(dǎo)彈或已裝載

頭條爆料007
2025-12-23 10:02:13
外交部:再次提醒中國公民暫勿前往柬泰邊境地區(qū)

外交部:再次提醒中國公民暫勿前往柬泰邊境地區(qū)

澎湃新聞
2025-12-23 15:49:13
“亞國聯(lián)”對國足是雪中送炭?

“亞國聯(lián)”對國足是雪中送炭?

新民晚報
2025-12-23 09:22:03
成熟女人穿牛仔褲太有魅力,緊身高腰襯出好比例,大長腿超吸睛

成熟女人穿牛仔褲太有魅力,緊身高腰襯出好比例,大長腿超吸睛

小喬古裝漢服
2025-12-22 21:48:40
NBA積分榜又亂了!雷霆第1,掘金第3,勇士第8,鵜鶘5連勝升第13

NBA積分榜又亂了!雷霆第1,掘金第3,勇士第8,鵜鶘5連勝升第13

薇說體育
2025-12-23 17:13:28
落地鳳凰不如雞!趙薇回老家探親,全副武裝包裹,不敢露臉怕見人

落地鳳凰不如雞!趙薇回老家探親,全副武裝包裹,不敢露臉怕見人

瓜農(nóng)娟姐
2025-12-23 17:57:34
我們已經(jīng)沒有退路了,如果中國再次衰落,歐美絕不會再給崛起機會

我們已經(jīng)沒有退路了,如果中國再次衰落,歐美絕不會再給崛起機會

扶蘇聊歷史
2025-11-14 15:33:48
中國10大美食之都,西安第4,廣州第2,第1實至名歸,有空逛一逛

中國10大美食之都,西安第4,廣州第2,第1實至名歸,有空逛一逛

簡食記工作號
2025-12-23 00:13:58
賴清德怕是做夢都想不到,火會燒得這么快。

賴清德怕是做夢都想不到,火會燒得這么快。

南權(quán)先生
2025-12-23 16:16:12
中國籃協(xié)發(fā)力了!中國臺北主場遭國際籃聯(lián)取消,臺北籃協(xié):已申訴

中國籃協(xié)發(fā)力了!中國臺北主場遭國際籃聯(lián)取消,臺北籃協(xié):已申訴

小彭美識
2025-12-23 12:18:07
不接受一國兩制?20萬島內(nèi)武裝放下武器,明確臺灣的最終結(jié)局?

不接受一國兩制?20萬島內(nèi)武裝放下武器,明確臺灣的最終結(jié)局?

墨印齋
2025-12-23 11:04:29
王金平豪開168桌拒邀鄭麗文,第二個韓國瑜出現(xiàn),綠營不請自來

王金平豪開168桌拒邀鄭麗文,第二個韓國瑜出現(xiàn),綠營不請自來

滄海旅行家
2025-12-22 13:23:31
誤打誤撞把病治好是啥體驗?網(wǎng)友:華佗在世都要甘拜下風(fēng)啊

誤打誤撞把病治好是啥體驗?網(wǎng)友:華佗在世都要甘拜下風(fēng)啊

帶你感受人間冷暖
2025-07-21 00:15:06
NBA重大誤判!火箭四次獲利仍加時輸國王 漏吹杜蘭特申京多次違例

NBA重大誤判!火箭四次獲利仍加時輸國王 漏吹杜蘭特申京多次違例

羅說NBA
2025-12-23 07:07:35
侯耀華,為何當(dāng)初對何云偉說:你拜我吧,完了你還多一師哥

侯耀華,為何當(dāng)初對何云偉說:你拜我吧,完了你還多一師哥

丁丁鯉史紀
2025-12-23 18:02:52
日本最懼怕的敵人出拳了,日方求見中國,中方的回應(yīng)“震耳欲聾”

日本最懼怕的敵人出拳了,日方求見中國,中方的回應(yīng)“震耳欲聾”

博覽歷史
2025-12-22 17:59:22
喝多了都做過哪些離譜的事,網(wǎng)友:每一個都是炸裂的存在

喝多了都做過哪些離譜的事,網(wǎng)友:每一個都是炸裂的存在

夜深愛雜談
2025-12-23 16:55:49
新華社出圖·年度記憶丨這些照片,每一張都寫滿了家國情懷

新華社出圖·年度記憶丨這些照片,每一張都寫滿了家國情懷

新華社
2025-12-23 09:57:54
新加坡的黃循財休假了,看到海南封關(guān),他說小國沒有議價權(quán)

新加坡的黃循財休假了,看到海南封關(guān),他說小國沒有議價權(quán)

諦聽骨語本尊
2025-12-22 15:05:12
溫州季湘榮,跨區(qū)履新

溫州季湘榮,跨區(qū)履新

溫百君
2025-12-23 17:37:19
2025-12-23 18:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11980文章數(shù) 142517關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

美國"全面封鎖"受制裁油輪 一艘油輪狂發(fā)75次求救信號

頭條要聞

美國"全面封鎖"受制裁油輪 一艘油輪狂發(fā)75次求救信號

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

時尚
數(shù)碼
教育
健康
游戲

推廣|| 用完立馬復(fù)購!百元get大牌膚感

數(shù)碼要聞

英特爾酷睿Ultra賦能華碩靈耀14 2025商務(wù)精英本

教育要聞

疑似集體作弊,頂尖大學(xué)全班成績作廢!但不處分…

這些新療法,讓化療不再那么痛苦

《狂熱運輸3》:展現(xiàn)全新基礎(chǔ)設(shè)施系統(tǒng)與工具

無障礙瀏覽 進入關(guān)懷版