国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

波恩大學(xué)研究團隊造出"三鏡頭實時自由視角"系統(tǒng)

0
分享至


這項由德國波恩大學(xué)計算機科學(xué)系領(lǐng)導(dǎo)的研究,以預(yù)印本形式于2026年4月發(fā)布,論文編號為arXiv:2604.11211,有興趣深入了解的讀者可通過該編號查詢完整論文。研究團隊提出了一套名為"3DTV"的實時自由視角合成系統(tǒng),用僅僅三臺攝像機的畫面,在不超過25毫秒的時間內(nèi)生成任意角度的新視角圖像,幀率達到每秒40幀,完全滿足直播、電競轉(zhuǎn)播、遠程臨場、AR/VR等場景對低延遲互動渲染的需求。

一、當(dāng)你想"換個角度看世界"時,計算機面臨什么難題

體育賽事直播時,你有沒有想過:"要是能隨時切換到自己最想看的角度就好了"?足球比賽中一腳精彩吊射,攝像機卻偏偏拍到了對面的球員背影;演唱會上歌手的表情變化,遠處的觀眾席根本捕捉不到。自由視角技術(shù)的目標,就是讓觀眾能夠自主選擇任何一個"虛擬攝像機位置",而不受現(xiàn)場實體攝像機數(shù)量和位置的限制。

問題在于,憑空生成一個從未拍攝過的角度,本質(zhì)上是一道極其困難的數(shù)學(xué)題。你手里只有幾張從固定位置拍的照片,卻要推斷出站在另一個位置的人會看到什么畫面。這不僅需要理解場景的三維結(jié)構(gòu),還要處理遮擋、光影和細節(jié)紋理等一系列復(fù)雜因素。

現(xiàn)有方案走了兩條路,但各有明顯缺陷。一條路是"慢工出細活":用神經(jīng)輻射場(NeRF)或三維高斯?jié)姙R(3D Gaussian Splatting)這類方法,對每個場景單獨訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型,花上幾分鐘甚至更長時間,才能生成高質(zhì)量新視角。這就好比每次換一道菜,廚師都要從零開始學(xué)做這道菜,顯然來不及上菜。另一條路是"快餐式處理":拿通用模型直接推算,速度夠快,但精度和穩(wěn)定性往往令人頭疼,尤其在只有少量攝像機的情況下,圖像中會出現(xiàn)重影、漂浮雜塊和幾何扭曲等明顯瑕疵。

3DTV的目標是在這兩條路之間另辟蹊徑:既不需要針對每個場景重新訓(xùn)練,也能在實時約束下生成穩(wěn)定、高質(zhì)量的新視角圖像。

二、用"三角測量"鎖定最優(yōu)的三臺攝像機

解決這道題的第一步,是決定"看哪三臺攝像機的畫面"。

現(xiàn)場可能架設(shè)了幾十臺攝像機,但并非所有攝像機對合成目標視角都同樣有用。距離太近的攝像機看到的畫面幾乎一模一樣,提供不了新信息;選擇不當(dāng)?shù)慕M合可能導(dǎo)致目標視角落在三臺攝像機"視野三角"的邊緣,合成質(zhì)量急劇下降。

研究團隊引入了一個來自幾何學(xué)的經(jīng)典概念——德勞內(nèi)三角剖分(Delaunay Triangulation)。這個名字聽起來復(fù)雜,但核心思路非常直觀:把所有攝像機的位置投影到一個二維平面上,然后用三角形把這些點連接起來,要求每個三角形盡可能"接近等邊三角形"——避免出現(xiàn)細長的尖角三角形。這樣一來,當(dāng)你指定一個目標視角時,系統(tǒng)只需要找到包含該目標視角點的那個三角形,三角形的三個頂點就是最優(yōu)的三臺源攝像機。

為了讓這套方案適配現(xiàn)實中常見的"環(huán)形攝像機陣列"(攝像機圍繞被攝主體布置成一圈),研究團隊設(shè)計了一套兩步投影流程。第一步是把攝像機位置投影到一個擬合好的圓柱面上,消除攝像機在徑向距離上的差異帶來的偏差;第二步再從一個"原點"出發(fā),把圓柱面上的點透視投影到一個水平面上,從而得到適合做二維三角剖分的坐標。最終在這個二維平面上算好三角網(wǎng)格,反投影回三維空間,就得到了覆蓋整個場景的"攝像機三角網(wǎng)"。

當(dāng)目標視角確定后,系統(tǒng)用一種叫做穆勒-特朗博爾射線-三角形相交(Moller–Trumbore algorithm)的算法,快速找到包含目標點的三角形,鎖定三臺源攝像機。這個過程的實際效果是:無論目標視角落在哪里,選出的三臺攝像機總能從三個方向均勻包圍它,而不會出現(xiàn)"三臺攝像機都擠在同一側(cè)"的糟糕情況。研究人員還專門對這套算法的超參數(shù)進行了系統(tǒng)測試,發(fā)現(xiàn)將"原點"設(shè)在圓柱軸線向下偏移1米、投影平面設(shè)在圓柱頂端向上1米的位置,能得到最接近等邊三角形的剖分結(jié)果,顯著減少了細長三角形的出現(xiàn)。

三、像剝洋蔥一樣,從粗到細估算深度

選好三臺攝像機之后,真正的計算工作開始了。核心任務(wù)是:對目標視角的每一個像素點,估算出它距離攝像機的深度值。有了深度,才能把三臺源攝像機的畫面內(nèi)容"搬運"到正確的目標位置。

研究團隊用了一種"粗到細"的金字塔式深度估算策略,這個思路可以用剝洋蔥來理解。先在最外層(也就是分辨率最低的縮略圖層面)快速給出一個粗略的深度估計,然后一層一層剝進去,每一層都在上一層結(jié)果的基礎(chǔ)上做局部修正,最終在最內(nèi)層(原始分辨率)得到精細的深度圖。

具體來說,系統(tǒng)共設(shè)置7個金字塔層級,從最粗的第7層(圖像分辨率最低)到最細的第1層(接近原始分辨率)逐層推進。在第7層,系統(tǒng)在0.5米到8.5米的范圍內(nèi)均勻設(shè)置32個深度候選值,覆蓋常見室內(nèi)拍攝場景的深度范圍。到了更細的層級,搜索范圍會縮小到上一層預(yù)測值周圍的一個小窗口內(nèi),窗口大小隨層級按2的冪次遞減。這意味著越到細節(jié)層,系統(tǒng)只需要在很小的深度范圍內(nèi)精細搜索,計算量大幅降低,同時精度卻得到提升。

在每一個層級,系統(tǒng)會針對每個深度候選值,把三臺源攝像機的特征圖像通過單應(yīng)矩陣(homography,一種數(shù)學(xué)工具,描述平面到平面的映射關(guān)系,可以簡單理解為"把一張圖按照特定的透視規(guī)則搬到另一個角度")投影到目標視角,然后計算不同攝像機之間投影結(jié)果的相似度。相似度高的深度候選值,就更可能是真實的深度。這個計算過程借鑒了立體視覺領(lǐng)域的"分組相關(guān)體積"方法:把特征通道分成若干組,分組計算相關(guān)性,既保留了豐富的匹配信息,又避免了單一相關(guān)性指標可能帶來的偏差。

此外,系統(tǒng)還設(shè)計了一個"先驗引導(dǎo)"機制。來自上一層融合模塊的中間特征(叫做"潛變量")會被向上傳遞,作為當(dāng)前層深度估算的額外參考依據(jù)。這就像你在解一道數(shù)學(xué)題時,先草稿紙上算出一個大概答案,然后再在這個基礎(chǔ)上仔細核算,效率和精度都更高。

四、"幽靈骨架"特征提取器:用廉價操作替代昂貴運算

在進行上述深度估算之前,系統(tǒng)首先需要從三臺攝像機的圖像中提取"特征"——可以理解為圖像中蘊含的結(jié)構(gòu)信息的壓縮版本,類似于把一張復(fù)雜的地圖簡化成關(guān)鍵地標和道路網(wǎng)絡(luò)。

研究團隊選用了GhostNet和GhostNetV2架構(gòu)作為特征提取骨干網(wǎng)絡(luò)。"幽靈網(wǎng)絡(luò)"這個名字來自它的核心思路:在普通卷積網(wǎng)絡(luò)里,很多特征圖(feature map,可以理解為對圖像不同方面的描述層)其實是彼此高度相似的"幽靈"——用一個通道就能推導(dǎo)出另一個通道。幽靈網(wǎng)絡(luò)的做法是,先用普通卷積生成少量"基礎(chǔ)特征圖",然后用計算成本極低的深度可分離卷積(一種只在單個通道內(nèi)做卷積、不跨通道混合的操作)來生成剩余的"幽靈特征圖"。這樣一來,生成同樣數(shù)量的特征圖,計算成本大幅下降。

骨干網(wǎng)絡(luò)對每臺攝像機生成7個層級的特征金字塔,與深度估算的7個層級一一對應(yīng)。每個層級的空間分辨率是上一層級的一半,特征通道數(shù)則隨層級加深而增加。在每個處理模塊內(nèi),還嵌入了一個輕量的通道注意力機制,通過全局平均池化對不同通道的重要性進行加權(quán),以極低的額外計算成本增強全局上下文感知能力。

在特征金字塔最深處(分辨率最低的層級),還額外加入了一個叫做L-ASPP的模塊。這個模塊的作用是在最粗粒度的特征圖上,同時用多個不同"視野范圍"的卷積核掃描圖像,捕捉從近到遠、從局部到全局的多尺度上下文信息,彌補反復(fù)下采樣導(dǎo)致的空間細節(jié)損失。

五、把三張圖的信息"疊加融合"成一張新視角圖

有了深度圖,就可以把三臺攝像機的特征圖像按照深度信息"搬運"到目標視角的坐標系中。但三臺攝像機的貢獻并不是簡單平均的——離目標視角更近、角度更合適的攝像機應(yīng)該獲得更高的權(quán)重,被遮擋區(qū)域的攝像機貢獻應(yīng)該被壓低。

研究團隊設(shè)計了一個"置信度預(yù)測網(wǎng)絡(luò)"來處理這件事。對每臺攝像機,網(wǎng)絡(luò)會根據(jù)投影后的特征圖以及每臺攝像機相對于目標視角的方位信息(方位角和仰角),預(yù)測一張"置信度圖",圖中每個像素的值在0到1之間,代表這臺攝像機在該位置的可信程度。三臺攝像機的特征圖按各自的置信度加權(quán)求和,得到融合后的特征表示。

圖像合成同樣采用金字塔式的層級解碼器。在每個層級,解碼器接收融合特征、當(dāng)前層的深度圖、透明度圖(alpha map,用于分離前景和背景)以及來自上一層的潛變量特征,輸出新的潛變量。這種"下一層為上一層提供上下文"的反饋機制,確保了粗粒度估計的整體結(jié)構(gòu)信息能夠約束細粒度層級的高頻細節(jié)合成,避免在局部細節(jié)層面出現(xiàn)與整體結(jié)構(gòu)矛盾的錯誤。最終在第1層(最細粒度),潛變量通過一個輕量的精化頭(refinement head)直接輸出最終的RGB圖像。

六、七種損失函數(shù)組成的"質(zhì)量評分卡"

訓(xùn)練這套網(wǎng)絡(luò),需要告訴它什么叫"好"、什么叫"差"。研究團隊設(shè)計了七種損失函數(shù),從不同維度衡量網(wǎng)絡(luò)輸出的質(zhì)量,并在訓(xùn)練的不同階段動態(tài)調(diào)整各項權(quán)重。

像素級重建質(zhì)量用L1損失來衡量,也就是逐像素比較預(yù)測圖和真實圖的絕對差值。為了讓中間層級的特征圖也對齊真實圖像,還設(shè)計了一個金字塔RGB損失,對各層級潛變量的前三個通道(對應(yīng)RGB)與對應(yīng)分辨率的真實圖像做L1比較。

幾何一致性方面,深度損失用帶前景掩碼(mask,只在有主體的區(qū)域計算,排除黑色背景的干擾)的L1比較預(yù)測深度和真實深度;偏移損失則對每個層級的深度殘差進行約束,如果殘差超出該層級預(yù)設(shè)的搜索窗口范圍,就給予額外懲罰,防止網(wǎng)絡(luò)"跳出"金字塔設(shè)計的合理搜索空間。透明度圖用L2損失(均方誤差)與真實前景掩碼對齊。

感知質(zhì)量方面引入了兩項來自圖像風(fēng)格遷移領(lǐng)域的經(jīng)典損失。VGG感知損失通過比較預(yù)測圖和真實圖在VGG-19網(wǎng)絡(luò)各層的中間特征激活值的L1距離,捕捉人眼感知層面的相似性,克服純像素損失導(dǎo)致的過度平滑問題。風(fēng)格損失則比較兩張圖在VGG各層特征的"格拉姆矩陣"(Gram matrix,描述不同特征通道之間共現(xiàn)關(guān)系的矩陣,能夠捕捉紋理和風(fēng)格信息)的L2距離,進一步約束紋理細節(jié)的還原。

在訓(xùn)練安排上,前25個訓(xùn)練輪次(epoch)不啟用感知損失,讓網(wǎng)絡(luò)先學(xué)會基本的幾何和色彩重建;第26輪到第100輪啟用VGG感知損失;第101輪之后才加入風(fēng)格損失,同時適當(dāng)降低深度損失和偏移損失的權(quán)重,讓網(wǎng)絡(luò)更多關(guān)注視覺質(zhì)量而非幾何精度。整個訓(xùn)練分兩個階段:先在512×512分辨率下訓(xùn)練100輪(約4天),再在1024×1024分辨率下微調(diào)25輪(約36小時),均在單張NVIDIA A40顯卡上完成。

七、合成數(shù)據(jù)"造廠":24753個樣本從零開始

由于網(wǎng)絡(luò)訓(xùn)練需要配對的真實深度圖,而現(xiàn)實中的多視角視頻數(shù)據(jù)集很難提供精確深度標注,研究團隊選擇用合成數(shù)據(jù)訓(xùn)練。

他們從Poly Haven、Sketchfab等平臺下載了357個三維資產(chǎn),涵蓋沙發(fā)、化學(xué)實驗臺等各類室內(nèi)物體,并將場景縮放到大約[-2m, 2m] × [-2m, 2m] × [0m, 2m]的體積內(nèi),與真實拍攝舞臺的尺度相近。另外使用HumanGenerator3D插件在Blender中生成了各種姿勢和服裝的虛擬人物。為了增加深度估算難度,還專門制作了由隨機形變立方體組成的場景,立方體表面貼上不同紋理圖片,以訓(xùn)練模型在相鄰像素深度不連續(xù)時的判斷能力。光照方面,使用了Poly Haven提供的真實環(huán)境貼圖(HDRI),覆蓋寬泛的自然和人工光照條件。

攝像機布置也完全隨機化:隨機選取攝像機數(shù)量和圓柱面上的位置,通過德勞內(nèi)三角剖分選出三臺源攝像機,目標視角則在三角形內(nèi)以隨機重心坐標采樣,并在深度方向加±20厘米的隨機抖動,確保目標視角不總是落在源攝像機所在平面上。最終生成了24753個訓(xùn)練樣本,每個樣本包含三張源視角圖像、一張目標視角圖像及對應(yīng)的深度圖和前景掩碼。

為了讓模型在真實場景下也能正常工作,數(shù)據(jù)增強環(huán)節(jié)精心模擬了真實采集中可能出現(xiàn)的各種噪聲和失真。色彩抖動模擬不同攝像機的色溫和曝光差異;對背景區(qū)域(深度值為0的像素)單獨注入高斯噪聲,模擬真實場景中背景的復(fù)雜性;3×3高斯模糊模擬鏡頭虛焦;顏色量化模擬壓縮偽影;隨機縮放裁剪增加尺度變化的魯棒性。整個模型以BFloat16精度訓(xùn)練,以便與后續(xù)TensorRT部署的精度保持一致,避免因精度轉(zhuǎn)換帶來的性能下降。

八、與現(xiàn)有方法的正面對比:質(zhì)量和速度兩手抓

研究團隊在六個公開數(shù)據(jù)集上進行了評測,分別是RIFTCast、DNA Rendering、LLFF(Local Light Field Fusion)、MVHumanNet、THuman2.1和ZJUMoCap,涵蓋了室內(nèi)表演捕獲、高保真人體渲染、真實自然場景等多種類型。

對比的基準方法分為兩類:需要對每個場景單獨優(yōu)化的"離線方法"(Nerfacto-big、Splatfacto-big、FrugalNeRF),以及直接推斷不需要訓(xùn)練的"在線方法"(ENeRF、GPS-Gaussian、GPS-Gaussian+、RIFTCast)。評測指標采用圖像質(zhì)量研究中的三項標準:PSNR(峰值信噪比,越高越好)、SSIM(結(jié)構(gòu)相似性,越高越好)、LPIPS(感知圖像塊相似度,越低越好)。

在人體捕獲類數(shù)據(jù)集上,3DTV的表現(xiàn)相當(dāng)亮眼。以MVHumanNet為例,3DTV取得PSNR 25.4、SSIM 0.938、LPIPS 0.074,超過了同樣使用少量視角的GPS-Gaussian(PSNR 24.8)、GPS-Gaussian+(PSNR 23.8)和FrugalNeRF(PSNR 22.6),與ENeRF(PSNR 25.2)基本持平。在THuman2.1上,3DTV以PSNR 26.7表現(xiàn)最佳,超過ENeRF的26.1和GPS-Gaussian的25.7。在ZJUMoCap上,3DTV取得PSNR 24.1、SSIM 0.930,顯著優(yōu)于GPS-Gaussian(PSNR 21.4)和GPS-Gaussian+(PSNR 20.9)。

在RIFTCast數(shù)據(jù)集上,3DTV達到PSNR 25.7、SSIM 0.941,超過ENeRF的24.9,也明顯優(yōu)于兩個GPS-Gaussian變體。DNA Rendering上,各方法表現(xiàn)較為接近,3DTV以PSNR 25.9、SSIM 0.952略勝GPS-Gaussian+的24.9。

LLFF數(shù)據(jù)集作為一個"壓力測試"被專門包含進來——這個數(shù)據(jù)集里的場景是戶外自然景觀,深度范圍遠超室內(nèi)舞臺,與3DTV的訓(xùn)練分布差異很大,相當(dāng)于讓一個只見過室內(nèi)場景的人去判斷山地風(fēng)景的深度。3DTV在LLFF上的PSNR僅為10.3,明顯低于ENeRF的21.3,但這個結(jié)果本身就是預(yù)期之中的——研究團隊明確指出,LLFF是分布外場景,主要用于驗證系統(tǒng)在極端條件下的魯棒性。值得注意的是,GPS-Gaussian+在LLFF上僅得11.8,與3DTV接近,而RIFTCast方法根本不適用于該數(shù)據(jù)集。

九、速度與內(nèi)存:40幀每秒、僅需2.2GB顯存

在運行效率上,3DTV的優(yōu)勢更為突出。未經(jīng)優(yōu)化的PyTorch版本在1024×1024分辨率下推理時間為117毫秒(約每秒8.5幀),內(nèi)存占用7.1GB。經(jīng)過TensorRT優(yōu)化的部署版本(OursRT),推理時間壓縮到24.5毫秒(每秒40.8幀),峰值顯存占用降至2.2GB,實現(xiàn)了真正意義上的實時運行。

對比來看,GPS-Gaussian和GPS-Gaussian+的推理時間分別為73.7毫秒和72.4毫秒,雖然快于3DTV的未優(yōu)化版本,但遠不及TensorRT優(yōu)化后的3DTV。ENeRF的推理時間高達97.3毫秒,遠未達到實時。RIFTCast雖然達到47.3毫秒,但它需要使用所有可用攝像機(35臺)及完整的前景掩碼集,而3DTV只需3臺攝像機。當(dāng)分辨率提升到2048×2048時,TensorRT版本的3DTV將推理時間控制在109.5毫秒,而ENeRF則需要233.7毫秒,進一步拉大差距。

研究團隊將TensorRT部署的完整配置連同模型權(quán)重一并開源,以確保研究結(jié)果的可重復(fù)性,這一點在實際工程落地中有相當(dāng)重要的參考價值。

十、消融實驗:拆解每個設(shè)計選擇的貢獻

為了驗證各個設(shè)計組件的必要性,研究團隊在DNA Rendering和RIFTCast兩個數(shù)據(jù)集上做了系統(tǒng)的消融實驗(即逐一去掉某個組件,觀察性能變化)。

把三視角輸入減少到兩視角時,PSNR在DNA Rendering上從25.9降至23.6,SSIM從0.952降至0.913,說明第三臺攝像機提供的額外視角信息對減少深度歧義有實質(zhì)性貢獻。

特征通道數(shù)減半后,推理速度幾乎不變(41.3幀每秒),但PSNR下降約1個單位(至24.9),高頻紋理細節(jié)明顯變差。通道數(shù)加倍則僅帶來微小的質(zhì)量提升(PSNR 26.1),但幀率降至32.6,說明基礎(chǔ)配置已經(jīng)是效率與質(zhì)量的較優(yōu)平衡點。

金字塔層級從7層減少到3層時,PSNR急劇下降至22.8,LPIPS升至0.112,這是因為淺金字塔迫使系統(tǒng)在較粗的層級就覆蓋很大的深度搜索范圍,導(dǎo)致深度估算不穩(wěn)定。6層金字塔(PSNR 25.8)已經(jīng)接近7層的性能,說明最后一層的邊際貢獻相對較小。

去掉殘差深度更新機制后,PSNR跌至21.5,是所有消融配置中降幅最大的,定性觀察到明顯的"閃爍"(shimmering)偽影,訓(xùn)練過程也變得不穩(wěn)定。這說明殘差式逐層修正是整個系統(tǒng)穩(wěn)定運行的核心支柱。去掉融合模塊的殘差連接(投影器加法),PSNR從25.9降至25.2,影響相對溫和但可見。去掉來自融合層的先驗引導(dǎo)后,PSNR降至23.8,幀率因減少了特征傳遞而微升至46.7幀每秒,但質(zhì)量代價較高。

這套消融結(jié)果清晰地勾勒出3DTV設(shè)計的"價值地圖":殘差深度是最不可缺少的,三視角輸入次之,金字塔深度是第三,其余組件則在質(zhì)量和速度之間提供了可調(diào)節(jié)的余量。

十一、局限性與尚未解決的問題

研究團隊對這套系統(tǒng)的邊界條件做了坦誠的分析。

在幀率方面,TensorRT優(yōu)化后的40幀每秒對于視頻流媒體足夠,但要達到游戲級的60幀每秒或更高,還需要進一步的量化壓縮(如INT8精度)或架構(gòu)層面的精簡。

在場景適用范圍上,3DTV目前的訓(xùn)練數(shù)據(jù)局限于室內(nèi)有界場景,深度范圍約在0.5米到8.5米之間。對于開放戶外環(huán)境或大尺度場景(如LLFF數(shù)據(jù)集中的自然景觀),深度范圍遠超訓(xùn)練分布,系統(tǒng)只能捕捉粗略的幾何結(jié)構(gòu),無法還原高頻細節(jié)。

在視角外推上,系統(tǒng)的設(shè)計邏輯是在三臺源攝像機形成的三角形內(nèi)部進行"插值"——目標視角總是被三臺源攝像機從三個方向包圍。一旦目標視角落在這個三角形外部(外推場景),系統(tǒng)的穩(wěn)定性和質(zhì)量會顯著下降,這是未來需要解決的方向。

在遮擋復(fù)雜場景中,當(dāng)多個人物前后疊加時,深度估算容易混淆,導(dǎo)致前景人物和背景人物的特征互相"滲透",產(chǎn)生模糊的"溶合"現(xiàn)象。研究團隊展示了一個典型的失敗案例,即兩人前后站立時,后方人物的細節(jié)被洗掉。針對這類問題,增加特征圖密度或引入時序特征傳播(利用視頻前后幀信息)是潛在的改進方向。

歸根結(jié)底,3DTV做的事情可以這樣概括:用三臺攝像機、一個輕量網(wǎng)絡(luò)、不到25毫秒,生成你想看的任何角度的畫面。它把幾何學(xué)的經(jīng)典工具(三角剖分)和現(xiàn)代深度學(xué)習(xí)(多尺度深度估算、幽靈網(wǎng)絡(luò))拼在一起,找到了一條在實時約束下穩(wěn)定運行的路。訓(xùn)練完全在合成數(shù)據(jù)上進行,卻能在真實的人體捕獲數(shù)據(jù)集上取得與專門針對人體設(shè)計的方法相當(dāng)甚至更好的結(jié)果,這說明它學(xué)到的是真正通用的幾何投影規(guī)律,而不是對特定數(shù)據(jù)集的記憶。

對于普通觀眾來說,這項研究意味著未來的體育賽事、演唱會、電競直播或遠程會議,有望以極低的帶寬和設(shè)備成本實現(xiàn)真正的自由視角體驗,而不再依賴龐大的攝像機陣列或漫長的后期處理。對于研究者和工程師來說,它提供了一套從幾何選點、特征提取、深度估算到圖像合成的完整流水線,每個模塊都有清晰的設(shè)計邏輯和量化的消融結(jié)論,是一份難得的工程參考。

完整論文可通過arXiv編號arXiv:2604.11211查閱,研究團隊承諾在論文錄用后公開全部代碼和訓(xùn)練模型。

Q&A

Q1:3DTV系統(tǒng)只用三臺攝像機為什么就夠了?

A:3DTV通過德勞內(nèi)三角剖分從現(xiàn)有多臺攝像機中挑選出最優(yōu)的三臺,確保目標視角被這三臺攝像機從三個方向均勻包圍。實驗結(jié)果顯示,與兩臺相比,第三臺攝像機提供的額外視角能顯著減少深度估算的歧義,PSNR指標提升約2個單位。三臺是在攝像機數(shù)量、計算成本和合成質(zhì)量之間的最優(yōu)平衡點。

Q2:3DTV的訓(xùn)練數(shù)據(jù)全是合成的,在真實視頻上效果會差嗎?

A:研究團隊通過系統(tǒng)的數(shù)據(jù)增強來彌補合成與真實之間的差異,包括模擬色彩偏差、背景噪聲、鏡頭模糊和壓縮偽影等真實采集中的常見問題。在多個真實人體捕獲數(shù)據(jù)集(MVHumanNet、ZJUMoCap、THuman2.1)上的測試結(jié)果顯示,3DTV的性能與專門在真實數(shù)據(jù)上訓(xùn)練的方法相當(dāng)甚至更好,說明模型學(xué)到的幾何規(guī)律具有較好的遷移能力。

Q3:3DTV對室外大場景或開放環(huán)境適用嗎?

A:目前不適用。3DTV的訓(xùn)練數(shù)據(jù)深度范圍約在0.5米到8.5米之間,適合室內(nèi)有界場景。在LLFF戶外自然景觀數(shù)據(jù)集上的測試中,系統(tǒng)只能捕捉粗略幾何,PSNR僅為10.3,遠低于室內(nèi)場景的表現(xiàn)。研究團隊將擴展到大尺度場景列為未來工作方向之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
遵義會議上,紅九軍團中央代表投了毛主席反對票,他后來結(jié)局如何

遵義會議上,紅九軍團中央代表投了毛主席反對票,他后來結(jié)局如何

舊書卷里的長安
2026-04-29 00:03:37
太空探索的荒誕真相:人類最偉大的事業(yè),困在薯片罐里

太空探索的荒誕真相:人類最偉大的事業(yè),困在薯片罐里

晚風(fēng)也遺憾
2026-04-28 01:02:14
那年初春的跑馬場上,李嘉欣與許晉亨深情擁吻的一幕

那年初春的跑馬場上,李嘉欣與許晉亨深情擁吻的一幕

娛你同歡
2026-04-27 17:47:48
從20萬到16億,一個普通散戶的“笨辦法”投資傳奇

從20萬到16億,一個普通散戶的“笨辦法”投資傳奇

流蘇晚晴
2026-04-20 20:13:29
錢再多有什么用?因嘴唇發(fā)紫去檢查心臟的陸毅,給所有人提了個醒

錢再多有什么用?因嘴唇發(fā)紫去檢查心臟的陸毅,給所有人提了個醒

青杉依舊啊啊
2026-04-27 17:45:13
全球首家AI妓院,革了成人行業(yè)的命

全球首家AI妓院,革了成人行業(yè)的命

廣告案例精選
2026-04-02 14:49:22
圓明園地下大反轉(zhuǎn),大火燒掉的僅是圓明園的表皮

圓明園地下大反轉(zhuǎn),大火燒掉的僅是圓明園的表皮

混沌錄
2026-04-24 21:02:11
趙露思真把“看著不大,實則敞亮”玩明白了!

趙露思真把“看著不大,實則敞亮”玩明白了!

飛娛日記
2026-04-26 08:49:04
多個5A景區(qū)回應(yīng)文旅部點名擺渡車問題:天柱山景區(qū)稱已整改,其余景區(qū)正常運營

多個5A景區(qū)回應(yīng)文旅部點名擺渡車問題:天柱山景區(qū)稱已整改,其余景區(qū)正常運營

上游新聞
2026-04-28 16:35:09
重磅!名記:79歲佛爺欽點63歲穆帥今夏回歸 14年前100分稱霸西甲

重磅!名記:79歲佛爺欽點63歲穆帥今夏回歸 14年前100分稱霸西甲

風(fēng)過鄉(xiāng)
2026-04-28 20:13:12
K77雙響超姆巴佩隊史第1人,登貝萊造3球,巴黎5-4拜仁造歐冠神跡

K77雙響超姆巴佩隊史第1人,登貝萊造3球,巴黎5-4拜仁造歐冠神跡

釘釘陌上花開
2026-04-29 04:58:08
中國絕大多數(shù)小縣城,其實根本沒有獨立創(chuàng)造財富的能力

中國絕大多數(shù)小縣城,其實根本沒有獨立創(chuàng)造財富的能力

流蘇晚晴
2026-04-11 17:53:01
不出 5 年,中國貶值最快的不是房子和現(xiàn)金,而是這 3 樣?xùn)|西

不出 5 年,中國貶值最快的不是房子和現(xiàn)金,而是這 3 樣?xùn)|西

細說職場
2026-04-26 21:04:20
阿Sa老公婚后現(xiàn)身回應(yīng),稱要努力賺錢養(yǎng)家,女方已雪卵被親友催生

阿Sa老公婚后現(xiàn)身回應(yīng),稱要努力賺錢養(yǎng)家,女方已雪卵被親友催生

開開森森
2026-04-28 17:58:51
濟南市槐蔭區(qū)人大常委會城鄉(xiāng)建設(shè)處原處長江光坤主動投案,接受審查調(diào)查

濟南市槐蔭區(qū)人大常委會城鄉(xiāng)建設(shè)處原處長江光坤主動投案,接受審查調(diào)查

魯中晨報
2026-04-28 16:48:04
85年我放走被俘越南女兵,34年后我去河內(nèi),一整個車隊在機場等我

85年我放走被俘越南女兵,34年后我去河內(nèi),一整個車隊在機場等我

卡西莫多的故事
2026-01-22 09:58:10
“神仙員工”每天最早到最晚走,不斷上報“穩(wěn)賺十幾萬”大項目,老板多次爽快撥款!一看賬戶資金,傻眼了……

“神仙員工”每天最早到最晚走,不斷上報“穩(wěn)賺十幾萬”大項目,老板多次爽快撥款!一看賬戶資金,傻眼了……

海峽網(wǎng)
2026-04-27 21:19:03
卡塔爾承諾如果國際刑事法院檢察官汗追捕內(nèi)塔尼亞胡,將“照顧”他

卡塔爾承諾如果國際刑事法院檢察官汗追捕內(nèi)塔尼亞胡,將“照顧”他

老王說正義
2026-04-29 00:04:53
伯克利、哈佛、賓夕法尼亞、斯坦福重磅綜述:“學(xué)習(xí)力學(xué)”將成為深度學(xué)習(xí)的科學(xué)理論

伯克利、哈佛、賓夕法尼亞、斯坦福重磅綜述:“學(xué)習(xí)力學(xué)”將成為深度學(xué)習(xí)的科學(xué)理論

新浪財經(jīng)
2026-04-28 00:31:20
藝考生:砸光父母積蓄,終成“廉價打工人”,誰在制造這場騙局?

藝考生:砸光父母積蓄,終成“廉價打工人”,誰在制造這場騙局?

社會日日鮮
2026-04-27 12:38:49
2026-04-29 08:04:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

微軟剛“松綁”,OpenAI火速牽手亞馬遜!

頭條要聞

阿聯(lián)酋突然退出歐佩克 被視為是"特朗普的一次勝利"

頭條要聞

阿聯(lián)酋突然退出歐佩克 被視為是"特朗普的一次勝利"

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

親子
本地
數(shù)碼
健康
公開課

親子要聞

傷害孩子的壞人和變態(tài),是不分性別的!

本地新聞

用青花瓷的方式,打開西溪濕地

數(shù)碼要聞

全年省電2160度!小米推出米家中央空調(diào)風(fēng)管機巨省電2026款:國補價4504元起

干細胞治療燒燙傷三大優(yōu)勢!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版