国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<blockquote id="qexgm"><form id="qexgm"></form></blockquote>

<span id="qexgm"></span>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

波恩大學(xué)研究團隊造出"三鏡頭實時自由視角"系統(tǒng)

2026-04-23 21:31:09　來源: 科技行者

北京舉報

0

分享至

這項由德國波恩大學(xué)計算機科學(xué)系領(lǐng)導(dǎo)的研究，以預(yù)印本形式于2026年4月發(fā)布，論文編號為arXiv:2604.11211，有興趣深入了解的讀者可通過該編號查詢完整論文。研究團隊提出了一套名為"3DTV"的實時自由視角合成系統(tǒng)，用僅僅三臺攝像機的畫面，在不超過25毫秒的時間內(nèi)生成任意角度的新視角圖像，幀率達到每秒40幀，完全滿足直播、電競轉(zhuǎn)播、遠程臨場、AR/VR等場景對低延遲互動渲染的需求。

一、當(dāng)你想"換個角度看世界"時，計算機面臨什么難題

體育賽事直播時，你有沒有想過："要是能隨時切換到自己最想看的角度就好了"？足球比賽中一腳精彩吊射，攝像機卻偏偏拍到了對面的球員背影；演唱會上歌手的表情變化，遠處的觀眾席根本捕捉不到。自由視角技術(shù)的目標，就是讓觀眾能夠自主選擇任何一個"虛擬攝像機位置"，而不受現(xiàn)場實體攝像機數(shù)量和位置的限制。

問題在于，憑空生成一個從未拍攝過的角度，本質(zhì)上是一道極其困難的數(shù)學(xué)題。你手里只有幾張從固定位置拍的照片，卻要推斷出站在另一個位置的人會看到什么畫面。這不僅需要理解場景的三維結(jié)構(gòu)，還要處理遮擋、光影和細節(jié)紋理等一系列復(fù)雜因素。

現(xiàn)有方案走了兩條路，但各有明顯缺陷。一條路是"慢工出細活"：用神經(jīng)輻射場（NeRF）或三維高斯?jié)姙R（3D Gaussian Splatting）這類方法，對每個場景單獨訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型，花上幾分鐘甚至更長時間，才能生成高質(zhì)量新視角。這就好比每次換一道菜，廚師都要從零開始學(xué)做這道菜，顯然來不及上菜。另一條路是"快餐式處理"：拿通用模型直接推算，速度夠快，但精度和穩(wěn)定性往往令人頭疼，尤其在只有少量攝像機的情況下，圖像中會出現(xiàn)重影、漂浮雜塊和幾何扭曲等明顯瑕疵。

3DTV的目標是在這兩條路之間另辟蹊徑：既不需要針對每個場景重新訓(xùn)練，也能在實時約束下生成穩(wěn)定、高質(zhì)量的新視角圖像。

二、用"三角測量"鎖定最優(yōu)的三臺攝像機

解決這道題的第一步，是決定"看哪三臺攝像機的畫面"。

現(xiàn)場可能架設(shè)了幾十臺攝像機，但并非所有攝像機對合成目標視角都同樣有用。距離太近的攝像機看到的畫面幾乎一模一樣，提供不了新信息；選擇不當(dāng)?shù)慕M合可能導(dǎo)致目標視角落在三臺攝像機"視野三角"的邊緣，合成質(zhì)量急劇下降。

研究團隊引入了一個來自幾何學(xué)的經(jīng)典概念——德勞內(nèi)三角剖分（Delaunay Triangulation）。這個名字聽起來復(fù)雜，但核心思路非常直觀：把所有攝像機的位置投影到一個二維平面上，然后用三角形把這些點連接起來，要求每個三角形盡可能"接近等邊三角形"——避免出現(xiàn)細長的尖角三角形。這樣一來，當(dāng)你指定一個目標視角時，系統(tǒng)只需要找到包含該目標視角點的那個三角形，三角形的三個頂點就是最優(yōu)的三臺源攝像機。

為了讓這套方案適配現(xiàn)實中常見的"環(huán)形攝像機陣列"（攝像機圍繞被攝主體布置成一圈），研究團隊設(shè)計了一套兩步投影流程。第一步是把攝像機位置投影到一個擬合好的圓柱面上，消除攝像機在徑向距離上的差異帶來的偏差；第二步再從一個"原點"出發(fā)，把圓柱面上的點透視投影到一個水平面上，從而得到適合做二維三角剖分的坐標。最終在這個二維平面上算好三角網(wǎng)格，反投影回三維空間，就得到了覆蓋整個場景的"攝像機三角網(wǎng)"。

當(dāng)目標視角確定后，系統(tǒng)用一種叫做穆勒-特朗博爾射線-三角形相交（Moller–Trumbore algorithm）的算法，快速找到包含目標點的三角形，鎖定三臺源攝像機。這個過程的實際效果是：無論目標視角落在哪里，選出的三臺攝像機總能從三個方向均勻包圍它，而不會出現(xiàn)"三臺攝像機都擠在同一側(cè)"的糟糕情況。研究人員還專門對這套算法的超參數(shù)進行了系統(tǒng)測試，發(fā)現(xiàn)將"原點"設(shè)在圓柱軸線向下偏移1米、投影平面設(shè)在圓柱頂端向上1米的位置，能得到最接近等邊三角形的剖分結(jié)果，顯著減少了細長三角形的出現(xiàn)。

三、像剝洋蔥一樣，從粗到細估算深度

選好三臺攝像機之后，真正的計算工作開始了。核心任務(wù)是：對目標視角的每一個像素點，估算出它距離攝像機的深度值。有了深度，才能把三臺源攝像機的畫面內(nèi)容"搬運"到正確的目標位置。

研究團隊用了一種"粗到細"的金字塔式深度估算策略，這個思路可以用剝洋蔥來理解。先在最外層（也就是分辨率最低的縮略圖層面）快速給出一個粗略的深度估計，然后一層一層剝進去，每一層都在上一層結(jié)果的基礎(chǔ)上做局部修正，最終在最內(nèi)層（原始分辨率）得到精細的深度圖。

具體來說，系統(tǒng)共設(shè)置7個金字塔層級，從最粗的第7層（圖像分辨率最低）到最細的第1層（接近原始分辨率）逐層推進。在第7層，系統(tǒng)在0.5米到8.5米的范圍內(nèi)均勻設(shè)置32個深度候選值，覆蓋常見室內(nèi)拍攝場景的深度范圍。到了更細的層級，搜索范圍會縮小到上一層預(yù)測值周圍的一個小窗口內(nèi)，窗口大小隨層級按2的冪次遞減。這意味著越到細節(jié)層，系統(tǒng)只需要在很小的深度范圍內(nèi)精細搜索，計算量大幅降低，同時精度卻得到提升。

在每一個層級，系統(tǒng)會針對每個深度候選值，把三臺源攝像機的特征圖像通過單應(yīng)矩陣（homography，一種數(shù)學(xué)工具，描述平面到平面的映射關(guān)系，可以簡單理解為"把一張圖按照特定的透視規(guī)則搬到另一個角度"）投影到目標視角，然后計算不同攝像機之間投影結(jié)果的相似度。相似度高的深度候選值，就更可能是真實的深度。這個計算過程借鑒了立體視覺領(lǐng)域的"分組相關(guān)體積"方法：把特征通道分成若干組，分組計算相關(guān)性，既保留了豐富的匹配信息，又避免了單一相關(guān)性指標可能帶來的偏差。

此外，系統(tǒng)還設(shè)計了一個"先驗引導(dǎo)"機制。來自上一層融合模塊的中間特征（叫做"潛變量"）會被向上傳遞，作為當(dāng)前層深度估算的額外參考依據(jù)。這就像你在解一道數(shù)學(xué)題時，先草稿紙上算出一個大概答案，然后再在這個基礎(chǔ)上仔細核算，效率和精度都更高。

四、"幽靈骨架"特征提取器：用廉價操作替代昂貴運算

在進行上述深度估算之前，系統(tǒng)首先需要從三臺攝像機的圖像中提取"特征"——可以理解為圖像中蘊含的結(jié)構(gòu)信息的壓縮版本，類似于把一張復(fù)雜的地圖簡化成關(guān)鍵地標和道路網(wǎng)絡(luò)。

研究團隊選用了GhostNet和GhostNetV2架構(gòu)作為特征提取骨干網(wǎng)絡(luò)。"幽靈網(wǎng)絡(luò)"這個名字來自它的核心思路：在普通卷積網(wǎng)絡(luò)里，很多特征圖（feature map，可以理解為對圖像不同方面的描述層）其實是彼此高度相似的"幽靈"——用一個通道就能推導(dǎo)出另一個通道。幽靈網(wǎng)絡(luò)的做法是，先用普通卷積生成少量"基礎(chǔ)特征圖"，然后用計算成本極低的深度可分離卷積（一種只在單個通道內(nèi)做卷積、不跨通道混合的操作）來生成剩余的"幽靈特征圖"。這樣一來，生成同樣數(shù)量的特征圖，計算成本大幅下降。

骨干網(wǎng)絡(luò)對每臺攝像機生成7個層級的特征金字塔，與深度估算的7個層級一一對應(yīng)。每個層級的空間分辨率是上一層級的一半，特征通道數(shù)則隨層級加深而增加。在每個處理模塊內(nèi)，還嵌入了一個輕量的通道注意力機制，通過全局平均池化對不同通道的重要性進行加權(quán)，以極低的額外計算成本增強全局上下文感知能力。

在特征金字塔最深處（分辨率最低的層級），還額外加入了一個叫做L-ASPP的模塊。這個模塊的作用是在最粗粒度的特征圖上，同時用多個不同"視野范圍"的卷積核掃描圖像，捕捉從近到遠、從局部到全局的多尺度上下文信息，彌補反復(fù)下采樣導(dǎo)致的空間細節(jié)損失。

五、把三張圖的信息"疊加融合"成一張新視角圖

有了深度圖，就可以把三臺攝像機的特征圖像按照深度信息"搬運"到目標視角的坐標系中。但三臺攝像機的貢獻并不是簡單平均的——離目標視角更近、角度更合適的攝像機應(yīng)該獲得更高的權(quán)重，被遮擋區(qū)域的攝像機貢獻應(yīng)該被壓低。

研究團隊設(shè)計了一個"置信度預(yù)測網(wǎng)絡(luò)"來處理這件事。對每臺攝像機，網(wǎng)絡(luò)會根據(jù)投影后的特征圖以及每臺攝像機相對于目標視角的方位信息（方位角和仰角），預(yù)測一張"置信度圖"，圖中每個像素的值在0到1之間，代表這臺攝像機在該位置的可信程度。三臺攝像機的特征圖按各自的置信度加權(quán)求和，得到融合后的特征表示。

圖像合成同樣采用金字塔式的層級解碼器。在每個層級，解碼器接收融合特征、當(dāng)前層的深度圖、透明度圖（alpha map，用于分離前景和背景）以及來自上一層的潛變量特征，輸出新的潛變量。這種"下一層為上一層提供上下文"的反饋機制，確保了粗粒度估計的整體結(jié)構(gòu)信息能夠約束細粒度層級的高頻細節(jié)合成，避免在局部細節(jié)層面出現(xiàn)與整體結(jié)構(gòu)矛盾的錯誤。最終在第1層（最細粒度），潛變量通過一個輕量的精化頭（refinement head）直接輸出最終的RGB圖像。

六、七種損失函數(shù)組成的"質(zhì)量評分卡"

訓(xùn)練這套網(wǎng)絡(luò)，需要告訴它什么叫"好"、什么叫"差"。研究團隊設(shè)計了七種損失函數(shù)，從不同維度衡量網(wǎng)絡(luò)輸出的質(zhì)量，并在訓(xùn)練的不同階段動態(tài)調(diào)整各項權(quán)重。

像素級重建質(zhì)量用L1損失來衡量，也就是逐像素比較預(yù)測圖和真實圖的絕對差值。為了讓中間層級的特征圖也對齊真實圖像，還設(shè)計了一個金字塔RGB損失，對各層級潛變量的前三個通道（對應(yīng)RGB）與對應(yīng)分辨率的真實圖像做L1比較。

幾何一致性方面，深度損失用帶前景掩碼（mask，只在有主體的區(qū)域計算，排除黑色背景的干擾）的L1比較預(yù)測深度和真實深度；偏移損失則對每個層級的深度殘差進行約束，如果殘差超出該層級預(yù)設(shè)的搜索窗口范圍，就給予額外懲罰，防止網(wǎng)絡(luò)"跳出"金字塔設(shè)計的合理搜索空間。透明度圖用L2損失（均方誤差）與真實前景掩碼對齊。

感知質(zhì)量方面引入了兩項來自圖像風(fēng)格遷移領(lǐng)域的經(jīng)典損失。VGG感知損失通過比較預(yù)測圖和真實圖在VGG-19網(wǎng)絡(luò)各層的中間特征激活值的L1距離，捕捉人眼感知層面的相似性，克服純像素損失導(dǎo)致的過度平滑問題。風(fēng)格損失則比較兩張圖在VGG各層特征的"格拉姆矩陣"（Gram matrix，描述不同特征通道之間共現(xiàn)關(guān)系的矩陣，能夠捕捉紋理和風(fēng)格信息）的L2距離，進一步約束紋理細節(jié)的還原。

在訓(xùn)練安排上，前25個訓(xùn)練輪次（epoch）不啟用感知損失，讓網(wǎng)絡(luò)先學(xué)會基本的幾何和色彩重建；第26輪到第100輪啟用VGG感知損失；第101輪之后才加入風(fēng)格損失，同時適當(dāng)降低深度損失和偏移損失的權(quán)重，讓網(wǎng)絡(luò)更多關(guān)注視覺質(zhì)量而非幾何精度。整個訓(xùn)練分兩個階段：先在512×512分辨率下訓(xùn)練100輪（約4天），再在1024×1024分辨率下微調(diào)25輪（約36小時），均在單張NVIDIA A40顯卡上完成。

七、合成數(shù)據(jù)"造廠"：24753個樣本從零開始

由于網(wǎng)絡(luò)訓(xùn)練需要配對的真實深度圖，而現(xiàn)實中的多視角視頻數(shù)據(jù)集很難提供精確深度標注，研究團隊選擇用合成數(shù)據(jù)訓(xùn)練。

他們從Poly Haven、Sketchfab等平臺下載了357個三維資產(chǎn)，涵蓋沙發(fā)、化學(xué)實驗臺等各類室內(nèi)物體，并將場景縮放到大約[-2m, 2m] × [-2m, 2m] × [0m, 2m]的體積內(nèi)，與真實拍攝舞臺的尺度相近。另外使用HumanGenerator3D插件在Blender中生成了各種姿勢和服裝的虛擬人物。為了增加深度估算難度，還專門制作了由隨機形變立方體組成的場景，立方體表面貼上不同紋理圖片，以訓(xùn)練模型在相鄰像素深度不連續(xù)時的判斷能力。光照方面，使用了Poly Haven提供的真實環(huán)境貼圖（HDRI），覆蓋寬泛的自然和人工光照條件。

攝像機布置也完全隨機化：隨機選取攝像機數(shù)量和圓柱面上的位置，通過德勞內(nèi)三角剖分選出三臺源攝像機，目標視角則在三角形內(nèi)以隨機重心坐標采樣，并在深度方向加±20厘米的隨機抖動，確保目標視角不總是落在源攝像機所在平面上。最終生成了24753個訓(xùn)練樣本，每個樣本包含三張源視角圖像、一張目標視角圖像及對應(yīng)的深度圖和前景掩碼。

為了讓模型在真實場景下也能正常工作，數(shù)據(jù)增強環(huán)節(jié)精心模擬了真實采集中可能出現(xiàn)的各種噪聲和失真。色彩抖動模擬不同攝像機的色溫和曝光差異；對背景區(qū)域（深度值為0的像素）單獨注入高斯噪聲，模擬真實場景中背景的復(fù)雜性；3×3高斯模糊模擬鏡頭虛焦；顏色量化模擬壓縮偽影；隨機縮放裁剪增加尺度變化的魯棒性。整個模型以BFloat16精度訓(xùn)練，以便與后續(xù)TensorRT部署的精度保持一致，避免因精度轉(zhuǎn)換帶來的性能下降。

八、與現(xiàn)有方法的正面對比：質(zhì)量和速度兩手抓

研究團隊在六個公開數(shù)據(jù)集上進行了評測，分別是RIFTCast、DNA Rendering、LLFF（Local Light Field Fusion）、MVHumanNet、THuman2.1和ZJUMoCap，涵蓋了室內(nèi)表演捕獲、高保真人體渲染、真實自然場景等多種類型。

對比的基準方法分為兩類：需要對每個場景單獨優(yōu)化的"離線方法"（Nerfacto-big、Splatfacto-big、FrugalNeRF），以及直接推斷不需要訓(xùn)練的"在線方法"（ENeRF、GPS-Gaussian、GPS-Gaussian+、RIFTCast）。評測指標采用圖像質(zhì)量研究中的三項標準：PSNR（峰值信噪比，越高越好）、SSIM（結(jié)構(gòu)相似性，越高越好）、LPIPS（感知圖像塊相似度，越低越好）。

在人體捕獲類數(shù)據(jù)集上，3DTV的表現(xiàn)相當(dāng)亮眼。以MVHumanNet為例，3DTV取得PSNR 25.4、SSIM 0.938、LPIPS 0.074，超過了同樣使用少量視角的GPS-Gaussian（PSNR 24.8）、GPS-Gaussian+（PSNR 23.8）和FrugalNeRF（PSNR 22.6），與ENeRF（PSNR 25.2）基本持平。在THuman2.1上，3DTV以PSNR 26.7表現(xiàn)最佳，超過ENeRF的26.1和GPS-Gaussian的25.7。在ZJUMoCap上，3DTV取得PSNR 24.1、SSIM 0.930，顯著優(yōu)于GPS-Gaussian（PSNR 21.4）和GPS-Gaussian+（PSNR 20.9）。

在RIFTCast數(shù)據(jù)集上，3DTV達到PSNR 25.7、SSIM 0.941，超過ENeRF的24.9，也明顯優(yōu)于兩個GPS-Gaussian變體。DNA Rendering上，各方法表現(xiàn)較為接近，3DTV以PSNR 25.9、SSIM 0.952略勝GPS-Gaussian+的24.9。

LLFF數(shù)據(jù)集作為一個"壓力測試"被專門包含進來——這個數(shù)據(jù)集里的場景是戶外自然景觀，深度范圍遠超室內(nèi)舞臺，與3DTV的訓(xùn)練分布差異很大，相當(dāng)于讓一個只見過室內(nèi)場景的人去判斷山地風(fēng)景的深度。3DTV在LLFF上的PSNR僅為10.3，明顯低于ENeRF的21.3，但這個結(jié)果本身就是預(yù)期之中的——研究團隊明確指出，LLFF是分布外場景，主要用于驗證系統(tǒng)在極端條件下的魯棒性。值得注意的是，GPS-Gaussian+在LLFF上僅得11.8，與3DTV接近，而RIFTCast方法根本不適用于該數(shù)據(jù)集。

九、速度與內(nèi)存：40幀每秒、僅需2.2GB顯存

在運行效率上，3DTV的優(yōu)勢更為突出。未經(jīng)優(yōu)化的PyTorch版本在1024×1024分辨率下推理時間為117毫秒（約每秒8.5幀），內(nèi)存占用7.1GB。經(jīng)過TensorRT優(yōu)化的部署版本（OursRT），推理時間壓縮到24.5毫秒（每秒40.8幀），峰值顯存占用降至2.2GB，實現(xiàn)了真正意義上的實時運行。

對比來看，GPS-Gaussian和GPS-Gaussian+的推理時間分別為73.7毫秒和72.4毫秒，雖然快于3DTV的未優(yōu)化版本，但遠不及TensorRT優(yōu)化后的3DTV。ENeRF的推理時間高達97.3毫秒，遠未達到實時。RIFTCast雖然達到47.3毫秒，但它需要使用所有可用攝像機（35臺）及完整的前景掩碼集，而3DTV只需3臺攝像機。當(dāng)分辨率提升到2048×2048時，TensorRT版本的3DTV將推理時間控制在109.5毫秒，而ENeRF則需要233.7毫秒，進一步拉大差距。

研究團隊將TensorRT部署的完整配置連同模型權(quán)重一并開源，以確保研究結(jié)果的可重復(fù)性，這一點在實際工程落地中有相當(dāng)重要的參考價值。

十、消融實驗：拆解每個設(shè)計選擇的貢獻

為了驗證各個設(shè)計組件的必要性，研究團隊在DNA Rendering和RIFTCast兩個數(shù)據(jù)集上做了系統(tǒng)的消融實驗（即逐一去掉某個組件，觀察性能變化）。

把三視角輸入減少到兩視角時，PSNR在DNA Rendering上從25.9降至23.6，SSIM從0.952降至0.913，說明第三臺攝像機提供的額外視角信息對減少深度歧義有實質(zhì)性貢獻。

特征通道數(shù)減半后，推理速度幾乎不變（41.3幀每秒），但PSNR下降約1個單位（至24.9），高頻紋理細節(jié)明顯變差。通道數(shù)加倍則僅帶來微小的質(zhì)量提升（PSNR 26.1），但幀率降至32.6，說明基礎(chǔ)配置已經(jīng)是效率與質(zhì)量的較優(yōu)平衡點。

金字塔層級從7層減少到3層時，PSNR急劇下降至22.8，LPIPS升至0.112，這是因為淺金字塔迫使系統(tǒng)在較粗的層級就覆蓋很大的深度搜索范圍，導(dǎo)致深度估算不穩(wěn)定。6層金字塔（PSNR 25.8）已經(jīng)接近7層的性能，說明最后一層的邊際貢獻相對較小。

去掉殘差深度更新機制后，PSNR跌至21.5，是所有消融配置中降幅最大的，定性觀察到明顯的"閃爍"（shimmering）偽影，訓(xùn)練過程也變得不穩(wěn)定。這說明殘差式逐層修正是整個系統(tǒng)穩(wěn)定運行的核心支柱。去掉融合模塊的殘差連接（投影器加法），PSNR從25.9降至25.2，影響相對溫和但可見。去掉來自融合層的先驗引導(dǎo)后，PSNR降至23.8，幀率因減少了特征傳遞而微升至46.7幀每秒，但質(zhì)量代價較高。

這套消融結(jié)果清晰地勾勒出3DTV設(shè)計的"價值地圖"：殘差深度是最不可缺少的，三視角輸入次之，金字塔深度是第三，其余組件則在質(zhì)量和速度之間提供了可調(diào)節(jié)的余量。

十一、局限性與尚未解決的問題

研究團隊對這套系統(tǒng)的邊界條件做了坦誠的分析。

在幀率方面，TensorRT優(yōu)化后的40幀每秒對于視頻流媒體足夠，但要達到游戲級的60幀每秒或更高，還需要進一步的量化壓縮（如INT8精度）或架構(gòu)層面的精簡。

在場景適用范圍上，3DTV目前的訓(xùn)練數(shù)據(jù)局限于室內(nèi)有界場景，深度范圍約在0.5米到8.5米之間。對于開放戶外環(huán)境或大尺度場景（如LLFF數(shù)據(jù)集中的自然景觀），深度范圍遠超訓(xùn)練分布，系統(tǒng)只能捕捉粗略的幾何結(jié)構(gòu)，無法還原高頻細節(jié)。

在視角外推上，系統(tǒng)的設(shè)計邏輯是在三臺源攝像機形成的三角形內(nèi)部進行"插值"——目標視角總是被三臺源攝像機從三個方向包圍。一旦目標視角落在這個三角形外部（外推場景），系統(tǒng)的穩(wěn)定性和質(zhì)量會顯著下降，這是未來需要解決的方向。

在遮擋復(fù)雜場景中，當(dāng)多個人物前后疊加時，深度估算容易混淆，導(dǎo)致前景人物和背景人物的特征互相"滲透"，產(chǎn)生模糊的"溶合"現(xiàn)象。研究團隊展示了一個典型的失敗案例，即兩人前后站立時，后方人物的細節(jié)被洗掉。針對這類問題，增加特征圖密度或引入時序特征傳播（利用視頻前后幀信息）是潛在的改進方向。

歸根結(jié)底，3DTV做的事情可以這樣概括：用三臺攝像機、一個輕量網(wǎng)絡(luò)、不到25毫秒，生成你想看的任何角度的畫面。它把幾何學(xué)的經(jīng)典工具（三角剖分）和現(xiàn)代深度學(xué)習(xí)（多尺度深度估算、幽靈網(wǎng)絡(luò)）拼在一起，找到了一條在實時約束下穩(wěn)定運行的路。訓(xùn)練完全在合成數(shù)據(jù)上進行，卻能在真實的人體捕獲數(shù)據(jù)集上取得與專門針對人體設(shè)計的方法相當(dāng)甚至更好的結(jié)果，這說明它學(xué)到的是真正通用的幾何投影規(guī)律，而不是對特定數(shù)據(jù)集的記憶。

對于普通觀眾來說，這項研究意味著未來的體育賽事、演唱會、電競直播或遠程會議，有望以極低的帶寬和設(shè)備成本實現(xiàn)真正的自由視角體驗，而不再依賴龐大的攝像機陣列或漫長的后期處理。對于研究者和工程師來說，它提供了一套從幾何選點、特征提取、深度估算到圖像合成的完整流水線，每個模塊都有清晰的設(shè)計邏輯和量化的消融結(jié)論，是一份難得的工程參考。

完整論文可通過arXiv編號arXiv:2604.11211查閱，研究團隊承諾在論文錄用后公開全部代碼和訓(xùn)練模型。

Q&A

Q1：3DTV系統(tǒng)只用三臺攝像機為什么就夠了？

A：3DTV通過德勞內(nèi)三角剖分從現(xiàn)有多臺攝像機中挑選出最優(yōu)的三臺，確保目標視角被這三臺攝像機從三個方向均勻包圍。實驗結(jié)果顯示，與兩臺相比，第三臺攝像機提供的額外視角能顯著減少深度估算的歧義，PSNR指標提升約2個單位。三臺是在攝像機數(shù)量、計算成本和合成質(zhì)量之間的最優(yōu)平衡點。

Q2：3DTV的訓(xùn)練數(shù)據(jù)全是合成的，在真實視頻上效果會差嗎？

A：研究團隊通過系統(tǒng)的數(shù)據(jù)增強來彌補合成與真實之間的差異，包括模擬色彩偏差、背景噪聲、鏡頭模糊和壓縮偽影等真實采集中的常見問題。在多個真實人體捕獲數(shù)據(jù)集（MVHumanNet、ZJUMoCap、THuman2.1）上的測試結(jié)果顯示，3DTV的性能與專門在真實數(shù)據(jù)上訓(xùn)練的方法相當(dāng)甚至更好，說明模型學(xué)到的幾何規(guī)律具有較好的遷移能力。

Q3：3DTV對室外大場景或開放環(huán)境適用嗎？

A：目前不適用。3DTV的訓(xùn)練數(shù)據(jù)深度范圍約在0.5米到8.5米之間，適合室內(nèi)有界場景。在LLFF戶外自然景觀數(shù)據(jù)集上的測試中，系統(tǒng)只能捕捉粗略幾何，PSNR僅為10.3，遠低于室內(nèi)場景的表現(xiàn)。研究團隊將擴展到大尺度場景列為未來工作方向之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

終于，學(xué)界找到了深度學(xué)習(xí)的「牛頓定律」

機器之心Pro 2026-04-27 11:42:32
0 跟貼 0
華為泰勒實驗室提出SHAPE，給LLM推理裝了個「推理稅」

機器之心Pro 2026-04-28 16:10:00
0 跟貼 0

挑戰(zhàn)從C羅粉絲的角度去洗羅哥的那些攝像機踢法！

拾憶足球 2026-04-28 12:26:51
3 跟貼 3

從東京漂向深圳，一場影像話語權(quán)革命

虎嗅APP 2025-11-05 21:01:08
1 跟貼 1
這個攝“箱師一看就是專業(yè)的，男子參加婚禮用箱子和手機自制攝像機

探山城 2026-04-26 10:55:07
0 跟貼 0

π0.7的泛化能力有多強？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0

攝影師拿著攝像機帥氣出場，打扮好看的拍照應(yīng)該不會差，網(wǎng)友：果然帥是一種感覺

重慶科教融媒體 2026-04-28 17:55:38
0 跟貼 0
專欄｜金瑩：怎么可能沒有感情呢

ELLE世界時裝之苑雜志 2026-04-24 14:34:32
1 跟貼 1

用手機拍攝鴻蒙盛典，是創(chuàng)新還是冒險？

36氪 2025-12-22 21:46:47
11 跟貼 11
獨家對話研極微創(chuàng)始人：80人做到近100億營收后，要把AI攝像頭插到田間地頭

36氪 2026-01-21 09:10:59
0 跟貼 0
大疆口袋機的銷售方式

光影圖片社 2026-04-27 22:00:11
0 跟貼 0
兔子身上安裝攝像機，走進洞里那刻，發(fā)現(xiàn)不可思議一幕

笑料生產(chǎn)線 2026-04-25 14:20:41
31 跟貼 31
倫敦市中心高性價比奢居首選，坐擁核心地段，皇家公園視野，頂級城市資源，贏麻了

英國那些事兒 2025-12-19 23:20:31
0 跟貼 0
上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
許媽姚爸賬號合規(guī)進階

蜻蜓世音 2026-04-28 07:38:47
33 跟貼 33
高德地圖聯(lián)系館長了！館長手舞足蹈，開始練習(xí)臺灣專屬語音包了！

挽衾距離 2026-04-28 04:46:38
0 跟貼 0
輕松一刻：中年人別總送年輕人話，真要送就送錢

輕松一刻 2026-04-27 20:53:22
1297 跟貼 1297
馬筱梅哭的原因找到了？網(wǎng)友稱看見小菲在酒吧左擁右抱，太假了！

老表是個手藝人 2026-04-27 15:13:22
1 跟貼 1
AGI很蠢？AI教父Hinton預(yù)警：4.8萬億美元市場已鎖死，AI正撕裂全球！

新智元 2026-04-28 19:31:11
19 跟貼 19
比亞迪閃充還是太權(quán)威，老外扎堆學(xué)中國造，硬核技術(shù)矩陣驚艷全場

鵬行天Car 2026-04-28 16:55:11
1 跟貼 1
高清攝像機記錄下，隕石撞擊月球的過程，竟然落在了同一個坑里

幽默大聯(lián)盟 2026-04-25 16:04:00
0 跟貼 0
三維地圖講解——石敬瑭托孤，及石重貴兩敗契丹（下）

地圖里的歷史 2026-04-24 18:36:00
0 跟貼 0
蘋果新論文發(fā)出驚人一問：What do your logits know?

機器之心Pro 2026-04-27 10:55:05
12 跟貼 12
館長驚訝：真的有志玲姐姐的語音包呢？有館長趕羊語音包嗎？

下復(fù)新鮮事 2026-04-26 05:40:18
0 跟貼 0
李晨不知道在直播

八爪魚不是娛 2026-04-27 17:47:46
1 跟貼 1
網(wǎng)傳深圳東部華僑城結(jié)業(yè)、閉園？最新回應(yīng)：不實

魯中晨報 2026-04-28 17:08:10
295 跟貼 295
辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
192 跟貼 192
羅納爾多的接球邏輯，獨屬于外星人的無解調(diào)整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
明明最后一次直播，接班的同事早已心知肚明

俄羅斯安娜 2026-04-28 00:56:53
0 跟貼 0
又一省份推動帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
179 跟貼 179
不賣慘、不博同情！館長直言直播初衷：只為釋放內(nèi)心壓力

小信新鮮事 2026-04-28 10:05:55
0 跟貼 0
半年打賞300萬，70歲老人為男主播“傾家蕩產(chǎn)”

中國新聞周刊 2026-04-29 07:27:07
0 跟貼 0
第一次上高速不懂就問，這種白色網(wǎng)格線，是禁止超車還是禁止變道

可樂生活說 2026-04-27 10:48:41
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
31省份去年常住人口數(shù)據(jù)公布

第一財經(jīng)資訊 2026-04-28 18:58:16
918 跟貼 918
蘋果Numbers憑什么挑戰(zhàn)Excel？

時光慢郵啊 2026-04-29 00:58:08
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
4秒58！上海小將趙一程創(chuàng)造新的世界紀錄！

澎湃新聞 2026-04-28 15:13:06
1087 跟貼 1087
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
商業(yè)航天步入新階段，新一輪“卡位戰(zhàn)”打響

每日經(jīng)濟新聞 2026-04-28 22:40:03
7 跟貼 7

遵義會議上，紅九軍團中央代表投了毛主席反對票，他后來結(jié)局如何

遵義會議上，紅九軍團中央代表投了毛主席反對票，他后來結(jié)局如何

舊書卷里的長安

2026-04-29 00:03:37

太空探索的荒誕真相：人類最偉大的事業(yè)，困在薯片罐里

太空探索的荒誕真相：人類最偉大的事業(yè)，困在薯片罐里

晚風(fēng)也遺憾

2026-04-28 01:02:14

那年初春的跑馬場上，李嘉欣與許晉亨深情擁吻的一幕

那年初春的跑馬場上，李嘉欣與許晉亨深情擁吻的一幕

娛你同歡

2026-04-27 17:47:48

從20萬到16億，一個普通散戶的“笨辦法”投資傳奇

從20萬到16億，一個普通散戶的“笨辦法”投資傳奇

流蘇晚晴

2026-04-20 20:13:29

錢再多有什么用？因嘴唇發(fā)紫去檢查心臟的陸毅，給所有人提了個醒

錢再多有什么用？因嘴唇發(fā)紫去檢查心臟的陸毅，給所有人提了個醒

青杉依舊啊啊

2026-04-27 17:45:13

全球首家AI妓院，革了成人行業(yè)的命

全球首家AI妓院，革了成人行業(yè)的命

廣告案例精選

2026-04-02 14:49:22

圓明園地下大反轉(zhuǎn)，大火燒掉的僅是圓明園的表皮

圓明園地下大反轉(zhuǎn)，大火燒掉的僅是圓明園的表皮

混沌錄

2026-04-24 21:02:11

趙露思真把“看著不大，實則敞亮”玩明白了！

趙露思真把“看著不大，實則敞亮”玩明白了！

飛娛日記

2026-04-26 08:49:04

多個5A景區(qū)回應(yīng)文旅部點名擺渡車問題：天柱山景區(qū)稱已整改，其余景區(qū)正常運營

多個5A景區(qū)回應(yīng)文旅部點名擺渡車問題：天柱山景區(qū)稱已整改，其余景區(qū)正常運營

上游新聞

2026-04-28 16:35:09

重磅！名記：79歲佛爺欽點63歲穆帥今夏回歸 14年前100分稱霸西甲

重磅！名記：79歲佛爺欽點63歲穆帥今夏回歸 14年前100分稱霸西甲

風(fēng)過鄉(xiāng)

2026-04-28 20:13:12

K77雙響超姆巴佩隊史第1人，登貝萊造3球，巴黎5-4拜仁造歐冠神跡

K77雙響超姆巴佩隊史第1人，登貝萊造3球，巴黎5-4拜仁造歐冠神跡

釘釘陌上花開

2026-04-29 04:58:08

中國絕大多數(shù)小縣城，其實根本沒有獨立創(chuàng)造財富的能力

中國絕大多數(shù)小縣城，其實根本沒有獨立創(chuàng)造財富的能力

流蘇晚晴

2026-04-11 17:53:01

不出 5 年，中國貶值最快的不是房子和現(xiàn)金，而是這 3 樣?xùn)|西

不出 5 年，中國貶值最快的不是房子和現(xiàn)金，而是這 3 樣?xùn)|西

細說職場

2026-04-26 21:04:20

阿Sa老公婚后現(xiàn)身回應(yīng)，稱要努力賺錢養(yǎng)家，女方已雪卵被親友催生

阿Sa老公婚后現(xiàn)身回應(yīng)，稱要努力賺錢養(yǎng)家，女方已雪卵被親友催生

開開森森

2026-04-28 17:58:51

濟南市槐蔭區(qū)人大常委會城鄉(xiāng)建設(shè)處原處長江光坤主動投案，接受審查調(diào)查

濟南市槐蔭區(qū)人大常委會城鄉(xiāng)建設(shè)處原處長江光坤主動投案，接受審查調(diào)查

魯中晨報

2026-04-28 16:48:04

85年我放走被俘越南女兵，34年后我去河內(nèi)，一整個車隊在機場等我

85年我放走被俘越南女兵，34年后我去河內(nèi)，一整個車隊在機場等我

卡西莫多的故事

2026-01-22 09:58:10

“神仙員工”每天最早到最晚走，不斷上報“穩(wěn)賺十幾萬”大項目，老板多次爽快撥款！一看賬戶資金，傻眼了……

“神仙員工”每天最早到最晚走，不斷上報“穩(wěn)賺十幾萬”大項目，老板多次爽快撥款！一看賬戶資金，傻眼了……

海峽網(wǎng)

2026-04-27 21:19:03

卡塔爾承諾如果國際刑事法院檢察官汗追捕內(nèi)塔尼亞胡，將“照顧”他

卡塔爾承諾如果國際刑事法院檢察官汗追捕內(nèi)塔尼亞胡，將“照顧”他

老王說正義

2026-04-29 00:04:53

伯克利、哈佛、賓夕法尼亞、斯坦福重磅綜述：“學(xué)習(xí)力學(xué)”將成為深度學(xué)習(xí)的科學(xué)理論

伯克利、哈佛、賓夕法尼亞、斯坦福重磅綜述：“學(xué)習(xí)力學(xué)”將成為深度學(xué)習(xí)的科學(xué)理論

新浪財經(jīng)

2026-04-28 00:31:20

藝考生：砸光父母積蓄，終成“廉價打工人”，誰在制造這場騙局？

藝考生：砸光父母積蓄，終成“廉價打工人”，誰在制造這場騙局？

社會日日鮮

2026-04-27 12:38:49

科技正在如何變革商業(yè)世界

8183文章數(shù) 563關(guān)注度

往期回顧全部

科技要聞

微軟剛“松綁”，OpenAI火速牽手亞馬遜！

頭條要聞

阿聯(lián)酋突然退出歐佩克被視為是"特朗普的一次勝利"

頭條要聞

阿聯(lián)酋突然退出歐佩克被視為是"特朗普的一次勝利"

體育要聞

魔術(shù)黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結(jié)婚，老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào)，八大看點速覽！

汽車要聞

拒絕瘋狂套娃！現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

本地

數(shù)碼

健康

公開課

親子要聞

傷害孩子的壞人和變態(tài)，是不分性別的！

本地新聞

用青花瓷的方式，打開西溪濕地

數(shù)碼要聞

全年省電2160度！小米推出米家中央空調(diào)風(fēng)管機巨省電2026款：國補價4504元起

干細胞治療燒燙傷三大優(yōu)勢！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<rp id="gcfdh"></rp>

<span id="gcfdh"></span>

<ul id="gcfdh"><th id="gcfdh"><center id="gcfdh"></center></th></ul>