網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NVIDIA團(tuán)隊(duì)讓立體視覺AI實(shí)現(xiàn)"真正"實(shí)時(shí)運(yùn)行：速度提升10倍

2025-12-30 23:25:09　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由NVIDIA公司的Bowen Wen、Shaurya Dewan和Stan Birchfield共同完成的研究發(fā)表于2025年12月的arXiv預(yù)印本服務(wù)器，論文編號(hào)為arXiv:2512.11130v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

在人工智能的世界里，有一項(xiàng)技術(shù)就像人類的雙眼一樣重要——立體視覺匹配。當(dāng)我們用雙眼看世界時(shí)，大腦會(huì)自動(dòng)計(jì)算出物體的距離和深度，這個(gè)過程看似簡單，但在AI領(lǐng)域卻是個(gè)巨大的挑戰(zhàn)。傳統(tǒng)的AI立體視覺系統(tǒng)面臨著一個(gè)讓人頭疼的兩難選擇：要么精確但慢得像蝸牛，要么快但準(zhǔn)確性堪憂。

NVIDIA的研究團(tuán)隊(duì)就像是解決這個(gè)難題的"建筑師"，他們開發(fā)出了一套名為Fast-FoundationStereo的新系統(tǒng)。這個(gè)系統(tǒng)的神奇之處在于，它能夠在保持高精度的同時(shí)，將處理速度提升整整10倍，真正實(shí)現(xiàn)了"魚和熊掌兼得"。

這項(xiàng)突破性研究的意義遠(yuǎn)超技術(shù)本身。想象一下自動(dòng)駕駛汽車需要在瞬間判斷前方物體的距離，或者增強(qiáng)現(xiàn)實(shí)設(shè)備需要實(shí)時(shí)理解周圍環(huán)境的三維結(jié)構(gòu)。在這些應(yīng)用場景中，既要快速又要準(zhǔn)確的立體視覺就顯得至關(guān)重要。過去，研究人員不得不在速度和精度之間做出艱難選擇，但這項(xiàng)研究徹底改變了游戲規(guī)則。

研究團(tuán)隊(duì)采用了一種"分而治之"的策略，就像拆解一個(gè)復(fù)雜機(jī)器，然后對(duì)每個(gè)部件進(jìn)行專門的優(yōu)化。他們將整個(gè)立體視覺系統(tǒng)分解為三個(gè)核心組件：特征提取、成本過濾和視差細(xì)化，然后針對(duì)每個(gè)組件的特點(diǎn)制定了不同的加速方案。

更令人興奮的是，他們還構(gòu)建了一個(gè)包含140萬對(duì)真實(shí)世界立體圖像的數(shù)據(jù)集，這些圖像都通過自動(dòng)化的偽標(biāo)注流程進(jìn)行了處理。這就像為AI提供了更豐富、更真實(shí)的"教材"，讓它能夠更好地理解真實(shí)世界中的復(fù)雜場景。

一、立體視覺的現(xiàn)實(shí)困境：速度與精度的永恒博弈

立體視覺匹配技術(shù)的發(fā)展歷程就像一場馬拉松比賽，已經(jīng)持續(xù)了整整50年。在這個(gè)漫長的征程中，研究人員們就像兩支不同的隊(duì)伍，朝著截然不同的方向奔跑。

第一支隊(duì)伍專注于追求極致的精度和泛化能力。這些研究者就像藝術(shù)家一樣，不惜代價(jià)地打造出能夠"零樣本泛化"的模型。所謂零樣本泛化，就是AI系統(tǒng)能夠像人類一樣，在從未見過的新環(huán)境中依然表現(xiàn)出色。這類系統(tǒng)通常借助強(qiáng)大的視覺基礎(chǔ)模型，比如DepthAnythingV2或DINO模型，這些模型就像擁有豐富閱歷的老師，為立體視覺系統(tǒng)提供深厚的先驗(yàn)知識(shí)。

然而，這種追求完美的代價(jià)是巨大的計(jì)算開銷。這些系統(tǒng)運(yùn)行起來就像駕駛一輛裝滿高科技設(shè)備的坦克——功能強(qiáng)大但行動(dòng)緩慢。它們往往采用復(fù)雜的Transformer架構(gòu)來執(zhí)行自注意力機(jī)制，處理長距離的上下文信息，這個(gè)過程消耗的計(jì)算資源就像燃燒金錢一樣昂貴。

另一支隊(duì)伍則走向了完全相反的道路，他們專注于實(shí)時(shí)性能。這些研究者就像賽車設(shè)計(jì)師，竭盡全力減輕系統(tǒng)重量，提升運(yùn)行速度。他們的解決方案通常采用輕量級(jí)的骨干網(wǎng)絡(luò)、二維卷積層和局部迭代細(xì)化模塊，整個(gè)系統(tǒng)就像一輛精簡的跑車，能夠達(dá)到令人印象深刻的幀率。

但這種速度的提升是以犧牲泛化能力為代價(jià)的。這些快速系統(tǒng)就像只在特定賽道上訓(xùn)練的賽車手，一旦離開熟悉的環(huán)境就會(huì)表現(xiàn)失常。它們通常需要針對(duì)特定領(lǐng)域進(jìn)行微調(diào)，無法像基礎(chǔ)模型那樣處理各種復(fù)雜的真實(shí)世界場景。更令人頭疼的是，獲取高質(zhì)量的稠密深度標(biāo)注數(shù)據(jù)就像尋找珍稀寶石一樣困難且昂貴，這進(jìn)一步限制了這些高效方法在通用環(huán)境中的應(yīng)用。

這種兩極分化的現(xiàn)狀就像一道無法跨越的鴻溝，將立體視覺研究分割成了兩個(gè)互不相容的陣營。實(shí)際應(yīng)用中的開發(fā)者們往往陷入進(jìn)退兩難的境地：選擇精確但緩慢的系統(tǒng)意味著無法滿足實(shí)時(shí)應(yīng)用的需求，而選擇快速但不夠魯棒的系統(tǒng)又可能在復(fù)雜的真實(shí)環(huán)境中出現(xiàn)嚴(yán)重的性能下降。

二、分而治之的智慧：三管齊下的加速策略

NVIDIA研究團(tuán)隊(duì)的解決方案就像一個(gè)精明的指揮官，面對(duì)復(fù)雜的戰(zhàn)場不是蠻力沖鋒，而是將任務(wù)分解成多個(gè)可管理的小目標(biāo)，然后逐一擊破。他們將FoundationStereo這個(gè)強(qiáng)大但笨重的系統(tǒng)比作一臺(tái)復(fù)雜的機(jī)器，然后對(duì)其三個(gè)核心組件進(jìn)行了針對(duì)性的改造。

在特征提取這個(gè)環(huán)節(jié)，原始的FoundationStereo就像配備了兩個(gè)不同引擎的混合動(dòng)力車。一個(gè)是DepthAnythingV2引擎，專門提供豐富的單目先驗(yàn)知識(shí)，就像一個(gè)經(jīng)驗(yàn)豐富的老司機(jī)；另一個(gè)是側(cè)調(diào)CNN引擎，負(fù)責(zé)將單目特征適配到雙目立體設(shè)置中，就像一個(gè)專業(yè)的導(dǎo)航系統(tǒng)。雖然這種雙引擎設(shè)計(jì)功能強(qiáng)大，但運(yùn)行起來就像同時(shí)開啟兩臺(tái)耗能設(shè)備，計(jì)算開銷巨大。

研究團(tuán)隊(duì)采用了知識(shí)蒸餾技術(shù)來解決這個(gè)問題。知識(shí)蒸餾就像是讓一個(gè)優(yōu)秀的老師將自己畢生的經(jīng)驗(yàn)傳授給一個(gè)年輕但天賦異稟的學(xué)生。在這個(gè)過程中，原始的雙模塊系統(tǒng)充當(dāng)"老師"的角色，生成多層級(jí)的特征金字塔作為"教材"，而新的單一學(xué)生模塊則通過最小化均方誤差損失來"學(xué)習(xí)"這些知識(shí)。

為了提供不同速度和精度權(quán)衡的選擇，研究團(tuán)隊(duì)訓(xùn)練了多個(gè)不同架構(gòu)的學(xué)生模型變體。這就像制造不同排量的汽車引擎，用戶可以根據(jù)自己的需求選擇合適的版本。通過這種方式，他們成功地將雙模塊的復(fù)雜性壓縮到了單一的高效模塊中，同時(shí)保持了原有的豐富先驗(yàn)知識(shí)。

在成本過濾環(huán)節(jié)，挑戰(zhàn)變得更加復(fù)雜。原始系統(tǒng)采用了雙分支架構(gòu)：一個(gè)是包含軸向-平面卷積層的三維沙漏架構(gòu)，另一個(gè)是將成本體積標(biāo)記化并執(zhí)行多頭自注意力的視差Transformer分支。直接對(duì)這些模塊進(jìn)行剪枝就像用鈍刀切肉，效果微乎其微，因?yàn)槌杀倔w積的通道維度本身就很小。

研究團(tuán)隊(duì)選擇了神經(jīng)架構(gòu)搜索這一更加智能的方法。他們將成本過濾模塊分解成一系列操作塊，就像將一個(gè)復(fù)雜的生產(chǎn)線分解成多個(gè)工作站。每個(gè)工作站都有多種候選配置，包括不同的三維卷積層、三維反卷積層、軸向-平面卷積層、殘差連接的三維卷積層，以及特征引導(dǎo)的體積激發(fā)層。

最巧妙的是，他們采用了分塊蒸餾和評(píng)估的策略。與傳統(tǒng)的需要訓(xùn)練完整模型的搜索方法不同，他們讓每個(gè)候選塊獨(dú)立學(xué)習(xí)模仿對(duì)應(yīng)教師塊的輸出。這就像讓每個(gè)工作站的工人獨(dú)立練習(xí)技能，而不需要等待整條生產(chǎn)線組裝完成。這種方法將訓(xùn)練復(fù)雜度從指數(shù)級(jí)的O(n^N)降低到了線性的O(n)，大大提高了搜索效率。

最后，他們使用整數(shù)線性規(guī)劃來解決最優(yōu)塊組合的選擇問題。這個(gè)過程就像解一個(gè)復(fù)雜的數(shù)學(xué)謎題，在給定的運(yùn)行時(shí)間預(yù)算約束下，尋找能夠最小化性能損失的塊組合。通過調(diào)整不同的時(shí)間預(yù)算，他們能夠生成一系列在速度和精度之間取得不同平衡的模型變體。

在視差細(xì)化這個(gè)最后環(huán)節(jié)，原始的ConvGRU模塊存在大量的循環(huán)依賴關(guān)系。研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)循環(huán)依賴圖來識(shí)別層間的相互依賴關(guān)系，就像繪制一張復(fù)雜的地鐵線路圖。然后，他們?cè)谶@個(gè)圖的指導(dǎo)下，使用結(jié)構(gòu)化剪枝技術(shù)來消除冗余。

剪枝過程使用一階泰勒展開來評(píng)估參數(shù)的重要性，就像用顯微鏡檢查每個(gè)零件的作用。那些重要性最低的參數(shù)會(huì)被移除，但關(guān)鍵的是，那些預(yù)測視差圖和卷積上采樣掩碼的最終層會(huì)保持固定的輸出通道維度，確保系統(tǒng)的核心功能不受影響。剪枝之后，系統(tǒng)會(huì)進(jìn)行端到端的重新訓(xùn)練來恢復(fù)性能，整個(gè)過程就像給一臺(tái)精密機(jī)器進(jìn)行減重手術(shù)后的康復(fù)訓(xùn)練。

三、真實(shí)世界的智慧：自動(dòng)化偽標(biāo)注的創(chuàng)新

獲取高質(zhì)量的真實(shí)世界立體圖像標(biāo)注數(shù)據(jù)一直是這個(gè)領(lǐng)域的老大難問題，就像在沙漠中尋找綠洲一樣稀少珍貴。傳統(tǒng)的方法往往依賴于合成數(shù)據(jù)集，但這些數(shù)據(jù)就像溫室里的花朵，雖然整齊美觀，卻缺乏真實(shí)世界的復(fù)雜性和多樣性。

NVIDIA研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的自動(dòng)化偽標(biāo)注流水線，就像建造了一條智能的生產(chǎn)線。這條生產(chǎn)線的原材料是來自Stereo4D數(shù)據(jù)集的真實(shí)立體圖像對(duì)，這些圖像包含了互聯(lián)網(wǎng)上豐富多樣的真實(shí)場景，從繁忙的街道到寧靜的鄉(xiāng)村，從室內(nèi)環(huán)境到戶外風(fēng)景。

整個(gè)偽標(biāo)注過程就像一個(gè)細(xì)致的質(zhì)量檢驗(yàn)員在工作。首先，教師模型FoundationStereo會(huì)對(duì)左圖像生成視差圖，這就像一個(gè)有經(jīng)驗(yàn)的專家給出初步判斷。與此同時(shí)，單目深度估計(jì)器會(huì)對(duì)同一圖像生成對(duì)應(yīng)的深度圖，這就像第二個(gè)專家從不同角度給出意見。

關(guān)鍵的創(chuàng)新在于幾何一致性檢查。研究團(tuán)隊(duì)將視差圖和深度圖都轉(zhuǎn)換成法向量圖，這個(gè)過程就像將兩張不同格式的地圖轉(zhuǎn)換成相同的坐標(biāo)系統(tǒng)。他們使用相同的相機(jī)參數(shù)進(jìn)行三維反投影，然后使用Sobel算子計(jì)算法向量，最后通過計(jì)算兩個(gè)法向量圖之間的逐像素余弦相似度來評(píng)估幾何一致性。

這種法向量比較的方法比直接在深度或視差空間中進(jìn)行比較更加魯棒，就像通過比較建筑物的結(jié)構(gòu)特征而不是顏色來判斷兩張照片是否拍攝的是同一棟建筑。這種方法特別適合處理真實(shí)世界圖像中極其多樣的深度范圍和可能存在的噪聲預(yù)測。

研究團(tuán)隊(duì)還特別考慮了天空區(qū)域的特殊性。天空在立體視覺中是個(gè)特殊的存在，因?yàn)樗纳疃仁菬o限的，而且在常見的合成訓(xùn)練數(shù)據(jù)集中往往被低估。他們使用開放詞匯分割模型來自動(dòng)檢測天空區(qū)域，在相似度計(jì)算中排除這些區(qū)域，最終將天空的視差值設(shè)置為零。

通過這套精心設(shè)計(jì)的流水線，研究團(tuán)隊(duì)從大量的互聯(lián)網(wǎng)立體視頻中篩選出了140萬對(duì)高質(zhì)量的立體圖像對(duì)。這個(gè)過程就像從海灘上的無數(shù)沙粒中精選出珍貴的珍珠，每一對(duì)圖像都經(jīng)過了嚴(yán)格的質(zhì)量檢驗(yàn)。這些自動(dòng)標(biāo)注的數(shù)據(jù)補(bǔ)充了合成訓(xùn)練數(shù)據(jù)，為知識(shí)蒸餾過程提供了更加豐富和真實(shí)的訓(xùn)練素材。

更重要的是，這種輸出空間的蒸餾與之前步驟中的特征空間蒸餾形成了互補(bǔ)，就像從不同角度加固一座建筑的基礎(chǔ)。特征空間蒸餾確保了學(xué)生模型能夠?qū)W習(xí)到教師模型的內(nèi)在表示能力，而輸出空間蒸餾則確保了學(xué)生模型能夠在真實(shí)世界的復(fù)雜場景中產(chǎn)生可靠的預(yù)測結(jié)果。

四、令人矚目的成果：性能與效率的完美平衡

當(dāng)研究團(tuán)隊(duì)將他們的Fast-FoundationStereo系統(tǒng)投入到真實(shí)世界的測試中時(shí)，結(jié)果令人刮目相看。在多個(gè)公認(rèn)的基準(zhǔn)數(shù)據(jù)集上，這個(gè)系統(tǒng)就像一個(gè)全能型運(yùn)動(dòng)員，不僅在速度項(xiàng)目上遙遙領(lǐng)先，在精度項(xiàng)目上也表現(xiàn)出色。

在Middlebury、ETH3D、KITTI 2012和KITTI 2015這些權(quán)威測試集上，F(xiàn)ast-FoundationStereo顯示出了壓倒性的優(yōu)勢。與其他實(shí)時(shí)方法相比，它的表現(xiàn)就像專業(yè)選手對(duì)戰(zhàn)業(yè)余愛好者一樣懸殊。即使是那些在相同數(shù)據(jù)集上訓(xùn)練過的競爭對(duì)手，包括研究團(tuán)隊(duì)提供的偽標(biāo)注數(shù)據(jù)，也無法達(dá)到Fast-FoundationStereo的水平。

更令人印象深刻的是，這個(gè)系統(tǒng)在某些情況下甚至超越了那些計(jì)算密集型的慢速模型。在處理一些特殊場景時(shí)，比如反光的門表面或者半透明的紙巾盒，F(xiàn)ast-FoundationStereo的表現(xiàn)甚至比FoundationStereo和MonSter這樣的重量級(jí)選手更加出色。這就像一個(gè)輕量級(jí)拳手偶爾能夠擊敗重量級(jí)冠軍一樣令人驚訝。

在處理非朗伯表面（即那些不遵循理想反射定律的表面，如鏡面、透明物體等）時(shí)，F(xiàn)ast-FoundationStereo同樣表現(xiàn)出了強(qiáng)大的魯棒性。在Booster數(shù)據(jù)集上的測試結(jié)果顯示，它不僅遠(yuǎn)遠(yuǎn)超過了其他實(shí)時(shí)方法，甚至能夠與那些專門針對(duì)復(fù)雜表面設(shè)計(jì)的計(jì)算密集型模型相提并論。

運(yùn)行時(shí)間的對(duì)比更是讓人印象深刻。在相同的硬件平臺(tái)（NVIDIA 3090 GPU）上，F(xiàn)ast-FoundationStereo的運(yùn)行時(shí)間僅為49毫秒，而如果使用TensorRT進(jìn)行進(jìn)一步優(yōu)化，這個(gè)時(shí)間可以壓縮到21毫秒。相比之下，原始的FoundationStereo需要496毫秒，這意味著Fast-FoundationStereo實(shí)現(xiàn)了超過10倍的速度提升。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證每個(gè)組件的貢獻(xiàn)。特征骨干的知識(shí)蒸餾顯著提升了零樣本泛化性能，特別是在處理半透明玻璃門等挑戰(zhàn)性場景時(shí)效果尤為明顯。成本過濾的分塊搜索策略不僅大大降低了搜索復(fù)雜度，還能夠在不同的延遲預(yù)算約束下自動(dòng)發(fā)現(xiàn)最優(yōu)的架構(gòu)組合。視差細(xì)化模塊的結(jié)構(gòu)化剪枝則展現(xiàn)了原始模塊中存在的大量冗余，通過剪枝和重新訓(xùn)練能夠在幾乎不影響精度的情況下顯著提升速度。

偽標(biāo)注數(shù)據(jù)的效果同樣令人鼓舞。不僅Fast-FoundationStereo從中受益，其他實(shí)時(shí)方法如RT-IGEV和LightStereo-L在使用這些數(shù)據(jù)訓(xùn)練后也獲得了顯著的性能提升。這表明研究團(tuán)隊(duì)提出的自動(dòng)化偽標(biāo)注流水線具有廣泛的適用性，可以為整個(gè)立體視覺社區(qū)提供價(jià)值。

運(yùn)行時(shí)間的詳細(xì)分析顯示，三個(gè)核心組件都得到了大幅度的加速。特征提取、成本過濾和視差細(xì)化的處理時(shí)間都比原始版本顯著減少，這種全方位的優(yōu)化確保了系統(tǒng)的整體性能提升。

五、技術(shù)突破的深層價(jià)值與未來展望

Fast-FoundationStereo的成功不僅僅是一個(gè)技術(shù)指標(biāo)的提升，它代表了立體視覺領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。這項(xiàng)研究就像在兩座孤島之間建起了一座橋梁，將追求極致精度的基礎(chǔ)模型陣營和注重實(shí)時(shí)性能的高效算法陣營連接起來。

從技術(shù)層面來看，這項(xiàng)研究證明了一個(gè)重要的理念：通過智能的系統(tǒng)設(shè)計(jì)，我們可以在不犧牲核心能力的前提下實(shí)現(xiàn)大幅度的性能優(yōu)化。分而治之的策略展現(xiàn)了工程優(yōu)化的精髓——識(shí)別系統(tǒng)瓶頸，針對(duì)性地解決問題，而不是簡單的暴力優(yōu)化。知識(shí)蒸餾技術(shù)的成功應(yīng)用表明，深度學(xué)習(xí)模型中蘊(yùn)含的知識(shí)是可以被有效轉(zhuǎn)移的，這為未來的模型壓縮和加速研究開辟了新的思路。

神經(jīng)架構(gòu)搜索在成本過濾模塊上的創(chuàng)新應(yīng)用特別值得關(guān)注。傳統(tǒng)的架構(gòu)搜索往往需要消耗巨大的計(jì)算資源，而分塊蒸餾和組合優(yōu)化的方法將搜索復(fù)雜度從指數(shù)級(jí)降低到線性級(jí)，這種效率的提升為自動(dòng)化神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)在更廣泛領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。

自動(dòng)化偽標(biāo)注流水線的成功也具有深遠(yuǎn)的意義。在機(jī)器學(xué)習(xí)領(lǐng)域，數(shù)據(jù)的獲取往往是最大的瓶頸，特別是需要精確標(biāo)注的視覺任務(wù)。這項(xiàng)研究展示了如何巧妙地利用多種互補(bǔ)的信息源來生成高質(zhì)量的訓(xùn)練數(shù)據(jù)，這種方法論可以推廣到其他需要大量標(biāo)注數(shù)據(jù)的任務(wù)中。

從應(yīng)用角度來看，F(xiàn)ast-FoundationStereo為實(shí)時(shí)立體視覺應(yīng)用打開了新的可能性。自動(dòng)駕駛汽車可以獲得更準(zhǔn)確的深度感知能力，同時(shí)滿足實(shí)時(shí)決策的嚴(yán)格時(shí)間要求。增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)設(shè)備可以提供更真實(shí)的環(huán)境理解，而不需要昂貴的專用硬件。機(jī)器人系統(tǒng)可以在復(fù)雜的真實(shí)環(huán)境中進(jìn)行更精確的空間定位和物體操作。

這項(xiàng)研究也為學(xué)術(shù)界提供了寶貴的經(jīng)驗(yàn)。它展示了如何在追求學(xué)術(shù)創(chuàng)新的同時(shí)兼顧工程實(shí)用性，如何通過系統(tǒng)性的方法解決復(fù)雜的多目標(biāo)優(yōu)化問題。更重要的是，它證明了開放的研究態(tài)度和數(shù)據(jù)分享對(duì)整個(gè)社區(qū)發(fā)展的重要性——研究團(tuán)隊(duì)承諾將開源代碼、模型和偽標(biāo)簽，這種做法將加速整個(gè)領(lǐng)域的發(fā)展。

展望未來，這項(xiàng)研究還指出了幾個(gè)值得探索的方向。量化技術(shù)的應(yīng)用被提到作為進(jìn)一步提升推理速度的正交方向，這可能使得Fast-FoundationStereo能夠在更加資源受限的邊緣設(shè)備上運(yùn)行。多模態(tài)融合也是一個(gè)有趣的方向，將立體視覺與其他傳感器信息結(jié)合可能會(huì)帶來更強(qiáng)大的環(huán)境感知能力。

說到底，F(xiàn)ast-FoundationStereo的成功證明了一個(gè)簡單而深刻的道理：真正的技術(shù)突破往往來自于對(duì)問題本質(zhì)的深入理解和創(chuàng)新思維的巧妙運(yùn)用。研究團(tuán)隊(duì)沒有選擇簡單的取舍，而是通過精巧的設(shè)計(jì)實(shí)現(xiàn)了看似不可能的平衡。這種"既要又要"的追求精神，正是推動(dòng)科技進(jìn)步的重要驅(qū)動(dòng)力。

對(duì)于普通人來說，這項(xiàng)研究的意義在于它讓我們離一個(gè)更智能、更便利的世界又近了一步。當(dāng)自動(dòng)駕駛汽車能夠更準(zhǔn)確地感知周圍環(huán)境時(shí)，我們的出行會(huì)更安全。當(dāng)AR眼鏡能夠?qū)崟r(shí)理解三維空間時(shí)，我們的工作和娛樂體驗(yàn)會(huì)更豐富。當(dāng)服務(wù)機(jī)器人能夠更好地理解空間關(guān)系時(shí)，它們就能更好地融入我們的日常生活。

這項(xiàng)由NVIDIA團(tuán)隊(duì)完成的研究，不僅在技術(shù)上實(shí)現(xiàn)了重要突破，更在理念上為整個(gè)人工智能領(lǐng)域提供了寶貴的啟示：真正的創(chuàng)新不是非此即彼的選擇，而是在看似矛盾的需求中找到巧妙的平衡點(diǎn)。

Q&A

Q1：Fast-FoundationStereo相比傳統(tǒng)立體視覺系統(tǒng)有什么優(yōu)勢？

A：Fast-FoundationStereo最大的優(yōu)勢是實(shí)現(xiàn)了速度和精度的完美平衡。傳統(tǒng)系統(tǒng)要么精確但慢（如FoundationStereo需要496毫秒），要么快但不夠準(zhǔn)確。而Fast-FoundationStereo只需49毫秒就能達(dá)到接近甚至超越慢速系統(tǒng)的精度，實(shí)現(xiàn)了超過10倍的速度提升，同時(shí)在多個(gè)權(quán)威測試集上都遠(yuǎn)超其他實(shí)時(shí)方法。

Q2：分而治之的加速策略是如何工作的？

A：這個(gè)策略將立體視覺系統(tǒng)分解為三個(gè)核心組件分別優(yōu)化：特征提取部分使用知識(shí)蒸餾將雙模塊壓縮為單模塊；成本過濾部分采用分塊神經(jīng)架構(gòu)搜索自動(dòng)發(fā)現(xiàn)最優(yōu)組合；視差細(xì)化部分使用結(jié)構(gòu)化剪枝消除冗余。每個(gè)組件都針對(duì)其特點(diǎn)采用最適合的優(yōu)化方法，避免了簡單粗暴的整體優(yōu)化。

Q3：自動(dòng)偽標(biāo)注技術(shù)能保證數(shù)據(jù)質(zhì)量嗎？

A：能夠保證。研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的質(zhì)量控制流程：首先讓立體視覺模型和單目深度模型分別對(duì)同一圖像給出預(yù)測，然后將兩個(gè)結(jié)果轉(zhuǎn)換為法向量圖進(jìn)行幾何一致性比較，只有通過一致性檢驗(yàn)的圖像對(duì)才會(huì)被保留。這種方法比直接比較深度值更可靠，最終從大量數(shù)據(jù)中精選出140萬對(duì)高質(zhì)量的真實(shí)世界立體圖像。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.