国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NVIDIA團(tuán)隊(duì)讓立體視覺AI實(shí)現(xiàn)"真正"實(shí)時(shí)運(yùn)行:速度提升10倍

0
分享至


這項(xiàng)由NVIDIA公司的Bowen Wen、Shaurya Dewan和Stan Birchfield共同完成的研究發(fā)表于2025年12月的arXiv預(yù)印本服務(wù)器,論文編號(hào)為arXiv:2512.11130v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

在人工智能的世界里,有一項(xiàng)技術(shù)就像人類的雙眼一樣重要——立體視覺匹配。當(dāng)我們用雙眼看世界時(shí),大腦會(huì)自動(dòng)計(jì)算出物體的距離和深度,這個(gè)過程看似簡單,但在AI領(lǐng)域卻是個(gè)巨大的挑戰(zhàn)。傳統(tǒng)的AI立體視覺系統(tǒng)面臨著一個(gè)讓人頭疼的兩難選擇:要么精確但慢得像蝸牛,要么快但準(zhǔn)確性堪憂。

NVIDIA的研究團(tuán)隊(duì)就像是解決這個(gè)難題的"建筑師",他們開發(fā)出了一套名為Fast-FoundationStereo的新系統(tǒng)。這個(gè)系統(tǒng)的神奇之處在于,它能夠在保持高精度的同時(shí),將處理速度提升整整10倍,真正實(shí)現(xiàn)了"魚和熊掌兼得"。

這項(xiàng)突破性研究的意義遠(yuǎn)超技術(shù)本身。想象一下自動(dòng)駕駛汽車需要在瞬間判斷前方物體的距離,或者增強(qiáng)現(xiàn)實(shí)設(shè)備需要實(shí)時(shí)理解周圍環(huán)境的三維結(jié)構(gòu)。在這些應(yīng)用場景中,既要快速又要準(zhǔn)確的立體視覺就顯得至關(guān)重要。過去,研究人員不得不在速度和精度之間做出艱難選擇,但這項(xiàng)研究徹底改變了游戲規(guī)則。

研究團(tuán)隊(duì)采用了一種"分而治之"的策略,就像拆解一個(gè)復(fù)雜機(jī)器,然后對(duì)每個(gè)部件進(jìn)行專門的優(yōu)化。他們將整個(gè)立體視覺系統(tǒng)分解為三個(gè)核心組件:特征提取、成本過濾和視差細(xì)化,然后針對(duì)每個(gè)組件的特點(diǎn)制定了不同的加速方案。

更令人興奮的是,他們還構(gòu)建了一個(gè)包含140萬對(duì)真實(shí)世界立體圖像的數(shù)據(jù)集,這些圖像都通過自動(dòng)化的偽標(biāo)注流程進(jìn)行了處理。這就像為AI提供了更豐富、更真實(shí)的"教材",讓它能夠更好地理解真實(shí)世界中的復(fù)雜場景。

一、立體視覺的現(xiàn)實(shí)困境:速度與精度的永恒博弈

立體視覺匹配技術(shù)的發(fā)展歷程就像一場馬拉松比賽,已經(jīng)持續(xù)了整整50年。在這個(gè)漫長的征程中,研究人員們就像兩支不同的隊(duì)伍,朝著截然不同的方向奔跑。

第一支隊(duì)伍專注于追求極致的精度和泛化能力。這些研究者就像藝術(shù)家一樣,不惜代價(jià)地打造出能夠"零樣本泛化"的模型。所謂零樣本泛化,就是AI系統(tǒng)能夠像人類一樣,在從未見過的新環(huán)境中依然表現(xiàn)出色。這類系統(tǒng)通常借助強(qiáng)大的視覺基礎(chǔ)模型,比如DepthAnythingV2或DINO模型,這些模型就像擁有豐富閱歷的老師,為立體視覺系統(tǒng)提供深厚的先驗(yàn)知識(shí)。

然而,這種追求完美的代價(jià)是巨大的計(jì)算開銷。這些系統(tǒng)運(yùn)行起來就像駕駛一輛裝滿高科技設(shè)備的坦克——功能強(qiáng)大但行動(dòng)緩慢。它們往往采用復(fù)雜的Transformer架構(gòu)來執(zhí)行自注意力機(jī)制,處理長距離的上下文信息,這個(gè)過程消耗的計(jì)算資源就像燃燒金錢一樣昂貴。

另一支隊(duì)伍則走向了完全相反的道路,他們專注于實(shí)時(shí)性能。這些研究者就像賽車設(shè)計(jì)師,竭盡全力減輕系統(tǒng)重量,提升運(yùn)行速度。他們的解決方案通常采用輕量級(jí)的骨干網(wǎng)絡(luò)、二維卷積層和局部迭代細(xì)化模塊,整個(gè)系統(tǒng)就像一輛精簡的跑車,能夠達(dá)到令人印象深刻的幀率。

但這種速度的提升是以犧牲泛化能力為代價(jià)的。這些快速系統(tǒng)就像只在特定賽道上訓(xùn)練的賽車手,一旦離開熟悉的環(huán)境就會(huì)表現(xiàn)失常。它們通常需要針對(duì)特定領(lǐng)域進(jìn)行微調(diào),無法像基礎(chǔ)模型那樣處理各種復(fù)雜的真實(shí)世界場景。更令人頭疼的是,獲取高質(zhì)量的稠密深度標(biāo)注數(shù)據(jù)就像尋找珍稀寶石一樣困難且昂貴,這進(jìn)一步限制了這些高效方法在通用環(huán)境中的應(yīng)用。

這種兩極分化的現(xiàn)狀就像一道無法跨越的鴻溝,將立體視覺研究分割成了兩個(gè)互不相容的陣營。實(shí)際應(yīng)用中的開發(fā)者們往往陷入進(jìn)退兩難的境地:選擇精確但緩慢的系統(tǒng)意味著無法滿足實(shí)時(shí)應(yīng)用的需求,而選擇快速但不夠魯棒的系統(tǒng)又可能在復(fù)雜的真實(shí)環(huán)境中出現(xiàn)嚴(yán)重的性能下降。

二、分而治之的智慧:三管齊下的加速策略

NVIDIA研究團(tuán)隊(duì)的解決方案就像一個(gè)精明的指揮官,面對(duì)復(fù)雜的戰(zhàn)場不是蠻力沖鋒,而是將任務(wù)分解成多個(gè)可管理的小目標(biāo),然后逐一擊破。他們將FoundationStereo這個(gè)強(qiáng)大但笨重的系統(tǒng)比作一臺(tái)復(fù)雜的機(jī)器,然后對(duì)其三個(gè)核心組件進(jìn)行了針對(duì)性的改造。

在特征提取這個(gè)環(huán)節(jié),原始的FoundationStereo就像配備了兩個(gè)不同引擎的混合動(dòng)力車。一個(gè)是DepthAnythingV2引擎,專門提供豐富的單目先驗(yàn)知識(shí),就像一個(gè)經(jīng)驗(yàn)豐富的老司機(jī);另一個(gè)是側(cè)調(diào)CNN引擎,負(fù)責(zé)將單目特征適配到雙目立體設(shè)置中,就像一個(gè)專業(yè)的導(dǎo)航系統(tǒng)。雖然這種雙引擎設(shè)計(jì)功能強(qiáng)大,但運(yùn)行起來就像同時(shí)開啟兩臺(tái)耗能設(shè)備,計(jì)算開銷巨大。

研究團(tuán)隊(duì)采用了知識(shí)蒸餾技術(shù)來解決這個(gè)問題。知識(shí)蒸餾就像是讓一個(gè)優(yōu)秀的老師將自己畢生的經(jīng)驗(yàn)傳授給一個(gè)年輕但天賦異稟的學(xué)生。在這個(gè)過程中,原始的雙模塊系統(tǒng)充當(dāng)"老師"的角色,生成多層級(jí)的特征金字塔作為"教材",而新的單一學(xué)生模塊則通過最小化均方誤差損失來"學(xué)習(xí)"這些知識(shí)。

為了提供不同速度和精度權(quán)衡的選擇,研究團(tuán)隊(duì)訓(xùn)練了多個(gè)不同架構(gòu)的學(xué)生模型變體。這就像制造不同排量的汽車引擎,用戶可以根據(jù)自己的需求選擇合適的版本。通過這種方式,他們成功地將雙模塊的復(fù)雜性壓縮到了單一的高效模塊中,同時(shí)保持了原有的豐富先驗(yàn)知識(shí)。

在成本過濾環(huán)節(jié),挑戰(zhàn)變得更加復(fù)雜。原始系統(tǒng)采用了雙分支架構(gòu):一個(gè)是包含軸向-平面卷積層的三維沙漏架構(gòu),另一個(gè)是將成本體積標(biāo)記化并執(zhí)行多頭自注意力的視差Transformer分支。直接對(duì)這些模塊進(jìn)行剪枝就像用鈍刀切肉,效果微乎其微,因?yàn)槌杀倔w積的通道維度本身就很小。

研究團(tuán)隊(duì)選擇了神經(jīng)架構(gòu)搜索這一更加智能的方法。他們將成本過濾模塊分解成一系列操作塊,就像將一個(gè)復(fù)雜的生產(chǎn)線分解成多個(gè)工作站。每個(gè)工作站都有多種候選配置,包括不同的三維卷積層、三維反卷積層、軸向-平面卷積層、殘差連接的三維卷積層,以及特征引導(dǎo)的體積激發(fā)層。

最巧妙的是,他們采用了分塊蒸餾和評(píng)估的策略。與傳統(tǒng)的需要訓(xùn)練完整模型的搜索方法不同,他們讓每個(gè)候選塊獨(dú)立學(xué)習(xí)模仿對(duì)應(yīng)教師塊的輸出。這就像讓每個(gè)工作站的工人獨(dú)立練習(xí)技能,而不需要等待整條生產(chǎn)線組裝完成。這種方法將訓(xùn)練復(fù)雜度從指數(shù)級(jí)的O(n^N)降低到了線性的O(n),大大提高了搜索效率。

最后,他們使用整數(shù)線性規(guī)劃來解決最優(yōu)塊組合的選擇問題。這個(gè)過程就像解一個(gè)復(fù)雜的數(shù)學(xué)謎題,在給定的運(yùn)行時(shí)間預(yù)算約束下,尋找能夠最小化性能損失的塊組合。通過調(diào)整不同的時(shí)間預(yù)算,他們能夠生成一系列在速度和精度之間取得不同平衡的模型變體。

在視差細(xì)化這個(gè)最后環(huán)節(jié),原始的ConvGRU模塊存在大量的循環(huán)依賴關(guān)系。研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)循環(huán)依賴圖來識(shí)別層間的相互依賴關(guān)系,就像繪制一張復(fù)雜的地鐵線路圖。然后,他們?cè)谶@個(gè)圖的指導(dǎo)下,使用結(jié)構(gòu)化剪枝技術(shù)來消除冗余。

剪枝過程使用一階泰勒展開來評(píng)估參數(shù)的重要性,就像用顯微鏡檢查每個(gè)零件的作用。那些重要性最低的參數(shù)會(huì)被移除,但關(guān)鍵的是,那些預(yù)測視差圖和卷積上采樣掩碼的最終層會(huì)保持固定的輸出通道維度,確保系統(tǒng)的核心功能不受影響。剪枝之后,系統(tǒng)會(huì)進(jìn)行端到端的重新訓(xùn)練來恢復(fù)性能,整個(gè)過程就像給一臺(tái)精密機(jī)器進(jìn)行減重手術(shù)后的康復(fù)訓(xùn)練。

三、真實(shí)世界的智慧:自動(dòng)化偽標(biāo)注的創(chuàng)新

獲取高質(zhì)量的真實(shí)世界立體圖像標(biāo)注數(shù)據(jù)一直是這個(gè)領(lǐng)域的老大難問題,就像在沙漠中尋找綠洲一樣稀少珍貴。傳統(tǒng)的方法往往依賴于合成數(shù)據(jù)集,但這些數(shù)據(jù)就像溫室里的花朵,雖然整齊美觀,卻缺乏真實(shí)世界的復(fù)雜性和多樣性。

NVIDIA研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的自動(dòng)化偽標(biāo)注流水線,就像建造了一條智能的生產(chǎn)線。這條生產(chǎn)線的原材料是來自Stereo4D數(shù)據(jù)集的真實(shí)立體圖像對(duì),這些圖像包含了互聯(lián)網(wǎng)上豐富多樣的真實(shí)場景,從繁忙的街道到寧靜的鄉(xiāng)村,從室內(nèi)環(huán)境到戶外風(fēng)景。

整個(gè)偽標(biāo)注過程就像一個(gè)細(xì)致的質(zhì)量檢驗(yàn)員在工作。首先,教師模型FoundationStereo會(huì)對(duì)左圖像生成視差圖,這就像一個(gè)有經(jīng)驗(yàn)的專家給出初步判斷。與此同時(shí),單目深度估計(jì)器會(huì)對(duì)同一圖像生成對(duì)應(yīng)的深度圖,這就像第二個(gè)專家從不同角度給出意見。

關(guān)鍵的創(chuàng)新在于幾何一致性檢查。研究團(tuán)隊(duì)將視差圖和深度圖都轉(zhuǎn)換成法向量圖,這個(gè)過程就像將兩張不同格式的地圖轉(zhuǎn)換成相同的坐標(biāo)系統(tǒng)。他們使用相同的相機(jī)參數(shù)進(jìn)行三維反投影,然后使用Sobel算子計(jì)算法向量,最后通過計(jì)算兩個(gè)法向量圖之間的逐像素余弦相似度來評(píng)估幾何一致性。

這種法向量比較的方法比直接在深度或視差空間中進(jìn)行比較更加魯棒,就像通過比較建筑物的結(jié)構(gòu)特征而不是顏色來判斷兩張照片是否拍攝的是同一棟建筑。這種方法特別適合處理真實(shí)世界圖像中極其多樣的深度范圍和可能存在的噪聲預(yù)測。

研究團(tuán)隊(duì)還特別考慮了天空區(qū)域的特殊性。天空在立體視覺中是個(gè)特殊的存在,因?yàn)樗纳疃仁菬o限的,而且在常見的合成訓(xùn)練數(shù)據(jù)集中往往被低估。他們使用開放詞匯分割模型來自動(dòng)檢測天空區(qū)域,在相似度計(jì)算中排除這些區(qū)域,最終將天空的視差值設(shè)置為零。

通過這套精心設(shè)計(jì)的流水線,研究團(tuán)隊(duì)從大量的互聯(lián)網(wǎng)立體視頻中篩選出了140萬對(duì)高質(zhì)量的立體圖像對(duì)。這個(gè)過程就像從海灘上的無數(shù)沙粒中精選出珍貴的珍珠,每一對(duì)圖像都經(jīng)過了嚴(yán)格的質(zhì)量檢驗(yàn)。這些自動(dòng)標(biāo)注的數(shù)據(jù)補(bǔ)充了合成訓(xùn)練數(shù)據(jù),為知識(shí)蒸餾過程提供了更加豐富和真實(shí)的訓(xùn)練素材。

更重要的是,這種輸出空間的蒸餾與之前步驟中的特征空間蒸餾形成了互補(bǔ),就像從不同角度加固一座建筑的基礎(chǔ)。特征空間蒸餾確保了學(xué)生模型能夠?qū)W習(xí)到教師模型的內(nèi)在表示能力,而輸出空間蒸餾則確保了學(xué)生模型能夠在真實(shí)世界的復(fù)雜場景中產(chǎn)生可靠的預(yù)測結(jié)果。

四、令人矚目的成果:性能與效率的完美平衡

當(dāng)研究團(tuán)隊(duì)將他們的Fast-FoundationStereo系統(tǒng)投入到真實(shí)世界的測試中時(shí),結(jié)果令人刮目相看。在多個(gè)公認(rèn)的基準(zhǔn)數(shù)據(jù)集上,這個(gè)系統(tǒng)就像一個(gè)全能型運(yùn)動(dòng)員,不僅在速度項(xiàng)目上遙遙領(lǐng)先,在精度項(xiàng)目上也表現(xiàn)出色。

在Middlebury、ETH3D、KITTI 2012和KITTI 2015這些權(quán)威測試集上,F(xiàn)ast-FoundationStereo顯示出了壓倒性的優(yōu)勢。與其他實(shí)時(shí)方法相比,它的表現(xiàn)就像專業(yè)選手對(duì)戰(zhàn)業(yè)余愛好者一樣懸殊。即使是那些在相同數(shù)據(jù)集上訓(xùn)練過的競爭對(duì)手,包括研究團(tuán)隊(duì)提供的偽標(biāo)注數(shù)據(jù),也無法達(dá)到Fast-FoundationStereo的水平。

更令人印象深刻的是,這個(gè)系統(tǒng)在某些情況下甚至超越了那些計(jì)算密集型的慢速模型。在處理一些特殊場景時(shí),比如反光的門表面或者半透明的紙巾盒,F(xiàn)ast-FoundationStereo的表現(xiàn)甚至比FoundationStereo和MonSter這樣的重量級(jí)選手更加出色。這就像一個(gè)輕量級(jí)拳手偶爾能夠擊敗重量級(jí)冠軍一樣令人驚訝。

在處理非朗伯表面(即那些不遵循理想反射定律的表面,如鏡面、透明物體等)時(shí),F(xiàn)ast-FoundationStereo同樣表現(xiàn)出了強(qiáng)大的魯棒性。在Booster數(shù)據(jù)集上的測試結(jié)果顯示,它不僅遠(yuǎn)遠(yuǎn)超過了其他實(shí)時(shí)方法,甚至能夠與那些專門針對(duì)復(fù)雜表面設(shè)計(jì)的計(jì)算密集型模型相提并論。

運(yùn)行時(shí)間的對(duì)比更是讓人印象深刻。在相同的硬件平臺(tái)(NVIDIA 3090 GPU)上,F(xiàn)ast-FoundationStereo的運(yùn)行時(shí)間僅為49毫秒,而如果使用TensorRT進(jìn)行進(jìn)一步優(yōu)化,這個(gè)時(shí)間可以壓縮到21毫秒。相比之下,原始的FoundationStereo需要496毫秒,這意味著Fast-FoundationStereo實(shí)現(xiàn)了超過10倍的速度提升。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證每個(gè)組件的貢獻(xiàn)。特征骨干的知識(shí)蒸餾顯著提升了零樣本泛化性能,特別是在處理半透明玻璃門等挑戰(zhàn)性場景時(shí)效果尤為明顯。成本過濾的分塊搜索策略不僅大大降低了搜索復(fù)雜度,還能夠在不同的延遲預(yù)算約束下自動(dòng)發(fā)現(xiàn)最優(yōu)的架構(gòu)組合。視差細(xì)化模塊的結(jié)構(gòu)化剪枝則展現(xiàn)了原始模塊中存在的大量冗余,通過剪枝和重新訓(xùn)練能夠在幾乎不影響精度的情況下顯著提升速度。

偽標(biāo)注數(shù)據(jù)的效果同樣令人鼓舞。不僅Fast-FoundationStereo從中受益,其他實(shí)時(shí)方法如RT-IGEV和LightStereo-L在使用這些數(shù)據(jù)訓(xùn)練后也獲得了顯著的性能提升。這表明研究團(tuán)隊(duì)提出的自動(dòng)化偽標(biāo)注流水線具有廣泛的適用性,可以為整個(gè)立體視覺社區(qū)提供價(jià)值。

運(yùn)行時(shí)間的詳細(xì)分析顯示,三個(gè)核心組件都得到了大幅度的加速。特征提取、成本過濾和視差細(xì)化的處理時(shí)間都比原始版本顯著減少,這種全方位的優(yōu)化確保了系統(tǒng)的整體性能提升。

五、技術(shù)突破的深層價(jià)值與未來展望

Fast-FoundationStereo的成功不僅僅是一個(gè)技術(shù)指標(biāo)的提升,它代表了立體視覺領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。這項(xiàng)研究就像在兩座孤島之間建起了一座橋梁,將追求極致精度的基礎(chǔ)模型陣營和注重實(shí)時(shí)性能的高效算法陣營連接起來。

從技術(shù)層面來看,這項(xiàng)研究證明了一個(gè)重要的理念:通過智能的系統(tǒng)設(shè)計(jì),我們可以在不犧牲核心能力的前提下實(shí)現(xiàn)大幅度的性能優(yōu)化。分而治之的策略展現(xiàn)了工程優(yōu)化的精髓——識(shí)別系統(tǒng)瓶頸,針對(duì)性地解決問題,而不是簡單的暴力優(yōu)化。知識(shí)蒸餾技術(shù)的成功應(yīng)用表明,深度學(xué)習(xí)模型中蘊(yùn)含的知識(shí)是可以被有效轉(zhuǎn)移的,這為未來的模型壓縮和加速研究開辟了新的思路。

神經(jīng)架構(gòu)搜索在成本過濾模塊上的創(chuàng)新應(yīng)用特別值得關(guān)注。傳統(tǒng)的架構(gòu)搜索往往需要消耗巨大的計(jì)算資源,而分塊蒸餾和組合優(yōu)化的方法將搜索復(fù)雜度從指數(shù)級(jí)降低到線性級(jí),這種效率的提升為自動(dòng)化神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)在更廣泛領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。

自動(dòng)化偽標(biāo)注流水線的成功也具有深遠(yuǎn)的意義。在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)的獲取往往是最大的瓶頸,特別是需要精確標(biāo)注的視覺任務(wù)。這項(xiàng)研究展示了如何巧妙地利用多種互補(bǔ)的信息源來生成高質(zhì)量的訓(xùn)練數(shù)據(jù),這種方法論可以推廣到其他需要大量標(biāo)注數(shù)據(jù)的任務(wù)中。

從應(yīng)用角度來看,F(xiàn)ast-FoundationStereo為實(shí)時(shí)立體視覺應(yīng)用打開了新的可能性。自動(dòng)駕駛汽車可以獲得更準(zhǔn)確的深度感知能力,同時(shí)滿足實(shí)時(shí)決策的嚴(yán)格時(shí)間要求。增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)設(shè)備可以提供更真實(shí)的環(huán)境理解,而不需要昂貴的專用硬件。機(jī)器人系統(tǒng)可以在復(fù)雜的真實(shí)環(huán)境中進(jìn)行更精確的空間定位和物體操作。

這項(xiàng)研究也為學(xué)術(shù)界提供了寶貴的經(jīng)驗(yàn)。它展示了如何在追求學(xué)術(shù)創(chuàng)新的同時(shí)兼顧工程實(shí)用性,如何通過系統(tǒng)性的方法解決復(fù)雜的多目標(biāo)優(yōu)化問題。更重要的是,它證明了開放的研究態(tài)度和數(shù)據(jù)分享對(duì)整個(gè)社區(qū)發(fā)展的重要性——研究團(tuán)隊(duì)承諾將開源代碼、模型和偽標(biāo)簽,這種做法將加速整個(gè)領(lǐng)域的發(fā)展。

展望未來,這項(xiàng)研究還指出了幾個(gè)值得探索的方向。量化技術(shù)的應(yīng)用被提到作為進(jìn)一步提升推理速度的正交方向,這可能使得Fast-FoundationStereo能夠在更加資源受限的邊緣設(shè)備上運(yùn)行。多模態(tài)融合也是一個(gè)有趣的方向,將立體視覺與其他傳感器信息結(jié)合可能會(huì)帶來更強(qiáng)大的環(huán)境感知能力。

說到底,F(xiàn)ast-FoundationStereo的成功證明了一個(gè)簡單而深刻的道理:真正的技術(shù)突破往往來自于對(duì)問題本質(zhì)的深入理解和創(chuàng)新思維的巧妙運(yùn)用。研究團(tuán)隊(duì)沒有選擇簡單的取舍,而是通過精巧的設(shè)計(jì)實(shí)現(xiàn)了看似不可能的平衡。這種"既要又要"的追求精神,正是推動(dòng)科技進(jìn)步的重要驅(qū)動(dòng)力。

對(duì)于普通人來說,這項(xiàng)研究的意義在于它讓我們離一個(gè)更智能、更便利的世界又近了一步。當(dāng)自動(dòng)駕駛汽車能夠更準(zhǔn)確地感知周圍環(huán)境時(shí),我們的出行會(huì)更安全。當(dāng)AR眼鏡能夠?qū)崟r(shí)理解三維空間時(shí),我們的工作和娛樂體驗(yàn)會(huì)更豐富。當(dāng)服務(wù)機(jī)器人能夠更好地理解空間關(guān)系時(shí),它們就能更好地融入我們的日常生活。

這項(xiàng)由NVIDIA團(tuán)隊(duì)完成的研究,不僅在技術(shù)上實(shí)現(xiàn)了重要突破,更在理念上為整個(gè)人工智能領(lǐng)域提供了寶貴的啟示:真正的創(chuàng)新不是非此即彼的選擇,而是在看似矛盾的需求中找到巧妙的平衡點(diǎn)。

Q&A

Q1:Fast-FoundationStereo相比傳統(tǒng)立體視覺系統(tǒng)有什么優(yōu)勢?

A:Fast-FoundationStereo最大的優(yōu)勢是實(shí)現(xiàn)了速度和精度的完美平衡。傳統(tǒng)系統(tǒng)要么精確但慢(如FoundationStereo需要496毫秒),要么快但不夠準(zhǔn)確。而Fast-FoundationStereo只需49毫秒就能達(dá)到接近甚至超越慢速系統(tǒng)的精度,實(shí)現(xiàn)了超過10倍的速度提升,同時(shí)在多個(gè)權(quán)威測試集上都遠(yuǎn)超其他實(shí)時(shí)方法。

Q2:分而治之的加速策略是如何工作的?

A:這個(gè)策略將立體視覺系統(tǒng)分解為三個(gè)核心組件分別優(yōu)化:特征提取部分使用知識(shí)蒸餾將雙模塊壓縮為單模塊;成本過濾部分采用分塊神經(jīng)架構(gòu)搜索自動(dòng)發(fā)現(xiàn)最優(yōu)組合;視差細(xì)化部分使用結(jié)構(gòu)化剪枝消除冗余。每個(gè)組件都針對(duì)其特點(diǎn)采用最適合的優(yōu)化方法,避免了簡單粗暴的整體優(yōu)化。

Q3:自動(dòng)偽標(biāo)注技術(shù)能保證數(shù)據(jù)質(zhì)量嗎?

A:能夠保證。研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的質(zhì)量控制流程:首先讓立體視覺模型和單目深度模型分別對(duì)同一圖像給出預(yù)測,然后將兩個(gè)結(jié)果轉(zhuǎn)換為法向量圖進(jìn)行幾何一致性比較,只有通過一致性檢驗(yàn)的圖像對(duì)才會(huì)被保留。這種方法比直接比較深度值更可靠,最終從大量數(shù)據(jù)中精選出140萬對(duì)高質(zhì)量的真實(shí)世界立體圖像。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
DeepSeek 要發(fā)大招了,梁文鋒署名新論文!暴力優(yōu)化AI架構(gòu)

DeepSeek 要發(fā)大招了,梁文鋒署名新論文!暴力優(yōu)化AI架構(gòu)

新智元
2026-01-01 18:32:23
小S發(fā)跨年照紀(jì)念大S,對(duì)比去年的跨年照不止少了一個(gè)人

小S發(fā)跨年照紀(jì)念大S,對(duì)比去年的跨年照不止少了一個(gè)人

并不擅長圈粉的鐵任
2026-01-01 17:57:04
用黑熊和獅子處理尸體?泰國陸戰(zhàn)隊(duì)攻入柬埔寨賭場后,網(wǎng)友不淡定

用黑熊和獅子處理尸體?泰國陸戰(zhàn)隊(duì)攻入柬埔寨賭場后,網(wǎng)友不淡定

華人星光
2025-12-30 11:50:42
蔣介石晚年評(píng)價(jià)朱德:他最大的本事,就是讓人永遠(yuǎn)看不出他的本事

蔣介石晚年評(píng)價(jià)朱德:他最大的本事,就是讓人永遠(yuǎn)看不出他的本事

史之銘
2025-12-31 03:37:21
“天安門墻體畫”讓河南吳營村爆火:新年第一天進(jìn)村車輛排長隊(duì),游客排隊(duì)半小時(shí)才看到“天安門”,不少老人來此圓夢(mèng)

“天安門墻體畫”讓河南吳營村爆火:新年第一天進(jìn)村車輛排長隊(duì),游客排隊(duì)半小時(shí)才看到“天安門”,不少老人來此圓夢(mèng)

極目新聞
2026-01-01 18:17:17
39歲的魯能功勛門神決定提前退役!老東家官宣確認(rèn),將進(jìn)管理層

39歲的魯能功勛門神決定提前退役!老東家官宣確認(rèn),將進(jìn)管理層

安海客
2026-01-01 17:05:12
白嫖攝影師后續(xù):單位傳開已社死,朋友曝更多,白嫖只是冰山一角

白嫖攝影師后續(xù):單位傳開已社死,朋友曝更多,白嫖只是冰山一角

快樂彼岸
2026-01-01 17:43:54
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

八斗小先生
2025-12-26 09:33:27
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
蔡磊,悟空|面孔

蔡磊,悟空|面孔

大象新聞
2025-11-24 09:50:11
李現(xiàn)被曝與李一桐戀情!楊紫劉亦菲都錯(cuò)了,這才是他的真命天女

李現(xiàn)被曝與李一桐戀情!楊紫劉亦菲都錯(cuò)了,這才是他的真命天女

黃小仙的搞笑視頻
2025-12-10 16:50:52
確認(rèn)了,是江蘇籍女演員白鹿

確認(rèn)了,是江蘇籍女演員白鹿

最江陰
2025-12-30 15:10:28
廣東狂輸31分揪出最大毒瘤!三節(jié)運(yùn)動(dòng)戰(zhàn)0分+罰球不中,在場輸36分

廣東狂輸31分揪出最大毒瘤!三節(jié)運(yùn)動(dòng)戰(zhàn)0分+罰球不中,在場輸36分

南海浪花
2026-01-01 22:10:43
兩次拒絕黎明,無視鐘漢良示愛,被折磨20年后55歲的她憔悴成大媽

兩次拒絕黎明,無視鐘漢良示愛,被折磨20年后55歲的她憔悴成大媽

輝哥愛生活
2025-12-31 22:49:50
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
U23國足0-1伊朗!頭球自擺烏龍 1勝1負(fù)結(jié)束熱身7天后亞洲杯首戰(zhàn)

U23國足0-1伊朗!頭球自擺烏龍 1勝1負(fù)結(jié)束熱身7天后亞洲杯首戰(zhàn)

我愛英超
2026-01-01 22:59:28
姜昆不忍了。公開回應(yīng)美國豪宅過圣誕真相,暴露一個(gè)小圈子的惡俗

姜昆不忍了。公開回應(yīng)美國豪宅過圣誕真相,暴露一個(gè)小圈子的惡俗

好叫好伐
2026-01-01 21:31:08
輸給拜仁,穆里尼奧和助教抱頭痛哭

輸給拜仁,穆里尼奧和助教抱頭痛哭

體壇周報(bào)
2026-01-01 13:07:10
被停職審查、轉(zhuǎn)移格力資產(chǎn)、搞辦公室戀情,董明珠身上謠言太離譜

被停職審查、轉(zhuǎn)移格力資產(chǎn)、搞辦公室戀情,董明珠身上謠言太離譜

星星沒有你亮
2025-12-30 20:57:58
2026-01-02 03:36:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

瑞士酒吧新年爆炸致百余死傷 有人嚴(yán)重?zé)齻y以辨認(rèn)

頭條要聞

瑞士酒吧新年爆炸致百余死傷 有人嚴(yán)重?zé)齻y以辨認(rèn)

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤被網(wǎng)友喊話

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
親子
數(shù)碼
旅游

藝術(shù)要聞

你絕對(duì)想不到,這位東方畫家竟將印象派推向巔峰!

房產(chǎn)要聞

實(shí)景暴擊!??谶@個(gè)頂流紅盤,拋出準(zhǔn)現(xiàn)房+頂級(jí)書包雙王炸!

親子要聞

產(chǎn)檢全免費(fèi),通過減負(fù)促進(jìn)生育健康

數(shù)碼要聞

REDMI Note 15系列新春版圖賞:999元起 新增車?yán)遄蛹t配色

旅游要聞

自貢非遺花燈點(diǎn)亮江南夜!2026無錫梅里古鎮(zhèn)新年燈會(huì)璀璨啟幕

無障礙瀏覽 進(jìn)入關(guān)懷版