国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙江大學(xué)研究員彭思達(dá):底層空間感知技術(shù)對訓(xùn)練機(jī)器人有何作用?|GAIR 2025

0
分享至


可將人類視作一種特殊形態(tài)的機(jī)器人,獲取其行為數(shù)據(jù)可用于訓(xùn)練人形機(jī)器人。

作者丨張進(jìn)

編輯丨林覺民


在“世界模型”分論壇上,浙江大學(xué)研究員彭思達(dá)帶來了《面向具身智能的通用空間感知技術(shù)》的主題演講,介紹了其團(tuán)隊近期在賦予機(jī)器人通用感知能力方面的多項工作。彭思達(dá)是浙江大學(xué)軟件學(xué)院“百人計劃”研究員、博士生導(dǎo)師,研究方向為三維計算機(jī)視覺和計算機(jī)圖形學(xué)。

團(tuán)隊主要聚焦于賦予機(jī)器人三項基礎(chǔ)能力:一是相機(jī)定位(Camera Pose Estimation),即讓機(jī)器人知道自己在空間中的位置;二是深度估計(Depth Estimation),使機(jī)器人了解場景中各物體與自身的距離;三是物體運動估計(Object Motion Estimation),讓機(jī)器人感知世界的運動狀態(tài)。

這些底層空間感知技術(shù)有何作用?首先,它們能為機(jī)器人提供關(guān)鍵的決策信息。例如,無人機(jī)在空間中需要先知道自身位置、與場景目標(biāo)的距離,才能實現(xiàn)基礎(chǔ)避障;進(jìn)而還需了解目標(biāo)物體的運動情況,才能進(jìn)行追蹤?;趶膱鼍爸蝎@取的三維空間信息,機(jī)器人的行為規(guī)劃便能得到有力支持。

其次,這些技術(shù)可用于生成訓(xùn)練數(shù)據(jù)。當(dāng)前具身智能領(lǐng)域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù),但遙操數(shù)據(jù)雖好卻難以規(guī)?;瘮U(kuò)展,而仿真技術(shù)目前仍與真實世界存在較大差距。

彭思達(dá)提出,其實可將人類視作一種特殊形態(tài)的機(jī)器人——具備完整的身體結(jié)構(gòu)與行為模式。若能發(fā)明一種數(shù)據(jù)采集設(shè)備,將人類日常行為完整記錄下來,就相當(dāng)于獲取了機(jī)器人所需的行為數(shù)據(jù),從而可用于訓(xùn)練人形機(jī)器人。這其中便涉及相機(jī)定位、深度估計與物體運動估計等技術(shù)。

01

相機(jī)定位

相機(jī)定位方面,最傳統(tǒng)經(jīng)典的方法是Colmap。該方法從圖像中提取特征并進(jìn)行兩兩匹配,再通過增量式運動恢復(fù)結(jié)構(gòu)(SfM)得到相機(jī)位置。最終每張圖像對應(yīng)一個相機(jī)位置,并共同生成三維點云,形成經(jīng)典的三維重建流程。


然而,該流程目前面臨的挑戰(zhàn)在于圖像匹配。團(tuán)隊發(fā)現(xiàn),傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳,會影響后續(xù)相機(jī)位姿估計的準(zhǔn)確性。


針對這一問題,彭思達(dá)所在實驗室于2021年提出一種新方法:不再依賴傳統(tǒng)匹配方式,而是直接使用Transformer大模型進(jìn)行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區(qū)域也能實現(xiàn)良好的匹配。

但這個方法的問題是,多模態(tài)匹配很難,例如現(xiàn)實環(huán)境往往是黑夜白天交替、熱傳感跟可見光同時出現(xiàn),這種情況下兩兩無法匹配。所以我們要解決跨模態(tài)的問題,

去年團(tuán)隊針對此問題提出了新的工作叫 MatchAnything,核心思路是用大量來源的數(shù)據(jù),和多模態(tài)預(yù)訓(xùn)練框架去訓(xùn)練 LoFTR 模型,成功實現(xiàn)了實現(xiàn)了紅外和可見光、事件和可見光、CT 和 MR 的匹配。這其中其實是工程數(shù)據(jù)問題,彭思達(dá)團(tuán)隊整合了多種數(shù)據(jù)來源,一種是常見的多視角圖像,一種是大量的單目視頻。單目視頻要如何匹配?團(tuán)隊使用了成熟的光流算法,將其一個個拼接起來,得到一個長時序的匹配關(guān)系。第三種數(shù)據(jù)來源是通過圖像變換,例如將單張圖片用傳統(tǒng)的圖像變換給 warp,就形成了一個稠密匹配。

前三種都是在同一個模態(tài)下,進(jìn)一步增光匹配的數(shù)據(jù)訓(xùn)練來源,還有一種是做跨模態(tài)數(shù)據(jù)生成。團(tuán)隊通過對現(xiàn)有兩兩匹配中的一張圖片做跨域生成,比如將其變成熱傳感圖像、黑夜圖像、深度圖像,發(fā)現(xiàn)只做少量的三種模態(tài)就能實現(xiàn)任意跨模態(tài)能力。如此便可以實現(xiàn)即便衛(wèi)星圖像是夏天的,無人機(jī)在冬天工作也能匹配,以前是匹配不上的。

此外,跨模態(tài)數(shù)據(jù)生成還包括可見光跟雷達(dá)圖像,可見光跟矢量地圖,紅外跟可見光,匹配的情況增多,逐漸形成一個匹配的模型后,特別是應(yīng)用于遙感領(lǐng)域的無人機(jī)性能大大增強(qiáng),同時應(yīng)用于自動駕駛領(lǐng)域也出現(xiàn)了不錯的效果。


據(jù)下圖所示:相比之前的方法,MatchAnything 匹配的成功概率有很大的躍升。


但 MatchAnything 面臨一個問題,即沒法融入已有的 SfM 算法,因為 MatchAnything 或者 LoFTR 模型的輸出匹配因圖片對不同而不同,導(dǎo)致無法建立多視圖匹配,因此沒法直接用在 SfM 算法中。

彭思達(dá)表示這是一個大問題,導(dǎo)致 MatchAnything 無法直接用于相機(jī)定位,為此他們又提出一個新的解決思路 Detector-free Sf,即先基于 MatchAnything 重建一種粗糙的模型,再做模型優(yōu)化。

具體做法是給兩張圖片做無特征檢測的圖像匹配,因為無法很好地形成多視角匹配,首先要做量化匹配把多張圖片的匹配關(guān)系連接起來,再去跑傳統(tǒng)的 SFM 算法。但圖片匹配關(guān)系被量化后,準(zhǔn)確率降低,所以SFM 跑出來的結(jié)果不準(zhǔn)。因此需要迭代式去優(yōu)化。

迭代式優(yōu)化的具體流程是先優(yōu)化多視角匹配,再優(yōu)化三維模型,根據(jù)下圖所示,優(yōu)化后就能看到最右邊的三維模型有一個更精密的點云以及更精細(xì)的三維位姿。


以下展示了上述方法跟之前最好的方法相比的效果,出現(xiàn)稠密點云和相機(jī)位置后,就可以做表面幾何重建。


同時,Detector-free SfM 面臨的問題跟所有傳統(tǒng)方法一樣,重建速度太慢了,一個模型迭代式優(yōu)化可能需要幾十個小時甚至一天,以至于對于那些對時間比較敏感的重建任務(wù)不太好用。

為了解決速度的問題,彭思達(dá)團(tuán)隊進(jìn)而進(jìn)行了一項端到端的重建工作。已有的方法像 VGGT,這是今年 CVPR 的最佳論文,最大的突破是直接使用一個大型的大模型去回歸圖片的相機(jī)位置和深度,因為是網(wǎng)絡(luò)直出所以速度很快,比如一個場景傳統(tǒng)的相機(jī)位置估計方法可能需要十幾個小時,VGGT 只需要一兩秒,這是非常大的提升。


但 VGGT 最大的問題是沒法處理大規(guī)模場景,因為它是個大的網(wǎng)絡(luò),圖片越多網(wǎng)絡(luò)很容易就會爆顯存。處理上百張圖片勉強(qiáng)可以,但是 1000張肯定就不行了。

一個直觀的解決辦法將大場景進(jìn)行分段預(yù)測。如果沒辦法一次性處理太多圖片,可以把大場景進(jìn)行分段預(yù)測,分成很多 chunk,然后對每個 chunk 去估計相機(jī)位置。但這種情況下,由于每個 chunk 預(yù)測不夠精準(zhǔn),導(dǎo)致 chunk 之間難以拼接,兩兩連接效果并不好,最后會形成一個累積誤差,整個網(wǎng)絡(luò)會壞掉。

對此,彭思達(dá)團(tuán)隊提出了一個新方法 Scal3R,該方法受人類的全局視野啟發(fā)——人有全局視野的情況下,對局部場景的幾何預(yù)測也有更一致的預(yù)測,所以 Scal3R 致力于賦予 VGGT 對目標(biāo)場景的全局視野。

構(gòu)建全局視野的具體方法是使用網(wǎng)絡(luò)權(quán)重記錄每個 chunk 的內(nèi)容。具體實現(xiàn)的流程是先輸入 chunk 的一組圖片,直接更新到一個網(wǎng)絡(luò)權(quán)重里就能記錄這組 chunk 圖片內(nèi)容。在推理中如何實現(xiàn)呢?一個網(wǎng)絡(luò)模塊直接預(yù)測 KB,再拿這個 KB 去更新一個網(wǎng)絡(luò)權(quán)重,該網(wǎng)絡(luò)權(quán)重就記錄了該 chunk 的圖片內(nèi)容。

在線更新網(wǎng)絡(luò)權(quán)重作為場景的記憶,整個網(wǎng)絡(luò)就記錄了整個場景的記憶,有了記憶可以預(yù)測出每個 chunk 的顯性位置的點云,該點云也更具有全局一致性,因此拼接起來效果更好。


實驗結(jié)果如下:


跟其他方法相比的效果:



02

深度估計

深度估計是通用空間感知的關(guān)鍵組成部分。去年,彭思達(dá)團(tuán)隊在提升深度估計能力方面取得了三項進(jìn)展,其中之一是“Pixel-Perfect-Depth”思路。

具身智能需要深度估計,是因為準(zhǔn)確的深度信息能提升機(jī)器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在“飛點”問題:判別式模型(如Depth Anything)傾向于預(yù)測“折中值”以最小化損失,從而導(dǎo)致飛點;生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進(jìn)行壓縮,同樣會產(chǎn)生飛點。

團(tuán)隊從生成式模型出發(fā),提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進(jìn)行優(yōu)化,以避免VAE帶來的信息損失,使得像素空間擴(kuò)散避免了邊緣飛點。然而,沒有VAE后模型需要更全局的視野,因此他們將語言特征整合到DiT模型中,發(fā)現(xiàn)這能顯著增強(qiáng)模型深度估計能力。

根據(jù)下圖實驗結(jié)果顯示,Pixel-Perfect-Depth 方法能使模型達(dá)到很高的精細(xì)度估計,比如圖片中的葉子遠(yuǎn)處的線都能有很好的估計效果。


還能較好地解決了飛點問題:


Pixel-Perfect-Depth 方法還能拓展提升視頻深度估計能力。相對于單張圖片輸入,常見的是視頻輸入,要對視頻深度估計,只需要在 Pixel-Perfect-Depth 上做兩個簡單的改進(jìn),首先是提取視頻的語義特征,得到特征以后注入到多視角的估計模型里;第二,視頻深度估計重要的是保持時序的連續(xù)性,通過 target tokens疊加reference tokens,提升時序一致性。

Pixel-Perfect-Depth 雖然能做好單張圖片和視頻深度估計,但做不好帶尺度的深度估計。而很多場景是帶尺度的,因為沒有尺度機(jī)器人就不好用。為了解決該問題,彭思達(dá)團(tuán)隊從語言模型的 prompt 技術(shù)匯總獲得靈感,試圖探索為深度基礎(chǔ)模型設(shè)計提示詞機(jī)制,以提升其輸出絕對深度的準(zhǔn)確性。

他們將雷達(dá)做誒深度感知的prompt喂給深度估計基礎(chǔ)模型,讓其產(chǎn)生絕對深度。



該算法 Prompt Depth Anything 不僅可以提升通用機(jī)器人抓取能力,抓取成功率超越Image及LiDAR作為輸入;還能應(yīng)用于自動駕駛重建;做三維掃描、前饋式三維高斯等等。

但 Prompt Depth Anything 仍然存在問題,要得到三維場景的深度估計一般通過反投影,但透視投影在相鄰視角看著還不錯,如果俯視、反投影得到的點云在遠(yuǎn)處會產(chǎn)生裂痕。

對此彭思達(dá)團(tuán)隊提出了一個叫 InfiniDepth 的解決思路,即不只是給每個像素估計深度值,還給每個次像素估計。具體做法是將已有DPT Head改為Implicit Decoder,就能得到一個完整的幾何,達(dá)到大范圍的視角渲染。這樣能提高模型精細(xì)度,例如能更好服務(wù)于機(jī)器人去抓取線纜的能力。


03

物體運動估計

將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓(xùn)練數(shù)據(jù),是當(dāng)前具身智能發(fā)展的關(guān)鍵。這需要獲取深度信息、相機(jī)運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于跟蹤。彭思達(dá)團(tuán)隊去年的一個工作就跟三維跟蹤有關(guān)。

此前已有方法使用時序匹配進(jìn)行跟蹤,例如Google的CoTracker:先初始化一組二維像素點,再利用Transformer迭代優(yōu)化這些點的軌跡。但該方法僅在二維層面進(jìn)行跟蹤,容易因相鄰區(qū)域的干擾而丟失目標(biāo),效果受限。

彭思達(dá)團(tuán)隊的思路是將二維圖像反投影至三維空間,做 3D tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對該軌跡進(jìn)行優(yōu)化,從而實現(xiàn)更魯棒的跟蹤效果。該方法被命名為SpatialTracker。


其實驗結(jié)果顯示,模型有了更強(qiáng)的跟蹤能力:圖(1)中運動員踢球的速度很快,SpatialTracker 也能跟蹤地很好;圖(2)蝴蝶拍動翅膀時是有很強(qiáng)的空間遮擋,SpatialTracker 也能跟蹤地不錯。




未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
33+9+9!弗拉格正式進(jìn)化!三狀元合體倒計時

33+9+9!弗拉格正式進(jìn)化!三狀元合體倒計時

籃球教學(xué)論壇
2025-12-24 18:37:41
陜西黑老大鄭衛(wèi)國去酒店吃飯,不料踢到鐵板,死前連中9槍寧死不跪

陜西黑老大鄭衛(wèi)國去酒店吃飯,不料踢到鐵板,死前連中9槍寧死不跪

青青會講故事
2024-11-01 16:45:36
老字號餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個多月暴瘦近20斤未出院,多部門介入

老字號餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個多月暴瘦近20斤未出院,多部門介入

極目新聞
2025-12-24 13:21:57
南博事件再升級!1997年藏品調(diào)撥單申請人凌波,2008年已身居要職

南博事件再升級!1997年藏品調(diào)撥單申請人凌波,2008年已身居要職

鶴羽說個事
2025-12-22 14:11:12
龐萊臣曾孫女龐叔令的聲明:新華社未采訪本人,質(zhì)疑南博鑒定材料公開不公

龐萊臣曾孫女龐叔令的聲明:新華社未采訪本人,質(zhì)疑南博鑒定材料公開不公

新浪財經(jīng)
2025-12-24 13:24:56
哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

另子維愛讀史
2025-12-13 21:53:50
陳芋汐回應(yīng)“有后臺”:不能用謠言去詆毀運動員所有的付出,稱與全紅嬋友情不會被輿論左右;曾在決賽前收到“威脅短信”

陳芋汐回應(yīng)“有后臺”:不能用謠言去詆毀運動員所有的付出,稱與全紅嬋友情不會被輿論左右;曾在決賽前收到“威脅短信”

極目新聞
2025-12-24 21:31:45
死刑!就是給這種人準(zhǔn)備的!

死刑!就是給這種人準(zhǔn)備的!

鈞言堂
2025-12-23 14:38:14
南博《江南春》暗箱操作丑聞的五個關(guān)鍵要害,被一個女人無意泄密

南博《江南春》暗箱操作丑聞的五個關(guān)鍵要害,被一個女人無意泄密

雪中風(fēng)車
2025-12-22 19:12:14
懵了!羅永浩還沒公布錄音,華與華要把公司賣了

懵了!羅永浩還沒公布錄音,華與華要把公司賣了

說財貓
2025-12-24 21:07:22
俄中將遇襲地附近發(fā)生爆炸 兩警察身亡

俄中將遇襲地附近發(fā)生爆炸 兩警察身亡

新華社
2025-12-24 18:08:02
越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

磊子講史
2025-12-23 20:13:04
向太太敢說了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

向太太敢說了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

心靜物娛
2025-12-24 11:02:28
一夜爆兩冷門!冠軍隊狂輸18分,魚腩大勝豪強(qiáng),2主帥遭下課壓力

一夜爆兩冷門!冠軍隊狂輸18分,魚腩大勝豪強(qiáng),2主帥遭下課壓力

老吳說體育
2025-12-24 23:28:12
簽了簽了!貝弗利重磅加盟!來自NBA的防守大閘

簽了簽了!貝弗利重磅加盟!來自NBA的防守大閘

籃球?qū)崙?zhàn)寶典
2025-12-23 22:15:51
難以想象!上海“富二代”1年花光1300萬,“每頓飯一萬多,出去一次一百多萬……”

難以想象!上?!案欢?年花光1300萬,“每頓飯一萬多,出去一次一百多萬……”

環(huán)球網(wǎng)資訊
2025-12-23 19:51:46
13年前,被父親逼迫零下13度裸跑的4歲小男孩,如今過得怎么樣?

13年前,被父親逼迫零下13度裸跑的4歲小男孩,如今過得怎么樣?

趣文說娛
2025-11-21 16:06:59
美日對中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

美日對中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

我心縱橫天地間
2025-12-24 16:47:33
1月2次慘敗,長征十二號甲回收失利,火箭發(fā)動機(jī)故障高空失控燃燒

1月2次慘敗,長征十二號甲回收失利,火箭發(fā)動機(jī)故障高空失控燃燒

胖福的小木屋
2025-12-23 23:05:32
被逼到墻角的克林頓宣戰(zhàn)了,哪怕身敗名裂,也要讓特朗普“陪葬”

被逼到墻角的克林頓宣戰(zhàn)了,哪怕身敗名裂,也要讓特朗普“陪葬”

墨蘭史書
2025-12-24 20:30:03
2025-12-25 00:39:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

15歲女孩遭同班14歲男生殺害:對方曾拍攝其胸部等照片

頭條要聞

15歲女孩遭同班14歲男生殺害:對方曾拍攝其胸部等照片

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
藝術(shù)
軍事航空

對不起周柯宇,是陳靖可先來的

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

藝術(shù)要聞

有一種冬天,叫呼倫貝爾!你絕對不能錯過!

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版