国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一文速通「機(jī)器人3D場景表示」發(fā)展史

0
分享至



隨著機(jī)器人領(lǐng)域的飛速發(fā)展,我們有一個問題不斷需要思考,究竟如何讓機(jī)器人像人類一樣理解世界,學(xué)習(xí)周圍環(huán)境的表示。對于機(jī)器人來說,究竟是需要精確的坐標(biāo),還是語義的物體概念,還是隱式的空間認(rèn)識推理模型?

在本文中,上海交通大學(xué)、波恩大學(xué)等院校的研究團(tuán)隊全面總結(jié)了當(dāng)前機(jī)器人技術(shù)中常用的場景表示方法。這些方法包括傳統(tǒng)的點云、體素柵格、符號距離函數(shù)以及場景圖等傳統(tǒng)幾何表示方式,同時也涵蓋了最新的神經(jīng)網(wǎng)絡(luò)表示技術(shù),如神經(jīng)輻射場、3D 高斯散布模型以及新興的 3D 基礎(chǔ)模型。

雖然目前的 SLAM 與定位系統(tǒng)主要依賴點云、體素這類稀疏表示方式,但密集型場景表示方法在導(dǎo)航、避障等后續(xù)任務(wù)中無疑會發(fā)揮關(guān)鍵作用。此外,神經(jīng)輻射場、3D 高斯散布模型以及基礎(chǔ)模型這類神經(jīng)網(wǎng)絡(luò)表示技術(shù),非常適合整合高層次的語義信息與基于語言的先驗知識,從而實現(xiàn)更全面的 3D 場景理解與智能體行為控制。本文的目標(biāo)是為新手和資深研究人員提供一份有價值的參考資料,幫助他們探索 3D 場景表示技術(shù)的未來發(fā)展方向及其在機(jī)器人技術(shù)中的應(yīng)用。



  • 標(biāo)題:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
  • 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
  • 機(jī)構(gòu):Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
  • 原文鏈接:https://arxiv.org/abs/2512.03422
  • 代碼鏈接:https://github.com/dtc111111/awesomerepresentation-for-robotics

一、機(jī)器人 3D 場景發(fā)展史



機(jī)器人 3D 場景表示發(fā)展史和代表性工作

幾何場景表示:

  • Point Cloud 點云場景表示:通過離散的三維點來表示場景,通過雷達(dá)或者相機(jī)傳感器獲得。
  • Voxel 體素場景表示:通過將三維空間離散化,轉(zhuǎn)變成規(guī)則的立方體柵格,通過在柵格內(nèi)存儲不同的信息,比如密度,占用率等實現(xiàn)場景建模
  • Mesh 網(wǎng)格場景表示:通過三角化面片構(gòu)建連續(xù)的場景幾何場景表示,精細(xì)度更高。
  • SDF 符號距離場:通過表示空間點到物體表面的距離,實現(xiàn)連續(xù)的場景幾何表示。

近年來,深度學(xué)習(xí)、計算機(jī)圖形學(xué)與機(jī)器人技術(shù)的融合推動了顯著進(jìn)展。在眾多推動這一進(jìn)展的技術(shù)中,神經(jīng)輻射場(NeRF)、三維高斯濺射和基礎(chǔ)模型(Foundation Model,F(xiàn)M)作為極具前景的創(chuàng)新脫穎而出,從而實現(xiàn)真正的通用具身智能。



機(jī)器人 3D 三維表征研究熱度變化

3D 神經(jīng)場景表示

  • NeRF 神經(jīng)輻射場:通過連續(xù)的場景表示讓機(jī)器人理解世界,基于神經(jīng)網(wǎng)絡(luò) MLP 構(gòu)建,可以進(jìn)行地圖預(yù)測,但是速度較慢。
  • 3DGS 高斯?jié)姙R:將場景表示為 3D 高斯橢球,從而實現(xiàn)高速的渲染,適合實時建圖。
  • Foundation Model 基礎(chǔ)模型: 通過現(xiàn)有的 transformer 等編碼器,將三維世界壓縮成類似于語言的 token,將三維世界的理解變成可推理的人類語言。從而實現(xiàn)空間感知推理,成為「3D 版本的 GPT」。



三維場景表征在機(jī)器人不同模塊的應(yīng)用:感知,建圖,定位,操作,導(dǎo)航

在建圖和定位模塊(第 V 節(jié))中,現(xiàn)有方法在 SLAM 和定位領(lǐng)域取得了令人矚目的成果。神經(jīng)場景表示能夠?qū)崿F(xiàn)對環(huán)境的更精確、更密集的建模,這對避障特別有益。這一能力對于機(jī)器人的導(dǎo)航和操作至關(guān)重要。

該模塊分為三部分:(i)場景重建:場景表示的地圖重建能力包括幾何精度和渲染質(zhì)量,以及在靜態(tài)場景、大規(guī)模戶外場景和動態(tài)場景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同場景表示方法在 SLAM 過程中的地圖精度、位姿精度和實時性能。(iv)全局定位:全局定位主要涉及使用現(xiàn)有地圖進(jìn)行定位時的精度和實時性能。

在操作模塊(第 VI-A 節(jié))中,本文主要比較了基于不同場景表示方法的抓取框架。傳統(tǒng)方法在抓取方面具有更高的實時性能和計算效率,但在泛化能力和處理復(fù)雜目標(biāo)操作任務(wù)方面存在局限。相比之下,基于神經(jīng)網(wǎng)絡(luò)的場景表示在生成新視角和跨多個場景泛化方面具有一定能力,使其更能適應(yīng)復(fù)雜任務(wù)?;诨A(chǔ)模型的方法能夠?qū)崿F(xiàn)零樣本抓取任務(wù),具備強(qiáng)大的泛化能力。此外,語言信息的集成使這些模型能夠支持交互式抓取,并增強(qiáng)了它們理解和規(guī)劃高級認(rèn)知任務(wù)的能力。

在導(dǎo)航模塊(第 VI 節(jié))中,與傳統(tǒng)的場景表示方法相比,神經(jīng)場景表示能夠提供高度準(zhǔn)確的環(huán)境重建。此外,它們還有助于更好地融合語義和語言信息,從而能夠執(zhí)行更復(fù)雜的導(dǎo)航任務(wù)。我們將導(dǎo)航模塊分為兩個部分:(i)規(guī)劃:從當(dāng)前位置到目標(biāo)目的地生成最優(yōu)或可行路徑,同時避開障礙物。(ii)探索:主動導(dǎo)航并繪制先前未知區(qū)域的地圖。



不同 3D 場景表示的特點對比,包含連續(xù)性,存儲效率,真實性,靈活性,幾何表示精度。

二、現(xiàn)有方法的問題與未來發(fā)展方向

1、端到端通用網(wǎng)絡(luò)還是模塊化?

目前,大多數(shù)機(jī)器人系統(tǒng)都建立在模塊化智能(Modular Intelligence)的基礎(chǔ)上。為了完成復(fù)雜任務(wù),系統(tǒng)會將導(dǎo)航或操作等功能分解為獨立的模塊,例如感知、建圖、定位、操作和導(dǎo)航。這種設(shè)計雖然有助于實現(xiàn)各種機(jī)器人功能,但其模塊化特性在本質(zhì)上可能會限制機(jī)器人智能的進(jìn)一步發(fā)展。

盡管模塊化解決方案引入了有用的歸納偏置(Inductive Biases)并支持有效的特定任務(wù)性能,但它們通常面臨泛化能力有限和遷移性差的問題。在實際應(yīng)用中,這些系統(tǒng)往往需要在不同場景下進(jìn)行重復(fù)的傳感器校準(zhǔn)、特定環(huán)境建模以及參數(shù)重新調(diào)優(yōu)。此外,在高度復(fù)雜的環(huán)境中,構(gòu)建精確的模型仍然極具挑戰(zhàn)性?;A(chǔ)模型的最新進(jìn)展提供了一條替代路徑,即實現(xiàn)端到端智能。

2、數(shù)據(jù)瓶頸

盡管神經(jīng)場景表示(Neural Scene Representations)在準(zhǔn)確性和泛化性方面具有顯著優(yōu)勢,但一個主要的挑戰(zhàn)在于,與訓(xùn)練大語言模型(LLM)和視覺語言模型(VLM)所使用的互聯(lián)網(wǎng)規(guī)模的文本與圖像語料庫相比,機(jī)器人特有的數(shù)據(jù)非常匱乏。這種局限性顯著阻礙了機(jī)器人領(lǐng)域神經(jīng)場景表示和基礎(chǔ)模型的發(fā)展。

為了解決這一問題,研究重點已轉(zhuǎn)向增強(qiáng)神經(jīng)場景表示在有限數(shù)據(jù)情況下的泛化能力。另一個方向則是利用世界模型(World Models)來預(yù)測以動作為條件的(Conditioned on actions)狀態(tài)轉(zhuǎn)移,從而生成額外的訓(xùn)練數(shù)據(jù)集。

3、實時性瓶頸

與傳統(tǒng)的場景表示相比,在機(jī)器人領(lǐng)域部署神經(jīng)場景表示的另一個關(guān)鍵瓶頸在于其推理時間(Inference Time),這仍是制約可靠實時應(yīng)用的一個限制因素。目前神經(jīng)網(wǎng)絡(luò)的部署策略通常分為兩大類:

第一類是基于云端的部署。通常托管在遠(yuǎn)程數(shù)據(jù)中心,并通過 API 進(jìn)行訪問。在這種模式下,響應(yīng)延遲和服務(wù)時間很大程度上取決于底層的網(wǎng)絡(luò)路由、帶寬以及數(shù)據(jù)中心的計算能力。因此,在將此類模型集成到自主機(jī)器人技術(shù)棧之前,必須仔細(xì)權(quán)衡網(wǎng)絡(luò)的可靠性和延遲問題。

第二類是邊緣計算平臺上的車載 / 機(jī)載部署(Onboard Deployment)。此類方案通常采用模型蒸餾(Model Distillation)和量化(Quantization)等技術(shù)來減小模型體積,從而實現(xiàn)實時推理。然而,這往往以犧牲泛化能力為代價。一個極具前景的未來方向在于硬件 - 算法協(xié)同設(shè)計(Hardware–Algorithm Co-design),旨在同時提高推理效率并保持模型的泛化性能,以滿足機(jī)器人實時部署的需求。

本文探討了機(jī)器人不同模塊最適合的三維場景表示方法,研究了相關(guān)方法、并討論了挑戰(zhàn)和未來方向。本文的主要貢獻(xiàn)如下:

  • 全面、最新的綜述與基準(zhǔn)測試:本文對機(jī)器人領(lǐng)域的不同場景表示方法進(jìn)行了廣泛且最新的綜述,涵蓋了經(jīng)典方法和前沿方法。對于每個模塊,團(tuán)隊都提供了詳細(xì)介紹,并突出了該模塊中不同場景表示的優(yōu)勢。
  • 三維場景表示的未來方向:在機(jī)器人領(lǐng)域的每個模塊中,團(tuán)隊指出了當(dāng)前研究的技術(shù)局限性,并提出了幾個有前景的未來研究方向,旨在激勵這一快速發(fā)展領(lǐng)域的進(jìn)一步進(jìn)步。
  • 開源項目:團(tuán)隊在 GitHub 上發(fā)布了一個開源項目,整理了機(jī)器人領(lǐng)域不同場景表示的相關(guān)文章,并將繼續(xù)向該項目添加新的研究成果和技術(shù),網(wǎng)址為https://github.com/dtc111111/awesome-representation-for-robotics。團(tuán)隊希望更多研究人員能夠利用它獲取最新的研究信息。

對更多實驗結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

驅(qū)動中國
2026-04-23 18:56:09
中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

觸摸史跡
2026-04-24 04:58:08
美國想各個擊破,最終目標(biāo)是中國

美國想各個擊破,最終目標(biāo)是中國

觀察者網(wǎng)
2026-04-24 08:24:07
貝佐斯沒想到,分走百億資產(chǎn)的前妻,如今竟令自己再次刮目相看

貝佐斯沒想到,分走百億資產(chǎn)的前妻,如今竟令自己再次刮目相看

次元君情感
2026-04-24 11:51:43
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點讀書
2026-04-18 18:36:15
60~75歲老人,除不爬高外,這八件事也沒做,你就是一位寶藏老人

60~75歲老人,除不爬高外,這八件事也沒做,你就是一位寶藏老人

暖風(fēng)吹過竹林
2026-04-24 09:22:48
鄭麗文贏麻了!民進(jìn)黨被逼到絕路、做出3大讓步,賴清德服軟了?

鄭麗文贏麻了!民進(jìn)黨被逼到絕路、做出3大讓步,賴清德服軟了?

似水流年忘我
2026-04-23 18:06:40
我是天津人,全家一起來了趟上海,確實有點想不明白這四件事

我是天津人,全家一起來了趟上海,確實有點想不明白這四件事

王姐懶人家常菜
2026-04-20 03:27:17
永遠(yuǎn)不會倒閉的四大行業(yè),選對一輩子衣食無憂!

永遠(yuǎn)不會倒閉的四大行業(yè),選對一輩子衣食無憂!

細(xì)說職場
2026-04-08 06:22:58
醫(yī)生把手指伸入病人“后門”檢查直腸,意外捅好了病人的心臟病

醫(yī)生把手指伸入病人“后門”檢查直腸,意外捅好了病人的心臟病

新浪財經(jīng)
2026-04-21 20:43:23
最全人體穴道圖,有空自己捏捏吧,心肝脾肺腎都暢通了

最全人體穴道圖,有空自己捏捏吧,心肝脾肺腎都暢通了

新浪財經(jīng)
2026-04-19 01:39:16
吝嗇鬼!開拓者老板被批!NBA總裁緊急回應(yīng)

吝嗇鬼!開拓者老板被批!NBA總裁緊急回應(yīng)

籃球教學(xué)論壇
2026-04-24 14:39:01
國際媒體稱:戰(zhàn)爭一旦爆發(fā),中國將到達(dá)一個無人知曉的地步

國際媒體稱:戰(zhàn)爭一旦爆發(fā),中國將到達(dá)一個無人知曉的地步

音樂時光的娛樂
2026-04-23 20:12:38
牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

落雪聽梅a
2026-04-24 07:58:40
伊朗“內(nèi)鬼”竟是美制路由器!美科技巨頭集體沉默,中國早有防備

伊朗“內(nèi)鬼”竟是美制路由器!美科技巨頭集體沉默,中國早有防備

Thurman在昆明
2026-04-23 19:42:10
中南醫(yī)院王行環(huán)被雙開后,有女醫(yī)生怒斥:他把醫(yī)院當(dāng)“后宮”

中南醫(yī)院王行環(huán)被雙開后,有女醫(yī)生怒斥:他把醫(yī)院當(dāng)“后宮”

時尚的弄潮
2026-04-24 13:11:07
靠,出事了!光刻膠第一真龍,獲高盛、巴克萊、瑞銀聯(lián)手掃貨?

靠,出事了!光刻膠第一真龍,獲高盛、巴克萊、瑞銀聯(lián)手掃貨?

財報翻譯官
2026-04-24 08:51:38
空降醫(yī)院當(dāng)院長,報道前一天陪父親看病,主治醫(yī)生不耐煩:催啥催

空降醫(yī)院當(dāng)院長,報道前一天陪父親看病,主治醫(yī)生不耐煩:催啥催

曉艾故事匯
2025-10-28 21:42:30
女兒兼職攢錢買兩萬多項鏈,家長崩潰說虛榮,不料被網(wǎng)友看穿破防

女兒兼職攢錢買兩萬多項鏈,家長崩潰說虛榮,不料被網(wǎng)友看穿破防

侃故事的阿慶
2026-04-24 12:26:32
印媒曾曝料:2020年若不是中國99A坦克急上高原,印度或真會動手

印媒曾曝料:2020年若不是中國99A坦克急上高原,印度或真會動手

混沌錄
2026-04-22 21:15:09
2026-04-24 16:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12847文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內(nèi)首秀

態(tài)度原創(chuàng)

時尚
藝術(shù)
旅游
健康
公開課

水晶專場 || 一眼就淪陷的絕美水晶,百元級的快樂

藝術(shù)要聞

16幅 佐恩高清油畫 | 瑞典著名畫家

旅游要聞

剛剛,在昭化區(qū)啟幕,標(biāo)著廣元正式...

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版