国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一文速通「機器人3D場景表示」發(fā)展史

0
分享至



隨著機器人領(lǐng)域的飛速發(fā)展,我們有一個問題不斷需要思考,究竟如何讓機器人像人類一樣理解世界,學(xué)習(xí)周圍環(huán)境的表示。對于機器人來說,究竟是需要精確的坐標(biāo),還是語義的物體概念,還是隱式的空間認識推理模型?

在本文中,上海交通大學(xué)、波恩大學(xué)等院校的研究團隊全面總結(jié)了當(dāng)前機器人技術(shù)中常用的場景表示方法。這些方法包括傳統(tǒng)的點云、體素柵格、符號距離函數(shù)以及場景圖等傳統(tǒng)幾何表示方式,同時也涵蓋了最新的神經(jīng)網(wǎng)絡(luò)表示技術(shù),如神經(jīng)輻射場、3D 高斯散布模型以及新興的 3D 基礎(chǔ)模型。

雖然目前的 SLAM 與定位系統(tǒng)主要依賴點云、體素這類稀疏表示方式,但密集型場景表示方法在導(dǎo)航、避障等后續(xù)任務(wù)中無疑會發(fā)揮關(guān)鍵作用。此外,神經(jīng)輻射場、3D 高斯散布模型以及基礎(chǔ)模型這類神經(jīng)網(wǎng)絡(luò)表示技術(shù),非常適合整合高層次的語義信息與基于語言的先驗知識,從而實現(xiàn)更全面的 3D 場景理解與智能體行為控制。本文的目標(biāo)是為新手和資深研究人員提供一份有價值的參考資料,幫助他們探索 3D 場景表示技術(shù)的未來發(fā)展方向及其在機器人技術(shù)中的應(yīng)用。



  • 標(biāo)題:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
  • 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
  • 機構(gòu):Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
  • 原文鏈接:https://arxiv.org/abs/2512.03422
  • 代碼鏈接:https://github.com/dtc111111/awesomerepresentation-for-robotics

一、機器人 3D 場景發(fā)展史



機器人 3D 場景表示發(fā)展史和代表性工作

幾何場景表示:

  • Point Cloud 點云場景表示:通過離散的三維點來表示場景,通過雷達或者相機傳感器獲得。
  • Voxel 體素場景表示:通過將三維空間離散化,轉(zhuǎn)變成規(guī)則的立方體柵格,通過在柵格內(nèi)存儲不同的信息,比如密度,占用率等實現(xiàn)場景建模
  • Mesh 網(wǎng)格場景表示:通過三角化面片構(gòu)建連續(xù)的場景幾何場景表示,精細度更高。
  • SDF 符號距離場:通過表示空間點到物體表面的距離,實現(xiàn)連續(xù)的場景幾何表示。

近年來,深度學(xué)習(xí)、計算機圖形學(xué)與機器人技術(shù)的融合推動了顯著進展。在眾多推動這一進展的技術(shù)中,神經(jīng)輻射場(NeRF)、三維高斯濺射和基礎(chǔ)模型(Foundation Model,F(xiàn)M)作為極具前景的創(chuàng)新脫穎而出,從而實現(xiàn)真正的通用具身智能。



機器人 3D 三維表征研究熱度變化

3D 神經(jīng)場景表示

  • NeRF 神經(jīng)輻射場:通過連續(xù)的場景表示讓機器人理解世界,基于神經(jīng)網(wǎng)絡(luò) MLP 構(gòu)建,可以進行地圖預(yù)測,但是速度較慢。
  • 3DGS 高斯?jié)姙R:將場景表示為 3D 高斯橢球,從而實現(xiàn)高速的渲染,適合實時建圖。
  • Foundation Model 基礎(chǔ)模型: 通過現(xiàn)有的 transformer 等編碼器,將三維世界壓縮成類似于語言的 token,將三維世界的理解變成可推理的人類語言。從而實現(xiàn)空間感知推理,成為「3D 版本的 GPT」。



三維場景表征在機器人不同模塊的應(yīng)用:感知,建圖,定位,操作,導(dǎo)航

在建圖和定位模塊(第 V 節(jié))中,現(xiàn)有方法在 SLAM 和定位領(lǐng)域取得了令人矚目的成果。神經(jīng)場景表示能夠?qū)崿F(xiàn)對環(huán)境的更精確、更密集的建模,這對避障特別有益。這一能力對于機器人的導(dǎo)航和操作至關(guān)重要。

該模塊分為三部分:(i)場景重建:場景表示的地圖重建能力包括幾何精度和渲染質(zhì)量,以及在靜態(tài)場景、大規(guī)模戶外場景和動態(tài)場景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同場景表示方法在 SLAM 過程中的地圖精度、位姿精度和實時性能。(iv)全局定位:全局定位主要涉及使用現(xiàn)有地圖進行定位時的精度和實時性能。

在操作模塊(第 VI-A 節(jié))中,本文主要比較了基于不同場景表示方法的抓取框架。傳統(tǒng)方法在抓取方面具有更高的實時性能和計算效率,但在泛化能力和處理復(fù)雜目標(biāo)操作任務(wù)方面存在局限。相比之下,基于神經(jīng)網(wǎng)絡(luò)的場景表示在生成新視角和跨多個場景泛化方面具有一定能力,使其更能適應(yīng)復(fù)雜任務(wù)。基于基礎(chǔ)模型的方法能夠?qū)崿F(xiàn)零樣本抓取任務(wù),具備強大的泛化能力。此外,語言信息的集成使這些模型能夠支持交互式抓取,并增強了它們理解和規(guī)劃高級認知任務(wù)的能力。

在導(dǎo)航模塊(第 VI 節(jié))中,與傳統(tǒng)的場景表示方法相比,神經(jīng)場景表示能夠提供高度準(zhǔn)確的環(huán)境重建。此外,它們還有助于更好地融合語義和語言信息,從而能夠執(zhí)行更復(fù)雜的導(dǎo)航任務(wù)。我們將導(dǎo)航模塊分為兩個部分:(i)規(guī)劃:從當(dāng)前位置到目標(biāo)目的地生成最優(yōu)或可行路徑,同時避開障礙物。(ii)探索:主動導(dǎo)航并繪制先前未知區(qū)域的地圖。



不同 3D 場景表示的特點對比,包含連續(xù)性,存儲效率,真實性,靈活性,幾何表示精度。

二、現(xiàn)有方法的問題與未來發(fā)展方向

1、端到端通用網(wǎng)絡(luò)還是模塊化?

目前,大多數(shù)機器人系統(tǒng)都建立在模塊化智能(Modular Intelligence)的基礎(chǔ)上。為了完成復(fù)雜任務(wù),系統(tǒng)會將導(dǎo)航或操作等功能分解為獨立的模塊,例如感知、建圖、定位、操作和導(dǎo)航。這種設(shè)計雖然有助于實現(xiàn)各種機器人功能,但其模塊化特性在本質(zhì)上可能會限制機器人智能的進一步發(fā)展。

盡管模塊化解決方案引入了有用的歸納偏置(Inductive Biases)并支持有效的特定任務(wù)性能,但它們通常面臨泛化能力有限和遷移性差的問題。在實際應(yīng)用中,這些系統(tǒng)往往需要在不同場景下進行重復(fù)的傳感器校準(zhǔn)、特定環(huán)境建模以及參數(shù)重新調(diào)優(yōu)。此外,在高度復(fù)雜的環(huán)境中,構(gòu)建精確的模型仍然極具挑戰(zhàn)性;A(chǔ)模型的最新進展提供了一條替代路徑,即實現(xiàn)端到端智能。

2、數(shù)據(jù)瓶頸

盡管神經(jīng)場景表示(Neural Scene Representations)在準(zhǔn)確性和泛化性方面具有顯著優(yōu)勢,但一個主要的挑戰(zhàn)在于,與訓(xùn)練大語言模型(LLM)和視覺語言模型(VLM)所使用的互聯(lián)網(wǎng)規(guī)模的文本與圖像語料庫相比,機器人特有的數(shù)據(jù)非常匱乏。這種局限性顯著阻礙了機器人領(lǐng)域神經(jīng)場景表示和基礎(chǔ)模型的發(fā)展。

為了解決這一問題,研究重點已轉(zhuǎn)向增強神經(jīng)場景表示在有限數(shù)據(jù)情況下的泛化能力。另一個方向則是利用世界模型(World Models)來預(yù)測以動作為條件的(Conditioned on actions)狀態(tài)轉(zhuǎn)移,從而生成額外的訓(xùn)練數(shù)據(jù)集。

3、實時性瓶頸

與傳統(tǒng)的場景表示相比,在機器人領(lǐng)域部署神經(jīng)場景表示的另一個關(guān)鍵瓶頸在于其推理時間(Inference Time),這仍是制約可靠實時應(yīng)用的一個限制因素。目前神經(jīng)網(wǎng)絡(luò)的部署策略通常分為兩大類:

第一類是基于云端的部署。通常托管在遠程數(shù)據(jù)中心,并通過 API 進行訪問。在這種模式下,響應(yīng)延遲和服務(wù)時間很大程度上取決于底層的網(wǎng)絡(luò)路由、帶寬以及數(shù)據(jù)中心的計算能力。因此,在將此類模型集成到自主機器人技術(shù)棧之前,必須仔細權(quán)衡網(wǎng)絡(luò)的可靠性和延遲問題。

第二類是邊緣計算平臺上的車載 / 機載部署(Onboard Deployment)。此類方案通常采用模型蒸餾(Model Distillation)和量化(Quantization)等技術(shù)來減小模型體積,從而實現(xiàn)實時推理。然而,這往往以犧牲泛化能力為代價。一個極具前景的未來方向在于硬件 - 算法協(xié)同設(shè)計(Hardware–Algorithm Co-design),旨在同時提高推理效率并保持模型的泛化性能,以滿足機器人實時部署的需求。

本文探討了機器人不同模塊最適合的三維場景表示方法,研究了相關(guān)方法、并討論了挑戰(zhàn)和未來方向。本文的主要貢獻如下:

  • 全面、最新的綜述與基準(zhǔn)測試:本文對機器人領(lǐng)域的不同場景表示方法進行了廣泛且最新的綜述,涵蓋了經(jīng)典方法和前沿方法。對于每個模塊,團隊都提供了詳細介紹,并突出了該模塊中不同場景表示的優(yōu)勢。
  • 三維場景表示的未來方向:在機器人領(lǐng)域的每個模塊中,團隊指出了當(dāng)前研究的技術(shù)局限性,并提出了幾個有前景的未來研究方向,旨在激勵這一快速發(fā)展領(lǐng)域的進一步進步。
  • 開源項目:團隊在 GitHub 上發(fā)布了一個開源項目,整理了機器人領(lǐng)域不同場景表示的相關(guān)文章,并將繼續(xù)向該項目添加新的研究成果和技術(shù),網(wǎng)址為https://github.com/dtc111111/awesome-representation-for-robotics。團隊希望更多研究人員能夠利用它獲取最新的研究信息。

對更多實驗結(jié)果和文章細節(jié)感興趣的讀者,可以閱讀一下論文原文~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
西昌小孩哥撿到1萬元送還,民警把表揚信送到了學(xué)校升旗儀式上,這下成“明星”了!

西昌小孩哥撿到1萬元送還,民警把表揚信送到了學(xué)校升旗儀式上,這下成“明星”了!

黃河新聞網(wǎng)呂梁
2026-03-10 09:30:41
離婚14年董潔終于低頭了!承認當(dāng)年太任性,前夫潘粵明7字回應(yīng)

離婚14年董潔終于低頭了!承認當(dāng)年太任性,前夫潘粵明7字回應(yīng)

動物奇奇怪怪
2026-03-10 09:54:58
《鏢人》成亞軍,續(xù)集有戲!謝苗喊話吳京,遺憾錯過和李連杰對打

《鏢人》成亞軍,續(xù)集有戲!謝苗喊話吳京,遺憾錯過和李連杰對打

陳意小可愛
2026-03-10 00:49:40
德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

洲洲影視娛評
2026-03-07 13:20:10
獨養(yǎng)4娃累到脫相,39歲何潔最大的遺憾,是5年前沒聽胡彥斌一句勸

獨養(yǎng)4娃累到脫相,39歲何潔最大的遺憾,是5年前沒聽胡彥斌一句勸

查爾菲的筆記
2026-03-07 13:09:32
觸控屏界面丑到辣眼!電氣工程師審美不如幼稚園小朋友

觸控屏界面丑到辣眼!電氣工程師審美不如幼稚園小朋友

喜愛的CAD
2026-03-09 19:04:35
美媒總算看明白:中國這哪是買石油,分明是在給俄進行“大換血”

美媒總算看明白:中國這哪是買石油,分明是在給俄進行“大換血”

墨印齋
2026-01-02 20:47:40
基因、權(quán)力、藥物:特朗普80歲的身體,咋就這么能折騰?

基因、權(quán)力、藥物:特朗普80歲的身體,咋就這么能折騰?

熱辣茉莉說
2026-03-09 15:17:48
如今女人偷情為何不愿去賓館,更愿意在家里呢?

如今女人偷情為何不愿去賓館,更愿意在家里呢?

思絮
2026-03-10 09:55:07
最新!天津這條地鐵尚未納入建設(shè)規(guī)劃中!暫不具備實施條件

最新!天津這條地鐵尚未納入建設(shè)規(guī)劃中!暫不具備實施條件

天津人
2026-03-10 07:11:33
國際油價,快速回落

國際油價,快速回落

第一財經(jīng)資訊
2026-03-09 14:36:31
為拍網(wǎng)紅同款視頻,女演員生日當(dāng)天差點毀容!“網(wǎng)上都說好看,我以為這是安全的......”

為拍網(wǎng)紅同款視頻,女演員生日當(dāng)天差點毀容!“網(wǎng)上都說好看,我以為這是安全的......”

都市快報橙柿互動
2026-03-09 15:57:39
足總杯1/4決賽抽簽:阿森納上上簽,曼城下下簽,面臨魔鬼賽程

足總杯1/4決賽抽簽:阿森納上上簽,曼城下下簽,面臨魔鬼賽程

足球狗說
2026-03-10 08:57:54
郎朗沒想到,31歲混血老婆“性感出道”,卻因德國一場彩排引熱議

郎朗沒想到,31歲混血老婆“性感出道”,卻因德國一場彩排引熱議

一娛三分地
2026-02-26 17:15:04
譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

手工制作阿殲
2026-03-09 09:13:20
搶在特朗普動身訪華之前,中國一定提前跟他把一些話“講清楚”?

搶在特朗普動身訪華之前,中國一定提前跟他把一些話“講清楚”?

風(fēng)雨與陽光
2026-03-10 06:11:41
煽動分裂國家,李延賀被最高法點名

煽動分裂國家,李延賀被最高法點名

極目新聞
2026-03-09 12:40:07
特朗普:如果澳大利亞不給予伊朗女足庇護,美國將會接納她們

特朗普:如果澳大利亞不給予伊朗女足庇護,美國將會接納她們

懂球帝
2026-03-09 23:57:14
2000年吳石案解密,吳家人拿到了陳誠的臨終密信,內(nèi)容寫得很直白

2000年吳石案解密,吳家人拿到了陳誠的臨終密信,內(nèi)容寫得很直白

云霄紀(jì)史觀
2026-03-09 16:06:57
恐怖14-0,亞足聯(lián)認證!中國女足逆轉(zhuǎn)僅1天,1/4決賽對手幾乎確定

恐怖14-0,亞足聯(lián)認證!中國女足逆轉(zhuǎn)僅1天,1/4決賽對手幾乎確定

郝小小看體育
2026-03-10 04:50:15
2026-03-10 10:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12455文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡,賣“飼料”的先掙錢了

頭條要聞

應(yīng)對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

頭條要聞

應(yīng)對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

藝術(shù)
時尚
健康
手機
游戲

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

今年最流行的5條半裙,怎么搭都好看!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

OPPO和一加發(fā)布價格調(diào)整公告

外網(wǎng)吐槽《殺戮尖塔2》角色失衡:獵人必須削

無障礙瀏覽 進入關(guān)懷版