一文速通「機(jī)器人3D場景表示」發(fā)展史

2026-01-23 13:01:05　來源: 機(jī)器之心Pro

廣西舉報

分享至

隨著機(jī)器人領(lǐng)域的飛速發(fā)展，我們有一個問題不斷需要思考，究竟如何讓機(jī)器人像人類一樣理解世界，學(xué)習(xí)周圍環(huán)境的表示。對于機(jī)器人來說，究竟是需要精確的坐標(biāo)，還是語義的物體概念，還是隱式的空間認(rèn)識推理模型？

在本文中，上海交通大學(xué)、波恩大學(xué)等院校的研究團(tuán)隊全面總結(jié)了當(dāng)前機(jī)器人技術(shù)中常用的場景表示方法。這些方法包括傳統(tǒng)的點云、體素柵格、符號距離函數(shù)以及場景圖等傳統(tǒng)幾何表示方式，同時也涵蓋了最新的神經(jīng)網(wǎng)絡(luò)表示技術(shù)，如神經(jīng)輻射場、3D 高斯散布模型以及新興的 3D 基礎(chǔ)模型。

雖然目前的 SLAM 與定位系統(tǒng)主要依賴點云、體素這類稀疏表示方式，但密集型場景表示方法在導(dǎo)航、避障等后續(xù)任務(wù)中無疑會發(fā)揮關(guān)鍵作用。此外，神經(jīng)輻射場、3D 高斯散布模型以及基礎(chǔ)模型這類神經(jīng)網(wǎng)絡(luò)表示技術(shù)，非常適合整合高層次的語義信息與基于語言的先驗知識，從而實現(xiàn)更全面的 3D 場景理解與智能體行為控制。本文的目標(biāo)是為新手和資深研究人員提供一份有價值的參考資料，幫助他們探索 3D 場景表示技術(shù)的未來發(fā)展方向及其在機(jī)器人技術(shù)中的應(yīng)用。

標(biāo)題：What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
作者：Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
機(jī)構(gòu)：Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
原文鏈接：https://arxiv.org/abs/2512.03422
代碼鏈接：https://github.com/dtc111111/awesomerepresentation-for-robotics

一、機(jī)器人 3D 場景發(fā)展史

機(jī)器人 3D 場景表示發(fā)展史和代表性工作

幾何場景表示：

Point Cloud 點云場景表示：通過離散的三維點來表示場景，通過雷達(dá)或者相機(jī)傳感器獲得。
Voxel 體素場景表示：通過將三維空間離散化，轉(zhuǎn)變成規(guī)則的立方體柵格，通過在柵格內(nèi)存儲不同的信息，比如密度，占用率等實現(xiàn)場景建模
Mesh 網(wǎng)格場景表示：通過三角化面片構(gòu)建連續(xù)的場景幾何場景表示，精細(xì)度更高。
SDF 符號距離場：通過表示空間點到物體表面的距離，實現(xiàn)連續(xù)的場景幾何表示。

近年來，深度學(xué)習(xí)、計算機(jī)圖形學(xué)與機(jī)器人技術(shù)的融合推動了顯著進(jìn)展。在眾多推動這一進(jìn)展的技術(shù)中，神經(jīng)輻射場（NeRF）、三維高斯濺射和基礎(chǔ)模型（Foundation Model，F(xiàn)M）作為極具前景的創(chuàng)新脫穎而出，從而實現(xiàn)真正的通用具身智能。

機(jī)器人 3D 三維表征研究熱度變化

3D 神經(jīng)場景表示

NeRF 神經(jīng)輻射場：通過連續(xù)的場景表示讓機(jī)器人理解世界，基于神經(jīng)網(wǎng)絡(luò) MLP 構(gòu)建，可以進(jìn)行地圖預(yù)測，但是速度較慢。
3DGS 高斯?jié)姙R：將場景表示為 3D 高斯橢球，從而實現(xiàn)高速的渲染，適合實時建圖。
Foundation Model 基礎(chǔ)模型：通過現(xiàn)有的 transformer 等編碼器，將三維世界壓縮成類似于語言的 token，將三維世界的理解變成可推理的人類語言。從而實現(xiàn)空間感知推理，成為「3D 版本的 GPT」。

三維場景表征在機(jī)器人不同模塊的應(yīng)用：感知，建圖，定位，操作，導(dǎo)航

在建圖和定位模塊（第 V 節(jié)）中，現(xiàn)有方法在 SLAM 和定位領(lǐng)域取得了令人矚目的成果。神經(jīng)場景表示能夠?qū)崿F(xiàn)對環(huán)境的更精確、更密集的建模，這對避障特別有益。這一能力對于機(jī)器人的導(dǎo)航和操作至關(guān)重要。

該模塊分為三部分：（i）場景重建：場景表示的地圖重建能力包括幾何精度和渲染質(zhì)量，以及在靜態(tài)場景、大規(guī)模戶外場景和動態(tài)場景中的重建能力。（iii）SLAM：SLAM 部分主要包括不同場景表示方法在 SLAM 過程中的地圖精度、位姿精度和實時性能。（iv）全局定位：全局定位主要涉及使用現(xiàn)有地圖進(jìn)行定位時的精度和實時性能。

在操作模塊（第 VI-A 節(jié)）中，本文主要比較了基于不同場景表示方法的抓取框架。傳統(tǒng)方法在抓取方面具有更高的實時性能和計算效率，但在泛化能力和處理復(fù)雜目標(biāo)操作任務(wù)方面存在局限。相比之下，基于神經(jīng)網(wǎng)絡(luò)的場景表示在生成新視角和跨多個場景泛化方面具有一定能力，使其更能適應(yīng)復(fù)雜任務(wù)?；诨A(chǔ)模型的方法能夠?qū)崿F(xiàn)零樣本抓取任務(wù)，具備強(qiáng)大的泛化能力。此外，語言信息的集成使這些模型能夠支持交互式抓取，并增強(qiáng)了它們理解和規(guī)劃高級認(rèn)知任務(wù)的能力。

在導(dǎo)航模塊（第 VI 節(jié)）中，與傳統(tǒng)的場景表示方法相比，神經(jīng)場景表示能夠提供高度準(zhǔn)確的環(huán)境重建。此外，它們還有助于更好地融合語義和語言信息，從而能夠執(zhí)行更復(fù)雜的導(dǎo)航任務(wù)。我們將導(dǎo)航模塊分為兩個部分：（i）規(guī)劃：從當(dāng)前位置到目標(biāo)目的地生成最優(yōu)或可行路徑，同時避開障礙物。（ii）探索：主動導(dǎo)航并繪制先前未知區(qū)域的地圖。

不同 3D 場景表示的特點對比，包含連續(xù)性，存儲效率，真實性，靈活性，幾何表示精度。

二、現(xiàn)有方法的問題與未來發(fā)展方向

1、端到端通用網(wǎng)絡(luò)還是模塊化？

目前，大多數(shù)機(jī)器人系統(tǒng)都建立在模塊化智能（Modular Intelligence）的基礎(chǔ)上。為了完成復(fù)雜任務(wù)，系統(tǒng)會將導(dǎo)航或操作等功能分解為獨立的模塊，例如感知、建圖、定位、操作和導(dǎo)航。這種設(shè)計雖然有助于實現(xiàn)各種機(jī)器人功能，但其模塊化特性在本質(zhì)上可能會限制機(jī)器人智能的進(jìn)一步發(fā)展。

盡管模塊化解決方案引入了有用的歸納偏置（Inductive Biases）并支持有效的特定任務(wù)性能，但它們通常面臨泛化能力有限和遷移性差的問題。在實際應(yīng)用中，這些系統(tǒng)往往需要在不同場景下進(jìn)行重復(fù)的傳感器校準(zhǔn)、特定環(huán)境建模以及參數(shù)重新調(diào)優(yōu)。此外，在高度復(fù)雜的環(huán)境中，構(gòu)建精確的模型仍然極具挑戰(zhàn)性?；A(chǔ)模型的最新進(jìn)展提供了一條替代路徑，即實現(xiàn)端到端智能。

2、數(shù)據(jù)瓶頸

盡管神經(jīng)場景表示（Neural Scene Representations）在準(zhǔn)確性和泛化性方面具有顯著優(yōu)勢，但一個主要的挑戰(zhàn)在于，與訓(xùn)練大語言模型（LLM）和視覺語言模型（VLM）所使用的互聯(lián)網(wǎng)規(guī)模的文本與圖像語料庫相比，機(jī)器人特有的數(shù)據(jù)非常匱乏。這種局限性顯著阻礙了機(jī)器人領(lǐng)域神經(jīng)場景表示和基礎(chǔ)模型的發(fā)展。

為了解決這一問題，研究重點已轉(zhuǎn)向增強(qiáng)神經(jīng)場景表示在有限數(shù)據(jù)情況下的泛化能力。另一個方向則是利用世界模型（World Models）來預(yù)測以動作為條件的（Conditioned on actions）狀態(tài)轉(zhuǎn)移，從而生成額外的訓(xùn)練數(shù)據(jù)集。

3、實時性瓶頸

與傳統(tǒng)的場景表示相比，在機(jī)器人領(lǐng)域部署神經(jīng)場景表示的另一個關(guān)鍵瓶頸在于其推理時間（Inference Time），這仍是制約可靠實時應(yīng)用的一個限制因素。目前神經(jīng)網(wǎng)絡(luò)的部署策略通常分為兩大類：

第一類是基于云端的部署。通常托管在遠(yuǎn)程數(shù)據(jù)中心，并通過 API 進(jìn)行訪問。在這種模式下，響應(yīng)延遲和服務(wù)時間很大程度上取決于底層的網(wǎng)絡(luò)路由、帶寬以及數(shù)據(jù)中心的計算能力。因此，在將此類模型集成到自主機(jī)器人技術(shù)棧之前，必須仔細(xì)權(quán)衡網(wǎng)絡(luò)的可靠性和延遲問題。

第二類是邊緣計算平臺上的車載 / 機(jī)載部署（Onboard Deployment）。此類方案通常采用模型蒸餾（Model Distillation）和量化（Quantization）等技術(shù)來減小模型體積，從而實現(xiàn)實時推理。然而，這往往以犧牲泛化能力為代價。一個極具前景的未來方向在于硬件 - 算法協(xié)同設(shè)計（Hardware–Algorithm Co-design），旨在同時提高推理效率并保持模型的泛化性能，以滿足機(jī)器人實時部署的需求。

本文探討了機(jī)器人不同模塊最適合的三維場景表示方法，研究了相關(guān)方法、并討論了挑戰(zhàn)和未來方向。本文的主要貢獻(xiàn)如下：

全面、最新的綜述與基準(zhǔn)測試：本文對機(jī)器人領(lǐng)域的不同場景表示方法進(jìn)行了廣泛且最新的綜述，涵蓋了經(jīng)典方法和前沿方法。對于每個模塊，團(tuán)隊都提供了詳細(xì)介紹，并突出了該模塊中不同場景表示的優(yōu)勢。
三維場景表示的未來方向：在機(jī)器人領(lǐng)域的每個模塊中，團(tuán)隊指出了當(dāng)前研究的技術(shù)局限性，并提出了幾個有前景的未來研究方向，旨在激勵這一快速發(fā)展領(lǐng)域的進(jìn)一步進(jìn)步。
開源項目：團(tuán)隊在 GitHub 上發(fā)布了一個開源項目，整理了機(jī)器人領(lǐng)域不同場景表示的相關(guān)文章，并將繼續(xù)向該項目添加新的研究成果和技術(shù)，網(wǎng)址為https://github.com/dtc111111/awesome-representation-for-robotics。團(tuán)隊希望更多研究人員能夠利用它獲取最新的研究信息。

對更多實驗結(jié)果和文章細(xì)節(jié)感興趣的讀者，可以閱讀一下論文原文～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.