具身導航，感知推理到底是「上帝」，還是執(zhí)行控制是「命門」？| GAIR Live 023

2026-02-12 18:26:04　來源: AI科技評論

廣東舉報

分享至

從“幾何路徑規(guī)劃”到“空間智能”，具身智能正在經(jīng)歷史詩級范式躍遷。

作者丨岑峰

如果說大語言模型（LLM）的爆發(fā)賦予了 AI 思考的“靈魂”，那么具身智能（Embodied AI）的崛起則是要為 AI 打造一副可以感知、行動并改變物理世界的“身體”。在這一進程中，導航技術作為機器人觸達環(huán)境的第一步，正經(jīng)歷著從傳統(tǒng)的“幾何路徑規(guī)劃”向“空間智能”的史詩級范式躍遷。

當下的具身導航早已超越了簡單的 A 點到 B 點的避障。隨著三維視覺、神經(jīng)渲染（NeRF/3DGS）以及端到端（End-to-End）智駕經(jīng)驗的深度融合，機器人的“眼睛”越來越亮，“腿腳”也愈發(fā)靈巧。

這背后隱藏著一場技術范式之爭：具身導航的命門，究竟在于大腦的空間理解與常識推理，還是在于肢體在物理世界中的精密執(zhí)行與安全反饋？

本期 GAIR Live 邀請到了兩位極具代表性的跨界專家——浙江大學百人計劃研究員彭思達博士與具身多模態(tài)大模型算法專家郝孝帥博士。彭思達博士深耕三維視覺與神經(jīng)渲染（如 3DGS、NeRF），代表著具身智能的“眼睛”與空間大腦；郝孝帥博士作為全球首個跨域具身大模型 MiMo-Embodied 的第一作者，擁有深厚的智駕落地經(jīng)驗，代表著具身智能的“雙腿”與實戰(zhàn)決策。

在這場一個半小時的圓桌對話中，兩位專家圍繞具身導航的多個爭議焦點展開了深度碰撞：

? 關于本質：從“幾何位姿”走向“空間語義”。彭思達指出，傳統(tǒng)的“自動化”導航只需建圖并避障，而具身導航的本質是“空間推理”與“意圖理解”的結合。在他看來，導航正演變?yōu)橐环N“具身 VQA（視覺問答）”，機器人需要理解如“幫我找個空的會議室”這類復雜指令并自主漫游決策。郝孝帥則認為，無論是車還是機器人，導航的本質是高層語義指令與物理空間的映射，核心在于如何將模棱兩可的人類需求（如“我渴了”）轉化為尋找水源的主動探索行為。

? 關于范式：端到端決策與“模擬派”的崛起。針對學術界“重感知、輕執(zhí)行”的論斷，彭思達認為，導航不像機械臂抓取那樣涉及復雜的物理交互，其“執(zhí)行”相對成熟，因此高保真仿真環(huán)境（如 3DGS 重建）是提升導航智能的一條路徑，通過“虛擬宇宙”可以生成海量數(shù)據(jù)。郝孝帥則從工業(yè)落地視角提出辯證看法，他認為“有圖與無圖結合”才是具身導航的未來。對于長程導航，完全脫離語義地圖的自主探索極易陷入死循環(huán)，必須借助空間先驗來縮小搜索空間。

? 關于挑戰(zhàn)：解決“視覺幻覺”與記憶負荷。在數(shù)據(jù)層面，兩位專家達成共識：視頻數(shù)據(jù)能提供“通用常識”，但物理規(guī)律必須在真實世界里“撞”出來。彭思達提出用“心靈地圖（Mental Map）”來解決大模型長上下文的內存壓力，通過壓縮空間信息提供全局引導。郝孝帥則警示了具身場景下的“視覺幻覺”風險——機器人可能將鏡子當成通路，或將地毯影當成深坑，這種對物理質感的誤判是具身導航走向深水區(qū)的最大障礙。

? 關于交互：非語言指令與情感的交織。在人機交互方面，郝孝帥分享了對手勢與意圖融合的期待，比如通過“一招手”召喚機器人，或通過“一擺手”讓其避讓，使交互超越文本。彭思達則指出，情感理解是陪伴機器人的核心壁壘，雖然目前大模型在識別語氣神態(tài)上仍顯吃力，但這是實現(xiàn)真正“擬人智能”的長期價值所在。

從學術前沿的“虛擬宇宙”到工業(yè)落地的“物理街道”，兩位專家不僅拆解了具身導航的底層架構，更對未來 5-10 年具身機器人在工業(yè)巡檢、酒店服務乃至家庭伴侶場景的爆發(fā)給出了極具穿透力的預判。

以下為本次圓桌討論的實錄精編，讓我們跟隨兩位專家的思辨，一起走進具身導航爆發(fā)的前夜。

馬曉寧：大家好，歡迎來到今天的GAIR Live 直播。如果說大語言模型賦予了 AI 思考的靈魂，那么具身智能就是為 AI 打造行動的身體。在具身智能領域，導航已不再是簡單的從 A 點到 B 點的路徑規(guī)劃，而是一個演變?yōu)榧曈X感知、空間推理等于一體的系統(tǒng)性挑戰(zhàn)。

今天我們邀請到了兩位重量級嘉賓：浙江大學百人計劃研究員彭思達博士，以及具身多模態(tài)大模型算法專家郝孝帥博士。郝老師也是全球首個跨域具身智能大模型 MiMo-Embodied 的第一作者；彭老師則長期從事三維視覺、神經(jīng)渲染與空間智能的研究。我們將共同探討：具身導航，感知推理到底是‘上帝’，還是執(zhí)行控制是‘命門’？

01
具身導航的本質進化：從“位姿解算”到“空間推理”

馬曉寧：具身導航正經(jīng)歷著一場深刻的范式變革。很多人認為導航就是設計路徑、躲避障礙，但在具身智能語境下，導航內涵已發(fā)生巨大變化。彭老師，從您的視角看，具身導航更偏向于幾何意義上的位姿解算，還是認知層面的空間規(guī)劃？

彭思達：傳統(tǒng)的導航確實偏向幾何。如果我們假設地圖已知、目標點明確，利用 A* 這種算法規(guī)劃出路徑，這個過程可以稱為“自動化”，但很難說是“智能”。

所謂智能，應當像人一樣，大腦能理解并推導指令。隨著大模型的成熟，導航被賦予了新含義。例如，我給機器人下達指令：“幫我去看看某會議室有沒有人，如果有人，找一個空的會議室。”機器人需要先走到目的地，觀察環(huán)境并回答問題，最后返回告知結果。這時，導航的外延與具身 VQA（視覺問答）結合在了一起。具身 VQA 是指智能體在三維空間中自由漫游并回答問題，這個漫游過程本質上就是帶有明確目的性的導航。

馬曉寧：郝老師，您有非常豐富的智駕研究經(jīng)驗。導航應當如何與具身本體結合？

郝孝帥：無論是自動駕駛還是具身機器人，本質都是路徑規(guī)劃問題。汽車、人形機器人、四足機械狗或輪式機器人，實際上只是不同的載體（本體）。它們共同的底層任務都是實現(xiàn)視覺感知、空間推理和行為決策。

如果非要說本質區(qū)別，我認為有三點：

? 反饋頻率與場景結構：智駕導航要求極高頻的實時反饋，場景相對固定且結構化（如車道線、交通標志），其核心是在地圖元素約束下選擇最優(yōu)安全路徑。

? 場景復雜性：具身導航面臨的是非結構化環(huán)境，如會議室里的桌椅電腦、茶水間的咖啡機等，這對視覺感知和空間推理的要求更高。

? 任務鏈條與主動探索：具身導航往往涉及長時理解。比如用戶說“我渴了”，機器人需要推理出“渴了”意味著“找水”，進而定位到“茶水間”。如果在茶水間沒發(fā)現(xiàn)飲水機，機器人還需要具備主動行為探索的能力。雖然本體不同，但兩者都涉及視覺輸入、空間推理到行為決策的高效閉環(huán)。

馬曉寧：既然本質相似，那么具身導航研究的技術核心問題在哪里？請兩位老師分別談談。

彭思達：最大的技術挑戰(zhàn)在于“缺乏先驗地圖”。在自動駕駛中，長程規(guī)劃可以依靠已知的地圖解算。但在具身語境下，前提消失了：機器人不知道目的地在哪。

這引入了三個核心挑戰(zhàn)：

? 環(huán)境構建：如何在移動過程中構建對環(huán)境的理解？

? 記憶存儲：在環(huán)境轉悠一圈后，能否完整記住這些空間信息？

? 信息索引：當接收到指令時，能否準確地從記憶中索引出相關內容。

至于局部規(guī)劃（Local Planning），由于機器人不像汽車那樣對高速安全性有極端要求，必要時可以停下來，因此我認為這雖然是小問題，但相對容易解決。

郝孝帥：我補充一個角度。我認為核心問題是“高層語義指令與物理空間的映射”。

當用戶下達模棱兩可的指令，如“找個空會議室”時，機器人需要強大的空間推理能力和通用常識。

這種常識能告訴機器人：礦泉水大概率出現(xiàn)在桌子上或廚房，而不是臥室。我們需要構建推理模型，將存儲的記憶轉化為通用知識，使機器人能推理出目標物體可能存在的區(qū)域。

02
范式革命：高保真模擬、端到端與具身“去地圖化”之路

馬曉寧：傳統(tǒng) SLAM 導航本質是坐標系對齊，而彭老師現(xiàn)在做的是實時高保真場景渲染。這種“高保真”帶來的感知提升，是否從根本上改變了導航的輸入邏輯？

彭思達：我做高保真渲染的初衷是構建“高保真仿真器”。無論是導航還是操作，具身智能在真實環(huán)境中測試和采集專家數(shù)據(jù)的成本極高。

高保真仿真器的意義在于：

? 場景復刻與訓練：利用三維高斯（3DGS）等技術，我們可以快速從視頻觀測中構建目標場景的仿真環(huán)境，通過大規(guī)模強化學習讓模型在該場景中實現(xiàn)極致性能，從而直接落地。

? 高質量數(shù)據(jù)合成：目前主流研究使用的是比較“假”的基于 Mesh 的資產，泛化能力有限。如果我們把仿真資產換成高保真三維高斯，生成的專家數(shù)據(jù)將顯著提升模型的實戰(zhàn)能力。

馬曉寧：未來導航是基于點云坐標，還是空間語義常識？

彭思達：從目前趨勢看，輸入端依然會以 RGB 或 RGBD（彩色+深度）為主。但我認為 RGB 視頻輸入更為通用。雖然深度信息（Depth）有助于理解幾何結構，但不同廠家的深度傳感器差異巨大，直接輸入模型反而容易干擾性能。

我不傾向于在模型內部構建復雜的點云或 Spatial Box。因為從原始視頻信號轉為 3D 信號的過程中必然存在信息損耗，且計算量巨大。更關鍵的是，3D 數(shù)據(jù)的規(guī)模遠不及視頻數(shù)據(jù)。對于目前的具身模型來說，利用視頻進行可擴展的訓練是更有效的路徑。

馬曉寧：剛才彭老師提到高保真渲染主要用于訓練。那么我想進一步探討：如果一個模糊的世界模型配合強大的大語言模型進行推理，是否就已經(jīng)足夠完成導航任務了？我們是否真的需要高精度的 3D 重建或高保真的場景渲染作為實時輸入？

彭思達：我完全同意這個觀點。高保真渲染并非一定要嵌入到導航模型中，它的核心價值是為模型提供高質量的訓練數(shù)據(jù)或仿真環(huán)境。

從模型架構的角度看，我認為最理想的狀態(tài)是“RGB 視頻輸入，動作指令輸出”。這種端到端的模式非常簡潔，且具備極強的可擴展性。如果在模型中強行嵌入顯示的 3D 結構，一方面從視頻轉 3D 會產生信號損耗，另一方面也會破壞模型的擴展性。

但我認為世界模型不能“太模糊”。目前大模型在處理超長上下文時，能力會顯著下降。雖然文本 Token 比較緊湊，但如果一個機器人在大型別墅中長期運行，積累的視覺數(shù)據(jù)量是驚人的，很容易超出內存或上下文限制。

因此，一個比較理想的狀態(tài)是構建“心靈地圖（Mental Map）”。當機器人在房子里走過一遍后，它在大腦中形成了一個雖然模糊但關鍵的“指揮棒”。在實際執(zhí)行任務時，它主要依賴眼前的實時視覺信號，而心靈地圖則提供全局性的引導。如何科學地構造這種既能壓縮信息又不失關鍵特征的“心靈地圖”，是目前的一個重要挑戰(zhàn)。

馬曉寧：自動駕駛已經(jīng)經(jīng)歷了從高精地圖到依賴實時感知決策的“無圖方案”的過程。郝老師，具身智能導航是否也會經(jīng)歷類似的“去地圖化”過程？

郝孝帥：我認為具身導航是否需要地圖，必須具體情況具體分析。目前如 Object Nav 或 VLN 任務等許多研究更傾向于短程導航，即目之所及的任務，這可以通過目標檢測和安全導航算法較好地解決。

但在真實的具身場景中，長程導航（Long-Horizon Navigation）才是核心難點。比如在一個包含辦公區(qū)、茶水間、陽臺的大型平層或跨樓層環(huán)境中，任務并非“目之所及”。我們去年提出了“A3 導航”概念：理解任何指令、導航到任何位置、找到任何物體。這需要分三步走：首先通過大模型解析模棱兩可的指令；其次讓機器人導航到目標可能存在的區(qū)域；最后在該區(qū)域進行主動感知與搜索以精確定位目標。

在第二步中，語義地圖（Semantic Map）是不可或缺的。如果完全沒有地圖，只靠機器人盲目地主動探索，很容易陷入死循環(huán)，或者在尋找物體的過程中耗費極長時間。而如果我們事先構建好語義地圖，告訴機器人辦公室、茶水間的布局，它就能先快速定位到目標區(qū)域。

因此，我的觀點是：“有圖”與“無圖”相結合才是具身導航的未來。在開放或復雜的真實場景下，單純的自主探索算法效率極低。借助于語義地圖提供的先驗知識，能夠顯著縮小搜索空間。這種地圖不需要高精度，只要能區(qū)分功能區(qū)域即可。這就像一個人來到陌生的城市，如果知道“購物去三里屯”這樣的先驗知識，尋找目標的效率會大大提升。

馬曉寧：在自動駕駛中，視覺幻覺或博弈失效是常見痛點。在室內具身場景下，這些現(xiàn)象會造成什么后果？

郝孝帥：視覺幻覺在智駕中可能導致“誤報”或“漏報”，引發(fā)幽靈剎車或危險闖行。在具身導航中，視覺幻覺主要表現(xiàn)為對透明物體（如玻璃、鏡子）或高光物體的識別失敗。這會造成兩種后果：一是在探索過程中與物體發(fā)生碰撞；二是因為誤判環(huán)境（如將地毯陰影視為深坑）而產生過度規(guī)避，導致機器人無法到達目標點。

關于“博弈失效”，在具身導航中并不像智駕那樣頻繁，因為室內環(huán)境的人機交互相對簡單。除非有人故意站在機器人面前測試其動態(tài)避障能力。雖然碰撞的后果通常不嚴重，但它是驗證算法動態(tài)避障有效性的重要指標。

對于沒有預先建圖的陌生家庭環(huán)境，機器人需要具備空間推理能力。即便沒有地圖，常識會告訴機器人：沙發(fā)通常在客廳，冰箱通常在廚房。同時，隨著機器人在家中的漫游，它可以逐步構建并存儲空間布局和物體關系。雖然小件物體會更新，但大件物體的布局是相對固定的，這構成了機器人的先驗記憶。

馬曉寧：最近阿德萊德大學吳琦教授在AI科技評論向他約稿的一篇文章中提出了一個具有挑戰(zhàn)性的論斷：導航的本質是“重感知與推理，輕執(zhí)行”。郝老師，作為實戰(zhàn)派，您的第一反應是什么？

郝孝帥：我認為這個觀點從學術角度看是有道理的，但需要全面理解。

吳老師的邏輯是：如果你能通過感知準確識別環(huán)境，通過推理確定最優(yōu)路徑，并具備像“導航大腦”一樣的思考能力，那么執(zhí)行就類似于“跑腿”，技術實現(xiàn)上相對成熟。

但我認為，感知推理與執(zhí)行是相輔相成的，類似于人的“大腦”與“小腦”，或者快慢系統(tǒng)。決策做得再好，最終必須落實到執(zhí)行這一環(huán)。執(zhí)行不僅要保證“走過去”，還要保證過程的穩(wěn)定性與安全性。這二者沒有誰更重要，而是一個閉環(huán)系統(tǒng)中不可分割的部分。

彭思達：我理解吳老師的論斷。他可能認為在目前的機器人本體技術下，輪式或足式機器人的移動已經(jīng)做得不錯了，不像“靈巧手”操作那樣復雜。因此，在導航這個命題下，研究重心應當更專注在大腦如何進行感知推理。如果從技術攻堅的優(yōu)先級來看，這個觀點是沒有問題的。

馬曉寧：剛才兩位老師談到了感知的邏輯。接下來我想請教一個近期非常熱門的話題：具身智能的數(shù)據(jù)路線之爭。我們到底應該走真機實測的數(shù)據(jù)收集路線，還是走大規(guī)模的模擬仿真數(shù)據(jù)路線？

彭思達：在導航領域，數(shù)據(jù)的爭議可能沒有機器人操作（Manipulation）領域那么大。操作數(shù)據(jù)的質量爭議在于，仿真環(huán)境與真實物理世界的鴻溝（Gap）實在太大了，它涉及精細的觸覺、復雜的物理反饋等。但導航數(shù)據(jù)相對簡單，其核心邏輯是“第一視角觀測+行動軌跡”。只要能保證觀測信號的真實性以及軌跡的合理性，讓機器人走起來是比較容易實現(xiàn)的。

從這個角度看，真實數(shù)據(jù)并不難收集，無論是人還是機器人，記錄一段漫游視頻及其對應的軌跡，就是一份專家數(shù)據(jù)。同時，模擬數(shù)據(jù)也不是問題。例如利用三維高斯（3DGS）重建環(huán)境，渲染出的視頻極其真實，產生的軌跡也非常合理。因此，在導航層面，我認為真機數(shù)據(jù)與仿真數(shù)據(jù)的差異是可以被抹平的。

馬曉寧：既然導航強調空間感知，那是不是意味著只要讓機器人看上幾百萬小時的視頻，導航問題就能迎刃而解？

彭思達：我不這么認為。這可以用開車來做比喻：有些人看了幾萬小時的駕駛視頻，但到了實際操作時依然不會開。單純的視頻流無法直接驅動復雜的行為邏輯，我們仍然需要一定比例的專家數(shù)據(jù)（行為克?。﹣碛柧毮Ｐ汀?/p>

郝孝帥：我補充一下。目前行業(yè)內普遍采用“視頻預訓練+真機微調”的策略。第一階段，利用海量視頻進行預訓練，主要目的是學習通用常識。比如通過視頻，模型可以理解抓取動作的大致邏輯，或者開車遇到紅綠燈需要停下。這些是跨場景的通用知識。

但視頻數(shù)據(jù)存在兩個核心問題：一是它大多記錄的是“成功案例”，缺乏異?；蚴∏闆r的覆蓋；二是它無法提供真實的物理規(guī)律反饋。例如，視頻里看到一塊地毯，視覺上能走過去，但在具身導航中，你必須通過真實世界的“碰撞”和體驗，才能判斷它到底是一塊平整的地毯，還是一個偽裝成地毯的深坑。

這種物理常識和規(guī)律必須通過真機在物理世界中“撞”出來。所以，第一階段用視頻提供通用常識，第二階段必須用真實數(shù)據(jù)進行后訓練，讓模型學習真實世界的物理法則，這樣才能完成高質量的導航任務。

馬曉寧：接下來我們進入“感知與理解”的主題。具身智能常被比作 AI 的“眼睛”。彭老師，您在三維視覺領域深耕多年，如何讓智能體不僅“看到”幾何結構，還能“理解”細微的語義？神經(jīng)渲染或 3D 高斯建模在其中扮演什么角色？

彭思達：直白地講，我認為傳統(tǒng)的、高度依賴模塊化感知的做法正在遇到瓶頸。以前的模塊化導航流程通常是：輸入圖片、進行三維檢測、構建場景圖（Scene Graph）或地圖，然后由模型判斷是否找到目標并進行路徑搜索。這種方法的上限很低，且存在嚴重的誤差累積。比如我跑過一些算法，我想找桌上的杯子，杯子就在機器人眼前，但它死活找不到。這是因為在“圖像轉三維框”的檢測環(huán)節(jié)，杯子被漏掉了。感知層的缺失直接導致了決策層的癱瘓。

相比之下，這兩年端到端的方法表現(xiàn)越來越強。它將視頻流直接輸入大的 Transformer 架構，通過 Attention 機制讓模型自動 Focus 在指令相關的畫面區(qū)域。

這種范式有兩個優(yōu)勢：第一，它是可優(yōu)化的，避免了模塊化方法中梯度消失的問題；第二，它實現(xiàn)了指令語義與畫面特征的直接關聯(lián)。過去，我們需要人為定義成千上萬個物體的語義接口，極其繁瑣。

我認為，感知的形式正在發(fā)生變化。它不再是獨立存在的檢測模塊，而是會被統(tǒng)一在“感知推理一體化”的大模型中。未來，顯式的三維感知會弱化，取而代之的是我前面提到的“心靈地圖”。它可能只保留房間格局等不變的特征，而具體的感知任務則交由端到端模型直接處理。

馬曉寧：在構建這種世界模型時，如何處理動態(tài)風險或不確定的危機？

彭思達：在具身導航的室內場景中，動態(tài)環(huán)境比自動駕駛簡單得多，畢竟沒有高速行駛帶來的極端風險。我們可以參考智駕的經(jīng)驗，利用海量的專家數(shù)據(jù)覆蓋各種長尾場景。只要訓練數(shù)據(jù)足夠豐富，解決動態(tài)避障等問題并非難事。

馬曉寧：郝老師，自動駕駛中多傳感器融合已非常成熟。在未來具身導航中，視覺之外的毫米波雷達、超聲波、激光雷達等異構感知模態(tài)融合，會面臨什么挑戰(zhàn)？

郝孝帥：多傳感器融合的核心目的在于提供冗余和互補。在惡劣天氣（如下雪、大雨）導致視覺傳感器失效時，毫米波雷達或超聲波能提供關鍵的補充信息。RGB 負責語義信息，激光雷達提供精確的幾何結構。

我認為未來的挑戰(zhàn)主要集中在三個方面：

1. 對齊與融合：如何高效地將不同維度的異構數(shù)據(jù)在空間和時間尺度上精確對齊。

2. 算法效率：在多傳感器數(shù)據(jù)爆發(fā)式增長的情況下，如何設計更融合、更輕量的模型。

3. 傳感器失效的穩(wěn)健性：這是我做過的一項關鍵測試。很多融合模型在某個傳感器（如 RGB）完全失效時，整體性能會直接歸零。這意味著模型過于依賴某個模態(tài)。我們接下來的課題是：如何設計一種模型，即便在部分傳感器損毀或失效的情況下，依然能保持高性能和高魯棒性的運行。

馬曉寧：智駕已經(jīng)覆蓋了城市、鄉(xiāng)村等場景。如果具身導航要實現(xiàn)真正的“跨場景”泛化，需要克服哪些障礙？

郝孝帥：具身導航要實現(xiàn)通用化，至少要克服三個維度的障礙：

1. 語義理解的歧義性：同樣的指令在不同場景下含義完全不同。用戶在家里說“我想休息了”，機器人應該帶他去臥室；如果在辦公室說這句話，機器人應該導向休息室。

2. 通用物理常識的遷移：模型需要具備跨場景的推理能力。無論在公司還是家里，“渴了”都要去找飲水機。模型需要將這些通用常識存儲（無論是通過 Memory 系統(tǒng)還是大模型權重）并實現(xiàn)場景間的平滑遷移。

3. 本體執(zhí)行的異構性：具身導航涉及輪式、足式等多種本體。雖然視覺感知和推理模型可以通用，但最終執(zhí)行環(huán)節(jié)需要針對不同本體的動力學特性進行精細適配。只有打通了“通用大腦”與“差異化小腦”的連接，才能真正跑通跨場景導航。

03
認知推理與深度交互：意圖理解及其局限

馬曉寧：接下來是一個比較發(fā)散性的問題。在與研發(fā)陪伴機器人的朋友交流時，他們提到未來的機器人應當能理解人類的情緒、意圖以及各種非語言指令。我想請問兩位，具身智能如何更好地理解這些非語言信號，并將其融入導航策略中？

郝孝帥：這個話題非常有意思。我們目前更多是在討論如何讓機器人理解模棱兩可的語言指令，但理解人類真實的非語言意圖同樣關鍵。

舉個例子，在居家場景中，如果我向機器人招手，即使不說話，它也應該意識到我是在召喚它過來；或者當機器人在走廊擋住去路時，我擺一擺手，它應當能主動避讓。將人類的姿態(tài)、手勢與文本指令進行融合，會顯著提升居家機器人的交互體驗。

進一步說，如果機器人能理解人類的心理意圖，比如在狹窄通道相遇時，它能通過觀察判斷出你是想先行還是想禮讓，從而避免“搶路”，這種進化到情感層面的感知，會讓機器人真正融入人類生活，而不只是一個生硬的工具。

彭思達：我認為情感理解是陪伴機器人的核心差異化競爭力，但這極具挑戰(zhàn)。

目前的現(xiàn)狀是，即使是最成熟的大語言模型，對人類語氣的識別依然不夠理想。例如，你用悲傷或開心的語氣與模型對話，它往往感知不到差異。既然純音頻的情感識別尚且如此，那么要求陪伴機器人通過神態(tài)、動作來實時感知人類的情緒狀態(tài)并做出導航反饋，比如看到主人垂頭喪氣回家，主動過來安慰，技術難度極大。這是一個長期且非常有價值的研究方向，只有做到這一點，機器人才能實現(xiàn)真正的“擬人智能”。

馬曉寧：接下來我們討論“決策與行動”。郝老師，在具身規(guī)劃控制中，從單純的“避障”到“意圖規(guī)劃”，這種技術演進是如何實現(xiàn)的？

郝孝帥：簡單來說，這本質上是從“空間幾何判斷”向“物理功能升維”的跨越。

在自動駕駛中，意圖規(guī)劃是根據(jù)視覺觀察和其他車輛的行為，在嚴格的交通規(guī)則下判斷是停是行。而在具身操縱領域，情況更為復雜，通常涉及“導航+操縱”的組合任務。

具身智能的一大核心是與物理世界的主動交互。比如指令是“拿一瓶礦泉水”，機器人首先需要規(guī)劃出路徑，如穿過客廳、打開茶水間的門，同時要理解物體的“可利用性”。

意圖規(guī)劃在這里體現(xiàn)為：機器人不僅要走到水瓶前，還要識別出哪一部分是該抓取的區(qū)域，哪一部分是該擰開的瓶蓋。這種對物體交互區(qū)域的理解，取決于對用戶指令的深度拆解。只有從理解意圖到精準執(zhí)行形成閉環(huán)，才能完成精細的具身任務。

馬曉寧：剛才我們也談到了記憶。具身導航如何構建常識記憶能力？在這個過程中有哪些技術挑戰(zhàn)？

郝孝帥：借鑒自動駕駛的經(jīng)驗，所謂的“長時記憶”或“常識”，其實來自于對海量真實場景數(shù)據(jù)的積累。通過收集無數(shù)正常和異常的 Case，系統(tǒng)見識過的場景越多，在遇到突發(fā)狀況時的處理能力就越強。

目前的挑戰(zhàn)在于兩點：

1. 高效檢索：我們擁有海量的數(shù)據(jù)庫，但當機器人當前處于某個場景時，如何快速、精準地檢索出最相似、最有效的記憶片段？這種實時檢索效率是目前的一個技術瓶頸。

2. 動態(tài)更新：這是具身導航與智駕記憶最大的區(qū)別。室內環(huán)境是高度動態(tài)的，你昨天掃描的會議室有十把椅子，今天可能被搬走了。如果記憶是靜態(tài)的，它很快就會失效。因此，具身記憶必須是實時、動態(tài)更新的。這也是為什么我主張采用“分層導航”：先利用記憶導航到大概區(qū)域，再配合實時感知的“自主探索”來定位物體。

彭思達：關于記憶，我可以補充一下目前學術界主流的三種路徑及其局限：

1. 傳統(tǒng)的場景圖：這種層級化的結構（房子-樓層-房間-物體）非常直觀，符合人類邏輯。但在檢索時，如果僅用傳統(tǒng)匹配方法，上限較低。

2. 大模型+文本化：有些研究嘗試將場景圖轉成巨長的文本喂給大模型。但即便經(jīng)過壓縮，文本依然會超出大模型的上下文窗口，導致模型難以從中抽取出關鍵信息。

3. 基于 RAG（檢索增強生成）的方案：例如 Nvidia 之前的研究，通過 RAG 索引關鍵信息再給 LLM。但問題在于，這種索引經(jīng)常會發(fā)生遺漏，導致決策失敗。

目前最新的嘗試包括：用大模型先精簡長文本，或者將場景圖轉為 Token 喂給圖神經(jīng)網(wǎng)絡。但實話說，這些方法的效果都還不理想。

馬曉寧：彭老師，既然場景圖聽起來這么直觀，為什么在實際落地中效果不佳呢？是構建范式的問題嗎？

彭思達：我個人認為場景圖本身存在局限。首先是處理能力問題，即便假設大模型有無限的上下文，如何讓它準確理解復雜的空間拓撲關系依然很難。其次，正如你提到的，場景圖往往是靜態(tài)的，如何將其演進為“4D 場景圖”以應對動態(tài)變化，目前還缺乏非常有效的手段。即使是處理靜態(tài)環(huán)境，目前的模型在檢索精度上也遠未達到理想水平。

馬曉寧：有一種觀點認為，這種分層級的結構化描述方式可能是一個錯誤的路線，兩位怎么看？

郝孝帥：我倒不認為這是一個錯誤的路線。相反，場景圖是非常符合人類直觀感受的——先確定樓層，再確定房間，最后定位到房間內的物體。這種分級思維在邏輯上是非常順暢的。

彭思達：我也認同這不是路線錯誤，目前的短板主要在于大語言模型處理此類結構化數(shù)據(jù)的方式不夠高效。我們需要探索的是如何讓 LLM 與場景圖進行更深度的交互。

郝孝帥：彭老師，我想請教一下，您認為大模型目前處理場景圖效果不佳，是因為模型本身的能力瓶頸，還是數(shù)據(jù)格式轉換帶來的問題？

彭思達：我認為并非大模型本身不行，而是交互方式存在“信息損耗”。我非常推崇 DeepSeek 關于 OCR 的那篇論文提出的核心觀點：“一圖勝千言”。

直接將原始圖像喂給視覺語言模型（VLM），模型能夠獲取極佳的感性理解。但如果先用極其詳細的文字去描述這張圖片的所有細節(jié)，然后再把這段冗長的文字喂給模型，模型理解的效果反而會變差。這是因為文字在轉譯過程中會丟失大量空間上下文信息，且過長的文本序列會分散模型的注意力。

具身導航也是同理。如果我們非要把龐大的三維空間壓縮成一個超級長的場景圖，再轉換成文本喂給 VLM，信息在經(jīng)過多次轉手和描述后會發(fā)生瘋狂的變形和缺失。這種“轉譯損失”才是導致效果不佳的根本原因。

04
Sim2Real 遷移 & 未來展望

馬曉寧：感謝彭老師的深入剖析。順著這個話題，您提到高保真三維重建的模擬環(huán)境可以幫助后續(xù)的強化學習。這種高保真環(huán)境具體如何賦能導航策略的迭代？在從虛擬環(huán)境遷移到真實環(huán)境（Sim2Real）時，會面臨哪些挑戰(zhàn)？

彭思達：首先談談虛實遷移的問題。在過去，這確實是一個巨大的門檻。如果你用過傳統(tǒng)的 Habitat 模擬器，就會發(fā)現(xiàn)它的渲染質量非常簡陋，由于視覺信號太“假”，在模擬器里訓練出的模型直接部署到真實環(huán)境幾乎跑不起來。研究者被迫加入大量的專家數(shù)據(jù)進行開環(huán)訓練來彌補這一差距。

但現(xiàn)在的技術范式發(fā)生了改變。三維高斯（3DGS）等技術的出現(xiàn)，讓三維掃描生成的模擬場景在視覺質量上幾乎等同于真實環(huán)境的視頻漫游。在這種高保真的環(huán)境下訓練模型，從視覺信號層面看，模擬與真實的鴻溝（Gap）已經(jīng)非常微小，幾乎到了肉眼難辨的程度。

至于模擬器對迭代的幫助，其意義在于效率的指數(shù)級提升。在真實環(huán)境中部署測試是串行過程，你一次只能用一個機器人跑一個場景，且需要漫長的等待。而在仿真環(huán)境下，我們可以同時開啟 1000 個不同的環(huán)境進行并行訓練和測試。這種大規(guī)模并行的能力，是具身智能走向通用化的必然路徑。

馬曉寧：具身智能對計算資源的實時性和延時性要求極高。在三維感知和構建模型時，我們如何平衡模型的復雜度與邊緣側計算資源的限制？

彭思達：這里需要聲明一個概念：高保真的仿真環(huán)境主要是在“訓練階段”使用的，它是事先在高性能服務器上建好的。當導航智能體真正部署到機器人端進行實時工作時，它并不需要在線去構建這些復雜模型，而更多是利用訓練好的策略進行推理。因此，高精度渲染并不會直接拖慢實機運行的延遲。

馬曉寧：明白。訓練在云端或服務器進行，執(zhí)行在邊緣端，這解耦了計算壓力。

馬曉寧：關于決策與行動，最后一個繞不開的話題是安全性。在面臨未知、異常且多變的環(huán)境時，我們如何確保具身導航的安全性？

彭思達：在安全性上，我認為具身導航可以完全參考自動駕駛的經(jīng)驗，通過大規(guī)模數(shù)據(jù)覆蓋和閉環(huán)測試來解決?？陀^來講，具身導航的安全性挑戰(zhàn)比自動駕駛要簡單得多。自動駕駛是在高速運動中博弈，對實時性和容錯率要求極高。而機器人導航是在相對慢速的環(huán)境下運行，不撞到人是底線。只要避障策略足夠魯棒，安全性是不成問題的，甚至不需要像汽車那樣過度考慮乘坐的舒適性。

郝孝帥：我非常贊同。在惡劣天氣或極端異常環(huán)境下，自動駕駛系統(tǒng)的安全性面臨巨大考驗。但目前的具身導航在動態(tài)避障方面已經(jīng)做得非常出色了。無論是輪式還是足式機器人，只要設定好 A 點到 B 點，即便路徑上突然出現(xiàn)行人，機器人也能迅速做出反應并繞行。更重要的是，機器人的移動速度很慢，每一步大約只有 10 到 15 厘米，這種低速運行狀態(tài)本身就為系統(tǒng)響應留下了充足的時間緩沖，安全性非常有保障。

馬曉寧：今天的討論非常精彩，兩位老師分享了許多硬核且具前瞻性的見解。最后，請兩位對未來 5 到 10 年具身智能導航的發(fā)展做一個簡單展望。

郝孝帥：我認為落地效果最好的首先會是工業(yè)機器人，其次是辦公場景下的服務機器人。從長遠來看，我非常期待具備情感理解和非語言意圖識別能力的居家機器人。當我們的機器人能理解主人的手勢、情緒和真實想法，并能無縫融入各種生活場景進行服務，那將是具身智能真正造福人類的時刻。

彭思達：我看好兩個方向。首先是導航技術將迅速增強現(xiàn)有的機器人品類。比如酒店服務機器人、園區(qū)清潔機器人、家用的掃地機器人，以前它們更多是按固定路線“死板”地運行，效率較低。具備空間智能后的導航技術能讓這些機器人實現(xiàn)階段性的智力躍遷。

其次是陪伴型機器人。這類產品不需要追求 100% 的完美智能就能產生商業(yè)價值。比如一款能跟著小孩跑、能進行簡單互動的機器人小狗，其對導航和感知的要求適中，但能帶來很好的用戶體驗。隨著技術演進，最終會向高階的養(yǎng)老陪伴、全能家政機器人進化。

馬曉寧：感謝彭思達老師和郝孝帥老師。從高保真環(huán)境的強化學習，到場景圖與大模型的糾葛，再到對未來社會場景的描繪，今天的直播讓我們對具身導航有了全方位的認識。感謝兩位嘉賓，也感謝各位觀眾的參與，我們下次再見！

彭思達、郝孝帥：謝謝大家，再見。

完整視頻觀看地址：https://youtu.be/vQxfw3ghuPo

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.