国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身導航,感知推理到底是「上帝」,還是執(zhí)行控制是「命門」?| GAIR Live 023

0
分享至


從“幾何路徑規(guī)劃”到“空間智能”,具身智能正在經(jīng)歷史詩級范式躍遷。

作者丨岑峰

如果說大語言模型(LLM)的爆發(fā)賦予了 AI 思考的“靈魂”,那么具身智能(Embodied AI)的崛起則是要為 AI 打造一副可以感知、行動并改變物理世界的“身體”。在這一進程中,導航技術作為機器人觸達環(huán)境的第一步,正經(jīng)歷著從傳統(tǒng)的“幾何路徑規(guī)劃”向“空間智能”的史詩級范式躍遷。

當下的具身導航早已超越了簡單的 A 點到 B 點的避障。隨著三維視覺、神經(jīng)渲染(NeRF/3DGS)以及端到端(End-to-End)智駕經(jīng)驗的深度融合,機器人的“眼睛”越來越亮,“腿腳”也愈發(fā)靈巧。

這背后隱藏著一場技術范式之爭:具身導航的命門,究竟在于大腦的空間理解與常識推理,還是在于肢體在物理世界中的精密執(zhí)行與安全反饋?

本期 GAIR Live 邀請到了兩位極具代表性的跨界專家——浙江大學百人計劃研究員彭思達博士具身多模態(tài)大模型算法專家郝孝帥博士。彭思達博士深耕三維視覺與神經(jīng)渲染(如 3DGS、NeRF),代表著具身智能的“眼睛”與空間大腦;郝孝帥博士作為全球首個跨域具身大模型 MiMo-Embodied 的第一作者,擁有深厚的智駕落地經(jīng)驗,代表著具身智能的“雙腿”與實戰(zhàn)決策。

在這場一個半小時的圓桌對話中,兩位專家圍繞具身導航的多個爭議焦點展開了深度碰撞:

? 關于本質:從“幾何位姿”走向“空間語義”。彭思達指出,傳統(tǒng)的“自動化”導航只需建圖并避障,而具身導航的本質是“空間推理”與“意圖理解”的結合。在他看來,導航正演變?yōu)橐环N“具身 VQA(視覺問答)”,機器人需要理解如“幫我找個空的會議室”這類復雜指令并自主漫游決策。郝孝帥則認為,無論是車還是機器人,導航的本質是高層語義指令與物理空間的映射,核心在于如何將模棱兩可的人類需求(如“我渴了”)轉化為尋找水源的主動探索行為。

? 關于范式:端到端決策與“模擬派”的崛起。針對學術界“重感知、輕執(zhí)行”的論斷,彭思達認為,導航不像機械臂抓取那樣涉及復雜的物理交互,其“執(zhí)行”相對成熟,因此高保真仿真環(huán)境(如 3DGS 重建)是提升導航智能的一條路徑,通過“虛擬宇宙”可以生成海量數(shù)據(jù)。郝孝帥則從工業(yè)落地視角提出辯證看法,他認為“有圖與無圖結合”才是具身導航的未來。對于長程導航,完全脫離語義地圖的自主探索極易陷入死循環(huán),必須借助空間先驗來縮小搜索空間。

? 關于挑戰(zhàn):解決“視覺幻覺”與記憶負荷。在數(shù)據(jù)層面,兩位專家達成共識:視頻數(shù)據(jù)能提供“通用常識”,但物理規(guī)律必須在真實世界里“撞”出來。彭思達提出用“心靈地圖(Mental Map)”來解決大模型長上下文的內存壓力,通過壓縮空間信息提供全局引導。郝孝帥則警示了具身場景下的“視覺幻覺”風險——機器人可能將鏡子當成通路,或將地毯影當成深坑,這種對物理質感的誤判是具身導航走向深水區(qū)的最大障礙。

? 關于交互:非語言指令與情感的交織。在人機交互方面,郝孝帥分享了對手勢與意圖融合的期待,比如通過“一招手”召喚機器人,或通過“一擺手”讓其避讓,使交互超越文本。彭思達則指出,情感理解是陪伴機器人的核心壁壘,雖然目前大模型在識別語氣神態(tài)上仍顯吃力,但這是實現(xiàn)真正“擬人智能”的長期價值所在。

從學術前沿的“虛擬宇宙”到工業(yè)落地的“物理街道”,兩位專家不僅拆解了具身導航的底層架構,更對未來 5-10 年具身機器人在工業(yè)巡檢、酒店服務乃至家庭伴侶場景的爆發(fā)給出了極具穿透力的預判。

以下為本次圓桌討論的實錄精編,讓我們跟隨兩位專家的思辨,一起走進具身導航爆發(fā)的前夜。


馬曉寧:大家好,歡迎來到今天的GAIR Live 直播。如果說大語言模型賦予了 AI 思考的靈魂,那么具身智能就是為 AI 打造行動的身體。在具身智能領域,導航已不再是簡單的從 A 點到 B 點的路徑規(guī)劃,而是一個演變?yōu)榧曈X感知、空間推理等于一體的系統(tǒng)性挑戰(zhàn)。

今天我們邀請到了兩位重量級嘉賓:浙江大學百人計劃研究員彭思達博士,以及具身多模態(tài)大模型算法專家郝孝帥博士。郝老師也是全球首個跨域具身智能大模型 MiMo-Embodied 的第一作者;彭老師則長期從事三維視覺、神經(jīng)渲染與空間智能的研究。我們將共同探討:具身導航,感知推理到底是‘上帝’,還是執(zhí)行控制是‘命門’?

01
具身導航的本質進化:從“位姿解算”到“空間推理”

馬曉寧:具身導航正經(jīng)歷著一場深刻的范式變革。很多人認為導航就是設計路徑、躲避障礙,但在具身智能語境下,導航內涵已發(fā)生巨大變化。彭老師,從您的視角看,具身導航更偏向于幾何意義上的位姿解算,還是認知層面的空間規(guī)劃?

彭思達:傳統(tǒng)的導航確實偏向幾何。如果我們假設地圖已知、目標點明確,利用 A* 這種算法規(guī)劃出路徑,這個過程可以稱為“自動化”,但很難說是“智能”。

所謂智能,應當像人一樣,大腦能理解并推導指令。隨著大模型的成熟,導航被賦予了新含義。例如,我給機器人下達指令:“幫我去看看某會議室有沒有人,如果有人,找一個空的會議室。”機器人需要先走到目的地,觀察環(huán)境并回答問題,最后返回告知結果。這時,導航的外延與具身 VQA(視覺問答)結合在了一起。具身 VQA 是指智能體在三維空間中自由漫游并回答問題,這個漫游過程本質上就是帶有明確目的性的導航。

馬曉寧:郝老師,您有非常豐富的智駕研究經(jīng)驗。導航應當如何與具身本體結合?

郝孝帥:無論是自動駕駛還是具身機器人,本質都是路徑規(guī)劃問題。汽車、人形機器人、四足機械狗或輪式機器人,實際上只是不同的載體(本體)。它們共同的底層任務都是實現(xiàn)視覺感知、空間推理和行為決策。

如果非要說本質區(qū)別,我認為有三點:

? 反饋頻率與場景結構: 智駕導航要求極高頻的實時反饋,場景相對固定且結構化(如車道線、交通標志),其核心是在地圖元素約束下選擇最優(yōu)安全路徑。

? 場景復雜性: 具身導航面臨的是非結構化環(huán)境,如會議室里的桌椅電腦、茶水間的咖啡機等,這對視覺感知和空間推理的要求更高。

? 任務鏈條與主動探索: 具身導航往往涉及長時理解。比如用戶說“我渴了”,機器人需要推理出“渴了”意味著“找水”,進而定位到“茶水間”。如果在茶水間沒發(fā)現(xiàn)飲水機,機器人還需要具備主動行為探索的能力。雖然本體不同,但兩者都涉及視覺輸入、空間推理到行為決策的高效閉環(huán)。

馬曉寧:既然本質相似,那么具身導航研究的技術核心問題在哪里?請兩位老師分別談談。

彭思達:最大的技術挑戰(zhàn)在于“缺乏先驗地圖”。在自動駕駛中,長程規(guī)劃可以依靠已知的地圖解算。但在具身語境下,前提消失了:機器人不知道目的地在哪。

這引入了三個核心挑戰(zhàn):

? 環(huán)境構建: 如何在移動過程中構建對環(huán)境的理解?

? 記憶存儲: 在環(huán)境轉悠一圈后,能否完整記住這些空間信息?

? 信息索引: 當接收到指令時,能否準確地從記憶中索引出相關內容。

至于局部規(guī)劃(Local Planning),由于機器人不像汽車那樣對高速安全性有極端要求,必要時可以停下來,因此我認為這雖然是小問題,但相對容易解決。

郝孝帥:我補充一個角度。我認為核心問題是“高層語義指令與物理空間的映射”。

當用戶下達模棱兩可的指令,如“找個空會議室”時,機器人需要強大的空間推理能力和通用常識。

這種常識能告訴機器人:礦泉水大概率出現(xiàn)在桌子上或廚房,而不是臥室。我們需要構建推理模型,將存儲的記憶轉化為通用知識,使機器人能推理出目標物體可能存在的區(qū)域。

02
范式革命:高保真模擬、端到端與具身“去地圖化”之路

馬曉寧:傳統(tǒng) SLAM 導航本質是坐標系對齊,而彭老師現(xiàn)在做的是實時高保真場景渲染。這種“高保真”帶來的感知提升,是否從根本上改變了導航的輸入邏輯?

彭思達:我做高保真渲染的初衷是構建“高保真仿真器”。無論是導航還是操作,具身智能在真實環(huán)境中測試和采集專家數(shù)據(jù)的成本極高。

高保真仿真器的意義在于:

? 場景復刻與訓練: 利用三維高斯(3DGS)等技術,我們可以快速從視頻觀測中構建目標場景的仿真環(huán)境,通過大規(guī)模強化學習讓模型在該場景中實現(xiàn)極致性能,從而直接落地。

? 高質量數(shù)據(jù)合成: 目前主流研究使用的是比較“假”的基于 Mesh 的資產,泛化能力有限。如果我們把仿真資產換成高保真三維高斯,生成的專家數(shù)據(jù)將顯著提升模型的實戰(zhàn)能力。

馬曉寧:未來導航是基于點云坐標,還是空間語義常識?

彭思達:從目前趨勢看,輸入端依然會以 RGB 或 RGBD(彩色+深度)為主。但我認為 RGB 視頻輸入更為通用。雖然深度信息(Depth)有助于理解幾何結構,但不同廠家的深度傳感器差異巨大,直接輸入模型反而容易干擾性能。

我不傾向于在模型內部構建復雜的點云或 Spatial Box。因為從原始視頻信號轉為 3D 信號的過程中必然存在信息損耗,且計算量巨大。更關鍵的是,3D 數(shù)據(jù)的規(guī)模遠不及視頻數(shù)據(jù)。對于目前的具身模型來說,利用視頻進行可擴展的訓練是更有效的路徑。

馬曉寧:剛才彭老師提到高保真渲染主要用于訓練。那么我想進一步探討:如果一個模糊的世界模型配合強大的大語言模型進行推理,是否就已經(jīng)足夠完成導航任務了?我們是否真的需要高精度的 3D 重建或高保真的場景渲染作為實時輸入?

彭思達:我完全同意這個觀點。高保真渲染并非一定要嵌入到導航模型中,它的核心價值是為模型提供高質量的訓練數(shù)據(jù)或仿真環(huán)境。

從模型架構的角度看,我認為最理想的狀態(tài)是“RGB 視頻輸入,動作指令輸出”。這種端到端的模式非常簡潔,且具備極強的可擴展性。如果在模型中強行嵌入顯示的 3D 結構,一方面從視頻轉 3D 會產生信號損耗,另一方面也會破壞模型的擴展性。

但我認為世界模型不能“太模糊”。目前大模型在處理超長上下文時,能力會顯著下降。雖然文本 Token 比較緊湊,但如果一個機器人在大型別墅中長期運行,積累的視覺數(shù)據(jù)量是驚人的,很容易超出內存或上下文限制。

因此,一個比較理想的狀態(tài)是構建“心靈地圖(Mental Map)”。當機器人在房子里走過一遍后,它在大腦中形成了一個雖然模糊但關鍵的“指揮棒”。在實際執(zhí)行任務時,它主要依賴眼前的實時視覺信號,而心靈地圖則提供全局性的引導。如何科學地構造這種既能壓縮信息又不失關鍵特征的“心靈地圖”,是目前的一個重要挑戰(zhàn)。

馬曉寧:自動駕駛已經(jīng)經(jīng)歷了從高精地圖到依賴實時感知決策的“無圖方案”的過程。郝老師,具身智能導航是否也會經(jīng)歷類似的“去地圖化”過程?

郝孝帥:我認為具身導航是否需要地圖,必須具體情況具體分析。目前如 Object Nav 或 VLN 任務等許多研究更傾向于短程導航,即目之所及的任務,這可以通過目標檢測和安全導航算法較好地解決。

但在真實的具身場景中,長程導航(Long-Horizon Navigation)才是核心難點。比如在一個包含辦公區(qū)、茶水間、陽臺的大型平層或跨樓層環(huán)境中,任務并非“目之所及”。我們去年提出了“A3 導航”概念:理解任何指令、導航到任何位置、找到任何物體。這需要分三步走:首先通過大模型解析模棱兩可的指令;其次讓機器人導航到目標可能存在的區(qū)域;最后在該區(qū)域進行主動感知與搜索以精確定位目標。

在第二步中,語義地圖(Semantic Map)是不可或缺的。如果完全沒有地圖,只靠機器人盲目地主動探索,很容易陷入死循環(huán),或者在尋找物體的過程中耗費極長時間。而如果我們事先構建好語義地圖,告訴機器人辦公室、茶水間的布局,它就能先快速定位到目標區(qū)域。

因此,我的觀點是:“有圖”與“無圖”相結合才是具身導航的未來。在開放或復雜的真實場景下,單純的自主探索算法效率極低。借助于語義地圖提供的先驗知識,能夠顯著縮小搜索空間。這種地圖不需要高精度,只要能區(qū)分功能區(qū)域即可。這就像一個人來到陌生的城市,如果知道“購物去三里屯”這樣的先驗知識,尋找目標的效率會大大提升。

馬曉寧:在自動駕駛中,視覺幻覺或博弈失效是常見痛點。在室內具身場景下,這些現(xiàn)象會造成什么后果?

郝孝帥:視覺幻覺在智駕中可能導致“誤報”或“漏報”,引發(fā)幽靈剎車或危險闖行。在具身導航中,視覺幻覺主要表現(xiàn)為對透明物體(如玻璃、鏡子)或高光物體的識別失敗。 這會造成兩種后果:一是在探索過程中與物體發(fā)生碰撞;二是因為誤判環(huán)境(如將地毯陰影視為深坑)而產生過度規(guī)避,導致機器人無法到達目標點。

關于“博弈失效”,在具身導航中并不像智駕那樣頻繁,因為室內環(huán)境的人機交互相對簡單。除非有人故意站在機器人面前測試其動態(tài)避障能力。雖然碰撞的后果通常不嚴重,但它是驗證算法動態(tài)避障有效性的重要指標。

對于沒有預先建圖的陌生家庭環(huán)境,機器人需要具備空間推理能力。即便沒有地圖,常識會告訴機器人:沙發(fā)通常在客廳,冰箱通常在廚房。同時,隨著機器人在家中的漫游,它可以逐步構建并存儲空間布局和物體關系。雖然小件物體會更新,但大件物體的布局是相對固定的,這構成了機器人的先驗記憶。

馬曉寧:最近阿德萊德大學吳琦教授在AI科技評論向他約稿的一篇文章中提出了一個具有挑戰(zhàn)性的論斷:導航的本質是“重感知與推理,輕執(zhí)行”。郝老師,作為實戰(zhàn)派,您的第一反應是什么?

郝孝帥:我認為這個觀點從學術角度看是有道理的,但需要全面理解。

吳老師的邏輯是:如果你能通過感知準確識別環(huán)境,通過推理確定最優(yōu)路徑,并具備像“導航大腦”一樣的思考能力,那么執(zhí)行就類似于“跑腿”,技術實現(xiàn)上相對成熟。

但我認為,感知推理與執(zhí)行是相輔相成的,類似于人的“大腦”與“小腦”,或者快慢系統(tǒng)。決策做得再好,最終必須落實到執(zhí)行這一環(huán)。執(zhí)行不僅要保證“走過去”,還要保證過程的穩(wěn)定性與安全性。這二者沒有誰更重要,而是一個閉環(huán)系統(tǒng)中不可分割的部分。

彭思達:我理解吳老師的論斷。他可能認為在目前的機器人本體技術下,輪式或足式機器人的移動已經(jīng)做得不錯了,不像“靈巧手”操作那樣復雜。因此,在導航這個命題下,研究重心應當更專注在大腦如何進行感知推理。如果從技術攻堅的優(yōu)先級來看,這個觀點是沒有問題的。

馬曉寧:剛才兩位老師談到了感知的邏輯。接下來我想請教一個近期非常熱門的話題:具身智能的數(shù)據(jù)路線之爭。我們到底應該走真機實測的數(shù)據(jù)收集路線,還是走大規(guī)模的模擬仿真數(shù)據(jù)路線?

彭思達:在導航領域,數(shù)據(jù)的爭議可能沒有機器人操作(Manipulation)領域那么大。操作數(shù)據(jù)的質量爭議在于,仿真環(huán)境與真實物理世界的鴻溝(Gap)實在太大了,它涉及精細的觸覺、復雜的物理反饋等。但導航數(shù)據(jù)相對簡單,其核心邏輯是“第一視角觀測+行動軌跡”。只要能保證觀測信號的真實性以及軌跡的合理性,讓機器人走起來是比較容易實現(xiàn)的。

從這個角度看,真實數(shù)據(jù)并不難收集,無論是人還是機器人,記錄一段漫游視頻及其對應的軌跡,就是一份專家數(shù)據(jù)。同時,模擬數(shù)據(jù)也不是問題。例如利用三維高斯(3DGS)重建環(huán)境,渲染出的視頻極其真實,產生的軌跡也非常合理。因此,在導航層面,我認為真機數(shù)據(jù)與仿真數(shù)據(jù)的差異是可以被抹平的。

馬曉寧:既然導航強調空間感知,那是不是意味著只要讓機器人看上幾百萬小時的視頻,導航問題就能迎刃而解?

彭思達:我不這么認為。這可以用開車來做比喻:有些人看了幾萬小時的駕駛視頻,但到了實際操作時依然不會開。單純的視頻流無法直接驅動復雜的行為邏輯,我們仍然需要一定比例的專家數(shù)據(jù)(行為克?。﹣碛柧毮P汀?/p>

郝孝帥:我補充一下。目前行業(yè)內普遍采用“視頻預訓練+真機微調”的策略。 第一階段,利用海量視頻進行預訓練,主要目的是學習通用常識。比如通過視頻,模型可以理解抓取動作的大致邏輯,或者開車遇到紅綠燈需要停下。這些是跨場景的通用知識。

但視頻數(shù)據(jù)存在兩個核心問題:一是它大多記錄的是“成功案例”,缺乏異?;蚴∏闆r的覆蓋;二是它無法提供真實的物理規(guī)律反饋。例如,視頻里看到一塊地毯,視覺上能走過去,但在具身導航中,你必須通過真實世界的“碰撞”和體驗,才能判斷它到底是一塊平整的地毯,還是一個偽裝成地毯的深坑。

這種物理常識和規(guī)律必須通過真機在物理世界中“撞”出來。所以,第一階段用視頻提供通用常識,第二階段必須用真實數(shù)據(jù)進行后訓練,讓模型學習真實世界的物理法則,這樣才能完成高質量的導航任務。

馬曉寧:接下來我們進入“感知與理解”的主題。具身智能常被比作 AI 的“眼睛”。彭老師,您在三維視覺領域深耕多年,如何讓智能體不僅“看到”幾何結構,還能“理解”細微的語義?神經(jīng)渲染或 3D 高斯建模在其中扮演什么角色?

彭思達:直白地講,我認為傳統(tǒng)的、高度依賴模塊化感知的做法正在遇到瓶頸。 以前的模塊化導航流程通常是:輸入圖片、進行三維檢測、構建場景圖(Scene Graph)或地圖,然后由模型判斷是否找到目標并進行路徑搜索。這種方法的上限很低,且存在嚴重的誤差累積。比如我跑過一些算法,我想找桌上的杯子,杯子就在機器人眼前,但它死活找不到。這是因為在“圖像轉三維框”的檢測環(huán)節(jié),杯子被漏掉了。感知層的缺失直接導致了決策層的癱瘓。

相比之下,這兩年端到端的方法表現(xiàn)越來越強。它將視頻流直接輸入大的 Transformer 架構,通過 Attention 機制讓模型自動 Focus 在指令相關的畫面區(qū)域。

這種范式有兩個優(yōu)勢:第一,它是可優(yōu)化的,避免了模塊化方法中梯度消失的問題;第二,它實現(xiàn)了指令語義與畫面特征的直接關聯(lián)。過去,我們需要人為定義成千上萬個物體的語義接口,極其繁瑣。

我認為,感知的形式正在發(fā)生變化。它不再是獨立存在的檢測模塊,而是會被統(tǒng)一在“感知推理一體化”的大模型中。未來,顯式的三維感知會弱化,取而代之的是我前面提到的“心靈地圖”。它可能只保留房間格局等不變的特征,而具體的感知任務則交由端到端模型直接處理。

馬曉寧:在構建這種世界模型時,如何處理動態(tài)風險或不確定的危機?

彭思達:在具身導航的室內場景中,動態(tài)環(huán)境比自動駕駛簡單得多,畢竟沒有高速行駛帶來的極端風險。我們可以參考智駕的經(jīng)驗,利用海量的專家數(shù)據(jù)覆蓋各種長尾場景。只要訓練數(shù)據(jù)足夠豐富,解決動態(tài)避障等問題并非難事。

馬曉寧:郝老師,自動駕駛中多傳感器融合已非常成熟。在未來具身導航中,視覺之外的毫米波雷達、超聲波、激光雷達等異構感知模態(tài)融合,會面臨什么挑戰(zhàn)?

郝孝帥:多傳感器融合的核心目的在于提供冗余和互補。在惡劣天氣(如下雪、大雨)導致視覺傳感器失效時,毫米波雷達或超聲波能提供關鍵的補充信息。RGB 負責語義信息,激光雷達提供精確的幾何結構。

我認為未來的挑戰(zhàn)主要集中在三個方面:

1. 對齊與融合:如何高效地將不同維度的異構數(shù)據(jù)在空間和時間尺度上精確對齊。

2. 算法效率:在多傳感器數(shù)據(jù)爆發(fā)式增長的情況下,如何設計更融合、更輕量的模型。

3. 傳感器失效的穩(wěn)健性:這是我做過的一項關鍵測試。很多融合模型在某個傳感器(如 RGB)完全失效時,整體性能會直接歸零。這意味著模型過于依賴某個模態(tài)。我們接下來的課題是:如何設計一種模型,即便在部分傳感器損毀或失效的情況下,依然能保持高性能和高魯棒性的運行。

馬曉寧:智駕已經(jīng)覆蓋了城市、鄉(xiāng)村等場景。如果具身導航要實現(xiàn)真正的“跨場景”泛化,需要克服哪些障礙?

郝孝帥:具身導航要實現(xiàn)通用化,至少要克服三個維度的障礙:

1. 語義理解的歧義性:同樣的指令在不同場景下含義完全不同。用戶在家里說“我想休息了”,機器人應該帶他去臥室;如果在辦公室說這句話,機器人應該導向休息室。

2. 通用物理常識的遷移:模型需要具備跨場景的推理能力。無論在公司還是家里,“渴了”都要去找飲水機。模型需要將這些通用常識存儲(無論是通過 Memory 系統(tǒng)還是大模型權重)并實現(xiàn)場景間的平滑遷移。

3. 本體執(zhí)行的異構性:具身導航涉及輪式、足式等多種本體。雖然視覺感知和推理模型可以通用,但最終執(zhí)行環(huán)節(jié)需要針對不同本體的動力學特性進行精細適配。只有打通了“通用大腦”與“差異化小腦”的連接,才能真正跑通跨場景導航。

03
認知推理與深度交互:意圖理解及其局限

馬曉寧:接下來是一個比較發(fā)散性的問題。在與研發(fā)陪伴機器人的朋友交流時,他們提到未來的機器人應當能理解人類的情緒、意圖以及各種非語言指令。我想請問兩位,具身智能如何更好地理解這些非語言信號,并將其融入導航策略中?

郝孝帥:這個話題非常有意思。我們目前更多是在討論如何讓機器人理解模棱兩可的語言指令,但理解人類真實的非語言意圖同樣關鍵。

舉個例子,在居家場景中,如果我向機器人招手,即使不說話,它也應該意識到我是在召喚它過來;或者當機器人在走廊擋住去路時,我擺一擺手,它應當能主動避讓。將人類的姿態(tài)、手勢與文本指令進行融合,會顯著提升居家機器人的交互體驗。

進一步說,如果機器人能理解人類的心理意圖,比如在狹窄通道相遇時,它能通過觀察判斷出你是想先行還是想禮讓,從而避免“搶路”,這種進化到情感層面的感知,會讓機器人真正融入人類生活,而不只是一個生硬的工具。

彭思達:我認為情感理解是陪伴機器人的核心差異化競爭力,但這極具挑戰(zhàn)。

目前的現(xiàn)狀是,即使是最成熟的大語言模型,對人類語氣的識別依然不夠理想。例如,你用悲傷或開心的語氣與模型對話,它往往感知不到差異。既然純音頻的情感識別尚且如此,那么要求陪伴機器人通過神態(tài)、動作來實時感知人類的情緒狀態(tài)并做出導航反饋,比如看到主人垂頭喪氣回家,主動過來安慰,技術難度極大。這是一個長期且非常有價值的研究方向,只有做到這一點,機器人才能實現(xiàn)真正的“擬人智能”。

馬曉寧:接下來我們討論“決策與行動”。郝老師,在具身規(guī)劃控制中,從單純的“避障”到“意圖規(guī)劃”,這種技術演進是如何實現(xiàn)的?

郝孝帥:簡單來說,這本質上是從“空間幾何判斷”向“物理功能升維”的跨越。

在自動駕駛中,意圖規(guī)劃是根據(jù)視覺觀察和其他車輛的行為,在嚴格的交通規(guī)則下判斷是停是行。而在具身操縱領域,情況更為復雜,通常涉及“導航+操縱”的組合任務。

具身智能的一大核心是與物理世界的主動交互。比如指令是“拿一瓶礦泉水”,機器人首先需要規(guī)劃出路徑,如穿過客廳、打開茶水間的門,同時要理解物體的“可利用性”。

意圖規(guī)劃在這里體現(xiàn)為:機器人不僅要走到水瓶前,還要識別出哪一部分是該抓取的區(qū)域,哪一部分是該擰開的瓶蓋。這種對物體交互區(qū)域的理解,取決于對用戶指令的深度拆解。只有從理解意圖到精準執(zhí)行形成閉環(huán),才能完成精細的具身任務。

馬曉寧:剛才我們也談到了記憶。具身導航如何構建常識記憶能力?在這個過程中有哪些技術挑戰(zhàn)?

郝孝帥:借鑒自動駕駛的經(jīng)驗,所謂的“長時記憶”或“常識”,其實來自于對海量真實場景數(shù)據(jù)的積累。通過收集無數(shù)正常和異常的 Case,系統(tǒng)見識過的場景越多,在遇到突發(fā)狀況時的處理能力就越強。

目前的挑戰(zhàn)在于兩點:

1. 高效檢索:我們擁有海量的數(shù)據(jù)庫,但當機器人當前處于某個場景時,如何快速、精準地檢索出最相似、最有效的記憶片段?這種實時檢索效率是目前的一個技術瓶頸。

2. 動態(tài)更新:這是具身導航與智駕記憶最大的區(qū)別。室內環(huán)境是高度動態(tài)的,你昨天掃描的會議室有十把椅子,今天可能被搬走了。如果記憶是靜態(tài)的,它很快就會失效。因此,具身記憶必須是實時、動態(tài)更新的。這也是為什么我主張采用“分層導航”:先利用記憶導航到大概區(qū)域,再配合實時感知的“自主探索”來定位物體。

彭思達:關于記憶,我可以補充一下目前學術界主流的三種路徑及其局限:

1. 傳統(tǒng)的場景圖:這種層級化的結構(房子-樓層-房間-物體)非常直觀,符合人類邏輯。但在檢索時,如果僅用傳統(tǒng)匹配方法,上限較低。

2. 大模型+文本化:有些研究嘗試將場景圖轉成巨長的文本喂給大模型。但即便經(jīng)過壓縮,文本依然會超出大模型的上下文窗口,導致模型難以從中抽取出關鍵信息。

3. 基于 RAG(檢索增強生成)的方案:例如 Nvidia 之前的研究,通過 RAG 索引關鍵信息再給 LLM。但問題在于,這種索引經(jīng)常會發(fā)生遺漏,導致決策失敗。

目前最新的嘗試包括:用大模型先精簡長文本,或者將場景圖轉為 Token 喂給圖神經(jīng)網(wǎng)絡。但實話說,這些方法的效果都還不理想。

馬曉寧:彭老師,既然場景圖聽起來這么直觀,為什么在實際落地中效果不佳呢?是構建范式的問題嗎?

彭思達:我個人認為場景圖本身存在局限。首先是處理能力問題,即便假設大模型有無限的上下文,如何讓它準確理解復雜的空間拓撲關系依然很難。其次,正如你提到的,場景圖往往是靜態(tài)的,如何將其演進為“4D 場景圖”以應對動態(tài)變化,目前還缺乏非常有效的手段。即使是處理靜態(tài)環(huán)境,目前的模型在檢索精度上也遠未達到理想水平。

馬曉寧:有一種觀點認為,這種分層級的結構化描述方式可能是一個錯誤的路線,兩位怎么看?

郝孝帥:我倒不認為這是一個錯誤的路線。相反,場景圖是非常符合人類直觀感受的——先確定樓層,再確定房間,最后定位到房間內的物體。這種分級思維在邏輯上是非常順暢的。

彭思達:我也認同這不是路線錯誤,目前的短板主要在于大語言模型處理此類結構化數(shù)據(jù)的方式不夠高效。我們需要探索的是如何讓 LLM 與場景圖進行更深度的交互。

郝孝帥:彭老師,我想請教一下,您認為大模型目前處理場景圖效果不佳,是因為模型本身的能力瓶頸,還是數(shù)據(jù)格式轉換帶來的問題?

彭思達:我認為并非大模型本身不行,而是交互方式存在“信息損耗”。我非常推崇 DeepSeek 關于 OCR 的那篇論文提出的核心觀點:“一圖勝千言”。

直接將原始圖像喂給視覺語言模型(VLM),模型能夠獲取極佳的感性理解。但如果先用極其詳細的文字去描述這張圖片的所有細節(jié),然后再把這段冗長的文字喂給模型,模型理解的效果反而會變差。這是因為文字在轉譯過程中會丟失大量空間上下文信息,且過長的文本序列會分散模型的注意力。

具身導航也是同理。如果我們非要把龐大的三維空間壓縮成一個超級長的場景圖,再轉換成文本喂給 VLM,信息在經(jīng)過多次轉手和描述后會發(fā)生瘋狂的變形和缺失。這種“轉譯損失”才是導致效果不佳的根本原因。

04
Sim2Real 遷移 & 未來展望

馬曉寧:感謝彭老師的深入剖析。順著這個話題,您提到高保真三維重建的模擬環(huán)境可以幫助后續(xù)的強化學習。這種高保真環(huán)境具體如何賦能導航策略的迭代?在從虛擬環(huán)境遷移到真實環(huán)境(Sim2Real)時,會面臨哪些挑戰(zhàn)?

彭思達:首先談談虛實遷移的問題。在過去,這確實是一個巨大的門檻。如果你用過傳統(tǒng)的 Habitat 模擬器,就會發(fā)現(xiàn)它的渲染質量非常簡陋,由于視覺信號太“假”,在模擬器里訓練出的模型直接部署到真實環(huán)境幾乎跑不起來。研究者被迫加入大量的專家數(shù)據(jù)進行開環(huán)訓練來彌補這一差距。

但現(xiàn)在的技術范式發(fā)生了改變。三維高斯(3DGS)等技術的出現(xiàn),讓三維掃描生成的模擬場景在視覺質量上幾乎等同于真實環(huán)境的視頻漫游。在這種高保真的環(huán)境下訓練模型,從視覺信號層面看,模擬與真實的鴻溝(Gap)已經(jīng)非常微小,幾乎到了肉眼難辨的程度。

至于模擬器對迭代的幫助,其意義在于效率的指數(shù)級提升。在真實環(huán)境中部署測試是串行過程,你一次只能用一個機器人跑一個場景,且需要漫長的等待。而在仿真環(huán)境下,我們可以同時開啟 1000 個不同的環(huán)境進行并行訓練和測試。這種大規(guī)模并行的能力,是具身智能走向通用化的必然路徑。

馬曉寧:具身智能對計算資源的實時性和延時性要求極高。在三維感知和構建模型時,我們如何平衡模型的復雜度與邊緣側計算資源的限制?

彭思達:這里需要聲明一個概念:高保真的仿真環(huán)境主要是在“訓練階段”使用的,它是事先在高性能服務器上建好的。當導航智能體真正部署到機器人端進行實時工作時,它并不需要在線去構建這些復雜模型,而更多是利用訓練好的策略進行推理。因此,高精度渲染并不會直接拖慢實機運行的延遲。

馬曉寧:明白。訓練在云端或服務器進行,執(zhí)行在邊緣端,這解耦了計算壓力。

馬曉寧:關于決策與行動,最后一個繞不開的話題是安全性。在面臨未知、異常且多變的環(huán)境時,我們如何確保具身導航的安全性?

彭思達:在安全性上,我認為具身導航可以完全參考自動駕駛的經(jīng)驗,通過大規(guī)模數(shù)據(jù)覆蓋和閉環(huán)測試來解決??陀^來講,具身導航的安全性挑戰(zhàn)比自動駕駛要簡單得多。自動駕駛是在高速運動中博弈,對實時性和容錯率要求極高。而機器人導航是在相對慢速的環(huán)境下運行,不撞到人是底線。只要避障策略足夠魯棒,安全性是不成問題的,甚至不需要像汽車那樣過度考慮乘坐的舒適性。

郝孝帥:我非常贊同。在惡劣天氣或極端異常環(huán)境下,自動駕駛系統(tǒng)的安全性面臨巨大考驗。但目前的具身導航在動態(tài)避障方面已經(jīng)做得非常出色了。無論是輪式還是足式機器人,只要設定好 A 點到 B 點,即便路徑上突然出現(xiàn)行人,機器人也能迅速做出反應并繞行。更重要的是,機器人的移動速度很慢,每一步大約只有 10 到 15 厘米,這種低速運行狀態(tài)本身就為系統(tǒng)響應留下了充足的時間緩沖,安全性非常有保障。

馬曉寧:今天的討論非常精彩,兩位老師分享了許多硬核且具前瞻性的見解。最后,請兩位對未來 5 到 10 年具身智能導航的發(fā)展做一個簡單展望。

郝孝帥:我認為落地效果最好的首先會是工業(yè)機器人,其次是辦公場景下的服務機器人。從長遠來看,我非常期待具備情感理解和非語言意圖識別能力的居家機器人。當我們的機器人能理解主人的手勢、情緒和真實想法,并能無縫融入各種生活場景進行服務,那將是具身智能真正造福人類的時刻。

彭思達:我看好兩個方向。首先是導航技術將迅速增強現(xiàn)有的機器人品類。比如酒店服務機器人、園區(qū)清潔機器人、家用的掃地機器人,以前它們更多是按固定路線“死板”地運行,效率較低。具備空間智能后的導航技術能讓這些機器人實現(xiàn)階段性的智力躍遷。

其次是陪伴型機器人。這類產品不需要追求 100% 的完美智能就能產生商業(yè)價值。比如一款能跟著小孩跑、能進行簡單互動的機器人小狗,其對導航和感知的要求適中,但能帶來很好的用戶體驗。隨著技術演進,最終會向高階的養(yǎng)老陪伴、全能家政機器人進化。

馬曉寧:感謝彭思達老師和郝孝帥老師。從高保真環(huán)境的強化學習,到場景圖與大模型的糾葛,再到對未來社會場景的描繪,今天的直播讓我們對具身導航有了全方位的認識。感謝兩位嘉賓,也感謝各位觀眾的參與,我們下次再見!

彭思達、郝孝帥:謝謝大家,再見。

完整視頻觀看地址:https://youtu.be/vQxfw3ghuPo

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
駐韓美軍部分“薩德”反導系統(tǒng)轉往中東

駐韓美軍部分“薩德”反導系統(tǒng)轉往中東

環(huán)球網(wǎng)資訊
2026-03-10 13:06:08
人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內伊“太子”

人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內伊“太子”

老馬拉車莫少裝
2026-03-09 19:03:45
新歡上位成功?買超又曝喜當?shù)職g似是當年那個女大學生

新歡上位成功?買超又曝喜當?shù)?,新歡似是當年那個女大學生

悅君兮君不知
2026-03-09 21:42:31
A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

夜深愛雜談
2026-03-10 20:50:27
只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

楓紅染山徑
2026-03-06 00:41:37
為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評故事
2026-03-09 11:15:03
粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

浩渺青史
2026-03-10 18:31:00
眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

萌神木木
2026-03-10 11:43:57
滅國級絞殺!伊朗新領袖剛上臺,美軍基地全面開放,這要徹底亡國

滅國級絞殺!伊朗新領袖剛上臺,美軍基地全面開放,這要徹底亡國

東極妙嚴
2026-03-09 17:19:50
伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內伊次子當選伊朗最高領袖

伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內伊次子當選伊朗最高領袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

葉青足球世界
2026-03-10 15:18:17
48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

博士觀察
2026-03-09 16:22:08
追覓手機外觀確認:奢華設計叫板華為小米 三分天下

追覓手機外觀確認:奢華設計叫板華為小米 三分天下

快科技
2026-03-09 16:32:10
48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

藍鯨新聞
2026-03-09 12:14:45
為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

心靈的觸動a
2026-03-09 22:33:30
伊朗駐華大使館發(fā)文挑撥中美關系,估計難奏效

伊朗駐華大使館發(fā)文挑撥中美關系,估計難奏效

深度財線
2026-03-10 15:46:07
2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

PChome電腦之家
2026-03-09 15:16:03
外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

環(huán)球網(wǎng)資訊
2026-03-09 19:57:22
巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

智道足球
2026-03-10 19:16:51
寶馬銷售直播狂踩小米汽車!小米高管回應

寶馬銷售直播狂踩小米汽車!小米高管回應

鞭牛士
2026-03-10 14:32:06
2026-03-10 23:15:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7111文章數(shù) 20739關注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
家居
旅游
手機
時尚

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

家居要聞

自然肌理 溫度質感婚房

旅游要聞

瀘溪縣大陂流村油菜花綻放 滿目金黃迎客來

手機要聞

7999起,小米17 Ultra徠卡版全新黑銀色開售

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

無障礙瀏覽 進入關懷版