国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

高德全自主具身機(jī)器人炸場(chǎng)亦莊馬拉松,拿下「導(dǎo)盲」這道硬核考題

0
分享至

編輯|杜偉

今天上午,北京亦莊再度迎來(lái)了一場(chǎng)屬于機(jī)器人的「硬核大考」。

2026 人形機(jī)器人半程馬拉松比賽正式鳴槍開跑!

來(lái)自國(guó)內(nèi)外數(shù)十家團(tuán)隊(duì)的 300 余臺(tái)機(jī)器人同場(chǎng)競(jìng)技,在城市主干道、GT 賽車級(jí)復(fù)雜路段等多樣地形中展開比拼,角逐出各個(gè)賽事的最終贏家。

在一眾高矮不同、形態(tài)各異的人形機(jī)器人中間,一只格外醒目的四足機(jī)器人進(jìn)入了我們的視線。打聽后才知道,它是高德地圖首次亮相的機(jī)器人產(chǎn)品,名字叫做「高德途途」



與其他機(jī)器人在固定賽道比拼速度不同,高德途途是帶著一位視障少年參加的障礙賽,它不依賴預(yù)設(shè)路線,也不需要人工遙控,就可以在真實(shí)開放環(huán)境中自主判斷路線、獨(dú)立行動(dòng)??辞逖矍暗穆窙r還不夠,它還能結(jié)合全局信息感知到視野之外的變化,行進(jìn)中更安全、可靠。



除了看得準(zhǔn)、看得遠(yuǎn),高德途途的思考能力也遠(yuǎn)非以往機(jī)械執(zhí)行命令的同類型產(chǎn)品所能比。它會(huì)先理解意圖,再?zèng)Q定如何做,并在遇到復(fù)雜環(huán)境時(shí)根據(jù)實(shí)際情況決定繞行還是通過(guò)。



多項(xiàng)能力的加身讓高德途途開始真正融入現(xiàn)實(shí)生活,并憑借更強(qiáng)的自主辦事能力,在更多場(chǎng)景展現(xiàn)出實(shí)際價(jià)值。

以往不敢讓機(jī)器人替我們完成的事情,比如出門買咖啡、送快遞、甚至導(dǎo)盲帶路,現(xiàn)實(shí)可行性顯著提升。



尤其是在導(dǎo)盲場(chǎng)景,高德帶著自家四足機(jī)器人展開了一場(chǎng)極限條件的能力驗(yàn)證?,F(xiàn)實(shí)世界的復(fù)雜路況、突發(fā)干擾,以及路徑選擇和實(shí)時(shí)避險(xiǎn),每一步都對(duì)傳統(tǒng)導(dǎo)盲系統(tǒng)構(gòu)成巨大的挑戰(zhàn)。

作為全球首款開放環(huán)境全自主具身機(jī)器人,高德途途經(jīng)受住了一系列高強(qiáng)度考驗(yàn),在充滿不確定的環(huán)境中持續(xù)做出判斷并完成任務(wù)。

在揭秘它靠什么來(lái)扛住這個(gè)高難場(chǎng)景之前,我們有必須講清楚,開放環(huán)境下的導(dǎo)盲到底卡在哪些地方。

導(dǎo)盲這道分水嶺

為何遲遲沒被跨過(guò)去

說(shuō)到導(dǎo)盲,大家腦海中可能會(huì)浮現(xiàn)出這樣的畫面:視障人士牽著一只傳統(tǒng)導(dǎo)盲犬或者智能導(dǎo)盲機(jī)器人,為他們帶路,抵達(dá)目的地。

然而,如果將導(dǎo)盲放到開放環(huán)境中,其實(shí)遠(yuǎn)不止帶路這么簡(jiǎn)單,而是多樣任務(wù)疊加在一起。

從任務(wù)尺度來(lái)看,導(dǎo)盲覆蓋跨層級(jí)的連續(xù)任務(wù),近距離進(jìn)行遞物、取物這類精細(xì)交互,中距離完成取件、配送等流程調(diào)度,遠(yuǎn)距離則要保證在復(fù)雜街區(qū)導(dǎo)航甚至地鐵換乘中的安全。

這些需求本身已經(jīng)在逼近一套系統(tǒng)能力的上限,要真正跑通,繞不開以下三個(gè)核心難點(diǎn):

一是長(zhǎng)尾不確定性。真實(shí)世界沒有標(biāo)準(zhǔn)場(chǎng)景,突發(fā)情況幾乎不可避免;二是安全要求極高,任何一次判斷失誤都可能給視障人士帶來(lái)危險(xiǎn);三是空間語(yǔ)義不完整,很多關(guān)鍵位置(如入口、通道)缺乏清晰、系統(tǒng)標(biāo)注,需要系統(tǒng)自己理解判斷。

這也解釋了為什么過(guò)去的方案一直做不成??恳?guī)則拼接,只能覆蓋一小部分情況,一旦環(huán)境變了就容易失效;只靠單一感知模型,即使看得見,也未必真的理解了,更別說(shuō)及時(shí)做出適當(dāng)?shù)姆磻?yīng)。

導(dǎo)盲真正難的不是識(shí)別本身,而在于準(zhǔn)確判斷什么時(shí)候該避讓,什么時(shí)候跟隨,并在不斷變化的環(huán)境中把動(dòng)作穩(wěn)定連貫地做下去。邁過(guò)這一步,才算是真正從實(shí)驗(yàn)室的演示,走到現(xiàn)實(shí)世界的可用。

從高德途途目前的表現(xiàn)來(lái)看,在導(dǎo)盲這樣的場(chǎng)景中,它已經(jīng)展現(xiàn)出了一條可落地的解決路徑:能自己出門,能理解意圖,也能把事情做完。

這一切的實(shí)現(xiàn)遠(yuǎn)非單個(gè)模型所能及,背后有一整套系統(tǒng)在支撐:從長(zhǎng)期積累的空間智能數(shù)據(jù),到導(dǎo)航與操作基座模型,再到負(fù)責(zé)統(tǒng)一調(diào)度與執(zhí)行閉環(huán)的智能中樞,它們構(gòu)成了高德 ABot 全棧體系

這是一個(gè)貫通數(shù)據(jù)、模型與 Agent 的三層架構(gòu),數(shù)據(jù)層依托 ABot-World 世界模型,模型層依托 ABot-N0 導(dǎo)航?jīng)Q策與 ABot-M0 精細(xì)操作,Agent 層依托 ABot-Claw 任務(wù)調(diào)度與閉環(huán)糾錯(cuò)。



ABot 全棧技術(shù)架構(gòu)圖

當(dāng)落到導(dǎo)盲場(chǎng)景,則由 ABot-N0 提供開放環(huán)境下的導(dǎo)航能力底座,ABot-Claw 貫通意圖理解、記憶檢索、任務(wù)拆解、動(dòng)態(tài)調(diào)度與閉環(huán)糾錯(cuò),它們共同支撐機(jī)器人完成長(zhǎng)程、跨域連續(xù)任務(wù);在需要具體物理操作時(shí),ABot-M0 介入完成最后一步。

這套 ABot 全棧體系的加持,才讓高德途途有底氣向?qū)ご淼囊活愖畹湫驼鎸?shí)世界問題發(fā)起挑戰(zhàn):開放環(huán)境、長(zhǎng)程任務(wù)、極高安全要求與極低容錯(cuò)空間。

當(dāng)這類問題有了解法,帶來(lái)的影響不再局限于導(dǎo)盲本身。像城市配送、巡檢、服務(wù)這些同樣需要在開放環(huán)境中長(zhǎng)期運(yùn)行的任務(wù),也在同一條能力線上。導(dǎo)盲能跑通,這些場(chǎng)景離真正落地也更近了一步。

具身導(dǎo)航與操作

打造雙核心通用基座

將這兩年具身智能的發(fā)展拉長(zhǎng)來(lái)看,我們會(huì)發(fā)現(xiàn)一個(gè)明顯的趨勢(shì):模型能力在不斷變強(qiáng),但系統(tǒng)層面的整合依然是個(gè)難題。

不同廠商、不同形態(tài)的具身機(jī)器人,大多仍在使用各自的動(dòng)作表示和數(shù)據(jù)體系,導(dǎo)致彼此之間很難打通。數(shù)據(jù)復(fù)用受限,模型遷移成本高,換個(gè)新場(chǎng)景就得大量重新適配。這也是為什么不少系統(tǒng)能在單項(xiàng)任務(wù)上做到很高水平,但一旦放到同一個(gè)復(fù)雜場(chǎng)景中便容易掉鏈子,很難真正配合起來(lái)。

說(shuō)到底,單個(gè)模塊的強(qiáng)弱已經(jīng)不起決定性作用,更大的問題在于缺少一套將不同能力統(tǒng)一起來(lái)的基座模型,既能覆蓋不同任務(wù),又能在不同場(chǎng)景與不同機(jī)器人形態(tài)之間用得起來(lái)。

正是在這樣的背景下,高德選擇推出 ABot 系列具身基座模型,包括導(dǎo)航基座模型 ABot-N0 和操作基座模型 ABot-M0,它們讓機(jī)器人走進(jìn)開放環(huán)境并穩(wěn)定運(yùn)行有了現(xiàn)實(shí)可行性。



其中負(fù)責(zé)機(jī)器人「腿」的 ABot-N0 被打造成為業(yè)內(nèi)最強(qiáng)導(dǎo)航基座模型,基于業(yè)內(nèi)首個(gè)面向具身導(dǎo)航的流強(qiáng)化學(xué)習(xí)框架,讓機(jī)器人在城市級(jí)動(dòng)態(tài)環(huán)境中持續(xù)決策,理解人流、規(guī)則等復(fù)雜因素,而不是只做靜態(tài)路徑規(guī)劃。

ABot-N0 的一大核心突破是將導(dǎo)航從「多任務(wù)拼接」重構(gòu)為一個(gè)「統(tǒng)一模型」驅(qū)動(dòng)的能力體系。簡(jiǎn)單來(lái)說(shuō),原本分散在不同模型里的導(dǎo)航能力,現(xiàn)在可以在一個(gè)模型里解決。當(dāng)這些能力不再與某一項(xiàng)任務(wù)或某一種機(jī)器人形態(tài)深度綁定時(shí),它們具備了更強(qiáng)的遷移能力。同一套「導(dǎo)航大腦」可以在四足、輪式和人形等不同機(jī)器人上復(fù)用,具體的執(zhí)行只需要根據(jù)結(jié)構(gòu)進(jìn)行適配即可。

現(xiàn)在,ABot-N0 可以一對(duì)多地處理五大類核心導(dǎo)航任務(wù):按坐標(biāo)走到指定位置(Point-Goal);在陌生環(huán)境找到目標(biāo)物(Object-Goal);理解并執(zhí)行復(fù)雜指令(Instruction-Following);跟隨行人在動(dòng)態(tài)環(huán)境中移動(dòng)(Person-Following);識(shí)別商場(chǎng)、店鋪等興趣點(diǎn)(POI-Goal)并導(dǎo)航至入口。





當(dāng)然,這些能力不是簡(jiǎn)單堆出來(lái)的,源于 ABot-N0 在架構(gòu)上的取舍,它把思考和行動(dòng)分層處理,并在同一套 VLA(視覺 - 語(yǔ)言 - 動(dòng)作)框架下將理解、決策和執(zhí)行銜接了起來(lái)。整個(gè)系統(tǒng)可以拆解為以下三層:

第一層是統(tǒng)一多模態(tài)編碼器,它負(fù)責(zé)將圖像、歷史觀測(cè)、文本指令、空間坐標(biāo)全部映射到同一個(gè)語(yǔ)義空間。不同任務(wù)在進(jìn)入模型之前就已經(jīng)「說(shuō)同一種語(yǔ)言」,后面的決策可以在同一個(gè)上下文里展開。

第二層是負(fù)責(zé)「想明白」的認(rèn)知大腦。它基于預(yù)訓(xùn)練的大語(yǔ)言模型,但沒有簡(jiǎn)單沿用主流串行 CoT 的方式,而是做了一個(gè)更偏工程化的設(shè)計(jì):把推理和動(dòng)作拆成兩個(gè)分支,提出了任務(wù)條件式雙頭設(shè)計(jì)(Task-Conditional Dual-Head),需要理解場(chǎng)景、判斷規(guī)則時(shí)交給推理頭,需要快速執(zhí)行動(dòng)作時(shí)直接調(diào)用動(dòng)作頭。并且,這兩部分不是一前一后的串聯(lián)關(guān)系,它們基于同一套內(nèi)部理解協(xié)同工作:很多推理并不會(huì)被顯式輸出,但會(huì)直接影響后續(xù)動(dòng)作決策。

最后一部分是動(dòng)作專家,負(fù)責(zé)「把事情做出來(lái)」。它采用流匹配生成連續(xù)軌跡,一次給出一段平滑的運(yùn)動(dòng)路徑,比如 5 個(gè)路點(diǎn)(x, y, z, yaw)。這讓機(jī)器人在面對(duì)復(fù)雜環(huán)境時(shí)能夠走得更自然,也能在多種可行路徑之間靈活選擇。



ABot-N0 架構(gòu)示意圖

ABot-N0 之所以能把導(dǎo)航能力做統(tǒng)一、做泛化,很大程度上依賴其構(gòu)建的具身智能領(lǐng)域目前最大的數(shù)據(jù)引擎:包括 7802 個(gè)高保真 3D 場(chǎng)景、覆蓋五大導(dǎo)航任務(wù)的 1690 萬(wàn)條專家軌跡以及覆蓋空間關(guān)系、社會(huì)規(guī)則和長(zhǎng)程規(guī)劃的 500 萬(wàn)條推理樣本。

這樣的數(shù)據(jù)規(guī)模是建立在高德長(zhǎng)期積累的場(chǎng)景資產(chǎn)和空間能力之上:從真實(shí)世界的三維重建到場(chǎng)景理解再到生成式世界模型,這些能力讓大規(guī)模高保真訓(xùn)練環(huán)境成為可能。



從結(jié)果來(lái)看,ABot-N0 這套方法在工程上完全跑得通,在一系列高難度基準(zhǔn)上與現(xiàn)有方法拉開了明顯差距。并且這種領(lǐng)先不是集中在單一指標(biāo),橫跨了多個(gè)任務(wù)和場(chǎng)景。

在 7 項(xiàng)國(guó)際權(quán)威具身導(dǎo)航基準(zhǔn)(CityWalker、SocNav、R2R-CE、RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench)上,ABot-N0 全部達(dá)到 SOTA,覆蓋從室內(nèi)到室外、從靜態(tài)環(huán)境到人機(jī)混行的多任務(wù)范圍。

舉一個(gè)有代表性的場(chǎng)景,在 SocNav 閉環(huán)導(dǎo)航 中,ABot-N0 成功率達(dá)到 了 88.3%,相比此前最優(yōu)方法提升超過(guò) 40 個(gè)百分點(diǎn),同時(shí)合規(guī)性指標(biāo)從 30% 區(qū)間飆升到 85% 以上。顯然,走通路徑已經(jīng)不在話下,更開始在真實(shí)人類環(huán)境中學(xué)會(huì)如何避讓、如何通行。



可以說(shuō),ABot-N0 是在五大導(dǎo)航任務(wù)、七類基準(zhǔn)、數(shù)十個(gè)強(qiáng)基線上全都強(qiáng)勢(shì)勝出。相關(guān)多個(gè)子研究成果也已被 CVPR 等頂級(jí)會(huì)議接收,工程效果和學(xué)術(shù)價(jià)值都得到了驗(yàn)證。

其中最具代表性的,高德聯(lián)合浙大提出的社會(huì)化導(dǎo)航基座模型 SocialNav,在具身導(dǎo)航領(lǐng)域首次引入基于流的強(qiáng)化學(xué)習(xí)框架,并以 6/6/5 接近滿分的成績(jī)?nèi)脒x CVPR Oral。這項(xiàng)工作通過(guò)分層設(shè)計(jì)和多階段訓(xùn)練,讓機(jī)器人在復(fù)雜人類環(huán)境中不只「走得到」,還會(huì)遵循交通規(guī)則和社會(huì)規(guī)范,真正把導(dǎo)航從單純的路徑規(guī)劃推進(jìn)到更接近現(xiàn)實(shí)世界的社會(huì)化決策。論文地址:https://github.com/AMAP-EAI/SocialNav



ABot-N0 解決了「往哪走」的問題,ABot-M0 負(fù)責(zé)「把操作動(dòng)作落實(shí)下去?!?/strong>但要把這一步做好,繞不開一個(gè)問題:機(jī)器人是不是一定要依賴一套封閉的數(shù)據(jù)體系才能把動(dòng)作做對(duì)。

過(guò)去大多數(shù)系統(tǒng)都走了這條路,不同機(jī)器人、不同任務(wù)各自采集數(shù)據(jù)、各自訓(xùn)練模型,彼此之間幾乎不通,動(dòng)作表達(dá)也不一致。結(jié)果就是,在一個(gè)場(chǎng)景里表現(xiàn)不錯(cuò),一換環(huán)境就失效,很難形成真正能遷移的能力。

ABot-M0 走的是另一條路:沒有圍繞某一類機(jī)器人或某一類任務(wù)單獨(dú)建模,從一開始就用一套統(tǒng)一的動(dòng)作表示,把來(lái)自不同來(lái)源、不同形態(tài)的數(shù)據(jù)放到同一個(gè)體系里

圍繞這個(gè)思路,ABot-M0 在數(shù)據(jù)、表示和訓(xùn)練方式上都做了調(diào)整:聚合全球范圍內(nèi)的異構(gòu)開源數(shù)據(jù),對(duì)齊不同機(jī)器人之間的動(dòng)作表示,讓原本割裂的數(shù)據(jù)能夠在同一套邏輯下被模型學(xué)習(xí),最終形成了一個(gè)可以跨任務(wù)、跨本體遷移的操作模型。

首先在數(shù)據(jù)層面,ABot-M0 把來(lái)自不同機(jī)器人與任務(wù)的大規(guī)模數(shù)據(jù)統(tǒng)一起來(lái),構(gòu)建目前最大的開源異構(gòu)數(shù)據(jù)集 UniACT,時(shí)長(zhǎng)超過(guò) 9500 小時(shí)、軌跡達(dá) 600 多萬(wàn)條、具身形態(tài)超過(guò) 20 種。

并且,構(gòu)建這一數(shù)據(jù)集的過(guò)程本身就是在做標(biāo)準(zhǔn)化,不同來(lái)源的數(shù)據(jù)在動(dòng)作表示和機(jī)器人結(jié)構(gòu)上被統(tǒng)一起來(lái), 其中使用末端執(zhí)行器(EEF)的增量動(dòng)作來(lái)描述操作,采用補(bǔ)零到雙臂(Pad-to-Dual-Arm)策略對(duì)單雙臂做一致建模。這樣一來(lái),數(shù)據(jù)更多的同時(shí),不同來(lái)源的數(shù)據(jù)第一次實(shí)現(xiàn)對(duì)齊,讓跨任務(wù)、跨本體的泛化能力有了現(xiàn)實(shí)基礎(chǔ)。



接下來(lái),ABot-M0 在表示和訓(xùn)練方式上做了關(guān)鍵調(diào)整:不讓模型先學(xué)去噪再慢慢還原動(dòng)作,直接去學(xué)「什么樣的動(dòng)作本身就可行」。原因也不復(fù)雜,真實(shí)世界可行的動(dòng)作不是到處都有,它們往往集中在一小塊受物理規(guī)律和任務(wù)約束限制的有效區(qū)域里。與其在整個(gè)空間里找答案,不如一開始就把學(xué)習(xí)范圍限定在這塊有效區(qū)域內(nèi)。

基于此,ABot-M0 用動(dòng)作流形學(xué)習(xí)(AML)替代了傳統(tǒng)的擴(kuò)散式生成方式:放棄像過(guò)去那樣從噪聲一步步還原動(dòng)作,以 DiT 為骨干網(wǎng)絡(luò)直接預(yù)測(cè)一段連續(xù)、可執(zhí)行的軌跡。帶來(lái)的變化也很直觀,推理步驟更少,動(dòng)作更連貫,在復(fù)雜場(chǎng)景下更穩(wěn)定。即便大幅壓縮推理過(guò)程,模型依然能保持性能,而傳統(tǒng)方法往往會(huì)明顯下降。



最后,ABot-M0 進(jìn)一步加強(qiáng)了空間感知能力。光靠 VLM 理解畫面里有什么還不夠,真正難的是判斷「它們之間是什么關(guān)系」,比如前后遠(yuǎn)近、遮擋、角度,這些都會(huì)直接影響動(dòng)作能不能做對(duì)。

ABot-M0 沒有去改動(dòng)原有的 VLM 主干網(wǎng)絡(luò),而是多加了一路專門處理空間信息的感知模塊(如 VGGT、Qwen-Image-Edit):用語(yǔ)義模型理解任務(wù)意圖,用 3D 信息判斷物體的位置關(guān)系和操作角度,兩條路徑在內(nèi)部一起參與決策。有了這層空間信息,機(jī)器人對(duì)視角變化和環(huán)境擾動(dòng)的適應(yīng)能力更強(qiáng)。



ABot-M0 架構(gòu)圖

ABot-M0 在操作側(cè)的表現(xiàn)同樣不是個(gè)別任務(wù)上領(lǐng)先,在 Libero、Libero-Plus、RoboCasa 等一系列難度較高的操作評(píng)測(cè)中均達(dá)到 SOTA 水平。

其中最有代表性的是 Libero-Plus,它是一類強(qiáng)調(diào)跨任務(wù)與泛化能力的基準(zhǔn)。ABot-M0 的任務(wù)成功率達(dá)到了 80.5%,相比此前的標(biāo)桿方案提升近 30 個(gè)百分點(diǎn)。這說(shuō)明了模型在面對(duì)未見過(guò)的組合任務(wù)時(shí)依然能夠穩(wěn)定完成操作。



把 ABot-N0 和 ABot-M0 放在一起看,一個(gè)變化正在發(fā)生:具身智能開始圍繞模型搭體系。導(dǎo)航側(cè)通過(guò)統(tǒng)一模型打破任務(wù)邊界,操作側(cè)通過(guò)統(tǒng)一數(shù)據(jù)打破本體差異,并且數(shù)據(jù)、表示和訓(xùn)練方式的變化也在不斷降低能力遷移的成本。久而久之,具身智能逐漸逼近通用系統(tǒng)的形態(tài)。

兩大基座模型更多細(xì)節(jié)請(qǐng)移步項(xiàng)目主頁(yè)與技術(shù)報(bào)告:

ABot-N0:

  • 論文地址:https://arxiv.org/pdf/2602.11598
  • 項(xiàng)目主頁(yè):https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/

ABot-M0:

  • 論文地址:https://arxiv.org/abs/2602.11236
  • 項(xiàng)目主頁(yè):https://amap-cvlab.github.io/ABot-Manipulation/

從喂數(shù)據(jù)到邊用邊學(xué)

跑通一套閉環(huán)系統(tǒng)

ABot-N0 和 ABot-M0 把機(jī)器人「往哪走」和「怎么做」兩件事弄清楚了,接下來(lái)面臨兩個(gè)更現(xiàn)實(shí)的問題:這些能力從哪來(lái),又怎么在真實(shí)環(huán)境里穩(wěn)定跑起來(lái),它們很大程度上決定了具身系統(tǒng)的上限。這正是 ABot 全棧體系中數(shù)據(jù)層和 Agent 層要解決的核心痛點(diǎn)。

其中數(shù)據(jù)層的 ABot-World 想要解決的是一個(gè)更底層的問題:機(jī)器人是否見過(guò)足夠多足夠真實(shí)的世界。機(jī)器人難以泛化的很大原因便在于數(shù)據(jù)少、獲取慢、也永遠(yuǎn)覆蓋不完真實(shí)世界的長(zhǎng)尾情況。



ABot-World 雙引擎驅(qū)動(dòng)架構(gòu):ABot-3DGS(數(shù)字孿生工廠)× ABot-PhysWorld(物理引擎內(nèi)核)

ABot-World 的思路是,依托自有地圖與脫敏數(shù)據(jù),結(jié)合 3DGS 技術(shù)實(shí)現(xiàn)厘米級(jí)重建與光照一致性。模型已累計(jì)生產(chǎn)萬(wàn)級(jí) 3D 真實(shí)場(chǎng)景、百萬(wàn)級(jí)推理數(shù)據(jù)與千萬(wàn)級(jí)訓(xùn)練軌跡,覆蓋 99% 的典型生活場(chǎng)景。通過(guò)模擬各種復(fù)雜情況,讓模型提前見到足夠多的場(chǎng)景。這件事能成立正好踩在了高德的強(qiáng)項(xiàng)上。高德一直在做的就是把真實(shí)世界一點(diǎn)點(diǎn)搬進(jìn)地圖里?;诖?,高德有能力把整個(gè)環(huán)境還原出來(lái),用來(lái)訓(xùn)練機(jī)器人。

在 WorldScore、WorldArena、AGIbot、PBench、EZSBench 等權(quán)威評(píng)測(cè)榜單上,ABot-World 都拿過(guò) SOTA,甚至在一些指標(biāo)上力壓了英偉達(dá) Cosmos、谷歌 Veo 和 OpenAI Sora 2 等多個(gè)開閉源方案。

ABot-World 系列也發(fā)布了首個(gè)子工作ABot-PhysWorld,它將關(guān)注重點(diǎn)放在了「這些世界是不是真的能在現(xiàn)實(shí)中成立」上,不像大多數(shù)現(xiàn)有模型追求畫面合理,更關(guān)心生成過(guò)程在物理上是否說(shuō)得通。



同時(shí),現(xiàn)實(shí)世界的任務(wù)往往不是單一指令,要復(fù)雜得多:理解意圖、拆分步驟、找位置、做動(dòng)作,還要隨時(shí)應(yīng)對(duì)突發(fā)情況。Agent 層的 ABot-Claw 要做的就是將涉及到的這些能力統(tǒng)一調(diào)度起來(lái),真正組織成一個(gè)可以端到端完成任務(wù)的系統(tǒng)



ABot-Claw系統(tǒng)架構(gòu)圖

ABot-Claw 構(gòu)建了一套 Vision-Spatial 雙中心的跨具身共享記憶系統(tǒng),通過(guò)四層結(jié)構(gòu)完成空間與語(yǔ)義的統(tǒng)一:圖像語(yǔ)義層負(fù)責(zé)看到的內(nèi)容、幾何地圖層負(fù)責(zé)空間結(jié)構(gòu)、物體中心拓?fù)鋵迂?fù)責(zé)物體之間的關(guān)系、地點(diǎn)錨定層負(fù)責(zé)語(yǔ)義和位置的對(duì)應(yīng)。

這套結(jié)構(gòu)解決了幾何地圖「能帶你走過(guò)去,但不知道那是什么」、語(yǔ)言模型「知道是什么,但不知道怎么走過(guò)去」的兩難問題。ABot-Claw 直接將兩套系統(tǒng)融合到同一記憶體系中,并且記憶是跨具身共享的。新設(shè)備接入后,直接繼承已有認(rèn)知。過(guò)去的成功和失敗會(huì)也被記錄下來(lái),隨時(shí)被調(diào)出來(lái)用。每一次任務(wù)執(zhí)行都成為了一個(gè)可以不斷積累經(jīng)驗(yàn)的過(guò)程,讓機(jī)器人從「一機(jī)一圖」走向「共享一套世界記憶」。

有了調(diào)度和記憶,還缺最后一塊拼圖,即如何在不確定世界中持續(xù)完成任務(wù)。ABot-Claw 對(duì)此的解法是:引入一套 Closed-loop Reflection & Self-Correction(閉環(huán)反思與自我糾錯(cuò))機(jī)制

這其實(shí)很接近人類的做事方式,邊做邊修正。整個(gè)過(guò)程不是簡(jiǎn)單的下指令 - 執(zhí)行,開始變成一個(gè)持續(xù)的循環(huán):先試一下、看結(jié)果、調(diào)整、再試。具體體現(xiàn)為三級(jí)自適應(yīng)決策閉環(huán),依次是執(zhí)行、評(píng)估與進(jìn)化。由此,機(jī)器人的角色也從一個(gè)執(zhí)行工具逐漸轉(zhuǎn)變?yōu)闀?huì)自己決策的系統(tǒng)。

像「找一瓶可樂」這樣的任務(wù),如果第一次沒找到,它會(huì)自己換個(gè)地方再試,而不是直接放棄。這種做法才是應(yīng)對(duì)真實(shí)世界不確定性的關(guān)鍵。

當(dāng)「學(xué)」和「用」連成一個(gè)循環(huán),系統(tǒng)開始具備持續(xù)進(jìn)化的能力。這或許是具身智能走向長(zhǎng)期可用的分水嶺。

結(jié)語(yǔ)

具身機(jī)器人發(fā)展到現(xiàn)在,業(yè)界逐漸達(dá)成了一種共識(shí):?jiǎn)我蝗蝿?wù)的突破已不足以應(yīng)對(duì)日益復(fù)雜的應(yīng)用需求。機(jī)器人要在固定環(huán)境中穩(wěn)定執(zhí)行任務(wù),也必須適應(yīng)多變的環(huán)境。

高德 ABot 全棧體系不僅成功支撐高德途途在開放環(huán)境中完成導(dǎo)盲任務(wù),還為行業(yè)提供了一個(gè)值得借鑒的范本:

通過(guò)數(shù)據(jù)層、模型層和 Agent 層的緊密結(jié)合,ABot 將感知、決策、執(zhí)行這些能力高效整合在一起,不像傳統(tǒng)上那樣單個(gè)模塊各自為政。

這樣既能提升任務(wù)執(zhí)行效率,也讓機(jī)器人在身處復(fù)雜、動(dòng)態(tài)的現(xiàn)實(shí)世界時(shí)更加游刃有余。

此次,高德不僅僅是在某個(gè)特定場(chǎng)景取得突破,也開啟了具身智能從實(shí)驗(yàn)室走向真實(shí)世界的一個(gè)標(biāo)志性節(jié)點(diǎn)。未來(lái)的機(jī)器人,更加可期。

文中視頻鏈接:https://mp.weixin.qq.com/s/lfjpZ7KDzNS41WCiCJjMUg

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
海軍四川艦赴南海開展試驗(yàn)訓(xùn)練

海軍四川艦赴南海開展試驗(yàn)訓(xùn)練

界面新聞
2026-04-21 23:23:46
掛羊頭賣狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

掛羊頭賣狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

悅君兮君不知
2026-04-21 23:09:42
火湖G2傷病情況:火箭隊(duì)2人缺陣,杜蘭特狀態(tài)升級(jí)!湖人雙核不打

火湖G2傷病情況:火箭隊(duì)2人缺陣,杜蘭特狀態(tài)升級(jí)!湖人雙核不打

熊哥愛籃球
2026-04-21 12:18:56
解禁不久的老照片,很多沒見過(guò)!

解禁不久的老照片,很多沒見過(guò)!

年代回憶
2026-04-21 20:44:30
清華大學(xué)教授建議:永遠(yuǎn)不要太操心你的孩子,更不要做完美的父母

清華大學(xué)教授建議:永遠(yuǎn)不要太操心你的孩子,更不要做完美的父母

棉花糖媽媽
2026-04-21 15:26:12
牌局終了:王石,潘石屹和許加印

牌局終了:王石,潘石屹和許加印

藍(lán)鉆故事
2026-04-22 01:33:24
孫儷兒子畫個(gè)妝能演甄嬛了!等等五官完全復(fù)刻了媽媽,尤其是眼睛

孫儷兒子畫個(gè)妝能演甄嬛了!等等五官完全復(fù)刻了媽媽,尤其是眼睛

觀魚聽雨
2026-04-21 18:07:05
保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
塞爾比世錦賽誓捍衛(wèi)80后王者地位:不在乎對(duì)手是誰(shuí),我是來(lái)奪冠的

塞爾比世錦賽誓捍衛(wèi)80后王者地位:不在乎對(duì)手是誰(shuí),我是來(lái)奪冠的

楊華評(píng)論
2026-04-22 01:08:46
“我是宣威人為何不能賣火腿?”云南一商家網(wǎng)售“宣威火腿”被訴侵權(quán)

“我是宣威人為何不能賣火腿?”云南一商家網(wǎng)售“宣威火腿”被訴侵權(quán)

封面新聞
2026-04-21 18:15:02
孫儷基因太強(qiáng)大!14歲兒子近照神似“少年甄嬛”引熱議

孫儷基因太強(qiáng)大!14歲兒子近照神似“少年甄嬛”引熱議

韓小娛
2026-04-21 16:16:26
人民日?qǐng)?bào)聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請(qǐng)立刻升級(jí)系統(tǒng)!

人民日?qǐng)?bào)聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請(qǐng)立刻升級(jí)系統(tǒng)!

小柱解說(shuō)游戲
2026-04-19 20:52:59
吳宜澤:贏得冠軍是我的夢(mèng)想!奧沙利文走錯(cuò)場(chǎng)地,第34次戰(zhàn)世錦賽

吳宜澤:贏得冠軍是我的夢(mèng)想!奧沙利文走錯(cuò)場(chǎng)地,第34次戰(zhàn)世錦賽

排球黃金眼
2026-04-22 00:49:53
越吃肝越干凈的3個(gè)蔬菜,肝毒清了、火氣瀉了,睡得香,身體棒!

越吃肝越干凈的3個(gè)蔬菜,肝毒清了、火氣瀉了,睡得香,身體棒!

江江食研社
2026-04-22 03:30:03
致5死29傷、經(jīng)濟(jì)損失約1136萬(wàn)元!哈同高速較大道路交通事故調(diào)查報(bào)告:雨天超速行駛車輛失控,部分乘客未系安全帶加重傷亡后果

致5死29傷、經(jīng)濟(jì)損失約1136萬(wàn)元!哈同高速較大道路交通事故調(diào)查報(bào)告:雨天超速行駛車輛失控,部分乘客未系安全帶加重傷亡后果

大象新聞
2026-04-21 12:55:38
凈利潤(rùn)暴跌86%,理想汽車怎么了?

凈利潤(rùn)暴跌86%,理想汽車怎么了?

牛頓頓頓
2026-04-20 17:07:20
聯(lián)合國(guó)秘書長(zhǎng)發(fā)言人在記者會(huì)上用中文問好 并表示希望聯(lián)合國(guó)的多語(yǔ)種服務(wù)越來(lái)越好

聯(lián)合國(guó)秘書長(zhǎng)發(fā)言人在記者會(huì)上用中文問好 并表示希望聯(lián)合國(guó)的多語(yǔ)種服務(wù)越來(lái)越好

每日經(jīng)濟(jì)新聞
2026-04-21 14:32:56
國(guó)乒世界冠軍宣布退網(wǎng):給我多少錢也不回來(lái)了 復(fù)出不是為了流量

國(guó)乒世界冠軍宣布退網(wǎng):給我多少錢也不回來(lái)了 復(fù)出不是為了流量

念洲
2026-04-21 06:49:10
2026年女籃世界杯抽簽:中國(guó)、美國(guó)、意大利、捷克同組 前二名晉級(jí)

2026年女籃世界杯抽簽:中國(guó)、美國(guó)、意大利、捷克同組 前二名晉級(jí)

狼叔評(píng)論
2026-04-22 01:04:07
西方軍事專家:不同于其他大國(guó),中國(guó)是全世界最完美的超級(jí)大國(guó)

西方軍事專家:不同于其他大國(guó),中國(guó)是全世界最完美的超級(jí)大國(guó)

斜煙風(fēng)起雨未
2026-04-22 04:59:38
2026-04-22 05:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12822文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬(wàn)億帝國(guó)、訪華20次,庫(kù)克留下了什么

頭條要聞

三國(guó)取消飛航許可 賴清德無(wú)法竄訪斯威士蘭

頭條要聞

三國(guó)取消飛航許可 賴清德無(wú)法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬(wàn)-50.8萬(wàn)元

態(tài)度原創(chuàng)

本地
手機(jī)
時(shí)尚
數(shù)碼
公開課

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

手機(jī)要聞

iOS 26.5 Beta 3新版體驗(yàn):改進(jìn)解鎖流暢度,信號(hào)也變好了?

頂流復(fù)工,已判若兩人

數(shù)碼要聞

大疆DJI Mic Mini 2發(fā)布:329元起 可更換麥克風(fēng)磁吸前蓋

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版