網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身大模型：先對齊評測，再對齊世界

2026-04-01 17:30:56　來源: 機器人大講堂

安徽舉報

分享至

過去兩年，我們見過太多絲滑的機器人Demo，除了跳舞、打球等動作秀，還有端茶倒水、疊衣服、做飯等日常任務。

但這些視頻的共同特點是，發(fā)布完論文或視頻，就銷聲匿跡，你永遠不知道，它在現(xiàn)實中到底是什么樣。

這就是具身智能現(xiàn)在的核心矛盾：網(wǎng)上炒得火熱，但還停留在“視頻時代”。

最近，隨著宇樹科技IPO持續(xù)升溫，這個問題也越來越受到重視。特別是宇樹在招股書中提到，擬募資 42 億人民幣，其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”，也就是俗稱的具身模型。

宇樹的成功，本質上是硬件工程能力的勝利。成本控制、運動控制、量產能力，這些都已經被驗證。

但行業(yè)已經進入一個階段，市場真正想要的，是另一件事：誰能做出通用的具身模型？

01.

具身模型“關公戰(zhàn)秦瓊”

如果你熟悉 AI 相關的最新研究，就會發(fā)現(xiàn)每隔一段時間，就會有來自公司或高校的研究團隊，號稱在具身模型、VLA（視覺-語言-動作模型）上取得了突破。

它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里，在一些任務上，展現(xiàn)出了驚人的成功率，達到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕，好像具身智能的 ChatGPT 時刻已經不遠了。

這些研究當然很有價值，但它們有一個根本性問題：仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距（Sim2Real Gap）。

在仿真環(huán)境中，物體材質、摩擦系數(shù)、傳感器噪聲、物體擺放方式等，都是可控的，而現(xiàn)實世界是不可控的。

這也是為什么，很多模型在論文里 SOTA，一上真機就崩。這種現(xiàn)象在機器人領域非常普遍，也是具身智能遲遲無法大規(guī)模落地的重要原因之一。

Demo 視頻越來越多，論文越來越多，但大家很難真正比較不同模型之間的能力差異，就像是“關公戰(zhàn)秦瓊”。

問題不在模型數(shù)量，而在缺乏 Benchmark。

02.

RoboChallenge：具身智能的評測基礎

行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標準，讓不同模型可以在同一環(huán)境下進行橫向比較。

正是在這樣的背景下，RoboChallenge出現(xiàn)了。

RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起，被認為是全球首個大規(guī)模、多任務的真實機器人評測基準平臺。

與傳統(tǒng)機器人競賽不同，RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系：

統(tǒng)一機器人硬件（UR5、Franka、ALOHA 等）
統(tǒng)一任務
統(tǒng)一評測指標
模型遠程提交
在真實機器人上執(zhí)行
公開排行榜
可復現(xiàn)結果

研究人員即使沒有機器人，也可以通過遠程調用真實機器人測試算法，這大幅降低了具身智能研究的門檻。

這解決了一個核心問題：不同模型可以橫向比較，模型好不好，直接上機跑。

更關鍵的是，RoboChallenge不僅給分數(shù)，還給失敗軌跡。這點極其重要，因為傳統(tǒng)的機器人競賽，通常只關注最終的成功率，但對于具身模型來說，知道怎么失敗的，更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié)，來進行針對性的微調和優(yōu)化。

RoboChallenge 的目標不是做一次比賽，而是建立一個長期的評測基礎設施，推動具身智能從實驗室智能，走向現(xiàn)實世界智能。

截至目前：RoboChallenge 已執(zhí)行超過4萬次真機測試，單日提交達到181次，就像是機器人的工業(yè)級測試流水線。

03.

具身智能的殘酷真相

RoboChallenge 在2025年下半年才推出，但已經暴露出了當前具身模型的很多問題和真相。

RoboChallenge 包括名為 Table30 桌面操作基準測試集，其中有 30 個精心設計的日常情境任務（一般競賽或評測的任務僅有 3-5 個），例如整理物品、抓取物體、插線、擺放物品等。

從表面上看，這些任務似乎只是簡單的桌面操作，但從能力結構來看，這類任務實際上覆蓋了具身智能最核心的能力組合：視覺理解、語言理解、任務規(guī)劃、精細操作、長時序決策、泛化能力等等。

換句話說，Table30 是在測試具身模型是否具備通用操作能力。

RoboChallenge 前不久發(fā)布了年度報告。結論概括來說：

榜首模型成功率約 50%。
模型在基礎抓取任務上的成功率比較高，但在精細操作和長任務鏈任務上，成功率明顯下降，比如“制作三明治”這個任務還沒有模型能完成。

這說明什么？我們距離“通用操作智能”，還差很遠。

有了客觀的評測體系，才能真正衡量模型的水平。

04.

具身智能不缺模型，缺排行榜

如果回顧人工智能過去十幾年的發(fā)展，會發(fā)現(xiàn)一個非常清晰的規(guī)律：幾乎所有重大技術突破，都伴隨著公開基準測試與排行榜競爭。例如：

ImageNet 推動了深度學習視覺模型的發(fā)展
GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
LMSYS Arena 推動了大語言模型競爭

公開 Benchmark 的作用不僅僅是比較模型性能，更重要的是，它能統(tǒng)一技術目標、提供可復現(xiàn)的評測方法、加速技術路線收斂、吸引更多研究者參與。

具身智能領域長期沒有類似大語言模型領域的 benchmark，因此技術路線非常分散，很多團隊做的是 Demo，而不是可復現(xiàn)系統(tǒng)。

RoboChallenge 的意義，可能正是在這里。

很多人討論具身智能時，往往只關注模型本身，但實際上，具身智能是一個典型的系統(tǒng)工程，其進步也要依靠完整的基礎設施。

除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié)，評測體系是連接模型與應用的關鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系，就無法判斷模型是否真的進步，也無法形成行業(yè)共識。

從這個角度看，具身智能行業(yè)目前最缺的反而不是模型，而是一個公正的排行榜。

在今年的 AI 國際頂會 CVPR 上，還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時，Table30 V2 的預覽版也將上線發(fā)布。

Table V2會從任務升級、評測升級到系統(tǒng)升級三個維度深度重構，也會對具身模型進行了全方位的極限壓測。

如果你正在做具身智能、VLA、機器人控制，不要只做Demo，只做視頻，應該去參與打榜比賽。

未來幾年，具身智能領域真正的技術突破，很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美財長說中國電車是燃煤車，網(wǎng)友評論一針見血

中國日報網(wǎng) 2026-04-20 00:21:10
736 跟貼 736
法國通過文物歸還法案敦煌藏經洞文物就能回歸嗎

澎湃新聞 2026-04-20 08:08:29
8000 跟貼 8000

解放軍133號艦艇編隊從橫當水道進入太平洋專家解讀

環(huán)球網(wǎng)資訊 2026-04-20 12:17:06
95 跟貼 95

寧波男子收到陌生賬號轉賬8萬余元，三天后奢侈品牌商家找來：員工誤將其收款碼給客戶

齊魯壹點 2026-04-20 07:19:18
1205 跟貼 1205
比賽提前結束，WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
6713 跟貼 6713

驗資3000萬每日預約名單仍排滿，高凈值人群“排隊”看房，4月的杭州樓市是高端局

都市快報橙柿互動 2026-04-20 14:35:53
86 跟貼 86

4:1，武漢贏了！“蒜鳥”響徹現(xiàn)場

長江日報 2026-04-19 22:25:00
432 跟貼 432
媒體：日方有一種陰毒"戰(zhàn)略" 在自衛(wèi)隊宣揚未來再侵華

新民周刊 2026-04-20 09:08:09
1108 跟貼 1108

明天有小到中雨受冷空氣影響，最高氣溫僅15℃

北青網(wǎng)-北京青年報 2026-04-20 10:28:07
75 跟貼 75
阿聯(lián)酋被曝向美國尋求戰(zhàn)時金融支持否則恐以其他貨幣結算石油

財聯(lián)社 2026-04-20 10:04:07
257 跟貼 257
話題｜就差3分了！阿森納的聯(lián)賽冠軍夢又要破碎？

北青網(wǎng)-北京青年報 2026-04-20 09:04:20
137 跟貼 137
深圳一火鍋店招985和211大學應屆生儲備店長，從服務員做起，門店負責人：本科生就行，已有985管培生

極目新聞 2026-04-20 14:14:59
60 跟貼 60
男子爬上泰山“五岳獨尊”石刻拍照，景區(qū)：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1135 跟貼 1135
黎巴嫩再成戰(zhàn)場民眾：在這沒有人沒有失去過親近的人

新京報 2026-04-20 08:22:24
380 跟貼 380
5月1日起，醫(yī)療回扣要“涼涼”

中國新聞周刊 2026-04-20 13:21:25
52 跟貼 52
霍爾木茲海峽開了又關 35艘船只駛出又掉頭

界面新聞 2026-04-20 08:43:33
2515 跟貼 2515
多平臺訂購火車票現(xiàn)功能異常客服回應

界面新聞 2026-04-20 09:16:20
284 跟貼 284
鄭柵潔主持召開民營企業(yè)座談會

界面新聞 2026-04-20 17:54:34
85 跟貼 85
日經225指數(shù)漲幅擴大至1%，最新報59057.94點

每日經濟新聞 2026-04-20 09:55:03
121 跟貼 121
一財社論：讓每個“小家”都過上好日子

第一財經資訊 2026-04-19 20:38:11
45 跟貼 45
圖說｜戰(zhàn)爭陰影下的中東古跡

澎湃新聞 2026-04-20 13:28:27
31 跟貼 31
快檢查自家陽臺官方提醒千萬別摸大量出現(xiàn)在廣東

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
0 跟貼 0
段睿凌晨悲痛發(fā)聲：沒有管家里一點點，姥爺去世了，蔡磊狀態(tài)很好

閱微札記 2026-04-20 19:36:24
0 跟貼 0
長沙一煎餅攤遇惡意競爭被女生“搭救”后火了，每天能賣100多個

九方魚論 2026-04-20 19:35:16
0 跟貼 0

CBA最新消息！上海男籃大將常規(guī)賽報銷，北京首鋼簽約頂級后衛(wèi)

機器人大講堂

立德機器人平臺，是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺

6474文章數(shù) 4583關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

家居

藝術

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數(shù)碼

房產 / 家居

具身大模型：先對齊評測，再對齊世界

華為Pura90逆周期定價，4699元起，未漲價

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

阿森納已拼盡全力，但你早干嘛去了...

鹿晗生日上熱搜，被關曉彤撕下體面

利潤暴跌7成，字節(jié)到底在做什么

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

上海首家兒童運動醫(yī)學中心成立，推行微創(chuàng)優(yōu)先、醫(yī)護康一體化服務

自然慢調 慢享時光

王羲之《換鵝帖》尚在人間，驚艷無比！

特朗普:美艦向伊朗貨船開火炸出個洞

華為Pura90逆周期定價，4699元起，未漲價

小學生遭多名中小學生施暴搜家家長以"入室搶劫"報案

小學生遭多名中小學生施暴搜家家長以"入室搶劫"報案

阿森納已拼盡全力，但你早干嘛去了...

鹿晗生日上熱搜，被關曉彤撕下體面

利潤暴跌7成，字節(jié)到底在做什么

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

上海首家兒童運動醫(yī)學中心成立，推行微創(chuàng)優(yōu)先、醫(yī)護康一體化服務

自然慢調慢享時光

王羲之《換鵝帖》尚在人間，驚艷無比！