国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身大模型:先對齊評測,再對齊世界

0
分享至

過去兩年,我們見過太多絲滑的機器人Demo,除了跳舞、打球等動作秀,還有端茶倒水、疊衣服、做飯等日常任務。

但這些視頻的共同特點是,發(fā)布完論文或視頻,就銷聲匿跡,你永遠不知道,它在現(xiàn)實中到底是什么樣。

這就是具身智能現(xiàn)在的核心矛盾:網(wǎng)上炒得火熱,但還停留在“視頻時代”。

最近,隨著宇樹科技IPO持續(xù)升溫,這個問題也越來越受到重視。特別是宇樹在招股書中提到,擬募資 42 億人民幣,其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”,也就是俗稱的具身模型。

宇樹的成功,本質上是硬件工程能力的勝利。成本控制、運動控制、量產能力,這些都已經被驗證。

但行業(yè)已經進入一個階段,市場真正想要的,是另一件事:誰能做出通用的具身模型?



01.

具身模型“關公戰(zhàn)秦瓊”

如果你熟悉 AI 相關的最新研究,就會發(fā)現(xiàn)每隔一段時間,就會有來自公司或高校的研究團隊,號稱在具身模型、VLA(視覺-語言-動作模型)上取得了突破。

它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里,在一些任務上,展現(xiàn)出了驚人的成功率,達到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕,好像具身智能的 ChatGPT 時刻已經不遠了。

這些研究當然很有價值,但它們有一個根本性問題:仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距(Sim2Real Gap)。

在仿真環(huán)境中,物體材質、摩擦系數(shù)、傳感器噪聲、物體擺放方式等,都是可控的,而現(xiàn)實世界是不可控的。



這也是為什么,很多模型在論文里 SOTA,一上真機就崩。這種現(xiàn)象在機器人領域非常普遍,也是具身智能遲遲無法大規(guī)模落地的重要原因之一。

Demo 視頻越來越多,論文越來越多,但大家很難真正比較不同模型之間的能力差異,就像是“關公戰(zhàn)秦瓊”。

問題不在模型數(shù)量,而在缺乏 Benchmark。

02.

RoboChallenge:具身智能的評測基礎

行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標準,讓不同模型可以在同一環(huán)境下進行橫向比較。

正是在這樣的背景下,RoboChallenge出現(xiàn)了。

RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起,被認為是全球首個大規(guī)模、多任務的真實機器人評測基準平臺。



與傳統(tǒng)機器人競賽不同,RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系:

  • 統(tǒng)一機器人硬件(UR5、Franka、ALOHA 等)
  • 統(tǒng)一任務
  • 統(tǒng)一評測指標
  • 模型遠程提交
  • 在真實機器人上執(zhí)行
  • 公開排行榜
  • 可復現(xiàn)結果

研究人員即使沒有機器人,也可以通過遠程調用真實機器人測試算法,這大幅降低了具身智能研究的門檻。

這解決了一個核心問題:不同模型可以橫向比較,模型好不好,直接上機跑。

更關鍵的是,RoboChallenge不僅給分數(shù),還給失敗軌跡。這點極其重要,因為傳統(tǒng)的機器人競賽,通常只關注最終的成功率,但對于具身模型來說,知道怎么失敗的,更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié),來進行針對性的微調和優(yōu)化。

RoboChallenge 的目標不是做一次比賽,而是建立一個長期的評測基礎設施,推動具身智能從實驗室智能,走向現(xiàn)實世界智能。

截至目前:RoboChallenge 已執(zhí)行超過4萬次真機測試,單日提交達到181次,就像是機器人的工業(yè)級測試流水線。

03.

具身智能的殘酷真相

RoboChallenge 在2025年下半年才推出,但已經暴露出了當前具身模型的很多問題和真相。

RoboChallenge 包括名為 Table30 桌面操作基準測試集,其中有 30 個精心設計的日常情境任務(一般競賽或評測的任務僅有 3-5 個),例如整理物品、抓取物體、插線、擺放物品等。

從表面上看,這些任務似乎只是簡單的桌面操作,但從能力結構來看,這類任務實際上覆蓋了具身智能最核心的能力組合:視覺理解、語言理解、任務規(guī)劃、精細操作、長時序決策、泛化能力等等。

換句話說,Table30 是在測試具身模型是否具備通用操作能力。



RoboChallenge 前不久發(fā)布了年度報告。結論概括來說:

  • 榜首模型成功率約 50%。
  • 模型在基礎抓取任務上的成功率比較高,但在精細操作和長任務鏈任務上,成功率明顯下降,比如“制作三明治”這個任務還沒有模型能完成。

這說明什么?我們距離“通用操作智能”,還差很遠。

有了客觀的評測體系,才能真正衡量模型的水平。

04.

具身智能不缺模型,缺排行榜

如果回顧人工智能過去十幾年的發(fā)展,會發(fā)現(xiàn)一個非常清晰的規(guī)律:幾乎所有重大技術突破,都伴隨著公開基準測試與排行榜競爭。例如:

  • ImageNet 推動了深度學習視覺模型的發(fā)展
  • GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
  • LMSYS Arena 推動了大語言模型競爭

公開 Benchmark 的作用不僅僅是比較模型性能,更重要的是,它能統(tǒng)一技術目標、提供可復現(xiàn)的評測方法、加速技術路線收斂、吸引更多研究者參與。

具身智能領域長期沒有類似大語言模型領域的 benchmark,因此技術路線非常分散,很多團隊做的是 Demo,而不是可復現(xiàn)系統(tǒng)。

RoboChallenge 的意義,可能正是在這里。

很多人討論具身智能時,往往只關注模型本身,但實際上,具身智能是一個典型的系統(tǒng)工程,其進步也要依靠完整的基礎設施。

除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié),評測體系是連接模型與應用的關鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系,就無法判斷模型是否真的進步,也無法形成行業(yè)共識。

從這個角度看,具身智能行業(yè)目前最缺的反而不是模型,而是一個公正的排行榜。

在今年的 AI 國際頂會 CVPR 上,還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時,Table30 V2 的預覽版也將上線發(fā)布。



Table V2會從任務升級、評測升級到系統(tǒng)升級三個維度深度重構,也會對具身模型進行了全方位的極限壓測。

如果你正在做具身智能、VLA、機器人控制,不要只做Demo,只做視頻,應該去參與打榜比賽。

未來幾年,具身智能領域真正的技術突破,很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CBA最新消息!上海男籃大將常規(guī)賽報銷,北京首鋼簽約頂級后衛(wèi)

CBA最新消息!上海男籃大將常規(guī)賽報銷,北京首鋼簽約頂級后衛(wèi)

體壇瞎白話
2026-04-20 12:52:14
被豆包害慘了的大學生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實人

被豆包害慘了的大學生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實人

夜深愛雜談
2025-12-02 20:51:10
福原愛沒撒謊,公開祝福、獨自帶娃的江宏杰,證實她當年評價

福原愛沒撒謊,公開祝福、獨自帶娃的江宏杰,證實她當年評價

白面書誏
2026-04-20 15:28:46
霍爾木茲突發(fā)!美伊談判,重大宣布!

霍爾木茲突發(fā)!美伊談判,重大宣布!

中國經濟網(wǎng)
2026-04-20 10:02:03
德國百年巨頭倒下時,浙江修鞋匠花4500萬買下,如今年入70億

德國百年巨頭倒下時,浙江修鞋匠花4500萬買下,如今年入70億

毒sir財經
2026-04-19 22:12:53
國產混動,集體殺向豐田腹地

國產混動,集體殺向豐田腹地

新浪財經
2026-04-20 18:06:42
臺軍到底能不能打?7萬字告訴你答案

臺軍到底能不能打?7萬字告訴你答案

述策
2026-04-20 11:08:57
油價調整:倒計時1天,預計下調780元/噸,明晚油價要跌!

油價調整:倒計時1天,預計下調780元/噸,明晚油價要跌!

金投網(wǎng)
2026-04-20 11:01:32
到底得有多壞,才能做出這么喪盡天良的事!

到底得有多壞,才能做出這么喪盡天良的事!

胖胖說他不胖
2026-04-19 09:00:30
10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

聽風喃
2026-04-06 11:16:04
買到寶了!曼城22歲小將賽季10球13助僅次哈蘭德,一年身價翻1倍

買到寶了!曼城22歲小將賽季10球13助僅次哈蘭德,一年身價翻1倍

衣衫襤褸的文人
2026-04-20 17:12:15
24架殲10直沖云霄!巴鐵從名單中硬核搶人:以色列戰(zhàn)機就在伏擊圈

24架殲10直沖云霄!巴鐵從名單中硬核搶人:以色列戰(zhàn)機就在伏擊圈

深析古今
2026-04-19 09:17:01
Model Y 撞報廢,車主輕傷,又訂了輛 Model Y L!

Model Y 撞報廢,車主輕傷,又訂了輛 Model Y L!

新浪財經
2026-04-20 15:28:47
間諜就在我們身邊!4月16日,央視報道了一個讓人后背發(fā)涼的新聞

間諜就在我們身邊!4月16日,央視報道了一個讓人后背發(fā)涼的新聞

游古史
2026-04-20 11:47:39
很多微信群都變成了死群,因為人很難對沒有利益的事保持長久熱情

很多微信群都變成了死群,因為人很難對沒有利益的事保持長久熱情

大張的自留地
2026-04-20 13:10:12
中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

新華社
2026-04-20 17:44:02
張涵予新片《尋龍訣》上映僅1天,觀眾強烈要求下架,罵聲一片

張涵予新片《尋龍訣》上映僅1天,觀眾強烈要求下架,罵聲一片

秋姐居
2026-04-18 19:34:07
半場21分!真不像斷過跟腱的樣子啊...

半場21分!真不像斷過跟腱的樣子啊...

左右為籃
2026-04-20 11:57:07
我國科學家發(fā)現(xiàn)人有兩個“斷崖式衰老”節(jié)點,分別是50歲和63歲

我國科學家發(fā)現(xiàn)人有兩個“斷崖式衰老”節(jié)點,分別是50歲和63歲

科普大世界
2026-04-20 10:15:11
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

莫地方
2026-04-20 09:30:18
2026-04-20 20:04:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
6474文章數(shù) 4583關注度
往期回顧 全部

科技要聞

華為Pura90逆周期定價,4699元起,未漲價

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

親子
家居
藝術
公開課
軍事航空

親子要聞

上海首家兒童運動醫(yī)學中心成立,推行微創(chuàng)優(yōu)先、醫(yī)護康一體化服務

家居要聞

自然慢調 慢享時光

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版