国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RoboChallenge發(fā)布年度報告:評測標尺夠權(quán)威嗎?

0
分享至


具身模型在榜單里卷起來了。

作者丨劉欣

編輯丨馬曉寧 高景輝

當下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機器人的流暢操作,但視頻中的機器人卻又在現(xiàn)實世界中頻繁失誤。

這種虛假繁榮的背后,其實是行業(yè)長期缺乏真實場景驗證、評測標準模糊等問題。機器人從實驗室走到現(xiàn)實世界,始終被仿真到現(xiàn)實世界等難題所制約。

模擬器的評估無法完美復現(xiàn)真實世界中的物理擾動、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機Dexmal與Hugging Face聯(lián)合推出了全球首個具身智能大規(guī)模評測平臺——RoboChallenge。

緊隨其后,原力靈機又與Hugging Face聯(lián)合智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學、西安交通大學及GOSIM等機構(gòu),于2025年11月20日正式成立RoboChallenge組委會。

2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國千尋智能自研的模型,而WALL-OSS則是自變量機器人的全自研開源操作大模型。

這個榜單釋放出了一個重磅信號:中國自主研發(fā)的具身智能模型,已具備與國外頂級模型同臺對打的實力,甚至還打贏了。

不過,作為推出還沒多久的新興評測平臺,尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭議,所以AI科技評論打算從技術(shù)和核心設(shè)計的角度,對RoboChallenge進行深度拆解與解讀。

01
RoboChallenge系統(tǒng)核心設(shè)計

在具身智能領(lǐng)域,真機評測的標準化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評測標尺,更讓不同團隊的技術(shù)成果難以形成有效對比,嚴重影響了行業(yè)迭代效率。

但提供機器人在線服務(wù)并非表面看上去那么簡單,首要問題是如何向提交算法的用戶開放機器人訪問權(quán)限。

原力靈機最開始考慮了三種主要的模式,分別是模型級提交、系統(tǒng)級提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

? 計算兼容性:提交模型并使其在其他環(huán)境中正確運行極為復雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

? 靈活性:原力靈機不希望將用戶限制在以往系統(tǒng)中默認的 “觀測 - 動作” 映射所隱含的 “暫停 - 推理” 控制模式中。

? 可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是,原力靈機采用 “遠程機器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標準化低層級API即可實現(xiàn)全異步交互。

不同于仿真測試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機型在內(nèi)的20臺真機測試集群,對這些機器人的選擇上,還有幾條準則:耐用性、普及性、安全性以及性能良好。

所有機器人均搭載Intel RealSense深度相機,包含俯視工作區(qū)域的主相機、機械臂末端的腕部相機及單臂設(shè)備專用的側(cè)面相機,為VLA模型提供多視角觀測數(shù)據(jù)。

前期的準備完善后,RoboChallenge又發(fā)現(xiàn)測試中的各種因素會導致最后的結(jié)果巨大,難以成為客觀、公正的測評體系。因此,需要一套規(guī)范的方法來控制測試中的各種因素。

首先,對于測試人員導致的差異,RoboChallenge對有經(jīng)驗、無經(jīng)驗、適應(yīng)性的測試人員進行了測試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗,RoboChallenge設(shè)計出了更完善的評估協(xié)議,特別是更穩(wěn)定的物體重置方法。


RoboChallenge還對環(huán)境中的各種因素進行了研究,比如光照條件,但進行的概念驗證實驗發(fā)現(xiàn),背景或環(huán)境的變化不會對測試結(jié)果產(chǎn)生太大影響。


02
Table30基準測試集

Table30基準測試集包含30項圍繞固定工作臺執(zhí)行的任務(wù),涵蓋家庭、廚房、辦公、校園等多元場景,任務(wù)類型包括物體整理、機械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務(wù)衡量了通用機器人控制算法應(yīng)具備的多種能力,乍看下來很簡單,但即使是最先進的基礎(chǔ)模型也無法達到較高的總體成功率。



任務(wù)的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實生活以及簡潔性這四個原則。



RoboChallenge認為,基準測試集是衡量通用機器人技術(shù)方法的必要測試。并且,隨著評估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢:

首先是,模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

RoboChallenge的評測區(qū)分了單任務(wù)模型和多任務(wù)模型,單任務(wù)模型是對特定任務(wù)進行優(yōu)化,多任務(wù)模型能夠使適配不同類型的任務(wù),泛化能力較好。

對比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn),pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。


至于如何平衡“單項精準度”與“多任務(wù)適配性”,這或許將會成為通往通用具身智能的關(guān)鍵課題。

其次,任務(wù)難度梯隊清晰,部分任務(wù)成行業(yè)共性難題

Table30的每一個任務(wù)都是賦予了機型、構(gòu)型、能力類型這三個維度,共15個標簽。


通過對頭部模型成功率的分布,可以將30個標準化任務(wù)分為三個不同能力梯隊。

第一梯隊是hello world級任務(wù),這類人任務(wù)對于頭部模型而言沒有任何難度。第二梯隊是簡單的任務(wù),對于頭部模型比較友好,難度較低。而第三梯隊則是特定模型的特長,此類任務(wù)呈現(xiàn)極端的兩級分化。

更值得關(guān)注的是,有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務(wù):


復盤任務(wù)后發(fā)現(xiàn),“做素三明治”任務(wù)的核心難點在于時序性,做三明治需要按照嚴格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯誤和失敗,所以容錯率極低,一步錯步步錯。

“給盆栽澆水”任務(wù)則暴露了模型的時序依賴缺失問題,長程任務(wù)要求模型維持對歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機動作。


此外,整理書籍、疊抹布、排列紙杯等任務(wù),也成為參測模型的高頻失敗場景。

除了Table30測試集中的30項任務(wù),RoboChallenge指出,當前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個維度梳理。靈巧性是指輸出不同的動作、駕馭不同的身體;泛化性是指即使測評對象不同也能成功;智能是面對沒做過的任務(wù)也能嘗試做成功;性能是指機器人的效率。

總的來說,這些失敗案例共同指向一個核心結(jié)論:當前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實場景的規(guī)?;瘧?yīng)用仍有較大差距。

可見,當下的VLA參測模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。

03
落地效果良好

RoboChallenge的報告中指出,平臺用戶注冊數(shù)與評測提交量在過去三個月呈指數(shù)級增長。并且活躍用戶區(qū)域也不僅限于中國開發(fā)者,美國、新加坡等地的開發(fā)者正在逐漸涌入。


平臺累計執(zhí)行的真機測試總數(shù)甚至超過了4萬次,單日真機測試峰值達到834次,Table30測試集在Hugging Face平臺上的累計下載量已達17k次。

從上述前期的準備和后期的效果上來看,RoboChallenge的確精準衡量了VLA模型在真實場景中的綜合能力,為市場提供了一個較為客觀的評測標尺。

同時,也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級操作,參測模型雖具備較強的指令語義理解能力,但在精細操作任務(wù)中成功率不高。

而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當當前的技術(shù)難題被模型完美解決后,平臺未來將設(shè)計出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ),RoboChallenge進一步釋放開放協(xié)作的信號,明確表示希望能吸引更多研究機構(gòu)、科技企業(yè)、初創(chuàng)團隊及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強在回憶建立RoboChallenge的心路歷程時,也迫切地表示想弄出下一個Benchmark,涵蓋更多更難的任務(wù),更長程的、更廣泛的任務(wù),而打造有價值的真實任務(wù)、向真實場景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠地向全社會喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

未來,隨著更多新鮮任務(wù)場景的注入、創(chuàng)新評估方法的融合及基準測試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動具身智能模型向更通用、更實用的方向穩(wěn)步發(fā)展。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

瀟湘晨報
2026-03-10 19:14:12
伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

念洲
2026-03-10 19:45:58
新款奧迪A6L預售價公布:32.3萬元起

新款奧迪A6L預售價公布:32.3萬元起

界面新聞
2026-03-10 15:38:51
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

老特有話說
2026-03-08 15:30:41
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風過鄉(xiāng)
2026-03-10 21:14:19
江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

科學發(fā)掘
2026-03-10 11:12:41
1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

史之銘
2026-03-10 17:55:32
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

風過鄉(xiāng)
2026-03-10 21:00:08
打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

史政先鋒
2026-03-09 19:30:53
第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導彈

第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導彈

裝甲鏟史官
2026-03-10 14:12:51
毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

優(yōu)趣紀史記
2026-03-10 11:15:34
陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

江江食研社
2026-03-10 14:13:03
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

側(cè)身凌空斬
2026-03-10 19:01:07
行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

科普100克克
2026-03-10 16:14:17
「俠客島」美國打伊朗,歐洲為啥“不跟”?

「俠客島」美國打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

鈦媒體APP
2026-03-10 17:22:25
伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

上游新聞
2026-03-10 13:40:14
中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
2026-03-10 23:12:49
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

旅游
教育
房產(chǎn)
手機
公開課

旅游要聞

瀘溪縣大陂流村油菜花綻放 滿目金黃迎客來

教育要聞

近10年,全國普通高校畢業(yè)生規(guī)模連年增長!

房產(chǎn)要聞

信號!千億巨頭入局,三亞開啟新一輪大征拆!

手機要聞

7999起,小米17 Ultra徠卡版全新黑銀色開售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版