国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Embodied Arena:業(yè)界首個統(tǒng)一具身大腦評測平臺重磅發(fā)布,30+模型全面對比揭示關(guān)鍵洞察

0
分享至


別再只盯著大模型競技場了!具身智能的“終極排位賽”——Embodied Arena 剛剛上線。

作者丨湯宏垚

具身智能是當前最為火熱的研究領域之一,然而,面對海量的模型和基準測試,研究者們常常陷入茫然和困惑——哪些模型的綜合具身能力最強?如何客觀評價具身AI模型的能力邊界?未來具身模型的演進應該朝著什么方向努力?近日,由國內(nèi)外10余家頂尖院校和研究機構(gòu)聯(lián)合推出的Embodied Arena正式發(fā)布。

Embodied Arena是一個全面、統(tǒng)一、持續(xù)演進的具身AI評測平臺,聚焦通用具身大腦能力,涵蓋22+基準測試和30+代表性模型,建立基準全面、能力體系完備的綜合評估體系,并通過深度分析揭示了七大關(guān)鍵技術(shù)洞察,為未來具身模型的發(fā)展方向提供了重要指引。

01

破解具身AI三大核心挑戰(zhàn)

具身AI作為通向AGI的關(guān)鍵路徑,一直面臨三大核心挑戰(zhàn):

1.能力定義不清:缺乏對具身AI核心能力的系統(tǒng)性理解

2.評測標準缺失:各個基準測試標準不一,無法橫向?qū)Ρ?/p>

3.數(shù)據(jù)獲取瓶頸:缺乏可擴展的自動化數(shù)據(jù)生成方法

Embodied Arena通過構(gòu)建系統(tǒng)性具身大腦能力分類、統(tǒng)一具身評測基礎設施和LLM驅(qū)動的自動化具身數(shù)據(jù)生成框架,試圖解決這三大難題。

02

三大任務類型,22+基準測試,30+模型全方位評估具身智能

平臺覆蓋3大核心任務類型,構(gòu)建完整評估體系:

  • 具身問答:涵蓋2D/3D視覺問答,評估多模態(tài)感知、理解、推理能力

  • 具身導航:包含物體導航、位置導航、指令導航,多方面檢驗具身導航能力

  • 具身任務規(guī)劃:多層級規(guī)劃能力評估,考察復雜任務理解、拆分、規(guī)劃能力


03

系統(tǒng)性能力分類:7大核心能力、25細分能力維度全面覆蓋


Embodied Arena建立了業(yè)界首個系統(tǒng)性具身AI大腦能力分類法,涵蓋7大核心能力、25個細分維度:

物體感知(Object Perception)

通過視覺輸入識別和理解具身環(huán)境中的物體。包含物體類型識別、物體屬性判斷(顏色、形狀、材質(zhì)等)、物體狀態(tài)檢測(開/關(guān)、靜止等)、物體數(shù)量計數(shù)四個維度。

空間感知(Spatial Perception)

通過視覺分析理解3D環(huán)境中的空間關(guān)系和定位。涵蓋空間關(guān)系判斷、空間距離估算、空間位置定位、空間尺寸估計四個維度。

時序感知(Temporal Perception)

理解具身場景中的時序事件和時序關(guān)系。包括時序事件描述和時序順序判斷兩個維度。

具身知識(Embodied Knowledge)

在具身情境中應用通用知識和具身知識。涵蓋通用知識運用和可供性預測兩個維度。

具身推理(Embodied Reasoning)

在具身場景中的多維度推理能力。包含物體推理、空間推理、時序推理、知識推理、任務推理五個維度。

具身導航(Embodied Navigation)

在復雜環(huán)境中進行不同類型引導的導航能力。涵蓋物體導航、位置導航、指令導航三個維度。

具身任務規(guī)劃(Embodied Task Planning)

復雜具身任務的策略規(guī)劃和執(zhí)行能力。包含基礎規(guī)劃、視覺參考規(guī)劃、空間參考規(guī)劃、時序參考規(guī)劃、知識參考規(guī)劃五個維度。

這一分類法不僅為現(xiàn)有22+基準測試提供了統(tǒng)一的能力映射框架,更為具身AI大腦研究建立了清晰的技術(shù)評估標準和技術(shù)路線圖。

04

平臺架構(gòu):從數(shù)據(jù)生成到模型評測的完整閉環(huán)

Embodied Arena采用模塊化設計,實現(xiàn)了從模型接入到結(jié)果分析的完整評測流程:

多源模型支持:兼容HuggingFace、ModelScope、API等多種接入方式,已集成30+先進模型

跨基準跨模型統(tǒng)一的評測管線:對齊不同基準集數(shù)據(jù)與不同模型的評測接入方式,統(tǒng)一計算并呈現(xiàn)對比評測結(jié)果

自動化數(shù)據(jù)生成:基于LLM的場景生成和能力導向數(shù)據(jù)演進機制,確保評測數(shù)據(jù)的多樣性和時效性

實時排行榜:提供具身基準數(shù)據(jù)集視角和具身能力視角雙重對比,每雙周更新,為研究方向提供精準指引

05

LLM驅(qū)動的自動數(shù)據(jù)生成框架

傳統(tǒng)具身AI評測基準面臨數(shù)據(jù)分布固定、可擴展性與多樣性受限的挑戰(zhàn)。Embodied Arena引入了LLM驅(qū)動的自動化數(shù)據(jù)生成框架來解決上述挑戰(zhàn),包含兩個關(guān)鍵組件:

自動化場景生成

  • 場景規(guī)劃:定義房間類型和空間關(guān)系

  • 功能分區(qū):將房間劃分為活動特定區(qū)域

  • 布局優(yōu)化:放置物體并優(yōu)化物體布局

能力導向數(shù)據(jù)演進

  • 構(gòu)建數(shù)據(jù)生成流程:構(gòu)建仿真驅(qū)動的程序化數(shù)據(jù)生成流程,包含了任務定義,模板構(gòu)建,場景生成,基于仿真與腳本的數(shù)據(jù)生成以及數(shù)據(jù)篩選的關(guān)鍵階段。

  • 建立難度天梯:從場景復雜度、語言復雜度、任務復雜度三個方向構(gòu)建數(shù)據(jù)模板,生成不同難度的數(shù)據(jù),提升數(shù)據(jù)多樣性。

  • 動態(tài)數(shù)據(jù)演進:根據(jù)模型表現(xiàn)生成特定數(shù)據(jù),并通過抽樣檢測保證數(shù)據(jù)質(zhì)量,確保評測集始終具有挑戰(zhàn)性。


06

七大關(guān)鍵發(fā)現(xiàn),揭示具身AI發(fā)展現(xiàn)狀

通過對30+模型在22+基準上的全面評測,Embodied Arena揭示了具身AI領域的七大關(guān)鍵洞察:

1.業(yè)界領先的多模態(tài)基礎模型領跑綜合能力評測榜單,專有具身模型憑借針對性具身數(shù)據(jù)訓練在相關(guān)特定基準上實現(xiàn)局部反超,但也暴露出針對單一基準的過擬合風險

業(yè)界領先的通用多模態(tài)基礎模型(如GPT-o3、Gemini-2.5-Pro)憑借其千億級參數(shù)規(guī)模和海量預訓練數(shù)據(jù)在多基準測試中相較具身模型取得10%-20%的評測指標領先,充分展現(xiàn)出跨任務的整體性能優(yōu)勢。然而,在相似參數(shù)規(guī)模下,通過針對性具身數(shù)據(jù)的訓練,專用具身模型可以在特定基準上顯著超越通用模型——RoboBrain2.0在Where2Place上準確率達到73.59%,遠超GPT-o3的33.46%,專用導航模型在VLN任務上也明顯優(yōu)于同規(guī)模通用模型,如StreamVLN達到54.90%成功率,而Claude-3.7-Sonnet僅為18.93%。然而,在這種針對性具身數(shù)據(jù)增訓之下,具身模型往往在特定基準測試中表現(xiàn)出色卻在其他任務上大幅下滑,呈現(xiàn)出較大性能波動,暴露出"刷榜式"過擬合而非真正能力提升的問題,為模型的通用性和實際應用帶來了潛在挑戰(zhàn)。因此,如何在避免特定能力過擬合式優(yōu)化的同時實現(xiàn)具身智能核心能力的全面均衡提升,將成為未來具身模型研究的重要方向。

2.具身模型的物體/空間/時間感知和具身知識能力制約其高階推理能力,物體感知和空間感知是基礎能力中的短板。

多基準綜合評估結(jié)果表明,模型基礎具身能力的缺陷直接制約其高階推理能力表現(xiàn)。具體體現(xiàn)為:模型的基礎具身能力(物體感知、空間感知、時間感知、具身知識)與高階推理能力呈顯著正相關(guān),斯皮爾曼等級相關(guān)系數(shù)ρ達0.80,且各項基礎具身能力均與高階推理能力呈顯著正相關(guān)(ρ范圍為0.68~0.77);同時,模型在高階推理任務上的表現(xiàn)(平均得分33.64)總體差于其基礎具身能力整體表現(xiàn)(平均得分38.84)。其中基礎具身能力中,模型的物體感知(平均得分38.33)與空間感知(平均得分28.62)能力尤為薄弱,這些結(jié)果共同揭示模型高階推理能力對基礎具身能力的深度依賴性。

3.具身感知與推理能力與下游任務性能顯著正相關(guān)相比端到端框架,任務導向智能體框架更能促進模型具身能力向下游任務性能轉(zhuǎn)化

模型在具身能力(物體感知、空間感知、時間感知、具身知識和具身推理)和下游任務(具身導航、具身任務規(guī)劃)的綜合排名表明,模型的具身能力與下游任務性能呈顯著正相關(guān) (斯皮爾曼等級相關(guān)系數(shù)ρ=0.80),且各項具身能力均與下游任務性能呈顯著正相關(guān) (ρ范圍為0.73~0.83.)??蚣軐Ρ葘嶒炦M一步驗證,采用任務導向智能體框架(即通用模型集成于下游任務專用智能體框架)時,模型具身能力與下游任務性能呈顯著正相關(guān)(ρ=0.79),導航與任務規(guī)劃成功率分別達36.21%和40.08%;而端到端框架(即通用模型直接應用于下游任務)僅呈中等相關(guān)性(ρ=0.40),導航成功率僅為5.80%,暴露出缺乏任務適配機制的顯著能力短板。值得注意的是,當端到端框架因缺乏任務適配機制而表現(xiàn)不佳時,通過針對下游任務的架構(gòu)創(chuàng)新與領域數(shù)據(jù)訓練可使模型實現(xiàn)性能躍升(VLN專用模型導航成功率最高可達50%以上)。綜上,強化具身能力是基礎,優(yōu)化智能體框架的能力轉(zhuǎn)化機制是核心支撐,而構(gòu)建下游任務專用模型則是實現(xiàn)垂直領域性能突破的有效路徑。

4.具身任務下的Scaling Law尚未顯現(xiàn)。參數(shù)規(guī)模的擴展無法帶來一致的性能提升;增加具身數(shù)據(jù)雖可提升特定任務表現(xiàn),常伴隨過擬合風險

當前具身任務下尚未觀察到明顯的Scaling Law。在參數(shù)規(guī)模層面,部分模型(如InternVL3)在具身問答和任務規(guī)劃任務中,增大參數(shù)規(guī)模能夠帶來性能提升;但在具身導航任務中,增大參數(shù)反而可能導致模型性能下降(如RoboBrain2.0-7B優(yōu)于RoboBrain2.0-32B),這表明參數(shù)層面的Scaling Law并未普遍顯現(xiàn)。在數(shù)據(jù)層面,增加具身任務特定數(shù)據(jù)雖可提升特定任務表現(xiàn),但往往伴隨過擬合風險,難以在所有能力上實現(xiàn)全面提升。例如,Embodied-R1與SpaceR均基于Qwen-2.5-VL-3B-Instruct訓練,卻均未在所有能力項上取得一致提升。這主要源于當前具身任務數(shù)據(jù)在多樣性、廣度和規(guī)模方面仍顯不足。此外,現(xiàn)有具身模型的架構(gòu)與訓練方式不統(tǒng)一,且多數(shù)模型僅有一個或少數(shù)幾個參數(shù)規(guī)模的版本,也限制了對具身模型Scaling Law 更全面深入的分析。

5.推理模型通過RFT在多個基準測試上展現(xiàn)出強大的性能表現(xiàn)在分布外泛化能力方面,RFT相較SFT的潛在優(yōu)勢有待進一步驗證

RFT能夠顯著增強推理模型在多項具身基準中的性能,并屢次刷新性能紀錄。例如,GPT-o3在多種任務規(guī)劃基準中表現(xiàn)優(yōu)異,Space-R在OpenEQA上達到新SOTA,Embodied-R1在Affordance預測任務中實現(xiàn)突破,VLN-R1則進一步驗證了RFT對導航成功率的提升作用。這表明,RFT有效促進了模型將基礎感知能力整合為高階推理技能,使其能夠勝任多步推理、序列決策與精確操作等復雜任務。此外,經(jīng)RFT訓練的具身模型已展現(xiàn)出一定的分布外泛化潛力。以Embodied-R1為例,在經(jīng)過RFT訓練后,其在不同分布外基準測試中的性能均較僅使用SFT的版本有顯著提升。因此,基于RFT的訓練范式為具身智能的發(fā)展提供了極具潛力的路徑,但其泛化能力的深度與廣度仍需進一步探索和驗證。

6.原生3D信息處理方法面臨多模態(tài)對齊的挑戰(zhàn),2D-3D融合框架憑借3D信息與2D視覺-語言基座能力的對齊機制,顯著增強具身模型的空間理解與推理能力

3D表征提供了完整空間結(jié)構(gòu)和精確幾何信息,因此是實現(xiàn)精確空間推理和物體交互的關(guān)鍵。然而,直接處理點云或體素的原生3D表征方法缺乏與2D視覺-語言基座能力的對齊,無法充分利用2D基座模型通過大規(guī)模視覺-語言預訓練獲得的豐富語義能力。3D具身問答能力評測表明,依賴原生3D表征的LEO為48.48分,而采用2D-3D表征融合的具身模型——GPT4Scene-HDM達到62.11分,LL3DA獲得62.90分。這種顯著差異反映出,在當前缺乏通用3D-語言基座模型的情況下,從零構(gòu)建面向具身的3D幾何與語言的對齊關(guān)系,不如在已有2D視覺-語言對齊基礎上增強3D空間感知高效。盡管2D-3D融合框架已成為兼顧基座模型語義能力與精確空間感知的有效范式,其本質(zhì)上仍屬于目前過渡性質(zhì)的妥協(xié)方案,長遠來看,如何通過多階段訓練策略或設計創(chuàng)新性的模型架構(gòu),實現(xiàn)原生3D信息與語言的深度對齊,進而構(gòu)建更為直接、高效的原生3D基座模型,是未來極具挑戰(zhàn)性和前瞻性的關(guān)鍵研究方向。

7.具身指向(Embodied Pointing)作為核心表征,能夠驅(qū)動基礎能力與下游任務的雙重提升。然而,其在復雜具身任務中的潛力有待進一步發(fā)掘。

具身指向能夠有效提升基礎能力與下游任務性能,其核心在于充當了基礎性的“錨定機制”(Grounding Mechanism)。該機制通過將抽象語言與精確物理坐標緊密關(guān)聯(lián),統(tǒng)一了感知、推理與規(guī)劃等原本割離的子任務,顯著增強了模型的認知整合能力。這種整合進而提高了模型在看似無關(guān)甚至分布外任務上的泛化表現(xiàn)。然而,這一潛力在當前實踐中仍面臨明顯挑戰(zhàn)。盡管經(jīng)過指向數(shù)據(jù)微調(diào)的模型在特定基準測試中表現(xiàn)優(yōu)異,但在應對復雜指令與動態(tài)場景時,其性能顯著下滑。這表明模型可能僅僅“過擬合”了簡單的指向模式,并未真正習得錨定所必需的綜合推理能力,反映出專一化訓練與通用推理之間的內(nèi)在權(quán)衡。因此,如何系統(tǒng)掌握具身指向技術(shù)并高效運用相關(guān)訓練數(shù)據(jù),已成為推動先進具身智能發(fā)展的核心挑戰(zhàn),也為評估與增強模型多模態(tài)理解與推理能力提供了重要路徑。

07

開放合作,共建具身AI生態(tài)

Embodied Arena采用開放式設計,歡迎全球研究者貢獻:

  • 模型提交:支持開源和閉源模型,提供專業(yè)技術(shù)支持

  • 基準集成:新基準可靈活接入,保持評測體系與時俱進

  • 周更新:確保排行榜實時反映最新進展

訪問地址:https://embodied-arena.com/

08

結(jié)語

Embodied Arena通過建立全面的具身大腦能力分類體系、統(tǒng)一的評測基礎設施和持續(xù)演進的自動化數(shù)據(jù)生成機制,不僅為當前研究提供了客觀評估標準,更為具身AI的未來發(fā)展指明了清晰方向。

隨著更多模型和基準的加入,Embodied Arena將持續(xù)為研究者提供最全面、最便捷的具身AI能力評估,助力構(gòu)建真正理解和改變物理世界的智能體。

論文地址:http://arxiv.org/abs/2509.15273

平臺訪問:https://embodied-arena.com/

技術(shù)支持:歡迎通過官網(wǎng)聯(lián)系團隊


未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
55歲吳奇隆染一頭黃毛!嘴角歪斜明顯,顏值下滑不回春!

55歲吳奇隆染一頭黃毛!嘴角歪斜明顯,顏值下滑不回春!

心靜物娛
2025-12-23 13:32:29
南博事件升級!參與定"偽"的專家徐沄秋等被扒,果然有情況

南博事件升級!參與定"偽"的專家徐沄秋等被扒,果然有情況

喜歡歷史的阿繁
2025-12-24 23:17:53
逃離商場的“特斯拉們”,為何撐不下去了?

逃離商場的“特斯拉們”,為何撐不下去了?

金錯刀
2025-12-24 10:09:57
俄烏停火上演反轉(zhuǎn)殺,俄軍手握優(yōu)勢,圣誕難止戰(zhàn)火

俄烏停火上演反轉(zhuǎn)殺,俄軍手握優(yōu)勢,圣誕難止戰(zhàn)火

快看張同學
2025-12-21 09:05:48
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
懷孕增重30斤!闞清子驚傳誕一女夭折!醫(yī)護人員聊天記錄被炮轟

懷孕增重30斤!闞清子驚傳誕一女夭折!醫(yī)護人員聊天記錄被炮轟

一盅情懷
2025-12-24 17:12:53
網(wǎng)傳徐湖平別墅附近出現(xiàn)大量便衣,舉報人也被接受問詢

網(wǎng)傳徐湖平別墅附近出現(xiàn)大量便衣,舉報人也被接受問詢

映射生活的身影
2025-12-24 21:08:35
全紅嬋重返國家隊,身高接近170,笑容滿面留起長發(fā),瘦了不少

全紅嬋重返國家隊,身高接近170,笑容滿面留起長發(fā),瘦了不少

青梅侃史啊
2025-12-23 08:59:57
70歲大爺欠300多萬網(wǎng)貸,8家催收公司跟了三月集體放棄:收也是虧

70歲大爺欠300多萬網(wǎng)貸,8家催收公司跟了三月集體放棄:收也是虧

詩意世界
2025-12-23 13:44:38
被攻擊后 快手直播緊急拉閘前的兩小時

被攻擊后 快手直播緊急拉閘前的兩小時

新京報
2025-12-24 09:39:29
廣東臺的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

廣東臺的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

阿訊說天下
2025-12-24 17:14:51
降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

證券時報e公司
2025-12-24 23:23:36
龐萊臣曾孫女龐叔令的聲明:新華社未采訪本人,質(zhì)疑南博鑒定材料公開不公

龐萊臣曾孫女龐叔令的聲明:新華社未采訪本人,質(zhì)疑南博鑒定材料公開不公

新浪財經(jīng)
2025-12-24 13:24:56
“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

枕邊聊育兒
2025-12-24 09:02:59
1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

宅家伍菇?jīng)?/span>
2025-12-22 09:00:03
哈文“無腦規(guī)則”坑慘央視,留下一堆爛攤子后,轉(zhuǎn)身長期定居美國

哈文“無腦規(guī)則”坑慘央視,留下一堆爛攤子后,轉(zhuǎn)身長期定居美國

韓馳
2025-12-24 17:05:07
深圳承泰科技股份有限公司遞表港交所

深圳承泰科技股份有限公司遞表港交所

財聯(lián)社
2025-12-24 21:52:12
“家貧而貌美,不是好事!”小學女生發(fā)成熟視頻,評論區(qū)太真實!

“家貧而貌美,不是好事!”小學女生發(fā)成熟視頻,評論區(qū)太真實!

知曉科普
2025-12-24 10:44:29
鐵證如山!5000萬成交,拍賣的畫就是龐家的,徐湖平的“犯罪拼圖”終于湊齊!

鐵證如山!5000萬成交,拍賣的畫就是龐家的,徐湖平的“犯罪拼圖”終于湊齊!

亞哥談古論今
2025-12-24 18:54:07
澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

向航說
2025-12-24 00:20:02
2025-12-25 03:31:00
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

健康
旅游
家居
手機
公開課

這些新療法,讓化療不再那么痛苦

旅游要聞

豫西地下4000年:地坑院的重生,藏著中國古村振興的密碼!

家居要聞

法式大平層 智能家居添彩

手機要聞

榮耀Magic8 Ultra:雙3D生物識別+LOFIC主攝,還有24GB大內(nèi)存!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版