国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視覺強≠能干活!清北普林斯頓等開源WorldArena,世界模型評測被顛覆

0
分享至

當(dāng)世界模型生成的視頻足以「以假亂真」,為何機器人依然「有眼無腦」?

2026 年 2 月 13 日,一則來自具身智能前沿的重磅消息引發(fā)學(xué)界與產(chǎn)業(yè)界震動:

由清華大學(xué)、北京大學(xué)、香港大學(xué)、普林斯頓大學(xué)、中科院、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、新加坡國立大學(xué)等頂尖機構(gòu)聯(lián)合推出的 WorldArena —— 首個面向具身世界模型的「功能 + 視覺」統(tǒng)一評測體系,正式面向全球開源發(fā)布。

這不是又一套「比誰畫得真」的榜單,而是一面照向世界模型本質(zhì)的鏡子。


爆點直擊:視覺滿分,任務(wù)零分?

WorldArena 首次撕開「美麗視頻」的偽裝

「很多模型的生成視頻,人眼看幾乎完美,但讓它真正指揮機器人抓個杯子 —— 立刻露怯?!?/p>

WorldArena 研究團隊直言:當(dāng)前世界模型評測被「視覺內(nèi)卷」綁架太久,誰的視頻更清晰、更流暢、更像好萊塢特效,誰就得分高。但真實世界從來不是電影 —— 機器人需要的是物理規(guī)律的理解、動作軌跡的精度、多步?jīng)Q策的穩(wěn)定,而非一幀幀精美的「幻燈片」。

WorldArena 首次用數(shù)據(jù)證明:視覺質(zhì)量與任務(wù)執(zhí)行能力,相關(guān)性僅有 0.36!

這意味著:一個模型可以生成奧斯卡級視頻,卻在真實任務(wù)中幾乎「失能」。

  • 核心創(chuàng)新:從「看起來真實」到「用起來可靠」

WorldArena 不是對現(xiàn)有評測的修修補補,而是一次評測范式的根本重構(gòu)。

? 創(chuàng)新一:六維視覺評測,不止于「好不好看」

視覺不再是「單一審美」,而是拆解為視覺質(zhì)量、動作質(zhì)量、內(nèi)容一致性、物理遵循性、3D 準確性、可控性六大維度。尤其是物理遵循性3D 空間理解,被提升到與畫質(zhì)同等重要的地位 —— 因為機器人不信「魔術(shù)」,只信物理。

? 創(chuàng)新二:三大具身任務(wù),直接拷問「能不能用」

WorldArena 在全球范圍內(nèi)首次將世界模型置于真實的具身任務(wù)流水線中進行壓力測試

  1. 作為數(shù)據(jù)生成引擎:它合成的軌跡,能否訓(xùn)練出更好的策略模型?

  2. 作為策略評估器:它對環(huán)境動態(tài)的建模,是否與真實物理引擎高度相關(guān)?

  3. 作為行動規(guī)劃器:它能否閉環(huán)執(zhí)行長時序、多步交互任務(wù)?

結(jié)果令人警醒:多數(shù)視覺高分模型,在任務(wù)評測中「潰不成軍」。

而少數(shù)以動作條件建模為核心的模型(如 CtrlWorld),雖視覺非頂尖,卻在策略評估相關(guān)性上高達 0.986,幾乎媲美真實環(huán)境。

EWMScore:一個分數(shù),對齊人類感知與模型能力

WorldArena 還推出了 EWMScore 綜合評分體系,將多維客觀評測指標統(tǒng)一映射為一個可橫向?qū)Ρ鹊姆謹?shù)。

更關(guān)鍵的是:EWMScore 與人類主觀評估高度正相關(guān) —— 它不再是一個「黑盒學(xué)術(shù)指標」,而是一個能反映真實人類感知的標尺

學(xué)術(shù)深意:世界模型的「iPhone 時刻」還沒到

「我們離真正可用的具身世界模型,還有一段關(guān)鍵的路要走?!?/p>

這不是唱衰,而是一次清醒的集體轉(zhuǎn)身。

WorldArena 用系統(tǒng)化實驗向全球研究者發(fā)出信號:視覺生成能力已逼近天花板,但功能智能才剛剛破土

當(dāng)模型能生成一杯「看起來很冰的可樂」,卻不知道冰塊會浮起、杯壁會凝水珠,它就仍然是「視覺模型」,而非「世界模型」。

開放共建,評測權(quán)交給全球社區(qū)

WorldArena 不是閉門造車的學(xué)術(shù)工具,而是一個完全開放、可復(fù)現(xiàn)、持續(xù)迭代的社區(qū)平臺。

  • 項目主頁:http://world-arena.ai

  • 論文已上線:http://arxiv.org/abs/2602.08971

  • 評測榜單實時更新:https://huggingface.co/spaces/WorldArena/WorldArena

  • 代碼與數(shù)據(jù)全開源:https://github.com/tsinghua-fib-lab/WorldArena

「我們不是在造一個排行榜,而是在為具身智能建立一套‘駕照考試系統(tǒng)’?!?/strong>

—— WorldArena 團隊

評測細節(jié)

多維度視頻質(zhì)量評估:

為了建立系統(tǒng)化的視覺評測標準,WorldArena 構(gòu)建了六大核心維度,從感知真實到物理真實,全面刻畫模型生成能力。



圖 1 WorldArena 在六個關(guān)鍵維度對世界模型生成質(zhì)量進行全面評估

1. 視覺質(zhì)量

首先,我們評估視頻是否「看起來真實」。通過圖像質(zhì)量、美學(xué)質(zhì)量與 JEPA 相似性等指標,衡量生成視頻在清晰度、色彩協(xié)調(diào)性及分布相似性方面的表現(xiàn)。這一維度主要刻畫模型在感知層面的真實程度與視覺表現(xiàn)力。


2. 動作質(zhì)量

僅有清晰畫面遠遠不夠,運動是否合理同樣關(guān)鍵。

我們通過動態(tài)程度、光流連續(xù)性與動作平滑性,分析視頻中運動的強度、連續(xù)性與時間一致性。該維度用于刻畫生成內(nèi)容在時序?qū)用娴姆€(wěn)定程度與運動特征。


3. 內(nèi)容一致性

真實世界不會「瞬間變形」。

我們通過主體一致性與背景一致性指標,衡量對象與場景在時間與空間維度上的穩(wěn)定性,分析是否存在結(jié)構(gòu)漂移、身份變化或背景不連貫等現(xiàn)象。


4. 物理遵循性

對物理規(guī)律的遵循能力是連接「視覺」與「功能」的關(guān)鍵橋梁。通過對視頻中機械臂和物體交互質(zhì)量與軌跡準確性,評估機器人與物體交互的合理程度,以及動作軌跡與物理規(guī)律之間的匹配關(guān)系。


5. 3D 準確性

空間理解能力,是世界模型邁向具身智能的重要基礎(chǔ)。

我們通過深度準確性與透視一致性指標,刻畫生成視頻的空間結(jié)構(gòu)是否符合幾何與透視規(guī)律,分析模型對三維結(jié)構(gòu)關(guān)系的理解能力。


6. 可控性

最后,也是最關(guān)鍵的一步:模型是否「聽得懂指令」。

通過指令跟隨、語義一致性與行動跟隨能力,評估模型對外部輸入的響應(yīng)程度,以及不同指令條件下生成結(jié)果的區(qū)分能力。


具身任務(wù)功能性評估:

WorldArena 的另一項核心創(chuàng)新,在于首次系統(tǒng)性評估世界模型在真實具身任務(wù)中的「功能能力」。

我們不再只問模型的視頻生成得有多逼真?而是進一步追問:它能否真正參與任務(wù)執(zhí)行?

為此,WorldArena 從三個關(guān)鍵角色出發(fā),全面評估世界模型的能力:

  1. 作為數(shù)據(jù)生成引擎,是否能有效補充下游策略訓(xùn)練數(shù)據(jù)?

  2. 作為策略評估器,是否能準確刻畫真實環(huán)境的狀態(tài)轉(zhuǎn)移?

  3. 作為行動規(guī)劃器,是否具備支持閉環(huán)執(zhí)行與長期決策的能力?

傳統(tǒng)評測往往停留在視覺層面,而 WorldArena 將評估延伸至下游具身任務(wù)本身。我們關(guān)注模型是否能夠在動態(tài)環(huán)境中做出有效決策,是否能夠處理復(fù)雜的多步交互,以及是否具備穩(wěn)定的規(guī)劃與執(zhí)行能力。通過這種功能導(dǎo)向的評測框架,我們得以更全面地理解世界模型的真實能力邊界,并判斷它們是否具備走向?qū)嶋H具身應(yīng)用的潛力。



圖 2 具身下游任務(wù)評測體系(數(shù)據(jù)合成引擎、策略評估器、動作規(guī)劃器)

EWMScore:統(tǒng)一的綜合評分體系

為了讓評測結(jié)果更直觀、更可比,WorldArena 引入了統(tǒng)一的綜合指標 ——EWMScore。EWMScore 通過整合多維度視頻評測指標,將視覺質(zhì)量、物理一致性與指令遵循能力等關(guān)鍵因素統(tǒng)一映射為一個綜合分數(shù),為每個模型提供清晰、可橫向?qū)Ρ鹊男阅芸坍嫛8匾氖?,實驗結(jié)果表明該指標與人工評估結(jié)果高度正相關(guān),能夠真實反映模型綜合能力。通過 EWMScore,我們讓世界模型的能力評估,從「多指標碎片化比較」,走向「統(tǒng)一、可解釋、可對齊」的綜合衡量體系。



圖 3 14 個世界模型 EWMScore 及不同維度指標對比

視頻質(zhì)量與功能之間的鴻溝:從視覺到執(zhí)行的能力差距

WorldArena 的系統(tǒng)性評估揭示了一個關(guān)鍵現(xiàn)實:當(dāng)前世界模型在視覺生成層面已取得顯著進展,但在真正支撐具身智能任務(wù)與長期決策方面仍存在本質(zhì)短板。

具體而言,盡管許多模型能夠生成高度逼真的視覺效果,它們在復(fù)雜物理環(huán)境中的一致性與穩(wěn)定性卻明顯不足。尤其是在長時序、多步交互的任務(wù)中,模型往往難以持續(xù)遵循物理規(guī)律,容易出現(xiàn)動態(tài)漂移、目標偏離或策略失穩(wěn)。這一現(xiàn)象表明,僅依賴視覺生成能力,遠不足以突破具身智能的核心瓶頸。

通過對數(shù)據(jù)引擎、策略評估、動作規(guī)劃三類關(guān)鍵具身下游任務(wù)的系統(tǒng)評測,WorldArena 進一步驗證了這一結(jié)論:當(dāng)前世界模型雖能生成「好看」的視頻,卻尚未具備支撐真實具身應(yīng)用的能力。

以數(shù)據(jù)引擎任務(wù)為例,我們利用世界模型生成合成軌跡,用于補充下游策略模型(如 VLA)的訓(xùn)練數(shù)據(jù)。實驗結(jié)果顯示,部分模型確實能夠帶來一定程度的性能提升,但整體來看,其生成數(shù)據(jù)質(zhì)量仍顯著落后于真實數(shù)據(jù),多數(shù)模型尚難以為下游策略學(xué)習(xí)提供穩(wěn)定且可靠的增益。



表 2 以世界模型作為數(shù)據(jù)合成引擎,訓(xùn)練得到的 VLA 模型性能對比

動作控制型世界模型的評估中,我們通過「策略評估任務(wù)」衡量其是否能夠作為真實環(huán)境的有效代理。

具體而言,我們訓(xùn)練了一系列不同能力水平的 VLA(Pi 0.5) 模型,并分別讓它們與真實物理仿真環(huán)境世界模型環(huán)境進行交互,從而獲得兩組性能評估結(jié)果。通過計算兩者之間的相關(guān)性,我們可以判斷世界模型是否準確刻畫了真實環(huán)境的狀態(tài)轉(zhuǎn)移規(guī)律。

在 CtrlWorld 與 Cosmos-Predict 2.5 上的實驗結(jié)果呈現(xiàn)出顯著差異:CtrlWorld 的策略評估相關(guān)系數(shù)高達 0.986,幾乎與真實環(huán)境評測結(jié)果保持一致,表明其在動態(tài)建模層面有效捕捉了真實環(huán)境的演化機制。相比之下,Cosmos-Predict 2.5 的相關(guān)性明顯較低,這一現(xiàn)象也與其在視覺生成評測中的表現(xiàn)形成呼應(yīng)。



圖 4 基于世界模型和物理仿真環(huán)境的策略評估結(jié)果相關(guān)性

動作規(guī)劃任務(wù)中,我們進一步將世界模型接入逆動力學(xué)模型,實現(xiàn)端到端的具身任務(wù)執(zhí)行。實驗發(fā)現(xiàn),盡管部分世界模型能夠生成視覺上合理的未來預(yù)測,但在支持閉環(huán)控制,尤其是長時序復(fù)雜任務(wù)時,其性能仍顯著落后于成熟的策略模型(如 Pi 0.5)。

這表明,當(dāng)前世界模型雖然在一定程度上捕捉到了環(huán)境動態(tài),卻尚不足以支撐穩(wěn)定、可靠的自主控制行為,尤其在長期決策與復(fù)雜交互場景中仍存在明顯短板。



表 3 基于世界模型進行動作規(guī)劃的任務(wù)性能對比

這些實驗揭示了一個關(guān)鍵挑戰(zhàn):世界模型的終極目標,不是生成漂亮的視頻,而是成為可以支撐自主決策的環(huán)境代理。

真正可用的世界模型,必須理解物理規(guī)律、精確刻畫動作細節(jié)、在長時序任務(wù)中保持一致性并且在復(fù)雜環(huán)境中持續(xù)穩(wěn)定執(zhí)行。否則,它們?nèi)匀煌A粼凇敢曈X生成模型」的階段,而不是「具身智能基礎(chǔ)設(shè)施」。

WorldArena 的結(jié)論很明確:世界模型正在逼近真實世界,但距離真正可用,還有一段關(guān)鍵的路要走。

評測與人類感知的高度對齊

一個關(guān)鍵問題是:模型指標好看,真的代表人類也覺得「真實」嗎?

WorldArena 在評測設(shè)計上,首次大規(guī)模引入人工評估,與自動指標 EWMScore 進行深度對齊。我們不僅關(guān)注視覺清晰度,在四個核心維度上開展了大規(guī)模人類評測:視頻整體質(zhì)量如何、是否符合物理規(guī)律、是否遵循復(fù)雜指令、模型之間相對優(yōu)劣。

人工評估結(jié)果揭示出一個清晰趨勢:商業(yè)化大型視頻模型(如 Veo 3.1、Wan 2.6)在整體質(zhì)量、指令遵循和物理符合性上表現(xiàn)優(yōu)異,展現(xiàn)出強大的感知現(xiàn)實性與語義一致性。在具身世界模型中,基于動作條件的模型(如 CtrlWorld)顯著優(yōu)于基于文本驅(qū)動的模型,尤其在物理合理性方面表現(xiàn)更穩(wěn)定。這說明:明確的動作建模,是生成高質(zhì)量視覺預(yù)測的關(guān)鍵。

更重要的是,我們發(fā)現(xiàn) EWMScore 與人類主觀評估高度正相關(guān)。這表明,EWMScore 并非一個抽象的復(fù)雜指標,而是能夠有效刻畫人類綜合感知判斷的評測標準。但當(dāng)我們進一步分析其與具身任務(wù)性能的關(guān)系時,一個更值得警惕的事實浮現(xiàn):與數(shù)據(jù)引擎任務(wù)的相關(guān)性為 0.600,與動作規(guī)劃任務(wù)的相關(guān)性僅為 0.360。

這意味著 —— 視覺真實,并不等于功能真實。即便模型在視覺質(zhì)量上獲得人類認可,其對真實任務(wù)執(zhí)行能力的支撐仍然有限。尤其是在閉環(huán)控制場景中,視覺表現(xiàn)與功能性之間尚未建立強關(guān)聯(lián)。



圖 5 EWMScore 與人類評估、具身下游任務(wù)性能相關(guān)性分析

結(jié)語:從「生成世界」到「理解世界」,評測決定了技術(shù)進化的方向

WorldArena 的意義,遠不止于一套新指標。

它標志著具身智能評測正在從「審美導(dǎo)向」走向「功能導(dǎo)向」,從「論文里的對比實驗」走向「真實場景的能力驗證」。

當(dāng)世界模型不再比拼誰更「像電影」,而是誰更「懂物理、能干活、靠得住」,具身智能才真正開始

? THE END

文章來源:機器之心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗若棄世界杯恐遭重創(chuàng):不僅損失千萬美元獎金,更面臨巨額罰款

伊朗若棄世界杯恐遭重創(chuàng):不僅損失千萬美元獎金,更面臨巨額罰款

星耀國際足壇
2026-03-04 23:32:38
全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰

全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰

扶蘇聊歷史
2026-01-29 16:13:42
烏克蘭特使拒絕對哈梅內(nèi)伊表示慰問

烏克蘭特使拒絕對哈梅內(nèi)伊表示慰問

桂系007
2026-03-04 23:47:33
中超外援確定參加世界杯:中超母隊有望獲23萬美元參賽補償!

中超外援確定參加世界杯:中超母隊有望獲23萬美元參賽補償!

邱澤云
2026-03-04 15:51:58
打的真準!伊朗成功摧毀2套薩德+1座鋪路爪雷達,怎么辦到的?

打的真準!伊朗成功摧毀2套薩德+1座鋪路爪雷達,怎么辦到的?

軍武次位面
2026-03-04 18:51:05
伊朗確定最高領(lǐng)袖候選人

伊朗確定最高領(lǐng)袖候選人

澎湃新聞
2026-03-04 19:01:04
3月1日,嚴查開始!在職退休,一查到底,無一幸免

3月1日,嚴查開始!在職退休,一查到底,無一幸免

混沌錄
2026-03-03 21:17:12
特朗普大怒欲斷西貿(mào)易,話音剛落,西班牙反手一擊:立即退出北約

特朗普大怒欲斷西貿(mào)易,話音剛落,西班牙反手一擊:立即退出北約

墨印齋
2026-03-04 20:43:50
寧可放棄中國市場,也不刪鏡頭!《蜘蛛俠:英雄無歸》沒引進的真相終于來了

寧可放棄中國市場,也不刪鏡頭!《蜘蛛俠:英雄無歸》沒引進的真相終于來了

小椰的奶奶
2026-03-02 10:32:14
王占山同志逝世

王占山同志逝世

吉刻新聞
2026-03-03 10:16:44
為什么白頭發(fā)越長越多?你以為是老了,提醒:或是缺乏3種...

為什么白頭發(fā)越長越多?你以為是老了,提醒:或是缺乏3種...

袁醫(yī)生課堂
2025-12-31 17:24:19
深圳樓市升溫:中介門店二手房成交均價連續(xù)3個月回穩(wěn),買家入市節(jié)奏加快

深圳樓市升溫:中介門店二手房成交均價連續(xù)3個月回穩(wěn),買家入市節(jié)奏加快

澎湃新聞
2026-03-04 16:38:27
放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

路醫(yī)生健康科普
2026-02-06 16:16:28
對比:韓國石油儲備夠用208天!中國、美國的石油儲備夠用幾天?

對比:韓國石油儲備夠用208天!中國、美國的石油儲備夠用幾天?

王爺說圖表
2026-03-04 16:23:59
全國人大代表雷軍:建議將L2級輔助駕駛“脫手脫眼”納入交通違法處罰

全國人大代表雷軍:建議將L2級輔助駕駛“脫手脫眼”納入交通違法處罰

紅星資本局
2026-03-04 16:41:04
伊朗高層被第三次團滅

伊朗高層被第三次團滅

仰望星空的一粒沙子
2026-03-04 07:36:50
為什么說壞人絞盡腦汁不如蠢人靈機一動?網(wǎng)友:差點讓家里團滅

為什么說壞人絞盡腦汁不如蠢人靈機一動?網(wǎng)友:差點讓家里團滅

夜深愛雜談
2026-03-03 22:08:42
伊朗硬剛到底!導(dǎo)彈產(chǎn)能全曝光,特朗普彈藥告急,臺當(dāng)局徹底慌了

伊朗硬剛到底!導(dǎo)彈產(chǎn)能全曝光,特朗普彈藥告急,臺當(dāng)局徹底慌了

大靜吖
2026-03-03 12:38:50
元宵節(jié)已過,全國打工人再出發(fā),原來他們有鄙視鏈分三六九等…

元宵節(jié)已過,全國打工人再出發(fā),原來他們有鄙視鏈分三六九等…

慧翔百科
2026-03-04 09:04:13
珠江口貝類檢出24毫克-千克神經(jīng)毒素,中科院團隊鎖定產(chǎn)毒真兇

珠江口貝類檢出24毫克-千克神經(jīng)毒素,中科院團隊鎖定產(chǎn)毒真兇

涼了時光人
2026-03-03 22:41:01
2026-03-05 00:35:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5391文章數(shù) 64616關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強AI天團?

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻出26年內(nèi)娛的第一個笑話

財經(jīng)要聞

人大代表建議:將農(nóng)民養(yǎng)老金提到500元

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

健康
藝術(shù)
時尚
房產(chǎn)
本地

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

2025“情系塔里木”美術(shù)作品展

女人不管多大年紀,都要準備一條黑裙子,百搭舒適又顯氣質(zhì)

房產(chǎn)要聞

400組,30套!聚億·椰海錦程為何能在春節(jié)火出圈?

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進入關(guān)懷版