国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界模型不止「視頻」如何評(píng)估?WorldLens提出實(shí)用化評(píng)估新框架

0
分享至



生成式世界模型在機(jī)器人、自動(dòng)駕駛、AIGC等領(lǐng)域的進(jìn)展肉眼可見:從單視角、行車記錄儀式的視頻合成,到可控、多視角、長(zhǎng)時(shí)序的 4D 場(chǎng)景生成,越來(lái)越多系統(tǒng)已經(jīng)能輸出「看起來(lái)很逼真」的視頻畫面。

但問題也隨之變得尖銳:當(dāng)一個(gè)模型被稱為「世界模型」時(shí),我們究竟在期待它具備什么能力?

僅用 LPIPS、FVD 這類視頻指標(biāo),或「清晰 / 流暢 / 像真視頻」的主觀印象,很容易把討論停留在「像不像視頻」。而真正決定它是否能服務(wù)仿真、規(guī)劃、數(shù)據(jù)合成和閉環(huán)決策的,往往是那些視頻指標(biāo)難以觸及的屬性:幾何是否自洽、多視角是否一致、時(shí)序是否穩(wěn)定、行為是否可執(zhí)行、下游是否可用、人類是否認(rèn)可其物理與安全合理性。

近期,WorldBench 團(tuán)隊(duì)構(gòu)建了全新、體系化的世界模型評(píng)測(cè)框架 WorldLens。

據(jù)悉,這是領(lǐng)域內(nèi)首個(gè)從生成 (Generation)、重建 (Reconstruction)、指令跟隨 (Action-Following)、下游任務(wù) (Downstream)和人類偏好 (Human Preference)等五個(gè)維度同時(shí)出發(fā),評(píng)測(cè)現(xiàn)有開源世界模型的框架。評(píng)測(cè) EvalKit 現(xiàn)已公開。



  • 論文鏈接:https://arxiv.org/abs/2512.10958
  • 項(xiàng)目主頁(yè):https://worldbench.github.io/worldlens
  • 開源評(píng)測(cè)代碼庫(kù):https://github.com/worldbench/WorldLens
  • 官方 Leaderboard:https://huggingface.co/spaces/worldbench/WorldLens

為什么「世界模型評(píng)估」會(huì)成為瓶頸?

世界模型研究正快速?gòu)摹改苌伞棺呦颉改苡谩埂R坏┧环胚M(jìn)真實(shí)鏈路,如作為仿真器用于閉環(huán)測(cè)試、作為數(shù)據(jù)引擎用于訓(xùn)練感知與規(guī)劃、作為可交互環(huán)境支撐反事實(shí)推演,評(píng)估問題就不再是「文章里有沒有幾個(gè)指標(biāo)」,而是決定整個(gè)方向能否規(guī)模化推進(jìn)的基礎(chǔ)設(shè)施。



現(xiàn)實(shí)中,我們經(jīng)??吹揭环N現(xiàn)象:有的模型生成的視頻紋理很強(qiáng)、觀感極佳,但多視角幾何對(duì)不上,時(shí)序也容易抖;有的模型幾何更穩(wěn),卻在行為層面頻繁出現(xiàn)不合理運(yùn)動(dòng);也有模型在開環(huán)指標(biāo)上看似過關(guān),但閉環(huán)很快崩掉。更麻煩的是,不同工作各用各的評(píng)測(cè),結(jié)論難以對(duì)齊,失敗模式也難以復(fù)現(xiàn)與歸因。

WorldLens 的核心動(dòng)機(jī)很明確:評(píng)估對(duì)象已經(jīng)從「視頻」變成「世界」,那么我們需要一套能覆蓋世界屬性 (World Attribute)、能診斷失敗來(lái)源、能在不同模型間公平對(duì)比的評(píng)測(cè)協(xié)議。



WorldLens 是什么

WorldLens并不試圖用一個(gè)分?jǐn)?shù)給世界模型「蓋棺定論」,而是把評(píng)估拆成五個(gè)互補(bǔ)的 Aspect,讓每個(gè) Aspect 回答一個(gè)現(xiàn)實(shí)問題:

  • 生成 (Generation):模型生成的畫面是否在對(duì)象、時(shí)間、語(yǔ)義、幾何、多視角層面都足夠可信?
  • 重建 (Reconstruction):這些序列能否被還原成一個(gè)穩(wěn)定的 4D 場(chǎng)景,并在新視角下仍然成立?
  • 指令跟隨 (Action-Following):把生成世界「喂」給規(guī)劃器,Agent 還能不能「正常運(yùn)行」?尤其是在閉環(huán)條件下。
  • 下游任務(wù) (Downstream Task):用它生成的數(shù)據(jù)訓(xùn)練 / 測(cè)試真實(shí)感知任務(wù),是幫助還是負(fù)遷移?
  • 人類偏好 (Human Preference):人類看完是否會(huì)覺得「可信」「合理」「安全」?這種判斷能否被規(guī)?;瘜W(xué)習(xí)成自動(dòng)評(píng)估器?

如果把世界模型看作一種新的「系統(tǒng)級(jí)組件」,這五個(gè)方面分別對(duì)應(yīng)它在真實(shí)落地鏈路中的五個(gè)關(guān)鍵關(guān)卡:看得像、立得住、跑得動(dòng)、用得上、說得通。



Aspect 1: 生成 (Generation) ——「幀級(jí)真實(shí)」只是起點(diǎn)

很多世界模型最先打動(dòng)人的,是單幀畫面的清晰度與質(zhì)感。但只要把鏡頭拉長(zhǎng)到時(shí)序、把設(shè)置擴(kuò)展到多攝像頭,就會(huì)出現(xiàn)大量「視頻指標(biāo)不敏感,但真實(shí)系統(tǒng)非常在意」的問題。

WorldLens在生成性評(píng)估這一部分,重點(diǎn)不是繼續(xù)追問「更像真實(shí)視頻了嗎」,而是把生成質(zhì)量拆到更貼近世界屬性的層面。它會(huì)在對(duì)象層面檢查車輛、行人等關(guān)鍵參與者是否真實(shí)可信(例如外觀與語(yǔ)義是否對(duì)齊),也會(huì)在時(shí)序?qū)用鏅z查同一個(gè)對(duì)象是否能穩(wěn)定地保持「同一個(gè)身份」,避免出現(xiàn)紋理閃爍、形狀漂移、甚至像換了一個(gè)實(shí)體的情況。

更關(guān)鍵的是,WorldLens把幾何與多視角一致性拉回到生成評(píng)估中心。即便模型不直接輸出深度,它仍然可以通過估計(jì)深度來(lái)觀察幾何隨時(shí)間是否平滑演化,從而捕捉到隱式幾何不穩(wěn)定;同時(shí),通過跨視角匹配衡量相機(jī)之間的結(jié)構(gòu)與光度對(duì)齊,直接檢驗(yàn)生成「多視角世界」的能力。

Aspect 2: 重建 (Reconstruction) —— 如果是「世界」,就應(yīng)當(dāng)能被重建

「像世界」不只是看起來(lái)合理,更重要的是它是否隱含一個(gè)可以被還原的穩(wěn)定結(jié)構(gòu)。WorldLens在重建方面做了一件很有辨識(shí)度的事:把生成視頻統(tǒng)一提升為 4D Gaussian Field,再?gòu)亩鄠€(gè)角度檢驗(yàn)它的空間與時(shí)間一致性。

在原視角上,它關(guān)心重建后能否忠實(shí)再現(xiàn)輸入(也就是最基礎(chǔ)的光度 / 外觀重現(xiàn));但更有信息量的是新視角評(píng)測(cè):沿著未見過的相機(jī)軌跡渲染新視圖,看是否會(huì)出現(xiàn)結(jié)構(gòu)崩壞、遮擋錯(cuò)誤或明顯偽影,并衡量新視圖與真實(shí)分布之間的差距。

這一套流程經(jīng)常會(huì)暴露出一種典型失效模式,也即論文中反復(fù)強(qiáng)調(diào)的「floaters」:在新視角下出現(xiàn)大量懸浮、不連續(xù)的幾何碎片。它非常直觀地揭示了一個(gè)事實(shí):感知真實(shí)不等于幾何真實(shí)。一個(gè)模型可以把紋理做得極其逼真,但只要幾何與時(shí)序沒有被真正建模,新視角就會(huì)迅速「露餡」。



Aspect 3: 指令跟隨 (Action-Following) —— 能「看」,不代表能「用」

如果世界模型要進(jìn)入自動(dòng)駕駛的核心鏈路,繞不開的一步是:把它生成的世界交給規(guī)劃器,看系統(tǒng)還能不能跑起來(lái)。WorldLens在這一部分同時(shí)做了開環(huán)與閉環(huán)評(píng)測(cè),目的不是「給規(guī)劃器打分」,而是把規(guī)劃器當(dāng)作媒介,測(cè)試生成世界是否提供了足夠穩(wěn)定、足夠可信的可行動(dòng)線索。

開環(huán)評(píng)測(cè)里,規(guī)劃器的輸出不反過來(lái)影響車輛狀態(tài),因此更像是「在固定輸入上做預(yù)測(cè)」。不少模型在開環(huán)條件下仍能表現(xiàn)得相對(duì)體面。但一旦進(jìn)入閉環(huán),規(guī)劃輸出會(huì)不斷影響下一時(shí)刻狀態(tài),誤差會(huì)累積放大,許多模型會(huì)很快出現(xiàn)碰撞、越界、漂移、路線中止等問題。WorldLens 給出的結(jié)論非常一致:閉環(huán)會(huì)顯著放大生成世界中那些肉眼未必立刻察覺的不一致。

如果你的目標(biāo)是用世界模型服務(wù)決策與控制,那么閉環(huán)評(píng)測(cè)就不應(yīng)當(dāng)是「可選項(xiàng)」,而應(yīng)當(dāng)是「必要條件」。WorldLens 的意義在于把這件事從經(jīng)驗(yàn)共識(shí)變成可復(fù)現(xiàn)的評(píng)估協(xié)議。

Aspect 4: 下游任務(wù) (Downstream Task) ——「好看」的合成數(shù)據(jù),未必「有用」

世界模型的另一個(gè)常見愿景,是成為數(shù)據(jù)引擎:生成更多訓(xùn)練數(shù)據(jù),幫助真實(shí)感知與預(yù)測(cè)模型。但合成數(shù)據(jù)是否「可用」,往往不是由視覺觀感決定的,而是由分布對(duì)齊、幾何噪聲與時(shí)間一致性決定的。

WorldLens 直接把生成數(shù)據(jù)拿來(lái)評(píng)測(cè)多個(gè)真實(shí)下游任務(wù),包括 BEV 地圖分割、3D 檢測(cè)、3D 跟蹤與語(yǔ)義 Occupancy 預(yù)測(cè)等。這里最具沖擊力的現(xiàn)象是:一些單看畫面非常漂亮的模型,在下游任務(wù)上反而會(huì)出現(xiàn)顯著退化,論文中報(bào)告的降幅可達(dá) 30–50%。這意味著合成數(shù)據(jù)并不能被簡(jiǎn)單視為真實(shí)數(shù)據(jù)的等價(jià)替代,甚至可能帶來(lái)負(fù)遷移。

這部分評(píng)測(cè)的價(jià)值在于,它把「世界模型是否有用」從理論討論落到了具體任務(wù)與具體數(shù)字上,并且指出了改進(jìn)方向:如果目標(biāo)是數(shù)據(jù)引擎,僅提升紋理質(zhì)量遠(yuǎn)遠(yuǎn)不夠,結(jié)構(gòu)與時(shí)間層面的對(duì)齊往往才是關(guān)鍵。



Aspect 5: 人類偏好 (Human Preference) —— 把「人類判斷可信世界」變成可學(xué)習(xí)信號(hào)

很多世界屬性 (World Attribute) 本質(zhì)上包含主觀判斷:什么叫「可信」「合理」「安全」?純自動(dòng)指標(biāo)很難覆蓋這種綜合感受。

WorldLens因此構(gòu)建了大規(guī)模人類偏好數(shù)據(jù)集WorldLens-26K,包含 26808 條評(píng)測(cè)樣本,每條既有數(shù)值評(píng)分,也有自然語(yǔ)言解釋,用來(lái)記錄標(biāo)注者為什么給出這個(gè)分?jǐn)?shù)、注意到了哪些異常。

更重要的是,WorldLens并沒有把人類評(píng)測(cè)停留在「投票式打分」,而是把這些偏好監(jiān)督進(jìn)一步用于訓(xùn)練自動(dòng)評(píng)估代理 WorldLens-Agent。該 Agent 能輸出與人類偏好一致的評(píng)分,并生成可解釋的理由,從而在不重復(fù)大規(guī)模人工標(biāo)注的前提下,實(shí)現(xiàn)可擴(kuò)展、可復(fù)現(xiàn)的主觀評(píng)估。

從研究視角看,這一步相當(dāng)于把「人類覺得哪里不對(duì)」轉(zhuǎn)化成了可學(xué)習(xí)、可迭代的評(píng)估器,也為未來(lái)用偏好對(duì)齊來(lái)反向優(yōu)化世界模型打開了路徑。



沒有「全能模型」,但失效模式高度一致

WorldLens 的價(jià)值不止于 benchmarking,更在于用統(tǒng)一評(píng)估把不同模型的能力邊界與失效模式系統(tǒng)性地暴露出來(lái)。跨五個(gè) Aspect 的結(jié)果呈現(xiàn)出幾個(gè)非常穩(wěn)定、也很值得反復(fù)咀嚼的現(xiàn)象。



首先,不同 Aspect 之間存在明顯的能力斷層。Generation 指標(biāo)上領(lǐng)先的模型,未必能在重建與新視角上站得??;單視角觀感極佳的模型,跨視角一致性可能依然脆弱;開環(huán)還能勉強(qiáng)運(yùn)行的模型,閉環(huán)往往迅速失穩(wěn)。這說明世界模型的能力并不是一條從差到好的線性刻度。



其次,幾何與時(shí)序穩(wěn)定性像一條「共同瓶頸」,貫穿 Generation、Reconstruction、Action-Following 乃至 Downstream Task。幾何不穩(wěn)會(huì)在新視角下暴露為 floaters,也更容易在閉環(huán)中放大為事故,并進(jìn)一步拖累下游任務(wù)表現(xiàn)。

這也解釋了一個(gè)常見困惑:為什么某些模型看起來(lái)更清晰,卻不一定更可用 —— 因?yàn)榧y理質(zhì)量并不能替代世界結(jié)構(gòu)的自洽。



再次,閉環(huán)評(píng)測(cè)會(huì)把世界模型的缺陷放大到「無(wú)法忽視」。在閉環(huán)中,任何微小的不一致都會(huì)持續(xù)積累,最終表現(xiàn)為碰撞、偏航與路線失敗。這對(duì)于希望把世界模型用于仿真、驗(yàn)證與安全測(cè)試的研究者而言,是非常直接的提醒:如果只在開環(huán)里「看起來(lái)不錯(cuò)」,距離真實(shí)可用仍然很遠(yuǎn)。



最后,人類偏好與自動(dòng)指標(biāo)既相關(guān)又不完全一致。人類解釋文本往往會(huì)直接指出幾何異常、物理違背與行為風(fēng)險(xiǎn),這些信息對(duì)理解失敗原因非常關(guān)鍵,也為自動(dòng)評(píng)估代理提供了訓(xùn)練依據(jù)。換句話說,主觀評(píng)估并不是「不可量化的玄學(xué)」,而是可以被結(jié)構(gòu)化、被學(xué)習(xí)、并最終進(jìn)入評(píng)估閉環(huán)的一部分。



總結(jié):評(píng)估將與生成同等重要

當(dāng)世界模型從「生成好看的片段」走向「構(gòu)建可交互的世界」,評(píng)估就必須從「視頻質(zhì)量」升級(jí)為「世界屬性」。WorldLens 的貢獻(xiàn)在于把這件事做成了可執(zhí)行的協(xié)議:用五個(gè) Aspect 覆蓋從視覺到幾何、從功能到偏好的一整條鏈路,并用人類數(shù)據(jù)與評(píng)估代理把主觀判斷也納入可規(guī)?;捏w系。

如果說世界模型的上半場(chǎng)比拼的是「能不能生成」,那么下半場(chǎng)更可能比拼的是:能不能生成一個(gè)在幾何、物理、行為與人類判斷上都經(jīng)得起檢驗(yàn)的世界。WorldLens 試圖為這場(chǎng)下半場(chǎng)提供一套共同語(yǔ)言。

作者介紹

本工作由 WorldBench 團(tuán)隊(duì)完成,該團(tuán)隊(duì)匯集了來(lái)自世界模型、視頻生成、自動(dòng)駕駛等方向的研究者,在領(lǐng)域內(nèi)構(gòu)建了體系化、易用、性能可靠的各類生成 / 評(píng)測(cè)框架,包括 VBench、LiDARCrafter、DynamicCity、DrivingSphere、AD-R1 等

研究者來(lái)自世界知名高校、企業(yè),包括了新國(guó)立、中科院、中科大、浙大、澳門大學(xué)、地平線、南洋理工、華科、慕尼黑工大、復(fù)旦、上海人工智能實(shí)驗(yàn)室等

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如果一個(gè)人還在穿10年前的衣服,那說明幾個(gè)問題

如果一個(gè)人還在穿10年前的衣服,那說明幾個(gè)問題

放牛娃的遐想
2026-01-07 08:16:47
女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

鋭娛之樂
2026-01-08 08:34:40
上海樓市起飛了,上海樓市陸家嘴待售二手房從從753套變成了708套

上海樓市起飛了,上海樓市陸家嘴待售二手房從從753套變成了708套

有事問彭叔
2026-01-08 14:20:39
伊能靜迪拜看房,真人又矮又胖,臀部好寬大,與精修圖反差明顯

伊能靜迪拜看房,真人又矮又胖,臀部好寬大,與精修圖反差明顯

小椰的奶奶
2026-01-07 01:10:08
廣東即將升溫,廣州重回20℃!新冷空氣已“安排”

廣東即將升溫,廣州重回20℃!新冷空氣已“安排”

魯中晨報(bào)
2026-01-09 07:09:23
俄特種部隊(duì)嘲諷美軍抓馬杜羅:這不算什么,我們也能抓澤連斯基

俄特種部隊(duì)嘲諷美軍抓馬杜羅:這不算什么,我們也能抓澤連斯基

桂系007
2026-01-06 01:44:56
芝野虎丸逆轉(zhuǎn)半目險(xiǎn)勝 申真谞完勝中國(guó)名將 屠曉宇速勝韓名將

芝野虎丸逆轉(zhuǎn)半目險(xiǎn)勝 申真谞完勝中國(guó)名將 屠曉宇速勝韓名將

L76號(hào)
2026-01-09 07:24:52
中俄剛說打通圖們江,第一個(gè)跳出來(lái)反對(duì)的,一點(diǎn)不讓人意外

中俄剛說打通圖們江,第一個(gè)跳出來(lái)反對(duì)的,一點(diǎn)不讓人意外

聞香閣
2026-01-04 11:16:35
武漢一小學(xué)老師公積金曝光,在武漢屬于什么水平!

武漢一小學(xué)老師公積金曝光,在武漢屬于什么水平!

阿離家居
2026-01-07 13:04:42
俄專家終于說出大實(shí)話,一旦爆發(fā)海戰(zhàn),全世界僅有一國(guó)能擊敗美軍

俄專家終于說出大實(shí)話,一旦爆發(fā)海戰(zhàn),全世界僅有一國(guó)能擊敗美軍

慕名而來(lái)只為你
2026-01-07 20:09:43
宜家的問題已經(jīng)挺嚴(yán)重了

宜家的問題已經(jīng)挺嚴(yán)重了

蔚然未來(lái)消費(fèi)
2026-01-08 08:34:50
這身名媛風(fēng)穿搭真的很有魅力,很有女人味

這身名媛風(fēng)穿搭真的很有魅力,很有女人味

牛彈琴123456
2026-01-07 16:51:56
賴清德沒料到,對(duì)國(guó)民黨揮出的致命一擊,反而幫了鄭麗文大忙

賴清德沒料到,對(duì)國(guó)民黨揮出的致命一擊,反而幫了鄭麗文大忙

曹興教授TALK
2026-01-08 19:22:43
涉嫌嚴(yán)重違紀(jì)違法,東莞一學(xué)校黨總支原書記被查

涉嫌嚴(yán)重違紀(jì)違法,東莞一學(xué)校黨總支原書記被查

南方都市報(bào)
2026-01-08 16:42:19
誰(shuí)也救不了日本!李在明拒絕調(diào)解,特朗普:美國(guó)已無(wú)力威脅中國(guó)

誰(shuí)也救不了日本!李在明拒絕調(diào)解,特朗普:美國(guó)已無(wú)力威脅中國(guó)

南宮一二
2026-01-09 07:51:02
雷軍發(fā)文!網(wǎng)友徹底沸騰:趕緊約

雷軍發(fā)文!網(wǎng)友徹底沸騰:趕緊約

大象新聞
2026-01-07 08:09:06
段永平苦心相勸,王石終究沒聽進(jìn)去

段永平苦心相勸,王石終究沒聽進(jìn)去

五味財(cái)經(jīng)
2026-01-05 14:00:49
斯大林葬禮時(shí),周總理罕見不顧一切向蘇聯(lián)提要求:放我們一人回國(guó)

斯大林葬禮時(shí),周總理罕見不顧一切向蘇聯(lián)提要求:放我們一人回國(guó)

阿胂是吃瓜群眾
2025-12-29 16:54:40
商人回鄉(xiāng)投資后涉刑案被羈86天,16年后改判無(wú)罪,申請(qǐng)國(guó)家賠償和退還690余萬(wàn)元

商人回鄉(xiāng)投資后涉刑案被羈86天,16年后改判無(wú)罪,申請(qǐng)國(guó)家賠償和退還690余萬(wàn)元

紅星新聞
2026-01-08 20:19:21
新高鐵預(yù)計(jì)2028年底建成通車!湛江?廣西,更快了!

新高鐵預(yù)計(jì)2028年底建成通車!湛江?廣西,更快了!

湛江日?qǐng)?bào)
2026-01-09 11:49:58
2026-01-09 14:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12085文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

金元時(shí)代最后的外援,來(lái)中國(guó)8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬(wàn)科35年:從"寶萬(wàn)之爭(zhēng)"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會(huì)貴多少?

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
健康
數(shù)碼
軍事航空

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場(chǎng)格局

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

哈趣K3 Ultra Max:亮度碾壓同級(jí),哈曼音質(zhì)讓人“耳前一亮”

軍事要聞

特朗普:已開始從委石油資源中賺錢

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版