国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度長(zhǎng)文解讀 “世界模型” :在虛構(gòu)與真實(shí)交接之處凝視未來(lái)

0
分享至



想讓人工智能真正理解、預(yù)測(cè)甚至重構(gòu)真實(shí)世界,我們需要一個(gè)核心引擎。

整理丨齊鋮湧

注:「世界模型」(World Model)的熱度,從年初開(kāi)始持續(xù)至今。這個(gè)概念也已經(jīng)橫跨具身智能、自動(dòng)駕駛、游戲、視頻生成等領(lǐng)域,逐漸成為了 AI 領(lǐng)域下一個(gè)競(jìng)爭(zhēng)焦點(diǎn)。

有人說(shuō)它是通往 AGI 的最短路徑,有人說(shuō)它是實(shí)現(xiàn)自動(dòng)駕駛的終極答案,那么世界模型究竟是什么樣的存在?

本文來(lái)自于知乎作者 xintao ,AI 科技評(píng)論經(jīng)授權(quán)后,編輯發(fā)布。

我們先從兩句名言出發(fā),了解這個(gè)超級(jí)詞匯的起源。


一句話是來(lái)自心理學(xué)家 Kenneth Craik 1943在《解釋的本質(zhì)》中說(shuō)的話:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成為世界或其一部分的模型。這句話是“心智模型(Mental Model)”理論的基石,也可以說(shuō)是當(dāng)前AI中討論“世界模型”的思想源頭。

另一句話是來(lái)自物理學(xué)家 Richard Feynman ,據(jù)說(shuō)是在他1988年去世后,人們?cè)谒诎迳习l(fā)現(xiàn)的:What I cannot create, I do not understand. —— 我若無(wú)法創(chuàng)造,便不能理解。這句話被生成式模型廣泛地引用。

選擇它們,是因?yàn)樗鼈?,分別代表了后面要介紹的兩大類(lèi)世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。

01

給世界模型下一個(gè)“寬泛”的定義

首先,需要回答什么是世界模型?

雖然當(dāng)前大家討論得比較多,相關(guān)工作最近也如雨后春筍般地出來(lái),但直到現(xiàn)在仍舊沒(méi)有一個(gè)清晰且被大家廣為接受的定義。之前大家討論比較多的是 Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817)


簡(jiǎn)單地理解,可以如下圖所示。當(dāng)給定現(xiàn)在的狀態(tài) S(t) 和動(dòng)作 A(t) ,預(yù)測(cè)下一個(gè)狀態(tài) S’(t+1) 。通常來(lái)說(shuō)我們也會(huì)從外部世界接受輸入或者觀察 O(t) ,來(lái)更新內(nèi)部狀態(tài)。


預(yù)測(cè)的狀態(tài)可以是抽象的表征,類(lèi)比我們的大腦想象未來(lái)?;蛘呤蔷呦蟮谋碚?,比如像素 pixels ,就像視頻模型預(yù)測(cè)未來(lái)合理的新的視頻幀一樣。

除了這個(gè)寬泛的定義,我們還要給世界模型做個(gè)分類(lèi)。

從最終的目的出發(fā)(也可以是狀態(tài)的不同表征方式),我們可以把世界模型劃分為兩大類(lèi):

一大類(lèi)是:表征世界模型(Representation World Model)

一大類(lèi)是:生成世界模型(Generative World Model)


02

表征世界模型:AI 如何理解和預(yù)測(cè)這個(gè)世界?

先說(shuō)表征世界模型,它的目的是理解并預(yù)測(cè)世界的抽象原則,并不需要去生成逼真的像素。它的關(guān)鍵詞是理解和預(yù)測(cè),以及抽象原則。

表征世界模型中一個(gè)典型代表,就是我們腦海中的心智模型 Mental Model ,它是我們大腦中對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá),能夠從外部世界中理解并總結(jié)出概念和關(guān)系,抽象出原則,而并不會(huì)對(duì)每一處細(xì)節(jié)進(jìn)行模擬。(更多的關(guān)于我們大腦如何模擬和心智化這個(gè)世界的,推薦閱讀《智能簡(jiǎn)史》)


其次簡(jiǎn)單介紹下生成世界模型,它的目的是生成并模擬世界的具體表現(xiàn)。

正如費(fèi)曼這句話說(shuō)的,What I cannot create, I do not understand. 當(dāng)我們能夠生成和模擬世界的具體表現(xiàn)的時(shí)候,也蘊(yùn)含著我們對(duì)于世界的理解。

生成世界模型的一個(gè)典型代表是視頻世界模型。

Sora 24年推出,它能夠生成我們世界的一個(gè)片段,在那個(gè)時(shí)間點(diǎn),雪景街頭的三維一致性,行人來(lái)往的合理性,鏡頭在空間的穿梭,無(wú)一不讓人遐想其宣傳的 World Simulator,世界模擬器。25年 Genie 3 更新,視頻生成模型繼續(xù)往前發(fā)展,不僅有了交互,還有了記憶,讓人們更加覺(jué)得視頻視覺(jué)模型的可實(shí)現(xiàn)性。你可以在生成的視頻中控制方向,并且記住你曾經(jīng)訪問(wèn)過(guò)的地方,猶如在世界中游走。

說(shuō)明:這里的“生成式”(generative)指的是模型創(chuàng)造世界具體表現(xiàn)(例如像素、音頻)的能力。這有別于更廣泛的術(shù)語(yǔ)“生成式 AI ”(Generative AI),后者也包括像 LLMs 和 JEPA 這樣的模型,而在這里它們被歸類(lèi)為表征模型。

03

表征世界模型的三大細(xì)分類(lèi)型

表征世界模型包含三類(lèi):

1)生物大腦中的預(yù)測(cè),比如我們?nèi)祟?lèi)和動(dòng)物的心智模型(Mental Model);

2)視覺(jué)為中心的潛在空間預(yù)測(cè),比如 V-JEPA/DINO-World ;

3)語(yǔ)言為中心的潛在空間預(yù)測(cè),比如 LLM 。(當(dāng)然 LLM 是否是世界模型,最近也有很多爭(zhēng)論,后文會(huì)簡(jiǎn)要說(shuō)明。

(特別要說(shuō)明的是,這個(gè)分類(lèi)是修改自 Xun Huang 的 blog :https://www.xunhuang.me/blogs/world_model.html。推薦大家去讀這篇 blog ,有很好的內(nèi)容。)


A1 生物大腦中的預(yù)測(cè)

第一類(lèi)是生物大腦中的預(yù)測(cè),典型代表就是我們腦海中的心智模型(Mental Model),它是我們對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá)。在我們大腦中進(jìn)行的模擬是抽象的,更關(guān)心概念上的結(jié)果(比如下圖中的人“我會(huì)不會(huì)摔倒?”),而不是摔倒本身的具體細(xì)節(jié),物理過(guò)程是如何的。

如圖所示,當(dāng)我們騎自行車(chē)的時(shí)候,在我們腦海中會(huì)生成一個(gè)騎自行車(chē)的抽象場(chǎng)景,這是我們根據(jù)觀察 O(t) ,得到當(dāng)前的狀態(tài) S(t) 。當(dāng)我們“想象”前方有一塊石頭時(shí),我們的大腦會(huì)模擬不同的動(dòng)作 A(t) ,帶來(lái)新的狀態(tài) S'(t+1) 。例如,我們可以假想選擇“快速騎過(guò)去”這個(gè)動(dòng)作,大腦會(huì)預(yù)測(cè)“摔倒”這個(gè)可能的未來(lái)。我們也可以選擇“推車(chē)走過(guò)去”,大腦則會(huì)預(yù)測(cè)“安全通過(guò)”的未來(lái)。

這些預(yù)測(cè)并沒(méi)有真實(shí)發(fā)生,它們完全是在大腦中進(jìn)行的模擬。


另外一個(gè)有趣的論文工作是介紹我們大腦中的直覺(jué)物理引擎(Intuitive Physics Engine, IPE)。它是一個(gè)心智模型,或者說(shuō)心智模型的一部分,它允許人們模擬物理場(chǎng)景隨時(shí)間的演變 。這篇論文有以下幾個(gè)有趣的發(fā)現(xiàn),IPE具有以下幾個(gè)顯著的特點(diǎn):

概率性 (Probabilistic):它不會(huì)像游戲引擎那樣產(chǎn)生一個(gè)唯一確定的結(jié)果,而是對(duì)未來(lái)可能發(fā)生的多種結(jié)果產(chǎn)生一個(gè)信念分布

有限采樣 (Limited Sampling):我們的決策通常只基于少數(shù)幾次(約2-4次)的心智模擬,而不是進(jìn)行詳盡的推演

概念近似: 為了節(jié)省計(jì)算資源,IPE 會(huì)采用一些原則性的“捷徑” 。比如,在判斷碰撞時(shí),使用物體簡(jiǎn)化的“身體”(如凸包)而非其復(fù)雜的視覺(jué)“形狀”;或者將物體分類(lèi)為“靜態(tài)”(如地面)和“動(dòng)態(tài)”,以避免不必要的計(jì)算

右圖形象地展示了這一過(guò)程:人們通過(guò)多種感官(左側(cè)的“Perception”)來(lái)感知場(chǎng)景,并形成一個(gè)世界的內(nèi)部表征(中間的“Internal Representation”),這個(gè)表征是以物體為中心,并包含了關(guān)于物體位置、范圍和屬性的概率信息。直覺(jué)物理引擎利用這個(gè)表征來(lái)隨機(jī)模擬世界未來(lái)的多種可能狀態(tài)(右側(cè)的“Simulation”),這些模擬的結(jié)果最終被用于認(rèn)知系統(tǒng)進(jìn)行預(yù)測(cè)和決策 。


A2 視覺(jué)為中心的潛在空間預(yù)測(cè)

當(dāng)前的這類(lèi)方法遵循一個(gè)相似的范式:首先,通過(guò)自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)將高維的視覺(jué)數(shù)據(jù)(如視頻幀)壓縮到一個(gè)抽象的、低維的潛在空間中;再學(xué)習(xí)基于過(guò)去的潛在特征和動(dòng)作來(lái)預(yù)測(cè)未來(lái)的潛在特征。這么做的好處是,模型可以在一個(gè)更簡(jiǎn)潔、更具語(yǔ)義的抽象空間里進(jìn)行預(yù)測(cè)和推理,而不是在復(fù)雜的像素空間里直接操作。

各種不同方法最核心的區(qū)別在于:這個(gè)潛在空間是如何構(gòu)建的。

如下圖所示,不同的模型采用了不同的自監(jiān)督學(xué)習(xí)方法來(lái)構(gòu)建這個(gè)潛在空間。例如,V-JEPA 2采用了JEPA 的思路,DINO-World則基于DINO,而經(jīng)典的“World Models”論文則使用了 VAE 。在獲得潛在空間后,模型就可以在這個(gè)抽象空間中更高效地進(jìn)行預(yù)測(cè),從而理解和預(yù)判視覺(jué)世界的動(dòng)態(tài)變化。


經(jīng)典的“World Models”論文

以經(jīng)典的“World Models”這篇論文為例,它為在世界模型中訓(xùn)練強(qiáng)化學(xué)習(xí)智能體提供了一個(gè)重要的框架。這篇論文的核心思想,是它在 Introduction 中所引用的這段話:我們腦海中對(duì)世界的印象,僅僅是一個(gè)模型。沒(méi)有人會(huì)在腦海中想象出整個(gè)世界、政府或者國(guó)家。他擁有的只是“一些被選擇的概念,以及它們之間的關(guān)系”,并用這些來(lái)表征真實(shí)的系統(tǒng)。

這正點(diǎn)明了這類(lèi)世界模型的核心——它并非對(duì)真實(shí)世界像素級(jí)復(fù)刻,而是一種抽象和壓縮的表征。


“World Models” 使用一個(gè)大的無(wú)監(jiān)督模型(V+M)來(lái)解決困難的“世界理解”問(wèn)題,然后在一個(gè)由該模型生成的“夢(mèng)境”中,用一個(gè)非常小的控制器(C)來(lái)學(xué)習(xí)如何行動(dòng),從而解決 credit assignment 難題。 它巧妙地將復(fù)雜的任務(wù)進(jìn)行了分解:

把從原始像素中理解世界動(dòng)態(tài)這一困難任務(wù),交給了不需要獎(jiǎng)勵(lì)信號(hào)(non-RL)的無(wú)監(jiān)督世界模型(V+M)來(lái)完成,而后者有 dense 且很強(qiáng)的監(jiān)督學(xué)習(xí)信號(hào)

控制器 C 的任務(wù)變得簡(jiǎn)單,它只需要在一個(gè)參數(shù)量少、特征質(zhì)量高的抽象潛在空間中進(jìn)行學(xué)習(xí),極大地提升了訓(xùn)練效率


LeCun 的自主智能

Yann LeCun 提出了一個(gè)受生物學(xué)啟發(fā)的自主智能(Autonomous Intelligence)框架,其核心在于通過(guò)一種名為 JEPA 的無(wú)監(jiān)督學(xué)習(xí)方法來(lái)構(gòu)建世界模型。

它有六個(gè)主要模塊,這里不深入展開(kāi)。


有趣的是,這六個(gè)模塊都有生物學(xué)的對(duì)應(yīng),當(dāng)我在讀《智能簡(jiǎn)史》的時(shí)候,很容易將它們對(duì)應(yīng)起來(lái)。下面就是我整理的一個(gè)簡(jiǎn)單對(duì)應(yīng)。

我覺(jué)得挺有道理的,在這一點(diǎn)上,我感覺(jué) LeCun,Sutton 是類(lèi)似的,都是受到生物學(xué)的強(qiáng)烈啟發(fā)。


V-JEPA 2

V-JEPA 2 的核心思想是在特征空間中進(jìn)行掩碼預(yù)測(cè),而不是在像素空間中進(jìn)行。這樣做的好處是,模型學(xué)習(xí)到的特征會(huì)更加抽象和魯棒。

主要分為兩個(gè)階段:

第一階段: 模型在視頻數(shù)據(jù)上使用“掩碼-預(yù)測(cè)”的方法進(jìn)行預(yù)訓(xùn)練。它會(huì)學(xué)習(xí)如何填補(bǔ)視頻中被遮蓋掉的部分,從而訓(xùn)練出一個(gè)強(qiáng)大的視覺(jué) encoder。

第二階段: 第一階段訓(xùn)練好的 encoder 被凍結(jié)。然后,模型會(huì)訓(xùn)練一個(gè)基于動(dòng)作條件的預(yù)測(cè)器(predictor)。這個(gè)預(yù)測(cè)器會(huì)根據(jù)過(guò)去的視頻幀和特定的動(dòng)作,來(lái)預(yù)測(cè)未來(lái)的視頻幀。


DINO-World

DINO-World 的核心思想是復(fù)用一個(gè)已預(yù)訓(xùn)練好的視覺(jué)模型 DINOv2 ,從而讓模型可以將學(xué)習(xí)的重點(diǎn)完全放在理解視頻中的動(dòng)態(tài)變化上。

主要分為三個(gè)階段:

第一階段: 直接采用一個(gè)通過(guò)自監(jiān)督學(xué)習(xí)(SSL)預(yù)訓(xùn)練好的 DINOv2 編碼器

第二階段: 凍結(jié) DINOv2 編碼器,然后在大量無(wú)標(biāo)簽的視頻數(shù)據(jù)上,通過(guò)自監(jiān)督的方式訓(xùn)練一個(gè)預(yù)測(cè)器。這個(gè)預(yù)測(cè)器學(xué)習(xí)根據(jù)過(guò)去的視頻特征來(lái)預(yù)測(cè)未來(lái)的視頻特征

第三階段: 在帶有動(dòng)作條件的數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型最終能夠理解動(dòng)作是如何影響未來(lái)的視頻幀

總結(jié):可以看到以視覺(jué)為中心的潛在空間預(yù)測(cè),以上幾個(gè)主要的工作都是一個(gè)相同的范式,不同的是采用不同的 SSL 方法學(xué)到了不同的表征空間。


A3 語(yǔ)言為中心的潛在空間預(yù)測(cè)

最后,我們來(lái)探討表征世界模型的第三類(lèi):以語(yǔ)言為中心的潛在空間預(yù)測(cè)。這里的一個(gè)核心問(wèn)題是:LLM 是世界模型嗎?

從形式上來(lái)說(shuō),LLM 是符合世界模型定義的。

它的獨(dú)特之處在于,其對(duì)世界的理解和表征完全建立在海量的文本知識(shí)之上。在其自回歸(auto-regressive)的生成過(guò)程中,它可以接收上下文作為外部觀察(Observation),并把用戶的提示(prompt)視為一個(gè)動(dòng)作(Action)或新的觀察。這個(gè)輸入會(huì)促使模型轉(zhuǎn)變其內(nèi)部狀態(tài),從而對(duì)未來(lái)做出預(yù)測(cè),輸出新的內(nèi)容。這個(gè)過(guò)程與世界模型從當(dāng)前狀態(tài) S(t) 和動(dòng)作 A(t) 出發(fā),預(yù)測(cè)下一個(gè)狀態(tài) S'(t+1) 的基本范式是一致的。


下面是一個(gè)前面提到過(guò)的自行車(chē)的例子,

當(dāng)我們通過(guò)文本給他兩種不同的 action 時(shí):

  • 如果你不減速,繼續(xù)騎過(guò)去會(huì)發(fā)生什么?

  • 如果你下車(chē),推著自行車(chē)過(guò)去會(huì)發(fā)生什么?

LLM 會(huì)詳細(xì)輸出這兩種選擇會(huì)導(dǎo)致的截然不同的后果,甚至?xí)敿?xì)到牽引力、動(dòng)量和重心的變化。這和上面我們?cè)?mental model 提到的人腦中的假想和推演未來(lái)相比,不是很接近嗎?


但是,Richard Sutton 最近的訪談對(duì)“LLM 是否是世界模型”這一問(wèn)題提出了一些批判性的觀點(diǎn)。

Sutton 的核心論點(diǎn)是:LLMs 學(xué)習(xí)的是對(duì)話的上下文,而非現(xiàn)實(shí)世界的法則。

他認(rèn)為,一個(gè)真正的世界模型應(yīng)該具備以下能力:

  • 預(yù)測(cè)在真實(shí)世界中“將會(huì)發(fā)生什么”

  • 理解事件的動(dòng)態(tài)變化、后果以及因果關(guān)系

  • 能從直接的經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)結(jié)果來(lái)更新自己的理解

而目前的大語(yǔ)言模型實(shí)際上做的是:

  • 在給定的上下文中預(yù)測(cè)“一個(gè)人會(huì)說(shuō)什么”

  • 通過(guò)模仿人類(lèi)生成的文本中的模式來(lái)進(jìn)行學(xué)習(xí)

  • 它們?nèi)狈εc外部世界的直接互動(dòng),也沒(méi)有內(nèi)在的目標(biāo)來(lái)衡量自身行為的正確性

根據(jù) Sutton 的觀點(diǎn),盡管 LLM 在語(yǔ)言回答上表現(xiàn)出色,但它們并不符合一個(gè)真正“世界模型”的標(biāo)準(zhǔn),它們模擬的是語(yǔ)言的表象,而非世界運(yùn)作的內(nèi)在機(jī)理。


Sutton 說(shuō)的很有道理。但從某個(gè)角度看,這正是 LLM 作為這一類(lèi)世界模型的本質(zhì)。

LLM 是擁有一個(gè)零碎且不完整的 (fragmented and incomplete)的世界模型。但這個(gè)世界模型是局部的 (local)、稀疏的 (sparse)、和不連貫的 (incoherent)。以及它需要借助外部的提示 (external prompts)才能夠?qū)⑵渌槠闹R(shí)連接和組織起來(lái)。

那為什么會(huì)這樣呢? 這可能是因?yàn)檎Z(yǔ)言本身就是對(duì)世界的一種局部、稀疏且不連貫的描述。因?yàn)?LLM 完全依賴(lài)于語(yǔ)言數(shù)據(jù)進(jìn)行學(xué)習(xí),它自然就繼承了語(yǔ)言本身的這些局限性,導(dǎo)致其構(gòu)建的世界模型也是碎片化的。


04

生成世界模型的兩大細(xì)分類(lèi)型

生成世界模型包含兩類(lèi):

1)基于規(guī)則的模擬,比如游戲引擎,CG 學(xué)科以及顯式 3D 中更多研究的是這類(lèi);

2)數(shù)據(jù)驅(qū)動(dòng)的生成,比如視頻生成模型。其他可能還有細(xì)分類(lèi),但大家主要關(guān)心的就是這兩大類(lèi)。



B1 基于規(guī)則的模擬

第一類(lèi)是基于規(guī)則的模擬。

這是一種經(jīng)過(guò)時(shí)間考驗(yàn)并取得了巨大成功的方法。這種方法長(zhǎng)遠(yuǎn)來(lái)看依舊不可替代,有很多地方依舊會(huì)需要他們,而且他們會(huì)繼續(xù)發(fā)展??赡苡悬c(diǎn)類(lèi)似手機(jī)出來(lái)后,單反相機(jī)依舊有它的作用,而且將繼續(xù)發(fā)展。

它在許多領(lǐng)域都有著廣泛的應(yīng)用,下面的例子是摘自 GAMES101 的 PPT。

  • 視頻游戲 (Video Games): 游戲世界中的物理交互、角色行為等都由預(yù)設(shè)的規(guī)則和引擎驅(qū)動(dòng)。

  • 動(dòng)畫(huà) (Animations):動(dòng)畫(huà)電影(如《瘋狂動(dòng)物城》)中的角色動(dòng)作和場(chǎng)景變化,也依賴(lài)于復(fù)雜的渲染和模擬規(guī)則。

  • 設(shè)計(jì) (Design): 在室內(nèi)設(shè)計(jì)、建筑設(shè)計(jì)等領(lǐng)域,通過(guò)模擬光照、材質(zhì)等來(lái)預(yù)演最終效果。

  • 可視化 (Visualization):在科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域,用于將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀的視覺(jué)圖像。


以游戲引擎(Game Engine)為例,可以說(shuō)明基于規(guī)則的模擬(Rule-based Simulation) 的幾個(gè)核心特點(diǎn):

  • 自上而下 (Top-down): 它的規(guī)則是由人類(lèi)自上而下、預(yù)先定義好的。

  • 明確且固定 (Explicit and fixed): 這些規(guī)則是人類(lèi)設(shè)計(jì)的、明確且固定的,例如游戲中明確定義的重力規(guī)則和碰撞規(guī)則。

  • 確定性 (Deterministic): 系統(tǒng)的行為是確定且可預(yù)測(cè)的,在相同的輸入下總會(huì)產(chǎn)生相同的結(jié)果。

  • 顯著簡(jiǎn)化 (Significant simplification): 它對(duì)現(xiàn)實(shí)世界進(jìn)行了極大的簡(jiǎn)化和抽象,只捕捉系統(tǒng)的核心邏輯,而忽略大量不相關(guān)的細(xì)節(jié)。例如,游戲引擎通常不會(huì)去追蹤場(chǎng)景中每一片葉子或每一根草的狀態(tài)和運(yùn)動(dòng)。


有一個(gè)概念——數(shù)字孿生非常有關(guān)聯(lián),數(shù)字孿生的例子有英偉達(dá)的 Omniverse 。

這是基于規(guī)則的模擬在工業(yè)領(lǐng)域中的一個(gè)重要應(yīng)用。數(shù)字孿生技術(shù)可以為現(xiàn)實(shí)世界中的實(shí)體工廠創(chuàng)建一個(gè)精確的數(shù)字副本。如下圖的 youtube 視頻展示的,富士康利用 Omniverse 來(lái)構(gòu)建其機(jī)器人工廠的數(shù)字孿生。

通過(guò)這項(xiàng)技術(shù),他們可以在這個(gè)虛擬的工廠中優(yōu)化布局,以及加速機(jī)器人訓(xùn)練。這使得在實(shí)際部署之前,就能夠在高度逼真的模擬環(huán)境中對(duì)整個(gè)生產(chǎn)流程進(jìn)行測(cè)試、驗(yàn)證和優(yōu)化。


B2數(shù)據(jù)驅(qū)動(dòng)的生成

與基于規(guī)則的模擬相反,數(shù)據(jù)驅(qū)動(dòng)的生成方法具有以下特點(diǎn):

自下而上 (Bottom-up):它是從數(shù)據(jù)中自下而上地學(xué)習(xí)并涌現(xiàn)出模式

無(wú)預(yù)設(shè)規(guī)則 (No predefined rules):它不依賴(lài)任何預(yù)設(shè)的規(guī)則,而是通過(guò)學(xué)習(xí)海量數(shù)據(jù)來(lái)掌握世界的規(guī)律 。例如,它并不懂牛頓運(yùn)動(dòng)定律,但在看了一百萬(wàn)個(gè)蘋(píng)果下落的視頻后,它就“知道”了蘋(píng)果是會(huì)往下掉的

概率性與涌現(xiàn)性 (Probabilistic and emergent):它的行為是概率性的,并且會(huì)涌現(xiàn)出復(fù)雜的、未被明確編程的行為

正如 OpenAI 關(guān)于 Sora 的描述中所說(shuō),視頻生成模型正在成為“世界模擬器”(world simulators)。


視頻生成,特別是可交互的生成式視頻,正在解鎖視頻世界模型的無(wú)限可能性。

從 Genie 2 到 Genie 3 ,從交互到記憶,我們可以看到模型不僅能生成高質(zhì)量的視頻,更在逐步實(shí)現(xiàn)與生成世界的交互。用戶不再僅僅是旁觀者,而是可以成為虛擬世界中的參與者。


可交互生成式視頻(Interactive Generative Video, IGV)

我們的 Survey 工作 A Survey of Interactive Generative Video 也較早思考了可交互生成式視頻的五大構(gòu)成部分,可交互生成式視頻是一大類(lèi)主要的視頻世界模型。而 IGV 所展示的模塊也正是視頻世界模型的必要模塊。

生成(Generation):能夠以流式、實(shí)時(shí)和多模態(tài)的方式處理輸入,并輸出多模態(tài)

控制 (Control):包括對(duì)世界中的導(dǎo)航控制和交互控制

動(dòng)態(tài) (Dynamics):模擬物理規(guī)律并支持對(duì)物理規(guī)律的調(diào)整

記憶 (Memory):擁有靜態(tài)記憶和動(dòng)態(tài)記憶

智能 (Intelligence):具備推理和自我演化的能力,是系統(tǒng)更高階的特性


05

做個(gè)總結(jié)

最后,對(duì)世界模型的分類(lèi)做一個(gè)總結(jié)。本文主要介紹了下面這張圖。


還有兩個(gè)重要的補(bǔ)充:上面內(nèi)容是為了分類(lèi),但實(shí)際上很多內(nèi)容是融合與交叉的。

生成世界模型是需要表征世界模型作為基礎(chǔ),無(wú)論是顯式地包含或者隱式的包含。所以 Video World Model 和 V-JEPA/DINO-World ,以及 LLM 作為世界模型并不是爭(zhēng)鋒相對(duì)的,他們可以是相輔相成的

在生成世界模型內(nèi)部的分類(lèi)中,基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)這兩種方法也不是水火不容的,它們?cè)诙唐趦?nèi)有結(jié)合的方案,這一類(lèi)并沒(méi)有列在這里。

【參考】

https://www.xunhuang.me/blogs/world_model.html


Ha, David, and Jürgen Schmidhuber. "World models."

Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdf

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Back to the Features: DINO as a Foundation for Video World Models

A path towards autonomous machine intelligence

A Survey of Interactive Generative Video

https://openai.com/index/sora/

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1979年打越南,高層其實(shí)吵翻了天?葉劍英粟裕為何反對(duì)出兵?

1979年打越南,高層其實(shí)吵翻了天?葉劍英粟裕為何反對(duì)出兵?

鶴羽說(shuō)個(gè)事
2026-04-22 22:36:00
哥哥刷碗供妹妹讀博士,妹妹結(jié)婚當(dāng)天新郎全家看到哥哥竟全跪下

哥哥刷碗供妹妹讀博士,妹妹結(jié)婚當(dāng)天新郎全家看到哥哥竟全跪下

叮當(dāng)當(dāng)科技
2026-04-25 15:16:59
2026年,如果你的家庭存款突破100萬(wàn),會(huì)發(fā)現(xiàn)一個(gè)驚人的真相!

2026年,如果你的家庭存款突破100萬(wàn),會(huì)發(fā)現(xiàn)一個(gè)驚人的真相!

藍(lán)色海邊
2026-04-24 17:11:02
知名男演員官宣結(jié)婚生女,妻子比他大8歲,為懷孕生女吃了不少苦

知名男演員官宣結(jié)婚生女,妻子比他大8歲,為懷孕生女吃了不少苦

娛人細(xì)品
2026-04-24 16:55:46
5月轉(zhuǎn)運(yùn):霉運(yùn)清,財(cái)庫(kù)開(kāi),暴富機(jī)會(huì)來(lái)了

5月轉(zhuǎn)運(yùn):霉運(yùn)清,財(cái)庫(kù)開(kāi),暴富機(jī)會(huì)來(lái)了

牛鍋巴小釩
2026-04-25 19:16:24
突然被帶走調(diào)查:牢記“三不說(shuō)、四不簽”,不吃虧、不踩坑

突然被帶走調(diào)查:牢記“三不說(shuō)、四不簽”,不吃虧、不踩坑

匹夫來(lái)搞笑
2026-04-25 03:19:47
無(wú)法解釋的玄學(xué),不要不信

無(wú)法解釋的玄學(xué),不要不信

三農(nóng)老歷
2026-04-25 12:36:11
東鵬飲料稱(chēng)已停售“0糖特飲”,克明食品、今麥郎、宋柚汁等此前均因“心機(jī)商標(biāo)”惹爭(zhēng)議

東鵬飲料稱(chēng)已停售“0糖特飲”,克明食品、今麥郎、宋柚汁等此前均因“心機(jī)商標(biāo)”惹爭(zhēng)議

紅星資本局
2026-04-24 20:28:09
醫(yī)生發(fā)現(xiàn):老人若長(zhǎng)時(shí)間不吃甜食,用不了多長(zhǎng)時(shí)間身體有5大改善

醫(yī)生發(fā)現(xiàn):老人若長(zhǎng)時(shí)間不吃甜食,用不了多長(zhǎng)時(shí)間身體有5大改善

芹姐說(shuō)生活
2026-04-23 15:04:44
遼寧艦,山東艦,四川艦齊聚南海,德專(zhuān)家:殲35殲15與攻擊21協(xié)同

遼寧艦,山東艦,四川艦齊聚南海,德專(zhuān)家:殲35殲15與攻擊21協(xié)同

混沌錄
2026-04-23 16:50:23
6點(diǎn)吃晚飯是錯(cuò)的?醫(yī)生建議:過(guò)了70歲晚飯盡量做到這5點(diǎn)

6點(diǎn)吃晚飯是錯(cuò)的?醫(yī)生建議:過(guò)了70歲晚飯盡量做到這5點(diǎn)

白話電影院
2026-04-10 14:44:50
孫宏斌現(xiàn)狀:公司負(fù)債大幅減少,63歲愁白了頭,兒子成了他的驕傲

孫宏斌現(xiàn)狀:公司負(fù)債大幅減少,63歲愁白了頭,兒子成了他的驕傲

洲洲影視娛評(píng)
2026-04-20 15:16:52
全球外交大地震!美俄同月來(lái)訪,世界終于認(rèn)清,中國(guó)才是最穩(wěn)碼頭

全球外交大地震!美俄同月來(lái)訪,世界終于認(rèn)清,中國(guó)才是最穩(wěn)碼頭

蜉蝣說(shuō)
2026-04-25 19:48:09
賴(lài)清德被摁住后,不到24小時(shí),29國(guó)公開(kāi)為臺(tái)撐腰,大陸送出3句話

賴(lài)清德被摁住后,不到24小時(shí),29國(guó)公開(kāi)為臺(tái)撐腰,大陸送出3句話

潮鹿逐夢(mèng)
2026-04-25 19:17:00
那個(gè)信了“朋友”去泰國(guó)潑水節(jié)的19歲女生,再也回不來(lái)了

那個(gè)信了“朋友”去泰國(guó)潑水節(jié)的19歲女生,再也回不來(lái)了

迷世書(shū)童H9527
2026-04-25 09:10:21
場(chǎng)均20+8+50%三分命中率!湖人斯馬特殺瘋了,他真被低估了?

場(chǎng)均20+8+50%三分命中率!湖人斯馬特殺瘋了,他真被低估了?

仰臥撐FTUer
2026-04-25 18:43:26
猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長(zhǎng)沙!另外,“五一”假期長(zhǎng)沙天氣最新預(yù)測(cè)→

猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長(zhǎng)沙!另外,“五一”假期長(zhǎng)沙天氣最新預(yù)測(cè)→

芒果都市
2026-04-25 15:31:14
數(shù)名院士呼吁糖尿病患者停止食用,比甜食還粘血管,趁早撤下餐桌

數(shù)名院士呼吁糖尿病患者停止食用,比甜食還粘血管,趁早撤下餐桌

今日養(yǎng)生之道
2026-04-25 11:27:52
爺爺是萬(wàn)里,前男友是李云迪,赴美卻只能擠地下室,名媛萬(wàn)寶寶的人生究竟有多生猛?

爺爺是萬(wàn)里,前男友是李云迪,赴美卻只能擠地下室,名媛萬(wàn)寶寶的人生究竟有多生猛?

史海孤雁
2026-04-24 22:24:12
福原愛(ài)生三胎后首次露面 日本網(wǎng)友稱(chēng)她與古賀紗里奈站一起像母女

福原愛(ài)生三胎后首次露面 日本網(wǎng)友稱(chēng)她與古賀紗里奈站一起像母女

勁爆體壇
2026-04-25 12:44:09
2026-04-25 20:27:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂(lè)要聞

鄧超最大的幸運(yùn),就是遇見(jiàn)孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒(méi)了

汽車(chē)要聞

2026款樂(lè)道L90亮相北京車(chē)展 樂(lè)道L80正式官宣

態(tài)度原創(chuàng)

藝術(shù)
教育
數(shù)碼
手機(jī)
本地

藝術(shù)要聞

安德烈·皮安科夫斯基:當(dāng)代俄羅斯畫(huà)家

教育要聞

我國(guó)“就業(yè)率逼近100%”的5所雙非大學(xué),500多分就能上!

數(shù)碼要聞

雷達(dá)感應(yīng)自動(dòng)開(kāi)關(guān)燈,Yeelight新品來(lái)了

手機(jī)要聞

W16周排名出爐:vivo第四、小米第五,冠軍還是它

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版