国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度長(zhǎng)文解讀 “世界模型” :在虛構(gòu)與真實(shí)交接之處凝視未來

0
分享至



想讓人工智能真正理解、預(yù)測(cè)甚至重構(gòu)真實(shí)世界,我們需要一個(gè)核心引擎。

整理丨齊鋮湧

注:「世界模型」(World Model)的熱度,從年初開始持續(xù)至今。這個(gè)概念也已經(jīng)橫跨具身智能、自動(dòng)駕駛、游戲、視頻生成等領(lǐng)域,逐漸成為了 AI 領(lǐng)域下一個(gè)競(jìng)爭(zhēng)焦點(diǎn)。

有人說它是通往 AGI 的最短路徑,有人說它是實(shí)現(xiàn)自動(dòng)駕駛的終極答案,那么世界模型究竟是什么樣的存在?

本文來自于知乎作者 xintao ,AI 科技評(píng)論經(jīng)授權(quán)后,編輯發(fā)布。

我們先從兩句名言出發(fā),了解這個(gè)超級(jí)詞匯的起源。


一句話是來自心理學(xué)家 Kenneth Craik 1943在《解釋的本質(zhì)》中說的話:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成為世界或其一部分的模型。這句話是“心智模型(Mental Model)”理論的基石,也可以說是當(dāng)前AI中討論“世界模型”的思想源頭。

另一句話是來自物理學(xué)家 Richard Feynman ,據(jù)說是在他1988年去世后,人們?cè)谒诎迳习l(fā)現(xiàn)的:What I cannot create, I do not understand. —— 我若無法創(chuàng)造,便不能理解。這句話被生成式模型廣泛地引用。

選擇它們,是因?yàn)樗鼈?,分別代表了后面要介紹的兩大類世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。

01

給世界模型下一個(gè)“寬泛”的定義

首先,需要回答什么是世界模型?

雖然當(dāng)前大家討論得比較多,相關(guān)工作最近也如雨后春筍般地出來,但直到現(xiàn)在仍舊沒有一個(gè)清晰且被大家廣為接受的定義。之前大家討論比較多的是 Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817)


簡(jiǎn)單地理解,可以如下圖所示。當(dāng)給定現(xiàn)在的狀態(tài) S(t) 和動(dòng)作 A(t) ,預(yù)測(cè)下一個(gè)狀態(tài) S’(t+1) 。通常來說我們也會(huì)從外部世界接受輸入或者觀察 O(t) ,來更新內(nèi)部狀態(tài)。


預(yù)測(cè)的狀態(tài)可以是抽象的表征,類比我們的大腦想象未來?;蛘呤蔷呦蟮谋碚鳎热缦袼?pixels ,就像視頻模型預(yù)測(cè)未來合理的新的視頻幀一樣。

除了這個(gè)寬泛的定義,我們還要給世界模型做個(gè)分類。

從最終的目的出發(fā)(也可以是狀態(tài)的不同表征方式),我們可以把世界模型劃分為兩大類:

一大類是:表征世界模型(Representation World Model)

一大類是:生成世界模型(Generative World Model)


02

表征世界模型:AI 如何理解和預(yù)測(cè)這個(gè)世界?

先說表征世界模型,它的目的是理解并預(yù)測(cè)世界的抽象原則,并不需要去生成逼真的像素。它的關(guān)鍵詞是理解和預(yù)測(cè),以及抽象原則。

表征世界模型中一個(gè)典型代表,就是我們腦海中的心智模型 Mental Model ,它是我們大腦中對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá),能夠從外部世界中理解并總結(jié)出概念和關(guān)系,抽象出原則,而并不會(huì)對(duì)每一處細(xì)節(jié)進(jìn)行模擬。(更多的關(guān)于我們大腦如何模擬和心智化這個(gè)世界的,推薦閱讀《智能簡(jiǎn)史》)


其次簡(jiǎn)單介紹下生成世界模型,它的目的是生成并模擬世界的具體表現(xiàn)。

正如費(fèi)曼這句話說的,What I cannot create, I do not understand. 當(dāng)我們能夠生成和模擬世界的具體表現(xiàn)的時(shí)候,也蘊(yùn)含著我們對(duì)于世界的理解。

生成世界模型的一個(gè)典型代表是視頻世界模型。

Sora 24年推出,它能夠生成我們世界的一個(gè)片段,在那個(gè)時(shí)間點(diǎn),雪景街頭的三維一致性,行人來往的合理性,鏡頭在空間的穿梭,無一不讓人遐想其宣傳的 World Simulator,世界模擬器。25年 Genie 3 更新,視頻生成模型繼續(xù)往前發(fā)展,不僅有了交互,還有了記憶,讓人們更加覺得視頻視覺模型的可實(shí)現(xiàn)性。你可以在生成的視頻中控制方向,并且記住你曾經(jīng)訪問過的地方,猶如在世界中游走。

說明:這里的“生成式”(generative)指的是模型創(chuàng)造世界具體表現(xiàn)(例如像素、音頻)的能力。這有別于更廣泛的術(shù)語“生成式 AI ”(Generative AI),后者也包括像 LLMs 和 JEPA 這樣的模型,而在這里它們被歸類為表征模型。

03

表征世界模型的三大細(xì)分類型

表征世界模型包含三類:

1)生物大腦中的預(yù)測(cè),比如我們?nèi)祟惡蛣?dòng)物的心智模型(Mental Model);

2)視覺為中心的潛在空間預(yù)測(cè),比如 V-JEPA/DINO-World ;

3)語言為中心的潛在空間預(yù)測(cè),比如 LLM 。(當(dāng)然 LLM 是否是世界模型,最近也有很多爭(zhēng)論,后文會(huì)簡(jiǎn)要說明。

(特別要說明的是,這個(gè)分類是修改自 Xun Huang 的 blog :https://www.xunhuang.me/blogs/world_model.html。推薦大家去讀這篇 blog ,有很好的內(nèi)容。)


A1 生物大腦中的預(yù)測(cè)

第一類是生物大腦中的預(yù)測(cè),典型代表就是我們腦海中的心智模型(Mental Model),它是我們對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá)。在我們大腦中進(jìn)行的模擬是抽象的,更關(guān)心概念上的結(jié)果(比如下圖中的人“我會(huì)不會(huì)摔倒?”),而不是摔倒本身的具體細(xì)節(jié),物理過程是如何的。

如圖所示,當(dāng)我們騎自行車的時(shí)候,在我們腦海中會(huì)生成一個(gè)騎自行車的抽象場(chǎng)景,這是我們根據(jù)觀察 O(t) ,得到當(dāng)前的狀態(tài) S(t) 。當(dāng)我們“想象”前方有一塊石頭時(shí),我們的大腦會(huì)模擬不同的動(dòng)作 A(t) ,帶來新的狀態(tài) S'(t+1) 。例如,我們可以假想選擇“快速騎過去”這個(gè)動(dòng)作,大腦會(huì)預(yù)測(cè)“摔倒”這個(gè)可能的未來。我們也可以選擇“推車走過去”,大腦則會(huì)預(yù)測(cè)“安全通過”的未來。

這些預(yù)測(cè)并沒有真實(shí)發(fā)生,它們完全是在大腦中進(jìn)行的模擬。


另外一個(gè)有趣的論文工作是介紹我們大腦中的直覺物理引擎(Intuitive Physics Engine, IPE)。它是一個(gè)心智模型,或者說心智模型的一部分,它允許人們模擬物理場(chǎng)景隨時(shí)間的演變 。這篇論文有以下幾個(gè)有趣的發(fā)現(xiàn),IPE具有以下幾個(gè)顯著的特點(diǎn):

概率性 (Probabilistic):它不會(huì)像游戲引擎那樣產(chǎn)生一個(gè)唯一確定的結(jié)果,而是對(duì)未來可能發(fā)生的多種結(jié)果產(chǎn)生一個(gè)信念分布

有限采樣 (Limited Sampling):我們的決策通常只基于少數(shù)幾次(約2-4次)的心智模擬,而不是進(jìn)行詳盡的推演

概念近似: 為了節(jié)省計(jì)算資源,IPE 會(huì)采用一些原則性的“捷徑” 。比如,在判斷碰撞時(shí),使用物體簡(jiǎn)化的“身體”(如凸包)而非其復(fù)雜的視覺“形狀”;或者將物體分類為“靜態(tài)”(如地面)和“動(dòng)態(tài)”,以避免不必要的計(jì)算

右圖形象地展示了這一過程:人們通過多種感官(左側(cè)的“Perception”)來感知場(chǎng)景,并形成一個(gè)世界的內(nèi)部表征(中間的“Internal Representation”),這個(gè)表征是以物體為中心,并包含了關(guān)于物體位置、范圍和屬性的概率信息。直覺物理引擎利用這個(gè)表征來隨機(jī)模擬世界未來的多種可能狀態(tài)(右側(cè)的“Simulation”),這些模擬的結(jié)果最終被用于認(rèn)知系統(tǒng)進(jìn)行預(yù)測(cè)和決策 。


A2 視覺為中心的潛在空間預(yù)測(cè)

當(dāng)前的這類方法遵循一個(gè)相似的范式:首先,通過自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)將高維的視覺數(shù)據(jù)(如視頻幀)壓縮到一個(gè)抽象的、低維的潛在空間中;再學(xué)習(xí)基于過去的潛在特征和動(dòng)作來預(yù)測(cè)未來的潛在特征。這么做的好處是,模型可以在一個(gè)更簡(jiǎn)潔、更具語義的抽象空間里進(jìn)行預(yù)測(cè)和推理,而不是在復(fù)雜的像素空間里直接操作。

各種不同方法最核心的區(qū)別在于:這個(gè)潛在空間是如何構(gòu)建的。

如下圖所示,不同的模型采用了不同的自監(jiān)督學(xué)習(xí)方法來構(gòu)建這個(gè)潛在空間。例如,V-JEPA 2采用了JEPA 的思路,DINO-World則基于DINO,而經(jīng)典的“World Models”論文則使用了 VAE 。在獲得潛在空間后,模型就可以在這個(gè)抽象空間中更高效地進(jìn)行預(yù)測(cè),從而理解和預(yù)判視覺世界的動(dòng)態(tài)變化。


經(jīng)典的“World Models”論文

以經(jīng)典的“World Models”這篇論文為例,它為在世界模型中訓(xùn)練強(qiáng)化學(xué)習(xí)智能體提供了一個(gè)重要的框架。這篇論文的核心思想,是它在 Introduction 中所引用的這段話:我們腦海中對(duì)世界的印象,僅僅是一個(gè)模型。沒有人會(huì)在腦海中想象出整個(gè)世界、政府或者國家。他擁有的只是“一些被選擇的概念,以及它們之間的關(guān)系”,并用這些來表征真實(shí)的系統(tǒng)。

這正點(diǎn)明了這類世界模型的核心——它并非對(duì)真實(shí)世界像素級(jí)復(fù)刻,而是一種抽象和壓縮的表征。


“World Models” 使用一個(gè)大的無監(jiān)督模型(V+M)來解決困難的“世界理解”問題,然后在一個(gè)由該模型生成的“夢(mèng)境”中,用一個(gè)非常小的控制器(C)來學(xué)習(xí)如何行動(dòng),從而解決 credit assignment 難題。 它巧妙地將復(fù)雜的任務(wù)進(jìn)行了分解:

把從原始像素中理解世界動(dòng)態(tài)這一困難任務(wù),交給了不需要獎(jiǎng)勵(lì)信號(hào)(non-RL)的無監(jiān)督世界模型(V+M)來完成,而后者有 dense 且很強(qiáng)的監(jiān)督學(xué)習(xí)信號(hào)

控制器 C 的任務(wù)變得簡(jiǎn)單,它只需要在一個(gè)參數(shù)量少、特征質(zhì)量高的抽象潛在空間中進(jìn)行學(xué)習(xí),極大地提升了訓(xùn)練效率


LeCun 的自主智能

Yann LeCun 提出了一個(gè)受生物學(xué)啟發(fā)的自主智能(Autonomous Intelligence)框架,其核心在于通過一種名為 JEPA 的無監(jiān)督學(xué)習(xí)方法來構(gòu)建世界模型。

它有六個(gè)主要模塊,這里不深入展開。


有趣的是,這六個(gè)模塊都有生物學(xué)的對(duì)應(yīng),當(dāng)我在讀《智能簡(jiǎn)史》的時(shí)候,很容易將它們對(duì)應(yīng)起來。下面就是我整理的一個(gè)簡(jiǎn)單對(duì)應(yīng)。

我覺得挺有道理的,在這一點(diǎn)上,我感覺 LeCun,Sutton 是類似的,都是受到生物學(xué)的強(qiáng)烈啟發(fā)。


V-JEPA 2

V-JEPA 2 的核心思想是在特征空間中進(jìn)行掩碼預(yù)測(cè),而不是在像素空間中進(jìn)行。這樣做的好處是,模型學(xué)習(xí)到的特征會(huì)更加抽象和魯棒。

主要分為兩個(gè)階段:

第一階段: 模型在視頻數(shù)據(jù)上使用“掩碼-預(yù)測(cè)”的方法進(jìn)行預(yù)訓(xùn)練。它會(huì)學(xué)習(xí)如何填補(bǔ)視頻中被遮蓋掉的部分,從而訓(xùn)練出一個(gè)強(qiáng)大的視覺 encoder。

第二階段: 第一階段訓(xùn)練好的 encoder 被凍結(jié)。然后,模型會(huì)訓(xùn)練一個(gè)基于動(dòng)作條件的預(yù)測(cè)器(predictor)。這個(gè)預(yù)測(cè)器會(huì)根據(jù)過去的視頻幀和特定的動(dòng)作,來預(yù)測(cè)未來的視頻幀。


DINO-World

DINO-World 的核心思想是復(fù)用一個(gè)已預(yù)訓(xùn)練好的視覺模型 DINOv2 ,從而讓模型可以將學(xué)習(xí)的重點(diǎn)完全放在理解視頻中的動(dòng)態(tài)變化上。

主要分為三個(gè)階段:

第一階段: 直接采用一個(gè)通過自監(jiān)督學(xué)習(xí)(SSL)預(yù)訓(xùn)練好的 DINOv2 編碼器

第二階段: 凍結(jié) DINOv2 編碼器,然后在大量無標(biāo)簽的視頻數(shù)據(jù)上,通過自監(jiān)督的方式訓(xùn)練一個(gè)預(yù)測(cè)器。這個(gè)預(yù)測(cè)器學(xué)習(xí)根據(jù)過去的視頻特征來預(yù)測(cè)未來的視頻特征

第三階段: 在帶有動(dòng)作條件的數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型最終能夠理解動(dòng)作是如何影響未來的視頻幀

總結(jié):可以看到以視覺為中心的潛在空間預(yù)測(cè),以上幾個(gè)主要的工作都是一個(gè)相同的范式,不同的是采用不同的 SSL 方法學(xué)到了不同的表征空間。


A3 語言為中心的潛在空間預(yù)測(cè)

最后,我們來探討表征世界模型的第三類:以語言為中心的潛在空間預(yù)測(cè)。這里的一個(gè)核心問題是:LLM 是世界模型嗎?

從形式上來說,LLM 是符合世界模型定義的。

它的獨(dú)特之處在于,其對(duì)世界的理解和表征完全建立在海量的文本知識(shí)之上。在其自回歸(auto-regressive)的生成過程中,它可以接收上下文作為外部觀察(Observation),并把用戶的提示(prompt)視為一個(gè)動(dòng)作(Action)或新的觀察。這個(gè)輸入會(huì)促使模型轉(zhuǎn)變其內(nèi)部狀態(tài),從而對(duì)未來做出預(yù)測(cè),輸出新的內(nèi)容。這個(gè)過程與世界模型從當(dāng)前狀態(tài) S(t) 和動(dòng)作 A(t) 出發(fā),預(yù)測(cè)下一個(gè)狀態(tài) S'(t+1) 的基本范式是一致的。


下面是一個(gè)前面提到過的自行車的例子,

當(dāng)我們通過文本給他兩種不同的 action 時(shí):

  • 如果你不減速,繼續(xù)騎過去會(huì)發(fā)生什么?

  • 如果你下車,推著自行車過去會(huì)發(fā)生什么?

LLM 會(huì)詳細(xì)輸出這兩種選擇會(huì)導(dǎo)致的截然不同的后果,甚至?xí)敿?xì)到牽引力、動(dòng)量和重心的變化。這和上面我們?cè)?mental model 提到的人腦中的假想和推演未來相比,不是很接近嗎?


但是,Richard Sutton 最近的訪談對(duì)“LLM 是否是世界模型”這一問題提出了一些批判性的觀點(diǎn)。

Sutton 的核心論點(diǎn)是:LLMs 學(xué)習(xí)的是對(duì)話的上下文,而非現(xiàn)實(shí)世界的法則。

他認(rèn)為,一個(gè)真正的世界模型應(yīng)該具備以下能力:

  • 預(yù)測(cè)在真實(shí)世界中“將會(huì)發(fā)生什么”

  • 理解事件的動(dòng)態(tài)變化、后果以及因果關(guān)系

  • 能從直接的經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)結(jié)果來更新自己的理解

而目前的大語言模型實(shí)際上做的是:

  • 在給定的上下文中預(yù)測(cè)“一個(gè)人會(huì)說什么”

  • 通過模仿人類生成的文本中的模式來進(jìn)行學(xué)習(xí)

  • 它們?nèi)狈εc外部世界的直接互動(dòng),也沒有內(nèi)在的目標(biāo)來衡量自身行為的正確性

根據(jù) Sutton 的觀點(diǎn),盡管 LLM 在語言回答上表現(xiàn)出色,但它們并不符合一個(gè)真正“世界模型”的標(biāo)準(zhǔn),它們模擬的是語言的表象,而非世界運(yùn)作的內(nèi)在機(jī)理。


Sutton 說的很有道理。但從某個(gè)角度看,這正是 LLM 作為這一類世界模型的本質(zhì)。

LLM 是擁有一個(gè)零碎且不完整的 (fragmented and incomplete)的世界模型。但這個(gè)世界模型是局部的 (local)、稀疏的 (sparse)、和不連貫的 (incoherent)。以及它需要借助外部的提示 (external prompts)才能夠?qū)⑵渌槠闹R(shí)連接和組織起來。

那為什么會(huì)這樣呢? 這可能是因?yàn)檎Z言本身就是對(duì)世界的一種局部、稀疏且不連貫的描述。因?yàn)?LLM 完全依賴于語言數(shù)據(jù)進(jìn)行學(xué)習(xí),它自然就繼承了語言本身的這些局限性,導(dǎo)致其構(gòu)建的世界模型也是碎片化的。


04

生成世界模型的兩大細(xì)分類型

生成世界模型包含兩類:

1)基于規(guī)則的模擬,比如游戲引擎,CG 學(xué)科以及顯式 3D 中更多研究的是這類;

2)數(shù)據(jù)驅(qū)動(dòng)的生成,比如視頻生成模型。其他可能還有細(xì)分類,但大家主要關(guān)心的就是這兩大類。



B1 基于規(guī)則的模擬

第一類是基于規(guī)則的模擬。

這是一種經(jīng)過時(shí)間考驗(yàn)并取得了巨大成功的方法。這種方法長(zhǎng)遠(yuǎn)來看依舊不可替代,有很多地方依舊會(huì)需要他們,而且他們會(huì)繼續(xù)發(fā)展??赡苡悬c(diǎn)類似手機(jī)出來后,單反相機(jī)依舊有它的作用,而且將繼續(xù)發(fā)展。

它在許多領(lǐng)域都有著廣泛的應(yīng)用,下面的例子是摘自 GAMES101 的 PPT。

  • 視頻游戲 (Video Games): 游戲世界中的物理交互、角色行為等都由預(yù)設(shè)的規(guī)則和引擎驅(qū)動(dòng)。

  • 動(dòng)畫 (Animations):動(dòng)畫電影(如《瘋狂動(dòng)物城》)中的角色動(dòng)作和場(chǎng)景變化,也依賴于復(fù)雜的渲染和模擬規(guī)則。

  • 設(shè)計(jì) (Design): 在室內(nèi)設(shè)計(jì)、建筑設(shè)計(jì)等領(lǐng)域,通過模擬光照、材質(zhì)等來預(yù)演最終效果。

  • 可視化 (Visualization):在科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域,用于將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀的視覺圖像。


以游戲引擎(Game Engine)為例,可以說明基于規(guī)則的模擬(Rule-based Simulation) 的幾個(gè)核心特點(diǎn):

  • 自上而下 (Top-down): 它的規(guī)則是由人類自上而下、預(yù)先定義好的。

  • 明確且固定 (Explicit and fixed): 這些規(guī)則是人類設(shè)計(jì)的、明確且固定的,例如游戲中明確定義的重力規(guī)則和碰撞規(guī)則。

  • 確定性 (Deterministic): 系統(tǒng)的行為是確定且可預(yù)測(cè)的,在相同的輸入下總會(huì)產(chǎn)生相同的結(jié)果。

  • 顯著簡(jiǎn)化 (Significant simplification): 它對(duì)現(xiàn)實(shí)世界進(jìn)行了極大的簡(jiǎn)化和抽象,只捕捉系統(tǒng)的核心邏輯,而忽略大量不相關(guān)的細(xì)節(jié)。例如,游戲引擎通常不會(huì)去追蹤場(chǎng)景中每一片葉子或每一根草的狀態(tài)和運(yùn)動(dòng)。


有一個(gè)概念——數(shù)字孿生非常有關(guān)聯(lián),數(shù)字孿生的例子有英偉達(dá)的 Omniverse 。

這是基于規(guī)則的模擬在工業(yè)領(lǐng)域中的一個(gè)重要應(yīng)用。數(shù)字孿生技術(shù)可以為現(xiàn)實(shí)世界中的實(shí)體工廠創(chuàng)建一個(gè)精確的數(shù)字副本。如下圖的 youtube 視頻展示的,富士康利用 Omniverse 來構(gòu)建其機(jī)器人工廠的數(shù)字孿生。

通過這項(xiàng)技術(shù),他們可以在這個(gè)虛擬的工廠中優(yōu)化布局,以及加速機(jī)器人訓(xùn)練。這使得在實(shí)際部署之前,就能夠在高度逼真的模擬環(huán)境中對(duì)整個(gè)生產(chǎn)流程進(jìn)行測(cè)試、驗(yàn)證和優(yōu)化。


B2數(shù)據(jù)驅(qū)動(dòng)的生成

與基于規(guī)則的模擬相反,數(shù)據(jù)驅(qū)動(dòng)的生成方法具有以下特點(diǎn):

自下而上 (Bottom-up):它是從數(shù)據(jù)中自下而上地學(xué)習(xí)并涌現(xiàn)出模式

無預(yù)設(shè)規(guī)則 (No predefined rules):它不依賴任何預(yù)設(shè)的規(guī)則,而是通過學(xué)習(xí)海量數(shù)據(jù)來掌握世界的規(guī)律 。例如,它并不懂牛頓運(yùn)動(dòng)定律,但在看了一百萬個(gè)蘋果下落的視頻后,它就“知道”了蘋果是會(huì)往下掉的

概率性與涌現(xiàn)性 (Probabilistic and emergent):它的行為是概率性的,并且會(huì)涌現(xiàn)出復(fù)雜的、未被明確編程的行為

正如 OpenAI 關(guān)于 Sora 的描述中所說,視頻生成模型正在成為“世界模擬器”(world simulators)。


視頻生成,特別是可交互的生成式視頻,正在解鎖視頻世界模型的無限可能性。

從 Genie 2 到 Genie 3 ,從交互到記憶,我們可以看到模型不僅能生成高質(zhì)量的視頻,更在逐步實(shí)現(xiàn)與生成世界的交互。用戶不再僅僅是旁觀者,而是可以成為虛擬世界中的參與者。


可交互生成式視頻(Interactive Generative Video, IGV)

我們的 Survey 工作 A Survey of Interactive Generative Video 也較早思考了可交互生成式視頻的五大構(gòu)成部分,可交互生成式視頻是一大類主要的視頻世界模型。而 IGV 所展示的模塊也正是視頻世界模型的必要模塊。

生成(Generation):能夠以流式、實(shí)時(shí)和多模態(tài)的方式處理輸入,并輸出多模態(tài)

控制 (Control):包括對(duì)世界中的導(dǎo)航控制和交互控制

動(dòng)態(tài) (Dynamics):模擬物理規(guī)律并支持對(duì)物理規(guī)律的調(diào)整

記憶 (Memory):擁有靜態(tài)記憶和動(dòng)態(tài)記憶

智能 (Intelligence):具備推理和自我演化的能力,是系統(tǒng)更高階的特性


05

做個(gè)總結(jié)

最后,對(duì)世界模型的分類做一個(gè)總結(jié)。本文主要介紹了下面這張圖。


還有兩個(gè)重要的補(bǔ)充:上面內(nèi)容是為了分類,但實(shí)際上很多內(nèi)容是融合與交叉的。

生成世界模型是需要表征世界模型作為基礎(chǔ),無論是顯式地包含或者隱式的包含。所以 Video World Model 和 V-JEPA/DINO-World ,以及 LLM 作為世界模型并不是爭(zhēng)鋒相對(duì)的,他們可以是相輔相成的

在生成世界模型內(nèi)部的分類中,基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)這兩種方法也不是水火不容的,它們?cè)诙唐趦?nèi)有結(jié)合的方案,這一類并沒有列在這里。

【參考】

https://www.xunhuang.me/blogs/world_model.html


Ha, David, and Jürgen Schmidhuber. "World models."

Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdf

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Back to the Features: DINO as a Foundation for Video World Models

A path towards autonomous machine intelligence

A Survey of Interactive Generative Video

https://openai.com/index/sora/

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
裁掉奎因?廣東隊(duì)被逼更換外援,朱芳雨有望引進(jìn)“黑又硬”中鋒!

裁掉奎因?廣東隊(duì)被逼更換外援,朱芳雨有望引進(jìn)“黑又硬”中鋒!

緋雨兒
2025-12-24 13:36:25
基辛格生前大膽預(yù)測(cè):第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個(gè)

基辛格生前大膽預(yù)測(cè):第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個(gè)

云舟史策
2025-12-21 07:11:57
紅軍長(zhǎng)征路上吃什么?并非相傳的草根樹皮,其實(shí)非?!柏S富”

紅軍長(zhǎng)征路上吃什么?并非相傳的草根樹皮,其實(shí)非常“豐富”

鶴羽說個(gè)事
2025-12-23 11:38:31
莫德里奇不是來米蘭養(yǎng)老的嗎?

莫德里奇不是來米蘭養(yǎng)老的嗎?

張佳瑋寫字的地方
2025-12-24 14:34:50
殘陣對(duì)殘陣,曼晚:曼聯(lián)vs紐卡的比賽可能有多達(dá)15名球員缺席

殘陣對(duì)殘陣,曼晚:曼聯(lián)vs紐卡的比賽可能有多達(dá)15名球員缺席

懂球帝
2025-12-24 17:34:07
瞞不住了!南博《江南春》后續(xù):40名職工舉報(bào),前院長(zhǎng)盜竊、走私

瞞不住了!南博《江南春》后續(xù):40名職工舉報(bào),前院長(zhǎng)盜竊、走私

娜烏和西卡
2025-12-22 12:57:40
1948年,王耀武被俘后,陳毅不解地問:你家里為何會(huì)藏了兩臺(tái)拖拉機(jī)?

1948年,王耀武被俘后,陳毅不解地問:你家里為何會(huì)藏了兩臺(tái)拖拉機(jī)?

宅家伍菇?jīng)?/span>
2025-12-07 09:00:04
歷史驚人的相似:白人與中國三次生死較量,最終都以“滅族”收?qǐng)?>
    </a>
        <h3>
      <a href=南宗歷史
2025-12-23 14:46:20
姑父無兒女硬住我們家18年,離世他留下一麻布袋,打開我瞬間淚目

姑父無兒女硬住我們家18年,離世他留下一麻布袋,打開我瞬間淚目

衍月
2025-12-02 15:39:25
崔路路被判處死刑 崔父:他毀了幾個(gè)家庭,自己做出的事自己承擔(dān)

崔路路被判處死刑 崔父:他毀了幾個(gè)家庭,自己做出的事自己承擔(dān)

紅星新聞
2025-12-23 15:27:46
群體狂熱中那個(gè)“不敬禮”的人,到底有多了不起!

群體狂熱中那個(gè)“不敬禮”的人,到底有多了不起!

尚曦讀史
2025-12-12 09:11:04
火在宇宙中比液態(tài)水還稀有?全宇宙只有地球擁有!為什么這么說?

火在宇宙中比液態(tài)水還稀有?全宇宙只有地球擁有!為什么這么說?

半解智士
2025-12-23 21:42:43
敢不敢攔?載有委內(nèi)瑞拉原油的中國油輪已開出,美國敢不敢攔截?

敢不敢攔?載有委內(nèi)瑞拉原油的中國油輪已開出,美國敢不敢攔截?

百態(tài)人間
2025-12-24 16:50:17
600730,國資入局,復(fù)牌后連續(xù)兩天跌停,停牌前3天漲超20%

600730,國資入局,復(fù)牌后連續(xù)兩天跌停,停牌前3天漲超20%

每日經(jīng)濟(jì)新聞
2025-12-24 08:36:05
密集雷區(qū)宛如“20公里地獄”!烏反攻遇最棘手難題:丟下西方精銳坦克,徒步推進(jìn)

密集雷區(qū)宛如“20公里地獄”!烏反攻遇最棘手難題:丟下西方精銳坦克,徒步推進(jìn)

紅星新聞
2023-07-17 19:07:16
國乒又出9歲雙子星!小鄧亞萍+小張怡寧爭(zhēng)冠,王楠女兒克星上線

國乒又出9歲雙子星!小鄧亞萍+小張怡寧爭(zhēng)冠,王楠女兒克星上線

李喜林籃球絕殺
2025-12-24 17:51:51
醫(yī)生提醒:你早上吃的降壓藥,竟可能偷偷傷心臟,很多人不知道

醫(yī)生提醒:你早上吃的降壓藥,竟可能偷偷傷心臟,很多人不知道

白宸侃片
2025-12-24 15:22:34
32集諜戰(zhàn)劇來襲,開播一天就沖上衛(wèi)視收視率第一,越看越上癮

32集諜戰(zhàn)劇來襲,開播一天就沖上衛(wèi)視收視率第一,越看越上癮

樂楓電影
2025-12-24 16:27:46
南京博物院院長(zhǎng)從靈谷塔七層一躍而下!

南京博物院院長(zhǎng)從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
第125旅強(qiáng)力改革,不合格軍官送往前線當(dāng)步兵:新旅長(zhǎng)是個(gè)狠人

第125旅強(qiáng)力改革,不合格軍官送往前線當(dāng)步兵:新旅長(zhǎng)是個(gè)狠人

鷹眼Defence
2025-12-22 18:08:02
2025-12-24 18:59:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7020文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

接送幼兒車輛墜入池塘致8死 村民:事故路面有明顯淤泥

頭條要聞

接送幼兒車輛墜入池塘致8死 村民:事故路面有明顯淤泥

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

重磅!北京市優(yōu)化調(diào)整住房限購政策

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
教育
家居
旅游
公開課

IGN排名10大R星游戲!《三男一狗》榮獲老二

教育要聞

家校共育大課堂 | 運(yùn)動(dòng)享健康,家校護(hù)成長(zhǎng)

家居要聞

法式大平層 智能家居添彩

旅游要聞

跨年游開封萬歲山注意!12月31日至1月1日門票政策有變

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版