全面解析“世界模型”：定義、路線、實(shí)踐與AGI的更近一步

2026-03-06 16:37:56　來源: 硅谷101

上海舉報(bào)

分享至

撰稿：張珺玥

如今的AI看起來似乎“無所不能”：能寫深?yuàn)W的論文、復(fù)雜的代碼，做出頂級的畫面和視頻。然而，它仍然缺乏理解世界、預(yù)測世界以及在世界里推演并行動(dòng)的能力。

而為了解決這個(gè)問題，OpenAI、谷歌、微軟等大公司，Yann LeCun、李飛飛等頂尖學(xué)者都開始搶著研究同一件事，那就是——世界模型。

不少AI科學(xué)家認(rèn)為，隨著多模態(tài)走向普及和成熟，如果這條技術(shù)線完全跑通，它將徹底重塑整個(gè)AI格局。但我們也注意到，“世界模型”的爆火也帶來了新的問題：仿佛整個(gè)AI圈，一夜之間都變成了“世界模型”：無論是做視頻生成的、做機(jī)器人的，還是自動(dòng)駕駛、游戲開發(fā)等等，只要跟“世界”沾點(diǎn)邊，幾乎都是世界模型。

世界模型到底是什么，它跟大語言模型有什么區(qū)別？這些看起來完全不同的路線，是在做同一件事嗎？世界模型的到來，又會給各行各業(yè)以及整個(gè)社會帶來什么樣的改變？以及，它會是人類通往AGI的終極密碼嗎？

這期視頻，硅谷101團(tuán)隊(duì)花了幾個(gè)月時(shí)間做了深度研究、采訪和后期特效制作，想解釋清楚這個(gè)被業(yè)界不少大佬認(rèn)為是“AI下個(gè)十年最重要的研究方向”到底是在研究啥。希望對大家理解AI最前沿的討論和研發(fā)有所幫助，內(nèi)容有點(diǎn)硬核有點(diǎn)長，大家enjoy～

（本文為視頻改寫，歡迎大家收看以下視頻）

什么是世界模型？

關(guān)于世界模型的定義，目前仍然還沒有一個(gè)非常清晰的、被所有人都認(rèn)可的說法。但我們可以先來聊一聊這個(gè)概念的起源，以及它究竟想解決什么事情。

先從一個(gè)再簡單不過的問題開始：你是怎么知道，一杯水放在桌邊，它可能會掉下去的呢？

科學(xué)家們認(rèn)為，人類之所以能預(yù)測杯子會掉落、門往哪邊開、球會順著斜坡滾，是因?yàn)閺暮苄〉臅r(shí)候，我們就在腦子里構(gòu)建了一個(gè)“世界怎么運(yùn)作”的模型。我們能預(yù)判下一秒會發(fā)生什么，能想象“如果我這么做，會怎么樣”，并在腦海中提前排演各種可能性，在認(rèn)知科學(xué)中，這被稱為心智模型（Mental Model）。

早在上個(gè)世紀(jì)，科學(xué)家們就已經(jīng)開始研究人類的心智模型。1943年，Kenneth Craik在其著作《解釋的本質(zhì)》中就提出：人在對現(xiàn)實(shí)作出反應(yīng)之前，會先在大腦中構(gòu)建一個(gè)“小規(guī)模的世界模型”，用它來模擬可能發(fā)生的過程，再據(jù)此選擇行動(dòng)。也就是說，我們每個(gè)人腦子里，都有一個(gè)看不見的“小世界”。

既然人類智能依賴于這樣的內(nèi)部世界，很多AI研究者也開始追問：機(jī)器要想具備真正的智能，是否也需要一個(gè)屬于自己的世界？

于是，在AI和強(qiáng)化學(xué)習(xí)的早期研究中，這個(gè)思想以不同的名字反復(fù)出現(xiàn)。比如在1991年，Richard Sutton、Doina Precup和Satinder Singh在論文《An Integrated Architecture for Learning, Planning, and Reacting》中提出了后來被稱為Dyna架構(gòu)的設(shè)計(jì)思路。

Dyna的核心在于：智能體在學(xué)習(xí)行動(dòng)策略的同時(shí)，也要學(xué)習(xí)model of the world。也就是，當(dāng)我采取某個(gè)動(dòng)作之后，世界會如何變化，這也是第一次將“世界模型”明確確立為智能體內(nèi)部的一項(xiàng)基礎(chǔ)能力。

在此之后，世界模型并沒有沿著單一路線發(fā)展，而是在不同研究領(lǐng)域中被不斷拆解、強(qiáng)化和改寫。比如在強(qiáng)化學(xué)習(xí)和機(jī)器人中，它體現(xiàn)為Forward Model；在自動(dòng)控制和工業(yè)系統(tǒng)中，則發(fā)展出了Model Predictive Control（模型預(yù)測控制）。

這些理論的名字雖然不同，但背后共享著同一個(gè)核心假設(shè)：智能體之所以能做出更好的決策，不是因?yàn)榉磻?yīng)更快，而是因?yàn)樗茉谛袆?dòng)之前，在內(nèi)部世界中先“看到未來”。

在此后在很長一段時(shí)間里，世界模型更多停留在偏理論、偏算法的層面，直到深度學(xué)習(xí)和表示學(xué)習(xí)逐漸成熟。2018年，Google Brain的David Ha與深度學(xué)習(xí)元老級教父Jürgen Schmidhuber共同發(fā)表了論文《World Models》。這篇論文正式提出了“世界模型”（World models）這個(gè)精煉化的名稱，同時(shí)還給出了一個(gè)比較簡潔的世界模型理解框架：

世界模型=觀察世界（V）+預(yù)測世界（M）+在內(nèi)部世界中學(xué)習(xí)行動(dòng)（C），對應(yīng)的是視覺（Vision）、記憶（Memory）和控制（Controller）三個(gè)核心模塊。

我們用一個(gè)簡單的例子來解釋一下：想象你是一個(gè)從未打過乒乓球的新手，當(dāng)你站在球臺前，眼睛接收到的是大量復(fù)雜的視覺信息。視覺模塊（V）并不會記住每一個(gè)像素，而是會自動(dòng)提取出對決策真正重要的部分，它將原本上百萬像素的畫面壓縮成僅有幾十個(gè)數(shù)字的精華編碼。

記憶模塊（M）接收到這些編碼后，便立即開始內(nèi)部模擬。經(jīng)過多次練習(xí)，你的大腦已經(jīng)建立起對乒乓球運(yùn)動(dòng)規(guī)律的理解。記憶模塊就像你內(nèi)心的“物理引擎”，能預(yù)測“如果我這樣做，會發(fā)生什么”。

所以，當(dāng)球飛來時(shí)，視覺模塊提取特征，記憶模塊模擬方案，而控制模塊（C）就主要是在記憶模塊（M）所創(chuàng)造的“內(nèi)部世界”中進(jìn)行訓(xùn)練，你并不需要真的揮拍一百次試錯(cuò)，而是在記憶模塊的“夢境”中找到最佳策略后，再在現(xiàn)實(shí)中只執(zhí)行一次最優(yōu)解。而這種“想象-規(guī)劃-行動(dòng)”的認(rèn)知過程，正是人類智能的核心特征。

在這篇論文中，他們也做出了一個(gè)有意思的demo，讓模型在完全虛擬的小世界里學(xué)會了玩一款賽車游戲，證明了AI可以像人類一樣，通過內(nèi)部世界的想象來進(jìn)行學(xué)習(xí)。

總結(jié)下來，研究者們普遍認(rèn)為世界模型應(yīng)該具有三大特質(zhì)：

第一，表示世界（Representation）。模型能夠理解所處的環(huán)境里有什么、物體在哪里，以及物與物之間是什么關(guān)系。

第二，預(yù)測未來（Prediction）。它能夠?qū)κ录M(jìn)行模擬和生成，如果我推一下杯子、打開一扇門、往前走兩步，世界會發(fā)生什么樣的改變。

第三，在世界里規(guī)劃和行動(dòng)（Planning & Control）。當(dāng)能預(yù)測接下來會發(fā)生什么之后，我應(yīng)該如何采取行動(dòng)。

Yiqi Zhao Product Design Lead, Meta 它是把世界抽象到一個(gè)潛在的、被壓縮過的空間里，在這個(gè)潛在空間里，你能夠通過學(xué)到的物理規(guī)律，去做對未來的預(yù)測，形成一個(gè)對真實(shí)世界的模擬器。相當(dāng)于它是一個(gè)模擬系統(tǒng)，有點(diǎn)像是一個(gè)縮小的平行宇宙。這感覺就像如果你有一個(gè)真正的AI大腦，它就擁有自己的AI世界觀。因?yàn)榭梢宰鲱A(yù)測，所以就可以去做未來的推演，就可以做決策。

世界模型的本質(zhì)，就是想讓AI從一個(gè)“只會回答問題”的語言機(jī)器，走向能夠真正像人類一樣“會觀察、會推理、會行動(dòng)”的真正智能體。但是問題來了，作為一個(gè)上個(gè)世紀(jì)就開始被研究的概念，為什么突然在最近一段時(shí)間火了起來？它跟我們現(xiàn)在所熟悉的大語言模型又有什么區(qū)別或是聯(lián)系呢？

為什么要研究世界模型

Chapter 2.1 世界模型與大語言模型的不同

從主要任務(wù)和預(yù)測目標(biāo)來看：

大語言模型的目標(biāo)是生成在語言維度上最合理的序列，預(yù)測的是下一個(gè)詞或token。比如你問“杯子會從桌子上掉下來嗎？”，它回答“會”，因?yàn)檫@是在無數(shù)文本里出現(xiàn)過的正確答案。
世界模型的任務(wù)是預(yù)測“下一秒世界會變成什么樣”，預(yù)測的是下一幀畫面、下一步動(dòng)作、下一次狀態(tài)變化，它需要理解物理規(guī)律、空間關(guān)系和動(dòng)態(tài)變化。

從訓(xùn)練數(shù)據(jù)來看：

大語言模型主要依賴文本數(shù)據(jù)，也包括一些圖像和視頻，數(shù)據(jù)特點(diǎn)是以靜態(tài)內(nèi)容為主。
世界模型則主要依賴視頻等動(dòng)態(tài)數(shù)據(jù)，包括攝像頭看到的畫面、機(jī)器人的傳感器反饋、動(dòng)作的結(jié)果、環(huán)境的變化，數(shù)據(jù)特點(diǎn)是動(dòng)態(tài)的、時(shí)序性的。

從輸出結(jié)果看：

大語言模型輸出的是語言或圖像等內(nèi)容。
世界模型輸出的是對未來狀態(tài)的預(yù)測、對行為的模擬，以及可執(zhí)行的行動(dòng)方案。

從學(xué)習(xí)方式看：

大語言模型是通過語言間接理解世界，更像一個(gè)“知識容器”。
世界模型是通過交互和推演直接理解世界，不僅能“看見”，還能“預(yù)測”和“干預(yù)”。

因此，大語言模型更適合對話、寫作、翻譯、問答。而世界模型更適合機(jī)器人、自動(dòng)駕駛、物理模擬和決策系統(tǒng)這些必須進(jìn)入真實(shí)世界的任務(wù)。

此前，李飛飛也曾在采訪中精煉總結(jié)過兩者在目的和訓(xùn)練模態(tài)上的不同：

李飛飛 World Labs創(chuàng)始人、資深A(yù)I科學(xué)家一種是關(guān)于表達(dá)，另一種是關(guān)于觀察和行動(dòng)。因此它們本質(zhì)上是截然不同的模態(tài)。大型語言模型的基本單元是詞庫，無論是字母還是單詞，而我們使用的世界模型的基本單元是像素或體素。

Chapter2.2 大語言模型路線遇到瓶頸了嗎？

雖然大語言模型和世界模型是兩條不一樣的技術(shù)路線，但它們的終極目標(biāo)都是要實(shí)現(xiàn)通用人工智能。那么現(xiàn)在為什么要突然非常關(guān)注世界模型呢？是因?yàn)榇笳Z言模型這條路已經(jīng)走不動(dòng)了嗎？

關(guān)于這個(gè)問題，研究界目前仍然存在著不同的觀點(diǎn)。

一些研究者們旗幟鮮明地提出，大語言模型是死路，這一派的代表人物之一就是Yann LeCun。

圖片來源：Reuters

離開工作了12年的Meta后，這位65歲的圖靈獎(jiǎng)得主、深度學(xué)習(xí)先驅(qū)并沒有選擇退休，而是回到巴黎創(chuàng)立了一家名為Advanced Machine Intelligence的公司。他要做的事情，與硅谷主流的大模型路線截然不同。

他在最近的采訪中表示，AI領(lǐng)域的Moravec悖論一直存在。所謂Moravec悖論，是指AI可以輕松處理對人類極其困難的高智力任務(wù)，比如下棋、微積分、讀論文。但直覺性的感知、社交等人類和動(dòng)物輕松完成的初級技能，對機(jī)器卻極其困難。Yann LeCun認(rèn)為，這個(gè)悖論至今未解決，就是因?yàn)槲覀冄芯緼I的路線錯(cuò)了。

人類智能的核心在于不依賴海量數(shù)據(jù)就能自主學(xué)習(xí)，但現(xiàn)在的LLM是在擬合語言的統(tǒng)計(jì)相關(guān)性，對現(xiàn)實(shí)世界幾乎沒有直接建模能力，如果繼續(xù)沿著LLM路線“堆量”，最多只能做出一個(gè)更會說話、更會寫字的模型。

他甚至放言稱，再過5年，GPT之類的大語言模型就不會有人再用了。而關(guān)于大家都在憧憬AGI很快到來，他也認(rèn)為是一種幻想，最樂觀也要5到10年，機(jī)器的智能才能勉強(qiáng)接近一只狗。

Yann LeCun Meta前首席AI科學(xué)家、深度學(xué)習(xí)先驅(qū)、圖靈獎(jiǎng)得主那些吹噓一兩年內(nèi)就能實(shí)現(xiàn)通用人工智能的人，純粹是癡人說夢，徹頭徹尾的妄想，因?yàn)楝F(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。你不可能通過“將世界token化”和使用大語言模型來解決這個(gè)問題，這根本不可能實(shí)現(xiàn)。

而除了Yann LeCun之外，學(xué)術(shù)界中有不少的大佬級人物也都持有類似的觀點(diǎn)，比如圖靈獎(jiǎng)獲得者、強(qiáng)化學(xué)習(xí)之父Richard Sutton。

Richard Sutton 強(qiáng)化學(xué)習(xí)之父、圖靈獎(jiǎng)得主大語言模型試圖在沒有目標(biāo)、也沒有‘好壞優(yōu)劣’這種評價(jià)標(biāo)準(zhǔn)的情況下運(yùn)作，這其實(shí)一開始就走錯(cuò)了方向。

李飛飛最近也在密集地發(fā)聲，她說大語言模型仍然是黑暗中的文字匠人：能言善辯，卻缺乏經(jīng)驗(yàn)；知識淵博，卻脫離現(xiàn)實(shí)。

所以，大語言模型這條路線是不是真的走不通了呢？嚴(yán)格來說，現(xiàn)在還沒有標(biāo)準(zhǔn)答案，但有幾件事，大家開始有了越來越多的共識：

首先，單純把模型做得更大，已經(jīng)不會再像過去那樣帶來立竿見影的突破。規(guī)模繼續(xù)上去當(dāng)然可以變強(qiáng)，但在算力、數(shù)據(jù)、能源、成本這些硬約束下，它的性價(jià)比正在迅速下降。

其次，AI需要更直接地接觸“真實(shí)世界”。語言世界太干凈了，它無法提供現(xiàn)實(shí)世界里那種混亂、連續(xù)、充滿不確定性的因果經(jīng)驗(yàn)。AI想繼續(xù)往前走，需要新的輸入方式、需要多模態(tài)感知、需要和環(huán)境互動(dòng)。

最后，大家普遍認(rèn)為世界模型和大模型將會是一個(gè)互補(bǔ)的關(guān)系。陳羽北就在訪談中提到，世界模型并不是要完全將大語言模型推翻重來，而是為大語言模型補(bǔ)上“現(xiàn)實(shí)世界”的維度。

陳羽北加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授在語言中我們有了GPT的話，當(dāng)預(yù)訓(xùn)練的好處達(dá)到一定程度的時(shí)候，它可以被快速地變成任何的下游應(yīng)用。世界模型可以被認(rèn)為是一個(gè)大號的GPT，它包含了感知和控制。如果我們在這里也能獲得根本上的成功，未來我們所有的機(jī)器人、所有的智能體都可以用這樣預(yù)訓(xùn)練和后訓(xùn)練的方式產(chǎn)生，這有可能會徹底地解鎖一些AI的應(yīng)用場景。

Chapter2.3 為什么是現(xiàn)在？

既然世界模型如此重要，為什么最近一段時(shí)間它才突然被行業(yè)普遍討論和關(guān)注呢？

第一個(gè)原因就是上文我們所討論的，大模型的原生能力遇到了天花板，但人們對AI在現(xiàn)實(shí)生活中的期待卻越來越高。

另一個(gè)原因是，隨著多模態(tài)時(shí)代的到來，讓我們第一次有能力訓(xùn)練“真正的世界模型”。訓(xùn)練世界模型需要海量的視覺與動(dòng)作數(shù)據(jù)、多模態(tài)傳感器輸入、大規(guī)模視頻模型能力以及足夠強(qiáng)的算力來支持“世界推演”，這些條件直到最近幾年才逐步成熟。

總得來說，因?yàn)榇竽Ｐ偷奶旎ò逡呀?jīng)顯現(xiàn)，而且全行業(yè)都在邁向具身智能，再加上我們現(xiàn)在有了讓AI看世界、理解世界的技術(shù)基礎(chǔ)，世界模型就順理成章地成為了下一輪AI競賽的核心舞臺。而這些嘗試，很快在行業(yè)里分成了幾條不同的技術(shù)流派。

當(dāng)前推進(jìn)世界模型的主要路線

雖然世界模型的最終目標(biāo)看起來是相對清晰的，但落實(shí)在實(shí)踐探索層面，卻常常會讓人感到困惑。比如有的在做視頻生成，有的在做3D場景，有的在做機(jī)器人，有的在做智能體，它們都叫做世界模型，但在做的事情似乎完全不同。

我們究竟應(yīng)該怎么去理解，現(xiàn)在整個(gè)行業(yè)到底在做些什么？

關(guān)于這個(gè)問題，我們的嘉賓Yiqi結(jié)合世界模型的理論知識以及她在Meta的一些實(shí)踐觀察，在采訪中提出了一個(gè)我們認(rèn)為非常有幫助于大家理解的框架，就是把整個(gè)世界模型領(lǐng)域拆解成“三層結(jié)構(gòu)”，在這個(gè)架構(gòu)中：

底層，是世界模型的思想與范式。也就是我們之前所討論的，世界模型的抽象、預(yù)測、規(guī)劃特征，以及它要解決的問題。這一層涉及到目前很多研究層面的創(chuàng)新。

第二層，是世界模型的當(dāng)前的“表現(xiàn)形式”。指模型到底是用什么方式來表示世界和預(yù)測世界，世界應(yīng)該如何被生成出來。

第三層，是世界模型的“目的層”，也就是智能體訓(xùn)練，讓AI最終能在這個(gè)世界里行動(dòng)、做任務(wù)、完成決策。

Yiqi Zhao Product Design Lead, Meta Latent MDP（潛在狀態(tài)表示）+Learn Dynamics（環(huán)境動(dòng)力學(xué)模型）+Simulator（內(nèi)部模擬能力），這三者結(jié)合起來就是底層的世界模型核心層級，但是它是抽象的、不可見的。如果要讓人和AI看到，需要有一個(gè)表現(xiàn)形式，這個(gè)表現(xiàn)形式需要AI幫忙生成，所以生成的層級會比它之前的層級稍微高一點(diǎn)。

等生成完了之后，AI大腦里有了世界觀，就可以看到這個(gè)世界了。那接下來這個(gè)世界里需要有東西，讓人和AI智能體都要活在里面。所以智能體在里面存在的方式就是：我終于有一個(gè)宇宙了，我要在里面玩、學(xué)習(xí)，要對這個(gè)世界造成影響，和這個(gè)世界有一個(gè)交互，互相產(chǎn)生影響。

世界模型的表現(xiàn)形式：世界生成

如果我們把當(dāng)前產(chǎn)業(yè)界的主要嘗試放在這個(gè)框架中去看的話，它們其實(shí)很多都聚焦在第二層級：世界生成。這也是目前整個(gè)領(lǐng)域最熱鬧的地方。

Chapter4.1 為什么要先做世界生成

很多研究者認(rèn)為，構(gòu)建世界模型的第一步不是讓AI直接“推理”或“行動(dòng)”，而是讓它能夠去“生成世界”，這看似簡單，卻是世界模型的根基。

所謂“理解世界”，本質(zhì)是理解世界如何隨時(shí)間和行為變化。物體如何移動(dòng)、光線如何變化、風(fēng)吹過樹葉會發(fā)生什么，要獲得這種對“世界演化”的直覺，最直接的方式就是讓模型先能夠生成一個(gè)可連續(xù)變化的世界。

此外，強(qiáng)大的世界生成模型能為智能體提供廉價(jià)的訓(xùn)練場。比如訓(xùn)練一個(gè)機(jī)器人倒咖啡，讓它在現(xiàn)實(shí)中倒幾萬次、打碎幾千個(gè)杯子顯然性價(jià)比太低，而地震、火災(zāi)、車禍這些邊緣場景也可以在虛擬世界中自由進(jìn)行反事實(shí)推理的實(shí)踐。

因此，世界生成既是世界模型的外殼，也是整個(gè)體系的入口。而在世界生成這件事情上，目前主要有兩大技術(shù)路線：

第一類，用“視頻生成”的方式去重建世界，包括OpenAI Sora、谷歌的Genie等。

第二類，用“3D空間生成”的方式去顯式建模世界，其中的代表是李飛飛的World Labs。

Chapter4.2 視頻生成路線

視頻生成應(yīng)該是目前最具代表性的、也是最為大眾所熟悉的世界模型路線。它的目標(biāo)很直觀，就是嘗試讓AI直接生成一個(gè)“能動(dòng)起來的世界”，并讓這個(gè)世界隨著時(shí)間流動(dòng)、演化、變化。

OpenAI在發(fā)布Sora之初，它們就將其定義為一個(gè)“世界模擬器”。Sora并不是簡單地把一段視頻用靜態(tài)圖像一張張“拼出來”，而是讓畫面里的事物能夠隨著時(shí)間連續(xù)地演化。這些視頻細(xì)節(jié)之所以令人震撼，是因?yàn)槿藗儼l(fā)現(xiàn)，模型似乎開始真的“理解”了事物變化的背后規(guī)律，它知道光線在材質(zhì)上如何變化，知道一個(gè)物體在受到外力后該怎樣移動(dòng)。而目前與Sora類似的，還有Seedance、Veo、Kling等一系列視頻生成模型。

如果說Sora等模型是能夠去“播放一個(gè)世界”，Google的Genie系列模型則是讓我們能去“探索一個(gè)世界”。在Genie 3中，模型能夠根據(jù)用戶的文本或圖像提示，實(shí)時(shí)生成可供用戶及智能體進(jìn)行互動(dòng)的虛擬環(huán)境。相比前代產(chǎn)品，Genie 3的核心突破在于“實(shí)時(shí)交互性”和“長時(shí)間一致性”，用戶可以跟模型進(jìn)行長達(dá)數(shù)分鐘的互動(dòng)。

Yiqi Zhao Product Design Lead, Meta Genie 3跟傳統(tǒng)的視頻生成模型很不同的一點(diǎn)在于，它生成出來的內(nèi)容，你是可以跟它實(shí)時(shí)交互的。你生成出來的內(nèi)容，比如黑板上寫了字，我走到別的地方回來之后這個(gè)字它還在黑板上。說明它雖然還是有frame by frame（逐幀生成）的生成方式，但是它已經(jīng)能夠記住世界里面的這些狀態(tài)。

Genie 3的這種可控性，意味著模型內(nèi)部不再只是預(yù)測下一幀是什么，而是已經(jīng)在模擬“未來的世界狀態(tài)”。它讓視頻生成從“播放”走向“交互”，開始從“電影式生成”走向“游戲式模擬”，更接近一個(gè)真正的“世界引擎”，也更接近智能體將來需要使用的環(huán)境。

就在今年1月，谷歌還推出了基于Genie 3打造的實(shí)驗(yàn)室原型Project Genie，首次將Genie 3的能力第一次封裝成為了一個(gè)“人人都可以直接上手體驗(yàn)”的產(chǎn)品形態(tài)。它的強(qiáng)大在于多模態(tài)的深度協(xié)同：由Gemini提供邏輯支撐，Nano Banana Pro生成高精度的場景與角色，再由核心引擎Genie 3將靜態(tài)設(shè)計(jì)“激活”為可互動(dòng)的3D世界。依托TPU v5的算力，Project Genie實(shí)現(xiàn)了720p/24fps的實(shí)時(shí)環(huán)境渲染，同時(shí)允許用戶對同一個(gè)世界進(jìn)行“重新混剪”，具有長達(dá)60秒的強(qiáng)一致性記憶。

Project Genie的發(fā)布意味著“世界模型”或許開始真正從PPT走進(jìn)現(xiàn)實(shí)，它不再只是個(gè)會“變魔術(shù)”的算法，而是通過一句話就能“變”出一個(gè)可運(yùn)行的小型游戲世界的生產(chǎn)力工具。

從行業(yè)視角來看，視頻生成路線有一個(gè)非常明顯的優(yōu)勢就是它的結(jié)果“看得見”。我們能直接觀察世界模型是否具備物理一致性、是否理解時(shí)空結(jié)構(gòu)，而且它能快速商業(yè)化落地，影視、廣告、教育、游戲都能立刻使用。

從技術(shù)角度看，視頻生成的優(yōu)點(diǎn)也很突出：首先，訓(xùn)練數(shù)據(jù)相對容易獲得?；ヂ?lián)網(wǎng)上有大量真實(shí)世界視頻，為模型學(xué)習(xí)世界規(guī)律提供了訓(xùn)練空間。其次，它對Scaling Law非常敏感，模型規(guī)模越大、數(shù)據(jù)越多，視頻的一致性和物理合理性就呈指數(shù)級提升。此外，視頻數(shù)據(jù)天然包含多樣化場景，模型泛化能力也更強(qiáng)。

正因?yàn)檫@種“可觀察性”和“可規(guī)?；?xùn)練”的組合，讓視頻生成路線在過去一、兩年成為世界模型最引人注目的方向。

但視頻生成的局限也同樣明顯，最重要的一點(diǎn)是，雖然它的輸出是“顯式”的，但內(nèi)部對世界的理解是“隱式”的，我們無法直接讀取，也無法將能力直接移植到機(jī)器人或決策系統(tǒng)中。

視頻生成路線其實(shí)和大語言模型很像，兩者都是典型“scale-driven（規(guī)模驅(qū)動(dòng)）模型”。語言模型通過學(xué)習(xí)互聯(lián)網(wǎng)文本掌握語言統(tǒng)計(jì)規(guī)律，視頻模型通過學(xué)習(xí)海量視頻掌握視覺統(tǒng)計(jì)規(guī)律，區(qū)別在于：視頻數(shù)據(jù)天然包含物體運(yùn)動(dòng)、加速度、重力等物理特征，因此視頻模型能更直接地看到真實(shí)世界的運(yùn)作方式。

但和語言模型一樣，視頻模型理解的世界規(guī)律依然“藏在權(quán)重里”。語言模型預(yù)測下一個(gè)token，視頻模型預(yù)測下一幀，但都很難告訴你世界內(nèi)部的結(jié)構(gòu)是什么。比如你讓Sora生成一輛車的行駛視頻，造型和光影可能很逼真，但如果你問，這輛車的長寬高是多少？被擋住的輪胎在哪里？它答不上來。因?yàn)镾ora并沒有構(gòu)建一個(gè)3D的幾何車輛模型，它只是學(xué)到了像素組合的概率分布。

Chapter4.3 3D生成（空間智能）路線

所以視頻生成雖然是目前最直觀、最能應(yīng)用落地的一步，但它目前也只是畫出了世界的一層皮，但還缺少有血有肉的框架。那如何才能勾勒出世界表層下的框架呢？

李飛飛提出的思路是：3D生成，也就是空間智能。

與視頻生成相比，3D生成路線走的是一條截然不同的技術(shù)選擇，不是把世界畫出來，而是把世界建出來。這也是李飛飛領(lǐng)導(dǎo)創(chuàng)建的World Labs目前的技術(shù)路線。它們不追求畫面有多逼真或“電影級”連續(xù)性，而是更關(guān)注世界的結(jié)構(gòu)，包括物體在哪里？空間的幾何關(guān)系是什么？物體之間如何相互影響？生成的世界是否能被“進(jìn)入”與“操作”？

WorldLabs最新發(fā)布的模型叫Marble，它的特點(diǎn)是給它一個(gè)語言指令、一張照片或視頻，就能通過高斯?jié)姙R技術(shù)重建出完整的3D場景結(jié)構(gòu)。簡單來說，Marble就像建筑師，看到圖片時(shí)不只看到“像素”，而是看到背后的三維結(jié)構(gòu)。比如你同樣問它圖片里汽車的長寬高，它能回答出是長4.5米、寬1.8米，還能輸出3D網(wǎng)格文件。

為什么李飛飛如此強(qiáng)調(diào)3D呢？因?yàn)樗J(rèn)為真正的世界就不是2D的，而是3D的，AI必須理解空間，才能理解世界。人類能抓住物體、避開障礙、記住空間，是因?yàn)槲覀兲焐邆錁?gòu)建3D模型的能力。機(jī)器人要抓取物體需要知道形狀、體積、位置，自動(dòng)駕駛要理解空間和距離，這些都不是二維像素能表達(dá)的。AI要真正進(jìn)入現(xiàn)實(shí)世界，首先要知道“世界的三維結(jié)構(gòu)”。

從技術(shù)層面看，3D生成路線有個(gè)巨大優(yōu)勢：與視頻模型的“隱式物理直覺”不同，它生成的是顯式結(jié)構(gòu)，模型知道每個(gè)物體的具體位置，因此物理模擬、規(guī)劃、控制都更容易實(shí)現(xiàn)。一旦掌握這些顯式信息，它就能繼承傳統(tǒng)物理引擎的優(yōu)勢，確保碰撞、遮擋、施力等表現(xiàn)嚴(yán)格正確，成為“可操作世界模型”的底座。

此外，3D生成在游戲、影視制作、室內(nèi)設(shè)計(jì)等場景也能快速落地，讓它能夠在商業(yè)轉(zhuǎn)化上具有優(yōu)勢。不久前，Worldlabs宣布了最新一輪10億美元的融資，估值達(dá)到了50億美元，短短一年半時(shí)間，它的估值飆升了5倍之多，一定程度上也反映了市場對于“3D生成”這條路線潛力的認(rèn)可。

雖然3D生成對世界模型的發(fā)展具有巨大的戰(zhàn)略意義，但它的實(shí)現(xiàn)難度也要比視頻生成大很多：

首先是訓(xùn)練數(shù)據(jù)稀缺。互聯(lián)網(wǎng)是巨大的2D視頻礦山，但3D數(shù)據(jù)卻很少。高質(zhì)量3D數(shù)據(jù)主要靠LiDAR、結(jié)構(gòu)光掃描儀等專業(yè)設(shè)備采集，不僅設(shè)備貴，流程還繁瑣，標(biāo)注成本也比2D高出一個(gè)量級。

其次是幾何結(jié)構(gòu)難建。3D模型需要確保生成的物體封閉、無穿模、無破損，而預(yù)測柔體、流體、鏈?zhǔn)脚鲎驳葟?fù)雜3D動(dòng)態(tài)交互則難度更大。

最后是對算力需求很大。無論是訓(xùn)練中的3D渲染還是實(shí)時(shí)物理模擬，計(jì)算量都遠(yuǎn)超2D模型，直接推高了研究門檻。

胡淵鳴 Meshy AI CEO 我們?nèi)绻梢粡?024x1024分辨率的圖片，大約一百萬個(gè)像素。但是如果要生成一個(gè)3D的模型，最大的挑戰(zhàn)就是多出來一個(gè)新的維度，就不太可能直接用1024x1024x1024分辨率這樣的表示方式去做，計(jì)算量實(shí)在是太大了，所以大家就發(fā)明了很多新的創(chuàng)造性方法：比如Meshy用的技術(shù)路線，是基于擴(kuò)散模型或者自回歸模型，通常先生成一個(gè)低分辨率版本的模型，然后再去把它Upscale（上采樣）。在Upscale（上采樣）的過程中，就會發(fā)現(xiàn)有一些區(qū)域不屬于我們關(guān)心的范圍，所以在這種情況下，我們就可以把計(jì)算量集中在我們特別關(guān)心的區(qū)域。

總結(jié)來說，3D生成路線能夠更加真實(shí)地去還原世界，但它實(shí)現(xiàn)難度更大、成本更高。

不過我們以上討論的其實(shí)都是如何把世界生成出來，但光有生成，還遠(yuǎn)遠(yuǎn)不夠，因?yàn)槭澜缒Ｐ偷恼嬲哪繕?biāo)不是去生成一個(gè)世界，而是要讓AI在這個(gè)世界里行動(dòng)。

世界模型的目的：智能體訓(xùn)練

如果“世界生成”是為了讓AI看見世界、重建世界，“智能體訓(xùn)練”就是要讓AI能在這個(gè)世界里“做事”，從“世界長什么樣”走向“我能在這個(gè)世界里做什么”。目前，業(yè)界主要有兩種探索路線。

Chapter5.1 基于虛擬世界訓(xùn)練路線——SIMA

第一條路線，就是直接把世界生成模型當(dāng)成“訓(xùn)練環(huán)境”，讓AI在虛擬生成的世界里不斷去犯錯(cuò)、探索、總結(jié)，最終學(xué)會一套可以遷移到真實(shí)世界的能力，這一類的代表是Google SIMA。

SIMA的思路非常直接：既然現(xiàn)實(shí)世界太復(fù)雜、真實(shí)的訓(xùn)練太昂貴，那我們就用虛擬世界來教AI如何行動(dòng)，而游戲就成為了它最佳的訓(xùn)練場。視頻游戲作為復(fù)雜、可交互、實(shí)時(shí)反饋的環(huán)境，一直是AI發(fā)展的搖籃，從早期的Atari到AlphaStar在《星際爭霸II》中打到世界前0.2%，DeepMind一直用游戲訓(xùn)練更智能的AI。

而SIMA的訓(xùn)練方式就是把AI放進(jìn)很多不同類型的游戲環(huán)境里去“練級”。最新的SIMA 2還將Gemini嵌入內(nèi)核，并首次使用Genie 3生成的游戲世界進(jìn)行了訓(xùn)練。

SIMA 2展現(xiàn)出幾個(gè)令人矚目的能力突破：

首先，它不僅能“跟指令做事”，還能“自己思考”。它可以理解復(fù)雜、多步、抽象的任務(wù)，在陌生環(huán)境中自主探索、規(guī)劃行動(dòng)、尋找解決方案。

其次，它具有強(qiáng)大的“泛化能力”，能在從未見過的游戲環(huán)境中表現(xiàn)出色。比如在Genie實(shí)時(shí)生成的世界中仍能合理辨別方向、理解指令、采取有意義的行動(dòng)。此外，SIMA 2被設(shè)計(jì)為能跨游戲、跨環(huán)境執(zhí)行任務(wù)的通用AI智能體，這也為將來的具身機(jī)器人遷移奠定了基礎(chǔ)。

SIMA想做的事情，顯然比“玩游戲”本身更大。游戲只是現(xiàn)實(shí)世界的縮影，它最終想要實(shí)現(xiàn)的，是讓AI能在任何3D世界里行動(dòng)、探索、推理、解決問題。然而對于這個(gè)目標(biāo)，不是所有研究者都認(rèn)為“要行動(dòng)，就必須先生成一個(gè)世界”。以Yann LeCun代表的另一派，就選擇了一條完全不同的路線。

Chapter5.2 直接學(xué)習(xí)世界的抽象結(jié)構(gòu)——JEPA

Yann LeCun實(shí)現(xiàn)世界模型的思路是：不用去把世界“畫”出來，而是讓AI直接去學(xué)習(xí)世界的抽象結(jié)構(gòu)。

在他看來，不管是生成圖片、生成視頻，還是生成3D世界，生成式模型都有一個(gè)共同的問題：消耗了大量算力去“畫細(xì)節(jié)”，卻未必真正理解了世界的結(jié)構(gòu)。比如人類學(xué)習(xí)走路時(shí)，我們只需要知道：地面在哪里，障礙物在哪里，下一步該往哪走。

理解世界的結(jié)構(gòu)，比生成世界的外觀更重要。這正是Yann LeCun所提出的JEPA（Joint Embedding Predictive Architecture，聯(lián)合嵌入預(yù)測架構(gòu)）理論的核心思想。JEPA不預(yù)測圖像、不預(yù)測像素，也不重建視覺內(nèi)容，它做的事情是把真實(shí)世界壓縮成一個(gè)抽象的、高維的潛在表示，然后在這個(gè)潛在空間里進(jìn)行預(yù)測。預(yù)測的目標(biāo)可以是空間上被遮擋的區(qū)域，也可以是時(shí)間上的后續(xù)狀態(tài)。

我們來舉個(gè)簡單的例子：如果你輕輕推一個(gè)球，視頻模型要預(yù)測的是下一幀里球的位置、陰影、光照、材質(zhì)反射。但JEPA不關(guān)心這些，它只關(guān)心球會往哪個(gè)方向滾，速度會怎么變，會不會撞到障礙物，哪些變化與任務(wù)和決策相關(guān)。它學(xué)習(xí)的是未來的結(jié)構(gòu)，而不是未來的畫面。

JEPA的基本結(jié)構(gòu)可以拆成三件事：首先，用Encoder（編碼器）將視覺和動(dòng)作壓縮成抽象表征，然后用Predictor（預(yù)測器）預(yù)測這些抽象狀態(tài)在未來如何變化，最后將預(yù)測結(jié)果與真實(shí)未來狀態(tài)的編碼進(jìn)行對齊，讓模型學(xué)會捕捉世界的關(guān)鍵因果結(jié)構(gòu)。

基于JEPA架構(gòu)，Yann LeCun在Meta也先后發(fā)布了I-JEPA和V-JEPA，前者讓AI理解靜態(tài)圖像的結(jié)構(gòu)，后者則讓AI學(xué)習(xí)視頻中世界隨時(shí)間變化的規(guī)律。

JEPA的路線背后，有非常重要的技術(shù)動(dòng)機(jī)：

首先，生成像素既昂貴又低效，而絕大多數(shù)像素信息與行動(dòng)決策無關(guān)。JEPA不“畫世界”，因此計(jì)算成本更低。

其次，由于只保留關(guān)鍵結(jié)構(gòu)信息，JEPA更容易捕捉因果關(guān)系，也更具跨場景、跨任務(wù)的泛化能力。

更重要的是，這種抽象、結(jié)構(gòu)化的世界表示，更接近機(jī)器人和具身智能真正需要的“可操作世界”。比如對于機(jī)器人來說，它不需要知道物體的光影紋理，它只需要知道物體的可達(dá)性、跟自己的位置關(guān)系以及下一步該做什么，而JEPA的輸出的就是這種結(jié)構(gòu)化的抽象信息。

早在幾年前，Yann LeCun就已經(jīng)在為JEPA路線搖旗吶喊了，但它至今仍然未能成為世界模型的研究的主流，因?yàn)镴EPA路線在實(shí)際推進(jìn)中面臨了很多現(xiàn)實(shí)問題：

首先，它是“不可見的”。Sora能用逼真的畫面震撼所有人，Genie可以生成可探索的游戲世界，WorldLabs能用3D場景告訴你“我理解了空間結(jié)構(gòu)”。但JEPA學(xué)到的所有東西，都藏在一個(gè)抽象的潛在空間里，這意味著我們難以直接看到和驗(yàn)證模型到底“理解了什么”。

其次，它的自監(jiān)督目標(biāo)極難設(shè)計(jì)。JEPA不像視頻生成那樣有現(xiàn)成的目標(biāo)，你給它一幀讓它預(yù)測下一幀，JEPA想預(yù)測的是“未來的結(jié)構(gòu)”。但什么才是“結(jié)構(gòu)”？哪些因素該保留、哪些該忽略？目前仍沒有統(tǒng)一答案。

最后，缺乏統(tǒng)一的評估和規(guī)?；七M(jìn)體系。JEPA的表征質(zhì)量藏在潛在空間里，研究社區(qū)多依賴下游任務(wù)或行為表現(xiàn)來評估模型，缺乏類似圖像生成或語言模型那樣統(tǒng)一的benchmark（基準(zhǔn)指標(biāo)），這也使不同設(shè)計(jì)路線之間的效果比較變得更加困難。正因?yàn)檫@些限制，JEPA更像一個(gè)“世界模型的前額葉原型”，方向很可能是對的，但距離成熟落地還仍然有一段距離。

到這里，我們把世界模型最核心的幾條技術(shù)路線都梳理了一遍：有人用視頻把世界“畫”出來；有人用 3D 把世界“搭”出來；有人在虛擬世界里訓(xùn)練行動(dòng)智能；也有人干脆不畫世界，想讓AI直接學(xué)習(xí)世界的結(jié)構(gòu)。

當(dāng)然，還有一些我們沒有展開的路線：比如Dreamer這一類以動(dòng)力學(xué)為核心的世界模型更專注于控制與想象；有的試圖從物理規(guī)律出發(fā)，用可微分模擬器去逼近真實(shí)世界；也有越來越多工作，正在模糊世界模型、預(yù)測模型與決策模型之間的邊界。

這些路線看起來方向不同，但它們正在指向同一個(gè)未來：讓AI不再只是“輸出信息”，而是真正理解世界、推理世界、在世界里行動(dòng)。

Yiqi表示，因?yàn)槟壳笆澜缒Ｐ驮诼涞貙用孢€在早期階段，并沒有看到哪一條路線具體的商業(yè)應(yīng)用形式，所以包括Meta在內(nèi)的大廠們，實(shí)際是在各個(gè)路線上都在做布局和研究。

Yiqi Zhao Product Design Lead, Meta Meta在世界模型的路線上，不同的技術(shù)路線全部都做了，主要是因?yàn)樗挠脩魣鼍昂痛怪眻鼍暗男枨蟛煌?。所以為游戲服?wù)的我們就做了AI游戲引擎，叫做Meta Horizon Studio。為內(nèi)容創(chuàng)作來服務(wù)，我們就做了純視頻方向的。為了數(shù)字重建和3D重建，我們就做了高斯?jié)姙R的方式。所以我們希望能夠把方方面面的需求都概括進(jìn)去，各種場景都適用，我相信其他公司也是這樣想的。

不過可以預(yù)見的是，當(dāng)世界模型真正成熟，對產(chǎn)業(yè)帶來的改變，絕對不會只是讓“視頻生產(chǎn)效率更高”這么簡單，它將是一次橫跨軟件、硬件、制造、娛樂等眾多行業(yè)的系統(tǒng)性沖擊。

世界模型會改寫哪些關(guān)鍵行業(yè)？

Chapter6.1 機(jī)器人

如果說有哪個(gè)行業(yè)，會最直接地被世界模型撬動(dòng)，那一定是機(jī)器人行業(yè)。

過去幾十年，機(jī)器人的發(fā)展受制于硬件、算力和應(yīng)用場景等多重因素。但更深層、也更關(guān)鍵的瓶頸在于它們還不“懂”世界，因此難以實(shí)現(xiàn)跨環(huán)境的遷移和泛化。今天的絕大多數(shù)機(jī)器人看起來很厲害，但它們做的一切，本質(zhì)上都是“被編程好的動(dòng)作”，所以只要環(huán)境稍微變化，它們就會立刻“失能”。

機(jī)器人行業(yè)過去一直難以擴(kuò)張的原因就在于：每一項(xiàng)新任務(wù)，都意味著一次新的工程項(xiàng)目。

而世界模型帶來的，是讓機(jī)器人擁有“世界的內(nèi)部模型”。它能看到現(xiàn)在，也能預(yù)測未來，知道物體怎么動(dòng)，也能推斷自己的動(dòng)作會產(chǎn)生什么后果。它能先在腦子里模擬，再決定要不要執(zhí)行。

比如它可以模擬箱子會不會翻倒、門把的角度能否順利轉(zhuǎn)動(dòng)、路徑是否足夠安全、抓取是否會失敗。過去要花工程師幾十小時(shí)調(diào)參的任務(wù)，現(xiàn)在機(jī)器人在模擬世界里自主練習(xí)就能掌握。

更重要的是，機(jī)器人開始具備遷移能力。它不需要每次換一個(gè)物體、換一個(gè)場景、換一個(gè)任務(wù)都重新示教一遍，它能把內(nèi)部模型里學(xué)到的規(guī)律遷移到現(xiàn)實(shí)世界。盡管仿真到現(xiàn)實(shí)的遷移至今仍是一個(gè)開放難題，世界模型有望大幅降低這道門檻，讓機(jī)器人面對從未見過的物品時(shí)，仍然能做出合理決策。

這對機(jī)器人來說是一次范式級的改變。無論是家庭服務(wù)機(jī)器人、倉儲機(jī)器人、工廠協(xié)作機(jī)器人、餐飲零售機(jī)器人，還是專業(yè)級的巡檢、建筑、醫(yī)療輔助手臂，世界模型都可能成為它們跨過智能門檻的那把鑰匙。

Chapter6.2 自動(dòng)駕駛

大約從5年前開始，馬斯克就開始講L5要來了，但為什么時(shí)至今天，L5級的自動(dòng)駕駛依然沒有全面普及？背后原因之一就在于：系統(tǒng)雖然“看得見世界”，卻還難以真正預(yù)測世界。

我們現(xiàn)在常說的L2、L3自動(dòng)駕駛，本質(zhì)上依賴的仍然是“感知—預(yù)測—規(guī)劃”的分層體系：識別車、人、車道線、交通燈，再通過規(guī)劃系統(tǒng)給車輛下指令。

特斯拉更強(qiáng)調(diào)用大規(guī)模真實(shí)道路數(shù)據(jù)，通過端到端方式不斷逼近人類駕駛。而Waymo則長期在高度結(jié)構(gòu)化的系統(tǒng)中，追求可驗(yàn)證的安全性。但無論是哪種路線，都面臨一個(gè)共同的問題：它們對“現(xiàn)在”的感知已經(jīng)很強(qiáng)，卻很難穩(wěn)定地理解“接下來會發(fā)生什么”。

再加上極端天氣、突發(fā)事故、不規(guī)范行人等長尾場景在真實(shí)道路中極其稀少，也成為制約自動(dòng)駕駛規(guī)?；年P(guān)鍵瓶頸。

而這正是世界模型開始真正進(jìn)入工程體系的地方。比如Waymo在最近的技術(shù)博客中提出，他們正在將自動(dòng)駕駛系統(tǒng)的核心，構(gòu)建為一個(gè)Foundation model（基礎(chǔ)模型），它采用了“分段式端到端”的架構(gòu)，內(nèi)部可以進(jìn)行端到端訓(xùn)練和反向傳播，同時(shí)又保留了對世界的結(jié)構(gòu)化表達(dá)。這個(gè)模型不只是完成單一任務(wù)，而是學(xué)習(xí)“世界如何運(yùn)轉(zhuǎn)”，它被要求輸出物體、語義屬性和道路結(jié)構(gòu)等中間表征，讓系統(tǒng)在出錯(cuò)時(shí)，能夠定位問題出在世界理解的哪一層。

這些結(jié)構(gòu)化世界信息，也支撐起更高質(zhì)量的仿真系統(tǒng)：不僅還原場景，還能在不同假設(shè)下預(yù)測交通參與者的行為，并在內(nèi)部同時(shí)推演大量可能的決策路徑，從中篩選出最安全、最穩(wěn)定的一條。這不再只是“識別”，也不只是“反應(yīng)”，而是讓自動(dòng)駕駛系統(tǒng)開始具備一種接近人類駕駛的預(yù)判能力。

也正因?yàn)槿绱?，世界模型被認(rèn)為是推動(dòng)自動(dòng)駕駛從局部可用，走向可驗(yàn)證、安全的大規(guī)模商業(yè)化落地的核心技術(shù)之一。

Chapter6.3 穿戴式設(shè)備

如今我們所熟知的可穿戴設(shè)備，本質(zhì)上還是停留在記錄層面，看上去很智能，但實(shí)際上卻并不理解你周圍的環(huán)境。而世界模型會讓這一切發(fā)生質(zhì)變：

一方面，它能讓設(shè)備真正讀懂你的3D世界，實(shí)時(shí)推斷空間結(jié)構(gòu)、物體關(guān)系和潛在風(fēng)險(xiǎn)，把數(shù)字內(nèi)容自然融合進(jìn)現(xiàn)實(shí)環(huán)境。另一方面，它的預(yù)測和規(guī)劃能力，會讓可穿戴設(shè)備從工具變成你的“數(shù)字伙伴”。理解你在什么環(huán)境、看什么、可能要做什么，比如提前提醒路面濕滑，在廚房識別缺少的食材，甚至在你開口前就意識到你需要幫助。

從更長遠(yuǎn)看，這不只是設(shè)備升級，更是一種新的“人機(jī)關(guān)系”，世界模型會讓可穿戴設(shè)備，從“信息終端”變成隨身的“世界理解引擎”，眼鏡、耳機(jī)、手表，都可能進(jìn)化為與你共同生活、共同行動(dòng)的智能體。而這，也可能會是下一代計(jì)算平臺的起點(diǎn)。

Chapter6.4 內(nèi)容生成、游戲與影視制作

如果說機(jī)器人、自動(dòng)駕駛等“具身智能”是世界模型在現(xiàn)實(shí)世界的落地，內(nèi)容相關(guān)的產(chǎn)業(yè)，就是世界模型在“想象世界”里的爆發(fā)奇點(diǎn)。

如今我們已經(jīng)看到視頻生成模型所帶來的一些震撼效果，而世界模型的到來，可以讓未來的內(nèi)容創(chuàng)作只需要給一個(gè)世界觀、一個(gè)任務(wù)、一個(gè)初始狀態(tài)，模型就能自動(dòng)“長出一個(gè)世界”。比如在影視行業(yè)，一個(gè)導(dǎo)演不需要去反復(fù)搭景、重拍、做模型，只需要定義“這是一座被雨水淹沒的城市”，AI就能生成整個(gè)城市的狀態(tài)變化。

而在游戲行業(yè)，世界模型帶來的改變更是顛覆性的。過去的游戲世界需要一磚一瓦搭建，地形、天氣、物理引擎、NPC行為、任務(wù)鏈等等條件，我們都需要數(shù)百人團(tuán)隊(duì)、花費(fèi)幾年時(shí)間，才能做出一個(gè)開放世界。但世界模型意味著游戲世界不需要“制作”，而可以自動(dòng)生成和進(jìn)化。一個(gè)設(shè)計(jì)師只需要設(shè)定規(guī)則、生態(tài)、沖突，AI就能生長出森林、河流、生物、文化、經(jīng)濟(jì)系統(tǒng)，甚至NPC的性格、記憶和演化方向。

胡淵鳴 Meshy AI CEO 大家以前玩的游戲都是靜止的游戲，所有的規(guī)則已經(jīng)被寫好了，有一個(gè)游戲設(shè)計(jì)師和游戲程序員去實(shí)現(xiàn)這個(gè)規(guī)則就可以了。但是如果我們在游戲場景當(dāng)中有這種生成式AI技術(shù)，就可以實(shí)現(xiàn)游戲是on the fly（即時(shí)）生成的。比如谷歌的Genie 3，按上下左右鍵，它可以on the fly（即時(shí)）生成下一秒的東西。我們在做的事情就是，先用3D的模型，再自己做一個(gè)多模態(tài)的大模型，這個(gè)大模型可以先生成角色的外形，然后再給它加上人物邏輯，包括它的性格等等各種各樣的形式的邏輯。我們通過這條路徑也可以實(shí)現(xiàn)一個(gè)世界模型。

所以對于整個(gè)內(nèi)容行業(yè)來說，世界模型帶來的不僅僅是制作效率的提升，而是一場敘事方式、創(chuàng)作方式、內(nèi)容形式的全面重寫。

Chapter6.5 AI Agent

世界模型的到來，還會加速AI Agent的進(jìn)化。當(dāng)我們今天在聊AI Agent的時(shí)候，很多討論其實(shí)都集中在Agent能不能更聰明、規(guī)劃能力夠不夠強(qiáng)、工具調(diào)用做得好不好。但如果退一步看，會發(fā)現(xiàn)一個(gè)更底層的問題一直沒有被真正解決：Agent到底是在什么環(huán)境里學(xué)會“行動(dòng)”的？

從強(qiáng)化學(xué)習(xí)的視角看，Agent的一切能力，都來自與環(huán)境的交互：執(zhí)行動(dòng)作，接收反饋。但真實(shí)世界太昂貴、太緩慢，也太危險(xiǎn)，幾乎不可能支撐大規(guī)模試錯(cuò)。

而世界模型解決的，正是“環(huán)境”本身的問題。它通過學(xué)習(xí)真實(shí)系統(tǒng)的數(shù)據(jù)，在模型內(nèi)部構(gòu)建一個(gè)可運(yùn)行的世界，當(dāng)Agent采取行動(dòng)時(shí)，世界模型可以直接推演這個(gè)動(dòng)作可能帶來的結(jié)果。這樣Agent就可以在世界模型中進(jìn)行大規(guī)模訓(xùn)練，如果這個(gè)世界足夠接近真實(shí)，在虛擬環(huán)境中學(xué)到的能力，就可以穩(wěn)定遷移到現(xiàn)實(shí)系統(tǒng)中。

世界模型并不是讓Agent立刻變得更聰明，而是第一次為Agent提供了一個(gè)可訓(xùn)練、可試錯(cuò)、接近真實(shí)的“內(nèi)在世界”。這層世界底座，才是真正決定AI Agent能否走向現(xiàn)實(shí)世界的關(guān)鍵。

所以世界模型改變的不只是某一個(gè)行業(yè)、某一個(gè)產(chǎn)品、某一種形態(tài)，而是整套人與世界互動(dòng)的方式。陳羽北在采訪中就談到，如果世界模型真的從根本上走通了，甚至有可能創(chuàng)造出一種新的文明。

陳羽北加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授如果你能實(shí)現(xiàn)World model（世界模型），已經(jīng)包羅萬象，把這個(gè)世界所有的邏輯問題和規(guī)律都掌握了，而且不是簡單的外延，而是可以在比較根本的程度上產(chǎn)生泛化，產(chǎn)生數(shù)據(jù)、產(chǎn)生意識，產(chǎn)生到超越人類的程度。那在給予一定意識的情況下，這個(gè)模型似乎已經(jīng)具備了建立一個(gè)新的文明的能力。

世界模型的潛在風(fēng)險(xiǎn)

當(dāng)然，任何足以改變技術(shù)版圖的突破都會帶來新的風(fēng)險(xiǎn)。而世界模型的風(fēng)險(xiǎn)，不再只是“胡說八道”那么簡單：

首先，是更隱蔽、也更危險(xiǎn)的模型幻覺。無論哪條路線，世界模型本質(zhì)上都是在給AI構(gòu)建一個(gè)高度逼真的“夢境”，讓它在其中模擬和推演。但虛擬世界永遠(yuǎn)無法完全覆蓋真實(shí)世界，始終存在Sim-to-Real Gap（虛實(shí)差異）。語言模型的幻覺是編造事實(shí)，視頻模型的幻覺是畫面錯(cuò)誤。而世界模型的幻覺，出現(xiàn)在整個(gè)“世界結(jié)構(gòu)”里，比如誤判物體重量、高估動(dòng)作可行性、低估碰撞后果，甚至構(gòu)建了錯(cuò)誤的因果關(guān)系。

這些問題不一定立刻被察覺，卻會直接影響智能體的決策與行動(dòng)，進(jìn)而導(dǎo)致機(jī)器人失常、自動(dòng)駕駛偏離，甚至關(guān)鍵系統(tǒng)被系統(tǒng)性誤導(dǎo)。所以當(dāng)世界模型出現(xiàn)幻覺，錯(cuò)誤將是“系統(tǒng)級”的，這也是更難發(fā)現(xiàn)、更難對齊的風(fēng)險(xiǎn)。

其次，是世界模型帶來的權(quán)力集中問題。未來可能只有極少數(shù)機(jī)構(gòu)具備構(gòu)建和運(yùn)行世界模型的能力，而成熟的世界模型，意味著前所未有的預(yù)測能力。對市場、社會行為、群體反應(yīng)的高精度推演，可能帶來新的信息壟斷，也可能被用于更高效的社會操控與商業(yè)操縱。

更重要的是，當(dāng)世界模型越來越真實(shí)，虛擬與現(xiàn)實(shí)的邊界會越來越模糊，“自主智能體”的到來也加大了AI不受控的風(fēng)險(xiǎn)。

一旦AI真正理解并模擬世界，深度偽造與虛假場景將進(jìn)入“超真實(shí)”階段，AR/VR世界可能與現(xiàn)實(shí)幾乎無差，甚至更具吸引力。與此同時(shí)，當(dāng)越來越多真實(shí)系統(tǒng)開始依賴這些模型，現(xiàn)實(shí)世界本身，也可能反過來“對齊”模型的假設(shè)。而當(dāng)世界模型變成決策底座，內(nèi)部狀態(tài)難以審計(jì)、推理過程不可見，我們甚至很難判斷它究竟“理解”了什么、在朝什么方向演化，這也意味著，它所帶來的監(jiān)管挑戰(zhàn)，將遠(yuǎn)高于今天的大模型。

所以，世界模型潛力巨大，但帶來的風(fēng)險(xiǎn)也比我們過去面對的任何AI技術(shù)都更危險(xiǎn)。它不只是內(nèi)容層面的風(fēng)險(xiǎn)，而是會真的影響現(xiàn)實(shí)世界。

當(dāng)AI不只是看世界、畫世界，而是開始在現(xiàn)實(shí)中推演、行動(dòng)、做決定，我們需要從系統(tǒng)、對齊、倫理、監(jiān)管所有層面重新討論這件事。

AI的下一段旅程

過去一、兩年，我們看到了AI在語言、圖像、視頻上的極速爆發(fā)，仿佛一夜之間，AI已經(jīng)無所不能。但當(dāng)你開始思考，AI是否真的理解世界，是否能預(yù)測未來，是否能像人類一樣在世界中行動(dòng)？你會發(fā)現(xiàn)，現(xiàn)在的大模型其實(shí)還仍然停留在“表層智能”的階段。而世界模型，向我們提供了真正走向“深層智能”的可能。

它讓AI從“看到世界”走向“理解世界”，從“預(yù)測句子”走向“預(yù)測未來”，從“生成畫面”走向“在世界里行動(dòng)”。這不僅會改變機(jī)器人、制造業(yè)、自動(dòng)駕駛、內(nèi)容產(chǎn)業(yè)，也會改變我們和數(shù)字世界的關(guān)系，甚至改變我們對“智能”本身的理解。

當(dāng)然，世界模型的道路還很長。它面臨巨大的技術(shù)挑戰(zhàn)，也伴隨新的風(fēng)險(xiǎn)。目前我們?nèi)匀徊恢滥囊粭l路線會最終勝出，但我們知道的是：當(dāng)AI能夠真正理解世界、模擬世界、在世界里試錯(cuò)和行動(dòng)時(shí)，它離“通用智能”，也就是我們一直在尋找的那個(gè)終極目標(biāo)，又會近了一大步。而這，也許AI時(shí)代真正的拐點(diǎn),而我們現(xiàn)在，正在見證它的開端。

最后，我們還想補(bǔ)充的是，因?yàn)槭澜缒Ｐ捅旧磉€沒有一個(gè)被學(xué)界和產(chǎn)業(yè)完全統(tǒng)一的定義。所以這一期內(nèi)容，并不是想給世界模型下一個(gè)“標(biāo)準(zhǔn)答案”，而是希望從我們的視角，為大家梳理出一個(gè)理解世界模型的框架。

不同團(tuán)隊(duì)、不同方向的每一條路線背后，其實(shí)都牽涉到大量具體的技術(shù)細(xì)節(jié)、方法選擇，以及仍在快速演化的新嘗試。接下來，我們也會持續(xù)圍繞這個(gè)主題，做更深入的拆解和系列內(nèi)容，歡迎大家持續(xù)關(guān)注。

注：部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi)：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯(lián)系我們：video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制｜泓君陳茜

撰稿｜張珺玥

文稿編輯｜陳茜王梓沁

文稿支持｜Kolento

主持｜陳茜

剪輯｜Jacob

動(dòng)效｜踹 AK12

運(yùn)營｜孫澤平王梓沁

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.