国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全面解析“世界模型”:定義、路線、實(shí)踐與AGI的更近一步

0
分享至

撰稿 :張珺玥

如今的AI看起來似乎“無所不能”:能寫深?yuàn)W的論文、復(fù)雜的代碼,做出頂級的畫面和視頻。然而,它仍然缺乏理解世界、預(yù)測世界以及在世界里推演并行動(dòng)的能力。

而為了解決這個(gè)問題,OpenAI、谷歌、微軟等大公司,Yann LeCun、李飛飛等頂尖學(xué)者都開始搶著研究同一件事,那就是——世界模型。


不少AI科學(xué)家認(rèn)為,隨著多模態(tài)走向普及和成熟,如果這條技術(shù)線完全跑通,它將徹底重塑整個(gè)AI格局。但我們也注意到,“世界模型”的爆火也帶來了新的問題:仿佛整個(gè)AI圈,一夜之間都變成了“世界模型”:無論是做視頻生成的、做機(jī)器人的,還是自動(dòng)駕駛、游戲開發(fā)等等,只要跟“世界”沾點(diǎn)邊,幾乎都是世界模型。

世界模型到底是什么,它跟大語言模型有什么區(qū)別?這些看起來完全不同的路線,是在做同一件事嗎?世界模型的到來,又會給各行各業(yè)以及整個(gè)社會帶來什么樣的改變?以及,它會是人類通往AGI的終極密碼嗎?

這期視頻,硅谷101團(tuán)隊(duì)花了幾個(gè)月時(shí)間做了深度研究、采訪和后期特效制作,想解釋清楚這個(gè)被業(yè)界不少大佬認(rèn)為是“AI下個(gè)十年最重要的研究方向”到底是在研究啥。希望對大家理解AI最前沿的討論和研發(fā)有所幫助,內(nèi)容有點(diǎn)硬核有點(diǎn)長,大家enjoy~

(本文為視頻改寫,歡迎大家收看以下視頻)

01

什么是世界模型?

關(guān)于世界模型的定義,目前仍然還沒有一個(gè)非常清晰的、被所有人都認(rèn)可的說法。但我們可以先來聊一聊這個(gè)概念的起源,以及它究竟想解決什么事情。

先從一個(gè)再簡單不過的問題開始:你是怎么知道,一杯水放在桌邊,它可能會掉下去的呢?

科學(xué)家們認(rèn)為,人類之所以能預(yù)測杯子會掉落、門往哪邊開、球會順著斜坡滾,是因?yàn)閺暮苄〉臅r(shí)候,我們就在腦子里構(gòu)建了一個(gè)“世界怎么運(yùn)作”的模型。我們能預(yù)判下一秒會發(fā)生什么,能想象“如果我這么做,會怎么樣”,并在腦海中提前排演各種可能性,在認(rèn)知科學(xué)中,這被稱為心智模型(Mental Model)。


早在上個(gè)世紀(jì),科學(xué)家們就已經(jīng)開始研究人類的心智模型。1943年,Kenneth Craik在其著作《解釋的本質(zhì)》中就提出:人在對現(xiàn)實(shí)作出反應(yīng)之前,會先在大腦中構(gòu)建一個(gè)“小規(guī)模的世界模型”,用它來模擬可能發(fā)生的過程,再據(jù)此選擇行動(dòng)。也就是說,我們每個(gè)人腦子里,都有一個(gè)看不見的“小世界”。

既然人類智能依賴于這樣的內(nèi)部世界,很多AI研究者也開始追問:機(jī)器要想具備真正的智能,是否也需要一個(gè)屬于自己的世界?


于是,在AI和強(qiáng)化學(xué)習(xí)的早期研究中,這個(gè)思想以不同的名字反復(fù)出現(xiàn)。比如在1991年,Richard Sutton、Doina Precup和Satinder Singh在論文《An Integrated Architecture for Learning, Planning, and Reacting》中提出了后來被稱為Dyna架構(gòu)的設(shè)計(jì)思路。

Dyna的核心在于:智能體在學(xué)習(xí)行動(dòng)策略的同時(shí),也要學(xué)習(xí)model of the world。也就是,當(dāng)我采取某個(gè)動(dòng)作之后,世界會如何變化,這也是第一次將“世界模型”明確確立為智能體內(nèi)部的一項(xiàng)基礎(chǔ)能力。


在此之后,世界模型并沒有沿著單一路線發(fā)展,而是在不同研究領(lǐng)域中被不斷拆解、強(qiáng)化和改寫。比如在強(qiáng)化學(xué)習(xí)和機(jī)器人中,它體現(xiàn)為Forward Model;在自動(dòng)控制和工業(yè)系統(tǒng)中,則發(fā)展出了Model Predictive Control(模型預(yù)測控制)。


這些理論的名字雖然不同,但背后共享著同一個(gè)核心假設(shè):智能體之所以能做出更好的決策,不是因?yàn)榉磻?yīng)更快,而是因?yàn)樗茉谛袆?dòng)之前,在內(nèi)部世界中先“看到未來”。

在此后在很長一段時(shí)間里,世界模型更多停留在偏理論、偏算法的層面,直到深度學(xué)習(xí)和表示學(xué)習(xí)逐漸成熟。2018年,Google Brain的David Ha與深度學(xué)習(xí)元老級教父Jürgen Schmidhuber共同發(fā)表了論文《World Models》。這篇論文正式提出了“世界模型”(World models)這個(gè)精煉化的名稱,同時(shí)還給出了一個(gè)比較簡潔的世界模型理解框架:

世界模型=觀察世界(V)+預(yù)測世界(M)+在內(nèi)部世界中學(xué)習(xí)行動(dòng)(C,對應(yīng)的是視覺(Vision)、記憶(Memory)和控制(Controller)三個(gè)核心模塊。


我們用一個(gè)簡單的例子來解釋一下:想象你是一個(gè)從未打過乒乓球的新手,當(dāng)你站在球臺前,眼睛接收到的是大量復(fù)雜的視覺信息。視覺模塊(V)并不會記住每一個(gè)像素,而是會自動(dòng)提取出對決策真正重要的部分,它將原本上百萬像素的畫面壓縮成僅有幾十個(gè)數(shù)字的精華編碼。

記憶模塊(M)接收到這些編碼后,便立即開始內(nèi)部模擬。經(jīng)過多次練習(xí),你的大腦已經(jīng)建立起對乒乓球運(yùn)動(dòng)規(guī)律的理解。記憶模塊就像你內(nèi)心的“物理引擎”,能預(yù)測“如果我這樣做,會發(fā)生什么”。


所以,當(dāng)球飛來時(shí),視覺模塊提取特征,記憶模塊模擬方案,而控制模塊(C)就主要是在記憶模塊(M)所創(chuàng)造的“內(nèi)部世界”中進(jìn)行訓(xùn)練,你并不需要真的揮拍一百次試錯(cuò),而是在記憶模塊的“夢境”中找到最佳策略后,再在現(xiàn)實(shí)中只執(zhí)行一次最優(yōu)解。而這種“想象-規(guī)劃-行動(dòng)”的認(rèn)知過程,正是人類智能的核心特征。


在這篇論文中,他們也做出了一個(gè)有意思的demo,讓模型在完全虛擬的小世界里學(xué)會了玩一款賽車游戲,證明了AI可以像人類一樣,通過內(nèi)部世界的想象來進(jìn)行學(xué)習(xí)。

總結(jié)下來,研究者們普遍認(rèn)為世界模型應(yīng)該具有三大特質(zhì)

第一,表示世界(Representation)。模型能夠理解所處的環(huán)境里有什么、物體在哪里,以及物與物之間是什么關(guān)系。

第二,預(yù)測未來(Prediction)。它能夠?qū)κ录M(jìn)行模擬和生成,如果我推一下杯子、打開一扇門、往前走兩步,世界會發(fā)生什么樣的改變。

第三,在世界里規(guī)劃和行動(dòng)(Planning & Control)。當(dāng)能預(yù)測接下來會發(fā)生什么之后,我應(yīng)該如何采取行動(dòng)。


Yiqi Zhao Product Design Lead, Meta 它是把世界抽象到一個(gè)潛在的、被壓縮過的空間里,在這個(gè)潛在空間里,你能夠通過學(xué)到的物理規(guī)律,去做對未來的預(yù)測,形成一個(gè)對真實(shí)世界的模擬器。相當(dāng)于它是一個(gè)模擬系統(tǒng),有點(diǎn)像是一個(gè)縮小的平行宇宙。這感覺就像如果你有一個(gè)真正的AI大腦,它就擁有自己的AI世界觀。因?yàn)榭梢宰鲱A(yù)測,所以就可以去做未來的推演,就可以做決策。

世界模型的本質(zhì),就是想讓AI從一個(gè)“只會回答問題”的語言機(jī)器,走向能夠真正像人類一樣“會觀察、會推理、會行動(dòng)”的真正智能體。但是問題來了,作為一個(gè)上個(gè)世紀(jì)就開始被研究的概念,為什么突然在最近一段時(shí)間火了起來?它跟我們現(xiàn)在所熟悉的大語言模型又有什么區(qū)別或是聯(lián)系呢?

02

為什么要研究世界模型

Chapter 2.1 世界模型與大語言模型的不同


從主要任務(wù)和預(yù)測目標(biāo)來看:

  • 大語言模型的目標(biāo)是生成在語言維度上最合理的序列,預(yù)測的是下一個(gè)詞或token。比如你問“杯子會從桌子上掉下來嗎?”,它回答“會”,因?yàn)檫@是在無數(shù)文本里出現(xiàn)過的正確答案。

  • 世界模型的任務(wù)是預(yù)測下一秒世界會變成什么樣”,預(yù)測的是下一幀畫面、下一步動(dòng)作、下一次狀態(tài)變化,它需要理解物理規(guī)律、空間關(guān)系和動(dòng)態(tài)變化

從訓(xùn)練數(shù)據(jù)來看:

  • 大語言模型主要依賴文本數(shù)據(jù),也包括一些圖像和視頻,數(shù)據(jù)特點(diǎn)是以靜態(tài)內(nèi)容為主。

  • 世界模型則主要依賴視頻等動(dòng)態(tài)數(shù)據(jù),包括攝像頭看到的畫面、機(jī)器人的傳感器反饋、動(dòng)作的結(jié)果、環(huán)境的變化,數(shù)據(jù)特點(diǎn)是動(dòng)態(tài)的、時(shí)序性的。

從輸出結(jié)果看:

  • 大語言模型輸出的是語言或圖像等內(nèi)容。

  • 世界模型輸出的是對未來狀態(tài)的預(yù)測、對行為的模擬,以及可執(zhí)行的行動(dòng)方案。

從學(xué)習(xí)方式看:

  • 大語言模型是通過語言間接理解世界,更像一個(gè)“知識容器”。

  • 世界模型是通過交互和推演直接理解世界,不僅能“看見”,還能“預(yù)測”和“干預(yù)”。

因此,大語言模型更適合對話、寫作、翻譯、問答。而世界模型更適合機(jī)器人、自動(dòng)駕駛、物理模擬和決策系統(tǒng)這些必須進(jìn)入真實(shí)世界的任務(wù)。

此前,李飛飛也曾在采訪中精煉總結(jié)過兩者在目的和訓(xùn)練模態(tài)上的不同:


李飛飛 World Labs創(chuàng)始人、資深A(yù)I科學(xué)家 一種是關(guān)于表達(dá),另一種是關(guān)于觀察和行動(dòng)。因此它們本質(zhì)上是截然不同的模態(tài)。大型語言模型的基本單元是詞庫,無論是字母還是單詞,而我們使用的世界模型的基本單元是像素或體素。
Chapter2.2 大語言模型路線遇到瓶頸了嗎?

雖然大語言模型和世界模型是兩條不一樣的技術(shù)路線,但它們的終極目標(biāo)都是要實(shí)現(xiàn)通用人工智能。那么現(xiàn)在為什么要突然非常關(guān)注世界模型呢?是因?yàn)榇笳Z言模型這條路已經(jīng)走不動(dòng)了嗎?

關(guān)于這個(gè)問題,研究界目前仍然存在著不同的觀點(diǎn)。

一些研究者們旗幟鮮明地提出,大語言模型是死路,這一派的代表人物之一就是Yann LeCun。


圖片來源:Reuters

離開工作了12年的Meta后,這位65歲的圖靈獎(jiǎng)得主、深度學(xué)習(xí)先驅(qū)并沒有選擇退休,而是回到巴黎創(chuàng)立了一家名為Advanced Machine Intelligence的公司。他要做的事情,與硅谷主流的大模型路線截然不同。

他在最近的采訪中表示,AI領(lǐng)域的Moravec悖論一直存在。所謂Moravec悖論,是指AI可以輕松處理對人類極其困難的高智力任務(wù),比如下棋、微積分、讀論文。但直覺性的感知、社交等人類和動(dòng)物輕松完成的初級技能,對機(jī)器卻極其困難。Yann LeCun認(rèn)為,這個(gè)悖論至今未解決,就是因?yàn)槲覀冄芯緼I的路線錯(cuò)了。

人類智能的核心在于不依賴海量數(shù)據(jù)就能自主學(xué)習(xí),但現(xiàn)在的LLM是在擬合語言的統(tǒng)計(jì)相關(guān)性,對現(xiàn)實(shí)世界幾乎沒有直接建模能力,如果繼續(xù)沿著LLM路線“堆量”,最多只能做出一個(gè)更會說話、更會寫字的模型。


他甚至放言稱,再過5年,GPT之類的大語言模型就不會有人再用了。而關(guān)于大家都在憧憬AGI很快到來,他也認(rèn)為是一種幻想,最樂觀也要5到10年,機(jī)器的智能才能勉強(qiáng)接近一只狗。


Yann LeCun Meta前首席AI科學(xué)家、深度學(xué)習(xí)先驅(qū)、圖靈獎(jiǎng)得主 那些吹噓一兩年內(nèi)就能實(shí)現(xiàn)通用人工智能的人,純粹是癡人說夢,徹頭徹尾的妄想,因?yàn)楝F(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。你不可能通過“將世界token化”和使用大語言模型來解決這個(gè)問題,這根本不可能實(shí)現(xiàn)。

而除了Yann LeCun之外,學(xué)術(shù)界中有不少的大佬級人物也都持有類似的觀點(diǎn),比如圖靈獎(jiǎng)獲得者、強(qiáng)化學(xué)習(xí)之父Richard Sutton。


Richard Sutton 強(qiáng)化學(xué)習(xí)之父、圖靈獎(jiǎng)得主 大語言模型試圖在沒有目標(biāo)、也沒有‘好壞優(yōu)劣’這種評價(jià)標(biāo)準(zhǔn)的情況下運(yùn)作,這其實(shí)一開始就走錯(cuò)了方向。

李飛飛最近也在密集地發(fā)聲,她說大語言模型仍然是黑暗中的文字匠人:能言善辯,卻缺乏經(jīng)驗(yàn);知識淵博,卻脫離現(xiàn)實(shí)。


所以,大語言模型這條路線是不是真的走不通了呢?嚴(yán)格來說,現(xiàn)在還沒有標(biāo)準(zhǔn)答案,但有幾件事,大家開始有了越來越多的共識

首先,單純把模型做得更大,已經(jīng)不會再像過去那樣帶來立竿見影的突破。規(guī)模繼續(xù)上去當(dāng)然可以變強(qiáng),但在算力、數(shù)據(jù)、能源、成本這些硬約束下,它的性價(jià)比正在迅速下降。

其次,AI需要更直接地接觸“真實(shí)世界”。語言世界太干凈了,它無法提供現(xiàn)實(shí)世界里那種混亂、連續(xù)、充滿不確定性的因果經(jīng)驗(yàn)。AI想繼續(xù)往前走,需要新的輸入方式、需要多模態(tài)感知、需要和環(huán)境互動(dòng)。

最后,大家普遍認(rèn)為世界模型和大模型將會是一個(gè)互補(bǔ)的關(guān)系。陳羽北就在訪談中提到,世界模型并不是要完全將大語言模型推翻重來,而是為大語言模型補(bǔ)上“現(xiàn)實(shí)世界”的維度。


陳羽北 加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授 在語言中我們有了GPT的話,當(dāng)預(yù)訓(xùn)練的好處達(dá)到一定程度的時(shí)候,它可以被快速地變成任何的下游應(yīng)用。世界模型可以被認(rèn)為是一個(gè)大號的GPT,它包含了感知和控制。如果我們在這里也能獲得根本上的成功,未來我們所有的機(jī)器人、所有的智能體都可以用這樣預(yù)訓(xùn)練和后訓(xùn)練的方式產(chǎn)生,這有可能會徹底地解鎖一些AI的應(yīng)用場景。
Chapter2.3 為什么是現(xiàn)在?

既然世界模型如此重要,為什么最近一段時(shí)間它才突然被行業(yè)普遍討論和關(guān)注呢?

第一個(gè)原因就是上文我們所討論的,大模型的原生能力遇到了天花板,但人們對AI在現(xiàn)實(shí)生活中的期待卻越來越高。

另一個(gè)原因是,隨著多模態(tài)時(shí)代的到來,讓我們第一次有能力訓(xùn)練“真正的世界模型”。訓(xùn)練世界模型需要海量的視覺與動(dòng)作數(shù)據(jù)、多模態(tài)傳感器輸入、大規(guī)模視頻模型能力以及足夠強(qiáng)的算力來支持“世界推演”,這些條件直到最近幾年才逐步成熟。


總得來說,因?yàn)榇竽P偷奶旎ò逡呀?jīng)顯現(xiàn),而且全行業(yè)都在邁向具身智能,再加上我們現(xiàn)在有了讓AI看世界、理解世界的技術(shù)基礎(chǔ),世界模型就順理成章地成為了下一輪AI競賽的核心舞臺。而這些嘗試,很快在行業(yè)里分成了幾條不同的技術(shù)流派。

03

當(dāng)前推進(jìn)世界模型的主要路線

雖然世界模型的最終目標(biāo)看起來是相對清晰的,但落實(shí)在實(shí)踐探索層面,卻常常會讓人感到困惑。比如有的在做視頻生成,有的在做3D場景,有的在做機(jī)器人,有的在做智能體,它們都叫做世界模型,但在做的事情似乎完全不同。

我們究竟應(yīng)該怎么去理解,現(xiàn)在整個(gè)行業(yè)到底在做些什么?

關(guān)于這個(gè)問題,我們的嘉賓Yiqi結(jié)合世界模型的理論知識以及她在Meta的一些實(shí)踐觀察,在采訪中提出了一個(gè)我們認(rèn)為非常有幫助于大家理解的框架,就是把整個(gè)世界模型領(lǐng)域拆解成“三層結(jié)構(gòu)”,在這個(gè)架構(gòu)中:

底層,是世界模型的思想與范式。也就是我們之前所討論的,世界模型的抽象、預(yù)測、規(guī)劃特征,以及它要解決的問題。這一層涉及到目前很多研究層面的創(chuàng)新。

第二層,是世界模型的當(dāng)前的“表現(xiàn)形式”指模型到底是用什么方式來表示世界和預(yù)測世界,世界應(yīng)該如何被生成出來。

第三層,是世界模型的“目的層”,也就是智能體訓(xùn)練,讓AI最終能在這個(gè)世界里行動(dòng)、做任務(wù)、完成決策。


Yiqi Zhao Product Design Lead, Meta Latent MDP(潛在狀態(tài)表示)+Learn Dynamics(環(huán)境動(dòng)力學(xué)模型)+Simulator(內(nèi)部模擬能力),這三者結(jié)合起來就是底層的世界模型核心層級,但是它是抽象的、不可見的。 如果要讓人和AI看到,需要有一個(gè)表現(xiàn)形式,這個(gè)表現(xiàn)形式需要AI幫忙生成,所以生成的層級會比它之前的層級稍微高一點(diǎn)。
等生成完了之后,AI大腦里有了世界觀,就可以看到這個(gè)世界了。那接下來這個(gè)世界里需要有東西,讓人和AI智能體都要活在里面。 所以智能體在里面存在的方式就是:我終于有一個(gè)宇宙了,我要在里面玩、學(xué)習(xí),要對這個(gè)世界造成影響,和這個(gè)世界有一個(gè)交互,互相產(chǎn)生影響。

04

世界模型的表現(xiàn)形式:世界生成

如果我們把當(dāng)前產(chǎn)業(yè)界的主要嘗試放在這個(gè)框架中去看的話,它們其實(shí)很多都聚焦在第二層級:世界生成。這也是目前整個(gè)領(lǐng)域最熱鬧的地方。

Chapter4.1 為什么要先做世界生成

很多研究者認(rèn)為,構(gòu)建世界模型的第一步不是讓AI直接“推理”或“行動(dòng)”,而是讓它能夠去“生成世界”,這看似簡單,卻是世界模型的根基。

所謂“理解世界”,本質(zhì)是理解世界如何隨時(shí)間和行為變化。物體如何移動(dòng)、光線如何變化、風(fēng)吹過樹葉會發(fā)生什么,要獲得這種對“世界演化”的直覺,最直接的方式就是讓模型先能夠生成一個(gè)可連續(xù)變化的世界。

此外,強(qiáng)大的世界生成模型能為智能體提供廉價(jià)的訓(xùn)練場。比如訓(xùn)練一個(gè)機(jī)器人倒咖啡,讓它在現(xiàn)實(shí)中倒幾萬次、打碎幾千個(gè)杯子顯然性價(jià)比太低,而地震、火災(zāi)、車禍這些邊緣場景也可以在虛擬世界中自由進(jìn)行反事實(shí)推理的實(shí)踐。

因此,世界生成既是世界模型的外殼,也是整個(gè)體系的入口。而在世界生成這件事情上,目前主要有兩大技術(shù)路線:

第一類,用“視頻生成”的方式去重建世界,包括OpenAI Sora、谷歌的Genie等。

第二類,用“3D空間生成”的方式去顯式建模世界,其中的代表是李飛飛的World Labs。

Chapter4.2 視頻生成路線

視頻生成應(yīng)該是目前最具代表性的、也是最為大眾所熟悉的世界模型路線。它的目標(biāo)很直觀,就是嘗試讓AI直接生成一個(gè)“能動(dòng)起來的世界”,并讓這個(gè)世界隨著時(shí)間流動(dòng)、演化、變化。

OpenAI在發(fā)布Sora之初,它們就將其定義為一個(gè)“世界模擬器”。Sora并不是簡單地把一段視頻用靜態(tài)圖像一張張“拼出來”,而是讓畫面里的事物能夠隨著時(shí)間連續(xù)地演化。這些視頻細(xì)節(jié)之所以令人震撼,是因?yàn)槿藗儼l(fā)現(xiàn),模型似乎開始真的“理解”了事物變化的背后規(guī)律,它知道光線在材質(zhì)上如何變化,知道一個(gè)物體在受到外力后該怎樣移動(dòng)。而目前與Sora類似的,還有Seedance、Veo、Kling等一系列視頻生成模型。


如果說Sora等模型是能夠去“播放一個(gè)世界”,Google的Genie系列模型則是讓我們能去“探索一個(gè)世界”。在Genie 3中,模型能夠根據(jù)用戶的文本或圖像提示,實(shí)時(shí)生成可供用戶及智能體進(jìn)行互動(dòng)的虛擬環(huán)境。相比前代產(chǎn)品,Genie 3的核心突破在于“實(shí)時(shí)交互性”和“長時(shí)間一致性”,用戶可以跟模型進(jìn)行長達(dá)數(shù)分鐘的互動(dòng)。

Yiqi Zhao Product Design Lead, Meta Genie 3跟傳統(tǒng)的視頻生成模型很不同的一點(diǎn)在于,它生成出來的內(nèi)容,你是可以跟它實(shí)時(shí)交互的。你生成出來的內(nèi)容,比如黑板上寫了字,我走到別的地方回來之后這個(gè)字它還在黑板上。說明它雖然還是有frame by frame(逐幀生成)的生成方式,但是它已經(jīng)能夠記住世界里面的這些狀態(tài)。

Genie 3的這種可控性,意味著模型內(nèi)部不再只是預(yù)測下一幀是什么,而是已經(jīng)在模擬“未來的世界狀態(tài)”。它讓視頻生成從“播放”走向“交互”,開始從“電影式生成”走向“游戲式模擬”,更接近一個(gè)真正的“世界引擎”,也更接近智能體將來需要使用的環(huán)境。


就在今年1月,谷歌還推出了基于Genie 3打造的實(shí)驗(yàn)室原型Project Genie,首次將Genie 3的能力第一次封裝成為了一個(gè)“人人都可以直接上手體驗(yàn)”的產(chǎn)品形態(tài)。它的強(qiáng)大在于多模態(tài)的深度協(xié)同:由Gemini提供邏輯支撐,Nano Banana Pro生成高精度的場景與角色,再由核心引擎Genie 3將靜態(tài)設(shè)計(jì)“激活”為可互動(dòng)的3D世界。依托TPU v5的算力,Project Genie實(shí)現(xiàn)了720p/24fps的實(shí)時(shí)環(huán)境渲染,同時(shí)允許用戶對同一個(gè)世界進(jìn)行“重新混剪”,具有長達(dá)60秒的強(qiáng)一致性記憶。

Project Genie的發(fā)布意味著“世界模型”或許開始真正從PPT走進(jìn)現(xiàn)實(shí),它不再只是個(gè)會“變魔術(shù)”的算法,而是通過一句話就能“變”出一個(gè)可運(yùn)行的小型游戲世界的生產(chǎn)力工具。

從行業(yè)視角來看,視頻生成路線有一個(gè)非常明顯的優(yōu)勢就是它的結(jié)果“看得見”。我們能直接觀察世界模型是否具備物理一致性、是否理解時(shí)空結(jié)構(gòu),而且它能快速商業(yè)化落地,影視、廣告、教育、游戲都能立刻使用。


從技術(shù)角度看,視頻生成的優(yōu)點(diǎn)也很突出:首先,訓(xùn)練數(shù)據(jù)相對容易獲得?;ヂ?lián)網(wǎng)上有大量真實(shí)世界視頻,為模型學(xué)習(xí)世界規(guī)律提供了訓(xùn)練空間。其次,它對Scaling Law非常敏感,模型規(guī)模越大、數(shù)據(jù)越多,視頻的一致性和物理合理性就呈指數(shù)級提升。此外,視頻數(shù)據(jù)天然包含多樣化場景,模型泛化能力也更強(qiáng)。

正因?yàn)檫@種“可觀察性”和“可規(guī)?;?xùn)練”的組合,讓視頻生成路線在過去一、兩年成為世界模型最引人注目的方向。

但視頻生成的局限也同樣明顯,最重要的一點(diǎn)是,雖然它的輸出是“顯式”的,但內(nèi)部對世界的理解是“隱式”的,我們無法直接讀取,也無法將能力直接移植到機(jī)器人或決策系統(tǒng)中。


視頻生成路線其實(shí)和大語言模型很像,兩者都是典型“scale-driven(規(guī)模驅(qū)動(dòng))模型”。語言模型通過學(xué)習(xí)互聯(lián)網(wǎng)文本掌握語言統(tǒng)計(jì)規(guī)律,視頻模型通過學(xué)習(xí)海量視頻掌握視覺統(tǒng)計(jì)規(guī)律,區(qū)別在于:視頻數(shù)據(jù)天然包含物體運(yùn)動(dòng)、加速度、重力等物理特征,因此視頻模型能更直接地看到真實(shí)世界的運(yùn)作方式。

但和語言模型一樣,視頻模型理解的世界規(guī)律依然“藏在權(quán)重里”。語言模型預(yù)測下一個(gè)token,視頻模型預(yù)測下一幀,但都很難告訴你世界內(nèi)部的結(jié)構(gòu)是什么。比如你讓Sora生成一輛車的行駛視頻,造型和光影可能很逼真,但如果你問,這輛車的長寬高是多少?被擋住的輪胎在哪里?它答不上來。因?yàn)镾ora并沒有構(gòu)建一個(gè)3D的幾何車輛模型,它只是學(xué)到了像素組合的概率分布。

Chapter4.3 3D生成(空間智能)路線

所以視頻生成雖然是目前最直觀、最能應(yīng)用落地的一步,但它目前也只是畫出了世界的一層皮,但還缺少有血有肉的框架。那如何才能勾勒出世界表層下的框架呢?

李飛飛提出的思路是:3D生成,也就是空間智能。

與視頻生成相比,3D生成路線走的是一條截然不同的技術(shù)選擇,不是把世界畫出來,而是把世界建出來。這也是李飛飛領(lǐng)導(dǎo)創(chuàng)建的World Labs目前的技術(shù)路線。它們不追求畫面有多逼真或“電影級”連續(xù)性,而是更關(guān)注世界的結(jié)構(gòu),包括物體在哪里?空間的幾何關(guān)系是什么?物體之間如何相互影響?生成的世界是否能被“進(jìn)入”與“操作”?


WorldLabs最新發(fā)布的模型叫Marble它的特點(diǎn)是給它一個(gè)語言指令、一張照片或視頻,就能通過高斯?jié)姙R技術(shù)重建出完整的3D場景結(jié)構(gòu)。簡單來說,Marble就像建筑師,看到圖片時(shí)不只看到“像素”,而是看到背后的三維結(jié)構(gòu)。比如你同樣問它圖片里汽車的長寬高,它能回答出是長4.5米、寬1.8米,還能輸出3D網(wǎng)格文件。

為什么李飛飛如此強(qiáng)調(diào)3D呢?因?yàn)樗J(rèn)為真正的世界就不是2D的,而是3D的,AI必須理解空間,才能理解世界。人類能抓住物體、避開障礙、記住空間,是因?yàn)槲覀兲焐邆錁?gòu)建3D模型的能力。機(jī)器人要抓取物體需要知道形狀、體積、位置,自動(dòng)駕駛要理解空間和距離,這些都不是二維像素能表達(dá)的。AI要真正進(jìn)入現(xiàn)實(shí)世界,首先要知道“世界的三維結(jié)構(gòu)”。

從技術(shù)層面看,3D生成路線有個(gè)巨大優(yōu)勢:與視頻模型的“隱式物理直覺”不同,它生成的是顯式結(jié)構(gòu),模型知道每個(gè)物體的具體位置,因此物理模擬、規(guī)劃、控制都更容易實(shí)現(xiàn)。一旦掌握這些顯式信息,它就能繼承傳統(tǒng)物理引擎的優(yōu)勢,確保碰撞、遮擋、施力等表現(xiàn)嚴(yán)格正確,成為“可操作世界模型”的底座。


此外,3D生成在游戲、影視制作、室內(nèi)設(shè)計(jì)等場景也能快速落地,讓它能夠在商業(yè)轉(zhuǎn)化上具有優(yōu)勢。不久前,Worldlabs宣布了最新一輪10億美元的融資,估值達(dá)到了50億美元,短短一年半時(shí)間,它的估值飆升了5倍之多,一定程度上也反映了市場對于“3D生成”這條路線潛力的認(rèn)可。

雖然3D生成對世界模型的發(fā)展具有巨大的戰(zhàn)略意義,但它的實(shí)現(xiàn)難度也要比視頻生成大很多:

首先是訓(xùn)練數(shù)據(jù)稀缺。互聯(lián)網(wǎng)是巨大的2D視頻礦山,但3D數(shù)據(jù)卻很少。高質(zhì)量3D數(shù)據(jù)主要靠LiDAR、結(jié)構(gòu)光掃描儀等專業(yè)設(shè)備采集,不僅設(shè)備貴,流程還繁瑣,標(biāo)注成本也比2D高出一個(gè)量級。

其次是幾何結(jié)構(gòu)難建。3D模型需要確保生成的物體封閉、無穿模、無破損,而預(yù)測柔體、流體、鏈?zhǔn)脚鲎驳葟?fù)雜3D動(dòng)態(tài)交互則難度更大。

最后對算力需求很大。無論是訓(xùn)練中的3D渲染還是實(shí)時(shí)物理模擬,計(jì)算量都遠(yuǎn)超2D模型,直接推高了研究門檻。


胡淵鳴 Meshy AI CEO 我們?nèi)绻梢粡?024x1024分辨率的圖片,大約一百萬個(gè)像素。但是如果要生成一個(gè)3D的模型,最大的挑戰(zhàn)就是多出來一個(gè)新的維度,就不太可能直接用1024x1024x1024分辨率這樣的表示方式去做,計(jì)算量實(shí)在是太大了,所以大家就發(fā)明了很多新的創(chuàng)造性方法: 比如Meshy用的技術(shù)路線,是基于擴(kuò)散模型或者自回歸模型,通常先生成一個(gè)低分辨率版本的模型,然后再去把它Upscale(上采樣)。在Upscale(上采樣)的過程中,就會發(fā)現(xiàn)有一些區(qū)域不屬于我們關(guān)心的范圍,所以在這種情況下,我們就可以把計(jì)算量集中在我們特別關(guān)心的區(qū)域。


總結(jié)來說,3D生成路線能夠更加真實(shí)地去還原世界,但它實(shí)現(xiàn)難度更大、成本更高。

不過我們以上討論的其實(shí)都是如何把世界生成出來,但光有生成,還遠(yuǎn)遠(yuǎn)不夠,因?yàn)槭澜缒P偷恼嬲哪繕?biāo)不是去生成一個(gè)世界,而是要讓AI在這個(gè)世界里行動(dòng)。

05

世界模型的目的:智能體訓(xùn)練

如果“世界生成”是為了讓AI看見世界、重建世界,“智能體訓(xùn)練”就是要讓AI能在這個(gè)世界里“做事”,從“世界長什么樣”走向“我能在這個(gè)世界里做什么”。目前,業(yè)界主要有兩種探索路線。


Chapter5.1 基于虛擬世界訓(xùn)練路線——SIMA

第一條路線,就是直接把世界生成模型當(dāng)成“訓(xùn)練環(huán)境”,讓AI在虛擬生成的世界里不斷去犯錯(cuò)、探索、總結(jié),最終學(xué)會一套可以遷移到真實(shí)世界的能力,這一類的代表是Google SIMA。

SIMA的思路非常直接:既然現(xiàn)實(shí)世界太復(fù)雜、真實(shí)的訓(xùn)練太昂貴,那我們就用虛擬世界來教AI如何行動(dòng),而游戲就成為了它最佳的訓(xùn)練場。視頻游戲作為復(fù)雜、可交互、實(shí)時(shí)反饋的環(huán)境,一直是AI發(fā)展的搖籃,從早期的Atari到AlphaStar在《星際爭霸II》中打到世界前0.2%,DeepMind一直用游戲訓(xùn)練更智能的AI。


SIMA的訓(xùn)練方式就是把AI放進(jìn)很多不同類型的游戲環(huán)境里去“練級”。最新的SIMA 2還將Gemini嵌入內(nèi)核,并首次使用Genie 3生成的游戲世界進(jìn)行了訓(xùn)練。

SIMA 2展現(xiàn)出幾個(gè)令人矚目的能力突破:

首先,它不僅能“跟指令做事”,還能“自己思考”。它可以理解復(fù)雜、多步、抽象的任務(wù),在陌生環(huán)境中自主探索、規(guī)劃行動(dòng)、尋找解決方案。

其次,它具有強(qiáng)大的“泛化能力”,能在從未見過的游戲環(huán)境中表現(xiàn)出色比如在Genie實(shí)時(shí)生成的世界中仍能合理辨別方向、理解指令、采取有意義的行動(dòng)。此外,SIMA 2被設(shè)計(jì)為能跨游戲、跨環(huán)境執(zhí)行任務(wù)的通用AI智能體,這也為將來的具身機(jī)器人遷移奠定了基礎(chǔ)。


SIMA想做的事情,顯然比“玩游戲”本身更大。游戲只是現(xiàn)實(shí)世界的縮影,它最終想要實(shí)現(xiàn)的,是讓AI能在任何3D世界里行動(dòng)、探索、推理、解決問題。然而對于這個(gè)目標(biāo),不是所有研究者都認(rèn)為“要行動(dòng),就必須先生成一個(gè)世界”。以Yann LeCun代表的另一派,就選擇了一條完全不同的路線。

Chapter5.2 直接學(xué)習(xí)世界的抽象結(jié)構(gòu)——JEPA

Yann LeCun實(shí)現(xiàn)世界模型的思路是:不用去把世界“畫”出來,而是讓AI直接去學(xué)習(xí)世界的抽象結(jié)構(gòu)。

在他看來,不管是生成圖片、生成視頻,還是生成3D世界,生成式模型都有一個(gè)共同的問題:消耗了大量算力去“畫細(xì)節(jié)”,卻未必真正理解了世界的結(jié)構(gòu)。比如人類學(xué)習(xí)走路時(shí),我們只需要知道:地面在哪里,障礙物在哪里,下一步該往哪走。


理解世界的結(jié)構(gòu),比生成世界的外觀更重要。這正是Yann LeCun所提出的JEPA(Joint Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測架構(gòu))理論的核心思想。JEPA不預(yù)測圖像、不預(yù)測像素,也不重建視覺內(nèi)容,它做的事情是把真實(shí)世界壓縮成一個(gè)抽象的、高維的潛在表示,然后在這個(gè)潛在空間里進(jìn)行預(yù)測。預(yù)測的目標(biāo)可以是空間上被遮擋的區(qū)域,也可以是時(shí)間上的后續(xù)狀態(tài)。


我們來舉個(gè)簡單的例子:如果你輕輕推一個(gè)球,視頻模型要預(yù)測的是下一幀里球的位置、陰影、光照、材質(zhì)反射。但JEPA不關(guān)心這些,它只關(guān)心球會往哪個(gè)方向滾,速度會怎么變,會不會撞到障礙物,哪些變化與任務(wù)和決策相關(guān)。它學(xué)習(xí)的是未來的結(jié)構(gòu),而不是未來的畫面。

JEPA的基本結(jié)構(gòu)可以拆成三件事:首先,用Encoder(編碼器)將視覺和動(dòng)作壓縮成抽象表征,然后用Predictor(預(yù)測器)預(yù)測這些抽象狀態(tài)在未來如何變化,最后將預(yù)測結(jié)果與真實(shí)未來狀態(tài)的編碼進(jìn)行對齊,讓模型學(xué)會捕捉世界的關(guān)鍵因果結(jié)構(gòu)。

基于JEPA架構(gòu),Yann LeCun在Meta也先后發(fā)布了I-JEPA和V-JEPA,前者讓AI理解靜態(tài)圖像的結(jié)構(gòu),后者則讓AI學(xué)習(xí)視頻中世界隨時(shí)間變化的規(guī)律。


JEPA的路線背后,有非常重要的技術(shù)動(dòng)機(jī):

首先,生成像素既昂貴又低效,而絕大多數(shù)像素信息與行動(dòng)決策無關(guān)。JEPA不“畫世界”,因此計(jì)算成本更低。

其次,由于只保留關(guān)鍵結(jié)構(gòu)信息,JEPA更容易捕捉因果關(guān)系,也更具跨場景、跨任務(wù)的泛化能力。

更重要的是,這種抽象、結(jié)構(gòu)化的世界表示,更接近機(jī)器人和具身智能真正需要的“可操作世界”。比如對于機(jī)器人來說,它不需要知道物體的光影紋理,它只需要知道物體的可達(dá)性、跟自己的位置關(guān)系以及下一步該做什么,而JEPA的輸出的就是這種結(jié)構(gòu)化的抽象信息。


早在幾年前,Yann LeCun就已經(jīng)在為JEPA路線搖旗吶喊了,但它至今仍然未能成為世界模型的研究的主流,因?yàn)镴EPA路線在實(shí)際推進(jìn)中面臨了很多現(xiàn)實(shí)問題:

首先,它是“不可見的”。Sora能用逼真的畫面震撼所有人,Genie可以生成可探索的游戲世界,WorldLabs能用3D場景告訴你“我理解了空間結(jié)構(gòu)”。但JEPA學(xué)到的所有東西,都藏在一個(gè)抽象的潛在空間里,這意味著我們難以直接看到和驗(yàn)證模型到底“理解了什么”。

其次,它的自監(jiān)督目標(biāo)極難設(shè)計(jì)。JEPA不像視頻生成那樣有現(xiàn)成的目標(biāo),你給它一幀讓它預(yù)測下一幀,JEPA想預(yù)測的是“未來的結(jié)構(gòu)”。但什么才是“結(jié)構(gòu)”?哪些因素該保留、哪些該忽略?目前仍沒有統(tǒng)一答案。

最后,缺乏統(tǒng)一的評估和規(guī)?;七M(jìn)體系。JEPA的表征質(zhì)量藏在潛在空間里,研究社區(qū)多依賴下游任務(wù)或行為表現(xiàn)來評估模型,缺乏類似圖像生成或語言模型那樣統(tǒng)一的benchmark(基準(zhǔn)指標(biāo)),這也使不同設(shè)計(jì)路線之間的效果比較變得更加困難。正因?yàn)檫@些限制,JEPA更像一個(gè)“世界模型的前額葉原型”,方向很可能是對的,但距離成熟落地還仍然有一段距離。

到這里,我們把世界模型最核心的幾條技術(shù)路線都梳理了一遍:有人用視頻把世界“畫”出來;有人用 3D 把世界“搭”出來;有人在虛擬世界里訓(xùn)練行動(dòng)智能;也有人干脆不畫世界,想讓AI直接學(xué)習(xí)世界的結(jié)構(gòu)。


當(dāng)然,還有一些我們沒有展開的路線:比如Dreamer這一類以動(dòng)力學(xué)為核心的世界模型更專注于控制與想象;有的試圖從物理規(guī)律出發(fā),用可微分模擬器去逼近真實(shí)世界;也有越來越多工作,正在模糊世界模型、預(yù)測模型與決策模型之間的邊界。

這些路線看起來方向不同,但它們正在指向同一個(gè)未來:讓AI不再只是“輸出信息”,而是真正理解世界、推理世界、在世界里行動(dòng)。

Yiqi表示,因?yàn)槟壳笆澜缒P驮诼涞貙用孢€在早期階段,并沒有看到哪一條路線具體的商業(yè)應(yīng)用形式,所以包括Meta在內(nèi)的大廠們,實(shí)際是在各個(gè)路線上都在做布局和研究。


Yiqi Zhao Product Design Lead, Meta Meta在世界模型的路線上,不同的技術(shù)路線全部都做了,主要是因?yàn)樗挠脩魣鼍昂痛怪眻鼍暗男枨蟛煌?。所以為游戲服?wù)的我們就做了AI游戲引擎,叫做Meta Horizon Studio。為內(nèi)容創(chuàng)作來服務(wù),我們就做了純視頻方向的。為了數(shù)字重建和3D重建,我們就做了高斯?jié)姙R的方式。所以我們希望能夠把方方面面的需求都概括進(jìn)去,各種場景都適用,我相信其他公司也是這樣想的。

不過可以預(yù)見的是,當(dāng)世界模型真正成熟,對產(chǎn)業(yè)帶來的改變,絕對不會只是讓“視頻生產(chǎn)效率更高”這么簡單,它將是一次橫跨軟件、硬件、制造、娛樂等眾多行業(yè)的系統(tǒng)性沖擊。

06

世界模型會改寫哪些關(guān)鍵行業(yè)?

Chapter6.1 機(jī)器人

如果說有哪個(gè)行業(yè),會最直接地被世界模型撬動(dòng),那一定是機(jī)器人行業(yè)。

過去幾十年,機(jī)器人的發(fā)展受制于硬件、算力和應(yīng)用場景等多重因素。但更深層、也更關(guān)鍵的瓶頸在于它們還不“懂”世界,因此難以實(shí)現(xiàn)跨環(huán)境的遷移和泛化。今天的絕大多數(shù)機(jī)器人看起來很厲害,但它們做的一切,本質(zhì)上都是“被編程好的動(dòng)作”,所以只要環(huán)境稍微變化,它們就會立刻“失能”。

機(jī)器人行業(yè)過去一直難以擴(kuò)張的原因就在于:每一項(xiàng)新任務(wù),都意味著一次新的工程項(xiàng)目。

而世界模型帶來的,是讓機(jī)器人擁有“世界的內(nèi)部模型”。它能看到現(xiàn)在,也能預(yù)測未來,知道物體怎么動(dòng),也能推斷自己的動(dòng)作會產(chǎn)生什么后果。它能先在腦子里模擬,再決定要不要執(zhí)行。


比如它可以模擬箱子會不會翻倒、門把的角度能否順利轉(zhuǎn)動(dòng)、路徑是否足夠安全、抓取是否會失敗。過去要花工程師幾十小時(shí)調(diào)參的任務(wù),現(xiàn)在機(jī)器人在模擬世界里自主練習(xí)就能掌握。

更重要的是,機(jī)器人開始具備遷移能力。它不需要每次換一個(gè)物體、換一個(gè)場景、換一個(gè)任務(wù)都重新示教一遍,它能把內(nèi)部模型里學(xué)到的規(guī)律遷移到現(xiàn)實(shí)世界。盡管仿真到現(xiàn)實(shí)的遷移至今仍是一個(gè)開放難題,世界模型有望大幅降低這道門檻,讓機(jī)器人面對從未見過的物品時(shí),仍然能做出合理決策。

這對機(jī)器人來說是一次范式級的改變。無論是家庭服務(wù)機(jī)器人、倉儲機(jī)器人、工廠協(xié)作機(jī)器人、餐飲零售機(jī)器人,還是專業(yè)級的巡檢、建筑、醫(yī)療輔助手臂,世界模型都可能成為它們跨過智能門檻的那把鑰匙。

Chapter6.2 自動(dòng)駕駛

大約從5年前開始,馬斯克就開始講L5要來了,但為什么時(shí)至今天,L5級的自動(dòng)駕駛依然沒有全面普及?背后原因之一就在于:系統(tǒng)雖然“看得見世界”,卻還難以真正預(yù)測世界。

我們現(xiàn)在常說的L2、L3自動(dòng)駕駛,本質(zhì)上依賴的仍然是“感知—預(yù)測—規(guī)劃”的分層體系:識別車、人、車道線、交通燈,再通過規(guī)劃系統(tǒng)給車輛下指令。

特斯拉更強(qiáng)調(diào)用大規(guī)模真實(shí)道路數(shù)據(jù),通過端到端方式不斷逼近人類駕駛。而Waymo則長期在高度結(jié)構(gòu)化的系統(tǒng)中,追求可驗(yàn)證的安全性。但無論是哪種路線,都面臨一個(gè)共同的問題:它們對“現(xiàn)在”的感知已經(jīng)很強(qiáng),卻很難穩(wěn)定地理解“接下來會發(fā)生什么”。

再加上極端天氣、突發(fā)事故、不規(guī)范行人等長尾場景在真實(shí)道路中極其稀少,也成為制約自動(dòng)駕駛規(guī)?;年P(guān)鍵瓶頸。


而這正是世界模型開始真正進(jìn)入工程體系的地方。比如Waymo在最近的技術(shù)博客中提出,他們正在將自動(dòng)駕駛系統(tǒng)的核心,構(gòu)建為一個(gè)Foundation model(基礎(chǔ)模型),它采用了“分段式端到端”的架構(gòu),內(nèi)部可以進(jìn)行端到端訓(xùn)練和反向傳播,同時(shí)又保留了對世界的結(jié)構(gòu)化表達(dá)。這個(gè)模型不只是完成單一任務(wù),而是學(xué)習(xí)“世界如何運(yùn)轉(zhuǎn)”,它被要求輸出物體、語義屬性和道路結(jié)構(gòu)等中間表征,讓系統(tǒng)在出錯(cuò)時(shí),能夠定位問題出在世界理解的哪一層。

這些結(jié)構(gòu)化世界信息,也支撐起更高質(zhì)量的仿真系統(tǒng):不僅還原場景,還能在不同假設(shè)下預(yù)測交通參與者的行為,并在內(nèi)部同時(shí)推演大量可能的決策路徑,從中篩選出最安全、最穩(wěn)定的一條。這不再只是“識別”,也不只是“反應(yīng)”,而是讓自動(dòng)駕駛系統(tǒng)開始具備一種接近人類駕駛的預(yù)判能力。

也正因?yàn)槿绱?,世界模型被認(rèn)為是推動(dòng)自動(dòng)駕駛從局部可用,走向可驗(yàn)證、安全的大規(guī)模商業(yè)化落地的核心技術(shù)之一。

Chapter6.3 穿戴式設(shè)備

如今我們所熟知的可穿戴設(shè)備,本質(zhì)上還是停留在記錄層面,看上去很智能,但實(shí)際上卻并不理解你周圍的環(huán)境。而世界模型會讓這一切發(fā)生質(zhì)變:


一方面,它能讓設(shè)備真正讀懂你的3D世界,實(shí)時(shí)推斷空間結(jié)構(gòu)、物體關(guān)系和潛在風(fēng)險(xiǎn),把數(shù)字內(nèi)容自然融合進(jìn)現(xiàn)實(shí)環(huán)境。另一方面,它的預(yù)測和規(guī)劃能力,會讓可穿戴設(shè)備從工具變成你的“數(shù)字伙伴”。理解你在什么環(huán)境、看什么、可能要做什么,比如提前提醒路面濕滑,在廚房識別缺少的食材,甚至在你開口前就意識到你需要幫助。

從更長遠(yuǎn)看,這不只是設(shè)備升級,更是一種新的“人機(jī)關(guān)系”,世界模型會讓可穿戴設(shè)備,從“信息終端”變成隨身的“世界理解引擎”,眼鏡、耳機(jī)、手表,都可能進(jìn)化為與你共同生活、共同行動(dòng)的智能體。而這,也可能會是下一代計(jì)算平臺的起點(diǎn)。

Chapter6.4 內(nèi)容生成、游戲與影視制作

如果說機(jī)器人、自動(dòng)駕駛等“具身智能”是世界模型在現(xiàn)實(shí)世界的落地,內(nèi)容相關(guān)的產(chǎn)業(yè),就是世界模型在“想象世界”里的爆發(fā)奇點(diǎn)。

如今我們已經(jīng)看到視頻生成模型所帶來的一些震撼效果,而世界模型的到來,可以讓未來的內(nèi)容創(chuàng)作只需要給一個(gè)世界觀、一個(gè)任務(wù)、一個(gè)初始狀態(tài),模型就能自動(dòng)“長出一個(gè)世界”。比如在影視行業(yè),一個(gè)導(dǎo)演不需要去反復(fù)搭景、重拍、做模型,只需要定義“這是一座被雨水淹沒的城市”,AI就能生成整個(gè)城市的狀態(tài)變化。

而在游戲行業(yè),世界模型帶來的改變更是顛覆性的。過去的游戲世界需要一磚一瓦搭建,地形、天氣、物理引擎、NPC行為、任務(wù)鏈等等條件,我們都需要數(shù)百人團(tuán)隊(duì)、花費(fèi)幾年時(shí)間,才能做出一個(gè)開放世界。但世界模型意味著游戲世界不需要“制作”,而可以自動(dòng)生成和進(jìn)化。一個(gè)設(shè)計(jì)師只需要設(shè)定規(guī)則、生態(tài)、沖突,AI就能生長出森林、河流、生物、文化、經(jīng)濟(jì)系統(tǒng),甚至NPC的性格、記憶和演化方向。


胡淵鳴 Meshy AI CEO 大家以前玩的游戲都是靜止的游戲,所有的規(guī)則已經(jīng)被寫好了,有一個(gè)游戲設(shè)計(jì)師和游戲程序員去實(shí)現(xiàn)這個(gè)規(guī)則就可以了。但是如果我們在游戲場景當(dāng)中有這種生成式AI技術(shù),就可以實(shí)現(xiàn)游戲是on the fly(即時(shí))生成的。比如谷歌的Genie 3,按上下左右鍵,它可以on the fly(即時(shí))生成下一秒的東西。 我們在做的事情就是,先用3D的模型,再自己做一個(gè)多模態(tài)的大模型,這個(gè)大模型可以先生成角色的外形,然后再給它加上人物邏輯,包括它的性格等等各種各樣的形式的邏輯。我們通過這條路徑也可以實(shí)現(xiàn)一個(gè)世界模型。

所以對于整個(gè)內(nèi)容行業(yè)來說,世界模型帶來的不僅僅是制作效率的提升,而是一場敘事方式、創(chuàng)作方式、內(nèi)容形式的全面重寫。

Chapter6.5 AI Agent

世界模型的到來,還會加速AI Agent的進(jìn)化。當(dāng)我們今天在聊AI Agent的時(shí)候,很多討論其實(shí)都集中在Agent能不能更聰明、規(guī)劃能力夠不夠強(qiáng)、工具調(diào)用做得好不好。但如果退一步看,會發(fā)現(xiàn)一個(gè)更底層的問題一直沒有被真正解決:Agent到底是在什么環(huán)境里學(xué)會“行動(dòng)”的?

從強(qiáng)化學(xué)習(xí)的視角看,Agent的一切能力,都來自與環(huán)境的交互:執(zhí)行動(dòng)作,接收反饋。但真實(shí)世界太昂貴、太緩慢,也太危險(xiǎn),幾乎不可能支撐大規(guī)模試錯(cuò)。

而世界模型解決的,正是“環(huán)境”本身的問題。它通過學(xué)習(xí)真實(shí)系統(tǒng)的數(shù)據(jù),在模型內(nèi)部構(gòu)建一個(gè)可運(yùn)行的世界,當(dāng)Agent采取行動(dòng)時(shí),世界模型可以直接推演這個(gè)動(dòng)作可能帶來的結(jié)果。這樣Agent就可以在世界模型中進(jìn)行大規(guī)模訓(xùn)練,如果這個(gè)世界足夠接近真實(shí),在虛擬環(huán)境中學(xué)到的能力,就可以穩(wěn)定遷移到現(xiàn)實(shí)系統(tǒng)中。


世界模型并不是讓Agent立刻變得更聰明,而是第一次為Agent提供了一個(gè)可訓(xùn)練、可試錯(cuò)、接近真實(shí)的“內(nèi)在世界”。這層世界底座,才是真正決定AI Agent能否走向現(xiàn)實(shí)世界的關(guān)鍵。

所以世界模型改變的不只是某一個(gè)行業(yè)、某一個(gè)產(chǎn)品、某一種形態(tài),而是整套人與世界互動(dòng)的方式。陳羽北在采訪中就談到,如果世界模型真的從根本上走通了,甚至有可能創(chuàng)造出一種新的文明。


陳羽北 加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授 如果你能實(shí)現(xiàn)World model(世界模型),已經(jīng)包羅萬象,把這個(gè)世界所有的邏輯問題和規(guī)律都掌握了,而且不是簡單的外延,而是可以在比較根本的程度上產(chǎn)生泛化,產(chǎn)生數(shù)據(jù)、產(chǎn)生意識,產(chǎn)生到超越人類的程度。那在給予一定意識的情況下,這個(gè)模型似乎已經(jīng)具備了建立一個(gè)新的文明的能力。

07

世界模型的潛在風(fēng)險(xiǎn)

當(dāng)然,任何足以改變技術(shù)版圖的突破都會帶來新的風(fēng)險(xiǎn)。而世界模型的風(fēng)險(xiǎn),不再只是“胡說八道”那么簡單:

首先,是更隱蔽、也更危險(xiǎn)的模型幻覺。無論哪條路線,世界模型本質(zhì)上都是在給AI構(gòu)建一個(gè)高度逼真的“夢境”,讓它在其中模擬和推演。但虛擬世界永遠(yuǎn)無法完全覆蓋真實(shí)世界,始終存在Sim-to-Real Gap(虛實(shí)差異)。語言模型的幻覺是編造事實(shí),視頻模型的幻覺是畫面錯(cuò)誤。而世界模型的幻覺,出現(xiàn)在整個(gè)“世界結(jié)構(gòu)”里,比如誤判物體重量、高估動(dòng)作可行性、低估碰撞后果,甚至構(gòu)建了錯(cuò)誤的因果關(guān)系。


這些問題不一定立刻被察覺,卻會直接影響智能體的決策與行動(dòng),進(jìn)而導(dǎo)致機(jī)器人失常、自動(dòng)駕駛偏離,甚至關(guān)鍵系統(tǒng)被系統(tǒng)性誤導(dǎo)。所以當(dāng)世界模型出現(xiàn)幻覺,錯(cuò)誤將是“系統(tǒng)級”的,這也是更難發(fā)現(xiàn)、更難對齊的風(fēng)險(xiǎn)。

其次,是世界模型帶來的權(quán)力集中問題。未來可能只有極少數(shù)機(jī)構(gòu)具備構(gòu)建和運(yùn)行世界模型的能力,而成熟的世界模型,意味著前所未有的預(yù)測能力。對市場、社會行為、群體反應(yīng)的高精度推演,可能帶來新的信息壟斷,也可能被用于更高效的社會操控與商業(yè)操縱。

更重要的是,當(dāng)世界模型越來越真實(shí),虛擬與現(xiàn)實(shí)的邊界會越來越模糊,“自主智能體”的到來也加大了AI不受控的風(fēng)險(xiǎn)。


一旦AI真正理解并模擬世界,深度偽造與虛假場景將進(jìn)入“超真實(shí)”階段,AR/VR世界可能與現(xiàn)實(shí)幾乎無差,甚至更具吸引力。與此同時(shí),當(dāng)越來越多真實(shí)系統(tǒng)開始依賴這些模型,現(xiàn)實(shí)世界本身,也可能反過來“對齊”模型的假設(shè)。而當(dāng)世界模型變成決策底座,內(nèi)部狀態(tài)難以審計(jì)、推理過程不可見,我們甚至很難判斷它究竟“理解”了什么、在朝什么方向演化,這也意味著,它所帶來的監(jiān)管挑戰(zhàn),將遠(yuǎn)高于今天的大模型。

所以,世界模型潛力巨大,但帶來的風(fēng)險(xiǎn)也比我們過去面對的任何AI技術(shù)都更危險(xiǎn)。它不只是內(nèi)容層面的風(fēng)險(xiǎn),而是會真的影響現(xiàn)實(shí)世界。

當(dāng)AI不只是看世界、畫世界,而是開始在現(xiàn)實(shí)中推演、行動(dòng)、做決定,我們需要從系統(tǒng)、對齊、倫理、監(jiān)管所有層面重新討論這件事。

08

AI的下一段旅程

過去一、兩年,我們看到了AI在語言、圖像、視頻上的極速爆發(fā),仿佛一夜之間,AI已經(jīng)無所不能。但當(dāng)你開始思考,AI是否真的理解世界,是否能預(yù)測未來,是否能像人類一樣在世界中行動(dòng)?你會發(fā)現(xiàn),現(xiàn)在的大模型其實(shí)還仍然停留在“表層智能”的階段。而世界模型,向我們提供了真正走向“深層智能”的可能。

它讓AI從“看到世界”走向“理解世界”,從“預(yù)測句子”走向“預(yù)測未來”,從“生成畫面”走向“在世界里行動(dòng)”。這不僅會改變機(jī)器人、制造業(yè)、自動(dòng)駕駛、內(nèi)容產(chǎn)業(yè),也會改變我們和數(shù)字世界的關(guān)系,甚至改變我們對“智能”本身的理解。


當(dāng)然,世界模型的道路還很長。它面臨巨大的技術(shù)挑戰(zhàn),也伴隨新的風(fēng)險(xiǎn)。目前我們?nèi)匀徊恢滥囊粭l路線會最終勝出,但我們知道的是:當(dāng)AI能夠真正理解世界、模擬世界、在世界里試錯(cuò)和行動(dòng)時(shí),它離“通用智能”,也就是我們一直在尋找的那個(gè)終極目標(biāo),又會近了一大步。而這,也許AI時(shí)代真正的拐點(diǎn),而我們現(xiàn)在,正在見證它的開端。

最后,我們還想補(bǔ)充的是,因?yàn)槭澜缒P捅旧磉€沒有一個(gè)被學(xué)界和產(chǎn)業(yè)完全統(tǒng)一的定義。所以這一期內(nèi)容,并不是想給世界模型下一個(gè)“標(biāo)準(zhǔn)答案”,而是希望從我們的視角,為大家梳理出一個(gè)理解世界模型的框架。

不同團(tuán)隊(duì)、不同方向的每一條路線背后,其實(shí)都牽涉到大量具體的技術(shù)細(xì)節(jié)、方法選擇,以及仍在快速演化的新嘗試。接下來,我們也會持續(xù)圍繞這個(gè)主題,做更深入的拆解和系列內(nèi)容,歡迎大家持續(xù)關(guān)注。

注:部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi):B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

海外:Youtube

聯(lián)系我們:video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制|泓君 陳茜

撰稿 |張珺玥

文稿編輯|陳茜 王梓沁

文稿支持|Kolento

主持 |陳茜

剪輯|Jacob

動(dòng)效|踹 AK12

運(yùn)營|孫澤平 王梓沁

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一分錢不要,也得讓你長記性!業(yè)主車位被霸占10天,奧迪車大變臉

一分錢不要,也得讓你長記性!業(yè)主車位被霸占10天,奧迪車大變臉

火山詩話
2026-03-29 17:05:43
東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

談史論天地
2026-03-29 16:10:03
紐約機(jī)場一副手銬,如何震碎了神秘富豪的3000億“假央企”

紐約機(jī)場一副手銬,如何震碎了神秘富豪的3000億“假央企”

一號位故事
2026-03-29 07:47:30
張雪峰的靈車細(xì)節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細(xì)節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
殲20總設(shè)計(jì)師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

殲20總設(shè)計(jì)師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

博士觀察
2026-03-28 21:02:35
155億賠償落地!澳洲認(rèn)賠止損,巴拿馬震動(dòng),全球投資規(guī)則再警示

155億賠償落地!澳洲認(rèn)賠止損,巴拿馬震動(dòng),全球投資規(guī)則再警示

世界圈
2026-03-29 02:40:03
春天買魚,這3種魚全是野生海魚,不能人工養(yǎng)殖,肉質(zhì)鮮嫩營養(yǎng)高

春天買魚,這3種魚全是野生海魚,不能人工養(yǎng)殖,肉質(zhì)鮮嫩營養(yǎng)高

阿龍美食記
2026-03-27 16:09:42
42歲男子長期被職場PUA抱住醫(yī)生大哭,稱一到公司門口就開始心慌,醫(yī)生:他把領(lǐng)導(dǎo)的評價(jià),當(dāng)成對自己全部價(jià)值的判斷

42歲男子長期被職場PUA抱住醫(yī)生大哭,稱一到公司門口就開始心慌,醫(yī)生:他把領(lǐng)導(dǎo)的評價(jià),當(dāng)成對自己全部價(jià)值的判斷

大風(fēng)新聞
2026-03-28 21:28:03
萬科開啟反腐大風(fēng)暴

萬科開啟反腐大風(fēng)暴

地產(chǎn)微資訊
2026-03-29 17:13:03
Deepseek現(xiàn)在怎么沒聲音了,梁文峰的低調(diào)錯(cuò)失了寶貴的發(fā)展時(shí)機(jī)?

Deepseek現(xiàn)在怎么沒聲音了,梁文峰的低調(diào)錯(cuò)失了寶貴的發(fā)展時(shí)機(jī)?

上林院
2026-03-29 10:30:20
跑完馬拉松!杭州45歲老板心梗離世:妻子說“再來一萬次也嫁他”

跑完馬拉松!杭州45歲老板心梗離世:妻子說“再來一萬次也嫁他”

社會日日鮮
2026-03-29 10:43:38
張雪峰遺體轉(zhuǎn)運(yùn)畫面流出!前妻和現(xiàn)任妻子現(xiàn)身,下屬向遺像三叩首

張雪峰遺體轉(zhuǎn)運(yùn)畫面流出!前妻和現(xiàn)任妻子現(xiàn)身,下屬向遺像三叩首

博士觀察
2026-03-29 11:52:26
沙特油輪繞開霍爾木茲抵達(dá)日本:世界油閥,被一腳踹開了!

沙特油輪繞開霍爾木茲抵達(dá)日本:世界油閥,被一腳踹開了!

老馬拉車莫少裝
2026-03-29 11:19:25
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

離離言幾許
2026-03-28 16:40:22
第一批受害者已出現(xiàn)!多人跟風(fēng)!緊急提醒:千萬別碰、別吃!

第一批受害者已出現(xiàn)!多人跟風(fēng)!緊急提醒:千萬別碰、別吃!

林子說事
2026-03-29 14:53:01
享界汽車就“S9‘麋鹿測試’視頻”發(fā)布聲明:經(jīng)核實(shí),相關(guān)測試存在惡意、刻意操控行為,已固定相關(guān)證據(jù),并對涉嫌機(jī)構(gòu)及賬號采取維權(quán)行動(dòng)

享界汽車就“S9‘麋鹿測試’視頻”發(fā)布聲明:經(jīng)核實(shí),相關(guān)測試存在惡意、刻意操控行為,已固定相關(guān)證據(jù),并對涉嫌機(jī)構(gòu)及賬號采取維權(quán)行動(dòng)

瀟湘晨報(bào)
2026-03-29 14:11:09
太心酸!甘肅一31歲女生連續(xù)考編8年失敗,找份1800元工作繼續(xù)考

太心酸!甘肅一31歲女生連續(xù)考編8年失敗,找份1800元工作繼續(xù)考

火山詩話
2026-03-29 16:13:48
大清都亡了一百多年了,還有航司在讓飛行員寫檢討

大清都亡了一百多年了,還有航司在讓飛行員寫檢討

民航大腦殼
2026-03-28 08:05:43
辟謠辟謠!廣州供電局“瘋狂”辟謠!

辟謠辟謠!廣州供電局“瘋狂”辟謠!

新快報(bào)新聞
2026-03-29 16:34:02
馬盧阿奇12分9籃板!首輪秀僅楊瀚森未得分上雙

馬盧阿奇12分9籃板!首輪秀僅楊瀚森未得分上雙

體壇周報(bào)
2026-03-29 14:32:16
2026-03-29 20:11:00
硅谷101 incentive-icons
硅谷101
從這里駛向未來
162文章數(shù) 105關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
健康
家居
數(shù)碼
手機(jī)

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!海口首個(gè)真四代,徹底爆了!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

曲線華爾茲 現(xiàn)代簡約

數(shù)碼要聞

用戶稱M5 Max MacBook Pro在運(yùn)行AI工作負(fù)載時(shí)固態(tài)硬盤溫度失控

手機(jī)要聞

連載三天:行業(yè)首款OPPO K系列主題漫劇官宣明起開播

無障礙瀏覽 進(jìn)入關(guān)懷版