劈柴哥和哈薩比斯親自站臺！谷歌世界模型Project Genie刷屏，幕后團隊揭秘60秒不是極限，內存是巨大約束

2026-02-01 10:26:07　來源: InfoQ

北京舉報

分享至

作者 | 高允毅

世界模型真的變天了！

今天，谷歌正式發(fā)布重磅世界模型原型產(chǎn)品“Project Genie”，只需一句話或一張圖，就能一鍵生成可玩、可交互的實時虛擬世界。它的重磅程度，讓谷歌“掌舵人”劈柴哥和 Google DeepMind 創(chuàng)始人哈薩比斯親自為它站臺。

在 Project Genie 生成的虛擬世界中，你可以用 WASD 鍵移動角色、旋轉視角、跳躍，在生成世界自由探索。更重要的是，其生成畫面的精細度、整體完成度，已經(jīng)明顯超出以往研究型 Demo 的范疇，在觀感上直逼成熟游戲產(chǎn)品。

過去幾年，世界模型一直被認為是通往 AGI 的重要路徑，但始終存在一個根本問題：它們更像會動的視頻，而不是真正的環(huán)境。

具體來說，早期世界模型普遍存在幾大短板：

生成世界質量偏低，結構簡單
難以實時交互，或只能交互一兩步
長期一致性差，畫面和規(guī)則會“漂移”
不符合物理和因果邏輯，更像夢境而非世界

而 Project Genie，第一次把這些問題同時拉到了可用水平。

Project Genie 是一個基于Genie 3、Nano Banana Pro 和 Gemini構建的原型 Web 應用，其中的核心是谷歌最新的世界模型 Genie 3。

與以往“先生成完整視頻”的方式不同，Genie 3 采用自回歸生成機制：它會根據(jù)世界描述和用戶操作，逐幀生成環(huán)境狀態(tài)，而不是播放預先生成好的內容。

這帶來了幾個關鍵變化：

長期一致性生成的世界可以在數(shù)分鐘內保持穩(wěn)定，不會快速崩壞；系統(tǒng)還能“記住”用戶造成的關鍵變化，記憶時間最長可達約一分鐘。
真正的實時交互世界以 20–24 幀 / 秒運行，用戶的操作會即時反饋到環(huán)境中，而非觸發(fā)預設結果。
更高質量的視覺表現(xiàn) 生成畫面分辨率約為 720p，整體真實感和細節(jié)水平明顯高于以往世界模型，為智能體理解復雜環(huán)境提供了更可信的視覺基礎。

谷歌早在 2025 年就將 Genie 3 稱為“通往 AGI 的關鍵一步”。而在 Project Genie 的官方頁面中，谷歌再次強調：

Genie 3 讓智能體能夠預測世界如何演化，以及自身行為如何影響世界，這是實現(xiàn)推理、規(guī)劃和現(xiàn)實行動的基礎。

可以說，在 Project Genie 身上，已經(jīng)釋放出一個非常明確的信號：世界模型正在從長期的前沿研究方向，正式邁入可落地、可探索的關鍵階段。

一旦世界模型能夠穩(wěn)定生成高質量、可交互、具備長期一致性的環(huán)境，其應用邊界將被迅速打開。

無論是自動駕駛中的復雜場景模擬、具身智能的環(huán)境理解與決策訓練，還是游戲開發(fā)、影視制作、互動教育與新型媒體內容創(chuàng)作，世界模型都展現(xiàn)出極具想象空間的潛力。

據(jù) The Verge 報道，谷歌選擇在這一時間點推出 Project Genie，部分原因在于希望觀察用戶的真實使用方式，從而發(fā)現(xiàn)此前尚未預料到的新應用場景。

Google DeepMind 產(chǎn)品經(jīng)理迭戈·里瓦斯透露，谷歌內部已經(jīng)對 Genie 在電影制作、互動教育媒體等領域，幫助創(chuàng)作者進行場景可視化與世界構建的潛力感到興奮。

目前，Project Genie 仍是實驗性產(chǎn)品：

單個世界最長探索60 秒
分辨率約 720p，幀率約 24fps
僅向美國地區(qū)、18 歲以上的 Google AI Ultra 訂閱用戶開放

Project Genie 發(fā)布后迅速引發(fā)熱議。馬斯克第一時間發(fā)文祝賀

關于 Project Genie 的討論，也在 X 上迅速擴散，不少網(wǎng)友將其稱為又一個“變革時刻”。

對此，Project Genie 負責人之一 Jack Parker-Holder 表示：

Genie 3 感覺像是世界模型領域的一個分水嶺。我們現(xiàn)在可以生成任何可想象世界的、持續(xù)數(shù)分鐘的實時交互式模擬。這可能正是具身通用人工智能此前缺失的關鍵一環(huán)。

1 網(wǎng)友們玩瘋了，在游戲世界釋放創(chuàng)意

具體來看，Project Genie 的使用流程并不復雜。進入頁面后，用戶可以直接從 Google 預設的多個世界模板中選擇，也可以完全自定義環(huán)境和角色，構建一個專屬的虛擬世界。

為實現(xiàn)更精準的控制，Project Genie 會用 Nano Banana Pro 的能力，先為生成世界打個“草稿”。

整個頁面被清晰地分成左右兩部分：

左側用于填寫環(huán)境的 prompt，例如地形結構、視覺風格和整體氛圍；
右側則用于描述主角的形象與設定，并可選擇第一人稱或第三人稱視角，從而提前確定進入世界后的體驗方式。

完成初步設定后，Genie 會先生成一個縮略圖，可以對生成內容進行預覽和微調。如果符合預期，就能進入生成世界，開始實時交互與自由探索。Genie 3 的響應延時非常低，在控制角色移動時，會帶來強烈的沉浸感。

在官方案例中，你可以把自己變成一個球，在草原上自由滾動。

可以看到，如果轉換視角，球滾動留下的痕跡并不會消失，新生成的內容也不會覆蓋舊區(qū)域。這一細節(jié)直觀地體現(xiàn)了 Project Genie 所強調的世界一致性。

在另一個官方案例中，你可以變成刷墻工人，想刷哪面墻就刷哪面，整個虛擬世界可以實時交互，且看起來十分合理。

谷歌表示，這是想象力空間的無限釋放，無論是自然世界或現(xiàn)實場景，還是構建動畫、小說中的奇幻世界，甚至是突破時間與空間限制的未來世界，都可以被創(chuàng)造出來。

不少網(wǎng)友迅速上手，開始“放飛自我”式創(chuàng)作，其中，各類游戲風格世界不斷涌現(xiàn)。

比如在沙灘上騎摩托：

更絕的是直接制作山寨版“任天堂”游戲。比如馬里奧系列，《塞爾達傳說》，《銀河戰(zhàn)士》。

即便拋開體驗層面的不足不談，Project Genie 在生成世界的質量與完成度上，依然足以令人震撼。這也難免讓人產(chǎn)生進一步的聯(lián)想，游戲從業(yè)者會不會大規(guī)模失業(yè)？

這一擔憂并非空穴來風。根據(jù) Informa 本周發(fā)布的游戲開發(fā)者大會（GDC）報告，33% 的美國受訪游戲開發(fā)者、以及 28% 的全球受訪游戲開發(fā)者表示，他們在過去兩年中至少經(jīng)歷過一次裁員。Project Genie 可能會進一步擴大這種趨勢。

不過，圍繞 Project Genie 的能力邊界，也有人提出質疑。

The Verge 的記者親自上手試驗后認為，從“游戲”的角度來看，Project Genie 所生成的“可玩世界”顯得相當單調。

除了基礎移動操作外，玩家?guī)缀鯚o事可做。沒有任務目標，也缺乏音效反饋。更糟糕的是，輸入延遲時有發(fā)生，甚至會出現(xiàn)角色失控、只能旋轉視角的情況，嚴重影響整體體驗的流暢度。

該記者還提到，在僅有 60 秒的探索時間內，世界的一致性并不穩(wěn)定。系統(tǒng)有時會“忘記”此前生成的內容，例如滾動的小球留下的顏料痕跡會突然消失，已生成的道路也可能被重新覆蓋為草地。這些現(xiàn)象讓人難以確認模型是否能夠持續(xù)、可靠地維護同一個世界狀態(tài)。

在內容生成層面，Project Genie 對知名游戲 IP 也存在明顯限制。測試中，索拉、唐老鴨、高飛、杰克·斯凱靈頓等角色均無法直接用于生成可交互世界，相關內容在進入實際體驗階段會被系統(tǒng)攔截。

目前，與生成世界交互的智能體只能執(zhí)行較為有限的操作，同一世界中多個模型之間也難以協(xié)同互動。此外，Genie 在渲染清晰文本、還原現(xiàn)實世界具體地點方面仍存在困難，智能體對控制指令的響應有時也會出現(xiàn)異常延遲。

對此，谷歌方面回應稱，Genie 并非游戲引擎，團隊更關注它在增強創(chuàng)意過程、提升構思能力以及加快原型制作方面所展現(xiàn)出的潛力。

在 Geinie 3 官網(wǎng)上也特別強調，目前產(chǎn)品仍處于早期研究階段，因此會有：生成的世界可能看起來并不完全逼真，也不一定總是嚴格遵循提示、圖像或現(xiàn)實世界的物理規(guī)律；角色有時可能難以控制，或者控制延遲較高；生成時間受限等問題。

2 Project Genie 團隊深度揭秘關鍵問題

在 Project Genie 上線不久，其背后的核心團隊第一時間接受采訪，包括 Google DeepMind 研究總監(jiān) Shlomi Fruchter、Google DeepMind 的研究科學家 Jack Parker-Holder、產(chǎn)品 Diego Rivas，他們都對世界模型長期關注，在這次訪談中深度揭秘 Project Genie 的關鍵問題。

這次對話討論了：什么是世界模型？為什么只能生成 60 秒？Project Genie 的研發(fā)歷程是什么？它未來真正可能改變的是哪些領域？

他們首先承認 Project Genie 的強大確實源于谷歌視頻生成技術的積累，但同時他們也強調，Genie 并不是更強的“視頻模型”，而是人類第一次可以實時走進、操控、改變的生成世界。

其中的核心差異是，世界模型是逐幀實時生成，能與過去保持物理與視覺一致性，并且用戶可隨時干預。這對延遲、內存、算力的要求，比普通視頻生成高得多，也是更前沿、更有挑戰(zhàn)的方向。

針對不少人抱怨“60 秒不夠”的問題，他們表示這是在服務成本、系統(tǒng)穩(wěn)定性和體驗質量之間做出的權衡。他們其實已經(jīng)做出過更長時間的生成世界，但在實際測試中發(fā)現(xiàn)，隨著生成時間拉長，世界的動態(tài)感反而會逐漸減弱。

研究員表示“與其花兩分鐘體驗一個世界，不如花一分鐘體驗兩個不同的世界，體驗感會更好?！?/p>

針對模型的生成速度，他們表示已經(jīng)夠快了，短期內進一步“加速”并沒有太大意義。接下來，他們更重要的研發(fā)方向，是降低算力成本，讓這種能力能夠被更多人真正用得起。

在產(chǎn)品定位上，他們并不把 Genie 看作一款游戲，而更像是一個正在快速演化的實驗場：

一方面，多人互動、長期一致性、復雜動態(tài)仍然是明確的技術瓶頸；
另一方面，娛樂、教育、具身智能、機器人訓練等方向，已經(jīng)展現(xiàn)出非常清晰的應用前景

回顧產(chǎn)品研發(fā)歷程，從論文階段的 Genie 1，到今天普通用戶可以親自上手體驗的 Genie 3，這背后其實是谷歌一整套高度協(xié)同的跨部門合作。

谷歌實驗室與谷歌創(chuàng)意實驗室是研發(fā)的核心力量，而服務團隊、基礎設施團隊和溝通團隊則共同兜底，確保這項起源于強化學習的前沿研究，能夠被真實用戶理解、體驗并持續(xù)使用。

當團隊回看去年八月時，他們很清楚，當時外界已經(jīng)迫不及待想“走進這個世界”，但 Genie 仍然只是一個規(guī)模龐大的研究項目。即便如此，研發(fā)人員腦海中已經(jīng)浮現(xiàn)出一系列潛在應用場景，其中最清晰的方向之一，正是具身智能。一個標志性的例子，是他們與 Simmer 項目的長期合作。

Simmer 是由雙子座模型驅動的目標導向智能體，能夠在 3D 世界中執(zhí)行復雜任務。過去，它只能在少數(shù)幾個固定游戲環(huán)境中訓練；而現(xiàn)在，借助 Genie 3，只需一句文本指令，就能生成一個全新的、甚至是照片級寫實的虛擬世界，把智能體直接“放進去”完成任務。

從 Nano Banana Pro 的圖像創(chuàng)作，到谷歌視頻生成的成熟，再到可交互的世界模型 Project Genie ，生成式技術正在構成一個連續(xù)體，世界模型將成為第三次技術躍遷。

以下是播客的更多細節(jié)，歡迎來看：

為什么只能 60 秒？

主持人：我很好奇，這背后的物理逼真度，是不是和我們在 VO（谷歌的視頻生成模型）項目上取得的研究突破有關？感覺兩者之間有相似之處。

研究員：二者絕對是相關的，而且世界模型的研發(fā)難度其實更高。普通的視頻模型，能在整個視頻的時間線上自由調整過去和未來的幀，自由度很高 —— 就像有一塊畫布，模型能隨時間生成視頻，在畫面的各個位置做微調，讓整體效果連貫美觀。

但世界模型的難點在于，世界是持續(xù)演變的，每一幀的輸入都是未知的，模型必須保證生成的畫面既和過去的內容連貫，又能匹配用戶當下的操作，所以技術難度會大很多。

其實開發(fā) Genie 1 時，我們用的是 Imagine 模型，當時我們的模型效果并不好，而且想要生成合適的圖像也非常困難。Nano Banana Pro 是在Genie 3之后推出的，技術進步的速度真的令人驚嘆。也許未來某一天，我們定義虛擬世界的方式，將不再局限于圖像和文本，但就目前而言，這種方式已經(jīng)給了用戶足夠的創(chuàng)作靈活性。

主持人：這個模型的復雜度上限在哪里？比如能不能在同一個世界里加入大量并行的互動元素？模型會在什么情況下出現(xiàn)效果衰減？

其實 Nano Banana Pro 就是個很好的例子，如果一張圖片里有 10 個人臉，想要對這張圖進行編輯，模型就容易出問題。所以我想知道，Genie 3 的自然性能邊界在哪里？

研究員：這個模型肯定不是完美的，目前它還只是一個研究預覽版本。我們希望讓大家親自體驗，看看它的優(yōu)勢在哪里，不足又在哪里，我們也能從用戶反饋中學習和優(yōu)化。

目前模型在各類創(chuàng)意環(huán)境的視覺呈現(xiàn)上做得不錯，畫面可以非常精致，但在世界的動態(tài)表現(xiàn)上還有短板 —— 有時候初期的動態(tài)效果很好，但時間久了，動態(tài)感會逐漸減弱，這也是我們正在優(yōu)化的點。不過它的表現(xiàn)已經(jīng)足夠令人驚喜了，所以還是建議大家親自上手試試，看看哪些玩法能達到理想效果。

研究員：不過說到延遲問題，還有很多技術點需要考慮。Genie 3 的研發(fā)有一個核心約束：我們希望實現(xiàn)特定操作頻率下的實時低延遲，也就是說，用戶操作的往返延遲要極低。同時，內存也是一個巨大的約束 —— 模型的上下文長度越長，通常算力成本就越高，運行速度也會越慢。

所以研發(fā)的核心挑戰(zhàn)，就是平衡這些相互沖突的目標。而在研究層面，我們正在所有這些領域持續(xù)優(yōu)化，我們相信，模型的性能會不斷提升，變得更強大、更快、更經(jīng)濟，這也是行業(yè)的整體發(fā)展趨勢。

主持人：我還有個問題，模型的生成時長是人為限制在 60 秒，還是真的能實現(xiàn) 3 到 5 分鐘的連續(xù)生成？

研究員：其實我們已經(jīng)做出過能連續(xù)生成更久的演示版本了，但我們覺得 60 秒是一個比較合適的時長 —— 既能讓用戶充分體驗虛擬世界，又能保證為足夠多的用戶提供服務，這其實是在服務成本上做的權衡。

而且就像我們之前提到的，生成時間越長，世界的動態(tài)感會逐漸減弱。所以我們覺得，與其花兩分鐘體驗一個世界，不如花一分鐘體驗兩個不同的世界，體驗感會更好。當然，如果用戶反饋希望延長時長，我們也會做出調整。

這也和虛擬世界的類型有關，比如如果你在體驗高山速降滑雪，兩分鐘的時長會很過癮，因為整個過程是持續(xù)的動態(tài)體驗；但如果只是探索圖書館，兩分鐘可能就沒那么有趣了。

主持人：是啊，人們總是能很快適應新的技術體驗。但對我來說，這個模型的表現(xiàn)依然令人難以置信。你之前被問到能不能讓模型運行得更快，現(xiàn)在的速度已經(jīng)到極限了嗎？

研究員：在當前實時交互需求下，生成速度已經(jīng)足夠快，短期內進一步加速的意義不大。因為模型是實時生成虛擬世界的，速度再快其實也沒有意義了 —— 它的生成速度已經(jīng)和用戶的體驗速度完全匹配。接下來我們的研發(fā)重點，會放在降低算力成本上，這樣才能讓更多人用上這款產(chǎn)品。同時，在保持速度的前提下，不斷增加新功能，這本身也是一個巨大的挑戰(zhàn)，我們希望在各個方面都把模型做得更好。

背后的故事：谷歌跨團隊協(xié)作

主持人：聊完當下的體驗，我特別想知道模型的未來迭代方向。不過在聊未來之前，我們先回顧一下研發(fā)歷程吧。我們八月份發(fā)布了精靈 3 號的首支演示視頻，之后啟動了可信測試，不斷迭代產(chǎn)品、搭建基礎設施。能不能跟大家快速講講，從一支驚艷的演示視頻、小規(guī)模的早期測試，到正式推出面向用戶的精靈計劃，這中間都經(jīng)歷了什么？

研究員：首先，八月份發(fā)布模型和演示視頻后，我們讓一小部分人體驗了產(chǎn)品，核心是為了收集反饋 —— 因為這是一款全新的應用，一種全新的體驗，我們需要思考如何負責任地將它推向市場。

從那以后，我們的大部分工作都集中在基礎設施、服務架構和成本控制上，畢竟我們希望能讓盡可能多的用戶體驗到它。而美國的谷歌 Ultra 訂閱體系，能讓我們觸達足夠多的用戶，收集到第一手的反饋：比如用戶覺得哪些功能有用，會如何和產(chǎn)品互動，哪些玩法體驗最好。這段時間里，我們也在持續(xù)完善可信測試項目。

這其實是模型開發(fā)周期中最核心的階段，因為我們能從不同類型的用戶身上學到很多東西，無論是創(chuàng)意工作者，還是教育領域的從業(yè)者，都能給我們帶來豐富的洞察，讓我們知道模型目前的實際應用價值、未來的發(fā)展方向，以及哪些體驗是用戶最期待的。

回頭看八月份，當時我們知道大家肯定想體驗這款產(chǎn)品，但它那時還只是一個大規(guī)模的研究項目。我們腦海里有很多應用場景，比如智能體、機器人這類具身智能領域，都能用到這項技術。去年年底還有一個和我們類似的項目發(fā)布，他們也用Genie 3來訓練游戲智能體。

從消費端的角度來看，我們覺得這個產(chǎn)品會很有吸引力，所以想收集用戶反饋，但當時也不確定是否已經(jīng)到了面向更多用戶發(fā)布的時機。而迭戈主導的可信測試項目，讓我們發(fā)現(xiàn)，用戶第一次上手這款產(chǎn)品時，都會有驚艷的體驗。我們希望深入了解更多的應用場景，所以這次的發(fā)布，也是我們在這方面邁出的一大步。

一年前，我根本沒想到這個模型能有這么強的吸引力，但現(xiàn)在它已經(jīng)成為一款非常有趣的產(chǎn)品，我們也很期待大家會用它來做什么。

主持人：聊完產(chǎn)品和技術，我們再來聊聊谷歌的跨團隊合作吧。顯然，從你們的分享和幕后工作來看，打造這款產(chǎn)品的難度非常大。谷歌內部有哪些團隊參與了 Genie 3 和 Genie 的研發(fā)？

研究員：幕后參與的團隊非常多，谷歌實驗室、谷歌創(chuàng)意實驗室是核心—— 畫廊里的那些虛擬世界，大多是創(chuàng)意實驗室的作品；還有服務團隊、基礎設施團隊，基本上有一個完整的幕后團隊在推動這項工作。從八月份發(fā)布模型到現(xiàn)在，我們一直在全力沖刺，所有團隊的付出都堪稱英勇。

我們還和溝通團隊深度合作，因為想要向大家解釋一款全新的模型，一種大家從未體驗過的技術，是一個非常細致的話題 —— 它起源于強化學習這個相對小眾的領域，現(xiàn)在卻被媒體、社交媒體上的各類人群廣泛討論，所以用正確的方式傳遞這項技術，非常重要。

回顧這個領域的研究起點，我們甚至不確定這項技術能否成功落地。而現(xiàn)在，我們讓它實現(xiàn)了實時交互，達到了不錯的畫質，完成了從研究構想到發(fā)布模型，再到推出面向用戶的體驗產(chǎn)品的閉環(huán)，這一點讓我非常興奮。這并非理所當然，也充分體現(xiàn)了谷歌內部跨技術棧的團隊協(xié)作能力，這種能力非常獨特。

主持人：我們在鏡頭外還聊過，不僅是 Genie 3，谷歌所有模型的能力都在不斷拓展，而這和模型的訓練方式息息相關。杰克，你之前還尖銳地提到，這些模型其實并沒有針對任何特定的應用場景進行訓練，卻能在各個領域實現(xiàn)很好的泛化能力，能不能再聊聊這一點？

Jack：沒錯，我們一開始其實并不知道這個模型的具體應用場景。去年年底，Genie 團隊還在做純粹的研究項目，Genie 1最初只是一篇研究論文，和 VO（谷歌的視頻生成模型）完全不同。

與此同時，我們還在做 Doom 游戲引擎的相關研究，這項研究充分展現(xiàn)了實時交互的潛力，但它僅適用于 Doom 這一個特定的游戲世界，迭戈可以再聊聊這一點。

另外，2024 年 12 月 VO（谷歌的視頻生成模型）2 的發(fā)布，在 AI 領域已經(jīng)是很久以前的事了，但當時我看到它的效果時就覺得，視頻生成技術已經(jīng)成熟了，視覺質量達到了行業(yè)前沿，值得我們深入探索。

于是我們達成共識，認為這項技術的潛力無限，隨后組建了跨團隊的研發(fā)小組，匯集了各個領域的專家 —— 他們都在不同的技術領域有積累，我們相信把這些技術結合起來，會產(chǎn)生不可思議的效果。而我們的研發(fā)，并非針對某個特定的下游應用場景，而是因為它蘊含著無數(shù)的應用可能。

最酷的是，我們腦海里有一些預想的應用場景，比如和Simmer 項目的合作，我們和這個項目的合作已經(jīng)有很長時間了，他們也參與了 Genie 2 的研發(fā)，體驗過 Genie 2，現(xiàn)在已經(jīng)基于 Genie 3 發(fā)布了相關產(chǎn)品。

Simmer 是我們最強大的目標導向智能體之一，能在 3D 世界中互動，是由雙子座模型驅動的 —— 你可以在 3D 世界中向它輸入文本指令，它就能完成各種不同的目標，泛化能力非常強，還能通過自我提升學習。這也是我們邁向通用人工智能、具身智能的重要方向。

去年年底我們發(fā)布了這款智能體，他們就用 Genie 3 的虛擬世界來探索智能體的能力。要知道，Simmer 原本只在幾款游戲中接受過訓練，但現(xiàn)在借助 Genie 3，你只需輸入文本，就能創(chuàng)建一個全新的、甚至是照片級寫實的虛擬世界，然后把智能體放進去，看它完成各種任務。這兩個項目的結合，可以說是水到渠成。

未來的應用領域：娛樂、教育、具身智能

研究員：從應用層面來說，我個人對娛樂和教育領域的應用最期待。我們希望讓更多人體驗這款產(chǎn)品，看看憑借現(xiàn)有的技術，現(xiàn)在能打造出哪些應用。教育領域是我們重點關注的方向，比如讓人們在虛擬世界里互動學習 —— 想象一下，能為用戶打造一些他們在現(xiàn)實中無法體驗的場景，比如一個孩子害怕蜘蛛，我們可以打造一個滿是蜘蛛的房間，讓孩子在虛擬世界里慢慢適應，克服恐懼。我的孩子就怕蜘蛛，所以我覺得這種個性化的全新體驗，價值非常大，這也是我們近期的研發(fā)重點。

另一方面，我們之前也聊過，機器人技術和具身智能領域的世界模型，潛力也非常大。當然這個領域還有很多研究工作要做，但我個人對它充滿期待。簡單來說，核心思路就是：如果一個模型能模擬現(xiàn)實環(huán)境，那我們就可以用它在虛擬世界里訓練機器人，或是讓具身智能體在虛擬世界里學習，甚至實時輔助智能體做出決策。

Genie 計劃雖然現(xiàn)在已經(jīng)很驚艷了，但它只是一個起點。未來我們會和谷歌實驗室繼續(xù)深度合作，不斷優(yōu)化產(chǎn)品的功能、操控方式、應用架構等；也會拓展更多的使用場景，不局限于Genie計劃這一個應用，還會推出開發(fā)者 API，讓更多開發(fā)者參與進來。

不得不說，開發(fā)者總能發(fā)掘出產(chǎn)品的商業(yè)價值，找到極具經(jīng)濟影響力的應用場景，這也是我覺得很有意思的一點 —— 除了娛樂，世界模型還能在哪些領域找到產(chǎn)品市場契合點。

而且很多功能在不同的應用場景中是相通的，比如更廣泛的交互性?？梢钥隙ǖ氖牵瑱C器人技術的發(fā)展，不可能只靠方向鍵來實現(xiàn)，未來的機器人助手需要更多的操控方式，而這和虛擬世界的交互研發(fā)是相通的。

八月份發(fā)布 Genie 3，讓我們成為首批推出這類模型的團隊，也讓我們能和谷歌內部的各個團隊展開合作。我們會認真吸納所有的用戶反饋，把大家提出的建議都列出來，成為下一代模型的研發(fā)方向。我之前跟杰克說過，我們只實現(xiàn)了目標的 50%—— 因為我們總是會設定極具野心的目標，這個領域還有太多可以探索的地方，模型還有很多不足，需要我們不斷優(yōu)化。

這個領域的發(fā)展空間巨大，我們才剛剛起步。就像寫論文一樣，一個項目完成后，你馬上就會想，下一個項目可以加入哪些功能，做得更好。

現(xiàn)在社區(qū)里也出現(xiàn)了很多有趣的世界模型，有些和 Genie 3 很相似，但我們的目光已經(jīng)放得更遠了。

怎么玩這個產(chǎn)品？

主持人：除了研發(fā)歷程和未來規(guī)劃，還有沒有什么想跟大家分享的？比如對于即將體驗這款模型的用戶，你們有什么建議？畢竟你們比普通人花了更多時間研究和使用模型。

研究員：我建議大家嘗試個性化創(chuàng)作，打造屬于自己的、其他系統(tǒng)無法實現(xiàn)的世界。當然，用它打造游戲環(huán)境也很有趣，但這類場景其他系統(tǒng)也能做到；而把現(xiàn)實中的專屬事物 —— 比如一個玩具、一張照片，或是讓自己以特定風格出現(xiàn)在真實的環(huán)境中，這種體驗是獨一無二的。

這讓我想起了 VO（谷歌的視頻生成模型）早期的一個研究項目：有人用 VO（谷歌的視頻生成模型）為阿爾茨海默病患者重現(xiàn)童年記憶，讓他們在虛擬世界里重溫過去，這個項目特別棒。所以我覺得，把個人專屬的事物融入虛擬世界，讓它們 “活” 過來，這種互動方式非常有價值，大家可以試試這個方向。

另外，大家肯定會發(fā)現(xiàn)，模型的提示詞創(chuàng)作目前還不夠完善，但這恰恰是機會。幾年后當這個模型變得非常成熟時，大家會想起現(xiàn)在這個階段，就像我們現(xiàn)在看待 VO（谷歌的視頻生成模型）3 一樣 —— 現(xiàn)在 VO（谷歌的視頻生成模型）3 的每個提示詞都能生成優(yōu)質視頻，精靈 3 號的每個提示詞基本也能實現(xiàn)預期效果，但在早期，提示詞的創(chuàng)作至關重要，甚至有人會花 10 到 20 分鐘精心打磨一個提示詞。

所以如果第一次創(chuàng)作的效果不好，別放棄，這款全新的模型，可能會以你意想不到的方式呈現(xiàn)出驚喜的效果。而且親自上手體驗，你就不是在消費一款產(chǎn)品，而是在探索前沿技術。

主持人：太認同了，“探索前沿技術” 這句話簡直可以當作產(chǎn)品標語了。我還有一個覺得很有趣的點：當被動的媒體消費變成交互式的體驗，會發(fā)生什么？這是一片全新的未知領域。過去也有人做過嘗試，但現(xiàn)在有了這種真正定制化的交互式媒體敘事，它會給整個媒體和娛樂行業(yè)帶來什么影響，真的太值得期待了。

研究員：還有一個玩法也很有趣，你可以在虛擬世界里設置挑戰(zhàn)，把這個世界分享給別人，讓對方完成任務，比如從 A 點走到 B 點。這是一種基礎的、有目標的游戲體驗，現(xiàn)在的模型已經(jīng)能實現(xiàn)了。比如那個球的場景，你可以讓別人用球寫出自己的名字，這類簡單的挑戰(zhàn)都能設置。

就像杰克說的，現(xiàn)在的體驗雖然還比較基礎，但它蘊含著巨大的創(chuàng)意潛力。比如還有一個帶環(huán)的場景，你可以操控角色穿越環(huán)道，體驗飛行的感覺，這也是用戶發(fā)掘的玩法。

人們還經(jīng)常問，行業(yè)的前沿在哪里，我們下一步要做什么。我經(jīng)常會做一件事：長時間沉浸在 Genie 3 的第一人稱寫實世界里，然后看向窗外，對比虛擬和現(xiàn)實的差距。我認為最終，虛擬世界會和現(xiàn)實世界變得幾乎無法區(qū)分，雖然今天我們不深入聊這個話題，但從模型的性能發(fā)展來看，這顯然還有很長的路要走。但如果能生成和現(xiàn)實高度逼真的世界，在里面自由移動、互動、完成各種事情，那該多不可思議。

而這也是驅動我們開展這項研究的核心愿景：想象你擁有一個宇宙的副本，你可以在其中隨心所欲。顯然，這個副本有巨大的應用價值，能用到很多領域。這雖然是一個非常遠大、甚至可能無法實現(xiàn)的目標，但它就像北極星一樣，一直指引著我們。

比如我們這次把恐龍鮑勃放進虛擬世界，其實就是在重構現(xiàn)實空間，給現(xiàn)實事物做有趣的增強。未來這方面的探索，一定會非常有意思。

主持人：那到 Genie 5 的時候，我們可能真的會分不清自己是在現(xiàn)實還是在模擬世界里了。

世界模型是第三次技術躍遷

主持人：我還有一個有點尖銳的問題想問問大家：你們覺得，大多數(shù)人體驗到世界模型的時間線會是怎樣的？世界模型會先通過企業(yè)端影響普通人的生活嗎？比如企業(yè)利用世界模型提高生產(chǎn)效率，打造更好的日常產(chǎn)品；還是說，未來普通人的日常生活中，會直接和世界模型產(chǎn)生互動？如果是后者，這個時間線大概會是多久？

研究員：這其實取決于你如何定義世界模型。如果是指交互式的視聽體驗類世界模型，我認為今年、明年，就會有越來越多的人接觸到它，我們也會看到它在一些領域大放異彩，最終成為很多應用的基礎功能。

但就像現(xiàn)在的視頻生成技術，雖然發(fā)展很快，但真正融入普通人日常生活的比例其實并不高，世界模型也需要時間來完成用戶普及，找到合適的應用場景—— 畢竟視頻和圖像不同，世界模型又和視頻生成不同。

而如果是具身智能領域的世界模型應用，很難給出具體的時間線，但這個領域已經(jīng)在取得不錯的進展了。

另外，用戶的人群特征也很重要：有些經(jīng)常接觸交互式媒體的人，會成為世界模型的早期使用者，他們知道該如何體驗；但如果把它交給一個對前沿技術不感興趣的家人，他們可能會覺得無從下手，體驗不到產(chǎn)品的魅力。

但具身智能相關的應用，可能在未來 1-2 年就會走進現(xiàn)實，普通人會在生活中直接接觸到，所以最終的普及時間，還是取決于用戶所處的技術接受曲線位置。

還有一點，Genie計劃也印證了一個趨勢：生成式技術正在形成一個連續(xù)體，從 Nano Banana Pro 的圖像創(chuàng)作，到 VO（谷歌的視頻生成模型）的視頻生成，再到現(xiàn)在Genie 3的交互式實時媒體創(chuàng)作，成為第三個核心支柱。我們希望未來有更多人能體驗到這個連續(xù)體上的各類創(chuàng)作體驗。

主持人：我特別期待看到行業(yè)的發(fā)展趨勢，畢竟 VO（谷歌的視頻生成模型）和 Nano Banana Pro 的發(fā)展過程中，都出現(xiàn)過一些爆紅的玩法，都是我從未預料到的，太瘋狂了。

研究員：世界模型的發(fā)展，和圖像、視頻生成還有些不同。圖像和視頻生成的作品，能被數(shù)百萬人觀看，一個人的創(chuàng)作可以被廣泛傳播，家人、朋友都能看到；而世界模型的獨特之處在于，你可以在探索的過程中，不斷改變周圍的世界，這開辟了很多我們未曾考慮過的新途徑、新玩法。

圖像和視頻生成，本質上是用新技術替代或自動化了過去的一些創(chuàng)作方式，當然也帶來了新的能力和限制；但世界模型，實現(xiàn)了很多過去根本不可能做到的事情，這是它最大的不同，當然二者也有很多相似之處。

還有一個我們非常興奮的想法，大家在演示中也能看到端倪：用戶可以在現(xiàn)有虛擬世界的基礎上繼續(xù)創(chuàng)作，這樣就會形成很多有趣的世界分支，還能追溯創(chuàng)作源頭。這方面的潛力非常大，值得我們深入探索。

Genie 計劃上線時，用戶可以下載自己的虛擬世界演示視頻；未來我們還會探索更多的世界分享方式，讓大家能以更有趣的方式在別人的世界基礎上創(chuàng)作。

主持人：太酷了，我還想要一個 “世界檔案” 功能，這樣大家就能看到我所有的創(chuàng)意想法了。

從世界模型的發(fā)展來看，技術進步的節(jié)奏是怎樣的？顯然我們已經(jīng)看到了巨大的進步，圖像生成、VO（谷歌的視頻生成模型）視頻生成、核心雙子座模型，都取得了長足的發(fā)展。世界模型是不是也在遵循同樣的發(fā)展軌跡，到處都是觸手可及的技術突破，同時受益于算力規(guī)模和推理能力的提升？

研究員：可以這么說。圖像生成技術顯然比視頻生成更成熟，視頻生成和世界模型之間的差距，我無法準確衡量，但可以肯定的是，世界模型是超越視頻生成的前沿技術。

最新一代的視頻生成模型，畫質已經(jīng)比Genie 3高很多了，我們也不指望Genie 3現(xiàn)在能生成極致精美的視頻，因為實時交互的約束，是普通視頻生成模型所沒有的。所以世界模型的發(fā)展，可能會比視頻生成稍慢一些，但它能帶來全新的體驗。

說實話，我們現(xiàn)在仍處于技術快速進步的階段。硬件始終是一個巨大的約束，這對所有模型來說都是如此。行業(yè)的整體趨勢是，在成本基本不變的情況下，讓模型的運行效率越來越高。但最終，我們還是需要更易獲取的硬件支持—— 比如希望未來人們能直接在自己的設備上運行這類模型，實現(xiàn)無延遲的即時體驗。

目前高性能的 TPU、GPU 還并非人人可得，硬件的發(fā)展速度因為一些實際原因，會比模型研發(fā)慢一些，但這也是我們的未來方向—— 希望到 Genie 5 時，大家能在手機上運行完整的通用模擬系統(tǒng)。

這一點我們也討論過，谷歌擁有垂直技術棧的優(yōu)勢，這也是我們在谷歌、在深度思維工作的魅力所在：我們既能站在模型研發(fā)的前沿，又能利用谷歌最好的硬件來支持模型的運行。而且專門為世界模擬打造的硬件，本身也極具發(fā)展?jié)摿?，它就像通往另一個維度的入口，點擊就能進入，充滿了新鮮感。

傳送門：

https://labs.google/projectgenie

鏈接：

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view\_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD\_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm\_medium=gift-link

聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產(chǎn)業(yè)落地，從技術前沿到行業(yè)應用，全面覆蓋 AI 與軟件開發(fā)核心賽道！集結全球技術先鋒，拆解真實生產(chǎn)案例、深挖技術與產(chǎn)業(yè)落地痛點，探索前沿領域、聚焦產(chǎn)業(yè)賦能，獲取實戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察，高效實現(xiàn)技術價值轉化。把握行業(yè)變革關鍵節(jié)點，搶占 2026 智能升級發(fā)展先機！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.