国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

劈柴哥和哈薩比斯親自站臺!谷歌世界模型Project Genie刷屏,幕后團隊揭秘60秒不是極限,內存是巨大約束

0
分享至


作者 | 高允毅

世界模型真的變天了!

今天,谷歌正式發(fā)布重磅世界模型原型產(chǎn)品“Project Genie”,只需一句話或一張圖,就能一鍵生成可玩、可交互的實時虛擬世界。它的重磅程度,讓谷歌“掌舵人”劈柴哥和 Google DeepMind 創(chuàng)始人哈薩比斯親自為它站臺。



在 Project Genie 生成的虛擬世界中,你可以用 WASD 鍵移動角色、旋轉視角、跳躍,在生成世界自由探索。更重要的是,其生成畫面的精細度、整體完成度,已經(jīng)明顯超出以往研究型 Demo 的范疇,在觀感上直逼成熟游戲產(chǎn)品。

過去幾年,世界模型一直被認為是通往 AGI 的重要路徑,但始終存在一個根本問題:它們更像會動的視頻,而不是真正的環(huán)境。

具體來說,早期世界模型普遍存在幾大短板:

  • 生成世界質量偏低,結構簡單

  • 難以實時交互,或只能交互一兩步

  • 長期一致性差,畫面和規(guī)則會“漂移”

  • 不符合物理和因果邏輯,更像夢境而非世界

而 Project Genie,第一次把這些問題同時拉到了可用水平。

Project Genie 是一個基于Genie 3、Nano Banana Pro 和 Gemini構建的原型 Web 應用,其中的核心是谷歌最新的世界模型 Genie 3。

與以往“先生成完整視頻”的方式不同,Genie 3 采用自回歸生成機制:它會根據(jù)世界描述和用戶操作,逐幀生成環(huán)境狀態(tài),而不是播放預先生成好的內容。

這帶來了幾個關鍵變化:

  • 長期一致性 生成的世界可以在數(shù)分鐘內保持穩(wěn)定,不會快速崩壞;系統(tǒng)還能“記住”用戶造成的關鍵變化,記憶時間最長可達約一分鐘。

  • 真正的實時交互 世界以 20–24 幀 / 秒運行,用戶的操作會即時反饋到環(huán)境中,而非觸發(fā)預設結果。

  • 更高質量的視覺表現(xiàn) 生成畫面分辨率約為 720p,整體真實感和細節(jié)水平明顯高于以往世界模型,為智能體理解復雜環(huán)境提供了更可信的視覺基礎。

谷歌早在 2025 年就將 Genie 3 稱為“通往 AGI 的關鍵一步”。而在 Project Genie 的官方頁面中,谷歌再次強調:

Genie 3 讓智能體能夠預測世界如何演化,以及自身行為如何影響世界,這是實現(xiàn)推理、規(guī)劃和現(xiàn)實行動的基礎。

可以說,在 Project Genie 身上,已經(jīng)釋放出一個非常明確的信號:世界模型正在從長期的前沿研究方向,正式邁入可落地、可探索的關鍵階段。

一旦世界模型能夠穩(wěn)定生成高質量、可交互、具備長期一致性的環(huán)境,其應用邊界將被迅速打開。

無論是自動駕駛中的復雜場景模擬、具身智能的環(huán)境理解與決策訓練,還是游戲開發(fā)、影視制作、互動教育與新型媒體內容創(chuàng)作,世界模型都展現(xiàn)出極具想象空間的潛力。

據(jù) The Verge 報道,谷歌選擇在這一時間點推出 Project Genie,部分原因在于希望觀察用戶的真實使用方式,從而發(fā)現(xiàn)此前尚未預料到的新應用場景。

Google DeepMind 產(chǎn)品經(jīng)理 迭戈·里瓦斯透露,谷歌內部已經(jīng)對 Genie 在電影制作、互動教育媒體等領域,幫助創(chuàng)作者進行場景可視化與世界構建的潛力感到興奮。

目前,Project Genie 仍是實驗性產(chǎn)品:

  • 單個世界最長探索60 秒

  • 分辨率約 720p,幀率約 24fps

  • 僅向美國地區(qū)、18 歲以上的 Google AI Ultra 訂閱用戶開放

Project Genie 發(fā)布后迅速引發(fā)熱議。馬斯克第一時間發(fā)文祝賀


關于 Project Genie 的討論,也在 X 上迅速擴散,不少網(wǎng)友將其稱為又一個“變革時刻”。





對此,Project Genie 負責人之一 Jack Parker-Holder 表示:

Genie 3 感覺像是世界模型領域的一個分水嶺。我們現(xiàn)在可以生成任何可想象世界的、持續(xù)數(shù)分鐘的實時交互式模擬。這可能正是具身通用人工智能此前缺失的關鍵一環(huán)。

1 網(wǎng)友們玩瘋了,在游戲世界釋放創(chuàng)意

具體來看,Project Genie 的使用流程并不復雜。進入頁面后,用戶可以直接從 Google 預設的多個世界模板中選擇,也可以完全自定義環(huán)境和角色,構建一個專屬的虛擬世界。


為實現(xiàn)更精準的控制,Project Genie 會用 Nano Banana Pro 的能力,先為生成世界打個“草稿”。

整個頁面被清晰地分成左右兩部分:

  • 左側用于填寫環(huán)境的 prompt,例如地形結構、視覺風格和整體氛圍;

  • 右側則用于描述主角的形象與設定,并可選擇第一人稱或第三人稱視角,從而提前確定進入世界后的體驗方式。

完成初步設定后,Genie 會先生成一個縮略圖,可以對生成內容進行預覽和微調。如果符合預期,就能進入生成世界,開始實時交互與自由探索。Genie 3 的響應延時非常低,在控制角色移動時,會帶來強烈的沉浸感。

在官方案例中,你可以把自己變成一個球,在草原上自由滾動。

可以看到,如果轉換視角,球滾動留下的痕跡并不會消失,新生成的內容也不會覆蓋舊區(qū)域。這一細節(jié)直觀地體現(xiàn)了 Project Genie 所強調的世界一致性。

在另一個官方案例中,你可以變成刷墻工人,想刷哪面墻就刷哪面,整個虛擬世界可以實時交互,且看起來十分合理。

谷歌表示,這是想象力空間的無限釋放,無論是自然世界或現(xiàn)實場景,還是構建動畫、小說中的奇幻世界,甚至是突破時間與空間限制的未來世界,都可以被創(chuàng)造出來。

不少網(wǎng)友迅速上手,開始“放飛自我”式創(chuàng)作,其中,各類游戲風格世界不斷涌現(xiàn)。

比如在沙灘上騎摩托:

更絕的是直接制作山寨版“任天堂”游戲。比如馬里奧系列,《塞爾達傳說》,《銀河戰(zhàn)士》。

即便拋開體驗層面的不足不談,Project Genie 在生成世界的質量與完成度上,依然足以令人震撼。這也難免讓人產(chǎn)生進一步的聯(lián)想,游戲從業(yè)者會不會大規(guī)模失業(yè)?

這一擔憂并非空穴來風。根據(jù) Informa 本周發(fā)布的游戲開發(fā)者大會(GDC)報告,33% 的美國受訪游戲開發(fā)者、以及 28% 的全球受訪游戲開發(fā)者表示,他們在過去兩年中至少經(jīng)歷過一次裁員。Project Genie 可能會進一步擴大這種趨勢。

不過,圍繞 Project Genie 的能力邊界,也有人提出質疑。

The Verge 的記者親自上手試驗后認為,從“游戲”的角度來看,Project Genie 所生成的“可玩世界”顯得相當單調。

除了基礎移動操作外,玩家?guī)缀鯚o事可做。沒有任務目標,也缺乏音效反饋。更糟糕的是,輸入延遲時有發(fā)生,甚至會出現(xiàn)角色失控、只能旋轉視角的情況,嚴重影響整體體驗的流暢度。

該記者還提到,在僅有 60 秒 的探索時間內,世界的一致性并不穩(wěn)定。系統(tǒng)有時會“忘記”此前生成的內容,例如滾動的小球留下的顏料痕跡會突然消失,已生成的道路也可能被重新覆蓋為草地。這些現(xiàn)象讓人難以確認模型是否能夠持續(xù)、可靠地維護同一個世界狀態(tài)。

在內容生成層面,Project Genie 對知名游戲 IP 也存在明顯限制。測試中,索拉、唐老鴨、高飛、杰克·斯凱靈頓等角色均無法直接用于生成可交互世界,相關內容在進入實際體驗階段會被系統(tǒng)攔截。


目前,與生成世界交互的智能體只能執(zhí)行較為有限的操作,同一世界中多個模型之間也難以協(xié)同互動。此外,Genie 在渲染清晰文本、還原現(xiàn)實世界具體地點方面仍存在困難,智能體對控制指令的響應有時也會出現(xiàn)異常延遲。

對此,谷歌方面回應稱,Genie 并非游戲引擎,團隊更關注它在增強創(chuàng)意過程、提升構思能力以及加快原型制作方面所展現(xiàn)出的潛力。

在 Geinie 3 官網(wǎng)上也特別強調,目前產(chǎn)品仍處于早期研究階段,因此會有:生成的世界可能看起來并不完全逼真,也不一定總是嚴格遵循提示、圖像或現(xiàn)實世界的物理規(guī)律;角色有時可能難以控制,或者控制延遲較高;生成時間受限等問題。

2 Project Genie 團隊深度揭秘關鍵問題

在 Project Genie 上線不久,其背后的核心團隊第一時間接受采訪,包括 Google DeepMind 研究總監(jiān) Shlomi Fruchter、Google DeepMind 的研究科學家 Jack Parker-Holder、產(chǎn)品 Diego Rivas,他們都對世界模型長期關注,在這次訪談中深度揭秘 Project Genie 的關鍵問題。

這次對話討論了:什么是世界模型?為什么只能生成 60 秒?Project Genie 的研發(fā)歷程是什么?它未來真正可能改變的是哪些領域?

他們首先承認 Project Genie 的強大確實源于谷歌視頻生成技術的積累,但同時他們也強調,Genie 并不是更強的“視頻模型”,而是人類第一次可以實時走進、操控、改變的生成世界。

其中的核心差異是,世界模型是逐幀實時生成,能與過去保持物理與視覺一致性,并且用戶可隨時干預。這對延遲、內存、算力的要求,比普通視頻生成高得多,也是更前沿、更有挑戰(zhàn)的方向。

針對不少人抱怨“60 秒不夠”的問題,他們表示這是在服務成本、系統(tǒng)穩(wěn)定性和體驗質量之間做出的權衡。他們其實已經(jīng)做出過更長時間的生成世界,但在實際測試中發(fā)現(xiàn),隨著生成時間拉長,世界的動態(tài)感反而會逐漸減弱。

研究員表示“與其花兩分鐘體驗一個世界,不如花一分鐘體驗兩個不同的世界,體驗感會更好?!?/p>

針對模型的生成速度,他們表示已經(jīng)夠快了,短期內進一步“加速”并沒有太大意義。接下來,他們更重要的研發(fā)方向,是降低算力成本,讓這種能力能夠被更多人真正用得起。

在產(chǎn)品定位上,他們并不把 Genie 看作一款游戲,而更像是一個正在快速演化的實驗場:

  • 一方面,多人互動、長期一致性、復雜動態(tài)仍然是明確的技術瓶頸;

  • 另一方面,娛樂、教育、具身智能、機器人訓練等方向,已經(jīng)展現(xiàn)出非常清晰的應用前景

回顧產(chǎn)品研發(fā)歷程,從論文階段的 Genie 1,到今天普通用戶可以親自上手體驗的 Genie 3,這背后其實是谷歌一整套高度協(xié)同的跨部門合作。

谷歌實驗室與谷歌創(chuàng)意實驗室是研發(fā)的核心力量,而服務團隊、基礎設施團隊和溝通團隊則共同兜底,確保這項起源于強化學習的前沿研究,能夠被真實用戶理解、體驗并持續(xù)使用。

當團隊回看去年八月時,他們很清楚,當時外界已經(jīng)迫不及待想“走進這個世界”,但 Genie 仍然只是一個規(guī)模龐大的研究項目。即便如此,研發(fā)人員腦海中已經(jīng)浮現(xiàn)出一系列潛在應用場景,其中最清晰的方向之一,正是具身智能。一個標志性的例子,是他們與 Simmer 項目的長期合作。

Simmer 是由雙子座模型驅動的目標導向智能體,能夠在 3D 世界中執(zhí)行復雜任務。過去,它只能在少數(shù)幾個固定游戲環(huán)境中訓練;而現(xiàn)在,借助 Genie 3,只需一句文本指令,就能生成一個全新的、甚至是照片級寫實的虛擬世界,把智能體直接“放進去”完成任務。

從 Nano Banana Pro 的圖像創(chuàng)作,到谷歌視頻生成的成熟,再到可交互的世界模型 Project Genie ,生成式技術正在構成一個連續(xù)體,世界模型將成為第三次技術躍遷。

以下是播客的更多細節(jié),歡迎來看:

為什么只能 60 秒?

主持人:我很好奇,這背后的物理逼真度,是不是和我們在 VO(谷歌的視頻生成模型)項目上取得的研究突破有關?感覺兩者之間有相似之處。

研究員:二者絕對是相關的,而且世界模型的研發(fā)難度其實更高。普通的視頻模型,能在整個視頻的時間線上自由調整過去和未來的幀,自由度很高 —— 就像有一塊畫布,模型能隨時間生成視頻,在畫面的各個位置做微調,讓整體效果連貫美觀。

世界模型的難點在于,世界是持續(xù)演變的,每一幀的輸入都是未知的,模型必須保證生成的畫面既和過去的內容連貫,又能匹配用戶當下的操作,所以技術難度會大很多。

其實開發(fā) Genie 1 時,我們用的是 Imagine 模型,當時我們的模型效果并不好,而且想要生成合適的圖像也非常困難。Nano Banana Pro 是在Genie 3之后推出的,技術進步的速度真的令人驚嘆。也許未來某一天,我們定義虛擬世界的方式,將不再局限于圖像和文本,但就目前而言,這種方式已經(jīng)給了用戶足夠的創(chuàng)作靈活性。

主持人:這個模型的復雜度上限在哪里?比如能不能在同一個世界里加入大量并行的互動元素?模型會在什么情況下出現(xiàn)效果衰減?

其實 Nano Banana Pro 就是個很好的例子,如果一張圖片里有 10 個人臉,想要對這張圖進行編輯,模型就容易出問題。所以我想知道,Genie 3 的自然性能邊界在哪里?

研究員:這個模型肯定不是完美的,目前它還只是一個研究預覽版本。我們希望讓大家親自體驗,看看它的優(yōu)勢在哪里,不足又在哪里,我們也能從用戶反饋中學習和優(yōu)化。

目前模型在各類創(chuàng)意環(huán)境的視覺呈現(xiàn)上做得不錯,畫面可以非常精致,但在世界的動態(tài)表現(xiàn)上還有短板 —— 有時候初期的動態(tài)效果很好,但時間久了,動態(tài)感會逐漸減弱,這也是我們正在優(yōu)化的點。不過它的表現(xiàn)已經(jīng)足夠令人驚喜了,所以還是建議大家親自上手試試,看看哪些玩法能達到理想效果。

研究員:不過說到延遲問題,還有很多技術點需要考慮。Genie 3 的研發(fā)有一個核心約束:我們希望實現(xiàn)特定操作頻率下的實時低延遲,也就是說,用戶操作的往返延遲要極低。同時,內存也是一個巨大的約束 —— 模型的上下文長度越長,通常算力成本就越高,運行速度也會越慢。

所以研發(fā)的核心挑戰(zhàn),就是平衡這些相互沖突的目標。而在研究層面,我們正在所有這些領域持續(xù)優(yōu)化,我們相信,模型的性能會不斷提升,變得更強大、更快、更經(jīng)濟,這也是行業(yè)的整體發(fā)展趨勢。

主持人:我還有個問題,模型的生成時長是人為限制在 60 秒,還是真的能實現(xiàn) 3 到 5 分鐘的連續(xù)生成?

研究員其實我們已經(jīng)做出過能連續(xù)生成更久的演示版本了,但我們覺得 60 秒是一個比較合適的時長 —— 既能讓用戶充分體驗虛擬世界,又能保證為足夠多的用戶提供服務,這其實是在服務成本上做的權衡。

而且就像我們之前提到的,生成時間越長,世界的動態(tài)感會逐漸減弱。所以我們覺得,與其花兩分鐘體驗一個世界,不如花一分鐘體驗兩個不同的世界,體驗感會更好。當然,如果用戶反饋希望延長時長,我們也會做出調整。

這也和虛擬世界的類型有關,比如如果你在體驗高山速降滑雪,兩分鐘的時長會很過癮,因為整個過程是持續(xù)的動態(tài)體驗;但如果只是探索圖書館,兩分鐘可能就沒那么有趣了。

主持人:是啊,人們總是能很快適應新的技術體驗。但對我來說,這個模型的表現(xiàn)依然令人難以置信。你之前被問到能不能讓模型運行得更快,現(xiàn)在的速度已經(jīng)到極限了嗎?

研究員在當前實時交互需求下,生成速度已經(jīng)足夠快,短期內進一步加速的意義不大。因為模型是實時生成虛擬世界的,速度再快其實也沒有意義了 —— 它的生成速度已經(jīng)和用戶的體驗速度完全匹配。接下來我們的研發(fā)重點,會放在降低算力成本上,這樣才能讓更多人用上這款產(chǎn)品。同時,在保持速度的前提下,不斷增加新功能,這本身也是一個巨大的挑戰(zhàn),我們希望在各個方面都把模型做得更好。

背后的故事:谷歌跨團隊協(xié)作

主持人:聊完當下的體驗,我特別想知道模型的未來迭代方向。不過在聊未來之前,我們先回顧一下研發(fā)歷程吧。我們八月份發(fā)布了精靈 3 號的首支演示視頻,之后啟動了可信測試,不斷迭代產(chǎn)品、搭建基礎設施。能不能跟大家快速講講,從一支驚艷的演示視頻、小規(guī)模的早期測試,到正式推出面向用戶的精靈計劃,這中間都經(jīng)歷了什么?

研究員:首先,八月份發(fā)布模型和演示視頻后,我們讓一小部分人體驗了產(chǎn)品,核心是為了收集反饋 —— 因為這是一款全新的應用,一種全新的體驗,我們需要思考如何負責任地將它推向市場。

從那以后,我們的大部分工作都集中在基礎設施、服務架構和成本控制上,畢竟我們希望能讓盡可能多的用戶體驗到它。而美國的谷歌 Ultra 訂閱體系,能讓我們觸達足夠多的用戶,收集到第一手的反饋:比如用戶覺得哪些功能有用,會如何和產(chǎn)品互動,哪些玩法體驗最好。這段時間里,我們也在持續(xù)完善可信測試項目。

這其實是模型開發(fā)周期中最核心的階段,因為我們能從不同類型的用戶身上學到很多東西,無論是創(chuàng)意工作者,還是教育領域的從業(yè)者,都能給我們帶來豐富的洞察,讓我們知道模型目前的實際應用價值、未來的發(fā)展方向,以及哪些體驗是用戶最期待的。

回頭看八月份,當時我們知道大家肯定想體驗這款產(chǎn)品,但它那時還只是一個大規(guī)模的研究項目。我們腦海里有很多應用場景,比如智能體、機器人這類具身智能領域,都能用到這項技術。去年年底還有一個和我們類似的項目發(fā)布,他們也用Genie 3來訓練游戲智能體。

從消費端的角度來看,我們覺得這個產(chǎn)品會很有吸引力,所以想收集用戶反饋,但當時也不確定是否已經(jīng)到了面向更多用戶發(fā)布的時機。而迭戈主導的可信測試項目,讓我們發(fā)現(xiàn),用戶第一次上手這款產(chǎn)品時,都會有驚艷的體驗。我們希望深入了解更多的應用場景,所以這次的發(fā)布,也是我們在這方面邁出的一大步。

一年前,我根本沒想到這個模型能有這么強的吸引力,但現(xiàn)在它已經(jīng)成為一款非常有趣的產(chǎn)品,我們也很期待大家會用它來做什么。

主持人:聊完產(chǎn)品和技術,我們再來聊聊谷歌的跨團隊合作吧。顯然,從你們的分享和幕后工作來看,打造這款產(chǎn)品的難度非常大。谷歌內部有哪些團隊參與了 Genie 3 和 Genie 的研發(fā)?

研究員:幕后參與的團隊非常多,谷歌實驗室、谷歌創(chuàng)意實驗室是核心—— 畫廊里的那些虛擬世界,大多是創(chuàng)意實驗室的作品;還有服務團隊、基礎設施團隊,基本上有一個完整的幕后團隊在推動這項工作。從八月份發(fā)布模型到現(xiàn)在,我們一直在全力沖刺,所有團隊的付出都堪稱英勇。

我們還和溝通團隊深度合作,因為想要向大家解釋一款全新的模型,一種大家從未體驗過的技術,是一個非常細致的話題 —— 它起源于強化學習這個相對小眾的領域,現(xiàn)在卻被媒體、社交媒體上的各類人群廣泛討論,所以用正確的方式傳遞這項技術,非常重要。

回顧這個領域的研究起點,我們甚至不確定這項技術能否成功落地。而現(xiàn)在,我們讓它實現(xiàn)了實時交互,達到了不錯的畫質,完成了從研究構想到發(fā)布模型,再到推出面向用戶的體驗產(chǎn)品的閉環(huán),這一點讓我非常興奮。這并非理所當然,也充分體現(xiàn)了谷歌內部跨技術棧的團隊協(xié)作能力,這種能力非常獨特。

主持人:我們在鏡頭外還聊過,不僅是 Genie 3,谷歌所有模型的能力都在不斷拓展,而這和模型的訓練方式息息相關。杰克,你之前還尖銳地提到,這些模型其實并沒有針對任何特定的應用場景進行訓練,卻能在各個領域實現(xiàn)很好的泛化能力,能不能再聊聊這一點?

Jack:沒錯,我們一開始其實并不知道這個模型的具體應用場景。去年年底,Genie 團隊還在做純粹的研究項目,Genie 1最初只是一篇研究論文,和 VO(谷歌的視頻生成模型)完全不同。

與此同時,我們還在做 Doom 游戲引擎的相關研究,這項研究充分展現(xiàn)了實時交互的潛力,但它僅適用于 Doom 這一個特定的游戲世界,迭戈可以再聊聊這一點。

另外,2024 年 12 月 VO(谷歌的視頻生成模型)2 的發(fā)布,在 AI 領域已經(jīng)是很久以前的事了,但當時我看到它的效果時就覺得,視頻生成技術已經(jīng)成熟了,視覺質量達到了行業(yè)前沿,值得我們深入探索。

于是我們達成共識,認為這項技術的潛力無限,隨后組建了跨團隊的研發(fā)小組,匯集了各個領域的專家 —— 他們都在不同的技術領域有積累,我們相信把這些技術結合起來,會產(chǎn)生不可思議的效果。而我們的研發(fā),并非針對某個特定的下游應用場景,而是因為它蘊含著無數(shù)的應用可能。

最酷的是,我們腦海里有一些預想的應用場景,比如和Simmer 項目的合作,我們和這個項目的合作已經(jīng)有很長時間了,他們也參與了 Genie 2 的研發(fā),體驗過 Genie 2,現(xiàn)在已經(jīng)基于 Genie 3 發(fā)布了相關產(chǎn)品。

Simmer 是我們最強大的目標導向智能體之一,能在 3D 世界中互動,是由雙子座模型驅動的 —— 你可以在 3D 世界中向它輸入文本指令,它就能完成各種不同的目標,泛化能力非常強,還能通過自我提升學習。這也是我們邁向通用人工智能、具身智能的重要方向。

去年年底我們發(fā)布了這款智能體,他們就用 Genie 3 的虛擬世界來探索智能體的能力。要知道,Simmer 原本只在幾款游戲中接受過訓練,但現(xiàn)在借助 Genie 3,你只需輸入文本,就能創(chuàng)建一個全新的、甚至是照片級寫實的虛擬世界,然后把智能體放進去,看它完成各種任務。這兩個項目的結合,可以說是水到渠成。

未來的應用領域:娛樂、教育、具身智能

研究員:從應用層面來說,我個人對娛樂和教育領域的應用最期待。我們希望讓更多人體驗這款產(chǎn)品,看看憑借現(xiàn)有的技術,現(xiàn)在能打造出哪些應用。教育領域是我們重點關注的方向,比如讓人們在虛擬世界里互動學習 —— 想象一下,能為用戶打造一些他們在現(xiàn)實中無法體驗的場景,比如一個孩子害怕蜘蛛,我們可以打造一個滿是蜘蛛的房間,讓孩子在虛擬世界里慢慢適應,克服恐懼。我的孩子就怕蜘蛛,所以我覺得這種個性化的全新體驗,價值非常大,這也是我們近期的研發(fā)重點。

另一方面,我們之前也聊過,機器人技術和具身智能領域的世界模型,潛力也非常大。當然這個領域還有很多研究工作要做,但我個人對它充滿期待。簡單來說,核心思路就是:如果一個模型能模擬現(xiàn)實環(huán)境,那我們就可以用它在虛擬世界里訓練機器人,或是讓具身智能體在虛擬世界里學習,甚至實時輔助智能體做出決策。

Genie 計劃雖然現(xiàn)在已經(jīng)很驚艷了,但它只是一個起點。未來我們會和谷歌實驗室繼續(xù)深度合作,不斷優(yōu)化產(chǎn)品的功能、操控方式、應用架構等;也會拓展更多的使用場景,不局限于Genie計劃這一個應用,還會推出開發(fā)者 API,讓更多開發(fā)者參與進來。

不得不說,開發(fā)者總能發(fā)掘出產(chǎn)品的商業(yè)價值,找到極具經(jīng)濟影響力的應用場景,這也是我覺得很有意思的一點 —— 除了娛樂,世界模型還能在哪些領域找到產(chǎn)品市場契合點。

而且很多功能在不同的應用場景中是相通的,比如更廣泛的交互性??梢钥隙ǖ氖牵瑱C器人技術的發(fā)展,不可能只靠方向鍵來實現(xiàn),未來的機器人助手需要更多的操控方式,而這和虛擬世界的交互研發(fā)是相通的。

八月份發(fā)布 Genie 3,讓我們成為首批推出這類模型的團隊,也讓我們能和谷歌內部的各個團隊展開合作。我們會認真吸納所有的用戶反饋,把大家提出的建議都列出來,成為下一代模型的研發(fā)方向。我之前跟杰克說過,我們只實現(xiàn)了目標的 50%—— 因為我們總是會設定極具野心的目標,這個領域還有太多可以探索的地方,模型還有很多不足,需要我們不斷優(yōu)化。

這個領域的發(fā)展空間巨大,我們才剛剛起步。就像寫論文一樣,一個項目完成后,你馬上就會想,下一個項目可以加入哪些功能,做得更好。

現(xiàn)在社區(qū)里也出現(xiàn)了很多有趣的世界模型,有些和 Genie 3 很相似,但我們的目光已經(jīng)放得更遠了。

怎么玩這個產(chǎn)品?

主持人:除了研發(fā)歷程和未來規(guī)劃,還有沒有什么想跟大家分享的?比如對于即將體驗這款模型的用戶,你們有什么建議?畢竟你們比普通人花了更多時間研究和使用模型。

研究員:我建議大家嘗試個性化創(chuàng)作,打造屬于自己的、其他系統(tǒng)無法實現(xiàn)的世界。當然,用它打造游戲環(huán)境也很有趣,但這類場景其他系統(tǒng)也能做到;而把現(xiàn)實中的專屬事物 —— 比如一個玩具、一張照片,或是讓自己以特定風格出現(xiàn)在真實的環(huán)境中,這種體驗是獨一無二的。

這讓我想起了 VO(谷歌的視頻生成模型)早期的一個研究項目:有人用 VO(谷歌的視頻生成模型)為阿爾茨海默病患者重現(xiàn)童年記憶,讓他們在虛擬世界里重溫過去,這個項目特別棒。所以我覺得,把個人專屬的事物融入虛擬世界,讓它們 “活” 過來,這種互動方式非常有價值,大家可以試試這個方向。

另外,大家肯定會發(fā)現(xiàn),模型的提示詞創(chuàng)作目前還不夠完善,但這恰恰是機會。幾年后當這個模型變得非常成熟時,大家會想起現(xiàn)在這個階段,就像我們現(xiàn)在看待 VO(谷歌的視頻生成模型)3 一樣 —— 現(xiàn)在 VO(谷歌的視頻生成模型)3 的每個提示詞都能生成優(yōu)質視頻,精靈 3 號的每個提示詞基本也能實現(xiàn)預期效果,但在早期,提示詞的創(chuàng)作至關重要,甚至有人會花 10 到 20 分鐘精心打磨一個提示詞。

所以如果第一次創(chuàng)作的效果不好,別放棄,這款全新的模型,可能會以你意想不到的方式呈現(xiàn)出驚喜的效果。而且親自上手體驗,你就不是在消費一款產(chǎn)品,而是在探索前沿技術。

主持人:太認同了,“探索前沿技術” 這句話簡直可以當作產(chǎn)品標語了。我還有一個覺得很有趣的點:當被動的媒體消費變成交互式的體驗,會發(fā)生什么?這是一片全新的未知領域。過去也有人做過嘗試,但現(xiàn)在有了這種真正定制化的交互式媒體敘事,它會給整個媒體和娛樂行業(yè)帶來什么影響,真的太值得期待了。

研究員還有一個玩法也很有趣,你可以在虛擬世界里設置挑戰(zhàn),把這個世界分享給別人,讓對方完成任務,比如從 A 點走到 B 點。這是一種基礎的、有目標的游戲體驗,現(xiàn)在的模型已經(jīng)能實現(xiàn)了。比如那個球的場景,你可以讓別人用球寫出自己的名字,這類簡單的挑戰(zhàn)都能設置。

就像杰克說的,現(xiàn)在的體驗雖然還比較基礎,但它蘊含著巨大的創(chuàng)意潛力。比如還有一個帶環(huán)的場景,你可以操控角色穿越環(huán)道,體驗飛行的感覺,這也是用戶發(fā)掘的玩法。

人們還經(jīng)常問,行業(yè)的前沿在哪里,我們下一步要做什么。我經(jīng)常會做一件事:長時間沉浸在 Genie 3 的第一人稱寫實世界里,然后看向窗外,對比虛擬和現(xiàn)實的差距。我認為最終,虛擬世界會和現(xiàn)實世界變得幾乎無法區(qū)分,雖然今天我們不深入聊這個話題,但從模型的性能發(fā)展來看,這顯然還有很長的路要走。但如果能生成和現(xiàn)實高度逼真的世界,在里面自由移動、互動、完成各種事情,那該多不可思議。

而這也是驅動我們開展這項研究的核心愿景:想象你擁有一個宇宙的副本,你可以在其中隨心所欲。顯然,這個副本有巨大的應用價值,能用到很多領域。這雖然是一個非常遠大、甚至可能無法實現(xiàn)的目標,但它就像北極星一樣,一直指引著我們。

比如我們這次把恐龍鮑勃放進虛擬世界,其實就是在重構現(xiàn)實空間,給現(xiàn)實事物做有趣的增強。未來這方面的探索,一定會非常有意思。

主持人:那到 Genie 5 的時候,我們可能真的會分不清自己是在現(xiàn)實還是在模擬世界里了。

世界模型是第三次技術躍遷

主持人:我還有一個有點尖銳的問題想問問大家:你們覺得,大多數(shù)人體驗到世界模型的時間線會是怎樣的?世界模型會先通過企業(yè)端影響普通人的生活嗎?比如企業(yè)利用世界模型提高生產(chǎn)效率,打造更好的日常產(chǎn)品;還是說,未來普通人的日常生活中,會直接和世界模型產(chǎn)生互動?如果是后者,這個時間線大概會是多久?

研究員:這其實取決于你如何定義世界模型。如果是指交互式的視聽體驗類世界模型,我認為今年、明年,就會有越來越多的人接觸到它,我們也會看到它在一些領域大放異彩,最終成為很多應用的基礎功能。

但就像現(xiàn)在的視頻生成技術,雖然發(fā)展很快,但真正融入普通人日常生活的比例其實并不高,世界模型也需要時間來完成用戶普及,找到合適的應用場景—— 畢竟視頻和圖像不同,世界模型又和視頻生成不同。

而如果是具身智能領域的世界模型應用,很難給出具體的時間線,但這個領域已經(jīng)在取得不錯的進展了。

另外,用戶的人群特征也很重要:有些經(jīng)常接觸交互式媒體的人,會成為世界模型的早期使用者,他們知道該如何體驗;但如果把它交給一個對前沿技術不感興趣的家人,他們可能會覺得無從下手,體驗不到產(chǎn)品的魅力。

但具身智能相關的應用,可能在未來 1-2 年就會走進現(xiàn)實,普通人會在生活中直接接觸到,所以最終的普及時間,還是取決于用戶所處的技術接受曲線位置。

還有一點,Genie計劃也印證了一個趨勢:生成式技術正在形成一個連續(xù)體,從 Nano Banana Pro 的圖像創(chuàng)作,到 VO(谷歌的視頻生成模型)的視頻生成,再到現(xiàn)在Genie 3的交互式實時媒體創(chuàng)作,成為第三個核心支柱。我們希望未來有更多人能體驗到這個連續(xù)體上的各類創(chuàng)作體驗。

主持人:我特別期待看到行業(yè)的發(fā)展趨勢,畢竟 VO(谷歌的視頻生成模型)和 Nano Banana Pro 的發(fā)展過程中,都出現(xiàn)過一些爆紅的玩法,都是我從未預料到的,太瘋狂了。

研究員:世界模型的發(fā)展,和圖像、視頻生成還有些不同。圖像和視頻生成的作品,能被數(shù)百萬人觀看,一個人的創(chuàng)作可以被廣泛傳播,家人、朋友都能看到;而世界模型的獨特之處在于,你可以在探索的過程中,不斷改變周圍的世界,這開辟了很多我們未曾考慮過的新途徑、新玩法。

圖像和視頻生成,本質上是用新技術替代或自動化了過去的一些創(chuàng)作方式,當然也帶來了新的能力和限制;但世界模型,實現(xiàn)了很多過去根本不可能做到的事情,這是它最大的不同,當然二者也有很多相似之處。

還有一個我們非常興奮的想法,大家在演示中也能看到端倪:用戶可以在現(xiàn)有虛擬世界的基礎上繼續(xù)創(chuàng)作,這樣就會形成很多有趣的世界分支,還能追溯創(chuàng)作源頭。這方面的潛力非常大,值得我們深入探索。

Genie 計劃上線時,用戶可以下載自己的虛擬世界演示視頻;未來我們還會探索更多的世界分享方式,讓大家能以更有趣的方式在別人的世界基礎上創(chuàng)作。

主持人:太酷了,我還想要一個 “世界檔案” 功能,這樣大家就能看到我所有的創(chuàng)意想法了。

從世界模型的發(fā)展來看,技術進步的節(jié)奏是怎樣的?顯然我們已經(jīng)看到了巨大的進步,圖像生成、VO(谷歌的視頻生成模型)視頻生成、核心雙子座模型,都取得了長足的發(fā)展。世界模型是不是也在遵循同樣的發(fā)展軌跡,到處都是觸手可及的技術突破,同時受益于算力規(guī)模和推理能力的提升?

研究員:可以這么說。圖像生成技術顯然比視頻生成更成熟,視頻生成和世界模型之間的差距,我無法準確衡量,但可以肯定的是,世界模型是超越視頻生成的前沿技術。

最新一代的視頻生成模型,畫質已經(jīng)比Genie 3高很多了,我們也不指望Genie 3現(xiàn)在能生成極致精美的視頻,因為實時交互的約束,是普通視頻生成模型所沒有的。所以世界模型的發(fā)展,可能會比視頻生成稍慢一些,但它能帶來全新的體驗。

說實話,我們現(xiàn)在仍處于技術快速進步的階段。硬件始終是一個巨大的約束,這對所有模型來說都是如此。行業(yè)的整體趨勢是,在成本基本不變的情況下,讓模型的運行效率越來越高。但最終,我們還是需要更易獲取的硬件支持—— 比如希望未來人們能直接在自己的設備上運行這類模型,實現(xiàn)無延遲的即時體驗。

目前高性能的 TPU、GPU 還并非人人可得,硬件的發(fā)展速度因為一些實際原因,會比模型研發(fā)慢一些,但這也是我們的未來方向—— 希望到 Genie 5 時,大家能在手機上運行完整的通用模擬系統(tǒng)。

這一點我們也討論過,谷歌擁有垂直技術棧的優(yōu)勢,這也是我們在谷歌、在深度思維工作的魅力所在:我們既能站在模型研發(fā)的前沿,又能利用谷歌最好的硬件來支持模型的運行。而且專門為世界模擬打造的硬件,本身也極具發(fā)展?jié)摿?,它就像通往另一個維度的入口,點擊就能進入,充滿了新鮮感。

傳送門:

https://labs.google/projectgenie

鏈接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view\_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD\_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm\_medium=gift-link

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術前沿到行業(yè)應用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結全球技術先鋒,拆解真實生產(chǎn)案例、深挖技術與產(chǎn)業(yè)落地痛點,探索前沿領域、聚焦產(chǎn)業(yè)賦能,獲取實戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實現(xiàn)技術價值轉化。把握行業(yè)變革關鍵節(jié)點,搶占 2026 智能升級發(fā)展先機!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗發(fā)射近1200枚導彈報復美國和以色列

伊朗發(fā)射近1200枚導彈報復美國和以色列

中國網(wǎng)
2026-03-01 16:43:10
3月1日起全國執(zhí)行!這些費用全取消,家家都能??!

3月1日起全國執(zhí)行!這些費用全取消,家家都能省!

達文西看世界
2026-03-02 15:40:41
前總統(tǒng)生死不明 伊朗人的“脊梁”會被打斷嗎?

前總統(tǒng)生死不明 伊朗人的“脊梁”會被打斷嗎?

看看新聞Knews
2026-03-02 23:07:07
伊朗外長這番話,可能暗示一個大問題

伊朗外長這番話,可能暗示一個大問題

觀察者網(wǎng)
2026-03-02 19:11:48
祖國遭受戰(zhàn)亂,伊朗女足在奏國歌時集體保持緘默

祖國遭受戰(zhàn)亂,伊朗女足在奏國歌時集體保持緘默

懂球帝
2026-03-03 10:15:09
1勝9負,奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

1勝9負,奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

老梁體育漫談
2026-03-02 23:30:56
以色列全境發(fā)布防空警報

以色列全境發(fā)布防空警報

環(huán)球網(wǎng)資訊
2026-03-03 07:04:52
新華時評:當炸彈落在校園,文明底線何在

新華時評:當炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
美媒爆:美國正為未來24小時內“大幅增加”對伊朗襲擊做準備

美媒爆:美國正為未來24小時內“大幅增加”對伊朗襲擊做準備

環(huán)球網(wǎng)資訊
2026-03-03 09:45:10
特朗普稱不排除對伊派地面部隊

特朗普稱不排除對伊派地面部隊

財聯(lián)社
2026-03-03 08:59:08
越南女子遠嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

越南女子遠嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

談史論天地
2026-03-02 19:45:03
高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

念洲
2026-03-03 06:31:52
全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

財聯(lián)社
2026-03-02 10:57:04
36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

極目新聞
2026-03-02 15:45:15
伊拉克武裝參戰(zhàn)!“發(fā)動28次襲擊”

伊拉克武裝參戰(zhàn)!“發(fā)動28次襲擊”

揚子晚報
2026-03-03 07:20:25
午評:滬指探底回升 “三桶油”再度全線漲停

午評:滬指探底回升 “三桶油”再度全線漲停

財聯(lián)社
2026-03-03 11:37:46
“伊朗德黑蘭飛烏魯木齊航班進入中國領空 機艙內傳來廣播”視頻熱傳 川航:未開通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進入中國領空 機艙內傳來廣播”視頻熱傳 川航:未開通伊朗航線

閃電新聞
2026-03-02 17:29:47
伊朗人拿的清末劇本,答案在我們中學課本

伊朗人拿的清末劇本,答案在我們中學課本

鑒茶院
2026-03-03 08:03:31
特朗普稱將很快宣布報復措施

特朗普稱將很快宣布報復措施

界面新聞
2026-03-03 09:19:08
李雨桐發(fā)文“和解但不原諒”,曬出與薛之謙的聊天片段,

李雨桐發(fā)文“和解但不原諒”,曬出與薛之謙的聊天片段,

東方不敗然多多
2026-03-03 10:09:14
2026-03-03 12:04:49
InfoQ incentive-icons
InfoQ
有內容的技術社區(qū)媒體
12096文章數(shù) 51783關注度
往期回顧 全部

科技要聞

手機AI在MWC上卷出了新高度

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

數(shù)碼
教育
親子
房產(chǎn)
軍事航空

數(shù)碼要聞

小米Xiaomi Tag防丟器國內開售:僅重10克續(xù)航一年,69元起

教育要聞

高中物理全反射實驗課件

親子要聞

科普|帶您認識兒童小腸增強CT檢查

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版