国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

劈柴哥和哈薩比斯親自站臺(tái)!谷歌世界模型Project Genie刷屏,幕后團(tuán)隊(duì)揭秘60秒不是極限,內(nèi)存是巨大約束

0
分享至


作者 | 高允毅

世界模型真的變天了!

今天,谷歌正式發(fā)布重磅世界模型原型產(chǎn)品“Project Genie”,只需一句話(huà)或一張圖,就能一鍵生成可玩、可交互的實(shí)時(shí)虛擬世界。它的重磅程度,讓谷歌“掌舵人”劈柴哥和 Google DeepMind 創(chuàng)始人哈薩比斯親自為它站臺(tái)。



在 Project Genie 生成的虛擬世界中,你可以用 WASD 鍵移動(dòng)角色、旋轉(zhuǎn)視角、跳躍,在生成世界自由探索。更重要的是,其生成畫(huà)面的精細(xì)度、整體完成度,已經(jīng)明顯超出以往研究型 Demo 的范疇,在觀(guān)感上直逼成熟游戲產(chǎn)品。

過(guò)去幾年,世界模型一直被認(rèn)為是通往 AGI 的重要路徑,但始終存在一個(gè)根本問(wèn)題:它們更像會(huì)動(dòng)的視頻,而不是真正的環(huán)境。

具體來(lái)說(shuō),早期世界模型普遍存在幾大短板:

  • 生成世界質(zhì)量偏低,結(jié)構(gòu)簡(jiǎn)單

  • 難以實(shí)時(shí)交互,或只能交互一兩步

  • 長(zhǎng)期一致性差,畫(huà)面和規(guī)則會(huì)“漂移”

  • 不符合物理和因果邏輯,更像夢(mèng)境而非世界

而 Project Genie,第一次把這些問(wèn)題同時(shí)拉到了可用水平。

Project Genie 是一個(gè)基于Genie 3、Nano Banana Pro 和 Gemini構(gòu)建的原型 Web 應(yīng)用,其中的核心是谷歌最新的世界模型 Genie 3。

與以往“先生成完整視頻”的方式不同,Genie 3 采用自回歸生成機(jī)制:它會(huì)根據(jù)世界描述和用戶(hù)操作,逐幀生成環(huán)境狀態(tài),而不是播放預(yù)先生成好的內(nèi)容。

這帶來(lái)了幾個(gè)關(guān)鍵變化:

  • 長(zhǎng)期一致性 生成的世界可以在數(shù)分鐘內(nèi)保持穩(wěn)定,不會(huì)快速崩壞;系統(tǒng)還能“記住”用戶(hù)造成的關(guān)鍵變化,記憶時(shí)間最長(zhǎng)可達(dá)約一分鐘。

  • 真正的實(shí)時(shí)交互 世界以 20–24 幀 / 秒運(yùn)行,用戶(hù)的操作會(huì)即時(shí)反饋到環(huán)境中,而非觸發(fā)預(yù)設(shè)結(jié)果。

  • 更高質(zhì)量的視覺(jué)表現(xiàn) 生成畫(huà)面分辨率約為 720p,整體真實(shí)感和細(xì)節(jié)水平明顯高于以往世界模型,為智能體理解復(fù)雜環(huán)境提供了更可信的視覺(jué)基礎(chǔ)。

谷歌早在 2025 年就將 Genie 3 稱(chēng)為“通往 AGI 的關(guān)鍵一步”。而在 Project Genie 的官方頁(yè)面中,谷歌再次強(qiáng)調(diào):

Genie 3 讓智能體能夠預(yù)測(cè)世界如何演化,以及自身行為如何影響世界,這是實(shí)現(xiàn)推理、規(guī)劃和現(xiàn)實(shí)行動(dòng)的基礎(chǔ)。

可以說(shuō),在 Project Genie 身上,已經(jīng)釋放出一個(gè)非常明確的信號(hào):世界模型正在從長(zhǎng)期的前沿研究方向,正式邁入可落地、可探索的關(guān)鍵階段。

一旦世界模型能夠穩(wěn)定生成高質(zhì)量、可交互、具備長(zhǎng)期一致性的環(huán)境,其應(yīng)用邊界將被迅速打開(kāi)。

無(wú)論是自動(dòng)駕駛中的復(fù)雜場(chǎng)景模擬、具身智能的環(huán)境理解與決策訓(xùn)練,還是游戲開(kāi)發(fā)、影視制作、互動(dòng)教育與新型媒體內(nèi)容創(chuàng)作,世界模型都展現(xiàn)出極具想象空間的潛力。

據(jù) The Verge 報(bào)道,谷歌選擇在這一時(shí)間點(diǎn)推出 Project Genie,部分原因在于希望觀(guān)察用戶(hù)的真實(shí)使用方式,從而發(fā)現(xiàn)此前尚未預(yù)料到的新應(yīng)用場(chǎng)景。

Google DeepMind 產(chǎn)品經(jīng)理 迭戈·里瓦斯透露,谷歌內(nèi)部已經(jīng)對(duì) Genie 在電影制作、互動(dòng)教育媒體等領(lǐng)域,幫助創(chuàng)作者進(jìn)行場(chǎng)景可視化與世界構(gòu)建的潛力感到興奮。

目前,Project Genie 仍是實(shí)驗(yàn)性產(chǎn)品:

  • 單個(gè)世界最長(zhǎng)探索60 秒

  • 分辨率約 720p,幀率約 24fps

  • 僅向美國(guó)地區(qū)、18 歲以上的 Google AI Ultra 訂閱用戶(hù)開(kāi)放

Project Genie 發(fā)布后迅速引發(fā)熱議。馬斯克第一時(shí)間發(fā)文祝賀


關(guān)于 Project Genie 的討論,也在 X 上迅速擴(kuò)散,不少網(wǎng)友將其稱(chēng)為又一個(gè)“變革時(shí)刻”。





對(duì)此,Project Genie 負(fù)責(zé)人之一 Jack Parker-Holder 表示:

Genie 3 感覺(jué)像是世界模型領(lǐng)域的一個(gè)分水嶺。我們現(xiàn)在可以生成任何可想象世界的、持續(xù)數(shù)分鐘的實(shí)時(shí)交互式模擬。這可能正是具身通用人工智能此前缺失的關(guān)鍵一環(huán)。

網(wǎng)友們玩瘋了,在游戲世界釋放創(chuàng)意

具體來(lái)看,Project Genie 的使用流程并不復(fù)雜。進(jìn)入頁(yè)面后,用戶(hù)可以直接從 Google 預(yù)設(shè)的多個(gè)世界模板中選擇,也可以完全自定義環(huán)境和角色,構(gòu)建一個(gè)專(zhuān)屬的虛擬世界。


為實(shí)現(xiàn)更精準(zhǔn)的控制,Project Genie 會(huì)用 Nano Banana Pro 的能力,先為生成世界打個(gè)“草稿”。

整個(gè)頁(yè)面被清晰地分成左右兩部分:

  • 左側(cè)用于填寫(xiě)環(huán)境的 prompt,例如地形結(jié)構(gòu)、視覺(jué)風(fēng)格和整體氛圍;

  • 右側(cè)則用于描述主角的形象與設(shè)定,并可選擇第一人稱(chēng)或第三人稱(chēng)視角,從而提前確定進(jìn)入世界后的體驗(yàn)方式。

完成初步設(shè)定后,Genie 會(huì)先生成一個(gè)縮略圖,可以對(duì)生成內(nèi)容進(jìn)行預(yù)覽和微調(diào)。如果符合預(yù)期,就能進(jìn)入生成世界,開(kāi)始實(shí)時(shí)交互與自由探索。Genie 3 的響應(yīng)延時(shí)非常低,在控制角色移動(dòng)時(shí),會(huì)帶來(lái)強(qiáng)烈的沉浸感。

在官方案例中,你可以把自己變成一個(gè)球,在草原上自由滾動(dòng)。

可以看到,如果轉(zhuǎn)換視角,球滾動(dòng)留下的痕跡并不會(huì)消失,新生成的內(nèi)容也不會(huì)覆蓋舊區(qū)域。這一細(xì)節(jié)直觀(guān)地體現(xiàn)了 Project Genie 所強(qiáng)調(diào)的世界一致性。

在另一個(gè)官方案例中,你可以變成刷墻工人,想刷哪面墻就刷哪面,整個(gè)虛擬世界可以實(shí)時(shí)交互,且看起來(lái)十分合理。

谷歌表示,這是想象力空間的無(wú)限釋放,無(wú)論是自然世界或現(xiàn)實(shí)場(chǎng)景,還是構(gòu)建動(dòng)畫(huà)、小說(shuō)中的奇幻世界,甚至是突破時(shí)間與空間限制的未來(lái)世界,都可以被創(chuàng)造出來(lái)。

不少網(wǎng)友迅速上手,開(kāi)始“放飛自我”式創(chuàng)作,其中,各類(lèi)游戲風(fēng)格世界不斷涌現(xiàn)。

比如在沙灘上騎摩托:

更絕的是直接制作山寨版“任天堂”游戲。比如馬里奧系列,《塞爾達(dá)傳說(shuō)》,《銀河戰(zhàn)士》。

即便拋開(kāi)體驗(yàn)層面的不足不談,Project Genie 在生成世界的質(zhì)量與完成度上,依然足以令人震撼。這也難免讓人產(chǎn)生進(jìn)一步的聯(lián)想,游戲從業(yè)者會(huì)不會(huì)大規(guī)模失業(yè)?

這一擔(dān)憂(yōu)并非空穴來(lái)風(fēng)。根據(jù) Informa 本周發(fā)布的游戲開(kāi)發(fā)者大會(huì)(GDC)報(bào)告,33% 的美國(guó)受訪(fǎng)游戲開(kāi)發(fā)者、以及 28% 的全球受訪(fǎng)游戲開(kāi)發(fā)者表示,他們?cè)谶^(guò)去兩年中至少經(jīng)歷過(guò)一次裁員。Project Genie 可能會(huì)進(jìn)一步擴(kuò)大這種趨勢(shì)。

不過(guò),圍繞 Project Genie 的能力邊界,也有人提出質(zhì)疑。

The Verge 的記者親自上手試驗(yàn)后認(rèn)為,從“游戲”的角度來(lái)看,Project Genie 所生成的“可玩世界”顯得相當(dāng)單調(diào)。

除了基礎(chǔ)移動(dòng)操作外,玩家?guī)缀鯚o(wú)事可做。沒(méi)有任務(wù)目標(biāo),也缺乏音效反饋。更糟糕的是,輸入延遲時(shí)有發(fā)生,甚至?xí)霈F(xiàn)角色失控、只能旋轉(zhuǎn)視角的情況,嚴(yán)重影響整體體驗(yàn)的流暢度。

該記者還提到,在僅有 60 秒 的探索時(shí)間內(nèi),世界的一致性并不穩(wěn)定。系統(tǒng)有時(shí)會(huì)“忘記”此前生成的內(nèi)容,例如滾動(dòng)的小球留下的顏料痕跡會(huì)突然消失,已生成的道路也可能被重新覆蓋為草地。這些現(xiàn)象讓人難以確認(rèn)模型是否能夠持續(xù)、可靠地維護(hù)同一個(gè)世界狀態(tài)。

在內(nèi)容生成層面,Project Genie 對(duì)知名游戲 IP 也存在明顯限制。測(cè)試中,索拉、唐老鴨、高飛、杰克·斯凱靈頓等角色均無(wú)法直接用于生成可交互世界,相關(guān)內(nèi)容在進(jìn)入實(shí)際體驗(yàn)階段會(huì)被系統(tǒng)攔截。


目前,與生成世界交互的智能體只能執(zhí)行較為有限的操作,同一世界中多個(gè)模型之間也難以協(xié)同互動(dòng)。此外,Genie 在渲染清晰文本、還原現(xiàn)實(shí)世界具體地點(diǎn)方面仍存在困難,智能體對(duì)控制指令的響應(yīng)有時(shí)也會(huì)出現(xiàn)異常延遲。

對(duì)此,谷歌方面回應(yīng)稱(chēng),Genie 并非游戲引擎,團(tuán)隊(duì)更關(guān)注它在增強(qiáng)創(chuàng)意過(guò)程、提升構(gòu)思能力以及加快原型制作方面所展現(xiàn)出的潛力。

在 Geinie 3 官網(wǎng)上也特別強(qiáng)調(diào),目前產(chǎn)品仍處于早期研究階段,因此會(huì)有:生成的世界可能看起來(lái)并不完全逼真,也不一定總是嚴(yán)格遵循提示、圖像或現(xiàn)實(shí)世界的物理規(guī)律;角色有時(shí)可能難以控制,或者控制延遲較高;生成時(shí)間受限等問(wèn)題。

Project Genie 團(tuán)隊(duì)深度揭秘關(guān)鍵問(wèn)題

在 Project Genie 上線(xiàn)不久,其背后的核心團(tuán)隊(duì)第一時(shí)間接受采訪(fǎng),包括 Google DeepMind 研究總監(jiān) Shlomi Fruchter、Google DeepMind 的研究科學(xué)家 Jack Parker-Holder、產(chǎn)品 Diego Rivas,他們都對(duì)世界模型長(zhǎng)期關(guān)注,在這次訪(fǎng)談中深度揭秘 Project Genie 的關(guān)鍵問(wèn)題。

這次對(duì)話(huà)討論了:什么是世界模型?為什么只能生成 60 秒?Project Genie 的研發(fā)歷程是什么?它未來(lái)真正可能改變的是哪些領(lǐng)域?

他們首先承認(rèn) Project Genie 的強(qiáng)大確實(shí)源于谷歌視頻生成技術(shù)的積累,但同時(shí)他們也強(qiáng)調(diào),Genie 并不是更強(qiáng)的“視頻模型”,而是人類(lèi)第一次可以實(shí)時(shí)走進(jìn)、操控、改變的生成世界。

其中的核心差異是,世界模型是逐幀實(shí)時(shí)生成,能與過(guò)去保持物理與視覺(jué)一致性,并且用戶(hù)可隨時(shí)干預(yù)。這對(duì)延遲、內(nèi)存、算力的要求,比普通視頻生成高得多,也是更前沿、更有挑戰(zhàn)的方向。

針對(duì)不少人抱怨“60 秒不夠”的問(wèn)題,他們表示這是在服務(wù)成本、系統(tǒng)穩(wěn)定性和體驗(yàn)質(zhì)量之間做出的權(quán)衡。他們其實(shí)已經(jīng)做出過(guò)更長(zhǎng)時(shí)間的生成世界,但在實(shí)際測(cè)試中發(fā)現(xiàn),隨著生成時(shí)間拉長(zhǎng),世界的動(dòng)態(tài)感反而會(huì)逐漸減弱。

研究員表示“與其花兩分鐘體驗(yàn)一個(gè)世界,不如花一分鐘體驗(yàn)兩個(gè)不同的世界,體驗(yàn)感會(huì)更好?!?/p>

針對(duì)模型的生成速度,他們表示已經(jīng)夠快了,短期內(nèi)進(jìn)一步“加速”并沒(méi)有太大意義。接下來(lái),他們更重要的研發(fā)方向,是降低算力成本,讓這種能力能夠被更多人真正用得起。

在產(chǎn)品定位上,他們并不把 Genie 看作一款游戲,而更像是一個(gè)正在快速演化的實(shí)驗(yàn)場(chǎng):

  • 一方面,多人互動(dòng)、長(zhǎng)期一致性、復(fù)雜動(dòng)態(tài)仍然是明確的技術(shù)瓶頸;

  • 另一方面,娛樂(lè)、教育、具身智能、機(jī)器人訓(xùn)練等方向,已經(jīng)展現(xiàn)出非常清晰的應(yīng)用前景

回顧產(chǎn)品研發(fā)歷程,從論文階段的 Genie 1,到今天普通用戶(hù)可以親自上手體驗(yàn)的 Genie 3,這背后其實(shí)是谷歌一整套高度協(xié)同的跨部門(mén)合作。

谷歌實(shí)驗(yàn)室與谷歌創(chuàng)意實(shí)驗(yàn)室是研發(fā)的核心力量,而服務(wù)團(tuán)隊(duì)、基礎(chǔ)設(shè)施團(tuán)隊(duì)和溝通團(tuán)隊(duì)則共同兜底,確保這項(xiàng)起源于強(qiáng)化學(xué)習(xí)的前沿研究,能夠被真實(shí)用戶(hù)理解、體驗(yàn)并持續(xù)使用。

當(dāng)團(tuán)隊(duì)回看去年八月時(shí),他們很清楚,當(dāng)時(shí)外界已經(jīng)迫不及待想“走進(jìn)這個(gè)世界”,但 Genie 仍然只是一個(gè)規(guī)模龐大的研究項(xiàng)目。即便如此,研發(fā)人員腦海中已經(jīng)浮現(xiàn)出一系列潛在應(yīng)用場(chǎng)景,其中最清晰的方向之一,正是具身智能。一個(gè)標(biāo)志性的例子,是他們與 Simmer 項(xiàng)目的長(zhǎng)期合作。

Simmer 是由雙子座模型驅(qū)動(dòng)的目標(biāo)導(dǎo)向智能體,能夠在 3D 世界中執(zhí)行復(fù)雜任務(wù)。過(guò)去,它只能在少數(shù)幾個(gè)固定游戲環(huán)境中訓(xùn)練;而現(xiàn)在,借助 Genie 3,只需一句文本指令,就能生成一個(gè)全新的、甚至是照片級(jí)寫(xiě)實(shí)的虛擬世界,把智能體直接“放進(jìn)去”完成任務(wù)。

從 Nano Banana Pro 的圖像創(chuàng)作,到谷歌視頻生成的成熟,再到可交互的世界模型 Project Genie ,生成式技術(shù)正在構(gòu)成一個(gè)連續(xù)體,世界模型將成為第三次技術(shù)躍遷。

以下是播客的更多細(xì)節(jié),歡迎來(lái)看:

為什么只能 60 秒?

主持人:我很好奇,這背后的物理逼真度,是不是和我們?cè)?VO(谷歌的視頻生成模型)項(xiàng)目上取得的研究突破有關(guān)?感覺(jué)兩者之間有相似之處。

研究員:二者絕對(duì)是相關(guān)的,而且世界模型的研發(fā)難度其實(shí)更高。普通的視頻模型,能在整個(gè)視頻的時(shí)間線(xiàn)上自由調(diào)整過(guò)去和未來(lái)的幀,自由度很高 —— 就像有一塊畫(huà)布,模型能隨時(shí)間生成視頻,在畫(huà)面的各個(gè)位置做微調(diào),讓整體效果連貫美觀(guān)。

世界模型的難點(diǎn)在于,世界是持續(xù)演變的,每一幀的輸入都是未知的,模型必須保證生成的畫(huà)面既和過(guò)去的內(nèi)容連貫,又能匹配用戶(hù)當(dāng)下的操作,所以技術(shù)難度會(huì)大很多。

其實(shí)開(kāi)發(fā) Genie 1 時(shí),我們用的是 Imagine 模型,當(dāng)時(shí)我們的模型效果并不好,而且想要生成合適的圖像也非常困難。Nano Banana Pro 是在Genie 3之后推出的,技術(shù)進(jìn)步的速度真的令人驚嘆。也許未來(lái)某一天,我們定義虛擬世界的方式,將不再局限于圖像和文本,但就目前而言,這種方式已經(jīng)給了用戶(hù)足夠的創(chuàng)作靈活性。

主持人:這個(gè)模型的復(fù)雜度上限在哪里?比如能不能在同一個(gè)世界里加入大量并行的互動(dòng)元素?模型會(huì)在什么情況下出現(xiàn)效果衰減?

其實(shí) Nano Banana Pro 就是個(gè)很好的例子,如果一張圖片里有 10 個(gè)人臉,想要對(duì)這張圖進(jìn)行編輯,模型就容易出問(wèn)題。所以我想知道,Genie 3 的自然性能邊界在哪里?

研究員:這個(gè)模型肯定不是完美的,目前它還只是一個(gè)研究預(yù)覽版本。我們希望讓大家親自體驗(yàn),看看它的優(yōu)勢(shì)在哪里,不足又在哪里,我們也能從用戶(hù)反饋中學(xué)習(xí)和優(yōu)化。

目前模型在各類(lèi)創(chuàng)意環(huán)境的視覺(jué)呈現(xiàn)上做得不錯(cuò),畫(huà)面可以非常精致,但在世界的動(dòng)態(tài)表現(xiàn)上還有短板 —— 有時(shí)候初期的動(dòng)態(tài)效果很好,但時(shí)間久了,動(dòng)態(tài)感會(huì)逐漸減弱,這也是我們正在優(yōu)化的點(diǎn)。不過(guò)它的表現(xiàn)已經(jīng)足夠令人驚喜了,所以還是建議大家親自上手試試,看看哪些玩法能達(dá)到理想效果。

研究員:不過(guò)說(shuō)到延遲問(wèn)題,還有很多技術(shù)點(diǎn)需要考慮。Genie 3 的研發(fā)有一個(gè)核心約束:我們希望實(shí)現(xiàn)特定操作頻率下的實(shí)時(shí)低延遲,也就是說(shuō),用戶(hù)操作的往返延遲要極低。同時(shí),內(nèi)存也是一個(gè)巨大的約束 —— 模型的上下文長(zhǎng)度越長(zhǎng),通常算力成本就越高,運(yùn)行速度也會(huì)越慢。

所以研發(fā)的核心挑戰(zhàn),就是平衡這些相互沖突的目標(biāo)。而在研究層面,我們正在所有這些領(lǐng)域持續(xù)優(yōu)化,我們相信,模型的性能會(huì)不斷提升,變得更強(qiáng)大、更快、更經(jīng)濟(jì),這也是行業(yè)的整體發(fā)展趨勢(shì)。

主持人:我還有個(gè)問(wèn)題,模型的生成時(shí)長(zhǎng)是人為限制在 60 秒,還是真的能實(shí)現(xiàn) 3 到 5 分鐘的連續(xù)生成?

研究員其實(shí)我們已經(jīng)做出過(guò)能連續(xù)生成更久的演示版本了,但我們覺(jué)得 60 秒是一個(gè)比較合適的時(shí)長(zhǎng) —— 既能讓用戶(hù)充分體驗(yàn)虛擬世界,又能保證為足夠多的用戶(hù)提供服務(wù),這其實(shí)是在服務(wù)成本上做的權(quán)衡。

而且就像我們之前提到的,生成時(shí)間越長(zhǎng),世界的動(dòng)態(tài)感會(huì)逐漸減弱。所以我們覺(jué)得,與其花兩分鐘體驗(yàn)一個(gè)世界,不如花一分鐘體驗(yàn)兩個(gè)不同的世界,體驗(yàn)感會(huì)更好。當(dāng)然,如果用戶(hù)反饋希望延長(zhǎng)時(shí)長(zhǎng),我們也會(huì)做出調(diào)整。

這也和虛擬世界的類(lèi)型有關(guān),比如如果你在體驗(yàn)高山速降滑雪,兩分鐘的時(shí)長(zhǎng)會(huì)很過(guò)癮,因?yàn)檎麄€(gè)過(guò)程是持續(xù)的動(dòng)態(tài)體驗(yàn);但如果只是探索圖書(shū)館,兩分鐘可能就沒(méi)那么有趣了。

主持人:是啊,人們總是能很快適應(yīng)新的技術(shù)體驗(yàn)。但對(duì)我來(lái)說(shuō),這個(gè)模型的表現(xiàn)依然令人難以置信。你之前被問(wèn)到能不能讓模型運(yùn)行得更快,現(xiàn)在的速度已經(jīng)到極限了嗎?

研究員在當(dāng)前實(shí)時(shí)交互需求下,生成速度已經(jīng)足夠快,短期內(nèi)進(jìn)一步加速的意義不大。因?yàn)槟P褪菍?shí)時(shí)生成虛擬世界的,速度再快其實(shí)也沒(méi)有意義了 —— 它的生成速度已經(jīng)和用戶(hù)的體驗(yàn)速度完全匹配。接下來(lái)我們的研發(fā)重點(diǎn),會(huì)放在降低算力成本上,這樣才能讓更多人用上這款產(chǎn)品。同時(shí),在保持速度的前提下,不斷增加新功能,這本身也是一個(gè)巨大的挑戰(zhàn),我們希望在各個(gè)方面都把模型做得更好。

背后的故事:谷歌跨團(tuán)隊(duì)協(xié)作

主持人:聊完當(dāng)下的體驗(yàn),我特別想知道模型的未來(lái)迭代方向。不過(guò)在聊未來(lái)之前,我們先回顧一下研發(fā)歷程吧。我們八月份發(fā)布了精靈 3 號(hào)的首支演示視頻,之后啟動(dòng)了可信測(cè)試,不斷迭代產(chǎn)品、搭建基礎(chǔ)設(shè)施。能不能跟大家快速講講,從一支驚艷的演示視頻、小規(guī)模的早期測(cè)試,到正式推出面向用戶(hù)的精靈計(jì)劃,這中間都經(jīng)歷了什么?

研究員:首先,八月份發(fā)布模型和演示視頻后,我們讓一小部分人體驗(yàn)了產(chǎn)品,核心是為了收集反饋 —— 因?yàn)檫@是一款全新的應(yīng)用,一種全新的體驗(yàn),我們需要思考如何負(fù)責(zé)任地將它推向市場(chǎng)。

從那以后,我們的大部分工作都集中在基礎(chǔ)設(shè)施、服務(wù)架構(gòu)和成本控制上,畢竟我們希望能讓盡可能多的用戶(hù)體驗(yàn)到它。而美國(guó)的谷歌 Ultra 訂閱體系,能讓我們觸達(dá)足夠多的用戶(hù),收集到第一手的反饋:比如用戶(hù)覺(jué)得哪些功能有用,會(huì)如何和產(chǎn)品互動(dòng),哪些玩法體驗(yàn)最好。這段時(shí)間里,我們也在持續(xù)完善可信測(cè)試項(xiàng)目。

這其實(shí)是模型開(kāi)發(fā)周期中最核心的階段,因?yàn)槲覀兡軓牟煌?lèi)型的用戶(hù)身上學(xué)到很多東西,無(wú)論是創(chuàng)意工作者,還是教育領(lǐng)域的從業(yè)者,都能給我們帶來(lái)豐富的洞察,讓我們知道模型目前的實(shí)際應(yīng)用價(jià)值、未來(lái)的發(fā)展方向,以及哪些體驗(yàn)是用戶(hù)最期待的。

回頭看八月份,當(dāng)時(shí)我們知道大家肯定想體驗(yàn)這款產(chǎn)品,但它那時(shí)還只是一個(gè)大規(guī)模的研究項(xiàng)目。我們腦海里有很多應(yīng)用場(chǎng)景,比如智能體、機(jī)器人這類(lèi)具身智能領(lǐng)域,都能用到這項(xiàng)技術(shù)。去年年底還有一個(gè)和我們類(lèi)似的項(xiàng)目發(fā)布,他們也用Genie 3來(lái)訓(xùn)練游戲智能體。

從消費(fèi)端的角度來(lái)看,我們覺(jué)得這個(gè)產(chǎn)品會(huì)很有吸引力,所以想收集用戶(hù)反饋,但當(dāng)時(shí)也不確定是否已經(jīng)到了面向更多用戶(hù)發(fā)布的時(shí)機(jī)。而迭戈主導(dǎo)的可信測(cè)試項(xiàng)目,讓我們發(fā)現(xiàn),用戶(hù)第一次上手這款產(chǎn)品時(shí),都會(huì)有驚艷的體驗(yàn)。我們希望深入了解更多的應(yīng)用場(chǎng)景,所以這次的發(fā)布,也是我們?cè)谶@方面邁出的一大步。

一年前,我根本沒(méi)想到這個(gè)模型能有這么強(qiáng)的吸引力,但現(xiàn)在它已經(jīng)成為一款非常有趣的產(chǎn)品,我們也很期待大家會(huì)用它來(lái)做什么。

主持人:聊完產(chǎn)品和技術(shù),我們?cè)賮?lái)聊聊谷歌的跨團(tuán)隊(duì)合作吧。顯然,從你們的分享和幕后工作來(lái)看,打造這款產(chǎn)品的難度非常大。谷歌內(nèi)部有哪些團(tuán)隊(duì)參與了 Genie 3 和 Genie 的研發(fā)?

研究員:幕后參與的團(tuán)隊(duì)非常多,谷歌實(shí)驗(yàn)室、谷歌創(chuàng)意實(shí)驗(yàn)室是核心—— 畫(huà)廊里的那些虛擬世界,大多是創(chuàng)意實(shí)驗(yàn)室的作品;還有服務(wù)團(tuán)隊(duì)、基礎(chǔ)設(shè)施團(tuán)隊(duì),基本上有一個(gè)完整的幕后團(tuán)隊(duì)在推動(dòng)這項(xiàng)工作。從八月份發(fā)布模型到現(xiàn)在,我們一直在全力沖刺,所有團(tuán)隊(duì)的付出都堪稱(chēng)英勇。

我們還和溝通團(tuán)隊(duì)深度合作,因?yàn)橄胍虼蠹医忉屢豢钊碌哪P?,一種大家從未體驗(yàn)過(guò)的技術(shù),是一個(gè)非常細(xì)致的話(huà)題 —— 它起源于強(qiáng)化學(xué)習(xí)這個(gè)相對(duì)小眾的領(lǐng)域,現(xiàn)在卻被媒體、社交媒體上的各類(lèi)人群廣泛討論,所以用正確的方式傳遞這項(xiàng)技術(shù),非常重要。

回顧這個(gè)領(lǐng)域的研究起點(diǎn),我們甚至不確定這項(xiàng)技術(shù)能否成功落地。而現(xiàn)在,我們讓它實(shí)現(xiàn)了實(shí)時(shí)交互,達(dá)到了不錯(cuò)的畫(huà)質(zhì),完成了從研究構(gòu)想到發(fā)布模型,再到推出面向用戶(hù)的體驗(yàn)產(chǎn)品的閉環(huán),這一點(diǎn)讓我非常興奮。這并非理所當(dāng)然,也充分體現(xiàn)了谷歌內(nèi)部跨技術(shù)棧的團(tuán)隊(duì)協(xié)作能力,這種能力非常獨(dú)特。

主持人:我們?cè)阽R頭外還聊過(guò),不僅是 Genie 3,谷歌所有模型的能力都在不斷拓展,而這和模型的訓(xùn)練方式息息相關(guān)。杰克,你之前還尖銳地提到,這些模型其實(shí)并沒(méi)有針對(duì)任何特定的應(yīng)用場(chǎng)景進(jìn)行訓(xùn)練,卻能在各個(gè)領(lǐng)域?qū)崿F(xiàn)很好的泛化能力,能不能再聊聊這一點(diǎn)?

Jack:沒(méi)錯(cuò),我們一開(kāi)始其實(shí)并不知道這個(gè)模型的具體應(yīng)用場(chǎng)景。去年年底,Genie 團(tuán)隊(duì)還在做純粹的研究項(xiàng)目,Genie 1最初只是一篇研究論文,和 VO(谷歌的視頻生成模型)完全不同。

與此同時(shí),我們還在做 Doom 游戲引擎的相關(guān)研究,這項(xiàng)研究充分展現(xiàn)了實(shí)時(shí)交互的潛力,但它僅適用于 Doom 這一個(gè)特定的游戲世界,迭戈可以再聊聊這一點(diǎn)。

另外,2024 年 12 月 VO(谷歌的視頻生成模型)2 的發(fā)布,在 AI 領(lǐng)域已經(jīng)是很久以前的事了,但當(dāng)時(shí)我看到它的效果時(shí)就覺(jué)得,視頻生成技術(shù)已經(jīng)成熟了,視覺(jué)質(zhì)量達(dá)到了行業(yè)前沿,值得我們深入探索。

于是我們達(dá)成共識(shí),認(rèn)為這項(xiàng)技術(shù)的潛力無(wú)限,隨后組建了跨團(tuán)隊(duì)的研發(fā)小組,匯集了各個(gè)領(lǐng)域的專(zhuān)家 —— 他們都在不同的技術(shù)領(lǐng)域有積累,我們相信把這些技術(shù)結(jié)合起來(lái),會(huì)產(chǎn)生不可思議的效果。而我們的研發(fā),并非針對(duì)某個(gè)特定的下游應(yīng)用場(chǎng)景,而是因?yàn)樗N(yùn)含著無(wú)數(shù)的應(yīng)用可能。

最酷的是,我們腦海里有一些預(yù)想的應(yīng)用場(chǎng)景,比如和Simmer 項(xiàng)目的合作,我們和這個(gè)項(xiàng)目的合作已經(jīng)有很長(zhǎng)時(shí)間了,他們也參與了 Genie 2 的研發(fā),體驗(yàn)過(guò) Genie 2,現(xiàn)在已經(jīng)基于 Genie 3 發(fā)布了相關(guān)產(chǎn)品。

Simmer 是我們最強(qiáng)大的目標(biāo)導(dǎo)向智能體之一,能在 3D 世界中互動(dòng),是由雙子座模型驅(qū)動(dòng)的 —— 你可以在 3D 世界中向它輸入文本指令,它就能完成各種不同的目標(biāo),泛化能力非常強(qiáng),還能通過(guò)自我提升學(xué)習(xí)。這也是我們邁向通用人工智能、具身智能的重要方向。

去年年底我們發(fā)布了這款智能體,他們就用 Genie 3 的虛擬世界來(lái)探索智能體的能力。要知道,Simmer 原本只在幾款游戲中接受過(guò)訓(xùn)練,但現(xiàn)在借助 Genie 3,你只需輸入文本,就能創(chuàng)建一個(gè)全新的、甚至是照片級(jí)寫(xiě)實(shí)的虛擬世界,然后把智能體放進(jìn)去,看它完成各種任務(wù)。這兩個(gè)項(xiàng)目的結(jié)合,可以說(shuō)是水到渠成。

未來(lái)的應(yīng)用領(lǐng)域:娛樂(lè)、教育、具身智能

研究員:從應(yīng)用層面來(lái)說(shuō),我個(gè)人對(duì)娛樂(lè)和教育領(lǐng)域的應(yīng)用最期待。我們希望讓更多人體驗(yàn)這款產(chǎn)品,看看憑借現(xiàn)有的技術(shù),現(xiàn)在能打造出哪些應(yīng)用。教育領(lǐng)域是我們重點(diǎn)關(guān)注的方向,比如讓人們?cè)谔摂M世界里互動(dòng)學(xué)習(xí) —— 想象一下,能為用戶(hù)打造一些他們?cè)诂F(xiàn)實(shí)中無(wú)法體驗(yàn)的場(chǎng)景,比如一個(gè)孩子害怕蜘蛛,我們可以打造一個(gè)滿(mǎn)是蜘蛛的房間,讓孩子在虛擬世界里慢慢適應(yīng),克服恐懼。我的孩子就怕蜘蛛,所以我覺(jué)得這種個(gè)性化的全新體驗(yàn),價(jià)值非常大,這也是我們近期的研發(fā)重點(diǎn)。

另一方面,我們之前也聊過(guò),機(jī)器人技術(shù)和具身智能領(lǐng)域的世界模型,潛力也非常大。當(dāng)然這個(gè)領(lǐng)域還有很多研究工作要做,但我個(gè)人對(duì)它充滿(mǎn)期待。簡(jiǎn)單來(lái)說(shuō),核心思路就是:如果一個(gè)模型能模擬現(xiàn)實(shí)環(huán)境,那我們就可以用它在虛擬世界里訓(xùn)練機(jī)器人,或是讓具身智能體在虛擬世界里學(xué)習(xí),甚至實(shí)時(shí)輔助智能體做出決策。

Genie 計(jì)劃雖然現(xiàn)在已經(jīng)很驚艷了,但它只是一個(gè)起點(diǎn)。未來(lái)我們會(huì)和谷歌實(shí)驗(yàn)室繼續(xù)深度合作,不斷優(yōu)化產(chǎn)品的功能、操控方式、應(yīng)用架構(gòu)等;也會(huì)拓展更多的使用場(chǎng)景,不局限于Genie計(jì)劃這一個(gè)應(yīng)用,還會(huì)推出開(kāi)發(fā)者 API,讓更多開(kāi)發(fā)者參與進(jìn)來(lái)。

不得不說(shuō),開(kāi)發(fā)者總能發(fā)掘出產(chǎn)品的商業(yè)價(jià)值,找到極具經(jīng)濟(jì)影響力的應(yīng)用場(chǎng)景,這也是我覺(jué)得很有意思的一點(diǎn) —— 除了娛樂(lè),世界模型還能在哪些領(lǐng)域找到產(chǎn)品市場(chǎng)契合點(diǎn)。

而且很多功能在不同的應(yīng)用場(chǎng)景中是相通的,比如更廣泛的交互性??梢钥隙ǖ氖牵瑱C(jī)器人技術(shù)的發(fā)展,不可能只靠方向鍵來(lái)實(shí)現(xiàn),未來(lái)的機(jī)器人助手需要更多的操控方式,而這和虛擬世界的交互研發(fā)是相通的。

八月份發(fā)布 Genie 3,讓我們成為首批推出這類(lèi)模型的團(tuán)隊(duì),也讓我們能和谷歌內(nèi)部的各個(gè)團(tuán)隊(duì)展開(kāi)合作。我們會(huì)認(rèn)真吸納所有的用戶(hù)反饋,把大家提出的建議都列出來(lái),成為下一代模型的研發(fā)方向。我之前跟杰克說(shuō)過(guò),我們只實(shí)現(xiàn)了目標(biāo)的 50%—— 因?yàn)槲覀兛偸菚?huì)設(shè)定極具野心的目標(biāo),這個(gè)領(lǐng)域還有太多可以探索的地方,模型還有很多不足,需要我們不斷優(yōu)化。

這個(gè)領(lǐng)域的發(fā)展空間巨大,我們才剛剛起步。就像寫(xiě)論文一樣,一個(gè)項(xiàng)目完成后,你馬上就會(huì)想,下一個(gè)項(xiàng)目可以加入哪些功能,做得更好。

現(xiàn)在社區(qū)里也出現(xiàn)了很多有趣的世界模型,有些和 Genie 3 很相似,但我們的目光已經(jīng)放得更遠(yuǎn)了。

怎么玩這個(gè)產(chǎn)品?

主持人:除了研發(fā)歷程和未來(lái)規(guī)劃,還有沒(méi)有什么想跟大家分享的?比如對(duì)于即將體驗(yàn)這款模型的用戶(hù),你們有什么建議?畢竟你們比普通人花了更多時(shí)間研究和使用模型。

研究員:我建議大家嘗試個(gè)性化創(chuàng)作,打造屬于自己的、其他系統(tǒng)無(wú)法實(shí)現(xiàn)的世界。當(dāng)然,用它打造游戲環(huán)境也很有趣,但這類(lèi)場(chǎng)景其他系統(tǒng)也能做到;而把現(xiàn)實(shí)中的專(zhuān)屬事物 —— 比如一個(gè)玩具、一張照片,或是讓自己以特定風(fēng)格出現(xiàn)在真實(shí)的環(huán)境中,這種體驗(yàn)是獨(dú)一無(wú)二的。

這讓我想起了 VO(谷歌的視頻生成模型)早期的一個(gè)研究項(xiàng)目:有人用 VO(谷歌的視頻生成模型)為阿爾茨海默病患者重現(xiàn)童年記憶,讓他們?cè)谔摂M世界里重溫過(guò)去,這個(gè)項(xiàng)目特別棒。所以我覺(jué)得,把個(gè)人專(zhuān)屬的事物融入虛擬世界,讓它們 “活” 過(guò)來(lái),這種互動(dòng)方式非常有價(jià)值,大家可以試試這個(gè)方向。

另外,大家肯定會(huì)發(fā)現(xiàn),模型的提示詞創(chuàng)作目前還不夠完善,但這恰恰是機(jī)會(huì)。幾年后當(dāng)這個(gè)模型變得非常成熟時(shí),大家會(huì)想起現(xiàn)在這個(gè)階段,就像我們現(xiàn)在看待 VO(谷歌的視頻生成模型)3 一樣 —— 現(xiàn)在 VO(谷歌的視頻生成模型)3 的每個(gè)提示詞都能生成優(yōu)質(zhì)視頻,精靈 3 號(hào)的每個(gè)提示詞基本也能實(shí)現(xiàn)預(yù)期效果,但在早期,提示詞的創(chuàng)作至關(guān)重要,甚至有人會(huì)花 10 到 20 分鐘精心打磨一個(gè)提示詞。

所以如果第一次創(chuàng)作的效果不好,別放棄,這款全新的模型,可能會(huì)以你意想不到的方式呈現(xiàn)出驚喜的效果。而且親自上手體驗(yàn),你就不是在消費(fèi)一款產(chǎn)品,而是在探索前沿技術(shù)。

主持人:太認(rèn)同了,“探索前沿技術(shù)” 這句話(huà)簡(jiǎn)直可以當(dāng)作產(chǎn)品標(biāo)語(yǔ)了。我還有一個(gè)覺(jué)得很有趣的點(diǎn):當(dāng)被動(dòng)的媒體消費(fèi)變成交互式的體驗(yàn),會(huì)發(fā)生什么?這是一片全新的未知領(lǐng)域。過(guò)去也有人做過(guò)嘗試,但現(xiàn)在有了這種真正定制化的交互式媒體敘事,它會(huì)給整個(gè)媒體和娛樂(lè)行業(yè)帶來(lái)什么影響,真的太值得期待了。

研究員還有一個(gè)玩法也很有趣,你可以在虛擬世界里設(shè)置挑戰(zhàn),把這個(gè)世界分享給別人,讓對(duì)方完成任務(wù),比如從 A 點(diǎn)走到 B 點(diǎn)。這是一種基礎(chǔ)的、有目標(biāo)的游戲體驗(yàn),現(xiàn)在的模型已經(jīng)能實(shí)現(xiàn)了。比如那個(gè)球的場(chǎng)景,你可以讓別人用球?qū)懗鲎约旱拿?,這類(lèi)簡(jiǎn)單的挑戰(zhàn)都能設(shè)置。

就像杰克說(shuō)的,現(xiàn)在的體驗(yàn)雖然還比較基礎(chǔ),但它蘊(yùn)含著巨大的創(chuàng)意潛力。比如還有一個(gè)帶環(huán)的場(chǎng)景,你可以操控角色穿越環(huán)道,體驗(yàn)飛行的感覺(jué),這也是用戶(hù)發(fā)掘的玩法。

人們還經(jīng)常問(wèn),行業(yè)的前沿在哪里,我們下一步要做什么。我經(jīng)常會(huì)做一件事:長(zhǎng)時(shí)間沉浸在 Genie 3 的第一人稱(chēng)寫(xiě)實(shí)世界里,然后看向窗外,對(duì)比虛擬和現(xiàn)實(shí)的差距。我認(rèn)為最終,虛擬世界會(huì)和現(xiàn)實(shí)世界變得幾乎無(wú)法區(qū)分,雖然今天我們不深入聊這個(gè)話(huà)題,但從模型的性能發(fā)展來(lái)看,這顯然還有很長(zhǎng)的路要走。但如果能生成和現(xiàn)實(shí)高度逼真的世界,在里面自由移動(dòng)、互動(dòng)、完成各種事情,那該多不可思議。

而這也是驅(qū)動(dòng)我們開(kāi)展這項(xiàng)研究的核心愿景:想象你擁有一個(gè)宇宙的副本,你可以在其中隨心所欲。顯然,這個(gè)副本有巨大的應(yīng)用價(jià)值,能用到很多領(lǐng)域。這雖然是一個(gè)非常遠(yuǎn)大、甚至可能無(wú)法實(shí)現(xiàn)的目標(biāo),但它就像北極星一樣,一直指引著我們。

比如我們這次把恐龍鮑勃放進(jìn)虛擬世界,其實(shí)就是在重構(gòu)現(xiàn)實(shí)空間,給現(xiàn)實(shí)事物做有趣的增強(qiáng)。未來(lái)這方面的探索,一定會(huì)非常有意思。

主持人:那到 Genie 5 的時(shí)候,我們可能真的會(huì)分不清自己是在現(xiàn)實(shí)還是在模擬世界里了。

世界模型是第三次技術(shù)躍遷

主持人:我還有一個(gè)有點(diǎn)尖銳的問(wèn)題想問(wèn)問(wèn)大家:你們覺(jué)得,大多數(shù)人體驗(yàn)到世界模型的時(shí)間線(xiàn)會(huì)是怎樣的?世界模型會(huì)先通過(guò)企業(yè)端影響普通人的生活嗎?比如企業(yè)利用世界模型提高生產(chǎn)效率,打造更好的日常產(chǎn)品;還是說(shuō),未來(lái)普通人的日常生活中,會(huì)直接和世界模型產(chǎn)生互動(dòng)?如果是后者,這個(gè)時(shí)間線(xiàn)大概會(huì)是多久?

研究員:這其實(shí)取決于你如何定義世界模型。如果是指交互式的視聽(tīng)體驗(yàn)類(lèi)世界模型,我認(rèn)為今年、明年,就會(huì)有越來(lái)越多的人接觸到它,我們也會(huì)看到它在一些領(lǐng)域大放異彩,最終成為很多應(yīng)用的基礎(chǔ)功能。

但就像現(xiàn)在的視頻生成技術(shù),雖然發(fā)展很快,但真正融入普通人日常生活的比例其實(shí)并不高,世界模型也需要時(shí)間來(lái)完成用戶(hù)普及,找到合適的應(yīng)用場(chǎng)景—— 畢竟視頻和圖像不同,世界模型又和視頻生成不同。

而如果是具身智能領(lǐng)域的世界模型應(yīng)用,很難給出具體的時(shí)間線(xiàn),但這個(gè)領(lǐng)域已經(jīng)在取得不錯(cuò)的進(jìn)展了。

另外,用戶(hù)的人群特征也很重要:有些經(jīng)常接觸交互式媒體的人,會(huì)成為世界模型的早期使用者,他們知道該如何體驗(yàn);但如果把它交給一個(gè)對(duì)前沿技術(shù)不感興趣的家人,他們可能會(huì)覺(jué)得無(wú)從下手,體驗(yàn)不到產(chǎn)品的魅力。

但具身智能相關(guān)的應(yīng)用,可能在未來(lái) 1-2 年就會(huì)走進(jìn)現(xiàn)實(shí),普通人會(huì)在生活中直接接觸到,所以最終的普及時(shí)間,還是取決于用戶(hù)所處的技術(shù)接受曲線(xiàn)位置。

還有一點(diǎn),Genie計(jì)劃也印證了一個(gè)趨勢(shì):生成式技術(shù)正在形成一個(gè)連續(xù)體,從 Nano Banana Pro 的圖像創(chuàng)作,到 VO(谷歌的視頻生成模型)的視頻生成,再到現(xiàn)在Genie 3的交互式實(shí)時(shí)媒體創(chuàng)作,成為第三個(gè)核心支柱。我們希望未來(lái)有更多人能體驗(yàn)到這個(gè)連續(xù)體上的各類(lèi)創(chuàng)作體驗(yàn)。

主持人:我特別期待看到行業(yè)的發(fā)展趨勢(shì),畢竟 VO(谷歌的視頻生成模型)和 Nano Banana Pro 的發(fā)展過(guò)程中,都出現(xiàn)過(guò)一些爆紅的玩法,都是我從未預(yù)料到的,太瘋狂了。

研究員:世界模型的發(fā)展,和圖像、視頻生成還有些不同。圖像和視頻生成的作品,能被數(shù)百萬(wàn)人觀(guān)看,一個(gè)人的創(chuàng)作可以被廣泛傳播,家人、朋友都能看到;而世界模型的獨(dú)特之處在于,你可以在探索的過(guò)程中,不斷改變周?chē)氖澜?,這開(kāi)辟了很多我們未曾考慮過(guò)的新途徑、新玩法。

圖像和視頻生成,本質(zhì)上是用新技術(shù)替代或自動(dòng)化了過(guò)去的一些創(chuàng)作方式,當(dāng)然也帶來(lái)了新的能力和限制;但世界模型,實(shí)現(xiàn)了很多過(guò)去根本不可能做到的事情,這是它最大的不同,當(dāng)然二者也有很多相似之處。

還有一個(gè)我們非常興奮的想法,大家在演示中也能看到端倪:用戶(hù)可以在現(xiàn)有虛擬世界的基礎(chǔ)上繼續(xù)創(chuàng)作,這樣就會(huì)形成很多有趣的世界分支,還能追溯創(chuàng)作源頭。這方面的潛力非常大,值得我們深入探索。

Genie 計(jì)劃上線(xiàn)時(shí),用戶(hù)可以下載自己的虛擬世界演示視頻;未來(lái)我們還會(huì)探索更多的世界分享方式,讓大家能以更有趣的方式在別人的世界基礎(chǔ)上創(chuàng)作。

主持人:太酷了,我還想要一個(gè) “世界檔案” 功能,這樣大家就能看到我所有的創(chuàng)意想法了。

從世界模型的發(fā)展來(lái)看,技術(shù)進(jìn)步的節(jié)奏是怎樣的?顯然我們已經(jīng)看到了巨大的進(jìn)步,圖像生成、VO(谷歌的視頻生成模型)視頻生成、核心雙子座模型,都取得了長(zhǎng)足的發(fā)展。世界模型是不是也在遵循同樣的發(fā)展軌跡,到處都是觸手可及的技術(shù)突破,同時(shí)受益于算力規(guī)模和推理能力的提升?

研究員:可以這么說(shuō)。圖像生成技術(shù)顯然比視頻生成更成熟,視頻生成和世界模型之間的差距,我無(wú)法準(zhǔn)確衡量,但可以肯定的是,世界模型是超越視頻生成的前沿技術(shù)。

最新一代的視頻生成模型,畫(huà)質(zhì)已經(jīng)比Genie 3高很多了,我們也不指望Genie 3現(xiàn)在能生成極致精美的視頻,因?yàn)閷?shí)時(shí)交互的約束,是普通視頻生成模型所沒(méi)有的。所以世界模型的發(fā)展,可能會(huì)比視頻生成稍慢一些,但它能帶來(lái)全新的體驗(yàn)。

說(shuō)實(shí)話(huà),我們現(xiàn)在仍處于技術(shù)快速進(jìn)步的階段。硬件始終是一個(gè)巨大的約束,這對(duì)所有模型來(lái)說(shuō)都是如此。行業(yè)的整體趨勢(shì)是,在成本基本不變的情況下,讓模型的運(yùn)行效率越來(lái)越高。但最終,我們還是需要更易獲取的硬件支持—— 比如希望未來(lái)人們能直接在自己的設(shè)備上運(yùn)行這類(lèi)模型,實(shí)現(xiàn)無(wú)延遲的即時(shí)體驗(yàn)。

目前高性能的 TPU、GPU 還并非人人可得,硬件的發(fā)展速度因?yàn)橐恍?shí)際原因,會(huì)比模型研發(fā)慢一些,但這也是我們的未來(lái)方向—— 希望到 Genie 5 時(shí),大家能在手機(jī)上運(yùn)行完整的通用模擬系統(tǒng)。

這一點(diǎn)我們也討論過(guò),谷歌擁有垂直技術(shù)棧的優(yōu)勢(shì),這也是我們?cè)诠雀琛⒃谏疃人季S工作的魅力所在:我們既能站在模型研發(fā)的前沿,又能利用谷歌最好的硬件來(lái)支持模型的運(yùn)行。而且專(zhuān)門(mén)為世界模擬打造的硬件,本身也極具發(fā)展?jié)摿?,它就像通往另一個(gè)維度的入口,點(diǎn)擊就能進(jìn)入,充滿(mǎn)了新鮮感。

傳送門(mén):

https://labs.google/projectgenie

鏈接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view\_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD\_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm\_medium=gift-link

聲明:本文為 AI 前線(xiàn)整理,不代表平臺(tái)觀(guān)點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線(xiàn)!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太棒了!國(guó)行 iPhone 終于支持 eSIM 快速轉(zhuǎn)移功能

太棒了!國(guó)行 iPhone 終于支持 eSIM 快速轉(zhuǎn)移功能

XCiOS俱樂(lè)部
2026-03-07 19:09:02
戰(zhàn)火下伊朗“紅色黃金”面臨供應(yīng)鏈風(fēng)險(xiǎn) 中國(guó)進(jìn)口商:合作4年的伊朗客戶(hù)失聯(lián)了

戰(zhàn)火下伊朗“紅色黃金”面臨供應(yīng)鏈風(fēng)險(xiǎn) 中國(guó)進(jìn)口商:合作4年的伊朗客戶(hù)失聯(lián)了

極目新聞
2026-03-06 19:51:04
日本果然擅長(zhǎng)背后捅刀,趁美伊激戰(zhàn)時(shí),宣布拋售價(jià)值6200億美債

日本果然擅長(zhǎng)背后捅刀,趁美伊激戰(zhàn)時(shí),宣布拋售價(jià)值6200億美債

我心縱橫天地間
2026-03-06 23:01:27
“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣(mài)的!”六個(gè)兒子征婚視頻火了

“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣(mài)的!”六個(gè)兒子征婚視頻火了

阿凱銷(xiāo)售場(chǎng)
2026-03-01 01:46:42
笑死!李雨桐直接爆薛之謙手機(jī)號(hào)!男方隱私社交賬號(hào)隨之曝光

笑死!李雨桐直接爆薛之謙手機(jī)號(hào)!男方隱私社交賬號(hào)隨之曝光

魔都囡
2026-03-05 10:20:00
微信新版發(fā)布!桌面端界面大改了

微信新版發(fā)布!桌面端界面大改了

科技堡壘
2026-03-07 11:03:27
中東打戰(zhàn),江門(mén)一工廠(chǎng)訂單縮減!朝九晚五8小時(shí)雙休,員工慌了…

中東打戰(zhàn),江門(mén)一工廠(chǎng)訂單縮減!朝九晚五8小時(shí)雙休,員工慌了…

火山詩(shī)話(huà)
2026-03-07 07:05:25
春節(jié)剛過(guò)半個(gè)月,52歲辛柏青高調(diào)傳出喜訊,朱媛媛終于可以放心了

春節(jié)剛過(guò)半個(gè)月,52歲辛柏青高調(diào)傳出喜訊,朱媛媛終于可以放心了

阿廢冷眼觀(guān)察所
2026-03-07 19:20:12
宋方金曝光陳道明接戲“潛規(guī)則”:他主動(dòng)要請(qǐng)你吃飯,就是不演了

宋方金曝光陳道明接戲“潛規(guī)則”:他主動(dòng)要請(qǐng)你吃飯,就是不演了

落雪聽(tīng)梅a
2026-03-06 22:10:36
排隊(duì)3小時(shí),吃出金槍魚(yú)寄生蟲(chóng)卵?壽司郎回應(yīng)

排隊(duì)3小時(shí),吃出金槍魚(yú)寄生蟲(chóng)卵?壽司郎回應(yīng)

觀(guān)察者網(wǎng)
2026-03-07 15:29:55
央視在羅布泊直播,竟遇上盜墓賊,他們竟明目張膽的追上來(lái)

央視在羅布泊直播,竟遇上盜墓賊,他們竟明目張膽的追上來(lái)

吃貨的分享
2026-03-07 18:42:00
再見(jiàn),曼城!“大核”7000萬(wàn)轉(zhuǎn)投皇馬!瓜帥斥資2億,兩中場(chǎng)來(lái)投

再見(jiàn),曼城!“大核”7000萬(wàn)轉(zhuǎn)投皇馬!瓜帥斥資2億,兩中場(chǎng)來(lái)投

頭狼追球
2026-03-07 09:55:00
唐末梟雄,后梁朱溫占盡優(yōu)勢(shì),打遍天下,為什么無(wú)法統(tǒng)一中原?

唐末梟雄,后梁朱溫占盡優(yōu)勢(shì),打遍天下,為什么無(wú)法統(tǒng)一中原?

歷史按察使司
2026-03-07 06:20:03
朱拉尼終于出手了,趁著以色列后方空虛,開(kāi)始不斷蠶食戈蘭高地!

朱拉尼終于出手了,趁著以色列后方空虛,開(kāi)始不斷蠶食戈蘭高地!

娛樂(lè)圈的嗶嗶王
2026-03-06 20:59:28
她白手起家賺了800億,因崇拜許家印投資房地產(chǎn),結(jié)果負(fù)債469億!

她白手起家賺了800億,因崇拜許家印投資房地產(chǎn),結(jié)果負(fù)債469億!

夢(mèng)史
2026-01-10 10:29:53
炸鍋!AI“小龍蝦”O(jiān)penClaw入侵你的電腦:能干活,也能“拆家”!

炸鍋!AI“小龍蝦”O(jiān)penClaw入侵你的電腦:能干活,也能“拆家”!

A活著
2026-03-05 18:37:13
韋林頓妻子:我老公的嘴唇被撞得像被從中間劈開(kāi),縫了15針

韋林頓妻子:我老公的嘴唇被撞得像被從中間劈開(kāi),縫了15針

懂球帝
2026-03-07 12:16:18
神劇情!快船遭25分大逆轉(zhuǎn) 馬刺最后連續(xù)罰球不中卻搶下前場(chǎng)板

神劇情!快船遭25分大逆轉(zhuǎn) 馬刺最后連續(xù)罰球不中卻搶下前場(chǎng)板

Emily說(shuō)個(gè)球
2026-03-07 13:17:58
伊朗高級(jí)教士中,87歲的哈梅內(nèi)伊不算老,有些人都奔著100歲去了

伊朗高級(jí)教士中,87歲的哈梅內(nèi)伊不算老,有些人都奔著100歲去了

黃娜老師
2026-03-03 00:55:17
如果真的有龍,那從物理學(xué)的角度來(lái)講,龍的飛行原理是什么?

如果真的有龍,那從物理學(xué)的角度來(lái)講,龍的飛行原理是什么?

小豫講故事
2026-01-15 06:00:07
2026-03-07 19:59:00
AI前線(xiàn) incentive-icons
AI前線(xiàn)
面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

美方承認(rèn):伊朗武器的破壞性超預(yù)期

頭條要聞

美方承認(rèn):伊朗武器的破壞性超預(yù)期

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂(lè)要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車(chē)要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
教育
軍事航空

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

《幻獸帕魯》社長(zhǎng)沉迷《殺戮尖塔2》玩到工作都不管

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

教育要聞

來(lái)上課了——(3)非謂語(yǔ)動(dòng)詞的難點(diǎn):獨(dú)立主格現(xiàn)象第3段

軍事要聞

美第三個(gè)航母打擊群據(jù)稱(chēng)準(zhǔn)備部署至中東

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版