網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛最新硬核長(zhǎng)文|ChatGPT們都錯(cuò)了方向，空間智能才是下一個(gè)十年

2025-11-11 16:40:06　來(lái)源: 硅星GenAI

上海舉報(bào)

分享至

AI界的"視覺(jué)教母"李飛飛在其個(gè)人Substack發(fā)布重磅長(zhǎng)文《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》，迅速引發(fā)學(xué)術(shù)界和科技圈熱議。

作為構(gòu)建ImageNet、開(kāi)啟現(xiàn)代AI視覺(jué)革命的領(lǐng)軍人物，李飛飛這次給出了一個(gè)明確判斷：空間智能是AI的下一個(gè)前沿。她指出，當(dāng)前大語(yǔ)言模型雖然能寫(xiě)能聊，但本質(zhì)上是"黑暗中的雄辯家"——對(duì)真實(shí)三維世界、物理規(guī)律、空間關(guān)系幾乎一無(wú)所知。

為此，她創(chuàng)立的World Labs正在構(gòu)建"世界模型"（World Models），并首次公開(kāi)了首個(gè)產(chǎn)品Marble——全球首個(gè)能生成一致3D環(huán)境的世界模型。這將是繼大語(yǔ)言模型之后，AI的下一次范式革命。

以下是對(duì)這篇文章的完整編譯：

核心要點(diǎn)速覽(TLDR)

?當(dāng)前AI的本質(zhì)缺陷：大語(yǔ)言模型就像"坐在黑屋子里的文學(xué)家"——能說(shuō)會(huì)道、知識(shí)豐富，但對(duì)真實(shí)世界一無(wú)所知。它們連最基本的空間任務(wù)都做不好：判斷距離、旋轉(zhuǎn)物體、預(yù)測(cè)物理運(yùn)動(dòng)的準(zhǔn)確率接近瞎猜。

?空間智能才是智能的根基：人類和動(dòng)物的智能不是從語(yǔ)言開(kāi)始的，而是從5億年前最原始的"感知-行動(dòng)"循環(huán)進(jìn)化而來(lái)。我們停車、接鑰匙、在人群中穿行，都依賴空間智能——這是比語(yǔ)言更底層的能力。

?世界模型是解決方案：李飛飛提出需要構(gòu)建全新的AI架構(gòu)——不是改進(jìn)LLM，而是開(kāi)發(fā)能理解3D空間、物理規(guī)律和動(dòng)態(tài)變化的"世界模型"。這比語(yǔ)言模型復(fù)雜得多，因?yàn)槭澜绮皇且痪S序列，而是多維的、受物理定律約束的。

?世界模型的三項(xiàng)核心能力：

能把現(xiàn)實(shí)或想象的場(chǎng)景轉(zhuǎn)化為精確的3D空間表示

能生成符合物理規(guī)律、幾何一致、時(shí)間連貫的虛擬世界

能預(yù)測(cè)"如果我這樣做，世界會(huì)變成什么樣"

?技術(shù)挑戰(zhàn)極其艱巨：需要解決三個(gè)難題——找到類似"預(yù)測(cè)下一個(gè)詞"那樣簡(jiǎn)單優(yōu)雅的訓(xùn)練方法；從海量圖像視頻中提取3D信息；設(shè)計(jì)能處理4維時(shí)空數(shù)據(jù)的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)。

?Marble是第一個(gè)吃螃蟹的產(chǎn)品：World Labs推出了全球首個(gè)能用文字、圖片等多種方式"召喚"出可探索3D世界的AI系統(tǒng)。電影人、游戲設(shè)計(jì)師、建筑師可以像指揮一樣創(chuàng)造場(chǎng)景，而不需要學(xué)復(fù)雜的3D建模軟件。

?應(yīng)用前景分三步走：

馬上能用：創(chuàng)意工具革命，普通人也能做大片級(jí)別的場(chǎng)景

五年左右：機(jī)器人學(xué)習(xí)大爆發(fā)，通過(guò)虛擬世界訓(xùn)練解決數(shù)據(jù)不足問(wèn)題

十年以上：科學(xué)研究加速器，在虛擬世界里做藥物實(shí)驗(yàn)、材料測(cè)試、氣候模擬

?李飛飛的AI哲學(xué)：“AI必須增強(qiáng)人類，而非取代人類?！?她反復(fù)強(qiáng)調(diào)，空間智能不是為了讓機(jī)器搶走人類的工作，而是讓創(chuàng)作者更有創(chuàng)造力、讓科學(xué)家更高效、讓老人和病人得到更好的照顧。

?歷史意義的類比：這次革命就像埃拉托色尼用影子測(cè)地球、沃森用鐵絲模型發(fā)現(xiàn)DNA一樣——都是用空間思維突破人類認(rèn)知邊界?，F(xiàn)在輪到我們把這種能力給機(jī)器了。

?為什么現(xiàn)在是關(guān)鍵節(jié)點(diǎn)：ImageNet催生了視覺(jué)AI，Transformer催生了語(yǔ)言AI，而世界模型將開(kāi)啟"空間AI"時(shí)代。李飛飛認(rèn)為這是未來(lái)十年最重要的技術(shù)方向，基礎(chǔ)架構(gòu)還在摸索階段，正是布局的最佳時(shí)機(jī)。

?World Labs的研究方向：他們正在攻克實(shí)時(shí)生成技術(shù)（最新成果RTFM模型用"空間記憶幀"保持世界一致性）、合成數(shù)據(jù)生成、3D/4D感知架構(gòu)——目標(biāo)是讓AI像人類一樣"看一眼就知道空間關(guān)系"。

?最打動(dòng)人的一句話：愛(ài)因斯坦說(shuō)"創(chuàng)造力是智力在玩耍"。李飛飛說(shuō)，空間智能就是要讓AI也能"玩耍"——不是機(jī)械地執(zhí)行任務(wù)，而是真正理解、想象和創(chuàng)造世界。

?對(duì)創(chuàng)作者的承諾：未來(lái)你不需要幾百萬(wàn)預(yù)算和專業(yè)團(tuán)隊(duì)，一個(gè)人就能創(chuàng)造出《阿凡達(dá)》級(jí)別的虛擬世界。AI處理技術(shù)細(xì)節(jié)，你專注于講故事和創(chuàng)意本身。

?呼吁整個(gè)行業(yè)參與：這不是一家公司能完成的任務(wù)，需要全球研究者、工程師、企業(yè)、政策制定者一起努力。李飛飛把這稱為她的"北極星" ——邀請(qǐng)所有人加入這場(chǎng)探索。

從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿

1950年,當(dāng)計(jì)算僅僅是自動(dòng)化算術(shù)和簡(jiǎn)單邏輯時(shí),艾倫·圖靈提出了一個(gè)至今仍回響不絕的問(wèn)題:機(jī)器能思考嗎?能看到他所見(jiàn)的未來(lái),需要非凡的想象力:智能或許有朝一日可以被構(gòu)建,而非僅能天生。這一洞見(jiàn)后來(lái)開(kāi)啟了一場(chǎng)名為"人工智能"(AI)的不懈科學(xué)探索。進(jìn)入AI領(lǐng)域25年后,我仍然深受圖靈愿景的鼓舞。但我們離目標(biāo)有多近?答案并不簡(jiǎn)單。

今天,大語(yǔ)言模型(LLM)等領(lǐng)先AI技術(shù)已經(jīng)開(kāi)始改變我們獲取和處理抽象知識(shí)的方式。然而,它們?nèi)允?b>黑暗中的文字匠人——雄辯卻缺乏經(jīng)驗(yàn),博學(xué)卻不接地氣。空間智能將徹底改變我們創(chuàng)造和互動(dòng)真實(shí)及虛擬世界的方式——革新敘事、創(chuàng)意、機(jī)器人、科學(xué)發(fā)現(xiàn)等諸多領(lǐng)域。這,正是AI的下一個(gè)前沿。

對(duì)視覺(jué)和空間智能的追求,一直是我進(jìn)入這個(gè)領(lǐng)域以來(lái)的北極星。這就是為什么我花費(fèi)多年構(gòu)建ImageNet——首個(gè)大規(guī)模視覺(jué)學(xué)習(xí)和基準(zhǔn)測(cè)試數(shù)據(jù)集,也是催生現(xiàn)代AI的三大關(guān)鍵要素之一(另外兩個(gè)是神經(jīng)網(wǎng)絡(luò)算法和GPU等現(xiàn)代算力)。這就是為什么我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室過(guò)去十年一直在將計(jì)算機(jī)視覺(jué)與機(jī)器人學(xué)習(xí)結(jié)合。也正因如此,我和聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)立了World Labs:首次全面實(shí)現(xiàn)這一可能性。

在這篇文章中,我將解釋什么是空間智能、為何它重要,以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——這些模型的影響將重塑創(chuàng)造力、具身智能和人類進(jìn)步。

AI的激動(dòng)時(shí)刻與未竟之夢(mèng)

AI從未如此令人興奮。生成式AI模型如LLM已從研究實(shí)驗(yàn)室走入日常生活,成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展現(xiàn)了曾被認(rèn)為不可能的能力——生成連貫的文本、海量代碼、逼真的圖像,甚至是短視頻片段。AI是否會(huì)改變世界已不再是問(wèn)題。按任何合理定義,它已經(jīng)做到了。

然而,太多事物仍遙不可及。自主機(jī)器人的愿景依然引人遐想但仍屬推測(cè),遠(yuǎn)未成為未來(lái)學(xué)家長(zhǎng)期承諾的日常家居設(shè)備。大幅加速疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域研究的夢(mèng)想基本未能實(shí)現(xiàn)。而那個(gè)真正理解并賦能人類創(chuàng)造者的AI承諾——無(wú)論是學(xué)習(xí)分子化學(xué)復(fù)雜概念的學(xué)生、可視化空間的建筑師、構(gòu)建世界的電影制作人,還是任何尋求全沉浸式虛擬體驗(yàn)的人——仍然遙不可及。

要理解為何這些能力仍然難以企及,我們需要審視空間智能是如何進(jìn)化的,以及它如何塑造我們對(duì)世界的理解。

空間智能的進(jìn)化起源

視覺(jué)長(zhǎng)期以來(lái)一直是人類智能的基石,但其力量源于更根本的東西。早在動(dòng)物能筑巢、照顧幼崽、用語(yǔ)言交流或建立文明之前,簡(jiǎn)單的感知行為就已悄然開(kāi)啟了一段通往智能的進(jìn)化旅程。

這種看似孤立的從外部世界獲取信息的能力——無(wú)論是一縷光線還是質(zhì)感的觸覺(jué)——在感知與生存之間架起了一座橋梁,這座橋梁隨著世代演進(jìn)變得愈發(fā)堅(jiān)固和精細(xì)。一層層神經(jīng)元從這座橋梁生長(zhǎng)出來(lái),形成了解釋世界并協(xié)調(diào)有機(jī)體與環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測(cè),感知與行動(dòng)成為驅(qū)動(dòng)智能進(jìn)化的核心循環(huán),也是自然創(chuàng)造我們這個(gè)物種的基礎(chǔ)——感知、學(xué)習(xí)、思考和行動(dòng)的終極體現(xiàn)。

空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)中扮演著根本性角色。每一天,我們都依靠它完成最普通的行為:通過(guò)想象保險(xiǎn)杠與路緣之間逐漸縮小的間隙來(lái)停車;接住扔過(guò)房間的鑰匙;在擁擠的人行道上穿行而不碰撞;或是睡眼惺忪地把咖啡倒進(jìn)杯子而不用看。在更極端的情況下,消防員在浮動(dòng)的煙霧中穿越坍塌的建筑,對(duì)穩(wěn)定性和生存做出瞬間判斷,通過(guò)手勢(shì)、肢體語(yǔ)言和沒(méi)有語(yǔ)言替代品的共享專業(yè)直覺(jué)進(jìn)行交流。兒童在能說(shuō)話之前的數(shù)月或數(shù)年里,通過(guò)與環(huán)境的玩?；?dòng)來(lái)學(xué)習(xí)世界。所有這些都是直覺(jué)性、自動(dòng)化的——而機(jī)器尚未達(dá)到的流暢性。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造獨(dú)特豐富的世界,并利用多種視覺(jué)媒介將它們帶給他人——從古代洞穴壁畫(huà)到現(xiàn)代電影再到沉浸式電子游戲。無(wú)論是孩子們?cè)诤┥隙焉潮?還是在電腦上玩《我的世界》,基于空間的想象力構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在許多工業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)互動(dòng)環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無(wú)數(shù)關(guān)鍵商業(yè)用例提供支持。

歷史上充滿了空間智能扮演核心角色的文明定義時(shí)刻。在古希臘,埃拉托色尼將影子轉(zhuǎn)化為幾何——在亞歷山大測(cè)量到7度角的同時(shí),太陽(yáng)在塞內(nèi)恰恰好不投影——從而計(jì)算出地球周長(zhǎng)。哈格里夫斯的"珍妮紡紗機(jī)"通過(guò)一個(gè)空間洞見(jiàn)革新了紡織制造:在單個(gè)框架中并排安排多個(gè)紡錘,讓一個(gè)工人能同時(shí)紡多股線,生產(chǎn)率提高了八倍。沃森和克里克通過(guò)物理構(gòu)建3D分子模型發(fā)現(xiàn)了DNA結(jié)構(gòu),操作金屬板和金屬線,直到堿基對(duì)的空間排列咔嗒一聲到位。在每個(gè)案例中,當(dāng)科學(xué)家和發(fā)明家必須操縱物體、可視化結(jié)構(gòu)和推理物理空間時(shí),空間智能推動(dòng)了文明前進(jìn)——而這些都無(wú)法僅用文本捕捉。

空間智能是我們認(rèn)知構(gòu)建的腳手架。無(wú)論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動(dòng)我們的推理和規(guī)劃,即使是在最抽象的話題上。它對(duì)我們的互動(dòng)方式至關(guān)重要——無(wú)論是口頭還是物理上,與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在埃拉托色尼的層面上揭示新真理,但我們經(jīng)常以同樣的方式思考——通過(guò)感官感知復(fù)雜世界,然后利用對(duì)物理、空間運(yùn)作方式的直覺(jué)理解來(lái)理解它。

不幸的是,今天的AI還不會(huì)這樣思考。

當(dāng)前AI的空間能力鴻溝

過(guò)去幾年確實(shí)取得了巨大進(jìn)步。除了文本數(shù)據(jù)外,還用海量多媒體數(shù)據(jù)訓(xùn)練的多模態(tài)LLM(MLLM)引入了一些空間意識(shí)的基礎(chǔ),當(dāng)今AI可以分析圖片、回答關(guān)于它們的問(wèn)題,并生成超逼真的圖像和短視頻。通過(guò)傳感器和觸覺(jué)技術(shù)的突破,我們最先進(jìn)的機(jī)器人可以開(kāi)始在高度受限的環(huán)境中操縱物體和工具。

然而坦率地說(shuō),AI的空間能力仍遠(yuǎn)低于人類水平。而且局限很快就會(huì)顯現(xiàn)。最先進(jìn)的MLLM模型在估算距離、方向和大小方面的表現(xiàn)很少優(yōu)于隨機(jī)水平——或者"心理"旋轉(zhuǎn)物體,從新角度重新生成它們。它們無(wú)法導(dǎo)航迷宮、識(shí)別捷徑或預(yù)測(cè)基本物理。AI生成的視頻——雖然新興且確實(shí)很酷——通常在幾秒鐘后就失去連貫性。

雖然當(dāng)前最先進(jìn)的AI可以在閱讀、寫(xiě)作、研究和數(shù)據(jù)模式識(shí)別方面表現(xiàn)出色,但這些模型在表示或與物理世界互動(dòng)時(shí)存在根本性局限。我們對(duì)世界的看法是整體性的——不僅是我們正在看的東西,還包括一切在空間上如何關(guān)聯(lián)、意味著什么以及為何重要。通過(guò)想象、推理、創(chuàng)造和互動(dòng)來(lái)理解這一點(diǎn)——而不僅僅是描述——這就是空間智能的力量。沒(méi)有它,AI就與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無(wú)法有效駕駛我們的汽車、引導(dǎo)機(jī)器人進(jìn)入我們的家庭和醫(yī)院、實(shí)現(xiàn)全新的沉浸式和互動(dòng)式學(xué)習(xí)與娛樂(lè)體驗(yàn),或加速材料科學(xué)和醫(yī)學(xué)的發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫(xiě)道:"我的語(yǔ)言的界限意味著我的世界的界限。"我不是哲學(xué)家。但我至少知道對(duì)AI而言,不僅僅有文字。空間智能代表了語(yǔ)言之外的前沿——連接想象力、感知和行動(dòng)的能力,為機(jī)器真正增強(qiáng)人類生活開(kāi)辟了可能性,從醫(yī)療到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常協(xié)助。

構(gòu)建空間智能AI:世界模型的三大核心能力

那么我們?nèi)绾螛?gòu)建空間智能AI?通往能夠以埃拉托色尼的視野進(jìn)行推理、以工業(yè)設(shè)計(jì)師的精度進(jìn)行工程設(shè)計(jì)、以講故事者的想象力進(jìn)行創(chuàng)造,并以急救人員的流暢性與環(huán)境互動(dòng)的模型的路徑是什么?

構(gòu)建空間智能AI需要比LLM更雄心勃勃的東西:世界模型——一種新型生成式模型,其在理解、推理、生成和與語(yǔ)義、物理、幾何和動(dòng)態(tài)復(fù)雜的世界(虛擬或真實(shí))互動(dòng)的能力,遠(yuǎn)超當(dāng)今LLM的能力范圍。這個(gè)領(lǐng)域仍處于初期,當(dāng)前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs成立于2024年初,基于這樣一個(gè)信念:基礎(chǔ)方法仍在建立中,這使其成為未來(lái)十年的決定性挑戰(zhàn)。

在這個(gè)新興領(lǐng)域,最重要的是建立指導(dǎo)發(fā)展的原則。對(duì)于空間智能,我通過(guò)三項(xiàng)基本能力來(lái)定義世界模型:

空間理解與推理
解鎖空間智能的世界模型還必須生成自己的模擬世界。它們必須能夠生成無(wú)限多樣化的模擬世界,遵循語(yǔ)義或感知指令——同時(shí)保持幾何、物理和動(dòng)態(tài)一致性——無(wú)論表示真實(shí)還是虛擬空間。研究界正在積極探索這些世界應(yīng)該在內(nèi)在幾何結(jié)構(gòu)方面隱式還是顯式表示。此外,除了強(qiáng)大的潛在表征外,我認(rèn)為通用世界模型的輸出還必須允許為許多不同用例生成明確、可觀察的世界狀態(tài)。特別是,它對(duì)現(xiàn)在的理解必須與過(guò)去連貫地聯(lián)系起來(lái);與導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)聯(lián)系起來(lái)。
多模態(tài)輸入處理
正如動(dòng)物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為"提示"。給定部分信息——無(wú)論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作——世界模型應(yīng)該盡可能完整地預(yù)測(cè)或生成世界狀態(tài)。這需要以真實(shí)視覺(jué)的保真度處理視覺(jué)輸入,同時(shí)以同等能力解釋語(yǔ)義指令。這使代理和人類都能通過(guò)多樣化的輸入與模型交流世界,并反過(guò)來(lái)接收多樣化的輸出。
行動(dòng)預(yù)測(cè)與目標(biāo)導(dǎo)向生成
最后,如果動(dòng)作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包括世界的下一個(gè)狀態(tài),以隱式或顯式表示。當(dāng)僅給定一個(gè)動(dòng)作(帶或不帶目標(biāo)狀態(tài))作為輸入時(shí),世界模型應(yīng)該產(chǎn)生與世界先前狀態(tài)、預(yù)期目標(biāo)狀態(tài)(如有)及其語(yǔ)義含義、物理規(guī)律和動(dòng)態(tài)行為一致的輸出。隨著空間智能世界模型在推理和生成能力方面變得更加強(qiáng)大和穩(wěn)健,可以想象,在給定目標(biāo)的情況下,世界模型本身將能夠不僅預(yù)測(cè)世界的下一個(gè)狀態(tài),還能根據(jù)新?tīng)顟B(tài)預(yù)測(cè)下一個(gè)動(dòng)作。

技術(shù)挑戰(zhàn):超越語(yǔ)言模型的復(fù)雜性

這一挑戰(zhàn)的范圍超過(guò)了AI面臨的任何問(wèn)題。

雖然語(yǔ)言是人類認(rèn)知的純粹生成現(xiàn)象,但世界遵循復(fù)雜得多的規(guī)則。例如在地球上,重力支配運(yùn)動(dòng),原子結(jié)構(gòu)決定光如何產(chǎn)生顏色和亮度,無(wú)數(shù)物理定律約束著每一次互動(dòng)。即使是最奇幻、最有創(chuàng)意的世界,也是由遵循定義它們的物理規(guī)律和動(dòng)態(tài)行為的空間物體和代理組成的。以一致的方式調(diào)和所有這些——語(yǔ)義的、幾何的、動(dòng)態(tài)的和物理的——需要全新的方法。表示世界的維度遠(yuǎn)比語(yǔ)言等一維序列信號(hào)復(fù)雜得多。實(shí)現(xiàn)提供我們?nèi)祟愊碛械哪欠N通用能力的世界模型,需要克服幾個(gè)艱巨的技術(shù)障礙。在World Labs,我們的研究團(tuán)隊(duì)致力于朝這一目標(biāo)取得根本性進(jìn)展。

以下是我們當(dāng)前研究課題的一些示例:

? 用于訓(xùn)練的新通用任務(wù)函數(shù)
定義一個(gè)像LLM中的下一詞預(yù)測(cè)一樣簡(jiǎn)單優(yōu)雅的通用任務(wù)函數(shù),長(zhǎng)期以來(lái)一直是世界模型研究的核心目標(biāo)。輸入和輸出空間的復(fù)雜性使這樣一個(gè)函數(shù)本質(zhì)上更難制定。但雖然還有很多需要探索,這個(gè)目標(biāo)函數(shù)和相應(yīng)的表征必須反映幾何和物理規(guī)律,尊重世界模型作為想象和現(xiàn)實(shí)的基礎(chǔ)表征的根本性質(zhì)。

? 大規(guī)模訓(xùn)練數(shù)據(jù)
訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量數(shù)據(jù)源已經(jīng)存在?；ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可訪問(wèn)的訓(xùn)練材料——挑戰(zhàn)在于開(kāi)發(fā)能夠從這些基于二維圖像或視頻幀的信號(hào)(即RGB)中提取更深層空間信息的算法。過(guò)去十年的研究已經(jīng)顯示了將數(shù)據(jù)量和模型大小聯(lián)系起來(lái)的縮放定律在語(yǔ)言模型中的力量;世界模型的關(guān)鍵解鎖是構(gòu)建能夠以可比規(guī)模利用現(xiàn)有視覺(jué)數(shù)據(jù)的架構(gòu)。此外,我不會(huì)低估高質(zhì)量合成數(shù)據(jù)和深度、觸覺(jué)信息等額外模態(tài)的力量。它們?cè)谟?xùn)練過(guò)程的關(guān)鍵步驟中補(bǔ)充互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路取決于更好的傳感器系統(tǒng)、更強(qiáng)大的信號(hào)提取算法,以及更強(qiáng)大的神經(jīng)模擬方法。

? 新模型架構(gòu)和表征學(xué)習(xí)
世界模型研究將不可避免地推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前MLLM和視頻擴(kuò)散范式。這兩者通常將數(shù)據(jù)標(biāo)記化為1D或2D序列,這使得簡(jiǎn)單的空間任務(wù)變得不必要地困難——比如計(jì)算短視頻中獨(dú)特椅子的數(shù)量,或記住一小時(shí)前房間的樣子。替代架構(gòu)可能有所幫助,例如用于標(biāo)記化、上下文和內(nèi)存的3D或4D感知方法。例如,在World Labs,我們最近在名為RTFM的實(shí)時(shí)生成基于幀的模型上的工作展示了這種轉(zhuǎn)變,它使用空間基礎(chǔ)幀作為空間記憶的一種形式,以實(shí)現(xiàn)高效的實(shí)時(shí)生成,同時(shí)在生成的世界中保持持久性。

顯然,在我們能夠通過(guò)世界建模完全解鎖空間智能之前,我們?nèi)悦媾R著嚴(yán)峻的挑戰(zhàn)。這項(xiàng)研究不僅僅是理論練習(xí)。它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近向有限數(shù)量的用戶展示了Marble的一瞥——有史以來(lái)第一個(gè)世界模型,可以通過(guò)多模態(tài)輸入提示生成并維護(hù)一致的3D環(huán)境,供用戶和講故事者探索、互動(dòng),并在他們的創(chuàng)意工作流程中進(jìn)一步構(gòu)建。我們正在努力盡快向公眾開(kāi)放!

Marble只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開(kāi)始認(rèn)識(shí)到其非凡潛力。下一代世界模型將使機(jī)器在全新水平上實(shí)現(xiàn)空間智能——這一成就將解鎖今天AI系統(tǒng)中仍然基本缺失的關(guān)鍵能力。

以人為本的AI發(fā)展理念

AI開(kāi)發(fā)的動(dòng)機(jī)很重要。作為幫助開(kāi)啟現(xiàn)代AI時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)一直很明確:AI必須增強(qiáng)人類能力,而非取代它。多年來(lái),我一直致力于將AI開(kāi)發(fā)、部署和治理與人類需求對(duì)齊。極端的技術(shù)烏托邦和世界末日敘事如今比比皆是,但我繼續(xù)持有更務(wù)實(shí)的觀點(diǎn):AI由人開(kāi)發(fā)、由人使用、由人治理。它必須始終尊重人的能動(dòng)性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力;使我們更有創(chuàng)造力、更有聯(lián)系、更高效、更充實(shí)。空間智能代表了這一愿景——賦能人類創(chuàng)造者、護(hù)理者、科學(xué)家和夢(mèng)想家實(shí)現(xiàn)曾經(jīng)不可能的事情的AI。這一信念驅(qū)使我致力于將空間智能作為AI的下一個(gè)偉大前沿。

應(yīng)用前景:從創(chuàng)意到科學(xué)的變革

空間智能的應(yīng)用跨越不同時(shí)間線。創(chuàng)意工具正在出現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到創(chuàng)造者和講故事者手中。機(jī)器人代表了一個(gè)雄心勃勃的中期愿景,隨著我們完善感知與行動(dòng)之間的循環(huán)。最具變革性的科學(xué)應(yīng)用將需要更長(zhǎng)時(shí)間,但承諾對(duì)人類繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時(shí)間線上,有幾個(gè)領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這將需要巨大的集體努力,超過(guò)單個(gè)團(tuán)隊(duì)或公司所能實(shí)現(xiàn)的。它將需要整個(gè)AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——朝著共同愿景努力。但這個(gè)愿景值得追求。以下是未來(lái)的面貌:

創(chuàng)意革命

"創(chuàng)造力是智力在玩樂(lè)。"這是我個(gè)人英雄愛(ài)因斯坦最喜歡的名言之一。早在書(shū)面語(yǔ)言之前,人類就講故事——把它們畫(huà)在洞穴墻壁上,代代相傳,在共享敘事上建立整個(gè)文化。故事是我們理解世界、跨越距離和時(shí)間連接、探索人之為人意味著什么的方式,最重要的是,在自己內(nèi)心找到生活和愛(ài)的意義。今天,空間智能有潛力以尊重其根本重要性的方式改變我們創(chuàng)造和體驗(yàn)敘事的方式,并將其影響從娛樂(lè)擴(kuò)展到教育,從設(shè)計(jì)到建筑。

World Labs的Marble平臺(tái)將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計(jì)師、建筑師和各種講故事者手中,讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界,而無(wú)需傳統(tǒng)3D設(shè)計(jì)軟件的開(kāi)銷。創(chuàng)造行為仍然像以往一樣至關(guān)重要且人性化;AI工具只是放大和加速創(chuàng)造者所能實(shí)現(xiàn)的。這包括:

新維度的敘事體驗(yàn):電影制作人和游戲設(shè)計(jì)師正在使用Marble召喚整個(gè)世界,不受預(yù)算或地理限制,探索在傳統(tǒng)制作流程中難以處理的各種場(chǎng)景和視角。隨著不同形式媒體和娛樂(lè)之間的界限模糊,我們正在接近融合藝術(shù)、模擬和游戲的全新互動(dòng)體驗(yàn)——個(gè)性化的世界,任何人,而不僅僅是工作室,都可以創(chuàng)造和居住自己的故事。
通過(guò)設(shè)計(jì)的空間敘事:本質(zhì)上每個(gè)制造的物體或建造的空間都必須在物理創(chuàng)建之前在虛擬3D中設(shè)計(jì)。這個(gè)過(guò)程在時(shí)間和金錢(qián)上都高度迭代且昂貴。有了空間智能模型,建筑師可以在投入數(shù)月設(shè)計(jì)之前快速可視化結(jié)構(gòu),走進(jìn)尚不存在的空間——本質(zhì)上講述關(guān)于我們?nèi)绾紊?、工作和聚集的故事?/p>
新的沉浸式和互動(dòng)體驗(yàn):體驗(yàn)本身是我們作為物種創(chuàng)造意義的最深刻方式之一。在整個(gè)人類歷史中,只有一個(gè)單一的3D世界:我們都共享的物理世界。只有在最近幾十年,通過(guò)游戲和早期虛擬現(xiàn)實(shí)(VR),我們才開(kāi)始瞥見(jiàn)分享我們自己創(chuàng)造的替代世界意味著什么。現(xiàn)在,空間智能結(jié)合新的形態(tài)因素,如VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯和沉浸式顯示器,以前所未有的方式提升了這些體驗(yàn)。

機(jī)器人與具身智能

從昆蟲(chóng)到人類的動(dòng)物都依賴空間智能來(lái)理解、導(dǎo)航和與他們的世界互動(dòng)。機(jī)器人也不例外。自該領(lǐng)域誕生以來(lái),空間感知機(jī)器一直是夢(mèng)想,包括我在斯坦福研究實(shí)驗(yàn)室與學(xué)生和合作者的工作。這也是為什么我對(duì)使用World Labs正在構(gòu)建的這類模型實(shí)現(xiàn)它們的可能性感到如此興奮。

通過(guò)世界模型擴(kuò)展機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展取決于可行訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案。鑒于機(jī)器人必須學(xué)習(xí)理解、推理、規(guī)劃和互動(dòng)的巨大狀態(tài)空間可能性,許多人推測(cè)需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實(shí)世界人類演示捕獲的組合才能真正創(chuàng)建可泛化的機(jī)器人。但與語(yǔ)言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在其中發(fā)揮決定性作用。
伴侶和協(xié)作者:作為人類協(xié)作者的機(jī)器人,無(wú)論是在實(shí)驗(yàn)室工作臺(tái)上協(xié)助科學(xué)家還是協(xié)助獨(dú)居老人,都可以擴(kuò)大急需更多勞動(dòng)力和生產(chǎn)力的部分勞動(dòng)力。但這樣做需要感知、推理、規(guī)劃和行動(dòng)的空間智能,同時(shí)——這是最重要的——與人類目標(biāo)和行為保持同理心對(duì)齊。
擴(kuò)展的具身形式:類人機(jī)器人在我們?yōu)樽约航ㄔ斓氖澜缰邪l(fā)揮作用。但創(chuàng)新的全部好處將來(lái)自更多樣化的設(shè)計(jì):輸送藥物的納米機(jī)器人、導(dǎo)航狹窄空間的軟機(jī)器人,以及為深?；蛲馓战ㄔ斓臋C(jī)器。

科學(xué)突破與社會(huì)福祉

除了創(chuàng)意和機(jī)器人應(yīng)用外,空間智能的深遠(yuǎn)影響還將擴(kuò)展到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。我在下面重點(diǎn)介紹三個(gè)可以產(chǎn)生深刻變革的應(yīng)用領(lǐng)域,盡管不用說(shuō),空間智能的用例確實(shí)跨越更多行業(yè)。

科學(xué)研究
在科學(xué)研究中,空間智能系統(tǒng)可以模擬實(shí)驗(yàn),并行測(cè)試假設(shè),并探索人類無(wú)法到達(dá)的環(huán)境——從深海到遙遠(yuǎn)的星球。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。

醫(yī)療保健
在醫(yī)療保健中,空間智能將重塑從實(shí)驗(yàn)室到床邊的一切。在斯坦福,我的學(xué)生和合作者多年來(lái)一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和家中的患者合作。這一經(jīng)驗(yàn)使我相信空間智能在這里的變革潛力。AI可以通過(guò)多維建模分子相互作用來(lái)加速藥物發(fā)現(xiàn),通過(guò)幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學(xué)成像中的模式來(lái)增強(qiáng)診斷,并實(shí)現(xiàn)支持患者和護(hù)理人員的環(huán)境監(jiān)測(cè)系統(tǒng),而不會(huì)取代治愈所需的人際聯(lián)系。

教育
在教育中,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜概念變得具象,并創(chuàng)造對(duì)我們大腦和身體如何在學(xué)習(xí)中連接至關(guān)重要的迭代體驗(yàn)。在AI時(shí)代,對(duì)學(xué)齡兒童和成年人來(lái)說(shuō),更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求尤為重要。學(xué)生可以探索細(xì)胞機(jī)制或多維度地走過(guò)歷史事件。

在所有這些領(lǐng)域,可能性是無(wú)限的,但目標(biāo)保持不變:增強(qiáng)人類專業(yè)知識(shí)、加速人類發(fā)現(xiàn)、放大人類關(guān)懷的AI——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結(jié)語(yǔ):我們的北極星

過(guò)去十年,AI已成為全球現(xiàn)象,也是技術(shù)、經(jīng)濟(jì)乃至地緣政治的拐點(diǎn)。但作為研究者、教育者,現(xiàn)在還是企業(yè)家,最激勵(lì)我的仍然是圖靈那個(gè)75年前問(wèn)題背后的精神。我仍然分享他的驚奇感。這就是空間智能的挑戰(zhàn)每天激勵(lì)我的原因。

我們首次有機(jī)會(huì)構(gòu)建與物理世界如此協(xié)調(diào)的機(jī)器,可以將它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無(wú)論是加速我們?cè)趯?shí)驗(yàn)室中理解疾病的方式,革新我們講故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時(shí)刻支持我們,我們正處于能夠提升我們最關(guān)心的生活方面的技術(shù)的邊緣。這是一個(gè)更深刻、更豐富、更有力量的生活愿景。

在自然在近5億年前在祖先動(dòng)物中釋放空間智能的第一縷曙光后,我們有幸成為可能很快就能賦予機(jī)器同樣能力的這一代技術(shù)人員——并有特權(quán)利用這些能力造福各地人民。沒(méi)有空間智能,我們對(duì)真正智能機(jī)器的夢(mèng)想將不完整。

這個(gè)追求是我的北極星。請(qǐng)與我一起追求它。

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

整理：周華香

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.