網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛終于把空間智能講明白了：AI 的極限不是語言，世界遠(yuǎn)比文字更廣闊！

2025-11-11 17:18:20　來源: AI科技大本營

北京舉報(bào)

分享至

出品丨AI 科技大本營（ID：rgznai100）

前不久，一場匯集了黃仁勛、Hinton、LeCun 等人工智能領(lǐng)域頂尖人物的圓桌討論，引發(fā)了不小的關(guān)注。當(dāng)李飛飛與這些行業(yè)巨擘同臺(tái)時(shí)，也確實(shí)在社區(qū)里激起了一些討論——準(zhǔn)確地說，是爭議。

各種社交媒體上，匯成了一個(gè)巨大的聲音：“她憑什么？”

它不是一句簡單的冒犯，更像是一種確認(rèn)。在今天這個(gè)由參數(shù)、算力、模型規(guī)模定義的 AI 世界里，人們急于弄清楚，誰才是牌桌上真正的玩家。

而許多人眼里，王牌掌握在兩種人手中：一種是造出了像 GPT 這樣的大模型的人，另一種是造出了能讓這些模型飛速運(yùn)轉(zhuǎn)的 GPU 的人。

在這個(gè)劇本里，李飛飛的角色就顯得有些模糊。

很多人對(duì)她的印象或許還停留在 ImageNet 時(shí)代。但 ImageNet 的意義，可能比我們想象的要深遠(yuǎn)得多。它不僅僅是提供了一個(gè)龐大的數(shù)據(jù)集，更重要的是，它幾乎是以一己之力，為當(dāng)時(shí)的計(jì)算機(jī)視覺領(lǐng)域建立了一套“標(biāo)準(zhǔn)賽道”，一種通過大規(guī)模基準(zhǔn)測試來驅(qū)動(dòng)整個(gè)領(lǐng)域向前滾動(dòng)的方法論?？梢哉f，今天大模型研究中“數(shù)據(jù)+算力+模型”并以 Benchmark 來衡量進(jìn)展的范式，依然能看到當(dāng)年 ImageNet 留下的深刻烙印。它不是某一個(gè)具體的算法，而是改變了游戲規(guī)則的基礎(chǔ)設(shè)施。

那么，在那個(gè)里程碑式的工作之后，當(dāng)下的 AI 世界，幾乎所有人都擠在語言模型的賽道里狂奔時(shí)，李飛飛卻把目光投向了一個(gè)更廣闊、也更根本的領(lǐng)域：空間智能。

她敏銳地指出了當(dāng)前 AI 范式的一個(gè)核心局限：語言終究是人類為了交流而創(chuàng)造出來的一種抽象信號(hào)。自然界中本沒有文字，物理世界遵循的是它自身的規(guī)律。AI 如果想要真正地理解世界、與世界互動(dòng)，就不能只停留在文本的符號(hào)游戲里，做一個(gè)“黑暗中的文字大師”。它需要學(xué)會(huì)看、學(xué)會(huì)聽、學(xué)會(huì)理解三維空間中的物體、距離、物理關(guān)系和動(dòng)態(tài)交互。

這解釋了很多人心中的第一層疑問：ImageNet 之后，李飛飛究竟在做什么？

她和她的團(tuán)隊(duì)，以及新創(chuàng)辦的公司，正是試圖為 AI 補(bǔ)上“物理世界”這一課，讓智能走出屏幕，擁有對(duì)空間的感知、理解和交互能力。他們想做的，是構(gòu)建所謂的“世界模型”，一個(gè)遠(yuǎn)比語言模型宏大、復(fù)雜得多的目標(biāo)。

這并非一個(gè)輕松的議題，甚至比單純擴(kuò)大語言模型的規(guī)模要困難得多。它關(guān)乎人工智能的下一站將去往何方，是從一個(gè)勝利走向另一個(gè)勝利，還是需要一次根本性的范式轉(zhuǎn)換。

近日，李飛飛親自撰寫了一篇長文，第一次如此系統(tǒng)、完整地闡述了她對(duì)“空間智能”的全部構(gòu)想，描繪了她眼中人工智能的新疆界。這篇文章，或許就是對(duì)外界所有好奇與疑問的最好回應(yīng)，也終于解答了那個(gè)最大的問題：空間智能，到底是什么？

以下，是這篇文章的全文。

跨越語言，構(gòu)筑世界：空間智能，人工智能的新疆界

1950 年，當(dāng)計(jì)算還不過是自動(dòng)化算術(shù)和簡單邏輯的代名詞時(shí)，艾倫·圖靈提出了一個(gè)至今仍引人深思的問題：機(jī)器能思考嗎？

能洞見他所預(yù)見的一切，需要非凡的想象力：智能或許某天可以被創(chuàng)造，而非與生俱來。這一洞見后來開啟了一場名為“人工智能”（AI）的不懈科學(xué)探索。在我投身人工智能領(lǐng)域的 25 年里，圖靈的遠(yuǎn)見卓識(shí)至今仍讓我備受鼓舞。但我們距離這個(gè)目標(biāo)還有多遠(yuǎn)？答案并非一言以蔽之。

如今，以大語言模型（LLMs）為代表的頂尖人工智能技術(shù)，已經(jīng)開始改變我們獲取和處理抽象知識(shí)的方式。然而，它們?nèi)韵袷呛诎抵械奈淖执髱煟?strong>能言善辯卻缺乏經(jīng)驗(yàn)，知識(shí)淵博卻脫離現(xiàn)實(shí)。空間智能將改變我們創(chuàng)造真實(shí)世界和虛擬世界以及與之互動(dòng)的方式——為敘事、創(chuàng)造、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來革命性變化。這，就是人工智能的新疆界。

自進(jìn)入這一領(lǐng)域以來，對(duì)視覺和空間智能的追求，一直是指引我的“北極星”。為此，我曾花費(fèi)數(shù)年時(shí)間構(gòu)建 ImageNet，它是首個(gè)大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集；它與神經(jīng)網(wǎng)絡(luò)算法以及圖形處理器（GPU）等現(xiàn)代計(jì)算技術(shù)一道，成為催生現(xiàn)代人工智能的三大關(guān)鍵要素之一。

也正因如此，我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年間，一直致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。同樣為此，我和我的聯(lián)合創(chuàng)始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創(chuàng)立了 World Labs：為了首次將這一可能性完全實(shí)現(xiàn)。

在本文中，我將解釋什么是空間智能、它為何重要，以及我們正在如何構(gòu)建能夠解鎖它的“世界模型”——其影響將重塑創(chuàng)造力、具身智能和人類的進(jìn)步。

空間智能：人類認(rèn)知的腳手架

人工智能的發(fā)展從未像今天這樣激動(dòng)人心。以大語言模型為代表的生成式AI模型已經(jīng)從實(shí)驗(yàn)室走向日常生活，成為數(shù)十億人進(jìn)行創(chuàng)造、提升生產(chǎn)力和溝通的工具。它們展現(xiàn)了曾被認(rèn)為不可能實(shí)現(xiàn)的能力，能夠輕松生成連貫的文本、海量的代碼、逼真的圖像，甚至是簡短的視頻片段。人工智能是否會(huì)改變世界，這已不再是個(gè)問題。無論以何種標(biāo)準(zhǔn)衡量，它都已然做到了這一點(diǎn)。

然而，仍有許多目標(biāo)遙不可及。自主機(jī)器人的愿景雖然引人入勝，但仍停留在構(gòu)想階段，遠(yuǎn)未成為未來學(xué)家長期承諾的那樣，在日常生活中普及開來。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域極大加速研究的夢(mèng)想，在很大程度上仍未實(shí)現(xiàn)。而讓人工智能真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生理解分子化學(xué)中復(fù)雜的概念，協(xié)助建筑師構(gòu)想空間，支持電影制作人構(gòu)建世界，還是為任何尋求完全沉浸式虛擬體驗(yàn)的人提供服務(wù)——也依然未能兌現(xiàn)。

要理解為何這些能力依然遙不可及，我們需要探究空間智能是如何進(jìn)化的，以及它如何塑造我們對(duì)世界的理解。

長期以來，視覺一直是人類智能的基石，但其力量源于一種更為根本的能力。遠(yuǎn)在動(dòng)物學(xué)會(huì)筑巢、照顧幼崽、用語言交流或建立文明之前，感知這一簡單的行為，悄然開啟了通往智能的進(jìn)化之旅。

這種看似孤立的、從外部世界獲取信息（無論是一縷光線還是一絲觸感）的能力，在感知與生存之間架起了一座橋梁，并且隨著世代繁衍，這座橋梁變得愈發(fā)堅(jiān)固和精巧。一層層的神經(jīng)元在這座橋梁上生長，形成了能夠解釋世界、并協(xié)調(diào)生物體與其環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。

因此，許多科學(xué)家推測，感知與行動(dòng)構(gòu)成了驅(qū)動(dòng)智能進(jìn)化的核心循環(huán)，也是大自然創(chuàng)造出我們這個(gè)集感知、學(xué)習(xí)、思考和行動(dòng)于一體的終極物種的根基。

空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動(dòng)作：通過想象保險(xiǎn)杠與路邊之間的間隙逐漸縮小來停放汽車；接住別人從房間另一頭扔過來的鑰匙；在擁擠的人行道上穿行而避免碰撞；或者睡眼惺忪地將咖啡倒入杯中，甚至無需直視。

在更極端的情況下，消防員在煙霧彌漫、不斷坍塌的建筑物中穿行，對(duì)結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會(huì)做出瞬時(shí)判斷，并通過手勢、身體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在學(xué)會(huì)說話前的數(shù)月乃至數(shù)年里，通過與環(huán)境充滿趣味的互動(dòng)來學(xué)習(xí)這個(gè)世界。所有這一切都發(fā)生得如此直觀、自然——這是機(jī)器尚未達(dá)到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造出獨(dú)特而豐富的世界，并利用從古代洞穴壁畫到現(xiàn)代電影再到沉浸式視頻游戲等多種視覺媒介，將這些世界呈現(xiàn)給他人。無論是孩子們?cè)谏碁┥隙哑錾潮?，還是在電腦上玩《我的世界》，這種基于空間的想象力，構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在許多行業(yè)應(yīng)用中，對(duì)物體、場景和動(dòng)態(tài)交互環(huán)境的模擬，為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵的商業(yè)應(yīng)用提供了動(dòng)力。

歷史上，空間智能在許多定義文明進(jìn)程的時(shí)刻都扮演了核心角色。在古希臘，埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城（Syene）的同一時(shí)刻，他在亞歷山大港測得太陽光線有 7 度的夾角——從而計(jì)算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”通過一個(gè)空間上的洞察徹底改變了紡織業(yè)：將多個(gè)紡錘并排布置在同一個(gè)框架中，使得一個(gè)工人能同時(shí)紡多根紗線，生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu)，他們不斷擺弄金屬板和金屬絲，直到最終找到了堿基對(duì)的空間排列方式。

在每一個(gè)案例中，當(dāng)科學(xué)家和發(fā)明家需要操控物體、構(gòu)想結(jié)構(gòu)和對(duì)物理空間進(jìn)行推理時(shí)，空間智能都推動(dòng)了文明的進(jìn)步——這些都無法僅靠文字來捕捉。

空間智能是我們構(gòu)建認(rèn)知所依賴的腳手架。無論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動(dòng)著我們的推理和規(guī)劃，即便是在最抽象的議題上。它對(duì)于我們互動(dòng)的方式——無論是口頭還是身體上的，無論是與同伴還是與環(huán)境本身——都至關(guān)重要。雖然我們大多數(shù)人并非每天都在做出埃拉托斯特尼級(jí)別的發(fā)現(xiàn)，但我們每天也都在以同樣的方式思考——通過感官來感知復(fù)雜的世界，然后利用對(duì)世界如何在物理和空間層面運(yùn)作的直觀理解來認(rèn)識(shí)它。

遺憾的是，今天的人工智能還無法像這樣思考。

過去幾年里，人工智能確實(shí)取得了巨大進(jìn)步。多模態(tài)大語言模型（MLLMs）除了文本數(shù)據(jù)外，還利用海量的多媒體數(shù)據(jù)進(jìn)行訓(xùn)練，從而引入了一些基礎(chǔ)的空間感知能力，如今的人工智能已經(jīng)可以分析圖片、回答相關(guān)問題，并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破，我們最先進(jìn)的機(jī)器人也開始能夠在高度受限的環(huán)境中操控物體和工具。

然而，坦率地說，人工智能的空間能力距離人類水平還相差甚遠(yuǎn)。其局限性很快就會(huì)暴露出來。在估算距離、方向和尺寸，或通過從新角度重新生成圖像來“在腦中”旋轉(zhuǎn)物體時(shí)，當(dāng)前最先進(jìn)的多模態(tài)大語言模型的表現(xiàn)往往不比隨機(jī)猜測好多少。它們無法走出迷宮、識(shí)別捷徑或預(yù)測基本的物理現(xiàn)象。人工智能生成的視頻——盡管尚處起步階段，并且確實(shí)非常酷——往往在幾秒鐘后就失去連貫性。

盡管當(dāng)前最先進(jìn)的人工智能擅長閱讀、寫作、研究和數(shù)據(jù)中的模式識(shí)別，但這些模型在表現(xiàn)或與物理世界互動(dòng)時(shí)，卻存在根本性的局限。我們看待世界的方式是整體性的——不僅關(guān)乎我們正在看什么，更關(guān)乎萬物在空間上如何關(guān)聯(lián)、其意義為何、其重要性何在。通過想象、推理、創(chuàng)造和互動(dòng)——而不僅僅是描述——來理解這一切，正是空間智能的力量所在。沒有它，人工智能就與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效地駕駛我們的汽車，無法引導(dǎo)機(jī)器人在我們的家庭和醫(yī)院中服務(wù)，無法為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式互動(dòng)體驗(yàn)，也無法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的探索發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道：“我語言的極限，意味著我世界的極限?！蔽也皇钦軐W(xué)家。但我知道，至少對(duì)人工智能而言，世界遠(yuǎn)不止于語言。空間智能代表了超越語言的新疆界——它連接想象、感知與行動(dòng)，為機(jī)器真正改善人類生活開辟了可能，從醫(yī)療健康到創(chuàng)意表達(dá)，從科學(xué)發(fā)現(xiàn)到日常輔助。

人工智能的下一個(gè)十年：構(gòu)建真正具備空間智能的機(jī)器

那么，我們?cè)撊绾螛?gòu)建具備空間智能的人工智能？要打造出能夠像埃拉托斯特尼那樣推理、像工業(yè)設(shè)計(jì)師那樣精密設(shè)計(jì)、像故事講述者那樣富有想象力地創(chuàng)造，并像急救人員那樣流暢地與環(huán)境互動(dòng)的模型，其路徑何在？

構(gòu)建具備空間智能的人工智能，需要比大語言模型更為宏大的目標(biāo)：世界模型。這是一種新型的生成模型，其理解、推理、生成以及與語義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的虛擬或真實(shí)世界進(jìn)行互動(dòng)的能力，遠(yuǎn)非當(dāng)今的大語言模型所能及。該領(lǐng)域尚處萌芽階段，現(xiàn)有方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs 于 2024 年初正是基于這樣的信念而創(chuàng)立：基礎(chǔ)方法仍在建立之中，這使其成為未來十年最具決定性的挑戰(zhàn)。

在這個(gè)新興領(lǐng)域，最重要的是確立指導(dǎo)發(fā)展的原則。對(duì)于空間智能，我通過三個(gè)基本能力來定義世界模型：

生成性：世界模型能夠生成具有感知、幾何和物理一致性的世界
能夠解鎖空間理解和推理的世界模型，也必須能夠生成它們自己的模擬世界。它們必須能夠根據(jù)語義或感知指令，生成無窮無盡、多種多樣的模擬世界——無論是代表真實(shí)空間還是虛擬空間——同時(shí)保持幾何、物理和動(dòng)態(tài)上的一致性。研究界正在積極探索，這些世界在內(nèi)在的幾何結(jié)構(gòu)上，究竟應(yīng)該被隱式表達(dá)還是顯式表達(dá)。此外，我相信，除了強(qiáng)大的潛在表示之外，一個(gè)通用的世界模型還必須能為許多不同的用例生成一個(gè)明確、可觀察的世界狀態(tài)。特別是，它對(duì)當(dāng)下的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的先前世界狀態(tài)——連貫地聯(lián)系在一起。
多模態(tài)：世界模型在設(shè)計(jì)上就是多模態(tài)的
正如動(dòng)物和人類一樣，世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示詞”。在獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動(dòng)作——世界模型都應(yīng)能預(yù)測或生成盡可能完整的世界狀態(tài)。這要求它既能以真實(shí)視覺的保真度處理視覺輸入，又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進(jìn)行溝通，并反過來接收多樣的輸出。
交互性：世界模型能夠根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)
最后，如果動(dòng)作和/或目標(biāo)是給到世界模型的提示詞的一部分，那么它的輸出必須包含世界的下一個(gè)狀態(tài)，無論是隱式還是顯式表示。當(dāng)僅給定一個(gè)動(dòng)作（無論有無目標(biāo)狀態(tài)）作為輸入時(shí)，世界模型應(yīng)該產(chǎn)生一個(gè)與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)（如果有的話），以及其語義含義、物理定律和動(dòng)態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健，可以想見，在給定一個(gè)目標(biāo)的情況下，世界模型本身將不僅能夠預(yù)測世界的下一個(gè)狀態(tài)，還能基于新狀態(tài)預(yù)測下一步的動(dòng)作。

這一挑戰(zhàn)的范圍超過了人工智能以往面臨的任何挑戰(zhàn)。

語言純粹是人類認(rèn)知的一種生成現(xiàn)象，而世界則遵循著遠(yuǎn)為復(fù)雜的規(guī)則。例如，在地球上，引力支配著運(yùn)動(dòng)，原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度，無數(shù)的物理定律制約著每一次互動(dòng)。即使是最奇幻、最具創(chuàng)意的世界，也是由遵守其自身物理定律和動(dòng)態(tài)行為的空間物體和智能體構(gòu)成的。

要將所有這些——語義、幾何、動(dòng)態(tài)和物理——一致地協(xié)調(diào)起來，需要全新的方法。表示一個(gè)世界的維度，遠(yuǎn)比表示像語言這樣的一維序列信號(hào)要復(fù)雜得多。要實(shí)現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型，將需要克服幾個(gè)巨大的技術(shù)障礙。在 World Labs，我們的研究團(tuán)隊(duì)正致力于朝著這個(gè)目標(biāo)取得根本性的進(jìn)展。

以下是我們當(dāng)前研究課題的一些例子：

一種新的、通用的訓(xùn)練任務(wù)函數(shù)： 定義一個(gè)像大語言模型中的“下一詞元預(yù)測”那樣簡潔優(yōu)雅的通用任務(wù)函數(shù)，一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性，使得這樣一個(gè)函數(shù)的構(gòu)建本身就更具難度。但盡管仍有許多未知尚待探索，這個(gè)目標(biāo)函數(shù)及相應(yīng)的表示方法必須能反映幾何與物理定律，尊重世界模型作為想象與現(xiàn)實(shí)的具身化表示這一根本性質(zhì)。
大規(guī)模訓(xùn)練數(shù)據(jù)：訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是：海量的數(shù)據(jù)源已經(jīng)存在?；ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富且易于獲取的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維的、基于圖像或視頻幀的信號(hào)（即 RGB）中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了在語言模型中，數(shù)據(jù)量和模型大小之間的“規(guī)模法則”的力量；解鎖世界模型的關(guān)鍵，在于構(gòu)建能夠以同等規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外，我不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及深度和觸覺信息等額外模態(tài)的力量。它們?cè)谟?xùn)練過程的關(guān)鍵步驟中，對(duì)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)起到了補(bǔ)充作用。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號(hào)提取算法，以及遠(yuǎn)為強(qiáng)大的神經(jīng)模擬方法。
新的模型架構(gòu)和表示學(xué)習(xí)：世界模型的研究將不可避免地推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步，特別是超越當(dāng)前的多模態(tài)大語言模型和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列，這使得一些簡單的空間任務(wù)變得異常困難——比如，在一段短視頻中數(shù)出不重復(fù)的椅子數(shù)量，或者記住一個(gè)小時(shí)前房間的樣子。替代性架構(gòu)可能會(huì)有所幫助，例如用于標(biāo)記化、上下文和記憶的具備三維或四維感知能力的方法。例如，在 World Labs，我們最近在一款名為 RTFM（Real-Time Frame-based Model）的實(shí)時(shí)生成式幀基模型上的工作就展示了這種轉(zhuǎn)變，它使用基于空間的幀作為一種空間記憶形式，以實(shí)現(xiàn)高效的實(shí)時(shí)生成，同時(shí)保持生成世界中的持久性。

顯然，在我們能通過世界建模完全解鎖空間智能之前，仍面臨著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅僅是一項(xiàng)理論探索，它是一個(gè)新型創(chuàng)意和生產(chǎn)力工具的核心引擎。而 World Labs 內(nèi)部的進(jìn)展令人鼓舞。我們最近向少數(shù)用戶展示了 Marble 的一瞥，這是有史以來第一個(gè)可以通過多模態(tài)輸入提示，來生成并維持一致三維環(huán)境的世界模型，供用戶和故事講述者在他們的創(chuàng)意工作流中進(jìn)行探索、互動(dòng)和進(jìn)一步構(gòu)建。我們正在努力，希望很快能將其向公眾開放！

Marble 只是我們創(chuàng)造一個(gè)真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速，研究人員、工程師、用戶和商界領(lǐng)袖們都開始認(rèn)識(shí)到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新層面上實(shí)現(xiàn)空間智能——這一成就將解鎖當(dāng)今人工智能系統(tǒng)中仍然普遍缺失的關(guān)鍵能力。

用世界模型為人類構(gòu)建一個(gè)更美好的世界

發(fā)展人工智能的動(dòng)機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代人工智能時(shí)代的科學(xué)家之一，我的動(dòng)機(jī)一直很明確：人工智能必須增強(qiáng)人類的能力，而非取而代之。

多年來，我一直致力于使人工智能的開發(fā)、部署和治理與人類的需求保持一致。如今，關(guān)于技術(shù)烏托邦和末日論的極端敘事比比皆是，但我繼續(xù)持有一種更為務(wù)實(shí)的觀點(diǎn)：人工智能由人開發(fā)，為人所用，并由人治理。它必須始終尊重人的能動(dòng)性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力，讓我們更有創(chuàng)造力、更能互聯(lián)、更有效率、更有成就感。

空間智能代表了這一愿景——人工智能賦能人類的創(chuàng)造者、照護(hù)者、科學(xué)家和夢(mèng)想家，去實(shí)現(xiàn)曾經(jīng)的不可能。正是這一信念，驅(qū)動(dòng)著我將空間智能作為人工智能下一個(gè)偉大疆界的承諾。

空間智能的應(yīng)用橫跨不同的時(shí)間線。創(chuàng)意工具正于此刻涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到了創(chuàng)造者和故事講述者的手中。隨著我們不斷完善感知與行動(dòng)之間的循環(huán)，機(jī)器人技術(shù)代表了一個(gè)雄心勃勃的中期目標(biāo)。而最具變革性的科學(xué)應(yīng)用將需要更長的時(shí)間，但它們有望對(duì)人類的繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時(shí)間線中，有幾個(gè)領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力，遠(yuǎn)非一個(gè)團(tuán)隊(duì)或一家公司所能實(shí)現(xiàn)。它需要整個(gè) AI 生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司，甚至政策制定者——共同為一個(gè)共同的愿景而努力。但這個(gè)愿景值得我們?nèi)プ非蟆?/p>

以下是這個(gè)未來所包含的內(nèi)容：

創(chuàng)造力：為敘事和沉浸式體驗(yàn)注入超能力

“創(chuàng)造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一，也是我最喜歡的一句話。遠(yuǎn)在書面語言出現(xiàn)之前，人類就在講述故事——將它們畫在洞穴墻壁上，代代相傳，在共同的敘事之上建立起整個(gè)文化。故事是我們理解世界、跨越時(shí)空建立聯(lián)系、探索人性意義的方式，最重要的是，是我們尋找生命意義和內(nèi)心之愛的方式。今天，空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式，這種方式既尊重其根本重要性，又將其影響從娛樂擴(kuò)展到教育，從設(shè)計(jì)延伸到建筑。

World Labs 的 Marble 平臺(tái)將為電影制作人、游戲設(shè)計(jì)師、建筑師和各類故事講述者提供前所未有的空間能力和編輯可控性，讓他們能夠快速創(chuàng)建和迭代可完全探索的三維世界，而無需傳統(tǒng)三維設(shè)計(jì)軟件的繁重負(fù)擔(dān)。創(chuàng)造行為本身依然如故，充滿活力且富有人性；人工智能工具只是放大并加速了創(chuàng)造者所能達(dá)成的成就。這包括：

新維度的敘事體驗(yàn)： 電影制作人和游戲設(shè)計(jì)師正在使用Marble來構(gòu)想完整的世界，而不受預(yù)算或地理位置的限制，探索在傳統(tǒng)制作流程中難以實(shí)現(xiàn)的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊，我們正在接近一種融合了藝術(shù)、模擬和游戲的全新互動(dòng)體驗(yàn)——個(gè)性化的世界，其中任何人，而不僅僅是工作室，都可以創(chuàng)造并棲居于自己的故事之中。隨著將概念和故事板提升為完整體驗(yàn)的更新、更快捷的方式的出現(xiàn)，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在無數(shù)的界面和平臺(tái)上，構(gòu)建擁有共同主線貫穿的世界。
通過設(shè)計(jì)實(shí)現(xiàn)空間敘事：基本上，每一個(gè)制造出來的物體或建造出的空間，在其實(shí)體化之前都必須在虛擬三維環(huán)境中進(jìn)行設(shè)計(jì)。這個(gè)過程迭代性強(qiáng)，且在時(shí)間和金錢上都成本高昂。有了具備空間智能的模型，建筑師可以在投入數(shù)月進(jìn)行設(shè)計(jì)之前快速構(gòu)想結(jié)構(gòu)，漫步于尚不存在的空間之中——這本質(zhì)上是在講述我們未來可能如何生活、工作和聚集的故事。工業(yè)設(shè)計(jì)師和時(shí)尚設(shè)計(jì)師可以瞬間將想象轉(zhuǎn)化為形態(tài)，探索物體如何與人體和空間互動(dòng)。
全新的沉浸式和互動(dòng)體驗(yàn)：體驗(yàn)本身，是我們這個(gè)物種創(chuàng)造意義最深刻的方式之一。在整個(gè)人類歷史中，只有一個(gè)單一的三維世界：我們共同生活的這個(gè)物理世界。直到近幾十年，通過游戲和早期的虛擬現(xiàn)實(shí)（VR），我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么?，F(xiàn)在，空間智能與VR和擴(kuò)展現(xiàn)實(shí)（XR）頭顯、沉浸式顯示器等新形態(tài)設(shè)備相結(jié)合，以前所未有的方式提升了這些體驗(yàn)。我們正邁向一個(gè)未來，在那里，步入一個(gè)完全實(shí)現(xiàn)的多維世界，將變得像打開一本書一樣自然?？臻g智能讓世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊(duì)的工作室的專利，而是面向個(gè)人創(chuàng)作者、教育者以及任何有愿景希望分享的人。

機(jī)器人技術(shù)：行動(dòng)中的具身智能

從昆蟲到人類，動(dòng)物都依賴空間智能來理解、導(dǎo)航并與它們的世界互動(dòng)。機(jī)器人也不例外。自該領(lǐng)域誕生之初，擁有空間感知能力的機(jī)器就一直是人們的夢(mèng)想，這也包括我和我的學(xué)生及合作者在斯坦福研究實(shí)驗(yàn)室的工作。這也是為什么我對(duì)利用World Labs正在構(gòu)建的這類模型來實(shí)現(xiàn)這一可能性感到如此興奮。

通過世界模型規(guī)?；瘷C(jī)器人學(xué)習(xí)： 機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個(gè)可行的、可規(guī)?；挠?xùn)練數(shù)據(jù)解決方案。考慮到機(jī)器人需要學(xué)習(xí)理解、推理、規(guī)劃和互動(dòng)的可能性狀態(tài)空間極其巨大，許多人推測，需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及對(duì)人類演示的真實(shí)世界捕捉，才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語言模型不同，當(dāng)今的機(jī)器人研究缺乏訓(xùn)練數(shù)據(jù)。世界模型將在此扮演決定性角色。隨著它們感知保真度和計(jì)算效率的提高，世界模型的輸出可以迅速彌合模擬與現(xiàn)實(shí)之間的差距。這反過來將有助于在無數(shù)的狀態(tài)、互動(dòng)和環(huán)境模擬中訓(xùn)練機(jī)器人。
伙伴與協(xié)作者：機(jī)器人作為人類的協(xié)作者，無論是在實(shí)驗(yàn)室工作臺(tái)旁協(xié)助科學(xué)家，還是幫助獨(dú)居老人，都可以補(bǔ)充那些急需更多勞動(dòng)力和生產(chǎn)力的領(lǐng)域。但要做到這一點(diǎn)，需要機(jī)器人具備能夠感知、推理、規(guī)劃和行動(dòng)的空間智能，同時(shí)——這是最重要的——與人類的目標(biāo)和行為保持共情的一致。例如，一個(gè)實(shí)驗(yàn)室機(jī)器人可以處理儀器，讓科學(xué)家專注于需要靈巧性或推理的任務(wù)；而一個(gè)家庭助理可以幫助老年人做飯，而不會(huì)削弱他們的樂趣或自主性。能夠預(yù)測下一個(gè)狀態(tài)甚至可能是與這種期望相符的動(dòng)作，這樣真正具備空間智能的世界模型，對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。
擴(kuò)展具身形態(tài)：人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一定角色。但創(chuàng)新的全部益處將來自更多樣化的設(shè)計(jì)：遞送藥物的納米機(jī)器人、穿越狹窄空間的軟體機(jī)器人，以及為深?；蛲馓战ㄔ斓臋C(jī)器。無論其形態(tài)如何，未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運(yùn)動(dòng)。但開發(fā)這些機(jī)器人的一個(gè)關(guān)鍵挑戰(zhàn)是，缺乏適用于這些多種多樣的具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在為這些努力提供模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測試任務(wù)方面發(fā)揮關(guān)鍵作用。

更長遠(yuǎn)的未來：科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機(jī)器人應(yīng)用，空間智能的深遠(yuǎn)影響還將延伸到那些人工智能可以增強(qiáng)人類能力、從而拯救生命和加速發(fā)現(xiàn)的領(lǐng)域。我將在下面重點(diǎn)介紹三個(gè)具有深度變革潛力的應(yīng)用領(lǐng)域，但毋庸置疑，空間智能的用例在更多行業(yè)中都極為廣闊。

在科學(xué)研究中，具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn)，并行測試假設(shè)，并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。通過將多維模擬與真實(shí)世界數(shù)據(jù)收集相結(jié)合，這些工具可以降低計(jì)算門檻，并擴(kuò)展每個(gè)實(shí)驗(yàn)室能夠觀察和理解的范圍。

在醫(yī)療健康領(lǐng)域，空間智能將重塑從實(shí)驗(yàn)室到病床邊的每一個(gè)環(huán)節(jié)。在斯坦福，我和我的學(xué)生及合作者多年來與醫(yī)院、養(yǎng)老機(jī)構(gòu)以及居家患者共事。這段經(jīng)歷讓我確信空間智能在此處的變革潛力。人工智能可以通過多維度建模分子相互作用來加速藥物發(fā)現(xiàn)，通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷，并實(shí)現(xiàn)環(huán)境監(jiān)測系統(tǒng)，在不取代治愈所必需的人文關(guān)懷的前提下，為患者和護(hù)理人員提供支持，更不用說機(jī)器人在各種不同場景下幫助我們的醫(yī)護(hù)人員和患者的潛力。

在教育領(lǐng)域，空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí)，使抽象或復(fù)雜的概念變得具體可感，并創(chuàng)造出對(duì)我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代式體驗(yàn)。在人工智能時(shí)代，更快、更有效的學(xué)習(xí)和技能重塑的需求，對(duì)于學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞的運(yùn)作機(jī)制或漫步于歷史事件之中。教師可以獲得通過互動(dòng)環(huán)境進(jìn)行個(gè)性化教學(xué)的工具。從外科醫(yī)生到工程師的專業(yè)人士，都可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域，可能性是無限的，但目標(biāo)始終如一：人工智能應(yīng)增強(qiáng)人類的專業(yè)知識(shí)、加速人類的發(fā)現(xiàn)、并放大人類的關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結(jié)語

過去十年見證了人工智能成為一種全球現(xiàn)象，以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的一個(gè)轉(zhuǎn)折點(diǎn)。但作為一名研究者、教育者，以及現(xiàn)在的創(chuàng)業(yè)者，最能激勵(lì)我的，仍然是圖靈 75 年前那個(gè)問題背后的精神。我依然懷有他那份好奇心。正是這份好奇心，讓我每天都為空間智能這一挑戰(zhàn)而充滿活力。

歷史上第一次，我們有望制造出與物理世界如此協(xié)調(diào)的機(jī)器，以至于我們可以依賴它們作為我們應(yīng)對(duì)最大挑戰(zhàn)的真正伙伴。無論是在實(shí)驗(yàn)室里加速我們對(duì)疾病的理解，徹底改變我們講述故事的方式，還是在我們因疾病、受傷或年老而最脆弱的時(shí)刻給予支持，我們正處在一項(xiàng)能夠提升我們最珍視的生活方面的技術(shù)的前沿。這是一個(gè)關(guān)于更深刻、更豐富、更強(qiáng)大的人生的愿景。

在自然界于近五億年前在遠(yuǎn)古動(dòng)物身上釋放出空間智能的第一縷微光之后，我們有幸成為這一代技術(shù)專家中的一員，或許很快就能賦予機(jī)器同樣的能力——并有幸利用這些能力為世界各地的人們謀福祉。我們對(duì)真正智能機(jī)器的夢(mèng)想，若沒有空間智能，將是不完整的。

李飛飛原文鏈接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.