李飛飛最新長文：AI的下一個十年——構(gòu)建真正具備空間智能的機器

2025-11-12 16:44:37　來源: 算法與數(shù)學之美

北京舉報

分享至

就在昨晚，關于其投身的空間智能，斯坦福大學教授李飛飛發(fā)表了一篇長篇博客《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。

在文中，李飛飛詳細解讀了「空間智能究竟是什么？它為什么重要？我們?nèi)绾螛?gòu)建它？我們又如何使用它？」她同時闡述了真正的空間智能世界模型必須實現(xiàn)的核心框架：構(gòu)建具有故事講述者想象力的 AI、具備第一響應者流暢性的 AI 以及以科學精確性進行空間推理。

以下為全文翻譯：

1950 年，當計算機還只是自動化的算術和簡單邏輯時，艾倫?圖靈提出了一個至今仍余音不絕的問題：機器能思考嗎？他擁有非凡的想象力，看到了一個超越時代的可能 —— 智能或許可以被「構(gòu)建」，而非「誕生」。這一洞見開啟了一個持久而偉大的科學征程 —— 人工智能（AI）。在我投身人工智能研究二十五年后的今天，圖靈的愿景仍讓我心懷敬意與靈感。但我們究竟走到了哪一步？答案并不簡單。

如今，以大語言模型（LLM）為代表的前沿 AI 技術，已經(jīng)開始改變我們獲取和運用抽象知識的方式。然而，它們依然像是「黑暗中的文匠」：能言善辯卻缺乏經(jīng)驗，知識豐富卻脫離現(xiàn)實。空間智能將徹底改變我們創(chuàng)造和交互現(xiàn)實與虛擬世界的方式 —— 它將重塑敘事、創(chuàng)意、機器人學、科學發(fā)現(xiàn)等領域。這正是 AI 的下一個前沿。

自我踏入這一領域以來，對視覺與空間智能的追求一直是我心中的北極星。這也是我花費多年時間創(chuàng)建 ImageNet 的原因 —— 這是首個大規(guī)模視覺學習與評測數(shù)據(jù)集，與神經(jīng)網(wǎng)絡算法和現(xiàn)代計算（如圖形處理器 GPU）一道，構(gòu)成了現(xiàn)代人工智能誕生的三大基石。這也是為什么我的斯坦福實驗室在過去十年中，持續(xù)探索將計算機視覺與機器人學習相結(jié)合。

而這一追求，也促使我與合伙人 Justin Johnson、Christoph Lassner、Ben Mildenhall 共同創(chuàng)立了 World Labs—— 在一年多前，我們立志首次將這一愿景徹底實現(xiàn)。在這篇文章中，我將闡述什么是空間智能、它為何重要，以及我們?nèi)绾螛?gòu)建能夠釋放空間智能潛力的世界模型 —— 這種能力將深刻影響創(chuàng)造力、具身智能與人類的未來進步。

空間智能：

人類認知的腳手架

人工智能正處在前所未有的激動人心時刻。生成式 AI 模型 —— 例如大語言模型（LLM）—— 已經(jīng)從研究實驗室走入日常生活，成為數(shù)十億人創(chuàng)造、工作與溝通的工具。它們展現(xiàn)出了曾被認為不可能的能力：能夠輕松生成連貫的文本、海量的代碼、逼真的圖像，甚至短視頻片段。如今，問題已不再是「人工智能是否會改變世界」，而是「它已經(jīng)如何改變了世界」。

然而，仍有許多目標尚未觸及。自主機器人的愿景依舊令人神往，卻依然停留在推測階段，離未來學家長期描繪的日?，F(xiàn)實仍有距離。在疾病治療、新材料發(fā)現(xiàn)、粒子物理等領域，人工智能加速科研的夢想也尚未真正實現(xiàn)。而一種能夠真正理解并賦能人類創(chuàng)造者的 AI—— 無論是學習分子化學復雜概念的學生、構(gòu)思空間的建筑師、構(gòu)建世界的電影創(chuàng)作者，還是渴望沉浸式虛擬體驗的任何人 —— 這一承諾仍未兌現(xiàn)。

要理解這些能力為何依然難以實現(xiàn)，我們需要回溯空間智能的演化歷程，并審視它如何塑造了我們對世界的理解。

視覺一直是人類智能的基石，但它的力量源自更為根本的東西。早在動物學會筑巢、照料幼崽、用語言交流或建立文明之前，最簡單的「感知」行為，便悄然點燃了一場通向智能的進化旅程。

這種看似孤立的能力 —— 從外部世界中提取信息，無論是一道微光，還是一種觸感 —— 在感知與生存之間搭起了一座橋梁，并隨著世代更迭不斷加固、延展。神經(jīng)元層層疊加，沿著這座橋梁生長，形成了能解釋世界、協(xié)調(diào)生物體與環(huán)境互動的神經(jīng)系統(tǒng)。正因如此，許多科學家推測，感知與行動構(gòu)成了驅(qū)動智能演化的核心循環(huán)，也成為自然創(chuàng)造人類這一物種的根基 —— 一種集感知、學習、思考與行動于一體的終極體現(xiàn)。

空間智能在定義人類如何與物理世界互動中起著根本性的作用。每天，我們都依賴它完成最平常的行為：停車時通過想象車尾與路緣之間逐漸縮小的間隙來判斷距離；接住被人扔來的鑰匙；在人群密集的人行道上穿行而不相撞；或者在半睡半醒間不看杯子也能準確地把咖啡倒進去。在更極端的情境中，消防員在濃煙彌漫、結(jié)構(gòu)不斷坍塌的建筑中穿行，瞬間判斷穩(wěn)定與危險，依靠手勢、身體語言以及一種無法用言語表達的職業(yè)直覺進行協(xié)作。

而嬰兒在還未學會說話的數(shù)月甚至數(shù)年中，正是通過與環(huán)境的嬉戲互動來認識世界。所有這一切都在無意識間、自動地完成 —— 這種流暢性，是機器至今尚未具備的。

空間智能同樣是人類想象力與創(chuàng)造力的基礎。講故事的人在腦海中構(gòu)建獨特而豐富的世界，并借助各種視覺媒介將其傳達給他人 —— 從史前的洞穴壁畫，到現(xiàn)代電影，再到沉浸式電子游戲。無論是孩子在沙灘上筑起的沙堡，還是他們在電腦上玩《我的世界》所創(chuàng)造的空間，這種基于空間的想象力構(gòu)成了現(xiàn)實與虛擬世界中交互體驗的核心。而在眾多行業(yè)應用中，對物體、場景和動態(tài)交互環(huán)境的模擬，正支撐著從工業(yè)設計到數(shù)字孿生再到機器人訓練的無數(shù)關鍵業(yè)務場景。

縱觀歷史，空間智能在推動文明發(fā)展的關鍵時刻屢次扮演核心角色。在古希臘，埃拉托色尼通過幾何化陰影來揭示地球的尺度 —— 他在亞歷山大測量出七度的日影角度，并在太陽直射、影子消失的賽恩進行對比，計算出了地球的周長。哈格里夫斯通過一個空間構(gòu)想發(fā)明了「珍妮紡紗機」：將多個紡錘并列在同一架構(gòu)中，使一個工人能夠同時紡出多股紗線，生產(chǎn)效率因此提升八倍。沃森和克里克通過親手搭建三維分子模型、不斷調(diào)整金屬板與鐵絲的位置，最終發(fā)現(xiàn)了 DNA 的雙螺旋結(jié)構(gòu)。

當科學家與發(fā)明家需要操縱物體、想象結(jié)構(gòu)、推理空間關系時，正是空間智能推動了人類文明的躍進 —— 而這些都無法僅憑文字所捕捉。

空間智能是支撐人類認知的腳手架。無論我們是在被動觀察，還是主動創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動我們的推理與規(guī)劃，哪怕是在最抽象的思維領域；它也是我們與他人、與環(huán)境進行互動 —— 無論通過語言還是行動 —— 所必不可少的能力。雖然我們大多數(shù)人并不會像埃拉托色尼那樣揭示新的宇宙真理，但我們幾乎每天都以相似的方式思考 —— 通過感官理解復雜的世界，并憑借對物理與空間規(guī)律的直覺掌握，來形成認知與判斷。

遺憾的是，當下的人工智能尚未具備這種思維方式。

過去幾年，AI 的確取得了巨大進步。多模態(tài)大語言模型（MLLM）在文本之外引入了海量的多媒體數(shù)據(jù)，使 AI 具備了初步的空間感知能力。如今，AI 已經(jīng)能夠分析圖像、回答相關問題，并生成高度逼真的圖片和短視頻。借助傳感器與觸覺技術的突破，最先進的機器人也開始能夠在高度受限的環(huán)境中操縱物體與工具。

然而，坦率地說，AI 的空間能力仍與人類相距甚遠，這一差距顯而易見。最先進的多模態(tài)模型在估算距離、方向和大小等任務上，其表現(xiàn)往往僅略高于隨機水平；在「心智旋轉(zhuǎn)」（從不同角度重新生成物體）的測試中也極為有限。它們無法穿越迷宮，不能識別捷徑，也無法預測最基本的物理規(guī)律。AI 生成的視頻 —— 雖令人驚嘆，但往往在數(shù)秒后便失去連貫性。

當前最先進的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色，但在對物理世界的表征與交互上卻存在根本性局限。人類對世界的理解是整體性的 —— 不僅關乎我們「看見了什么」，還包括事物在空間上的關系、它們的意義以及彼此的關聯(lián)。通過想象、推理、創(chuàng)造與互動來理解世界，而非僅僅依賴語言描述，這正是空間智能的力量。沒有它，AI 就與它試圖理解的物理現(xiàn)實脫節(jié)，無法真正安全高效地駕駛汽車、引導家庭或醫(yī)院中的機器人，也難以實現(xiàn)學習與娛樂中的沉浸式互動體驗，更無法加速材料科學與醫(yī)學中的突破性發(fā)現(xiàn)。

哲學家維特根斯坦曾說，「我的語言的界限意味著我的世界的界限」。我不是哲學家，但我深知，對人工智能而言，世界遠不止語言本身。空間智能代表著超越語言的前沿 —— 它連接了想象、感知與行動，開啟了機器真正賦能人類生活的可能，從醫(yī)療到創(chuàng)造力，從科學發(fā)現(xiàn)到日常助理。

AI 的下一個十年：

構(gòu)建真正具備空間智能的機器

那么，我們該如何打造具備空間智能的 AI？通往那樣的模型之路是什么樣的？它不僅能像埃拉托色尼那樣進行空間推理，像工業(yè)設計師那樣精準構(gòu)造，像講故事的人那樣富于想象，還能像應急救援人員那樣自然地與環(huán)境互動。

要實現(xiàn)空間智能，我們需要的遠不止 LLM 那樣的體系，而是更具雄心的「世界模型」—— 一種新型生成式模型，能夠在語義、物理、幾何與動態(tài)等多重復雜世界（無論虛擬還是現(xiàn)實）中進行理解、推理、生成與交互。

這一領域仍處在萌芽階段，當前的研究方法從抽象推理模型到視頻生成系統(tǒng)皆有涉及。World Labs 正是在這一信念之上，于 2024 年初創(chuàng)立：即世界模型的基礎方法尚在確立之中，而這正是未來十年人工智能的關鍵挑戰(zhàn)所在。

在這一新興領域中，最重要的是確立指導發(fā)展的基本原則。對于空間智能而言，我將「世界模型」定義為具備以下三種核心能力的系統(tǒng)：

一是生成性：世界模型能夠生成在感知、幾何與物理層面保持一致的世界。

要解鎖空間理解與推理的能力，世界模型必須能夠生成屬于自己的模擬世界。它需要具備創(chuàng)造出無限多樣的虛擬世界的能力，這些世界必須遵循語義或感知層面的指令，同時在幾何、物理和動態(tài)層面保持一致性 —— 無論這些世界對應的是現(xiàn)實空間還是虛擬空間。研究界目前正積極探索這些世界的內(nèi)部幾何結(jié)構(gòu)應當以隱式還是顯式的方式表示。

除此之外，我認為，除了強大的潛在表征之外，一個通用的世界模型還必須能夠生成明確、可觀測的世界狀態(tài)，以適配不同的應用場景。尤其重要的是，它對當前世界的理解，必須與過去保持連貫 —— 與導致這一現(xiàn)狀的先前世界狀態(tài)相一致。

二是多模態(tài)性：世界模型在設計上即是多模態(tài)的。

正如動物與人類一樣，世界模型應能夠處理多種形式的輸入 —— 在生成式 AI 中通常被稱為提示詞。當輸入信息不完整時，無論是圖像、視頻、深度圖、文本指令、手勢還是動作，世界模型都應能夠預測或生成盡可能完整的世界狀態(tài)。這要求模型具備如真實視覺般處理視覺輸入的能力，同時又能同樣熟練地理解語義指令。這樣的能力使得智能體與人類能夠通過多樣化的輸入方式與模型就世界進行交流，并獲得多樣化的輸出反饋。

三是交互性：世界模型能夠根據(jù)輸入的動作生成下一個世界狀態(tài)。

當動作和 / 或目標成為世界模型的輸入提示時，其輸出必須包括世界的下一個狀態(tài) —— 可以是隱式的，也可以是顯式的。當輸入僅包含一個動作，或者包含動作與目標狀態(tài)時，世界模型應能生成與先前世界狀態(tài)、預期目標（若有）、語義含義、物理規(guī)律及動態(tài)行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上的不斷增強，可以想見，在某些情況下，模型不僅能預測世界的下一狀態(tài)，還能基于這一新狀態(tài)，進一步預測實現(xiàn)目標所需的下一步行動。

這一挑戰(zhàn)的規(guī)模，超出了人工智能以往所面對的一切。

語言只是人類認知中一種純粹的生成現(xiàn)象，而「世界」則遵循著遠為復雜的規(guī)律。在地球上，重力主宰著運動，原子結(jié)構(gòu)決定了光如何產(chǎn)生色彩與亮度，無數(shù)物理定律約束著每一次交互。即便是最奇幻、最具創(chuàng)造力的世界，其構(gòu)成的空間物體與行動主體，也都必須服從特定的物理法則與動態(tài)行為。要在語義、幾何、動態(tài)與物理層面上實現(xiàn)一致的統(tǒng)一與協(xié)調(diào)，需要全新的技術與理論路徑。

相較于語言這樣一維、順序性的信號，對「世界」的表征在維度與復雜度上要龐大得多。要讓世界模型具備人類所擁有的那種普適能力，必須突破多個艱巨的技術壁壘。在 World Labs，我們的研究團隊正致力于在這一目標上取得根本性的進展。

以下是我們當前的一些研究方向：

1、一種新的通用訓練任務函數(shù)：

為世界模型定義一種像 LLM 中的「下一 token 預測」那樣簡潔優(yōu)雅的通用任務函數(shù)，一直是該領域的核心目標之一。然而，由于世界模型在輸入與輸出空間上的復雜性，使得這種函數(shù)的構(gòu)建本身極具挑戰(zhàn)。盡管仍有大量未知有待探索，但這種目標函數(shù)及其對應的表征方式，必須能夠反映幾何與物理規(guī)律，體現(xiàn)世界模型作為聯(lián)結(jié)想象與現(xiàn)實的基礎性表征體系的本質(zhì)特征。

2、大規(guī)模訓練數(shù)據(jù)：

訓練世界模型所需的數(shù)據(jù)遠比文本更為復雜。好消息是，大規(guī)模數(shù)據(jù)源已經(jīng)存在?；ヂ?lián)網(wǎng)上海量的圖像與視頻，提供了豐富且可獲取的訓練材料，真正的挑戰(zhàn)在于如何研發(fā)能夠從二維圖像或視頻幀（即 RGB 信號）中提取更深層空間信息的算法。過去十年的研究表明，在語言模型中，數(shù)據(jù)量與模型規(guī)模之間存在明確的「scaling laws」；對于世界模型而言，關鍵在于構(gòu)建能夠在相似規(guī)模上充分利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。

此外，高質(zhì)量的合成數(shù)據(jù)，以及諸如深度信息與觸覺信息等額外模態(tài)，也將在訓練過程中的關鍵階段發(fā)揮重要作用。但要實現(xiàn)這一目標，我們?nèi)孕韪冗M的傳感系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強大的神經(jīng)模擬方法。

3、新型模型架構(gòu)與表征學習：

世界模型的研究將不可避免地推動模型架構(gòu)與學習算法的革新，尤其是在超越當前 MLLM 與視頻擴散模型范式的方向上?，F(xiàn)有方法通常將數(shù)據(jù)離散化為一維或二維序列，這使得一些簡單的空間任務變得不必要地困難 —— 比如統(tǒng)計短視頻中獨特的椅子數(shù)量，或記住一個房間一小時前的樣子。替代性架構(gòu)可能帶來突破，例如具備三維或四維感知能力的分詞、上下文和記憶機制。

以 World Labs 為例，我們最近開發(fā)的實時生成幀模型 RTFM（Real-Time Frame-based Model）正體現(xiàn)了這一方向的轉(zhuǎn)變。它將空間錨定的幀作為一種空間記憶形式，在保持生成世界連續(xù)性與一致性的同時，實現(xiàn)了高效的實時生成。

顯然，在通過世界模型徹底釋放空間智能之前，我們?nèi)悦媾R著艱巨的挑戰(zhàn)。這項研究不僅僅是理論探索，它將成為新一代創(chuàng)造力與生產(chǎn)力工具的核心引擎。而來自 World Labs 的最新進展令人振奮。我們近日首次向少量用戶展示了的早期成果 —— 這是首個能夠通過多模態(tài)輸入進行提示，從而生成并維持一致性三維環(huán)境的世界模型。用戶與創(chuàng)作者可以在其中探索、交互，并在創(chuàng)作流程中不斷擴展這一虛擬世界。我們也正全力推進，讓它盡快向公眾開放。

Marble 只是我們邁向真正具備空間智能的世界模型的第一步。隨著研究不斷加速，更多科學家、工程師、用戶與商業(yè)領袖開始意識到它所蘊含的巨大潛能。新一代的世界模型將使機器在空間智能方面達到全新的高度，這將開啟當今 AI 系統(tǒng)仍普遍缺乏的關鍵能力。

利用世界模型，

為人類創(chuàng)造更美好的世界

人工智能的發(fā)展動力至關重要。作為推動現(xiàn)代人工智能時代到來的一名科學家，我的初心始終清晰：AI 應當增強人類能力，而非取而代之。多年來，我一直致力于讓 AI 的研發(fā)、應用與治理與人類需求保持一致。如今，關于科技烏托邦或末日論的極端敘事層出不窮，但我依然堅持一種更務實的觀點：AI 由人類創(chuàng)造、由人類使用、也應由人類治理。它必須始終尊重人的自主性與尊嚴。

AI 的真正魅力，在于擴展我們的能力，使我們變得更加富有創(chuàng)造力、更加緊密相連、更高效、更有成就感。空間智能正是這種愿景的體現(xiàn) —— 一種能讓創(chuàng)作者、照護者、科學家與夢想家實現(xiàn)曾經(jīng)不可能之事的 AI。這一信念，是我將空間智能視為人工智能下一個偉大前沿的根本動力。

空間智能的應用涵蓋不同的時間維度。面向創(chuàng)作者的工具正在嶄露頭角 ——World Labs 的 Marble 已經(jīng)讓創(chuàng)作者與講述者能夠直接掌握這些能力。機器人學則代表了中期的雄心目標，我們正不斷完善感知與行動之間的閉環(huán)。而那些最具變革性的科學應用可能需要更長時間，但它們有望對人類的繁榮產(chǎn)生深遠影響。

縱觀這些不同階段，有幾個領域格外值得關注，因為它們最有潛力重塑人類能力。要實現(xiàn)這一愿景，需要集體的巨大努力，遠超任何一個團隊或公司的能力范圍。這需要整個 AI 生態(tài)系統(tǒng)的共同參與：研究者、創(chuàng)新者、企業(yè)家、公司，乃至政策制定者，都必須攜手朝著共同的愿景前進。而這一愿景，值得我們?nèi)σ愿?。接下來，讓我們看看這個未來將帶來什么。

創(chuàng)造力：賦能故事敘述與沉浸式體驗

「創(chuàng)造力是智力在享受樂趣。」這是我最喜愛的名言之一，出自我的精神偶像阿爾伯特?愛因斯坦。早在文字出現(xiàn)之前，人類就已經(jīng)在講述故事 —— 他們將故事繪在洞穴的石壁上，口耳相傳，代代延續(xù)，并以共同的敘事建構(gòu)出整個文化。故事是人類理解世界的方式，是跨越時空的紐帶，是我們探索「何為人」的途徑，更是我們在生命與愛中尋找意義的核心。

如今，空間智能有潛力徹底改變我們創(chuàng)造與體驗故事的方式 —— 不僅尊重敘事本身的根本價值，更將其影響力從娛樂延展到教育，從設計延伸到建筑，讓創(chuàng)造與體驗的邊界得到全新拓展。

World Labs 的 Marble 平臺正把前所未有的空間創(chuàng)造力與編輯控制力交到電影制作人、游戲設計師、建筑師以及各類敘事創(chuàng)作者手中，使他們能夠快速創(chuàng)建并迭代可自由探索的三維世界，而無需承擔傳統(tǒng) 3D 設計軟件所帶來的復雜成本。創(chuàng)作行為依然保持其獨特的人性與活力，而 AI 工具只是放大并加速了創(chuàng)作者能夠?qū)崿F(xiàn)的潛能。這其中包括：

在新維度中展開敘事體驗：電影制作人和游戲設計師正在利用 Marble 創(chuàng)造完整的世界，不再受制于預算或地理的限制，他們得以探索傳統(tǒng)制作流程中難以企及的場景與視角。隨著不同媒介與娛樂形式之間的界限逐漸模糊，我們正邁向一種全新的交互體驗形態(tài)，藝術、模擬與游戲的融合體。在這些個性化的世界中，不僅是大型工作室，任何人都可以創(chuàng)造并居住在屬于自己的故事里。隨著從概念與分鏡到完整體驗的生成過程變得更加快捷高效，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在多種平臺與載體之間，構(gòu)建互相關聯(lián)的世界與故事線。

通過設計講述空間敘事：幾乎所有的制造物與建筑空間，在被實體化之前，都必須先在虛擬三維世界中完成設計。這一過程迭代頻繁，且在時間與成本上代價高昂。借助具備空間智能的模型，建筑師可以在動工之前快速可視化建筑結(jié)構(gòu)，甚至漫步于尚未存在的空間中，從而以一種講故事的方式，探索人類未來的生活、工作與聚會方式。工業(yè)設計師與時尚設計師則能瞬間將想象轉(zhuǎn)化為形態(tài)，直觀地探索物體與人體及空間之間的關系。

全新的沉浸式與交互式體驗：體驗本身，是人類創(chuàng)造意義最深層的方式之一。在漫長的人類歷史中，我們共享的唯一三維世界是物理世界。直到近幾十年，隨著游戲與早期 VR 的出現(xiàn)，我們才開始窺見人類自造「平行世界」的可能。如今，空間智能結(jié)合 VR、XR 頭顯以及沉浸式顯示設備等新形態(tài)，將這種體驗提升到了前所未有的高度。我們正邁向一個時代 —— 走進一個完全實現(xiàn)的多維世界，將如同打開一本書般自然?？臻g智能讓「造世界」的能力不再只是專業(yè)團隊與大型工作室的特權，而是向個人創(chuàng)作者、教育者以及任何懷抱想象的人開放。

機器人：具身智能的實踐

從昆蟲到人類，動物都依賴空間智能來理解、導航并與周圍世界互動。機器人也將如此。自這一領域誕生以來，具備空間感知能力的機器一直是其終極目標 —— 這也包括我與斯坦福實驗室學生和合作伙伴多年來的研究工作。這正是我對 World Labs 正在構(gòu)建的世界模型充滿期待的原因之一，因為它們有望真正讓這一愿景成為現(xiàn)實。

通過世界模型擴展機器人的學習能力：

機器人的學習進步，取決于能否找到一種可擴展的訓練數(shù)據(jù)解決方案。鑒于機器人在理解、推理、規(guī)劃與交互中所面對的龐大狀態(tài)空間，許多研究者推測，只有結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成仿真以及人類演示的真實捕獲，才能真正培育出具備泛化能力的機器人。

然而，與語言模型不同，目前機器人研究的數(shù)據(jù)極其匱乏。世界模型將在此發(fā)揮決定性作用。隨著其感知精度與計算效率的提升，世界模型的輸出能夠快速縮小模擬與現(xiàn)實之間的差距，從而幫助機器人在無數(shù)狀態(tài)、交互與環(huán)境的仿真中進行訓練。

人類的伙伴與協(xié)作者：

作為人類的協(xié)作者，無論是在實驗臺前協(xié)助科學家，還是陪伴獨居長者，機器人都能在勞動力與生產(chǎn)力極度緊缺的領域中提供支持。但要做到這一點，它們必須具備空間智能 —— 既能感知、推理、規(guī)劃、行動，又能（這點最為重要）保持對人類目標與行為的情感共鳴與理解。

例如，在實驗室中，機器人可以代替科學家操作儀器，讓人類專注于更需要靈巧與推理的任務；在家庭中，助理機器人可以幫助老人烹飪，而不削減他們的自主性與生活樂趣。真正具備空間智能的世界模型 —— 能夠預測下一狀態(tài)，甚至推測與之相符的行動 —— 是實現(xiàn)這一目標的關鍵。

拓展具身智能的形態(tài)：

人形機器人在我們構(gòu)建的世界中確有其角色，但創(chuàng)新的全部潛力將來自更為多樣的設計形式：如可輸送藥物的納米機器人、能穿越狹窄空間的軟體機器人、以及適用于深?；蛲馓盏奶剿餍蜋C器。無論形態(tài)如何，未來的空間智能模型都必須同時整合機器人所處的環(huán)境與其自身的感知與運動方式。

然而，這類機器人的發(fā)展面臨的核心難題，是缺乏適用于多種具身形態(tài)的訓練數(shù)據(jù)。世界模型將在這一過程中發(fā)揮關鍵作用 —— 它們將為仿真數(shù)據(jù)的生成、訓練環(huán)境的構(gòu)建以及評測任務的制定提供基礎支撐。

更長遠的視野：科學、醫(yī)療與教育

除了創(chuàng)意與機器人領域，空間智能的深遠影響還將擴展至那些 AI 能夠以拯救生命、加速發(fā)現(xiàn)等方式增強人類能力的領域。以下我將重點談及三個具有深刻變革潛力的方向，但顯而易見，空間智能的應用遠不止于此，它將在更多行業(yè)中展現(xiàn)出廣闊的前景。

在科學研究中，具備空間智能的系統(tǒng)能夠模擬實驗、并行檢驗假設、探索人類難以到達的環(huán)境 —— 從深海到遙遠的行星。這項技術將重塑氣候科學、材料研究等領域的計算建模方式。通過將多維度的仿真與真實世界的數(shù)據(jù)采集相結(jié)合，這類工具可以降低計算壁壘，拓展每一個實驗室的觀察與理解邊界。

在醫(yī)療領域，空間智能將從實驗室到病房，全面改變醫(yī)學實踐。在斯坦福，我與學生及合作伙伴多年來與醫(yī)院、養(yǎng)老機構(gòu)以及家庭患者緊密合作，這段經(jīng)歷讓我更加堅信空間智能在醫(yī)療中的變革潛力。AI 可以通過多維建模加速藥物發(fā)現(xiàn)；通過模式識別輔助放射科醫(yī)生提升影像診斷的準確性；并通過環(huán)境感知式監(jiān)護系統(tǒng)支持患者與護理者，而不削弱康復所需的人際聯(lián)系。更不用說，具備空間智能的機器人也能在不同場景中，為醫(yī)護人員與患者提供強大的幫助。

在教育領域，空間智能能夠讓抽象或復雜的概念變得可感知、可體驗，從而實現(xiàn)沉浸式學習。它還能創(chuàng)造出與人類大腦與身體學習機制高度契合的迭代式學習體驗。在 AI 時代，更快、更高效的學習與再培訓，對學生與成年人都至關重要。學生可以以多維視角探索細胞運作機制，或親身「走入」歷史事件；教師則能借助交互式環(huán)境實現(xiàn)個性化教學；而外科醫(yī)生、工程師等專業(yè)人士則可在逼真的仿真環(huán)境中安全練習復雜技能。

無論在哪個領域，空間智能所帶來的可能性幾乎沒有邊界，但目標始終如一：讓 AI 增強人類的專業(yè)能力，加速人類的發(fā)現(xiàn)，放大人類的關懷 —— 而不是取代構(gòu)成人之為人的核心品質(zhì)：判斷力、創(chuàng)造力與共情力。

結(jié)語

在過去的十年里，人工智能已成為全球現(xiàn)象，并成為技術、經(jīng)濟乃至地緣政治的轉(zhuǎn)折點。然而，作為一名研究者、教育者以及如今的創(chuàng)業(yè)者，真正激勵我的，仍然是圖靈在 75 年前提出的那個問題背后的精神。我依然與他一樣，懷抱著對智能的驚奇與敬畏。正是這種好奇與挑戰(zhàn)的魅力，讓我每天都為空間智能的探索而充滿動力。

在人類歷史上，我們首次有能力構(gòu)建出與物理世界深度契合的機器，讓它們成為我們在應對重大挑戰(zhàn)時值得信賴的伙伴。無論是加速我們在實驗室中對疾病的理解，革新我們講述故事的方式，還是在疾病、傷痛或衰老帶來的脆弱時刻給予支持，我們正站在一項能夠提升人類最珍視生活要素的技術門檻上。這是一個讓生命更加深刻、更加豐盈、更加有力量的愿景。

距自然在遠古動物身上首次點燃空間智能的火花，已過去近五億年。而我們有幸身處這樣一個時代，或許很快，我們將讓機器也擁有同樣的能力；更幸運的是，我們能夠?qū)⑦@種能力用于造福全人類。如果沒有空間智能，我們對「真正智能機器」的夢想就永遠無法完整。

原文鏈接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

文章來源：機器之心。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.