ZPedia｜李飛飛2篇長文點破本質(zhì)，當前AI對空間的理解完全跑偏，Marble或是未來5年最重要的AI產(chǎn)品

2025-11-14 22:04:47　來源: ZFinance

北京舉報

分享至

昨天，李飛飛的 World Labs 團隊正式發(fā)布了首款產(chǎn)品——Marble，一個真正意義上面向大眾的多模態(tài)世界模型平臺。用戶只需要一張圖、一段視頻，甚至一句短短的文字，就能在瀏覽器里生成一個可漫游、可編輯、可導出的三維世界。不需要 Blender，不需要虛幻引擎，也不需要任何 3D 專業(yè)知識，一切從提示開始，一切都能修改、一切都能拓展。

但 Marble 最有意思的地方從來不在“它能生成多好看”，而在于它和李飛飛最近發(fā)布的兩篇文章形成了閉環(huán)：理念、路徑、產(chǎn)品三件事首次對齊。

在空間智能宣言《From Words to Worlds》中，李飛飛把問題拆得非常徹底：當下的大模型，本質(zhì)上是“黑暗中的盲人”。它們在符號世界里無所不能寫、能講、能推斷；但一旦進入物理世界，它們便近乎是個嬰兒：倒車入庫判斷不了距離、廚房里識別不出危險、房間里物體關(guān)系也完全沒有概念。

原因不是模型不夠強，而是它根本沒有人類賴以生存的“空間智能”。語言能描述世界，但不能替代世界。智能若要進一步發(fā)展，就必須從“token-based”跨向“world-based”。

Marble 的意義就在于，它是這條路線的第一個公眾可觸達的產(chǎn)品，它把“世界建?！睆恼撐淖兂闪四鼙粍?chuàng)作者、工程師、設(shè)計師直接使用的工具，讓空間智能第一次有了落地的入口。

Cambrian-S：為什么視頻大模型根本不理解世界？

要理解 Marble 的價值，就要先理解為什么現(xiàn)有視頻大模型不夠——這正是李飛飛、謝賽寧和 Yann LeCun 在 Cambrian-S 論文中試圖回答的問題。

論文開頭就給出了一個很重要的框架：人類理解世界不是靠單幀信息，而是靠“空間超感知”。簡單說，我們不僅要知道“眼前是什么”，還要知道“它在空間里的位置”“剛剛發(fā)生了什么”“接下來會發(fā)生什么”。

基于這個思路，作者將空間智能拆成了四層——語義識別、事件認知、三維推理、預(yù)測性世界模型。殘酷的是：當下的多模態(tài)系統(tǒng)大多停留在第一層，連第二層都只摸到皮毛，而第三、四層才是真正決定 AI 能否進入物理世界的關(guān)鍵。

為了驗證當前視頻理解模型究竟有沒有“真的在看視頻”，研究團隊設(shè)計了一組幾乎帶點挑釁意味的診斷實驗。他們沒有直接用視頻模型，而是用一個純圖像模型 Cambrian-1，把同一段視頻拆成四種輸入方式：

（1）給它 32 幀正常視頻；

（2）只給中間一幀；

（3）不給畫面、只給從視頻生成的文字描述；

（4）什么視覺信息都不提供。

結(jié)果出乎所有人意料——甚至可以說是當頭一棒。

在 EgoSchema、VideoMME 等九個主流視頻 QA 基準上，當研究者把“視頻”換成“字幕”時，模型表現(xiàn)不降反升，最高能提升 20%+。換句話說，這些任務(wù)根本不需要“看視頻”，模型靠的不是視覺理解，而是語言先驗和題庫式的模式匹配。

下圖展示了這一點：一旦“多幀視頻”與“幀字幕”之間的性能差異接近于零，就意味著視覺信息在這個基準中幾乎沒有價值。

為什么會這樣？因為當前模型是被動接受視頻的——來一幀收一幀，完全不知道什么重要、什么該記、什么該忘。它們記住了大量冗余信息，卻忽略了真正的空間變化點。

于是，論文給行業(yè)補上了另一塊缺失的拼圖——VSI-SUPER，一個真正意義上考“空間智能”的新基準。它包含兩個特別折磨模型的任務(wù)。

第一個測試叫 VSR，核心是考察模型的“空間回憶能力”。研究團隊讓人類標注者在一段長達 240 分鐘的房間巡游視頻中，將一只泰迪熊悄悄 P 到四個毫無關(guān)聯(lián)的位置里——可能在第三個房間的書架上，也可能在第十二個房間的地毯邊。模型的任務(wù)是：按順序說出泰迪熊究竟“在哪一個房間、在哪一個角落”出現(xiàn)過。圖 4 展示的就是這種帶有“視覺欺騙”的構(gòu)造流程。

第二個測試 VSC 則瞄準了另一種更貼近現(xiàn)實的能力：持續(xù)計數(shù)。在生活中，我們不需要把每一幀記在腦子里，也能大致知道一個房間里有幾把椅子。這個測試要求模型在鏡頭不斷切換、房間不斷變化的情況下，回答一個簡單的問題“所有房間加起來一共有幾把椅子？”

這些任務(wù)對人類是本能，但對 AI 幾乎是災(zāi)難。表 1顯示，即使給模型塞進 100 萬 token 上下文，它在 60 分鐘的 VSR 上依然只有 41.5% 準確率，而在 VSC 上更是只有 10.9%。

上下文再長也沒用，因為真正的空間智能從來不是靠“記住更多幀”實現(xiàn)的——而是靠“記住關(guān)鍵幀、忘記無用信息”。人類不是靠記憶所有像素，而是靠預(yù)測世界的變化來決定該在什么時候記住什么。

為了破解這些瓶頸，論文提出了一個非常有意思的機制：預(yù)測性感知（predictive sensing）。模型不再被動接受每一幀，而是主動預(yù)測下一幀。當預(yù)測失敗時，模型就會觸發(fā)記憶更新、事件分段、信息過濾——這和人類觀看視頻時的認知過程高度一致。

實驗表明，這種機制的效果遠優(yōu)于簡單堆疊幀數(shù)或擴展上下文窗口。即便不增加參數(shù)、不擴上下文，只要加入這套機制，模型在長時計數(shù)、跨房間回憶等任務(wù)上的表現(xiàn)就能顯著超越主流大模型；那些原本完全跟不上真實世界變化、計數(shù)曲線“死平”的模型，突然開始隨著畫面內(nèi)容同步增長，首次展現(xiàn)出“世界狀態(tài)被正確維護”的趨勢。

回到 Marble：世界模型的第一塊可用拼圖

當我們理解了空間智能為何重要、現(xiàn)有視頻大模型為何無效，再回頭看 Marble，就會發(fā)現(xiàn)它真正突破的從來不是“生成一個好看的 3D 場景”，而是它第一次把“世界模型”從前沿論文、頂會討論里，推向了普通創(chuàng)作者與開發(fā)者的手中。

第一，它是對“世界模型可用性”的一次實戰(zhàn)檢驗。很多世界模型工作停留在 NeRF demo 或研究原型階段：效果驚艷，門檻同樣驚人。而 Marble 做的事情，是把高門檻的 world model 包裝成一個創(chuàng)作者可以直接玩的 SaaS——瀏覽器里導入一張圖、一段視頻、一個 layout，就能生成一個可走、可改、可導出的世界。

這對 3D 內(nèi)容生產(chǎn)鏈條意味著什么？意味著影視前期預(yù)演、游戲關(guān)卡原型、建筑可視化、虛擬拍攝、VR 體驗，可以第一次把“搭世界”當作一個高度可反復迭代的環(huán)節(jié)，而不是一次性重資產(chǎn)投入。

第二，它是對“空間智能商業(yè)邊界”的一次探索。PYMNTS 等媒體在報道中用了一個非常有意思的表述：Marble 是“為 AI 配備更深層物理空間理解的商業(yè) world model”，標志著 AI 行業(yè)開始從語言和圖像模型，向可以在 3D 環(huán)境中生成和推理的系統(tǒng)遷移。

你可以把 Marble 看成一種“空間版 API”：今天，它為創(chuàng)作者生成可編輯世界；明天，它完全可能為機器人公司提供可訓練的虛擬環(huán)境，為自動駕駛提供長尾場景仿真，為數(shù)字療法提供定制暴露環(huán)境，為科學模擬提供“假想實驗空間”。在這個意義上，Marble 賣的不是“幾張世界的訂閱”，而是一種“對世界進行編程的能力”。這也是為什么不少評論會把它視作 AGI 鏈路上的一個關(guān)鍵節(jié)點——它在某種程度上，把“世界作為數(shù)據(jù)”的想象變得可操作。

第三，它其實隱含著對整個行業(yè)的一次“打法反問”。Hacker News 上有人評論說，Marble 更像是一個平臺發(fā)布，而不是簡單的模型發(fā)布，因為它企圖先占據(jù)“世界生成平臺”的位置，再把模型的演進放在平臺后面滾動升級。

對比今天主流大模型公司的路徑：大多是先卷出一個更大的語言模型，再考慮生態(tài)、平臺和應(yīng)用層。而World Labs 的選擇是：先站穩(wěn)空間智能的敘事高地，再用論文和產(chǎn)品搶先把“世界模型平臺”這個入口坐牢。這種“理念 + 論文 + 產(chǎn)品 + 平臺”的一體化打法，對后來者是一種極高門檻——你不只是要追上技術(shù)，還要在話語體系和開發(fā)者心智上撕開新的入口。

當然，必須承認 Marble 仍遠未達到 Cambrian-S 定義的空間智能上限。它生成的世界更多是靜態(tài)的，物理規(guī)律較為有限，復雜動態(tài)交互和長時因果鏈路的建模能力也還在非常早期階段。但這并不削弱它的重要性——恰恰相反，這意味著空間智能的路線第一次有“能落地的產(chǎn)品雛形。

在從“Words 到 Worlds”的新敘事里，Marble 是那塊真正被放到桌面上的原型機，它讓整個行業(yè)第一次看見：AI 不必永遠停留在語言里，它也可以開始構(gòu)建和理解世界本身。

下面，讓我們重溫她的長文——《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這篇宣言式的文章，或許正是整個空間智能時代的序章。

1950 年，當計算不過是“自動算術(shù)”和簡單邏輯運算時，艾倫·圖靈提出了一個直到今天仍回響的問題：機器能夠思考嗎？要看到他所看到的前景，需要極其非凡的想象力——也就是：也許有一天，智能不是“出生”的，而是被“制造”出來的。這個洞見后來開啟了一場被命名為“人工智能（AI）”的持久科學追問。進入 AI 領(lǐng)域工作至今二十五年，我依然時常被圖靈的愿景所鼓舞。但我們?nèi)缃窬嚯x那個愿景還有多近？答案并不簡單。

今天，以大型語言模型（LLM）為代表的前沿 AI 技術(shù)，已經(jīng)開始重塑我們獲取和處理抽象知識的方式。然而，它們?nèi)韵袷窃诤诎抵写蜃值奈陌父呤郑耗苎陨妻q卻缺乏體驗，知識豐富卻缺乏落地?？臻g智能將改變我們創(chuàng)造和交互真實世界與虛擬世界的方式——從講故事、創(chuàng)意、機器人，到科學發(fā)現(xiàn)乃至更廣的領(lǐng)域，都將被徹底改造。這是 AI 的下一塊前沿。

自從進入這個領(lǐng)域開始，對視覺與空間智能的追求就一直是引導我的“北極星”。正因如此，我花了多年時間構(gòu)建了 ImageNet——第一個大規(guī)模視覺學習與評測數(shù)據(jù)集，它與神經(jīng)網(wǎng)絡(luò)算法以及現(xiàn)代算力（如 GPU 圖形處理器）一道，成為促成年代現(xiàn)代 AI 誕生的三大關(guān)鍵要素。也因此，我在斯坦福的學術(shù)實驗室在過去十年里，一直在把計算機視覺與機器人學習結(jié)合起來。也正因為同樣的原因，一年多前，我與 Justin Johnson、Christoph Lassner、Ben Mildenhall 幾位聯(lián)合創(chuàng)始人一起創(chuàng)建了 World Labs：第一次嘗試把這種可能性真正完整地變?yōu)楝F(xiàn)實。

在這篇文章中，我將解釋什么是空間智能、為什么它至關(guān)重要，以及我們?nèi)绾瓮ㄟ^構(gòu)建世界模型來釋放這種能力——這種能力將重塑創(chuàng)意、具身智能以及人類的整體進步。

空間智能：人類認知的腳手架

AI 從未像今天這樣令人興奮。以 LLM 為代表的生成式 AI 模型，已經(jīng)從研究實驗室走進日常生活，成為數(shù)十億人進行創(chuàng)作、提升生產(chǎn)力和溝通協(xié)作的日常工具。它們展現(xiàn)了曾經(jīng)被認為不可能的能力：能寫出連貫的長文，產(chǎn)出成山的代碼，生成照片級逼真的圖像，甚至輕松合成短視頻。AI 是否會改變世界，這已經(jīng)不再是問題；按任何合理標準，它已經(jīng)改變了世界。

但仍有太多能力遠在我們的觸及之外。自主機器人的愿景依然充滿吸引力，卻仍更多停留在設(shè)想層面，而不是像未來學家長期承諾的那樣走入尋常日常生活。對疾病治療、全新品類材料發(fā)現(xiàn)、粒子物理等領(lǐng)域?qū)崿F(xiàn)大幅提速的夢想，在很大程度上尚未實現(xiàn)。至于那種真正理解并賦能人類創(chuàng)作者的 AI——無論是幫助學生掌握復雜的分子化學概念，幫助建筑師在腦海中“看見”空間，幫助電影人構(gòu)建世界，還是為任何渴望沉浸式虛擬體驗的人賦能——這一切依然遙不可及。

要理解為何這些能力依舊難以實現(xiàn)，我們需要回到空間智能的演化歷程，重新審視它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石，但它的力量源自更為根本的東西。早在動物學會筑巢、撫育后代、用語言溝通，乃至建造文明之前，最初那種“感知”的動作，就已經(jīng)悄然點燃了一場通往智能的演化旅程。

這種看似孤立的能力——從外部世界中捕捉一絲光亮，或感知某種觸感——在感知與生存之間架起了一座橋梁，而這座橋梁在一代代演化中不斷加固、延展并變得愈發(fā)精巧。神經(jīng)元一層層地沿著這座橋梁生長，形成了能夠解釋世界、協(xié)調(diào)個體與環(huán)境之間互動的神經(jīng)系統(tǒng)。因此，許多科學家推測：感知與行動構(gòu)成了驅(qū)動智能演化的核心閉環(huán)，也成為大自然創(chuàng)造我們這個物種的基礎(chǔ)——我們也許是“感知—學習—思考—行動”的終極體現(xiàn)。

空間智能在決定我們?nèi)绾闻c物理世界互動方面，扮演著根本性的角色。每天，我們都在依賴它完成最尋常的動作：倒車入位時，在腦中想象保險杠與路沿之間那條逐漸收窄的縫隙；接住被人從房間另一頭隨手拋來的鑰匙；在人群密集的人行道上穿行而不相撞；又或是在迷迷糊糊的清晨，不看杯子也能把咖啡準確倒入杯中。在更極端的場景中，消防員在坍塌中的建筑里穿梭，在翻滾的煙霧中，對結(jié)構(gòu)穩(wěn)定與生死風險作出瞬間判斷，依賴手勢、身體語言以及一種無法用語言替代的專業(yè)本能進行溝通。而孩子們在尚未開口說話的幾個月甚至幾年里，幾乎完全通過與環(huán)境的游戲式互動來學習這個世界。所有這一切都發(fā)生得自然而然、自動流暢——這種“熟練度”，是機器遠未掌握的。

空間智能同樣是我們想象力與創(chuàng)造力的底層支撐。講故事的人在腦海中構(gòu)造出獨一無二的世界，并借助各種視覺媒介把它們呈現(xiàn)給他人——從遠古洞穴壁畫，到現(xiàn)代電影，再到沉浸式電子游戲。無論是孩子在海邊堆沙堡，還是在電腦前玩《我的世界》，建立在空間基礎(chǔ)之上的想象力，都是現(xiàn)實或虛擬世界中一切互動體驗的根基。在大量行業(yè)應(yīng)用中，對物體、場景以及動態(tài)交互環(huán)境的模擬，也在為無數(shù)關(guān)鍵的商業(yè)場景提供動力——從工業(yè)設(shè)計到數(shù)字孿生，再到機器人訓練。

歷史上存在許多足以塑造整個人類文明的時刻，而空間智能在其中都發(fā)揮了核心作用。在古希臘，埃拉托色尼把影子變成幾何問題：他在亞歷山大城測出一個 7 度的夾角，恰好對應(yīng)賽伊尼城中正午無影的時刻，由此推算出地球的周長。哈格里夫斯發(fā)明的“珍妮紡紗機”通過一個空間上的洞見，徹底改變了紡織業(yè)：將多個紡錘并列布置在一臺機器上，使得一個工人可以同時紡出多股紗線，生產(chǎn)效率提升了八倍。沃森和克里克通過親手搭建三維分子模型——反復擺弄金屬片和金屬線——才最終找到了 DNA 堿基對的空間排布方式。在這些案例中，每一次文明的躍升，都離不開空間智能：科學家與發(fā)明家必須操控物體、在腦中構(gòu)建結(jié)構(gòu)，并在物理空間中進行推理——這些能力，都不是僅靠文字就能完全捕捉的。

空間智能是支撐我們?nèi)空J知結(jié)構(gòu)的腳手架。當我們被動地觀察，或主動地進行創(chuàng)造，它都在發(fā)揮作用。即便是在最抽象的議題上，它也驅(qū)動著我們的推理與規(guī)劃。無論是通過語言還是通過肢體動作，無論是與同伴互動，還是與外部環(huán)境打交道，空間智能都是不可或缺的。雖然我們大多數(shù)人在日常生活中，并不會天天像埃拉托色尼那樣發(fā)現(xiàn)“關(guān)于宇宙的新真理”，但我們的思考方式其實與之類似——通過感官去理解復雜世界，再基于對物理和空間規(guī)律的直覺，把這一切理順。

不幸的是，今天的 AI 還不會這樣思考。

過去幾年，我們的確取得了巨大進步。多模態(tài)大型語言模型（MLLM）在大量多媒體數(shù)據(jù)與文本數(shù)據(jù)上進行訓練，開始具備一些基礎(chǔ)的空間感知能力，今天的 AI 已經(jīng)可以分析圖片，回答關(guān)于圖片的問題，并生成高度逼真的圖像和短視頻。而在傳感器與觸覺技術(shù)的突破下，我們最先進的機器人，已經(jīng)開始能在高度受限的環(huán)境中操控物體和工具。

但坦率地說，AI 在空間維度上的能力，距離人類水平仍然相去甚遠，而且其局限會很快暴露出來。最先進的多模態(tài)模型，在判斷距離、方向和大小時，表現(xiàn)往往和“擲硬幣猜測”差不多；在“心里”旋轉(zhuǎn)一個物體、從另一個視角重新生成它時，同樣幾乎不會比隨機好多少。它們不會走迷宮，也不會識別捷徑，更談不上預(yù)判最基礎(chǔ)的物理規(guī)律。AI 生成的視頻——雖然很新奇，也確實“很酷”——卻往往在短短幾秒后就失去連貫性。

當前的最前沿 AI 模型，在閱讀、寫作、檢索信息以及數(shù)據(jù)模式識別方面可以表現(xiàn)得極其出色，但在表征或與物理世界互動時，它們都有根本性的局限。我們對世界的理解，始終是整體性的——不只是眼前看到什么，還包括事物之間的空間關(guān)系、它們意味著什么、為什么重要。通過想象、推理、創(chuàng)造與交互去理解世界，而不只是聽取“描述”，正是空間智能的力量。缺少空間智能，AI 就始終與它試圖理解的物理現(xiàn)實脫節(jié)。它無法真正安全地為我們駕駛汽車、在家庭和醫(yī)院中為機器人提供導航、無法開啟全新的沉浸式交互學習與娛樂方式，也無法大幅加速材料科學與醫(yī)療領(lǐng)域的發(fā)現(xiàn)。

哲學家維特根斯坦曾寫道：“我語言的界限，就是我世界的界限?！蔽也⒉皇钦軐W家，但至少就 AI 而言，我非常清楚：世界遠不止于“文字”?？臻g智能代表的是語言之“外”的前沿——它是一種能力，把想象、感知與行動連在一起，讓機器真正有機會在醫(yī)療、創(chuàng)意、科學發(fā)現(xiàn)和日常助理等方方面面，更深刻地改善人類生活。

未來十年的 AI：構(gòu)建真正具備空間智能的機器

那么，我們究竟如何構(gòu)建具有空間智能的 AI？怎樣的路徑，才能讓模型具備：在推理上擁有類似埃拉托色尼那樣的洞察力，在工程上擁有工業(yè)設(shè)計師級別的精度，在創(chuàng)造上具備講故事者那樣的想象力，并能像一線救援人員那樣與環(huán)境進行流暢互動？

要打造具備空間智能的 AI，我們需要的，是比 LLM 更具野心的東西：世界模型（world models）。這是一類全新的生成模型，要在語義、物理、幾何與動態(tài)結(jié)構(gòu)都極其復雜的世界中——無論是真實世界還是虛擬世界——實現(xiàn)理解、推理、生成以及交互，其能力遠遠超出當今 LLM 所能觸及。這個領(lǐng)域仍非常早期，從抽象推理模型到視頻生成系統(tǒng)，都可以算作當前方法的一部分。World Labs 正是基于這樣的信念在 2024 年初創(chuàng)立的：基礎(chǔ)方法仍在確立之中，而這將成為未來十年的決定性挑戰(zhàn)。

在這個新興領(lǐng)域里，最重要的是先確立指導發(fā)展的原則。對于空間智能，我從三個關(guān)鍵能力來界定世界模型：

生成性：世界模型能夠生成在感知、幾何和物理上自洽的世界
想要真正解鎖空間理解與空間推理，世界模型不僅要“看懂世界”，還要能生成自己的“模擬世界”。它必須能夠根據(jù)語義或感知層面的指令，生成無窮多樣且豐富的模擬世界，同時在幾何結(jié)構(gòu)、物理規(guī)律與動態(tài)行為上保持一致，無論這些世界代表的是現(xiàn)實空間還是虛擬空間。當前研究社區(qū)正在積極探索：這些世界究竟應(yīng)該以內(nèi)隱的方式表示，還是應(yīng)該以更顯式的幾何結(jié)構(gòu)進行編碼。此外，我認為，在擁有強大潛在表示的基礎(chǔ)上，一個通用世界模型的輸出，還必須能夠在多種使用場景下生成“顯式、可觀察”的世界狀態(tài)。尤其重要的是，它對當下世界狀態(tài)的理解，必須與其過去保持連貫——與導致這一狀態(tài)的所有先前世界狀態(tài)前后一致。
多模態(tài)：世界模型在設(shè)計上就是多模態(tài)的
就像動物和人類一樣，一個世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域，這些輸入往往被稱為“提示（prompt）”。在只獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)當盡可能推斷或生成盡量完整的世界狀態(tài)。這要求模型既要具備接近真實視覺的圖像處理能力，又要能同樣熟練地理解語義指令。這樣一來，智能體與人類都可以通過多樣的輸入形式與模型就“世界”進行對話，并以同樣多樣的輸出形式得到響應(yīng)。
交互性：世界模型能夠基于輸入的動作給出世界的下一狀態(tài)
最后，如果“動作”與“目標”是輸入提示的一部分，那么世界模型的輸出就必須包含世界的下一狀態(tài)——無論這種世界狀態(tài)是以內(nèi)隱還是顯式的方式表示。當一個世界模型只接收到一個動作（有或沒有目標狀態(tài)）作為輸入時，它應(yīng)該生成的輸出狀態(tài)，需要與世界此前的狀態(tài)、預(yù)期目標狀態(tài)（若存在）、以及世界的語義結(jié)構(gòu)、物理規(guī)律和動態(tài)行為保持一致。隨著具備空間智能的世界模型在推理與生成能力上的不斷增強，我們可以想象這樣一種情形：給定一個目標，世界模型不僅能預(yù)測世界的下一狀態(tài)，還能進一步預(yù)測在這一新狀態(tài)下應(yīng)采取的下一步動作。

這個挑戰(zhàn)的難度，前所未有地超出了 AI 以往面對的一切難題。

語言是人類認知中一種“純粹生成”的現(xiàn)象，而“世界”則遵循遠為復雜的規(guī)則。在地球上，重力支配運動，原子結(jié)構(gòu)決定光如何產(chǎn)生顏色與明暗，無數(shù)物理定律約束著每一次交互。即便是最天馬行空的虛構(gòu)世界，也必須由復雜的空間對象和智能體組成，并且整體遵守該世界自身的物理規(guī)律與動態(tài)行為。要在語義、幾何、動態(tài)與物理這些維度上實現(xiàn)一致，必須依賴全新的方法。相比一維、按順序展開的語言信號，對“世界”的表示在維度上要復雜得多。想要構(gòu)建出能夠像人類一樣具備普適能力的世界模型，我們還需要跨越多個艱巨的技術(shù)鴻溝。在 World Labs，我們的研究團隊正致力于在這些方向上取得根本性突破。

以下是我們目前的一些研究主題示例：

一種新的“通用任務(wù)函數(shù)”用于訓練：
在世界模型研究中，如何定義一個像 LLM 中“下一個 token 預(yù)測”那樣簡單又優(yōu)雅的通用任務(wù)函數(shù)，一直是核心目標之一。然而，世界模型的輸入與輸出空間都要復雜得多，使這種任務(wù)函數(shù)的定義變得更加困難。盡管仍有大量未知有待探索，這個目標函數(shù)及其對應(yīng)的表示方式，必須體現(xiàn)幾何與物理的規(guī)律，才能不辜負世界模型的根本屬性：既是想象的載體，又扎根于現(xiàn)實。

大規(guī)模訓練數(shù)據(jù)：
訓練世界模型所需的數(shù)據(jù)，比文本清洗復雜得多。好消息是：海量的數(shù)據(jù)源其實已經(jīng)存在?；ヂ?lián)網(wǎng)規(guī)模的圖像與視頻集合，是極其豐富又容易獲取的訓練材料——但挑戰(zhàn)在于：如何設(shè)計算法，從這些二維的圖像或視頻幀（即 RGB 信號）中，抽取更深層次的空間信息。過去十年的研究已經(jīng)證明，在語言模型中，數(shù)據(jù)規(guī)模與模型規(guī)模之間存在強有力的“縮放律”；對于世界模型來說，關(guān)鍵突破在于構(gòu)建能夠在類似規(guī)模上充分利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外，我也絕不會低估高質(zhì)量合成數(shù)據(jù)，以及深度、觸覺等額外模態(tài)的價值。它們在訓練過程的關(guān)鍵階段補足了互聯(lián)網(wǎng)級數(shù)據(jù)。但前進的道路，仍有賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強大的神經(jīng)模擬方法。

新的模型架構(gòu)與表征學習：
世界模型研究，必然會推動模型架構(gòu)與學習算法的創(chuàng)新，尤其是在超越當前多模態(tài)大模型與視頻擴散范式的方向上?，F(xiàn)有范式通常把數(shù)據(jù)切分成一維或二維的 token 序列，這讓許多最基礎(chǔ)的空間任務(wù)變得不必要地困難——比如在一段短視頻中統(tǒng)計不同的椅子數(shù)量，或者記住一個房間一小時前的樣子。新的架構(gòu)也許可以幫上忙，例如在 token 化、上下文建模與記憶機制中，引入對三維或四維信息更加敏感的方法。舉例來說，在 World Labs，我們最近提出了一個名為 RTFM 的實時生成幀式模型，已經(jīng)展示出這種轉(zhuǎn)變：它通過“空間對齊的幀”作為一種空間記憶形式，在保持生成世界持續(xù)性的同時，實現(xiàn)了高效的實時生成。

顯然，在通過世界建模真正釋放空間智能之前，我們?nèi)悦媾R著巨大的挑戰(zhàn)。但這些研究絕不是純理論游戲，而是新一代創(chuàng)意工具與生產(chǎn)力工具的核心引擎。World Labs 內(nèi)部的進展也令人鼓舞。最近，我們向一小部分用戶展示了 Marble 的早期能力——這是首個可以通過多模態(tài)輸入進行提示，從而為創(chuàng)作者和講述者生成并維持一致 3D 環(huán)境的世界模型，用戶可以在其中探索、交互，并在自己的創(chuàng)作流程中進一步搭建。我們也正在努力，盡快將它向更廣泛的公眾開放。

Marble 只是我們邁向真正空間智能世界模型的第一步。隨著整體進展的加速，研究者、工程師、用戶和商業(yè)領(lǐng)袖都開始意識到它的巨大潛力。下一代世界模型將讓機器在空間智能上實現(xiàn)全新的跨越——這將解鎖許多當今 AI 系統(tǒng)中仍嚴重缺失的關(guān)鍵能力。

用世界模型，為人類構(gòu)建更好的世界

推動 AI 發(fā)展的動機至關(guān)重要。作為幫助開啟“現(xiàn)代 AI 時代”的科學家之一，我的動力始終清晰：AI 必須是人類能力的“增幅器”，而不是“替代品”。多年來，我一直致力于讓 AI 的研發(fā)、部署與治理，與人類需求保持一致。如今關(guān)于 AI 的敘事，往往不是極端烏托邦，就是極端末日論，而我始終堅持更務(wù)實的觀點：AI 是由人類開發(fā)的，被人類使用的，也必須由人類來治理。它永遠都應(yīng)尊重人的自主性與尊嚴。它的“魔力”在于擴展我們的能力，讓我們變得更有創(chuàng)造力、更緊密相連、更高效，也更有成就感?？臻g智能正體現(xiàn)了這樣的愿景——它代表著一種 AI：幫助創(chuàng)作者、照護者、科學家和夢想家完成曾經(jīng)不可能的事情。正是這一信念，支撐著我把空間智能視為 AI 的下一個偉大前沿。

空間智能的應(yīng)用，橫跨不同的時間尺度。創(chuàng)意工具正在當下就逐步落地——World Labs 的 Marble 已經(jīng)開始把這種能力交到創(chuàng)作者和講故事者的手中。機器人則代表一個更具雄心的中期目標，我們?nèi)孕枰粩嗤晟啤案兄袆印遍]環(huán)。最具變革性的科學應(yīng)用可能會來得更晚一些，但有望對整個人類的福祉產(chǎn)生極其深遠的影響。

在所有這些時間尺度上，有幾個領(lǐng)域格外突出，極有可能重塑人類能力。這種變革需要巨大的集體努力，遠非任何一個團隊或一家公司所能獨自完成。它需要整個 AI 生態(tài)系統(tǒng)——研究者、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者——共同參與，朝著一個共享的愿景努力。但這個愿景值得我們追逐。那就是這樣一個未來：

創(chuàng)意：為故事與沉浸式體驗加上“超級能力”

“創(chuàng)造力，是在享受樂趣的智能?！边@是我最喜歡的、來自我個人偶像愛因斯坦的一句名言。早在人類發(fā)明文字之前，我們就開始講故事——把故事畫在洞穴的石壁上，把它們在世代之間口耳相傳，在共享敘事之上構(gòu)建起整個文明。故事，是我們理解世界、跨越時空建立連接、探索“何為人”的媒介，更是我們在生命和愛之中尋找意義的方式。今天，空間智能有機會徹底改變我們創(chuàng)造和體驗敘事的方式，在尊重敘事根本重要性的前提下，把這種影響從娛樂擴大到教育，從設(shè)計拓展到建筑與施工。

World Labs 的 Marble 平臺，將前所未有的空間能力與“可剪輯性”交到電影人、游戲設(shè)計師、建筑師以及各類故事講述者的手中，讓他們無需傳統(tǒng) 3D 設(shè)計軟件的沉重負擔，就能快速創(chuàng)建與迭代可自由探索的三維世界。創(chuàng)作行為本身仍然完全屬于人類，只是 AI 工具放大并加速了創(chuàng)作者所能實現(xiàn)的一切。這包括：

全新維度的敘事體驗：
電影人和游戲設(shè)計師正在借助 Marble 憑空“召喚”整座世界，不再受預(yù)算或地理位置的束縛，可以探索多樣的場景與視角，這在傳統(tǒng)制作流程中幾乎難以實現(xiàn)。隨著不同媒介與娛樂形式之間的界限變得模糊，我們正在接近一種全新的交互體驗形態(tài)——藝術(shù)、模擬與游戲被融合在一起，每個人，而不僅僅是大工作室，都可以打造并棲居于自己的故事世界。隨著從概念草圖到完整體驗的路徑變得更快、更順暢，敘事將不再被鎖在單一媒介之中，創(chuàng)作者可以跨越多種載體與平臺，在統(tǒng)一世界觀下延展自己的故事宇宙。

借助設(shè)計進行空間敘事：
幾乎所有被制造出來的物品，或被建造出來的空間，都必須先在虛擬 3D 環(huán)境中完成設(shè)計，然后才會在現(xiàn)實中落地。這一過程高度迭代，且在時間和成本上都極為昂貴。有了空間智能模型，建筑師可以在投入數(shù)月精細設(shè)計之前，快速“走進”尚不存在的結(jié)構(gòu)，在其中漫步，講述關(guān)于未來“如何生活、如何工作、如何聚集”的故事。工業(yè)設(shè)計師和時尚設(shè)計師也可以將腦中的想象即時轉(zhuǎn)換為具體形態(tài)，探索物體如何與人體、與空間發(fā)生互動。

全新的沉浸式與交互式體驗：
“體驗”本身，是我們這個物種創(chuàng)造意義的最深層方式之一。在人類歷史的大部分時間里，我們只共享一個三維世界：那個物理世界。直到近幾十年，隨著游戲與早期虛擬現(xiàn)實（VR）的興起，我們才初次窺見“共享自己創(chuàng)造的另一個世界”意味著什么。而如今，空間智能與新的硬件形態(tài)——如 VR 與擴展現(xiàn)實（XR）頭顯以及沉浸式顯示設(shè)備——結(jié)合在一起，使這些體驗被提升到前所未有的高度。我們正在走向這樣一個未來：走進一個完整構(gòu)建的多維世界，就像打開一本書那樣自然?？臻g智能讓“建世界”的能力不再只屬于擁有專業(yè)制作團隊的大型工作室，而是下沉到個人創(chuàng)作者、教育者，以及任何有愿景的人手中。

機器人：讓具身智能真正動起來

從昆蟲到人類，所有動物都依賴空間智能來理解、導航并與其世界互動。機器人也不會例外。具備空間感知能力的機器，幾乎從機器人領(lǐng)域誕生起就是一個核心夢想，包括我和學生、合作者在斯坦福實驗室多年來的工作。也正因如此，我對通過 World Labs 正在構(gòu)建的世界模型來實現(xiàn)這些機器人，感到格外興奮。

通過世界模型擴展機器人學習的規(guī)模：
機器人學習的進展，很大程度上取決于是否能找到一種在數(shù)據(jù)層面可擴展的訓練解決方案。鑒于機器人需要學習理解、推理、規(guī)劃和交互的狀態(tài)空間極其巨大，許多研究者推測，必須結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及真實世界中的人類示范采集，才能真正打造具備泛化能力的機器人。但與語言模型不同，如今機器人研究中可用的訓練數(shù)據(jù)其實十分稀缺。在這點上，世界模型將扮演決定性的角色。隨著它們在感知精度與計算效率上的不斷提升，世界模型的輸出可以迅速縮小“模擬世界”與“真實世界”之間的差距。反過來，這將幫助機器人在模擬中經(jīng)歷無數(shù)狀態(tài)、交互與環(huán)境，從而加速學習。

伙伴與協(xié)作者：
當機器人作為人類的協(xié)作者——無論是在實驗臺旁協(xié)助科學家，還是陪伴獨居老人——它們都有機會擴展那些急需更多勞動與生產(chǎn)力的人力領(lǐng)域。但要做到這一點，機器人必須擁有這樣的空間智能：既能感知、推理、規(guī)劃、行動，又能——這點尤為重要——在情感上與人類的目標和行為保持一致。比如，在實驗室里，一個機器人可以負責操作儀器，讓科學家把精力集中在需要高度靈巧或高階推理的任務(wù)上；在家庭環(huán)境中，一個助理機器人可以幫助年長者做飯，而不剝奪他們從中得到的樂趣與自主感。要實現(xiàn)這一切，我們需要真正具備空間智能的世界模型，能夠在給定預(yù)期的情況下預(yù)測世界的下一狀態(tài)，甚至預(yù)測與之相匹配的動作。

多樣化的具身形態(tài)：
類人機器人在我們現(xiàn)有的世界架構(gòu)中確實有其作用，但真正的創(chuàng)新紅利將來自更為多樣的形態(tài)：向體內(nèi)輸送藥物的納米機器人，能在狹窄空間中穿行的軟體機器人，以及為深?；蛲馓窄h(huán)境量身打造的機器。不管形態(tài)如何，未來的空間智能模型都必須同時整合這些機器人所處的環(huán)境與它們自身的感知與運動方式。然而，發(fā)展這些機器人的關(guān)鍵挑戰(zhàn)之一，是在如此多樣的具身形態(tài)下，都極度缺乏訓練數(shù)據(jù)。世界模型將在其中承擔重要角色——為這些努力提供模擬數(shù)據(jù)、訓練環(huán)境以及評測基準。

更長遠的地平線：科學、醫(yī)療與教育

除了創(chuàng)意與機器人應(yīng)用之外，空間智能的深遠影響還將延伸到那些關(guān)乎“拯救生命、加速發(fā)現(xiàn)”的領(lǐng)域。下面我重點提及三個可能具備深度變革潛力的方向，但不言而喻，空間智能的應(yīng)用空間遠不止這三個行業(yè)。

在科學研究中，具備空間智能的系統(tǒng)可以模擬實驗，在并行的虛擬環(huán)境中測試假設(shè)，探索人類無法親身抵達的場所——從深海到遙遠行星。這項技術(shù)有望重塑氣候科學、材料科學等領(lǐng)域的計算建模方式。通過將多維度模擬與真實世界的數(shù)據(jù)采集結(jié)合起來，這類工具可以降低計算資源門檻，拓展每一家實驗室“看見”和理解世界的能力。

在醫(yī)療健康領(lǐng)域，空間智能將重塑從實驗室到病床的整個鏈條。在斯坦福，我和學生、合作者們多年來一直與醫(yī)院、養(yǎng)老機構(gòu)以及居家患者緊密合作，這些經(jīng)歷讓我深信空間智能在這一領(lǐng)域的變革潛力。AI 可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn)，通過輔助放射科醫(yī)生識別影像中的模式來提升診斷能力，還可以實現(xiàn)“環(huán)境式監(jiān)護系統(tǒng)”，為病患和照護者提供支持，而不替代真正治愈所需的人際連接——更不用說未來機器人在多種醫(yī)療場景中幫助醫(yī)護人員與患者的可能性。

在教育領(lǐng)域，空間智能可以讓抽象或復雜概念變得“可觸摸”、可體驗，通過反復練習與反饋，構(gòu)建起與我們大腦和身體的學習方式高度契合的過程。在 AI 時代，更快、更高效的學習和再培訓，不僅對學齡兒童，對成年人同樣至關(guān)重要。學生可以在多維環(huán)境中探索細胞機器的內(nèi)部運作，或“走進”歷史事件現(xiàn)場。教師可以通過交互式環(huán)境，為不同學生提供更個性化的教學體驗。各類專業(yè)人士——從外科醫(yī)生到工程師——也可以在高度逼真的模擬環(huán)境中，安全地練習復雜技能。

在所有這些領(lǐng)域中，可能性幾乎是無邊無際的，但目標始終如一：讓 AI 成為人類專業(yè)能力的放大器，加速人類發(fā)現(xiàn)，增強人類照護能力——而不是替代那些構(gòu)成“為人之為人”核心的東西：判斷力、創(chuàng)造力與共情。

結(jié)語

在過去十年里，AI 已經(jīng)成為一股全球現(xiàn)象，也成為科技、經(jīng)濟乃至地緣政治中的關(guān)鍵拐點。但對我而言，無論是作為研究者、教育者，還是如今的創(chuàng)業(yè)者，真正持續(xù)激勵我的，仍然是圖靈在 75 年前提出的那個問題背后的精神。我依然與他共享那種“驚奇感”。正是這種驚奇，讓我每天都有動力去迎接空間智能帶來的挑戰(zhàn)。

在人類歷史上，我們第一次站在這樣一個門檻前：我們有機會構(gòu)建出與物理世界高度同步的機器，讓它們成為我們面對重大挑戰(zhàn)時真正可靠的伙伴。無論是加速我們在實驗室里理解疾病的過程，重塑我們講述故事的方式，還是在我們因疾病、傷痛或年老而最脆弱的時刻支持我們，我們都正站在這樣一種技術(shù)的邊緣：它將提升那些對我們而言最重要的生命維度。這是一個關(guān)于讓生活更深刻、更豐盈、更有掌控感的愿景。

在大約五億年前，大自然第一次在遠古動物身上點亮了“空間智能”的微光；而今天，我們有幸成為這一代技術(shù)工作者：也許很快，我們就能讓機器擁有同樣的能力——并有幸把這些能力用于造福世界各地的人們。如果沒有空間智能，人類關(guān)于“真正智能機器”的夢想就永遠不算完整。

參考文獻：

[1] https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層，

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群，優(yōu)秀者將成為簽約作者，00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.