国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ZPedia|李飛飛2篇長文點破本質(zhì),當前AI對空間的理解完全跑偏,Marble或是未來5年最重要的AI產(chǎn)品

0
分享至

昨天,李飛飛的 World Labs 團隊正式發(fā)布了首款產(chǎn)品——Marble,一個真正意義上面向大眾的多模態(tài)世界模型平臺。用戶只需要一張圖、一段視頻,甚至一句短短的文字,就能在瀏覽器里生成一個可漫游、可編輯、可導出的三維世界。不需要 Blender,不需要虛幻引擎,也不需要任何 3D 專業(yè)知識,一切從提示開始,一切都能修改、一切都能拓展。

但 Marble 最有意思的地方從來不在“它能生成多好看”,而在于它和李飛飛最近發(fā)布的兩篇文章形成了閉環(huán):理念、路徑、產(chǎn)品三件事首次對齊。

在空間智能宣言《From Words to Worlds》中,李飛飛把問題拆得非常徹底:當下的大模型,本質(zhì)上是“黑暗中的盲人”。它們在符號世界里無所不能寫、能講、能推斷;但一旦進入物理世界,它們便近乎是個嬰兒:倒車入庫判斷不了距離、廚房里識別不出危險、房間里物體關(guān)系也完全沒有概念。

原因不是模型不夠強,而是它根本沒有人類賴以生存的“空間智能”。語言能描述世界,但不能替代世界。智能若要進一步發(fā)展,就必須從“token-based”跨向“world-based”。

Marble 的意義就在于,它是這條路線的第一個公眾可觸達的產(chǎn)品,它把“世界建?!睆恼撐淖兂闪四鼙粍?chuàng)作者、工程師、設(shè)計師直接使用的工具,讓空間智能第一次有了落地的入口。

Cambrian-S:為什么視頻大模型根本不理解世界?

要理解 Marble 的價值,就要先理解為什么現(xiàn)有視頻大模型不夠——這正是李飛飛、謝賽寧和 Yann LeCun 在 Cambrian-S 論文中試圖回答的問題。


論文開頭就給出了一個很重要的框架:人類理解世界不是靠單幀信息,而是靠“空間超感知”。簡單說,我們不僅要知道“眼前是什么”,還要知道“它在空間里的位置”“剛剛發(fā)生了什么”“接下來會發(fā)生什么”。

基于這個思路,作者將空間智能拆成了四層——語義識別、事件認知、三維推理、預(yù)測性世界模型。殘酷的是:當下的多模態(tài)系統(tǒng)大多停留在第一層,連第二層都只摸到皮毛,而第三、四層才是真正決定 AI 能否進入物理世界的關(guān)鍵。

為了驗證當前視頻理解模型究竟有沒有“真的在看視頻”,研究團隊設(shè)計了一組幾乎帶點挑釁意味的診斷實驗。他們沒有直接用視頻模型,而是用一個純圖像模型 Cambrian-1,把同一段視頻拆成四種輸入方式:

(1)給它 32 幀正常視頻;

(2)只給中間一幀;

(3)不給畫面、只給從視頻生成的文字描述;

(4)什么視覺信息都不提供。

結(jié)果出乎所有人意料——甚至可以說是當頭一棒。

在 EgoSchema、VideoMME 等九個主流視頻 QA 基準上,當研究者把“視頻”換成“字幕”時,模型表現(xiàn)不降反升,最高能提升 20%+。換句話說,這些任務(wù)根本不需要“看視頻”,模型靠的不是視覺理解,而是語言先驗和題庫式的模式匹配。

下圖展示了這一點:一旦“多幀視頻”與“幀字幕”之間的性能差異接近于零,就意味著視覺信息在這個基準中幾乎沒有價值。

為什么會這樣?因為當前模型是被動接受視頻的——來一幀收一幀,完全不知道什么重要、什么該記、什么該忘。它們記住了大量冗余信息,卻忽略了真正的空間變化點。


于是,論文給行業(yè)補上了另一塊缺失的拼圖——VSI-SUPER,一個真正意義上考“空間智能”的新基準。它包含兩個特別折磨模型的任務(wù)。

第一個測試叫 VSR,核心是考察模型的“空間回憶能力”。研究團隊讓人類標注者在一段長達 240 分鐘的房間巡游視頻中,將一只泰迪熊悄悄 P 到四個毫無關(guān)聯(lián)的位置里——可能在第三個房間的書架上,也可能在第十二個房間的地毯邊。模型的任務(wù)是:按順序說出泰迪熊究竟“在哪一個房間、在哪一個角落”出現(xiàn)過。圖 4 展示的就是這種帶有“視覺欺騙”的構(gòu)造流程。


第二個測試 VSC 則瞄準了另一種更貼近現(xiàn)實的能力:持續(xù)計數(shù)。在生活中,我們不需要把每一幀記在腦子里,也能大致知道一個房間里有幾把椅子。這個測試要求模型在鏡頭不斷切換、房間不斷變化的情況下,回答一個簡單的問題“所有房間加起來一共有幾把椅子?”


這些任務(wù)對人類是本能,但對 AI 幾乎是災(zāi)難。表 1顯示,即使給模型塞進 100 萬 token 上下文,它在 60 分鐘的 VSR 上依然只有 41.5% 準確率,而在 VSC 上更是只有 10.9%。


上下文再長也沒用,因為真正的空間智能從來不是靠“記住更多幀”實現(xiàn)的——而是靠“記住關(guān)鍵幀、忘記無用信息”。人類不是靠記憶所有像素,而是靠預(yù)測世界的變化來決定該在什么時候記住什么。

為了破解這些瓶頸,論文提出了一個非常有意思的機制:預(yù)測性感知(predictive sensing)。模型不再被動接受每一幀,而是主動預(yù)測下一幀。當預(yù)測失敗時,模型就會觸發(fā)記憶更新、事件分段、信息過濾——這和人類觀看視頻時的認知過程高度一致。


實驗表明,這種機制的效果遠優(yōu)于簡單堆疊幀數(shù)或擴展上下文窗口。即便不增加參數(shù)、不擴上下文,只要加入這套機制,模型在長時計數(shù)、跨房間回憶等任務(wù)上的表現(xiàn)就能顯著超越主流大模型;那些原本完全跟不上真實世界變化、計數(shù)曲線“死平”的模型,突然開始隨著畫面內(nèi)容同步增長,首次展現(xiàn)出“世界狀態(tài)被正確維護”的趨勢。

回到 Marble:世界模型的第一塊可用拼圖

當我們理解了空間智能為何重要、現(xiàn)有視頻大模型為何無效,再回頭看 Marble,就會發(fā)現(xiàn)它真正突破的從來不是“生成一個好看的 3D 場景”,而是它第一次把“世界模型”從前沿論文、頂會討論里,推向了普通創(chuàng)作者與開發(fā)者的手中。

第一,它是對“世界模型可用性”的一次實戰(zhàn)檢驗。很多世界模型工作停留在 NeRF demo 或研究原型階段:效果驚艷,門檻同樣驚人。而 Marble 做的事情,是把高門檻的 world model 包裝成一個創(chuàng)作者可以直接玩的 SaaS——瀏覽器里導入一張圖、一段視頻、一個 layout,就能生成一個可走、可改、可導出的世界。

這對 3D 內(nèi)容生產(chǎn)鏈條意味著什么?意味著影視前期預(yù)演、游戲關(guān)卡原型、建筑可視化、虛擬拍攝、VR 體驗,可以第一次把“搭世界”當作一個高度可反復迭代的環(huán)節(jié),而不是一次性重資產(chǎn)投入。

第二,它是對“空間智能商業(yè)邊界”的一次探索。PYMNTS 等媒體在報道中用了一個非常有意思的表述:Marble 是“為 AI 配備更深層物理空間理解的商業(yè) world model”,標志著 AI 行業(yè)開始從語言和圖像模型,向可以在 3D 環(huán)境中生成和推理的系統(tǒng)遷移。

你可以把 Marble 看成一種“空間版 API”:今天,它為創(chuàng)作者生成可編輯世界;明天,它完全可能為機器人公司提供可訓練的虛擬環(huán)境,為自動駕駛提供長尾場景仿真,為數(shù)字療法提供定制暴露環(huán)境,為科學模擬提供“假想實驗空間”。在這個意義上,Marble 賣的不是“幾張世界的訂閱”,而是一種“對世界進行編程的能力”。這也是為什么不少評論會把它視作 AGI 鏈路上的一個關(guān)鍵節(jié)點——它在某種程度上,把“世界作為數(shù)據(jù)”的想象變得可操作。

第三,它其實隱含著對整個行業(yè)的一次“打法反問”。Hacker News 上有人評論說,Marble 更像是一個平臺發(fā)布,而不是簡單的模型發(fā)布,因為它企圖先占據(jù)“世界生成平臺”的位置,再把模型的演進放在平臺后面滾動升級。

對比今天主流大模型公司的路徑:大多是先卷出一個更大的語言模型,再考慮生態(tài)、平臺和應(yīng)用層。而World Labs 的選擇是:先站穩(wěn)空間智能的敘事高地,再用論文和產(chǎn)品搶先把“世界模型平臺”這個入口坐牢。這種“理念 + 論文 + 產(chǎn)品 + 平臺”的一體化打法,對后來者是一種極高門檻——你不只是要追上技術(shù),還要在話語體系和開發(fā)者心智上撕開新的入口。

當然,必須承認 Marble 仍遠未達到 Cambrian-S 定義的空間智能上限。它生成的世界更多是靜態(tài)的,物理規(guī)律較為有限,復雜動態(tài)交互和長時因果鏈路的建模能力也還在非常早期階段。但這并不削弱它的重要性——恰恰相反,這意味著空間智能的路線第一次有“能落地的產(chǎn)品雛形。

在從“Words 到 Worlds”的新敘事里,Marble 是那塊真正被放到桌面上的原型機,它讓整個行業(yè)第一次看見:AI 不必永遠停留在語言里,它也可以開始構(gòu)建和理解世界本身。

下面,讓我們重溫她的長文——《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這篇宣言式的文章,或許正是整個空間智能時代的序章。


1950 年,當計算不過是“自動算術(shù)”和簡單邏輯運算時,艾倫·圖靈提出了一個直到今天仍回響的問題:機器能夠思考嗎?要看到他所看到的前景,需要極其非凡的想象力——也就是:也許有一天,智能不是“出生”的,而是被“制造”出來的。這個洞見后來開啟了一場被命名為“人工智能(AI)”的持久科學追問。進入 AI 領(lǐng)域工作至今二十五年,我依然時常被圖靈的愿景所鼓舞。但我們?nèi)缃窬嚯x那個愿景還有多近?答案并不簡單。

今天,以大型語言模型(LLM)為代表的前沿 AI 技術(shù),已經(jīng)開始重塑我們獲取和處理抽象知識的方式。然而,它們?nèi)韵袷窃诤诎抵写蜃值奈陌父呤郑耗苎陨妻q卻缺乏體驗,知識豐富卻缺乏落地??臻g智能將改變我們創(chuàng)造和交互真實世界與虛擬世界的方式——從講故事、創(chuàng)意、機器人,到科學發(fā)現(xiàn)乃至更廣的領(lǐng)域,都將被徹底改造。這是 AI 的下一塊前沿。

自從進入這個領(lǐng)域開始,對視覺與空間智能的追求就一直是引導我的“北極星”。正因如此,我花了多年時間構(gòu)建了 ImageNet——第一個大規(guī)模視覺學習與評測數(shù)據(jù)集,它與神經(jīng)網(wǎng)絡(luò)算法以及現(xiàn)代算力(如 GPU 圖形處理器)一道,成為促成年代現(xiàn)代 AI 誕生的三大關(guān)鍵要素。也因此,我在斯坦福的學術(shù)實驗室在過去十年里,一直在把計算機視覺與機器人學習結(jié)合起來。也正因為同樣的原因,一年多前,我與 Justin Johnson、Christoph Lassner、Ben Mildenhall 幾位聯(lián)合創(chuàng)始人一起創(chuàng)建了 World Labs:第一次嘗試把這種可能性真正完整地變?yōu)楝F(xiàn)實。

在這篇文章中,我將解釋什么是空間智能、為什么它至關(guān)重要,以及我們?nèi)绾瓮ㄟ^構(gòu)建世界模型來釋放這種能力——這種能力將重塑創(chuàng)意、具身智能以及人類的整體進步。

空間智能:人類認知的腳手架

AI 從未像今天這樣令人興奮。以 LLM 為代表的生成式 AI 模型,已經(jīng)從研究實驗室走進日常生活,成為數(shù)十億人進行創(chuàng)作、提升生產(chǎn)力和溝通協(xié)作的日常工具。它們展現(xiàn)了曾經(jīng)被認為不可能的能力:能寫出連貫的長文,產(chǎn)出成山的代碼,生成照片級逼真的圖像,甚至輕松合成短視頻。AI 是否會改變世界,這已經(jīng)不再是問題;按任何合理標準,它已經(jīng)改變了世界。

但仍有太多能力遠在我們的觸及之外。自主機器人的愿景依然充滿吸引力,卻仍更多停留在設(shè)想層面,而不是像未來學家長期承諾的那樣走入尋常日常生活。對疾病治療、全新品類材料發(fā)現(xiàn)、粒子物理等領(lǐng)域?qū)崿F(xiàn)大幅提速的夢想,在很大程度上尚未實現(xiàn)。至于那種真正理解并賦能人類創(chuàng)作者的 AI——無論是幫助學生掌握復雜的分子化學概念,幫助建筑師在腦海中“看見”空間,幫助電影人構(gòu)建世界,還是為任何渴望沉浸式虛擬體驗的人賦能——這一切依然遙不可及。

要理解為何這些能力依舊難以實現(xiàn),我們需要回到空間智能的演化歷程,重新審視它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石,但它的力量源自更為根本的東西。早在動物學會筑巢、撫育后代、用語言溝通,乃至建造文明之前,最初那種“感知”的動作,就已經(jīng)悄然點燃了一場通往智能的演化旅程。

這種看似孤立的能力——從外部世界中捕捉一絲光亮,或感知某種觸感——在感知與生存之間架起了一座橋梁,而這座橋梁在一代代演化中不斷加固、延展并變得愈發(fā)精巧。神經(jīng)元一層層地沿著這座橋梁生長,形成了能夠解釋世界、協(xié)調(diào)個體與環(huán)境之間互動的神經(jīng)系統(tǒng)。因此,許多科學家推測:感知與行動構(gòu)成了驅(qū)動智能演化的核心閉環(huán),也成為大自然創(chuàng)造我們這個物種的基礎(chǔ)——我們也許是“感知—學習—思考—行動”的終極體現(xiàn)。

空間智能在決定我們?nèi)绾闻c物理世界互動方面,扮演著根本性的角色。每天,我們都在依賴它完成最尋常的動作:倒車入位時,在腦中想象保險杠與路沿之間那條逐漸收窄的縫隙;接住被人從房間另一頭隨手拋來的鑰匙;在人群密集的人行道上穿行而不相撞;又或是在迷迷糊糊的清晨,不看杯子也能把咖啡準確倒入杯中。在更極端的場景中,消防員在坍塌中的建筑里穿梭,在翻滾的煙霧中,對結(jié)構(gòu)穩(wěn)定與生死風險作出瞬間判斷,依賴手勢、身體語言以及一種無法用語言替代的專業(yè)本能進行溝通。而孩子們在尚未開口說話的幾個月甚至幾年里,幾乎完全通過與環(huán)境的游戲式互動來學習這個世界。所有這一切都發(fā)生得自然而然、自動流暢——這種“熟練度”,是機器遠未掌握的。

空間智能同樣是我們想象力與創(chuàng)造力的底層支撐。講故事的人在腦海中構(gòu)造出獨一無二的世界,并借助各種視覺媒介把它們呈現(xiàn)給他人——從遠古洞穴壁畫,到現(xiàn)代電影,再到沉浸式電子游戲。無論是孩子在海邊堆沙堡,還是在電腦前玩《我的世界》,建立在空間基礎(chǔ)之上的想象力,都是現(xiàn)實或虛擬世界中一切互動體驗的根基。在大量行業(yè)應(yīng)用中,對物體、場景以及動態(tài)交互環(huán)境的模擬,也在為無數(shù)關(guān)鍵的商業(yè)場景提供動力——從工業(yè)設(shè)計到數(shù)字孿生,再到機器人訓練。

歷史上存在許多足以塑造整個人類文明的時刻,而空間智能在其中都發(fā)揮了核心作用。在古希臘,埃拉托色尼把影子變成幾何問題:他在亞歷山大城測出一個 7 度的夾角,恰好對應(yīng)賽伊尼城中正午無影的時刻,由此推算出地球的周長。哈格里夫斯發(fā)明的“珍妮紡紗機”通過一個空間上的洞見,徹底改變了紡織業(yè):將多個紡錘并列布置在一臺機器上,使得一個工人可以同時紡出多股紗線,生產(chǎn)效率提升了八倍。沃森和克里克通過親手搭建三維分子模型——反復擺弄金屬片和金屬線——才最終找到了 DNA 堿基對的空間排布方式。在這些案例中,每一次文明的躍升,都離不開空間智能:科學家與發(fā)明家必須操控物體、在腦中構(gòu)建結(jié)構(gòu),并在物理空間中進行推理——這些能力,都不是僅靠文字就能完全捕捉的。

空間智能是支撐我們?nèi)空J知結(jié)構(gòu)的腳手架。當我們被動地觀察,或主動地進行創(chuàng)造,它都在發(fā)揮作用。即便是在最抽象的議題上,它也驅(qū)動著我們的推理與規(guī)劃。無論是通過語言還是通過肢體動作,無論是與同伴互動,還是與外部環(huán)境打交道,空間智能都是不可或缺的。雖然我們大多數(shù)人在日常生活中,并不會天天像埃拉托色尼那樣發(fā)現(xiàn)“關(guān)于宇宙的新真理”,但我們的思考方式其實與之類似——通過感官去理解復雜世界,再基于對物理和空間規(guī)律的直覺,把這一切理順。

不幸的是,今天的 AI 還不會這樣思考。

過去幾年,我們的確取得了巨大進步。多模態(tài)大型語言模型(MLLM)在大量多媒體數(shù)據(jù)與文本數(shù)據(jù)上進行訓練,開始具備一些基礎(chǔ)的空間感知能力,今天的 AI 已經(jīng)可以分析圖片,回答關(guān)于圖片的問題,并生成高度逼真的圖像和短視頻。而在傳感器與觸覺技術(shù)的突破下,我們最先進的機器人,已經(jīng)開始能在高度受限的環(huán)境中操控物體和工具。

但坦率地說,AI 在空間維度上的能力,距離人類水平仍然相去甚遠,而且其局限會很快暴露出來。最先進的多模態(tài)模型,在判斷距離、方向和大小時,表現(xiàn)往往和“擲硬幣猜測”差不多;在“心里”旋轉(zhuǎn)一個物體、從另一個視角重新生成它時,同樣幾乎不會比隨機好多少。它們不會走迷宮,也不會識別捷徑,更談不上預(yù)判最基礎(chǔ)的物理規(guī)律。AI 生成的視頻——雖然很新奇,也確實“很酷”——卻往往在短短幾秒后就失去連貫性。

當前的最前沿 AI 模型,在閱讀、寫作、檢索信息以及數(shù)據(jù)模式識別方面可以表現(xiàn)得極其出色,但在表征或與物理世界互動時,它們都有根本性的局限。我們對世界的理解,始終是整體性的——不只是眼前看到什么,還包括事物之間的空間關(guān)系、它們意味著什么、為什么重要。通過想象、推理、創(chuàng)造與交互去理解世界,而不只是聽取“描述”,正是空間智能的力量。缺少空間智能,AI 就始終與它試圖理解的物理現(xiàn)實脫節(jié)。它無法真正安全地為我們駕駛汽車、在家庭和醫(yī)院中為機器人提供導航、無法開啟全新的沉浸式交互學習與娛樂方式,也無法大幅加速材料科學與醫(yī)療領(lǐng)域的發(fā)現(xiàn)。

哲學家維特根斯坦曾寫道:“我語言的界限,就是我世界的界限?!蔽也⒉皇钦軐W家,但至少就 AI 而言,我非常清楚:世界遠不止于“文字”??臻g智能代表的是語言之“外”的前沿——它是一種能力,把想象、感知與行動連在一起,讓機器真正有機會在醫(yī)療、創(chuàng)意、科學發(fā)現(xiàn)和日常助理等方方面面,更深刻地改善人類生活。

未來十年的 AI:構(gòu)建真正具備空間智能的機器

那么,我們究竟如何構(gòu)建具有空間智能的 AI?怎樣的路徑,才能讓模型具備:在推理上擁有類似埃拉托色尼那樣的洞察力,在工程上擁有工業(yè)設(shè)計師級別的精度,在創(chuàng)造上具備講故事者那樣的想象力,并能像一線救援人員那樣與環(huán)境進行流暢互動?

要打造具備空間智能的 AI,我們需要的,是比 LLM 更具野心的東西:世界模型(world models)。這是一類全新的生成模型,要在語義、物理、幾何與動態(tài)結(jié)構(gòu)都極其復雜的世界中——無論是真實世界還是虛擬世界——實現(xiàn)理解、推理、生成以及交互,其能力遠遠超出當今 LLM 所能觸及。這個領(lǐng)域仍非常早期,從抽象推理模型到視頻生成系統(tǒng),都可以算作當前方法的一部分。World Labs 正是基于這樣的信念在 2024 年初創(chuàng)立的:基礎(chǔ)方法仍在確立之中,而這將成為未來十年的決定性挑戰(zhàn)。

在這個新興領(lǐng)域里,最重要的是先確立指導發(fā)展的原則。對于空間智能,我從三個關(guān)鍵能力來界定世界模型:

  1. 生成性:世界模型能夠生成在感知、幾何和物理上自洽的世界
    想要真正解鎖空間理解與空間推理,世界模型不僅要“看懂世界”,還要能生成自己的“模擬世界”。它必須能夠根據(jù)語義或感知層面的指令,生成無窮多樣且豐富的模擬世界,同時在幾何結(jié)構(gòu)、物理規(guī)律與動態(tài)行為上保持一致,無論這些世界代表的是現(xiàn)實空間還是虛擬空間。當前研究社區(qū)正在積極探索:這些世界究竟應(yīng)該以內(nèi)隱的方式表示,還是應(yīng)該以更顯式的幾何結(jié)構(gòu)進行編碼。此外,我認為,在擁有強大潛在表示的基礎(chǔ)上,一個通用世界模型的輸出,還必須能夠在多種使用場景下生成“顯式、可觀察”的世界狀態(tài)。尤其重要的是,它對當下世界狀態(tài)的理解,必須與其過去保持連貫——與導致這一狀態(tài)的所有先前世界狀態(tài)前后一致。

  2. 多模態(tài):世界模型在設(shè)計上就是多模態(tài)的
    就像動物和人類一樣,一個世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域,這些輸入往往被稱為“提示(prompt)”。在只獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)當盡可能推斷或生成盡量完整的世界狀態(tài)。這要求模型既要具備接近真實視覺的圖像處理能力,又要能同樣熟練地理解語義指令。這樣一來,智能體與人類都可以通過多樣的輸入形式與模型就“世界”進行對話,并以同樣多樣的輸出形式得到響應(yīng)。

  3. 交互性:世界模型能夠基于輸入的動作給出世界的下一狀態(tài)
    最后,如果“動作”與“目標”是輸入提示的一部分,那么世界模型的輸出就必須包含世界的下一狀態(tài)——無論這種世界狀態(tài)是以內(nèi)隱還是顯式的方式表示。當一個世界模型只接收到一個動作(有或沒有目標狀態(tài))作為輸入時,它應(yīng)該生成的輸出狀態(tài),需要與世界此前的狀態(tài)、預(yù)期目標狀態(tài)(若存在)、以及世界的語義結(jié)構(gòu)、物理規(guī)律和動態(tài)行為保持一致。隨著具備空間智能的世界模型在推理與生成能力上的不斷增強,我們可以想象這樣一種情形:給定一個目標,世界模型不僅能預(yù)測世界的下一狀態(tài),還能進一步預(yù)測在這一新狀態(tài)下應(yīng)采取的下一步動作。

這個挑戰(zhàn)的難度,前所未有地超出了 AI 以往面對的一切難題。

語言是人類認知中一種“純粹生成”的現(xiàn)象,而“世界”則遵循遠為復雜的規(guī)則。在地球上,重力支配運動,原子結(jié)構(gòu)決定光如何產(chǎn)生顏色與明暗,無數(shù)物理定律約束著每一次交互。即便是最天馬行空的虛構(gòu)世界,也必須由復雜的空間對象和智能體組成,并且整體遵守該世界自身的物理規(guī)律與動態(tài)行為。要在語義、幾何、動態(tài)與物理這些維度上實現(xiàn)一致,必須依賴全新的方法。相比一維、按順序展開的語言信號,對“世界”的表示在維度上要復雜得多。想要構(gòu)建出能夠像人類一樣具備普適能力的世界模型,我們還需要跨越多個艱巨的技術(shù)鴻溝。在 World Labs,我們的研究團隊正致力于在這些方向上取得根本性突破。

以下是我們目前的一些研究主題示例:

一種新的“通用任務(wù)函數(shù)”用于訓練:
在世界模型研究中,如何定義一個像 LLM 中“下一個 token 預(yù)測”那樣簡單又優(yōu)雅的通用任務(wù)函數(shù),一直是核心目標之一。然而,世界模型的輸入與輸出空間都要復雜得多,使這種任務(wù)函數(shù)的定義變得更加困難。盡管仍有大量未知有待探索,這個目標函數(shù)及其對應(yīng)的表示方式,必須體現(xiàn)幾何與物理的規(guī)律,才能不辜負世界模型的根本屬性:既是想象的載體,又扎根于現(xiàn)實。

大規(guī)模訓練數(shù)據(jù):
訓練世界模型所需的數(shù)據(jù),比文本清洗復雜得多。好消息是:海量的數(shù)據(jù)源其實已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像與視頻集合,是極其豐富又容易獲取的訓練材料——但挑戰(zhàn)在于:如何設(shè)計算法,從這些二維的圖像或視頻幀(即 RGB 信號)中,抽取更深層次的空間信息。過去十年的研究已經(jīng)證明,在語言模型中,數(shù)據(jù)規(guī)模與模型規(guī)模之間存在強有力的“縮放律”;對于世界模型來說,關(guān)鍵突破在于構(gòu)建能夠在類似規(guī)模上充分利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我也絕不會低估高質(zhì)量合成數(shù)據(jù),以及深度、觸覺等額外模態(tài)的價值。它們在訓練過程的關(guān)鍵階段補足了互聯(lián)網(wǎng)級數(shù)據(jù)。但前進的道路,仍有賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法,以及更強大的神經(jīng)模擬方法。

新的模型架構(gòu)與表征學習:
世界模型研究,必然會推動模型架構(gòu)與學習算法的創(chuàng)新,尤其是在超越當前多模態(tài)大模型與視頻擴散范式的方向上?,F(xiàn)有范式通常把數(shù)據(jù)切分成一維或二維的 token 序列,這讓許多最基礎(chǔ)的空間任務(wù)變得不必要地困難——比如在一段短視頻中統(tǒng)計不同的椅子數(shù)量,或者記住一個房間一小時前的樣子。新的架構(gòu)也許可以幫上忙,例如在 token 化、上下文建模與記憶機制中,引入對三維或四維信息更加敏感的方法。舉例來說,在 World Labs,我們最近提出了一個名為 RTFM 的實時生成幀式模型,已經(jīng)展示出這種轉(zhuǎn)變:它通過“空間對齊的幀”作為一種空間記憶形式,在保持生成世界持續(xù)性的同時,實現(xiàn)了高效的實時生成。

顯然,在通過世界建模真正釋放空間智能之前,我們?nèi)悦媾R著巨大的挑戰(zhàn)。但這些研究絕不是純理論游戲,而是新一代創(chuàng)意工具與生產(chǎn)力工具的核心引擎。World Labs 內(nèi)部的進展也令人鼓舞。最近,我們向一小部分用戶展示了 Marble 的早期能力——這是首個可以通過多模態(tài)輸入進行提示,從而為創(chuàng)作者和講述者生成并維持一致 3D 環(huán)境的世界模型,用戶可以在其中探索、交互,并在自己的創(chuàng)作流程中進一步搭建。我們也正在努力,盡快將它向更廣泛的公眾開放。

Marble 只是我們邁向真正空間智能世界模型的第一步。隨著整體進展的加速,研究者、工程師、用戶和商業(yè)領(lǐng)袖都開始意識到它的巨大潛力。下一代世界模型將讓機器在空間智能上實現(xiàn)全新的跨越——這將解鎖許多當今 AI 系統(tǒng)中仍嚴重缺失的關(guān)鍵能力。

用世界模型,為人類構(gòu)建更好的世界

推動 AI 發(fā)展的動機至關(guān)重要。作為幫助開啟“現(xiàn)代 AI 時代”的科學家之一,我的動力始終清晰:AI 必須是人類能力的“增幅器”,而不是“替代品”。多年來,我一直致力于讓 AI 的研發(fā)、部署與治理,與人類需求保持一致。如今關(guān)于 AI 的敘事,往往不是極端烏托邦,就是極端末日論,而我始終堅持更務(wù)實的觀點:AI 是由人類開發(fā)的,被人類使用的,也必須由人類來治理。它永遠都應(yīng)尊重人的自主性與尊嚴。它的“魔力”在于擴展我們的能力,讓我們變得更有創(chuàng)造力、更緊密相連、更高效,也更有成就感??臻g智能正體現(xiàn)了這樣的愿景——它代表著一種 AI:幫助創(chuàng)作者、照護者、科學家和夢想家完成曾經(jīng)不可能的事情。正是這一信念,支撐著我把空間智能視為 AI 的下一個偉大前沿。

空間智能的應(yīng)用,橫跨不同的時間尺度。創(chuàng)意工具正在當下就逐步落地——World Labs 的 Marble 已經(jīng)開始把這種能力交到創(chuàng)作者和講故事者的手中。機器人則代表一個更具雄心的中期目標,我們?nèi)孕枰粩嗤晟啤案兄袆印遍]環(huán)。最具變革性的科學應(yīng)用可能會來得更晚一些,但有望對整個人類的福祉產(chǎn)生極其深遠的影響。

在所有這些時間尺度上,有幾個領(lǐng)域格外突出,極有可能重塑人類能力。這種變革需要巨大的集體努力,遠非任何一個團隊或一家公司所能獨自完成。它需要整個 AI 生態(tài)系統(tǒng)——研究者、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者——共同參與,朝著一個共享的愿景努力。但這個愿景值得我們追逐。那就是這樣一個未來:

創(chuàng)意:為故事與沉浸式體驗加上“超級能力”

“創(chuàng)造力,是在享受樂趣的智能?!边@是我最喜歡的、來自我個人偶像愛因斯坦的一句名言。早在人類發(fā)明文字之前,我們就開始講故事——把故事畫在洞穴的石壁上,把它們在世代之間口耳相傳,在共享敘事之上構(gòu)建起整個文明。故事,是我們理解世界、跨越時空建立連接、探索“何為人”的媒介,更是我們在生命和愛之中尋找意義的方式。今天,空間智能有機會徹底改變我們創(chuàng)造和體驗敘事的方式,在尊重敘事根本重要性的前提下,把這種影響從娛樂擴大到教育,從設(shè)計拓展到建筑與施工。

World Labs 的 Marble 平臺,將前所未有的空間能力與“可剪輯性”交到電影人、游戲設(shè)計師、建筑師以及各類故事講述者的手中,讓他們無需傳統(tǒng) 3D 設(shè)計軟件的沉重負擔,就能快速創(chuàng)建與迭代可自由探索的三維世界。創(chuàng)作行為本身仍然完全屬于人類,只是 AI 工具放大并加速了創(chuàng)作者所能實現(xiàn)的一切。這包括:

全新維度的敘事體驗:
電影人和游戲設(shè)計師正在借助 Marble 憑空“召喚”整座世界,不再受預(yù)算或地理位置的束縛,可以探索多樣的場景與視角,這在傳統(tǒng)制作流程中幾乎難以實現(xiàn)。隨著不同媒介與娛樂形式之間的界限變得模糊,我們正在接近一種全新的交互體驗形態(tài)——藝術(shù)、模擬與游戲被融合在一起,每個人,而不僅僅是大工作室,都可以打造并棲居于自己的故事世界。隨著從概念草圖到完整體驗的路徑變得更快、更順暢,敘事將不再被鎖在單一媒介之中,創(chuàng)作者可以跨越多種載體與平臺,在統(tǒng)一世界觀下延展自己的故事宇宙。

借助設(shè)計進行空間敘事:
幾乎所有被制造出來的物品,或被建造出來的空間,都必須先在虛擬 3D 環(huán)境中完成設(shè)計,然后才會在現(xiàn)實中落地。這一過程高度迭代,且在時間和成本上都極為昂貴。有了空間智能模型,建筑師可以在投入數(shù)月精細設(shè)計之前,快速“走進”尚不存在的結(jié)構(gòu),在其中漫步,講述關(guān)于未來“如何生活、如何工作、如何聚集”的故事。工業(yè)設(shè)計師和時尚設(shè)計師也可以將腦中的想象即時轉(zhuǎn)換為具體形態(tài),探索物體如何與人體、與空間發(fā)生互動。

全新的沉浸式與交互式體驗:
“體驗”本身,是我們這個物種創(chuàng)造意義的最深層方式之一。在人類歷史的大部分時間里,我們只共享一個三維世界:那個物理世界。直到近幾十年,隨著游戲與早期虛擬現(xiàn)實(VR)的興起,我們才初次窺見“共享自己創(chuàng)造的另一個世界”意味著什么。而如今,空間智能與新的硬件形態(tài)——如 VR 與擴展現(xiàn)實(XR)頭顯以及沉浸式顯示設(shè)備——結(jié)合在一起,使這些體驗被提升到前所未有的高度。我們正在走向這樣一個未來:走進一個完整構(gòu)建的多維世界,就像打開一本書那樣自然??臻g智能讓“建世界”的能力不再只屬于擁有專業(yè)制作團隊的大型工作室,而是下沉到個人創(chuàng)作者、教育者,以及任何有愿景的人手中。

機器人:讓具身智能真正動起來

從昆蟲到人類,所有動物都依賴空間智能來理解、導航并與其世界互動。機器人也不會例外。具備空間感知能力的機器,幾乎從機器人領(lǐng)域誕生起就是一個核心夢想,包括我和學生、合作者在斯坦福實驗室多年來的工作。也正因如此,我對通過 World Labs 正在構(gòu)建的世界模型來實現(xiàn)這些機器人,感到格外興奮。

通過世界模型擴展機器人學習的規(guī)模:
機器人學習的進展,很大程度上取決于是否能找到一種在數(shù)據(jù)層面可擴展的訓練解決方案。鑒于機器人需要學習理解、推理、規(guī)劃和交互的狀態(tài)空間極其巨大,許多研究者推測,必須結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及真實世界中的人類示范采集,才能真正打造具備泛化能力的機器人。但與語言模型不同,如今機器人研究中可用的訓練數(shù)據(jù)其實十分稀缺。在這點上,世界模型將扮演決定性的角色。隨著它們在感知精度與計算效率上的不斷提升,世界模型的輸出可以迅速縮小“模擬世界”與“真實世界”之間的差距。反過來,這將幫助機器人在模擬中經(jīng)歷無數(shù)狀態(tài)、交互與環(huán)境,從而加速學習。

伙伴與協(xié)作者:
當機器人作為人類的協(xié)作者——無論是在實驗臺旁協(xié)助科學家,還是陪伴獨居老人——它們都有機會擴展那些急需更多勞動與生產(chǎn)力的人力領(lǐng)域。但要做到這一點,機器人必須擁有這樣的空間智能:既能感知、推理、規(guī)劃、行動,又能——這點尤為重要——在情感上與人類的目標和行為保持一致。比如,在實驗室里,一個機器人可以負責操作儀器,讓科學家把精力集中在需要高度靈巧或高階推理的任務(wù)上;在家庭環(huán)境中,一個助理機器人可以幫助年長者做飯,而不剝奪他們從中得到的樂趣與自主感。要實現(xiàn)這一切,我們需要真正具備空間智能的世界模型,能夠在給定預(yù)期的情況下預(yù)測世界的下一狀態(tài),甚至預(yù)測與之相匹配的動作。

多樣化的具身形態(tài):
類人機器人在我們現(xiàn)有的世界架構(gòu)中確實有其作用,但真正的創(chuàng)新紅利將來自更為多樣的形態(tài):向體內(nèi)輸送藥物的納米機器人,能在狹窄空間中穿行的軟體機器人,以及為深?;蛲馓窄h(huán)境量身打造的機器。不管形態(tài)如何,未來的空間智能模型都必須同時整合這些機器人所處的環(huán)境與它們自身的感知與運動方式。然而,發(fā)展這些機器人的關(guān)鍵挑戰(zhàn)之一,是在如此多樣的具身形態(tài)下,都極度缺乏訓練數(shù)據(jù)。世界模型將在其中承擔重要角色——為這些努力提供模擬數(shù)據(jù)、訓練環(huán)境以及評測基準。

更長遠的地平線:科學、醫(yī)療與教育

除了創(chuàng)意與機器人應(yīng)用之外,空間智能的深遠影響還將延伸到那些關(guān)乎“拯救生命、加速發(fā)現(xiàn)”的領(lǐng)域。下面我重點提及三個可能具備深度變革潛力的方向,但不言而喻,空間智能的應(yīng)用空間遠不止這三個行業(yè)。

在科學研究中,具備空間智能的系統(tǒng)可以模擬實驗,在并行的虛擬環(huán)境中測試假設(shè),探索人類無法親身抵達的場所——從深海到遙遠行星。這項技術(shù)有望重塑氣候科學、材料科學等領(lǐng)域的計算建模方式。通過將多維度模擬與真實世界的數(shù)據(jù)采集結(jié)合起來,這類工具可以降低計算資源門檻,拓展每一家實驗室“看見”和理解世界的能力。

在醫(yī)療健康領(lǐng)域,空間智能將重塑從實驗室到病床的整個鏈條。在斯坦福,我和學生、合作者們多年來一直與醫(yī)院、養(yǎng)老機構(gòu)以及居家患者緊密合作,這些經(jīng)歷讓我深信空間智能在這一領(lǐng)域的變革潛力。AI 可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn),通過輔助放射科醫(yī)生識別影像中的模式來提升診斷能力,還可以實現(xiàn)“環(huán)境式監(jiān)護系統(tǒng)”,為病患和照護者提供支持,而不替代真正治愈所需的人際連接——更不用說未來機器人在多種醫(yī)療場景中幫助醫(yī)護人員與患者的可能性。

在教育領(lǐng)域,空間智能可以讓抽象或復雜概念變得“可觸摸”、可體驗,通過反復練習與反饋,構(gòu)建起與我們大腦和身體的學習方式高度契合的過程。在 AI 時代,更快、更高效的學習和再培訓,不僅對學齡兒童,對成年人同樣至關(guān)重要。學生可以在多維環(huán)境中探索細胞機器的內(nèi)部運作,或“走進”歷史事件現(xiàn)場。教師可以通過交互式環(huán)境,為不同學生提供更個性化的教學體驗。各類專業(yè)人士——從外科醫(yī)生到工程師——也可以在高度逼真的模擬環(huán)境中,安全地練習復雜技能。

在所有這些領(lǐng)域中,可能性幾乎是無邊無際的,但目標始終如一:讓 AI 成為人類專業(yè)能力的放大器,加速人類發(fā)現(xiàn),增強人類照護能力——而不是替代那些構(gòu)成“為人之為人”核心的東西:判斷力、創(chuàng)造力與共情。

結(jié)語

在過去十年里,AI 已經(jīng)成為一股全球現(xiàn)象,也成為科技、經(jīng)濟乃至地緣政治中的關(guān)鍵拐點。但對我而言,無論是作為研究者、教育者,還是如今的創(chuàng)業(yè)者,真正持續(xù)激勵我的,仍然是圖靈在 75 年前提出的那個問題背后的精神。我依然與他共享那種“驚奇感”。正是這種驚奇,讓我每天都有動力去迎接空間智能帶來的挑戰(zhàn)。

在人類歷史上,我們第一次站在這樣一個門檻前:我們有機會構(gòu)建出與物理世界高度同步的機器,讓它們成為我們面對重大挑戰(zhàn)時真正可靠的伙伴。無論是加速我們在實驗室里理解疾病的過程,重塑我們講述故事的方式,還是在我們因疾病、傷痛或年老而最脆弱的時刻支持我們,我們都正站在這樣一種技術(shù)的邊緣:它將提升那些對我們而言最重要的生命維度。這是一個關(guān)于讓生活更深刻、更豐盈、更有掌控感的愿景。

在大約五億年前,大自然第一次在遠古動物身上點亮了“空間智能”的微光;而今天,我們有幸成為這一代技術(shù)工作者:也許很快,我們就能讓機器擁有同樣的能力——并有幸把這些能力用于造福世界各地的人們。如果沒有空間智能,人類關(guān)于“真正智能機器”的夢想就永遠不算完整。

參考文獻:

[1] https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層,

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛從伊朗回來,說點不中聽的:伊朗的真實面目,可能讓你很意外

剛從伊朗回來,說點不中聽的:伊朗的真實面目,可能讓你很意外

復轉(zhuǎn)這些年
2026-03-27 11:24:59
中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

蜉蝣說
2026-03-24 10:00:57
取消交強險呼聲居高不下!交通部重磅落地,車主們:太贊了

取消交強險呼聲居高不下!交通部重磅落地,車主們:太贊了

侃故事的阿慶
2026-03-26 17:57:43
心如死灰!一乳腺癌患者哭訴抗癌1年,在丈夫外套翻出他達拉非…

心如死灰!一乳腺癌患者哭訴抗癌1年,在丈夫外套翻出他達拉非…

火山詩話
2026-03-27 06:26:22
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
晚清大內(nèi)高手給許世友表演武功,全場大驚,許世友大喊:看我的!

晚清大內(nèi)高手給許世友表演武功,全場大驚,許世友大喊:看我的!

云霄紀史觀
2026-03-26 18:05:38
蘋果用戶7年不換機,電池崩了后ChatGPT給了個反常識解法

蘋果用戶7年不換機,電池崩了后ChatGPT給了個反常識解法

硬核玩家2哈
2026-03-26 14:27:05
普京:中東的戰(zhàn)爭,讓我們賺了很多錢!“裝錢的麻袋都不夠用了”

普京:中東的戰(zhàn)爭,讓我們賺了很多錢!“裝錢的麻袋都不夠用了”

幾人盡棄
2026-03-28 13:56:48
魯比奧指責澤連斯基“撒謊”

魯比奧指責澤連斯基“撒謊”

參考消息
2026-03-28 14:26:04
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
聯(lián)盟第一!雷霆連4季橫掃送公牛無緣季后賽 亞歷山大連134場20+

聯(lián)盟第一!雷霆連4季橫掃送公牛無緣季后賽 亞歷山大連134場20+

醉臥浮生
2026-03-28 10:31:08
美國媒體:越來越多證據(jù)表明,特朗普正在利用中東戰(zhàn)爭操縱市場

美國媒體:越來越多證據(jù)表明,特朗普正在利用中東戰(zhàn)爭操縱市場

趣文說娛
2026-03-27 17:29:33
“華人神探”李昌鈺去世,享年87歲,曾參與偵辦“水門事件”“辛普森殺妻案”,中國留學生追憶:半年前他曾站著演講1個半小時,精神狀態(tài)不錯

“華人神探”李昌鈺去世,享年87歲,曾參與偵辦“水門事件”“辛普森殺妻案”,中國留學生追憶:半年前他曾站著演講1個半小時,精神狀態(tài)不錯

極目新聞
2026-03-28 06:56:12
看哭了!張雪峰女兒流淚發(fā)文,透露爸爸最窮的時候是怎么熬過來的

看哭了!張雪峰女兒流淚發(fā)文,透露爸爸最窮的時候是怎么熬過來的

翰飛觀事
2026-03-27 19:35:51
帶狠貨回國,58歲中國男子!從越南友誼口岸,出境時被帶上銀手鐲

帶狠貨回國,58歲中國男子!從越南友誼口岸,出境時被帶上銀手鐲

越南語學習平臺
2026-03-27 09:38:43
2年7500萬!曝哈登預(yù)計今夏與騎士提前續(xù)約:還將招募詹姆斯加盟

2年7500萬!曝哈登預(yù)計今夏與騎士提前續(xù)約:還將招募詹姆斯加盟

羅說NBA
2026-03-28 05:56:31
“換心”真相大白!向太曝更多內(nèi)幕,李連杰一夜回春秘密被揭開

“換心”真相大白!向太曝更多內(nèi)幕,李連杰一夜回春秘密被揭開

楓塵余往逝
2026-03-27 15:35:07
去世老師公司被二代惦記上了

去世老師公司被二代惦記上了

毒舌扒姨太
2026-03-27 22:45:40
我年薪300萬,因參加老丈人90大壽遲到1分鐘,妻子就把我趕下餐桌

我年薪300萬,因參加老丈人90大壽遲到1分鐘,妻子就把我趕下餐桌

徐俠客有話說
2026-03-23 11:47:58
巴基斯坦出面斡旋后,德黑蘭打通中方電話,王毅外長指出一條明路

巴基斯坦出面斡旋后,德黑蘭打通中方電話,王毅外長指出一條明路

知鑒明史
2026-03-27 09:23:03
2026-03-28 15:12:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經(jīng)資訊
155文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

牛彈琴:伊朗狠角色強硬嘲諷美國 卻被美移出獵殺名單

頭條要聞

牛彈琴:伊朗狠角色強硬嘲諷美國 卻被美移出獵殺名單

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經(jīng)要聞

我在小吃培訓機構(gòu)學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

時尚
藝術(shù)
旅游
親子
公開課

龍蝦來了,厭蠢癥炸了

藝術(shù)要聞

細膩優(yōu)雅的花卉靜物畫 | Henrietta Smith

旅游要聞

這場“春季村晚”,點亮“江南桃花源”

親子要聞

為什么說人這輩子一定要生個孩子?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版