国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛最新硬核長文|ChatGPT們都錯了方向,空間智能才是下一個十年

0
分享至


AI界的"視覺教母"李飛飛在其個人Substack發(fā)布重磅長文《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》,迅速引發(fā)學術界和科技圈熱議。


作為構建ImageNet、開啟現(xiàn)代AI視覺革命的領軍人物,李飛飛這次給出了一個明確判斷:空間智能是AI的下一個前沿。她指出,當前大語言模型雖然能寫能聊,但本質上是"黑暗中的雄辯家"——對真實三維世界、物理規(guī)律、空間關系幾乎一無所知。

為此,她創(chuàng)立的World Labs正在構建"世界模型"(World Models),并首次公開了首個產(chǎn)品Marble——全球首個能生成一致3D環(huán)境的世界模型。這將是繼大語言模型之后,AI的下一次范式革命。

以下是對這篇文章的完整編譯:

核心要點速覽(TLDR)

?當前AI的本質缺陷:大語言模型就像"坐在黑屋子里的文學家"——能說會道、知識豐富,但對真實世界一無所知。它們連最基本的空間任務都做不好:判斷距離、旋轉物體、預測物理運動的準確率接近瞎猜。

?空間智能才是智能的根基:人類和動物的智能不是從語言開始的,而是從5億年前最原始的"感知-行動"循環(huán)進化而來。我們停車、接鑰匙、在人群中穿行,都依賴空間智能——這是比語言更底層的能力。

?世界模型是解決方案:李飛飛提出需要構建全新的AI架構——不是改進LLM,而是開發(fā)能理解3D空間、物理規(guī)律和動態(tài)變化的"世界模型"。這比語言模型復雜得多,因為世界不是一維序列,而是多維的、受物理定律約束的。

?世界模型的三項核心能力

  • 能把現(xiàn)實或想象的場景轉化為精確的3D空間表示

  • 能生成符合物理規(guī)律、幾何一致、時間連貫的虛擬世界

  • 能預測"如果我這樣做,世界會變成什么樣"

?技術挑戰(zhàn)極其艱巨:需要解決三個難題——找到類似"預測下一個詞"那樣簡單優(yōu)雅的訓練方法;從海量圖像視頻中提取3D信息;設計能處理4維時空數(shù)據(jù)的全新神經(jīng)網(wǎng)絡架構。

?Marble是第一個吃螃蟹的產(chǎn)品:World Labs推出了全球首個能用文字、圖片等多種方式"召喚"出可探索3D世界的AI系統(tǒng)。電影人、游戲設計師、建筑師可以像指揮一樣創(chuàng)造場景,而不需要學復雜的3D建模軟件。

?應用前景分三步走

  • 馬上能用:創(chuàng)意工具革命,普通人也能做大片級別的場景

  • 五年左右:機器人學習大爆發(fā),通過虛擬世界訓練解決數(shù)據(jù)不足問題

  • 十年以上:科學研究加速器,在虛擬世界里做藥物實驗、材料測試、氣候模擬

?李飛飛的AI哲學:“AI必須增強人類,而非取代人類?!?她反復強調(diào),空間智能不是為了讓機器搶走人類的工作,而是讓創(chuàng)作者更有創(chuàng)造力、讓科學家更高效、讓老人和病人得到更好的照顧。

?歷史意義的類比:這次革命就像埃拉托色尼用影子測地球、沃森用鐵絲模型發(fā)現(xiàn)DNA一樣——都是用空間思維突破人類認知邊界?,F(xiàn)在輪到我們把這種能力給機器了。

?為什么現(xiàn)在是關鍵節(jié)點:ImageNet催生了視覺AI,Transformer催生了語言AI,而世界模型將開啟"空間AI"時代。李飛飛認為這是未來十年最重要的技術方向,基礎架構還在摸索階段,正是布局的最佳時機。

?World Labs的研究方向:他們正在攻克實時生成技術(最新成果RTFM模型用"空間記憶幀"保持世界一致性)、合成數(shù)據(jù)生成、3D/4D感知架構——目標是讓AI像人類一樣"看一眼就知道空間關系"。

?最打動人的一句話:愛因斯坦說"創(chuàng)造力是智力在玩耍"。李飛飛說,空間智能就是要讓AI也能"玩耍"——不是機械地執(zhí)行任務,而是真正理解、想象和創(chuàng)造世界。

?對創(chuàng)作者的承諾:未來你不需要幾百萬預算和專業(yè)團隊,一個人就能創(chuàng)造出《阿凡達》級別的虛擬世界。AI處理技術細節(jié),你專注于講故事和創(chuàng)意本身。

?呼吁整個行業(yè)參與:這不是一家公司能完成的任務,需要全球研究者、工程師、企業(yè)、政策制定者一起努力。李飛飛把這稱為她的"北極星" ——邀請所有人加入這場探索。

從語言到世界:空間智能是AI的下一個前沿

1950年,當計算僅僅是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍回響不絕的問題:機器能思考嗎?能看到他所見的未來,需要非凡的想象力:智能或許有朝一日可以被構建,而非僅能天生。這一洞見后來開啟了一場名為"人工智能"(AI)的不懈科學探索。進入AI領域25年后,我仍然深受圖靈愿景的鼓舞。但我們離目標有多近?答案并不簡單。

今天,大語言模型(LLM)等領先AI技術已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)允?b>黑暗中的文字匠人——雄辯卻缺乏經(jīng)驗,博學卻不接地氣。空間智能將徹底改變我們創(chuàng)造和互動真實及虛擬世界的方式——革新敘事、創(chuàng)意、機器人、科學發(fā)現(xiàn)等諸多領域。這,正是AI的下一個前沿。

對視覺和空間智能的追求,一直是我進入這個領域以來的北極星。這就是為什么我花費多年構建ImageNet——首個大規(guī)模視覺學習和基準測試數(shù)據(jù)集,也是催生現(xiàn)代AI的三大關鍵要素之一(另外兩個是神經(jīng)網(wǎng)絡算法和GPU等現(xiàn)代算力)。這就是為什么我在斯坦福的學術實驗室過去十年一直在將計算機視覺與機器人學習結合。也正因如此,我和聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)立了World Labs:首次全面實現(xiàn)這一可能性。

在這篇文章中,我將解釋什么是空間智能、為何它重要,以及我們?nèi)绾螛嫿軌蚪怄i它的世界模型——這些模型的影響將重塑創(chuàng)造力、具身智能和人類進步。

AI的激動時刻與未竟之夢

AI從未如此令人興奮。生成式AI模型如LLM已從研究實驗室走入日常生活,成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展現(xiàn)了曾被認為不可能的能力——生成連貫的文本、海量代碼、逼真的圖像,甚至是短視頻片段。AI是否會改變世界已不再是問題。按任何合理定義,它已經(jīng)做到了。

然而,太多事物仍遙不可及。自主機器人的愿景依然引人遐想但仍屬推測,遠未成為未來學家長期承諾的日常家居設備。大幅加速疾病治療、新材料發(fā)現(xiàn)、粒子物理等領域研究的夢想基本未能實現(xiàn)。而那個真正理解并賦能人類創(chuàng)造者的AI承諾——無論是學習分子化學復雜概念的學生、可視化空間的建筑師、構建世界的電影制作人,還是任何尋求全沉浸式虛擬體驗的人——仍然遙不可及。

要理解為何這些能力仍然難以企及,我們需要審視空間智能是如何進化的,以及它如何塑造我們對世界的理解。

空間智能的進化起源

視覺長期以來一直是人類智能的基石,但其力量源于更根本的東西。早在動物能筑巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已悄然開啟了一段通往智能的進化旅程。

這種看似孤立的從外部世界獲取信息的能力——無論是一縷光線還是質感的觸覺——在感知與生存之間架起了一座橋梁,這座橋梁隨著世代演進變得愈發(fā)堅固和精細。一層層神經(jīng)元從這座橋梁生長出來,形成了解釋世界并協(xié)調(diào)有機體與環(huán)境互動的神經(jīng)系統(tǒng)。因此,許多科學家推測,感知與行動成為驅動智能進化的核心循環(huán),也是自然創(chuàng)造我們這個物種的基礎——感知、學習、思考和行動的終極體現(xiàn)。

空間智能在定義我們?nèi)绾闻c物理世界互動中扮演著根本性角色。每一天,我們都依靠它完成最普通的行為:通過想象保險杠與路緣之間逐漸縮小的間隙來停車;接住扔過房間的鑰匙;在擁擠的人行道上穿行而不碰撞;或是睡眼惺忪地把咖啡倒進杯子而不用看。在更極端的情況下,消防員在浮動的煙霧中穿越坍塌的建筑,對穩(wěn)定性和生存做出瞬間判斷,通過手勢、肢體語言和沒有語言替代品的共享專業(yè)直覺進行交流。兒童在能說話之前的數(shù)月或數(shù)年里,通過與環(huán)境的玩?;觼韺W習世界。所有這些都是直覺性、自動化的——而機器尚未達到的流暢性。

空間智能也是我們想象力和創(chuàng)造力的基礎。講故事的人在腦海中創(chuàng)造獨特豐富的世界,并利用多種視覺媒介將它們帶給他人——從古代洞穴壁畫到現(xiàn)代電影再到沉浸式電子游戲。無論是孩子們在海灘上堆沙堡,還是在電腦上玩《我的世界》,基于空間的想象力構成了真實或虛擬世界中互動體驗的基礎。在許多工業(yè)應用中,對物體、場景和動態(tài)互動環(huán)境的模擬,為從工業(yè)設計到數(shù)字孿生再到機器人訓練等無數(shù)關鍵商業(yè)用例提供支持。

歷史上充滿了空間智能扮演核心角色的文明定義時刻。在古希臘,埃拉托色尼將影子轉化為幾何——在亞歷山大測量到7度角的同時,太陽在塞內(nèi)恰恰好不投影——從而計算出地球周長。哈格里夫斯的"珍妮紡紗機"通過一個空間洞見革新了紡織制造:在單個框架中并排安排多個紡錘,讓一個工人能同時紡多股線,生產(chǎn)率提高了八倍。沃森和克里克通過物理構建3D分子模型發(fā)現(xiàn)了DNA結構,操作金屬板和金屬線,直到堿基對的空間排列咔嗒一聲到位。在每個案例中,當科學家和發(fā)明家必須操縱物體、可視化結構和推理物理空間時,空間智能推動了文明前進——而這些都無法僅用文本捕捉。

空間智能是我們認知構建的腳手架。無論我們是被動觀察還是主動創(chuàng)造,它都在發(fā)揮作用。它驅動我們的推理和規(guī)劃,即使是在最抽象的話題上。它對我們的互動方式至關重要——無論是口頭還是物理上,與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在埃拉托色尼的層面上揭示新真理,但我們經(jīng)常以同樣的方式思考——通過感官感知復雜世界,然后利用對物理、空間運作方式的直覺理解來理解它

不幸的是,今天的AI還不會這樣思考。

當前AI的空間能力鴻溝

過去幾年確實取得了巨大進步。除了文本數(shù)據(jù)外,還用海量多媒體數(shù)據(jù)訓練的多模態(tài)LLM(MLLM)引入了一些空間意識的基礎,當今AI可以分析圖片、回答關于它們的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術的突破,我們最先進的機器人可以開始在高度受限的環(huán)境中操縱物體和工具。

然而坦率地說,AI的空間能力仍遠低于人類水平。而且局限很快就會顯現(xiàn)。最先進的MLLM模型在估算距離、方向和大小方面的表現(xiàn)很少優(yōu)于隨機水平——或者"心理"旋轉物體,從新角度重新生成它們。它們無法導航迷宮、識別捷徑或預測基本物理。AI生成的視頻——雖然新興且確實很酷——通常在幾秒鐘后就失去連貫性。

雖然當前最先進的AI可以在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色,但這些模型在表示或與物理世界互動時存在根本性局限。我們對世界的看法是整體性的——不僅是我們正在看的東西,還包括一切在空間上如何關聯(lián)、意味著什么以及為何重要。通過想象、推理、創(chuàng)造和互動來理解這一點——而不僅僅是描述——這就是空間智能的力量。沒有它,AI就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效駕駛我們的汽車、引導機器人進入我們的家庭和醫(yī)院、實現(xiàn)全新的沉浸式和互動式學習與娛樂體驗,或加速材料科學和醫(yī)學的發(fā)現(xiàn)。

哲學家維特根斯坦曾寫道:"我的語言的界限意味著我的世界的界限。"我不是哲學家。但我至少知道對AI而言,不僅僅有文字空間智能代表了語言之外的前沿——連接想象力、感知和行動的能力,為機器真正增強人類生活開辟了可能性,從醫(yī)療到創(chuàng)造力,從科學發(fā)現(xiàn)到日常協(xié)助。

構建空間智能AI:世界模型的三大核心能力

那么我們?nèi)绾螛嫿臻g智能AI?通往能夠以埃拉托色尼的視野進行推理、以工業(yè)設計師的精度進行工程設計、以講故事者的想象力進行創(chuàng)造,并以急救人員的流暢性與環(huán)境互動的模型的路徑是什么?

構建空間智能AI需要比LLM更雄心勃勃的東西:世界模型——一種新型生成式模型,其在理解、推理、生成和與語義、物理、幾何和動態(tài)復雜的世界(虛擬或真實)互動的能力,遠超當今LLM的能力范圍。這個領域仍處于初期,當前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs成立于2024年初,基于這樣一個信念:基礎方法仍在建立中,這使其成為未來十年的決定性挑戰(zhàn)。

在這個新興領域,最重要的是建立指導發(fā)展的原則。對于空間智能,我通過三項基本能力來定義世界模型:

  1. 空間理解與推理
    解鎖空間智能的世界模型還必須生成自己的模擬世界。它們必須能夠生成無限多樣化的模擬世界,遵循語義或感知指令——同時保持幾何、物理和動態(tài)一致性——無論表示真實還是虛擬空間。研究界正在積極探索這些世界應該在內(nèi)在幾何結構方面隱式還是顯式表示。此外,除了強大的潛在表征外,我認為通用世界模型的輸出還必須允許為許多不同用例生成明確、可觀察的世界狀態(tài)。特別是,它對現(xiàn)在的理解必須與過去連貫地聯(lián)系起來;與導致當前狀態(tài)的世界先前狀態(tài)聯(lián)系起來。

  2. 多模態(tài)輸入處理
    正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域被稱為"提示"。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型應該盡可能完整地預測或生成世界狀態(tài)。這需要以真實視覺的保真度處理視覺輸入,同時以同等能力解釋語義指令。這使代理和人類都能通過多樣化的輸入與模型交流世界,并反過來接收多樣化的輸出。

  3. 行動預測與目標導向生成
    最后,如果動作和/或目標是世界模型提示的一部分,其輸出必須包括世界的下一個狀態(tài),以隱式或顯式表示。當僅給定一個動作(帶或不帶目標狀態(tài))作為輸入時,世界模型應該產(chǎn)生與世界先前狀態(tài)、預期目標狀態(tài)(如有)及其語義含義、物理規(guī)律和動態(tài)行為一致的輸出。隨著空間智能世界模型在推理和生成能力方面變得更加強大和穩(wěn)健,可以想象,在給定目標的情況下,世界模型本身將能夠不僅預測世界的下一個狀態(tài),還能根據(jù)新狀態(tài)預測下一個動作。

技術挑戰(zhàn):超越語言模型的復雜性

這一挑戰(zhàn)的范圍超過了AI面臨的任何問題

雖然語言是人類認知的純粹生成現(xiàn)象,但世界遵循復雜得多的規(guī)則。例如在地球上,重力支配運動,原子結構決定光如何產(chǎn)生顏色和亮度,無數(shù)物理定律約束著每一次互動。即使是最奇幻、最有創(chuàng)意的世界,也是由遵循定義它們的物理規(guī)律和動態(tài)行為的空間物體和代理組成的。以一致的方式調(diào)和所有這些——語義的、幾何的、動態(tài)的和物理的——需要全新的方法。表示世界的維度遠比語言等一維序列信號復雜得多。實現(xiàn)提供我們?nèi)祟愊碛械哪欠N通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊致力于朝這一目標取得根本性進展。

以下是我們當前研究課題的一些示例:

? 用于訓練的新通用任務函數(shù)
定義一個像LLM中的下一詞預測一樣簡單優(yōu)雅的通用任務函數(shù),長期以來一直是世界模型研究的核心目標。輸入和輸出空間的復雜性使這樣一個函數(shù)本質上更難制定。但雖然還有很多需要探索,這個目標函數(shù)和相應的表征必須反映幾何和物理規(guī)律,尊重世界模型作為想象和現(xiàn)實的基礎表征的根本性質。

? 大規(guī)模訓練數(shù)據(jù)
訓練世界模型需要比文本整理復雜得多的數(shù)據(jù)。好消息是:海量數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可訪問的訓練材料——挑戰(zhàn)在于開發(fā)能夠從這些基于二維圖像或視頻幀的信號(即RGB)中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了將數(shù)據(jù)量和模型大小聯(lián)系起來的縮放定律在語言模型中的力量;世界模型的關鍵解鎖是構建能夠以可比規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構。此外,我不會低估高質量合成數(shù)據(jù)和深度、觸覺信息等額外模態(tài)的力量。它們在訓練過程的關鍵步驟中補充互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進的道路取決于更好的傳感器系統(tǒng)、更強大的信號提取算法,以及更強大的神經(jīng)模擬方法。

? 新模型架構和表征學習
世界模型研究將不可避免地推動模型架構和學習算法的進步,特別是超越當前MLLM和視頻擴散范式。這兩者通常將數(shù)據(jù)標記化為1D或2D序列,這使得簡單的空間任務變得不必要地困難——比如計算短視頻中獨特椅子的數(shù)量,或記住一小時前房間的樣子。替代架構可能有所幫助,例如用于標記化、上下文和內(nèi)存的3D或4D感知方法。例如,在World Labs,我們最近在名為RTFM的實時生成基于幀的模型上的工作展示了這種轉變,它使用空間基礎幀作為空間記憶的一種形式,以實現(xiàn)高效的實時生成,同時在生成的世界中保持持久性。

顯然,在我們能夠通過世界建模完全解鎖空間智能之前,我們?nèi)悦媾R著嚴峻的挑戰(zhàn)。這項研究不僅僅是理論練習。它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進展令人鼓舞。我們最近向有限數(shù)量的用戶展示了Marble的一瞥——有史以來第一個世界模型,可以通過多模態(tài)輸入提示生成并維護一致的3D環(huán)境,供用戶和講故事者探索、互動,并在他們的創(chuàng)意工作流程中進一步構建。我們正在努力盡快向公眾開放!

Marble只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進展加速,研究人員、工程師、用戶和商業(yè)領袖都開始認識到其非凡潛力。下一代世界模型將使機器在全新水平上實現(xiàn)空間智能——這一成就將解鎖今天AI系統(tǒng)中仍然基本缺失的關鍵能力。

以人為本的AI發(fā)展理念

AI開發(fā)的動機很重要。作為幫助開啟現(xiàn)代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類能力,而非取代它。多年來,我一直致力于將AI開發(fā)、部署和治理與人類需求對齊。極端的技術烏托邦和世界末日敘事如今比比皆是,但我繼續(xù)持有更務實的觀點:AI由人開發(fā)、由人使用、由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在于擴展我們的能力;使我們更有創(chuàng)造力、更有聯(lián)系、更高效、更充實。空間智能代表了這一愿景——賦能人類創(chuàng)造者、護理者、科學家和夢想家實現(xiàn)曾經(jīng)不可能的事情的AI。這一信念驅使我致力于將空間智能作為AI的下一個偉大前沿。

應用前景:從創(chuàng)意到科學的變革

空間智能的應用跨越不同時間線。創(chuàng)意工具正在出現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到創(chuàng)造者和講故事者手中。機器人代表了一個雄心勃勃的中期愿景,隨著我們完善感知與行動之間的循環(huán)。最具變革性的科學應用將需要更長時間,但承諾對人類繁榮產(chǎn)生深遠影響。

在所有這些時間線上,有幾個領域因其重塑人類能力的潛力而脫穎而出。這將需要巨大的集體努力,超過單個團隊或公司所能實現(xiàn)的。它將需要整個AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——朝著共同愿景努力。但這個愿景值得追求。以下是未來的面貌:

創(chuàng)意革命

"創(chuàng)造力是智力在玩樂。"這是我個人英雄愛因斯坦最喜歡的名言之一。早在書面語言之前,人類就講故事——把它們畫在洞穴墻壁上,代代相傳,在共享敘事上建立整個文化。故事是我們理解世界、跨越距離和時間連接、探索人之為人意味著什么的方式,最重要的是,在自己內(nèi)心找到生活和愛的意義。今天,空間智能有潛力以尊重其根本重要性的方式改變我們創(chuàng)造和體驗敘事的方式,并將其影響從娛樂擴展到教育,從設計到建筑。

World Labs的Marble平臺將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設計師、建筑師和各種講故事者手中,讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界,而無需傳統(tǒng)3D設計軟件的開銷。創(chuàng)造行為仍然像以往一樣至關重要且人性化;AI工具只是放大和加速創(chuàng)造者所能實現(xiàn)的。這包括:

  • 新維度的敘事體驗:電影制作人和游戲設計師正在使用Marble召喚整個世界,不受預算或地理限制,探索在傳統(tǒng)制作流程中難以處理的各種場景和視角。隨著不同形式媒體和娛樂之間的界限模糊,我們正在接近融合藝術、模擬和游戲的全新互動體驗——個性化的世界,任何人,而不僅僅是工作室,都可以創(chuàng)造和居住自己的故事。

  • 通過設計的空間敘事:本質上每個制造的物體或建造的空間都必須在物理創(chuàng)建之前在虛擬3D中設計。這個過程在時間和金錢上都高度迭代且昂貴。有了空間智能模型,建筑師可以在投入數(shù)月設計之前快速可視化結構,走進尚不存在的空間——本質上講述關于我們?nèi)绾紊?、工作和聚集的故事?/p>

  • 新的沉浸式和互動體驗:體驗本身是我們作為物種創(chuàng)造意義的最深刻方式之一。在整個人類歷史中,只有一個單一的3D世界:我們都共享的物理世界。只有在最近幾十年,通過游戲和早期虛擬現(xiàn)實(VR),我們才開始瞥見分享我們自己創(chuàng)造的替代世界意味著什么?,F(xiàn)在,空間智能結合新的形態(tài)因素,如VR和擴展現(xiàn)實(XR)頭顯和沉浸式顯示器,以前所未有的方式提升了這些體驗。

機器人與具身智能

從昆蟲到人類的動物都依賴空間智能來理解、導航和與他們的世界互動。機器人也不例外。自該領域誕生以來,空間感知機器一直是夢想,包括我在斯坦福研究實驗室與學生和合作者的工作。這也是為什么我對使用World Labs正在構建的這類模型實現(xiàn)它們的可能性感到如此興奮。

  • 通過世界模型擴展機器人學習:機器人學習的進展取決于可行訓練數(shù)據(jù)的可擴展解決方案。鑒于機器人必須學習理解、推理、規(guī)劃和互動的巨大狀態(tài)空間可能性,許多人推測需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界人類演示捕獲的組合才能真正創(chuàng)建可泛化的機器人。但與語言模型不同,當今機器人研究的訓練數(shù)據(jù)稀缺。世界模型將在其中發(fā)揮決定性作用。

  • 伴侶和協(xié)作者:作為人類協(xié)作者的機器人,無論是在實驗室工作臺上協(xié)助科學家還是協(xié)助獨居老人,都可以擴大急需更多勞動力和生產(chǎn)力的部分勞動力。但這樣做需要感知、推理、規(guī)劃和行動的空間智能,同時——這是最重要的——與人類目標和行為保持同理心對齊。

  • 擴展的具身形式:類人機器人在我們?yōu)樽约航ㄔ斓氖澜缰邪l(fā)揮作用。但創(chuàng)新的全部好處將來自更多樣化的設計:輸送藥物的納米機器人、導航狹窄空間的軟機器人,以及為深海或外太空建造的機器。

科學突破與社會福祉

除了創(chuàng)意和機器人應用外,空間智能的深遠影響還將擴展到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強人類能力的領域。我在下面重點介紹三個可以產(chǎn)生深刻變革的應用領域,盡管不用說,空間智能的用例確實跨越更多行業(yè)。

科學研究
在科學研究中,空間智能系統(tǒng)可以模擬實驗,并行測試假設,并探索人類無法到達的環(huán)境——從深海到遙遠的星球。這項技術可以改變氣候科學和材料研究等領域的計算建模。

醫(yī)療保健
在醫(yī)療保健中,空間智能將重塑從實驗室到床邊的一切。在斯坦福,我的學生和合作者多年來一直與醫(yī)院、老年護理機構和家中的患者合作。這一經(jīng)驗使我相信空間智能在這里的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學成像中的模式來增強診斷,并實現(xiàn)支持患者和護理人員的環(huán)境監(jiān)測系統(tǒng),而不會取代治愈所需的人際聯(lián)系。

教育
在教育中,空間智能可以實現(xiàn)沉浸式學習,使抽象或復雜概念變得具象,并創(chuàng)造對我們大腦和身體如何在學習中連接至關重要的迭代體驗。在AI時代,對學齡兒童和成年人來說,更快、更有效的學習和再培訓的需求尤為重要。學生可以探索細胞機制或多維度地走過歷史事件。

在所有這些領域,可能性是無限的,但目標保持不變:增強人類專業(yè)知識、加速人類發(fā)現(xiàn)、放大人類關懷的AI——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結語:我們的北極星

過去十年,AI已成為全球現(xiàn)象,也是技術、經(jīng)濟乃至地緣政治的拐點。但作為研究者、教育者,現(xiàn)在還是企業(yè)家,最激勵我的仍然是圖靈那個75年前問題背后的精神。我仍然分享他的驚奇感。這就是空間智能的挑戰(zhàn)每天激勵我的原因。

我們首次有機會構建與物理世界如此協(xié)調(diào)的機器,可以將它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是加速我們在實驗室中理解疾病的方式,革新我們講故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時刻支持我們,我們正處于能夠提升我們最關心的生活方面的技術的邊緣。這是一個更深刻、更豐富、更有力量的生活愿景。

在自然在近5億年前在祖先動物中釋放空間智能的第一縷曙光后,我們有幸成為可能很快就能賦予機器同樣能力的這一代技術人員——并有特權利用這些能力造福各地人民。沒有空間智能,我們對真正智能機器的夢想將不完整。

這個追求是我的北極星。請與我一起追求它。

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大S11歲女兒露面,給馬筱梅兒子買禮物,和繼母相處好汪小菲安心

大S11歲女兒露面,給馬筱梅兒子買禮物,和繼母相處好汪小菲安心

新金牌娛樂觀察家
2026-03-01 10:38:42
伊朗最高領袖哈梅內(nèi)伊遇襲身亡,特朗普警告轟炸行動暫不會停!

伊朗最高領袖哈梅內(nèi)伊遇襲身亡,特朗普警告轟炸行動暫不會停!

財聯(lián)社
2026-03-01 10:14:07
迪拜多地爆炸聲不斷,世界最高樓與導彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強烈

迪拜多地爆炸聲不斷,世界最高樓與導彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強烈

每日經(jīng)濟新聞
2026-03-01 15:31:12
消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

界面新聞
2026-03-01 07:16:37
伊朗打擊美國中東軍事基地,美第五艦隊服務中心遭導彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導彈射向以色列……

伊朗打擊美國中東軍事基地,美第五艦隊服務中心遭導彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導彈射向以色列……

每日經(jīng)濟新聞
2026-02-28 18:02:13
男籃100-93力克中國臺北4壞消息!趙睿+王浩然辣眼,攻守一塌糊涂

男籃100-93力克中國臺北4壞消息!趙睿+王浩然辣眼,攻守一塌糊涂

籃球資訊達人
2026-03-01 17:54:20
地緣沖突“黑天鵝”再襲!明天,A股股民如何應對?

地緣沖突“黑天鵝”再襲!明天,A股股民如何應對?

每經(jīng)牛眼
2026-03-01 10:06:21
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
“以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

“以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

阿凱銷售場
2026-03-01 01:46:42
營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

新浪財經(jīng)
2026-02-28 22:28:30
韓旭18+9+6正負值+20全隊最高,山貓加時惜敗無緣總冠軍

韓旭18+9+6正負值+20全隊最高,山貓加時惜敗無緣總冠軍

懂球帝
2026-03-01 16:32:48
大馬士革飛往上海機票漲至382萬元?知情人士:可能是供應商誤操作

大馬士革飛往上海機票漲至382萬元?知情人士:可能是供應商誤操作

每日經(jīng)濟新聞
2026-02-28 20:33:18
蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,最終結局如何?

蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,最終結局如何?

談史論天地
2026-02-28 13:35:18
廣州佳兆業(yè)破產(chǎn)

廣州佳兆業(yè)破產(chǎn)

地產(chǎn)微資訊
2026-02-28 20:38:44
特朗普稱伊朗最高領袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

特朗普稱伊朗最高領袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

每日經(jīng)濟新聞
2026-03-01 06:45:13
哈梅內(nèi)伊將就美以襲擊發(fā)表講話

哈梅內(nèi)伊將就美以襲擊發(fā)表講話

界面新聞
2026-02-28 23:04:46
美以剛炸完伊朗,人民幣結算被卡脖子,中國怎么辦?

美以剛炸完伊朗,人民幣結算被卡脖子,中國怎么辦?

生活新鮮市
2026-03-01 13:27:54
51死60傷!美以為何空襲伊朗小學?專家:或為全面威懾伊朗,或屬“誤傷”,未來幾天三方行動是關鍵

51死60傷!美以為何空襲伊朗小學?專家:或為全面威懾伊朗,或屬“誤傷”,未來幾天三方行動是關鍵

極目新聞
2026-02-28 22:09:29
美以對伊朗首都發(fā)動60起襲擊致57人死亡

美以對伊朗首都發(fā)動60起襲擊致57人死亡

新華社
2026-03-01 16:33:06
有一種威懾力叫:只要我還活著,你趙匡胤就得老老實實當臣子

有一種威懾力叫:只要我還活著,你趙匡胤就得老老實實當臣子

掠影后有感
2026-03-01 09:55:16
2026-03-01 19:40:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
243文章數(shù) 14關注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

中國游客遭遇航班熔斷 轉機四趟耗時48小時回國

頭條要聞

中國游客遭遇航班熔斷 轉機四趟耗時48小時回國

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

數(shù)碼
旅游
親子
房產(chǎn)
本地

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

旅游要聞

膠香燈影傳非遺 文旅新春啟新程——東阿文旅與非遺深度融合的新春實踐

親子要聞

春日敏感肌自救指南,你get了嗎?

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

本地新聞

津南好·四時總相宜

無障礙瀏覽 進入關懷版