国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李飛飛終于把空間智能講明白了:AI 的極限不是語言,世界遠(yuǎn)比文字更廣闊!

0
分享至

出品丨AI 科技大本營(ID:rgznai100)

前不久,一場匯集了黃仁勛、Hinton、LeCun 等人工智能領(lǐng)域頂尖人物的圓桌討論,引發(fā)了不小的關(guān)注。當(dāng)李飛飛與這些行業(yè)巨擘同臺(tái)時(shí),也確實(shí)在社區(qū)里激起了一些討論——準(zhǔn)確地說,是爭議。


各種社交媒體上,匯成了一個(gè)巨大的聲音:“她憑什么?”

它不是一句簡單的冒犯,更像是一種確認(rèn)。在今天這個(gè)由參數(shù)、算力、模型規(guī)模定義的 AI 世界里,人們急于弄清楚,誰才是牌桌上真正的玩家。

而許多人眼里,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運(yùn)轉(zhuǎn)的 GPU 的人。

在這個(gè)劇本里,李飛飛的角色就顯得有些模糊。

很多人對(duì)她的印象或許還停留在 ImageNet 時(shí)代。但 ImageNet 的意義,可能比我們想象的要深遠(yuǎn)得多。它不僅僅是提供了一個(gè)龐大的數(shù)據(jù)集,更重要的是,它幾乎是以一己之力,為當(dāng)時(shí)的計(jì)算機(jī)視覺領(lǐng)域建立了一套“標(biāo)準(zhǔn)賽道”,一種通過大規(guī)模基準(zhǔn)測試來驅(qū)動(dòng)整個(gè)領(lǐng)域向前滾動(dòng)的方法論??梢哉f,今天大模型研究中“數(shù)據(jù)+算力+模型”并以 Benchmark 來衡量進(jìn)展的范式,依然能看到當(dāng)年 ImageNet 留下的深刻烙印。它不是某一個(gè)具體的算法,而是改變了游戲規(guī)則的基礎(chǔ)設(shè)施。

那么,在那個(gè)里程碑式的工作之后,當(dāng)下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時(shí),李飛飛卻把目光投向了一個(gè)更廣闊、也更根本的領(lǐng)域:空間智能。

她敏銳地指出了當(dāng)前 AI 范式的一個(gè)核心局限:語言終究是人類為了交流而創(chuàng)造出來的一種抽象信號(hào)。自然界中本沒有文字,物理世界遵循的是它自身的規(guī)律。AI 如果想要真正地理解世界、與世界互動(dòng),就不能只停留在文本的符號(hào)游戲里,做一個(gè)“黑暗中的文字大師”。它需要學(xué)會(huì)看、學(xué)會(huì)聽、學(xué)會(huì)理解三維空間中的物體、距離、物理關(guān)系和動(dòng)態(tài)交互。

這解釋了很多人心中的第一層疑問:ImageNet 之后,李飛飛究竟在做什么?

她和她的團(tuán)隊(duì),以及新創(chuàng)辦的公司,正是試圖為 AI 補(bǔ)上“物理世界”這一課,讓智能走出屏幕,擁有對(duì)空間的感知、理解和交互能力。他們想做的,是構(gòu)建所謂的“世界模型”,一個(gè)遠(yuǎn)比語言模型宏大、復(fù)雜得多的目標(biāo)。

這并非一個(gè)輕松的議題,甚至比單純擴(kuò)大語言模型的規(guī)模要困難得多。它關(guān)乎人工智能的下一站將去往何方,是從一個(gè)勝利走向另一個(gè)勝利,還是需要一次根本性的范式轉(zhuǎn)換。

近日,李飛飛親自撰寫了一篇長文,第一次如此系統(tǒng)、完整地闡述了她對(duì)“空間智能”的全部構(gòu)想,描繪了她眼中人工智能的新疆界。這篇文章,或許就是對(duì)外界所有好奇與疑問的最好回應(yīng),也終于解答了那個(gè)最大的問題:空間智能,到底是什么?

以下,是這篇文章的全文。

跨越語言,構(gòu)筑世界:空間智能,人工智能的新疆界

1950 年,當(dāng)計(jì)算還不過是自動(dòng)化算術(shù)和簡單邏輯的代名詞時(shí),艾倫·圖靈提出了一個(gè)至今仍引人深思的問題:機(jī)器能思考嗎?

能洞見他所預(yù)見的一切,需要非凡的想象力:智能或許某天可以被創(chuàng)造,而非與生俱來。這一洞見后來開啟了一場名為“人工智能”(AI)的不懈科學(xué)探索。在我投身人工智能領(lǐng)域的 25 年里,圖靈的遠(yuǎn)見卓識(shí)至今仍讓我備受鼓舞。但我們距離這個(gè)目標(biāo)還有多遠(yuǎn)?答案并非一言以蔽之。

如今,以大語言模型(LLMs)為代表的頂尖人工智能技術(shù),已經(jīng)開始改變我們獲取和處理抽象知識(shí)的方式。然而,它們?nèi)韵袷呛诎抵械奈淖执髱煟?strong>能言善辯卻缺乏經(jīng)驗(yàn),知識(shí)淵博卻脫離現(xiàn)實(shí)。空間智能將改變我們創(chuàng)造真實(shí)世界和虛擬世界以及與之互動(dòng)的方式——為敘事、創(chuàng)造、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來革命性變化。這,就是人工智能的新疆界。

自進(jìn)入這一領(lǐng)域以來,對(duì)視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費(fèi)數(shù)年時(shí)間構(gòu)建 ImageNet,它是首個(gè)大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集;它與神經(jīng)網(wǎng)絡(luò)算法以及圖形處理器(GPU)等現(xiàn)代計(jì)算技術(shù)一道,成為催生現(xiàn)代人工智能的三大關(guān)鍵要素之一。

也正因如此,我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年間,一直致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。同樣為此,我和我的聯(lián)合創(chuàng)始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創(chuàng)立了 World Labs:為了首次將這一可能性完全實(shí)現(xiàn)。

在本文中,我將解釋什么是空間智能、它為何重要,以及我們正在如何構(gòu)建能夠解鎖它的“世界模型”——其影響將重塑創(chuàng)造力、具身智能和人類的進(jìn)步。


空間智能:人類認(rèn)知的腳手架

人工智能的發(fā)展從未像今天這樣激動(dòng)人心。以大語言模型為代表的生成式AI模型已經(jīng)從實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人進(jìn)行創(chuàng)造、提升生產(chǎn)力和溝通的工具。它們展現(xiàn)了曾被認(rèn)為不可能實(shí)現(xiàn)的能力,能夠輕松生成連貫的文本、海量的代碼、逼真的圖像,甚至是簡短的視頻片段。人工智能是否會(huì)改變世界,這已不再是個(gè)問題。無論以何種標(biāo)準(zhǔn)衡量,它都已然做到了這一點(diǎn)。

然而,仍有許多目標(biāo)遙不可及。自主機(jī)器人的愿景雖然引人入勝,但仍停留在構(gòu)想階段,遠(yuǎn)未成為未來學(xué)家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域極大加速研究的夢(mèng)想,在很大程度上仍未實(shí)現(xiàn)。而讓人工智能真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生理解分子化學(xué)中復(fù)雜的概念,協(xié)助建筑師構(gòu)想空間,支持電影制作人構(gòu)建世界,還是為任何尋求完全沉浸式虛擬體驗(yàn)的人提供服務(wù)——也依然未能兌現(xiàn)。

要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進(jìn)化的,以及它如何塑造我們對(duì)世界的理解。

長期以來,視覺一直是人類智能的基石,但其力量源于一種更為根本的能力。遠(yuǎn)在動(dòng)物學(xué)會(huì)筑巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進(jìn)化之旅。

這種看似孤立的、從外部世界獲取信息(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋梁,并且隨著世代繁衍,這座橋梁變得愈發(fā)堅(jiān)固和精巧。一層層的神經(jīng)元在這座橋梁上生長,形成了能夠解釋世界、并協(xié)調(diào)生物體與其環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。

因此,許多科學(xué)家推測,感知與行動(dòng)構(gòu)成了驅(qū)動(dòng)智能進(jìn)化的核心循環(huán),也是大自然創(chuàng)造出我們這個(gè)集感知、學(xué)習(xí)、思考和行動(dòng)于一體的終極物種的根基。

空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動(dòng)作:通過想象保險(xiǎn)杠與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。

在更極端的情況下,消防員在煙霧彌漫、不斷坍塌的建筑物中穿行,對(duì)結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會(huì)做出瞬時(shí)判斷,并通過手勢、身體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在學(xué)會(huì)說話前的數(shù)月乃至數(shù)年里,通過與環(huán)境充滿趣味的互動(dòng)來學(xué)習(xí)這個(gè)世界。所有這一切都發(fā)生得如此直觀、自然——這是機(jī)器尚未達(dá)到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造出獨(dú)特而豐富的世界,并利用從古代洞穴壁畫到現(xiàn)代電影再到沉浸式視頻游戲等多種視覺媒介,將這些世界呈現(xiàn)給他人。無論是孩子們?cè)谏碁┥隙哑錾潮?,還是在電腦上玩《我的世界》,這種基于空間的想象力,構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對(duì)物體、場景和動(dòng)態(tài)交互環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵的商業(yè)應(yīng)用提供了動(dòng)力。

歷史上,空間智能在許多定義文明進(jìn)程的時(shí)刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城(Syene)的同一時(shí)刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計(jì)算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”通過一個(gè)空間上的洞察徹底改變了紡織業(yè):將多個(gè)紡錘并排布置在同一個(gè)框架中,使得一個(gè)工人能同時(shí)紡多根紗線,生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu),他們不斷擺弄金屬板和金屬絲,直到最終找到了堿基對(duì)的空間排列方式。

在每一個(gè)案例中,當(dāng)科學(xué)家和發(fā)明家需要操控物體、構(gòu)想結(jié)構(gòu)和對(duì)物理空間進(jìn)行推理時(shí),空間智能都推動(dòng)了文明的進(jìn)步——這些都無法僅靠文字來捕捉。

空間智能是我們構(gòu)建認(rèn)知所依賴的腳手架。無論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動(dòng)著我們的推理和規(guī)劃,即便是在最抽象的議題上。它對(duì)于我們互動(dòng)的方式——無論是口頭還是身體上的,無論是與同伴還是與環(huán)境本身——都至關(guān)重要。雖然我們大多數(shù)人并非每天都在做出埃拉托斯特尼級(jí)別的發(fā)現(xiàn),但我們每天也都在以同樣的方式思考——通過感官來感知復(fù)雜的世界,然后利用對(duì)世界如何在物理和空間層面運(yùn)作的直觀理解來認(rèn)識(shí)它。

遺憾的是,今天的人工智能還無法像這樣思考。

過去幾年里,人工智能確實(shí)取得了巨大進(jìn)步。多模態(tài)大語言模型(MLLMs)除了文本數(shù)據(jù)外,還利用海量的多媒體數(shù)據(jù)進(jìn)行訓(xùn)練,從而引入了一些基礎(chǔ)的空間感知能力,如今的人工智能已經(jīng)可以分析圖片、回答相關(guān)問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人也開始能夠在高度受限的環(huán)境中操控物體和工具。

然而,坦率地說,人工智能的空間能力距離人類水平還相差甚遠(yuǎn)。其局限性很快就會(huì)暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉(zhuǎn)物體時(shí),當(dāng)前最先進(jìn)的多模態(tài)大語言模型的表現(xiàn)往往不比隨機(jī)猜測好多少。它們無法走出迷宮、識(shí)別捷徑或預(yù)測基本的物理現(xiàn)象。人工智能生成的視頻——盡管尚處起步階段,并且確實(shí)非常酷——往往在幾秒鐘后就失去連貫性。

盡管當(dāng)前最先進(jìn)的人工智能擅長閱讀、寫作、研究和數(shù)據(jù)中的模式識(shí)別,但這些模型在表現(xiàn)或與物理世界互動(dòng)時(shí),卻存在根本性的局限。我們看待世界的方式是整體性的——不僅關(guān)乎我們正在看什么,更關(guān)乎萬物在空間上如何關(guān)聯(lián)、其意義為何、其重要性何在。通過想象、推理、創(chuàng)造和互動(dòng)——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智能就與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效地駕駛我們的汽車,無法引導(dǎo)機(jī)器人在我們的家庭和醫(yī)院中服務(wù),無法為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式互動(dòng)體驗(yàn),也無法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的探索發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限?!蔽也皇钦軐W(xué)家。但我知道,至少對(duì)人工智能而言,世界遠(yuǎn)不止于語言。空間智能代表了超越語言的新疆界——它連接想象、感知與行動(dòng),為機(jī)器真正改善人類生活開辟了可能,從醫(yī)療健康到創(chuàng)意表達(dá),從科學(xué)發(fā)現(xiàn)到日常輔助。


人工智能的下一個(gè)十年:構(gòu)建真正具備空間智能的機(jī)器

那么,我們?cè)撊绾螛?gòu)建具備空間智能的人工智能?要打造出能夠像埃拉托斯特尼那樣推理、像工業(yè)設(shè)計(jì)師那樣精密設(shè)計(jì)、像故事講述者那樣富有想象力地創(chuàng)造,并像急救人員那樣流暢地與環(huán)境互動(dòng)的模型,其路徑何在?

構(gòu)建具備空間智能的人工智能,需要比大語言模型更為宏大的目標(biāo):世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的虛擬或真實(shí)世界進(jìn)行互動(dòng)的能力,遠(yuǎn)非當(dāng)今的大語言模型所能及。該領(lǐng)域尚處萌芽階段,現(xiàn)有方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs 于 2024 年初正是基于這樣的信念而創(chuàng)立:基礎(chǔ)方法仍在建立之中,這使其成為未來十年最具決定性的挑戰(zhàn)。

在這個(gè)新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的原則。對(duì)于空間智能,我通過三個(gè)基本能力來定義世界模型:

  1. 生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界

    能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據(jù)語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實(shí)空間還是虛擬空間——同時(shí)保持幾何、物理和動(dòng)態(tài)上的一致性。研究界正在積極探索,這些世界在內(nèi)在的幾何結(jié)構(gòu)上,究竟應(yīng)該被隱式表達(dá)還是顯式表達(dá)。此外,我相信,除了強(qiáng)大的潛在表示之外,一個(gè)通用的世界模型還必須能為許多不同的用例生成一個(gè)明確、可觀察的世界狀態(tài)。特別是,它對(duì)當(dāng)下的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的先前世界狀態(tài)——連貫地聯(lián)系在一起。

  2. 多模態(tài):世界模型在設(shè)計(jì)上就是多模態(tài)的

    正如動(dòng)物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示詞”。在獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動(dòng)作——世界模型都應(yīng)能預(yù)測或生成盡可能完整的世界狀態(tài)。這要求它既能以真實(shí)視覺的保真度處理視覺輸入,又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進(jìn)行溝通,并反過來接收多樣的輸出。

  3. 交互性:世界模型能夠根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)

    最后,如果動(dòng)作和/或目標(biāo)是給到世界模型的提示詞的一部分,那么它的輸出必須包含世界的下一個(gè)狀態(tài),無論是隱式還是顯式表示。當(dāng)僅給定一個(gè)動(dòng)作(無論有無目標(biāo)狀態(tài))作為輸入時(shí),世界模型應(yīng)該產(chǎn)生一個(gè)與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如果有的話),以及其語義含義、物理定律和動(dòng)態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想見,在給定一個(gè)目標(biāo)的情況下,世界模型本身將不僅能夠預(yù)測世界的下一個(gè)狀態(tài),還能基于新狀態(tài)預(yù)測下一步的動(dòng)作。

這一挑戰(zhàn)的范圍超過了人工智能以往面臨的任何挑戰(zhàn)。

語言純粹是人類認(rèn)知的一種生成現(xiàn)象,而世界則遵循著遠(yuǎn)為復(fù)雜的規(guī)則。例如,在地球上,引力支配著運(yùn)動(dòng),原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律制約著每一次互動(dòng)。即使是最奇幻、最具創(chuàng)意的世界,也是由遵守其自身物理定律和動(dòng)態(tài)行為的空間物體和智能體構(gòu)成的。

要將所有這些——語義、幾何、動(dòng)態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表示一個(gè)世界的維度,遠(yuǎn)比表示像語言這樣的一維序列信號(hào)要復(fù)雜得多。要實(shí)現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,將需要克服幾個(gè)巨大的技術(shù)障礙。在 World Labs,我們的研究團(tuán)隊(duì)正致力于朝著這個(gè)目標(biāo)取得根本性的進(jìn)展。

以下是我們當(dāng)前研究課題的一些例子:

  • 一種新的、通用的訓(xùn)練任務(wù)函數(shù): 定義一個(gè)像大語言模型中的“下一詞元預(yù)測”那樣簡潔優(yōu)雅的通用任務(wù)函數(shù),一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性,使得這樣一個(gè)函數(shù)的構(gòu)建本身就更具難度。但盡管仍有許多未知尚待探索,這個(gè)目標(biāo)函數(shù)及相應(yīng)的表示方法必須能反映幾何與物理定律,尊重世界模型作為想象與現(xiàn)實(shí)的具身化表示這一根本性質(zhì)。

  • 大規(guī)模訓(xùn)練數(shù)據(jù):訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量的數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富且易于獲取的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維的、基于圖像或視頻幀的信號(hào)(即 RGB)中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了在語言模型中,數(shù)據(jù)量和模型大小之間的“規(guī)模法則”的力量;解鎖世界模型的關(guān)鍵,在于構(gòu)建能夠以同等規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及深度和觸覺信息等額外模態(tài)的力量。它們?cè)谟?xùn)練過程的關(guān)鍵步驟中,對(duì)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)起到了補(bǔ)充作用。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號(hào)提取算法,以及遠(yuǎn)為強(qiáng)大的神經(jīng)模擬方法。

  • 新的模型架構(gòu)和表示學(xué)習(xí):世界模型的研究將不可避免地推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前的多模態(tài)大語言模型和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列,這使得一些簡單的空間任務(wù)變得異常困難——比如,在一段短視頻中數(shù)出不重復(fù)的椅子數(shù)量,或者記住一個(gè)小時(shí)前房間的樣子。替代性架構(gòu)可能會(huì)有所幫助,例如用于標(biāo)記化、上下文和記憶的具備三維或四維感知能力的方法。例如,在 World Labs,我們最近在一款名為 RTFM(Real-Time Frame-based Model)的實(shí)時(shí)生成式幀基模型上的工作就展示了這種轉(zhuǎn)變,它使用基于空間的幀作為一種空間記憶形式,以實(shí)現(xiàn)高效的實(shí)時(shí)生成,同時(shí)保持生成世界中的持久性。

顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅僅是一項(xiàng)理論探索,它是一個(gè)新型創(chuàng)意和生產(chǎn)力工具的核心引擎。而 World Labs 內(nèi)部的進(jìn)展令人鼓舞。我們最近向少數(shù)用戶展示了 Marble 的一瞥,這是有史以來第一個(gè)可以通過多模態(tài)輸入提示,來生成并維持一致三維環(huán)境的世界模型,供用戶和故事講述者在他們的創(chuàng)意工作流中進(jìn)行探索、互動(dòng)和進(jìn)一步構(gòu)建。我們正在努力,希望很快能將其向公眾開放!

Marble 只是我們創(chuàng)造一個(gè)真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商界領(lǐng)袖們都開始認(rèn)識(shí)到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新層面上實(shí)現(xiàn)空間智能——這一成就將解鎖當(dāng)今人工智能系統(tǒng)中仍然普遍缺失的關(guān)鍵能力。


用世界模型為人類構(gòu)建一個(gè)更美好的世界

發(fā)展人工智能的動(dòng)機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代人工智能時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)一直很明確:人工智能必須增強(qiáng)人類的能力,而非取而代之。

多年來,我一直致力于使人工智能的開發(fā)、部署和治理與人類的需求保持一致。如今,關(guān)于技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有一種更為務(wù)實(shí)的觀點(diǎn):人工智能由人開發(fā),為人所用,并由人治理。它必須始終尊重人的能動(dòng)性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力,讓我們更有創(chuàng)造力、更能互聯(lián)、更有效率、更有成就感。

空間智能代表了這一愿景——人工智能賦能人類的創(chuàng)造者、照護(hù)者、科學(xué)家和夢(mèng)想家,去實(shí)現(xiàn)曾經(jīng)的不可能。正是這一信念,驅(qū)動(dòng)著我將空間智能作為人工智能下一個(gè)偉大疆界的承諾。

空間智能的應(yīng)用橫跨不同的時(shí)間線。創(chuàng)意工具正于此刻涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到了創(chuàng)造者和故事講述者的手中。隨著我們不斷完善感知與行動(dòng)之間的循環(huán),機(jī)器人技術(shù)代表了一個(gè)雄心勃勃的中期目標(biāo)。而最具變革性的科學(xué)應(yīng)用將需要更長的時(shí)間,但它們有望對(duì)人類的繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時(shí)間線中,有幾個(gè)領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠(yuǎn)非一個(gè)團(tuán)隊(duì)或一家公司所能實(shí)現(xiàn)。它需要整個(gè) AI 生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——共同為一個(gè)共同的愿景而努力。但這個(gè)愿景值得我們?nèi)プ非蟆?/p>

以下是這個(gè)未來所包含的內(nèi)容:

創(chuàng)造力:為敘事和沉浸式體驗(yàn)注入超能力

“創(chuàng)造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠(yuǎn)在書面語言出現(xiàn)之前,人類就在講述故事——將它們畫在洞穴墻壁上,代代相傳,在共同的敘事之上建立起整個(gè)文化。故事是我們理解世界、跨越時(shí)空建立聯(lián)系、探索人性意義的方式,最重要的是,是我們尋找生命意義和內(nèi)心之愛的方式。今天,空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴(kuò)展到教育,從設(shè)計(jì)延伸到建筑。

World Labs 的 Marble 平臺(tái)將為電影制作人、游戲設(shè)計(jì)師、建筑師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速創(chuàng)建和迭代可完全探索的三維世界,而無需傳統(tǒng)三維設(shè)計(jì)軟件的繁重負(fù)擔(dān)。創(chuàng)造行為本身依然如故,充滿活力且富有人性;人工智能工具只是放大并加速了創(chuàng)造者所能達(dá)成的成就。這包括:

  • 新維度的敘事體驗(yàn): 電影制作人和游戲設(shè)計(jì)師正在使用Marble來構(gòu)想完整的世界,而不受預(yù)算或地理位置的限制,探索在傳統(tǒng)制作流程中難以實(shí)現(xiàn)的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種融合了藝術(shù)、模擬和游戲的全新互動(dòng)體驗(yàn)——個(gè)性化的世界,其中任何人,而不僅僅是工作室,都可以創(chuàng)造并棲居于自己的故事之中。隨著將概念和故事板提升為完整體驗(yàn)的更新、更快捷的方式的出現(xiàn),敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無數(shù)的界面和平臺(tái)上,構(gòu)建擁有共同主線貫穿的世界。

  • 通過設(shè)計(jì)實(shí)現(xiàn)空間敘事:基本上,每一個(gè)制造出來的物體或建造出的空間,在其實(shí)體化之前都必須在虛擬三維環(huán)境中進(jìn)行設(shè)計(jì)。這個(gè)過程迭代性強(qiáng),且在時(shí)間和金錢上都成本高昂。有了具備空間智能的模型,建筑師可以在投入數(shù)月進(jìn)行設(shè)計(jì)之前快速構(gòu)想結(jié)構(gòu),漫步于尚不存在的空間之中——這本質(zhì)上是在講述我們未來可能如何生活、工作和聚集的故事。工業(yè)設(shè)計(jì)師和時(shí)尚設(shè)計(jì)師可以瞬間將想象轉(zhuǎn)化為形態(tài),探索物體如何與人體和空間互動(dòng)。

  • 全新的沉浸式和互動(dòng)體驗(yàn):體驗(yàn)本身,是我們這個(gè)物種創(chuàng)造意義最深刻的方式之一。在整個(gè)人類歷史中,只有一個(gè)單一的三維世界:我們共同生活的這個(gè)物理世界。直到近幾十年,通過游戲和早期的虛擬現(xiàn)實(shí)(VR),我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么?,F(xiàn)在,空間智能與VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯、沉浸式顯示器等新形態(tài)設(shè)備相結(jié)合,以前所未有的方式提升了這些體驗(yàn)。我們正邁向一個(gè)未來,在那里,步入一個(gè)完全實(shí)現(xiàn)的多維世界,將變得像打開一本書一樣自然??臻g智能讓世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊(duì)的工作室的專利,而是面向個(gè)人創(chuàng)作者、教育者以及任何有愿景希望分享的人。

機(jī)器人技術(shù):行動(dòng)中的具身智能

從昆蟲到人類,動(dòng)物都依賴空間智能來理解、導(dǎo)航并與它們的世界互動(dòng)。機(jī)器人也不例外。自該領(lǐng)域誕生之初,擁有空間感知能力的機(jī)器就一直是人們的夢(mèng)想,這也包括我和我的學(xué)生及合作者在斯坦福研究實(shí)驗(yàn)室的工作。這也是為什么我對(duì)利用World Labs正在構(gòu)建的這類模型來實(shí)現(xiàn)這一可能性感到如此興奮。

  • 通過世界模型規(guī)?;瘷C(jī)器人學(xué)習(xí): 機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個(gè)可行的、可規(guī)?;挠?xùn)練數(shù)據(jù)解決方案。考慮到機(jī)器人需要學(xué)習(xí)理解、推理、規(guī)劃和互動(dòng)的可能性狀態(tài)空間極其巨大,許多人推測,需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及對(duì)人類演示的真實(shí)世界捕捉,才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語言模型不同,當(dāng)今的機(jī)器人研究缺乏訓(xùn)練數(shù)據(jù)。世界模型將在此扮演決定性角色。隨著它們感知保真度和計(jì)算效率的提高,世界模型的輸出可以迅速彌合模擬與現(xiàn)實(shí)之間的差距。這反過來將有助于在無數(shù)的狀態(tài)、互動(dòng)和環(huán)境模擬中訓(xùn)練機(jī)器人。

  • 伙伴與協(xié)作者:機(jī)器人作為人類的協(xié)作者,無論是在實(shí)驗(yàn)室工作臺(tái)旁協(xié)助科學(xué)家,還是幫助獨(dú)居老人,都可以補(bǔ)充那些急需更多勞動(dòng)力和生產(chǎn)力的領(lǐng)域。但要做到這一點(diǎn),需要機(jī)器人具備能夠感知、推理、規(guī)劃和行動(dòng)的空間智能,同時(shí)——這是最重要的——與人類的目標(biāo)和行為保持共情的一致。例如,一個(gè)實(shí)驗(yàn)室機(jī)器人可以處理儀器,讓科學(xué)家專注于需要靈巧性或推理的任務(wù);而一個(gè)家庭助理可以幫助老年人做飯,而不會(huì)削弱他們的樂趣或自主性。能夠預(yù)測下一個(gè)狀態(tài)甚至可能是與這種期望相符的動(dòng)作,這樣真正具備空間智能的世界模型,對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

  • 擴(kuò)展具身形態(tài):人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一定角色。但創(chuàng)新的全部益處將來自更多樣化的設(shè)計(jì):遞送藥物的納米機(jī)器人、穿越狹窄空間的軟體機(jī)器人,以及為深?;蛲馓战ㄔ斓臋C(jī)器。無論其形態(tài)如何,未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運(yùn)動(dòng)。但開發(fā)這些機(jī)器人的一個(gè)關(guān)鍵挑戰(zhàn)是,缺乏適用于這些多種多樣的具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在為這些努力提供模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測試任務(wù)方面發(fā)揮關(guān)鍵作用。

更長遠(yuǎn)的未來:科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將延伸到那些人工智能可以增強(qiáng)人類能力、從而拯救生命和加速發(fā)現(xiàn)的領(lǐng)域。我將在下面重點(diǎn)介紹三個(gè)具有深度變革潛力的應(yīng)用領(lǐng)域,但毋庸置疑,空間智能的用例在更多行業(yè)中都極為廣闊。

科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn),并行測試假設(shè),并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。通過將多維模擬與真實(shí)世界數(shù)據(jù)收集相結(jié)合,這些工具可以降低計(jì)算門檻,并擴(kuò)展每個(gè)實(shí)驗(yàn)室能夠觀察和理解的范圍。

醫(yī)療健康領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到病床邊的每一個(gè)環(huán)節(jié)。在斯坦福,我和我的學(xué)生及合作者多年來與醫(yī)院、養(yǎng)老機(jī)構(gòu)以及居家患者共事。這段經(jīng)歷讓我確信空間智能在此處的變革潛力。人工智能可以通過多維度建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷,并實(shí)現(xiàn)環(huán)境監(jiān)測系統(tǒng),在不取代治愈所必需的人文關(guān)懷的前提下,為患者和護(hù)理人員提供支持,更不用說機(jī)器人在各種不同場景下幫助我們的醫(yī)護(hù)人員和患者的潛力。

教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體可感,并創(chuàng)造出對(duì)我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代式體驗(yàn)。在人工智能時(shí)代,更快、更有效的學(xué)習(xí)和技能重塑的需求,對(duì)于學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞的運(yùn)作機(jī)制或漫步于歷史事件之中。教師可以獲得通過互動(dòng)環(huán)境進(jìn)行個(gè)性化教學(xué)的工具。從外科醫(yī)生到工程師的專業(yè)人士,都可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域,可能性是無限的,但目標(biāo)始終如一:人工智能應(yīng)增強(qiáng)人類的專業(yè)知識(shí)、加速人類的發(fā)現(xiàn)、并放大人類的關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。


結(jié)語

過去十年見證了人工智能成為一種全球現(xiàn)象,以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的一個(gè)轉(zhuǎn)折點(diǎn)。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,最能激勵(lì)我的,仍然是圖靈 75 年前那個(gè)問題背后的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰(zhàn)而充滿活力。

歷史上第一次,我們有望制造出與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依賴它們作為我們應(yīng)對(duì)最大挑戰(zhàn)的真正伙伴。無論是在實(shí)驗(yàn)室里加速我們對(duì)疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時(shí)刻給予支持,我們正處在一項(xiàng)能夠提升我們最珍視的生活方面的技術(shù)的前沿。這是一個(gè)關(guān)于更深刻、更豐富、更強(qiáng)大的人生的愿景。

在自然界于近五億年前在遠(yuǎn)古動(dòng)物身上釋放出空間智能的第一縷微光之后,我們有幸成為這一代技術(shù)專家中的一員,或許很快就能賦予機(jī)器同樣的能力——并有幸利用這些能力為世界各地的人們謀福祉。我們對(duì)真正智能機(jī)器的夢(mèng)想,若沒有空間智能,將是不完整的。

李飛飛原文鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
安徽29歲開邁巴赫相親,女子主動(dòng)撲上遭拒后爬車頂賴著,網(wǎng)友評(píng)辣眼

安徽29歲開邁巴赫相親,女子主動(dòng)撲上遭拒后爬車頂賴著,網(wǎng)友評(píng)辣眼

糖逗在娛樂
2026-03-07 22:30:03
暴跌94%!霍爾木茲海峽,傳來大消息!高盛突發(fā)警告!

暴跌94%!霍爾木茲海峽,傳來大消息!高盛突發(fā)警告!

證券時(shí)報(bào)
2026-03-07 23:53:44
人倫崩塌,誰在毀掉我們的家庭?

人倫崩塌,誰在毀掉我們的家庭?

青蘋果sht
2026-03-07 05:52:19
大內(nèi)總管被殺,伊朗開始軟化?

大內(nèi)總管被殺,伊朗開始軟化?

西樓飲月
2026-03-07 23:35:57
上帝之女洪宣嬌: “毀掉”太平天國的淫蕩女人

上帝之女洪宣嬌: “毀掉”太平天國的淫蕩女人

年代回憶
2026-03-07 20:05:55
扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

鷹眼Defence
2026-03-07 18:14:39
美國完全沒料到!伊朗大阿亞圖拉全球追殺令,3億教徒裁決特朗普

美國完全沒料到!伊朗大阿亞圖拉全球追殺令,3億教徒裁決特朗普

好賢觀史記
2026-03-07 16:38:35
集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

證券時(shí)報(bào)e公司
2026-03-07 22:27:40
吳京:可能沒有以后了

吳京:可能沒有以后了

視覺志
2026-03-05 10:38:20
全網(wǎng)催開門!上海一小吃店明天開門營業(yè),老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價(jià)

全網(wǎng)催開門!上海一小吃店明天開門營業(yè),老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價(jià)

極目新聞
2026-03-07 18:58:33
全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應(yīng)民生期盼、保障休假權(quán)益、激發(fā)內(nèi)需活力、疏解春運(yùn)壓力

全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應(yīng)民生期盼、保障休假權(quán)益、激發(fā)內(nèi)需活力、疏解春運(yùn)壓力

每日經(jīng)濟(jì)新聞
2026-03-07 16:12:40
一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

娛說瑜悅
2026-03-06 18:13:06
CBA扣籃大賽預(yù)賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級(jí)!

CBA扣籃大賽預(yù)賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級(jí)!

籃球資訊達(dá)人
2026-03-07 22:44:59
海瀾之家被軍隊(duì)設(shè)局坑害?真相到底是什么?

海瀾之家被軍隊(duì)設(shè)局坑害?真相到底是什么?

有牙的兔紙
2026-03-07 15:26:41
特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國家,一個(gè)是越南,一個(gè)是菲律賓

特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國家,一個(gè)是越南,一個(gè)是菲律賓

探索新高度
2026-03-07 23:24:06
鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對(duì)抗均失敗

鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對(duì)抗均失敗

奧拜爾
2026-03-07 21:31:37
特朗普發(fā)表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續(xù)攻擊才實(shí)現(xiàn)的

特朗普發(fā)表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續(xù)攻擊才實(shí)現(xiàn)的

爆角追蹤
2026-03-07 21:09:51
iPhone 18 Pro Max正式定檔,史詩級(jí)升級(jí)全曝光

iPhone 18 Pro Max正式定檔,史詩級(jí)升級(jí)全曝光

小柱解說游戲
2026-03-08 01:46:36
魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

鶴羽說個(gè)事
2026-03-07 18:52:54
足壇一夜動(dòng)態(tài):尤文造4-0慘案,巴薩小勝巴斯克雄獅,曼城擒喜鵲

足壇一夜動(dòng)態(tài):尤文造4-0慘案,巴薩小勝巴斯克雄獅,曼城擒喜鵲

釘釘陌上花開
2026-03-08 06:27:53
2026-03-08 06:51:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2639文章數(shù) 7660關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗啟動(dòng)“真實(shí)承諾4”第27輪軍事行動(dòng)

頭條要聞

伊朗啟動(dòng)“真實(shí)承諾4”第27輪軍事行動(dòng)

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
房產(chǎn)
健康

藝術(shù)要聞

吳冠中:筆墨等于零

教育要聞

新華社消息|教育部部長:將深入開展“校園餐”、教輔征訂等專項(xiàng)治理

手機(jī)要聞

vivo X300 Max真機(jī)曝光,圓形后攝方案

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版