国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI教母李飛飛最新長(zhǎng)文:空間智能是AI的下一個(gè)前沿「LLM太局限了,缺乏現(xiàn)實(shí)根基」

0
分享至


剛剛,AI教母、斯坦福大學(xué)教授李飛飛發(fā)表了一篇最新文章《從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿》,這篇文章是李飛飛對(duì)其25年AI生涯的深入思考


李飛飛認(rèn)為,盡管以LLM為代表的AI技術(shù)已深刻改變世界,但它們本質(zhì)上仍是“黑暗中的文字匠”——能言善辯但缺乏經(jīng)驗(yàn),知識(shí)淵博但缺乏現(xiàn)實(shí)根基

要讓AI真正理解并與物理世界互動(dòng),就必須突破語(yǔ)言的限制,邁向空間智能 (Spatial Intelligence)

李飛飛認(rèn)為,空間智能將是AI的下一個(gè)前沿,它將賦能AI,使其擁有故事講述者的想象力、第一反應(yīng)者的行動(dòng)力,以及科學(xué)家的空間推理精度。

為了實(shí)現(xiàn)這一目標(biāo),她提出了構(gòu)建世界模型 的框架,并詳細(xì)闡述了其三大核心能力、面臨的技術(shù)挑戰(zhàn)以及廣闊的應(yīng)用前景

全文:《從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿》

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

1950年,當(dāng)計(jì)算還不過是自動(dòng)化算術(shù)和簡(jiǎn)單邏輯時(shí),艾倫·圖靈提出了一個(gè)至今仍回響不絕的問題:機(jī)器能思考嗎?他所預(yù)見的景象需要非凡的想象力:智能或許有朝一日可以被構(gòu)建,而非與生俱來。這一洞見后來開啟了一場(chǎng)名為人工智能(AI)的不懈科學(xué)探索。在我25年的人工智能生涯中,我依然被圖靈的遠(yuǎn)見所激勵(lì)。但我們離這個(gè)目標(biāo)還有多遠(yuǎn)?答案并不簡(jiǎn)單

今天,以大語(yǔ)言模型(LLM)為代表的頂尖AI技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識(shí)的方式。然而,它們?nèi)匀皇呛诎抵械奈淖纸?;能言善辯但缺乏經(jīng)驗(yàn),知識(shí)淵博但缺乏現(xiàn)實(shí)根基??臻g智能將改變我們創(chuàng)造和與真實(shí)及虛擬世界互動(dòng)的方式——它將徹底革新故事敘述、創(chuàng)造力、機(jī)器人學(xué)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這,就是AI的下一個(gè)前沿。

追求視覺與空間智能,一直是指引我進(jìn)入這個(gè)領(lǐng)域的北極星。正因如此,我花費(fèi)數(shù)年時(shí)間構(gòu)建了ImageNet,這是第一個(gè)大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測(cè)試數(shù)據(jù)集,也是與神經(jīng)網(wǎng)絡(luò)算法和現(xiàn)代計(jì)算(如圖形處理單元GPU)并列的、催生現(xiàn)代AI誕生的三大關(guān)鍵要素之一。正因如此,我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年里一直致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。也正因如此,我和我的聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)辦了World Labs:為了首次全面實(shí)現(xiàn)這一可能性。

在這篇文章中,我將解釋什么是空間智能,它為何重要,以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——其影響力將重塑創(chuàng)造力、具身智能和人類進(jìn)步
空間智能:人類認(rèn)知的腳手架

AI從未如此激動(dòng)人心。像LLM這樣的生成式AI模型已經(jīng)從研究實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展示了曾被認(rèn)為不可能的能力,能夠輕松生成連貫的文本、堆積如山的代碼、逼真的圖像,甚至是短視頻片段。AI是否會(huì)改變世界,已不再是一個(gè)問題。以任何合理的定義來看,它已經(jīng)做到了。

然而,仍有太多領(lǐng)域遙不可及。自主機(jī)器人的愿景依然引人入勝但仍停留在推測(cè)階段,遠(yuǎn)未成為未來學(xué)家長(zhǎng)期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域,大規(guī)模加速研究的夢(mèng)想在很大程度上仍未實(shí)現(xiàn)。而讓AI真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生學(xué)習(xí)分子化學(xué)的復(fù)雜概念,協(xié)助建筑師構(gòu)想空間,輔助電影制作人構(gòu)建世界,還是為任何尋求完全沉浸式虛擬體驗(yàn)的人提供支持——也仍然無法實(shí)現(xiàn)。

要了解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對(duì)世界的理解。

視覺長(zhǎng)期以來一直是人類智能的基石,但其力量源于某種更為根本的東西。早在動(dòng)物能夠筑巢、照顧幼崽、用語(yǔ)言交流或建立文明之前,簡(jiǎn)單的感知行為就已經(jīng)悄然開啟了一段通往智能的演化之旅。

這種看似孤立的、從外部世界收集信息的能力,無論是微光一閃還是質(zhì)感的觸碰,都在感知與生存之間建立了一座橋梁,并且隨著世代更迭,這座橋梁變得越來越堅(jiān)固和精細(xì)。一層又一層的神經(jīng)元從這座橋梁上生長(zhǎng)出來,形成了能夠解釋世界并協(xié)調(diào)生物體與其環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測(cè),感知與行動(dòng)構(gòu)成了驅(qū)動(dòng)智能演化的核心循環(huán),也是自然創(chuàng)造我們這個(gè)物種——感知、學(xué)習(xí)、思考和行動(dòng)的終極體現(xiàn)——的基礎(chǔ)。

空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面扮演著基礎(chǔ)性角色。每一天,我們都依賴它來完成最普通的行為:通過想象保險(xiǎn)杠與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進(jìn)去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建筑中穿行,對(duì)結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會(huì)做出瞬間判斷,通過手勢(shì)、肢體語(yǔ)言和一種無法用語(yǔ)言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在他們能夠說話之前的數(shù)月或數(shù)年里,通過與環(huán)境的嬉戲互動(dòng)來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀而自然——這是機(jī)器尚未達(dá)到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出異常豐富的世界,并利用多種視覺媒介將其呈現(xiàn)給他人,從古代的洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲。無論是孩子們?cè)谏碁┥隙焉潮?,還是在電腦上玩《我的世界》,基于空間的想象力構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在許多工業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)交互環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供了動(dòng)力。

歷史上充滿了空間智能發(fā)揮核心作用、定義文明進(jìn)程的時(shí)刻。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽(yáng)直射賽伊尼城的那一刻,他在亞歷山大城測(cè)量出7度的夾角——從而計(jì)算出地球的周長(zhǎng)。哈格里夫斯的“珍妮紡紗機(jī)”通過一個(gè)空間上的洞察徹底改變了紡織制造業(yè):將多個(gè)紡錘并排布置在一個(gè)框架中,使得一個(gè)工人能同時(shí)紡多根線,生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發(fā)現(xiàn)了DNA的結(jié)構(gòu),他們不斷擺弄金屬片和金屬絲,直到堿基對(duì)的空間排列“咔噠”一聲完美契合。在每一個(gè)案例中,當(dāng)科學(xué)家和發(fā)明家需要操縱物體、構(gòu)想結(jié)構(gòu)并對(duì)物理空間進(jìn)行推理時(shí),空間智能都推動(dòng)了文明的進(jìn)步——這些都無法僅用文字來捕捉。

空間智能是我們認(rèn)知構(gòu)建的腳手架。無論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動(dòng)著我們的推理和規(guī)劃,即使是在最抽象的話題上。它對(duì)于我們互動(dòng)的方式至關(guān)重要——無論是口頭的還是身體的,無論是與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們?nèi)粘5乃伎挤绞脚c他并無二致——通過感官感知復(fù)雜的世界,然后利用一種直觀的、基于物理和空間術(shù)語(yǔ)的理解來領(lǐng)悟其運(yùn)作方式。

不幸的是,今天的AI還不能像這樣思考。

過去幾年確實(shí)取得了巨大進(jìn)步。多模態(tài)大語(yǔ)言模型(MLLM)通過海量的多媒體數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行訓(xùn)練,引入了一些基礎(chǔ)的空間意識(shí),今天的AI可以分析圖片、回答相關(guān)問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人已經(jīng)開始能夠在高度受限的環(huán)境中操縱物體和工具。

然而,坦率地說,AI的空間能力遠(yuǎn)未達(dá)到人類水平。其局限性很快就會(huì)顯現(xiàn)。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉(zhuǎn)物體等任務(wù)上,最先進(jìn)的MLLM模型的表現(xiàn)很少能超過隨機(jī)猜測(cè)。它們無法導(dǎo)航迷宮、識(shí)別捷徑或預(yù)測(cè)基本的物理現(xiàn)象。AI生成的視頻——雖然處于初級(jí)階段,但確實(shí)非常酷——往往在幾秒鐘后就失去連貫性。

雖然當(dāng)前最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識(shí)別方面表現(xiàn)出色,但這些相同的模型在表示或與物理世界互動(dòng)時(shí),卻存在根本性的局限。我們對(duì)世界的看法是整體的——不僅是我們正在看什么,還包括萬(wàn)物在空間上如何關(guān)聯(lián),這意味著什么,以及為何重要。通過想象、推理、創(chuàng)造和互動(dòng)——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效地駕駛我們的汽車,引導(dǎo)我們家庭和醫(yī)院中的機(jī)器人,為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式和互動(dòng)式體驗(yàn),或加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道:“我語(yǔ)言的極限,意味著我世界的極限?!蔽也皇钦軐W(xué)家。但我知道,至少對(duì)AI而言,世界遠(yuǎn)不止于語(yǔ)言??臻g智能代表了超越語(yǔ)言的前沿——這種能力連接了想象、感知和行動(dòng),并為機(jī)器真正提升人類生活開辟了可能性,從醫(yī)療保健到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常輔助。

AI的下一個(gè)十年:構(gòu)建真正具備空間智能的機(jī)器

那么,我們?nèi)绾螛?gòu)建具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進(jìn)行推理,擁有工業(yè)設(shè)計(jì)師的精度進(jìn)行工程設(shè)計(jì),懷揣故事講述者的想象力進(jìn)行創(chuàng)造,并能像第一反應(yīng)者一樣流暢地與環(huán)境互動(dòng)?

構(gòu)建具備空間智能的AI需要比LLM更宏大的目標(biāo):世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語(yǔ)義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的世界(無論是虛擬還是真實(shí))進(jìn)行交互的能力,遠(yuǎn)非當(dāng)今的LLM所能及。這個(gè)領(lǐng)域尚處于起步階段,當(dāng)前的方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs于2024年初成立,正是基于這樣的信念:基礎(chǔ)性方法仍在建立之中,這使其成為未來十年的決定性挑戰(zhàn)。

在這個(gè)新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的原則。對(duì)于空間智能,我通過三個(gè)核心能力來定義世界模型:

1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界

解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語(yǔ)義或感知的指令,同時(shí)在幾何、物理和動(dòng)態(tài)上保持一致——無論其代表的是真實(shí)空間還是虛擬空間。研究界正在積極探索這些世界應(yīng)該以隱式還是顯式的方式來表示其內(nèi)在的幾何結(jié)構(gòu)。此外,除了強(qiáng)大的潛在表示,我相信一個(gè)通用的世界模型,其輸出還必須能夠?yàn)樵S多不同的用例生成一個(gè)明確、可觀察的世界狀態(tài)。特別是,它對(duì)當(dāng)前狀態(tài)的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)——連貫地聯(lián)系在一起。

2.多模態(tài) (Multimodal):世界模型天生就是多模態(tài)的

正如動(dòng)物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為“提示”。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作——世界模型都應(yīng)預(yù)測(cè)或生成盡可能完整的世界狀態(tài)。這要求模型既能以真實(shí)視覺的保真度處理視覺輸入,又能以同等的能力解釋語(yǔ)義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進(jìn)行交流,并反過來接收多樣化的輸出。

3.交互性 (Interactive):世界模型能夠根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)

最后,如果動(dòng)作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包含世界的下一個(gè)狀態(tài),無論是隱式還是顯式表示。當(dāng)只給定一個(gè)動(dòng)作(無論有無目標(biāo)狀態(tài))作為輸入時(shí),世界模型應(yīng)該產(chǎn)生一個(gè)與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如果有的話)及其語(yǔ)義含義、物理定律和動(dòng)態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想見,在給定目標(biāo)的情況下,世界模型本身不僅能預(yù)測(cè)世界的下一個(gè)狀態(tài),還能根據(jù)新狀態(tài)預(yù)測(cè)下一個(gè)動(dòng)作。

這個(gè)挑戰(zhàn)的范圍超過了AI以往面臨的任何挑戰(zhàn)。

雖然語(yǔ)言是人類認(rèn)知中純粹的生成現(xiàn)象,但世界的運(yùn)作規(guī)則要復(fù)雜得多。例如,在地球上,引力支配著運(yùn)動(dòng),原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律約束著每一次互動(dòng)。即使是最奇幻、最有創(chuàng)意的世界,也是由遵循其自身物理定律和動(dòng)態(tài)行為的空間物體和智能體組成的。要將所有這些——語(yǔ)義、幾何、動(dòng)態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表示一個(gè)世界的維度,遠(yuǎn)比表示像語(yǔ)言這樣的一維序列信號(hào)要復(fù)雜得多。要實(shí)現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,需要克服幾個(gè)巨大的技術(shù)障礙。在World Labs,我們的研究團(tuán)隊(duì)正致力于為實(shí)現(xiàn)這一目標(biāo)取得根本性進(jìn)展。

以下是我們當(dāng)前研究課題的一些例子:

一個(gè)新的、通用的訓(xùn)練任務(wù)函數(shù):定義一個(gè)像LLM中的“下一詞元預(yù)測(cè)”一樣簡(jiǎn)潔優(yōu)雅的通用任務(wù)函數(shù),一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性使得這樣一個(gè)函數(shù)在形式化上 inherently more difficult。盡管仍有許多待探索之處,但這個(gè)目標(biāo)函數(shù)和相應(yīng)的表示必須反映幾何和物理定律,尊重世界模型作為想象與現(xiàn)實(shí)的根基表示的根本性質(zhì)。

大規(guī)模訓(xùn)練數(shù)據(jù):訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量的數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可及的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維圖像或視頻幀信號(hào)(即RGB)中提取更深層次空間信息的算法。過去十年的研究已經(jīng)顯示了語(yǔ)言模型中數(shù)據(jù)量和模型大小之間的規(guī)模法則的力量;解鎖世界模型的關(guān)鍵在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及像深度和觸覺信息等額外模態(tài)的力量。它們?cè)谟?xùn)練過程的關(guān)鍵步驟中補(bǔ)充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號(hào)提取算法,以及更強(qiáng)大的神經(jīng)模擬方法。

新的模型架構(gòu)和表示學(xué)習(xí):世界模型研究將不可避免地推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前的MLLM和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列,這使得簡(jiǎn)單的空間任務(wù)——如數(shù)清短視頻中不重復(fù)的椅子數(shù)量,或記住一個(gè)小時(shí)前房間的樣子——變得不必要地困難。替代架構(gòu)可能會(huì)有所幫助,例如用于標(biāo)記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關(guān)于一個(gè)名為RTFM的實(shí)時(shí)生成式基于幀的模型的工作就展示了這種轉(zhuǎn)變,它使用基于空間的幀作為一種空間記憶形式,以實(shí)現(xiàn)高效的實(shí)時(shí)生成,同時(shí)保持生成世界的持久性。

顯然,在通過世界建模完全解鎖空間智能之前,我們?nèi)匀幻媾R著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅僅是理論練習(xí),它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近與少數(shù)用戶分享了Marble的一瞥,這是有史以來第一個(gè)可以通過多模態(tài)輸入提示來生成和維持一致3D環(huán)境的世界模型,供用戶和故事講述者在他們的創(chuàng)意工作流中探索、互動(dòng)和進(jìn)一步構(gòu)建。我們正在努力使其盡快向公眾開放!

Marble只是我們創(chuàng)造一個(gè)真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商界領(lǐng)袖都開始認(rèn)識(shí)到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新的水平上實(shí)現(xiàn)空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)中仍然普遍缺乏的核心能力。

使用世界模型為人們構(gòu)建一個(gè)更美好的世界

發(fā)展AI的動(dòng)機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代AI時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)一直很明確:AI必須增強(qiáng)人類的能力,而不是取代人類。多年來,我一直致力于將AI的開發(fā)、部署和治理與人類需求對(duì)齊。如今,技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有一種更務(wù)實(shí)的觀點(diǎn):AI由人開發(fā),由人使用,由人治理。它必須始終尊重人的能動(dòng)性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力;使我們更有創(chuàng)造力、更緊密連接、更高效、更有成就感。空間智能代表了這一愿景——AI賦能人類創(chuàng)造者、護(hù)理人員、科學(xué)家和夢(mèng)想家,去實(shí)現(xiàn)曾經(jīng)不可能的事情。這一信念驅(qū)動(dòng)著我將空間智能視為AI下一個(gè)偉大前沿的承諾。

空間智能的應(yīng)用橫跨不同的時(shí)間線。創(chuàng)意工具正在涌現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。隨著我們完善感知與行動(dòng)之間的循環(huán),機(jī)器人學(xué)代表了一個(gè)雄心勃勃的中期目標(biāo)。最具變革性的科學(xué)應(yīng)用將需要更長(zhǎng)時(shí)間,但有望對(duì)人類的繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時(shí)間線上,有幾個(gè)領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠(yuǎn)非一個(gè)團(tuán)隊(duì)或一家公司所能實(shí)現(xiàn)。它需要整個(gè)AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——共同努力實(shí)現(xiàn)一個(gè)共同的愿景。但這個(gè)愿景值得追求。以下是這個(gè)未來所包含的內(nèi)容:

創(chuàng)意:為故事敘述和沉浸式體驗(yàn)注入超能力

“創(chuàng)造力是智慧在玩耍?!?這是我個(gè)人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語(yǔ)言出現(xiàn)之前,人類就在講述故事——將它們畫在洞穴墻壁上,代代相傳,在共同的敘事上建立起整個(gè)文化。故事是我們理解世界、跨越時(shí)空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發(fā)現(xiàn)愛。今天,空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴(kuò)展到教育,從設(shè)計(jì)擴(kuò)展到建筑。

World Labs的Marble平臺(tái)將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計(jì)師、建筑師和各類故事講述者的手中,讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界,而無需傳統(tǒng)3D設(shè)計(jì)軟件的開銷。創(chuàng)造性行為仍然像以往一樣至關(guān)重要和人性化;AI工具只是放大和加速了創(chuàng)作者所能達(dá)到的成就。這包括:

新維度的敘事體驗(yàn):電影制作人和游戲設(shè)計(jì)師正在使用Marble來創(chuàng)造完整的世界,而不受預(yù)算或地理位置的限制,探索各種在傳統(tǒng)制作流程中難以處理的場(chǎng)景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動(dòng)體驗(yàn),它融合了藝術(shù)、模擬和游戲——個(gè)性化的世界,其中任何人,而不僅僅是工作室,都可以創(chuàng)造并棲居于自己的故事中。隨著將概念和故事板提升為完整體驗(yàn)的更新、更快捷方式的興起,敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無數(shù)的界面和平臺(tái)上構(gòu)建具有共同主線貫穿的世界。

通過設(shè)計(jì)進(jìn)行空間敘事:基本上,每一個(gè)制造出來的物體或建造的空間,在其實(shí)體創(chuàng)造之前都必須在虛擬3D中進(jìn)行設(shè)計(jì)。這個(gè)過程迭代性強(qiáng),且在時(shí)間和金錢上都成本高昂。有了具備空間智能的模型,建筑師可以在投入數(shù)月進(jìn)行設(shè)計(jì)之前快速可視化結(jié)構(gòu),漫步于尚未存在的空間中——這本質(zhì)上是在講述我們可能如何生活、工作和聚集的故事。工業(yè)和時(shí)尚設(shè)計(jì)師可以立即將想象轉(zhuǎn)化為形式,探索物體如何與人體和空間互動(dòng)。

全新的沉浸式與交互式體驗(yàn):體驗(yàn)本身是我們作為一個(gè)物種創(chuàng)造意義的最深層次的方式之一。在整個(gè)人類歷史上,只有一個(gè)單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過游戲和早期的虛擬現(xiàn)實(shí)(VR),我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么。現(xiàn)在,空間智能與新的設(shè)備形態(tài)(如VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯及沉浸式顯示器)相結(jié)合,以前所未有的方式提升了這些體驗(yàn)。我們正接近一個(gè)未來,在這個(gè)未來中,踏入完全實(shí)現(xiàn)的多維世界將像打開一本書一樣自然。空間智能使世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊(duì)的工作室的專利,而是對(duì)個(gè)人創(chuàng)作者、教育者和任何有愿景分享的人開放。

機(jī)器人:具身智能的實(shí)踐

從昆蟲到人類,動(dòng)物都依賴空間智能來理解、導(dǎo)航和與它們的世界互動(dòng)。機(jī)器人也不例外。具備空間感知能力的機(jī)器自該領(lǐng)域誕生之初就是其夢(mèng)想,這也包括我自己與我的學(xué)生和合作者在斯坦福研究實(shí)驗(yàn)室的工作。這也是為什么我如此興奮于利用World Labs正在構(gòu)建的這類模型來實(shí)現(xiàn)它們的可能性。

通過世界模型擴(kuò)展機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個(gè)可行的訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案??紤]到機(jī)器人必須學(xué)習(xí)去理解、推理、規(guī)劃和互動(dòng)的巨大狀態(tài)空間,許多人推測(cè),需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實(shí)世界的人類演示捕捉,才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語(yǔ)言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計(jì)算效率的提高,世界模型的輸出可以迅速縮小模擬與現(xiàn)實(shí)之間的差距。這反過來將有助于在無數(shù)狀態(tài)、互動(dòng)和環(huán)境的模擬中訓(xùn)練機(jī)器人。

成為伙伴與合作者:機(jī)器人作為人類的合作者,無論是輔助實(shí)驗(yàn)室的科學(xué)家,還是協(xié)助獨(dú)居的老人,都可以擴(kuò)充急需更多勞動(dòng)力和生產(chǎn)力的部分勞動(dòng)力市場(chǎng)。但要做到這一點(diǎn),需要空間智能能夠感知、推理、規(guī)劃和行動(dòng),同時(shí)——這一點(diǎn)最重要——與人類的目標(biāo)和行為保持共情對(duì)齊。例如,一個(gè)實(shí)驗(yàn)室機(jī)器人可以處理儀器,讓科學(xué)家專注于需要靈巧或推理的任務(wù),而一個(gè)家庭助理可以幫助老年人做飯,而不會(huì)削弱他們的快樂或自主性。能夠預(yù)測(cè)與此期望一致的下一個(gè)狀態(tài)甚至可能是下一個(gè)動(dòng)作的、真正具備空間智能的世界模型,對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

擴(kuò)展具身智能的形式:人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一個(gè)角色。但創(chuàng)新的全部好處將來自更多樣化的設(shè)計(jì):運(yùn)送藥物的納米機(jī)器人,在狹窄空間中穿行的軟體機(jī)器人,以及為深海或外太空建造的機(jī)器。無論它們的形式如何,未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運(yùn)動(dòng)。但開發(fā)這些機(jī)器人的一個(gè)關(guān)鍵挑戰(zhàn)是,在這些各種各樣的具身形態(tài)因素中缺乏訓(xùn)練數(shù)據(jù)。世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和這些工作的基準(zhǔn)測(cè)試任務(wù)中發(fā)揮關(guān)鍵作用。

更長(zhǎng)遠(yuǎn)的未來:科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將延伸到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。我下面重點(diǎn)介紹三個(gè)可以帶來深刻變革的應(yīng)用領(lǐng)域,盡管不言而喻,空間智能的用例在更多行業(yè)中都非常廣泛。

科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn),并行測(cè)試假說,并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。通過將多維模擬與真實(shí)世界數(shù)據(jù)收集相結(jié)合,這些工具可以降低計(jì)算門檻,并擴(kuò)展每個(gè)實(shí)驗(yàn)室所能觀察和理解的范圍。

醫(yī)療健康領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到病床的一切。在斯坦福,我的學(xué)生和合作者多年來一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和居家患者合作。這段經(jīng)歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷,并實(shí)現(xiàn)環(huán)境監(jiān)測(cè)系統(tǒng),在不取代治愈所需的人際連接的情況下支持患者和護(hù)理人員,更不用說機(jī)器人在許多不同環(huán)境中幫助我們的醫(yī)護(hù)人員和患者的潛力。

教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體可感,并創(chuàng)造對(duì)于我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代體驗(yàn)。在AI時(shí)代,更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求對(duì)學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞機(jī)制或漫步于歷史事件。教師獲得了通過互動(dòng)環(huán)境進(jìn)行個(gè)性化教學(xué)的工具。專業(yè)人士——從外科醫(yī)生到工程師——可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域中,可能性是無限的,但目標(biāo)始終如一:AI增強(qiáng)人類專長(zhǎng),加速人類發(fā)現(xiàn),并放大人類關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結(jié)論

過去十年見證了AI成為一個(gè)全球現(xiàn)象,以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的轉(zhuǎn)折點(diǎn)。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,最能激勵(lì)我的,仍然是圖靈在75年前提出的那個(gè)問題背后的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰(zhàn)而充滿活力。

歷史上第一次,我們有望構(gòu)建出與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依賴它們作為我們應(yīng)對(duì)所面臨的最大挑戰(zhàn)的真正伙伴。無論是在實(shí)驗(yàn)室中加速我們對(duì)疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時(shí)刻支持我們,我們正處在一個(gè)技術(shù)突破的關(guān)口,這項(xiàng)技術(shù)將提升我們最珍視的生活品質(zhì)。這是一個(gè)關(guān)于更深刻、更豐富、更強(qiáng)大生活的愿景。

在自然界于近五億年前在遠(yuǎn)古動(dòng)物身上釋放出空間智能的第一縷微光之后,我們有幸成為可能很快將同樣能力賦予機(jī)器的那一代技術(shù)人員——并且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關(guān)于真正智能機(jī)器的夢(mèng)想就不會(huì)完整

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新疆生產(chǎn)建設(shè)兵團(tuán):堅(jiān)決擁護(hù)黨中央決定

新疆生產(chǎn)建設(shè)兵團(tuán):堅(jiān)決擁護(hù)黨中央決定

新京報(bào)政事兒
2026-01-09 14:50:48
伊朗實(shí)施網(wǎng)絡(luò)管控

伊朗實(shí)施網(wǎng)絡(luò)管控

財(cái)聯(lián)社
2026-01-09 01:54:04
他是任期最長(zhǎng)的江蘇省長(zhǎng),1967年被奪權(quán),1980年又擔(dān)任江蘇省長(zhǎng)

他是任期最長(zhǎng)的江蘇省長(zhǎng),1967年被奪權(quán),1980年又擔(dān)任江蘇省長(zhǎng)

嘆為觀止易
2026-01-08 15:59:17
丹麥國(guó)防部:若美國(guó)武力奪取格陵蘭島 丹麥?zhǔn)勘伞跋乳_槍再請(qǐng)示”

丹麥國(guó)防部:若美國(guó)武力奪取格陵蘭島 丹麥?zhǔn)勘伞跋乳_槍再請(qǐng)示”

財(cái)聯(lián)社
2026-01-08 14:40:05
美軍公??垩憾碛洼?,俄海軍竟一旁圍觀,這艘船到底是什么來歷?

美軍公??垩憾碛洼?,俄海軍竟一旁圍觀,這艘船到底是什么來歷?

裝甲鏟史官
2026-01-08 14:48:57
可控核聚變領(lǐng)域,國(guó)內(nèi)表現(xiàn)優(yōu)秀的10家公司名單曝光?。ńㄗh收藏)

可控核聚變領(lǐng)域,國(guó)內(nèi)表現(xiàn)優(yōu)秀的10家公司名單曝光?。ńㄗh收藏)

元爸體育
2026-01-09 08:49:12
爆雷百億的浙金受害人,開始回款了

爆雷百億的浙金受害人,開始回款了

鳴金網(wǎng)
2026-01-08 18:54:10
記者:奇才愿與特雷-楊簽3年1.2億美元續(xù)約合同,奇才很歡迎他加盟

記者:奇才愿與特雷-楊簽3年1.2億美元續(xù)約合同,奇才很歡迎他加盟

懂球帝
2026-01-09 08:42:10
活塞傳奇:不理解現(xiàn)在的人對(duì)詹姆斯不屑一顧,反而在追捧喬丹

活塞傳奇:不理解現(xiàn)在的人對(duì)詹姆斯不屑一顧,反而在追捧喬丹

懂球帝
2026-01-09 07:45:44
一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

豐譚筆錄
2026-01-09 07:50:09
醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無法自主呼吸

醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無法自主呼吸

觀威海
2026-01-06 10:46:23
后院徹底起火!丹麥不玩了:美國(guó)若敢動(dòng)格陵蘭,北約就地解散!

后院徹底起火!丹麥不玩了:美國(guó)若敢動(dòng)格陵蘭,北約就地解散!

防務(wù)觀察室
2026-01-06 14:42:25
向殺父嫌犯,索賠1000萬(wàn)

向殺父嫌犯,索賠1000萬(wàn)

中國(guó)新聞周刊
2026-01-09 12:17:57
別墅搜出23件國(guó)寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報(bào)有結(jié)果

別墅搜出23件國(guó)寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報(bào)有結(jié)果

詩(shī)意世界
2026-01-03 15:19:25
格陵蘭發(fā)達(dá)到什么水平?我去了才發(fā)現(xiàn),差距真的太大

格陵蘭發(fā)達(dá)到什么水平?我去了才發(fā)現(xiàn),差距真的太大

娛樂八卦木木子
2026-01-07 15:14:07
感謝邵佳一!李昊最后時(shí)刻3次世界級(jí)撲救:中國(guó)足球真不缺門將

感謝邵佳一!李昊最后時(shí)刻3次世界級(jí)撲救:中國(guó)足球真不缺門將

邱澤云
2026-01-09 01:07:50
最帥護(hù)旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

最帥護(hù)旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

鋭娛之樂
2026-01-09 08:45:21
官媒主動(dòng)下場(chǎng),53歲孟晚舟再掀天花板,讓任正非與整個(gè)商界沉默了

官媒主動(dòng)下場(chǎng),53歲孟晚舟再掀天花板,讓任正非與整個(gè)商界沉默了

牛牛叨史
2026-01-07 13:34:04
中央決定:曲光吉履新職

中央決定:曲光吉履新職

新京報(bào)
2026-01-09 12:22:20
又要?jiǎng)邮至?!特朗普,下一個(gè)目標(biāo)定了!

又要?jiǎng)邮至?!特朗普,下一個(gè)目標(biāo)定了!

新動(dòng)察
2026-01-08 11:40:11
2026-01-09 16:55:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1026文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱若大陸改變臺(tái)灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

頭條要聞

特朗普稱若大陸改變臺(tái)灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

體育要聞

金元時(shí)代最后的外援,來中國(guó)8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬(wàn)科35年:從"寶萬(wàn)之爭(zhēng)"到"活下去"

汽車要聞

英偉達(dá)的野心:做一套自動(dòng)駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

本地
旅游
數(shù)碼
親子
公開課

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩(shī)意的城

旅游要聞

生肖免票刷屏點(diǎn)燃文旅消費(fèi)“第一把火”!各地花式促消費(fèi)背后,產(chǎn)業(yè)加速價(jià)值轉(zhuǎn)型

數(shù)碼要聞

入門獨(dú)顯可以扔了!Intel銳炫B390集顯實(shí)測(cè):《賽博朋克2077》超80FPS

親子要聞

48歲媽媽懷孕7個(gè)月才發(fā)現(xiàn),孩子剛半歲肚子又大了?女兒緊急提問

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版