国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李飛飛最新長(zhǎng)文,講述空間智能的前世今生

0
分享至

  李飛飛,剛剛發(fā)布了一篇長(zhǎng)長(zhǎng)長(zhǎng)長(zhǎng)文。

  這篇名為《從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿》的文章,像是一篇關(guān)于世界模型、空間智能的綜述,解釋了空間智能和世界模型的關(guān)系,以及空間智能的應(yīng)用范圍和所處階段。

  

  *她在推特上聲稱(chēng),AI的下一個(gè)前沿領(lǐng)域是空間智能,這項(xiàng)技術(shù)將把視覺(jué)轉(zhuǎn)化為推理,感知轉(zhuǎn)化為行動(dòng),想象轉(zhuǎn)化為創(chuàng)造。

  當(dāng)然,李飛飛此時(shí)發(fā)文,很可能也是為自己創(chuàng)辦的公司 World Labs 造勢(shì)。

  成立于2024年4月的 World Labs,致力于攻克空間智能。它在2024年9月宣布獲得2.3億美元融資,投資者包括 a16z、英偉達(dá)、AMD、英特爾、Hinton、領(lǐng)英創(chuàng)始人 Reid Hoffman、谷歌首席科學(xué)家 Jeff Dean、谷歌前 CEO Eric Schmidt 等一眾大佬。

  一個(gè)多月前——也就是官宣融資一年后,World Labs 推出了空間智能模型 Marble 預(yù)覽版,目前處于限量開(kāi)放階段。

  據(jù)官方介紹,Marble 模型僅憑一張圖片或文本提示就能生成持久存在、可無(wú)限探索的3D世界。

  之前這一方向的代表是谷歌 Genie。在發(fā)布 Marble 時(shí),李飛飛及團(tuán)隊(duì)曾回應(yīng)稱(chēng)自家模型的獨(dú)特之處是能生成永久持續(xù)的“世界”。用戶可以隨時(shí)訪問(wèn)已創(chuàng)建的世界,后續(xù)再次訪問(wèn)時(shí),場(chǎng)景結(jié)構(gòu)、細(xì)節(jié)能完全保持一致,而非短暫的交互體驗(yàn)。

(*一些用Marble生成的場(chǎng)景示例,生成后可以讓用戶進(jìn)行自主探索)

  在這篇最新的長(zhǎng)文中,李飛飛強(qiáng)調(diào)的空間智能核心觀點(diǎn)如下:

  真正具有空間智能的世界模型必須實(shí)現(xiàn)的框架:它能像講故事的人一樣進(jìn)行創(chuàng)作,像急救人員一樣流暢地進(jìn)行導(dǎo)航,并以科學(xué)的精確性進(jìn)行空間推理。

  大語(yǔ)言模型已經(jīng)從研究實(shí)驗(yàn)室走向日常生活。然而,它們?nèi)匀荒苎陨妻q卻缺乏經(jīng)驗(yàn),知識(shí)淵博卻缺乏實(shí)際經(jīng)驗(yàn)??臻g智能將徹底改變?nèi)藗儎?chuàng)造和與現(xiàn)實(shí)世界及虛擬世界互動(dòng)的方式。也就是革新故事講述、創(chuàng)造力、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。

  解鎖空間智能的核心在于開(kāi)發(fā)世界模型。這些模型必須應(yīng)對(duì)與語(yǔ)言模型截然不同的挑戰(zhàn),如必須生成符合物理定律、空間一致的世界,處理從圖像到動(dòng)作的多模態(tài)輸入,并預(yù)測(cè)這些世界如何隨時(shí)間演變或如何被交互。

  空間智能的應(yīng)用范圍十分廣泛。首先是創(chuàng)意工具正在涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這類(lèi)功能賦予創(chuàng)作者和故事講述者。另外,隨著感知與行動(dòng)之間的聯(lián)系不斷完善,機(jī)器人也是一個(gè)雄心勃勃的中期發(fā)展方向,但最具變革性的科學(xué)應(yīng)用需要更長(zhǎng)時(shí)間才能實(shí)現(xiàn)。

  李飛飛還披露,World Labs 目前在研究新的通用訓(xùn)練算法、模型架構(gòu)和空間智能信息提取方式。

  以下是我們整理的全文翻譯,歡迎閱讀。

  1950年,當(dāng)計(jì)算還只是自動(dòng)算術(shù)和簡(jiǎn)單邏輯的同義詞時(shí),艾倫·圖靈(Alan Turing)提出了一個(gè)至今仍引起共鳴的問(wèn)題:機(jī)器能思考嗎?

  圖靈的非凡想象力讓他洞見(jiàn)到了我們今日所見(jiàn)之景:智能或許有朝一日可以被“構(gòu)建”出來(lái),而非與生俱來(lái)。這一洞見(jiàn)催生了一場(chǎng)名為“人工智能”的、永不停歇的科學(xué)探索。

  在我投身AI領(lǐng)域的25年職業(yè)生涯中,圖靈的愿景始終是我的靈感源泉。但我們距離那個(gè)愿景還有多近?答案并不簡(jiǎn)單。

  如今,以大型語(yǔ)言模型(LLMs)為首的AI技術(shù)已經(jīng)開(kāi)始改變我們獲取和使用抽象知識(shí)的方式。然而,它們?nèi)匀皇呛诎抵械摹拔淖纸场?;辭藻華麗卻缺乏經(jīng)驗(yàn),知識(shí)淵博卻不接地氣。

  空間智能將改變我們創(chuàng)造和互動(dòng)的方式,無(wú)論是與真實(shí)世界還是虛擬世界。它將為故事敘述、創(chuàng)造力、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來(lái)革命。

  這,就是AI的下一個(gè)前沿。

  自從我進(jìn)入這個(gè)領(lǐng)域以來(lái),追求視覺(jué)和空間智能就一直是指引我的“北極星”。這就是為什么我花了數(shù)年時(shí)間構(gòu)建ImageNet。它是現(xiàn)代AI誕生的三個(gè)關(guān)鍵要素之一,另外兩個(gè)分別是神經(jīng)網(wǎng)絡(luò)算法和以圖形處理單元(GPU)為代表的現(xiàn)代計(jì)算硬件。

  這也是為什么我在斯坦福大學(xué)的學(xué)術(shù)實(shí)驗(yàn)室在過(guò)去十年中,一直致力于將計(jì)算機(jī)視覺(jué)與機(jī)器人學(xué)習(xí)相結(jié)合。

  同時(shí),這也是為什么我和我的聯(lián)合創(chuàng)始人 Justin Johnson,Christoph Lassner,Ben Mildenhall 在一年多前創(chuàng)立了World Labs:我們希望首次將這種可能性(空間智能)完全實(shí)現(xiàn)。

  在這篇文章中,我將解釋什么是空間智能,它為何重要,以及我們?nèi)绾螛?gòu)建“世界模型”來(lái)解鎖它。

  空間智能:人類(lèi)認(rèn)知的腳手架

  AI領(lǐng)域的熱度前所未有。生成式模型,例如 LLMs已經(jīng)從研究實(shí)驗(yàn)室走向日常生活,成為全球數(shù)十億人激發(fā)創(chuàng)意、提高生產(chǎn)力和溝通交流的工具。

  它們已經(jīng)展示了許多一度被認(rèn)為不可能的能力,能毫不費(fèi)力地生成連貫的文本、堆積如山的代碼、逼真的圖像,甚至短視頻。

  AI是否會(huì)改變世界?這已不再是個(gè)問(wèn)題。無(wú)論用何種合理的定義來(lái)看,它都已經(jīng)改變了世界。

  然而,仍有如此多的目標(biāo)遠(yuǎn)未達(dá)成。

  自動(dòng)駕駛機(jī)器人的愿景仍然引人入勝,但也只是紙上談兵,遠(yuǎn)未成為日常。我們?cè)诩膊≈委?、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域?qū)崿F(xiàn)研究大幅加速的夢(mèng)想,在很大程度上也仍未實(shí)現(xiàn)。

  AI要真正理解并賦能人類(lèi)創(chuàng)造者的這個(gè)承諾也仍然遙不可及。無(wú)論是學(xué)習(xí)分子化學(xué)復(fù)雜概念的學(xué)生、構(gòu)思空間的可視化建筑師、構(gòu)建世界的電影制作人,還是任何尋求完全沉浸式虛擬體驗(yàn)的人,目前也并不能廣泛使用AI完成大部分任務(wù)。

  為什么這些能力依然虛無(wú)縹緲?我們需要探究空間智能是如何進(jìn)化的,以及它是如何塑造我們對(duì)世界的理解的。

  長(zhǎng)期以來(lái),視覺(jué)一直是人類(lèi)智能的基石,但它的力量源于一些更基礎(chǔ)的東西。

  遠(yuǎn)在動(dòng)物能夠筑巢、育幼、用語(yǔ)言交流或建立文明之前,“感知”這一單純的行為就已悄然開(kāi)啟了通往智能的進(jìn)化之旅。這種看似孤立的、從外部世界收集信息(無(wú)論是一縷微光還是觸覺(jué)感知)的能力,在感知與生存之間搭建了一座橋梁,而這座橋梁隨著世代更迭,只會(huì)變得愈發(fā)堅(jiān)固和精細(xì)。

  神經(jīng)元在這座橋梁上層層疊疊地生長(zhǎng),形成了能夠解釋世界、并協(xié)調(diào)生物體與其周?chē)h(huán)境互動(dòng)的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測(cè),感知和行動(dòng)(perception and action)成為了推動(dòng)智能進(jìn)化的核心循環(huán),也是自然界創(chuàng)造我們這類(lèi),這個(gè)集感知、學(xué)習(xí)、思考和行動(dòng)于一身的終極“具身體”的基石。

  空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面,扮演著根本性的角色。

  每一天,我們都依賴(lài)它來(lái)完成最平凡的舉動(dòng):通過(guò)想象保險(xiǎn)杠與路緣之間不斷縮小的間隙來(lái)停放汽車(chē);接住別人從房間另一頭扔過(guò)來(lái)的鑰匙;在擁擠的人行道上穿行而不發(fā)生碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無(wú)需低頭去看。

  在更極端的情況下,消防員在煙霧彌漫、不斷坍塌的建筑物中穿梭,他們需要對(duì)結(jié)構(gòu)的穩(wěn)定性和生還幾率做出瞬時(shí)判斷,并通過(guò)手勢(shì)、肢體語(yǔ)言和一種共享的專(zhuān)業(yè)本能進(jìn)行交流——這種本能是沒(méi)有任何語(yǔ)言可以替代的。嬰幼兒在學(xué)會(huì)說(shuō)話前的數(shù)月乃至數(shù)年里,完全通過(guò)與環(huán)境的嬉戲互動(dòng)來(lái)學(xué)習(xí)這個(gè)世界。

  所有這一切都發(fā)生得如此直觀、自動(dòng),這是一種機(jī)器尚未企及的流暢。

  空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。

  從古至今,故事講述者在他們的腦海中創(chuàng)造出異常豐富的世界,并利用從古老的洞穴壁畫(huà)到現(xiàn)代電影,再到沉浸式視頻游戲等多種視覺(jué)媒介,將這些世界呈現(xiàn)給他人。

  無(wú)論是在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種以空間為基礎(chǔ)的想象力構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基石。在許多行業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)交互環(huán)境的模擬,為工業(yè)設(shè)計(jì)、數(shù)字孿生、機(jī)器人訓(xùn)練等無(wú)數(shù)關(guān)鍵的商業(yè)用例提供了動(dòng)力。

  歷史上充斥著由空間智能扮演核心角色的、定義了文明進(jìn)程的時(shí)刻。

  在古希臘,埃拉托斯特尼(Eratosthenes)將影子轉(zhuǎn)化為幾何學(xué)。在太陽(yáng)直射賽伊尼(Syene)的同一時(shí)刻,他測(cè)得亞歷山大港的太陽(yáng)投下了7度的影子,從而計(jì)算出了地球的周長(zhǎng)。

  哈格里夫斯(Hargreave)的“珍妮紡紗機(jī)”通過(guò)一個(gè)空間上的洞察徹底改變了紡織制造業(yè):將多個(gè)紡錘并排排列在一個(gè)框架中,使得一個(gè)工人能同時(shí)紡制多根紗線,生產(chǎn)效率一舉提升了八倍。

  沃森與克里克(Watson and Crick)通過(guò)物理方式構(gòu)建3D分子模型,不斷擺弄金屬板和電線,直到堿基對(duì)的空間排列“咔嗒”一聲契合到位,才最終發(fā)現(xiàn)了 DNA 的結(jié)構(gòu)。

  在上述每一個(gè)案例中,當(dāng)科學(xué)家和發(fā)明家必須操控物體、將結(jié)構(gòu)可視化以及對(duì)物理空間進(jìn)行推理時(shí)(這些都是無(wú)法僅用文本捕捉的),空間智能推動(dòng)了文明向前邁進(jìn)。

  空間智能正是我們認(rèn)知構(gòu)建所依賴(lài)的腳手架。

  無(wú)論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造,它都在發(fā)揮作用,驅(qū)動(dòng)著我們推理和規(guī)劃。它對(duì)我們與同伴或環(huán)境進(jìn)行言語(yǔ)或物理互動(dòng)的方式也至關(guān)重要。

  我們?nèi)粘5乃季S方式通過(guò)感官感知來(lái)理解這個(gè)復(fù)雜的世界,然后利用一種基于物理和空間術(shù)語(yǔ)的直觀理解來(lái)領(lǐng)悟它的運(yùn)作方式。

  不幸的是,今天的AI還不會(huì)這樣思考。

  誠(chéng)然,過(guò)去幾年我們?nèi)〉昧司薮筮M(jìn)步。多模態(tài)大模型在訓(xùn)練中除了文本數(shù)據(jù),還加入了海量的多媒體數(shù)據(jù),這引入了一些空間意識(shí)的基礎(chǔ)。

  今天的 AI 可以分析圖片,回答相關(guān)問(wèn)題,還能生成高度逼真的圖像和短視頻。并且,通過(guò)傳感器和觸覺(jué)技術(shù)的突破,我們最先進(jìn)的機(jī)器人已經(jīng)開(kāi)始能夠在高度受限的環(huán)境中操縱物體和工具。

  但坦率地說(shuō),AI的空間能力仍遠(yuǎn)未達(dá)到人類(lèi)水平。而且這種局限性很快就會(huì)暴露無(wú)遺。

  最先進(jìn)的多模態(tài)模型在估計(jì)距離、方向和尺寸,或通過(guò)從新角度重新生成物體來(lái)實(shí)現(xiàn)“在腦中”旋轉(zhuǎn)物體方面,幾乎表現(xiàn)得不如隨機(jī)猜測(cè)。它們無(wú)法在迷宮中導(dǎo)航、識(shí)別捷徑或預(yù)測(cè)基本的物理現(xiàn)象。AI生成的視頻,雖然是新生事物也確實(shí)很酷,但往往在幾秒鐘后就會(huì)失去連貫性。

  盡管當(dāng)前最先進(jìn)的AI擅長(zhǎng)閱讀、寫(xiě)作、研究和數(shù)據(jù)中的規(guī)律識(shí)別,但當(dāng)涉及到表征或與物理世界互動(dòng)時(shí),這些模型卻暴露出根本性的局限。

  對(duì)比之下,人們對(duì)世界的看法是整體的——不僅僅是我們正在看什么,還包括萬(wàn)物在空間上如何關(guān)聯(lián)、它意味著什么,以及它為什么重要。通過(guò)想象、推理、創(chuàng)造和互動(dòng)(不僅是描述)來(lái)理解這一切,正是空間智能的力量。

  沒(méi)有它,AI就會(huì)與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。AI將無(wú)法有效地駕駛我們的汽車(chē),無(wú)法引導(dǎo)機(jī)器人在我們的家庭和醫(yī)院中工作,無(wú)法為學(xué)習(xí)和娛樂(lè)創(chuàng)造全新的沉浸式和交互式體驗(yàn),也無(wú)法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)。

  哲學(xué)家維特根斯坦(Wittgenstein)曾寫(xiě)道:“我語(yǔ)言的極限,便是我世界的極限?!?/p>

  我不是哲學(xué)家。但我至少知道,對(duì)AI而言,語(yǔ)言之外,別有洞天。

  空間智能代表著超越語(yǔ)言的前沿。它連接著想象、感知和行動(dòng),并為機(jī)器真正提升人類(lèi)生活開(kāi)啟了無(wú)限可能。

  AI的下一個(gè)十年:構(gòu)建真正的空間智能

  那么,我們?cè)撊绾螛?gòu)建具有空間智能的AI呢?我們?nèi)绾尾拍茏屇P途邆浒@兴固啬崮菢拥囊曈X(jué)推理能力、工業(yè)設(shè)計(jì)師那樣的工程精度、故事講述者那樣的創(chuàng)造想象力,以及急救人員那樣的環(huán)境互動(dòng)流暢度?

  構(gòu)建空間智能AI需要一些比多模態(tài)模型更宏大的東西:世界模型。這種新型的生成模型,理解、推理、生成以及與語(yǔ)義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的世界互動(dòng)能力,遠(yuǎn)非今天的多模態(tài)模型所能及。

  這個(gè)領(lǐng)域尚處在起步階段,實(shí)現(xiàn)世界模型的方法目前有著多種不同的嘗試,有抽象出推理模型的路線,也有通過(guò)視頻生成模型來(lái)進(jìn)行的嘗試。

  World Labs 正是在2024年初基于這一信念成立的:真正有效的基礎(chǔ)方法仍在持續(xù)探索之中,這也會(huì)使世界模型成為未來(lái)十年最具決定性的挑戰(zhàn)。

  在這個(gè)新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的基本原則。對(duì)于空間智能領(lǐng)域下的世界模型,我通過(guò)三個(gè)基本能力來(lái)定義它:

  生成性 (Generative):

  世界模型能夠生成具有感知、幾何和物理一致性的世界。

  同時(shí),這些世界也必須能根據(jù)語(yǔ)義或感知指令,催生出無(wú)窮無(wú)盡、豐富多樣的更多模擬世界。不論是模擬真實(shí)世界的空間,還是想象中的虛擬空間,內(nèi)部都必須同時(shí)在幾何、物理和動(dòng)態(tài)變化上保持一致。

  此外,我相信一個(gè)通用世界模型也必須能夠同時(shí)根據(jù)許多完全不同的條件來(lái)生成一個(gè)統(tǒng)一的、可觀測(cè)的世界。而且最重要的是,這個(gè)世界是連續(xù)的,它的“過(guò)去”必須與它的“未來(lái)”邏輯上連貫。

  多模態(tài) (Multimodal):

  世界模型在設(shè)計(jì)上就是多模態(tài)的。正如動(dòng)物和人類(lèi)一樣,世界模型應(yīng)該能夠處理多種形式的輸入。給定部分信息,無(wú)論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作,世界模型都應(yīng)能預(yù)測(cè)或生成盡可能完整的世界狀態(tài)。

  這要求它既能以真實(shí)視覺(jué)的保真度處理視覺(jué)輸入,又能以同等的能力解釋語(yǔ)義指令。這種能力使智能體和人類(lèi)都能通過(guò)多樣化的輸入與模型和這個(gè)世界交流。反過(guò)來(lái),它們也能接收多樣化的輸出。

  交互性 (Interactive):

  世界模型能根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)。

  如果“動(dòng)作”、“目標(biāo)”是輸入到世界模型中的一部分,那么模型的輸出必須包含這個(gè)世界的“下一個(gè)狀態(tài)”,無(wú)論這種狀態(tài)是看不見(jiàn)的,還是看得見(jiàn)的。

  隨著空間智能的世界模型在推理和生成能力方面變得更加強(qiáng)大,可以預(yù)見(jiàn),在給定目標(biāo)的情況下,世界模型本身不僅能預(yù)測(cè)世界的下一個(gè)狀態(tài),還能基于這個(gè)新?tīng)顟B(tài)預(yù)測(cè)出“再接下來(lái)的動(dòng)作和狀態(tài)”。

  這項(xiàng)挑戰(zhàn)的范圍超過(guò)了AI以往面臨的任何挑戰(zhàn)。

  語(yǔ)言純粹是人類(lèi)認(rèn)知的一種生成現(xiàn)象,而“世界”所遵循的規(guī)則要復(fù)雜得多。例如,在地球上,重力支配著運(yùn)動(dòng),原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無(wú)數(shù)的物理定律約束著每一次互動(dòng)。即使是最奇幻、最有創(chuàng)意的世界,也是由空間物體和智能體組成的,它們同樣遵守著定義它們自身的物理定律和動(dòng)態(tài)行為。

  要將含義一致性、幾何一致性、物理規(guī)律一致性都同時(shí)滿足,需要全新的方法。一個(gè)世界的表征維度,遠(yuǎn)比語(yǔ)言這種一維、時(shí)序性的信號(hào)復(fù)雜得多。

  要實(shí)現(xiàn)世界模型,使其具備我們?nèi)祟?lèi)所有的通用能力,需要克服幾個(gè)艱巨的技術(shù)障礙。

  在World Labs,我們的研究團(tuán)隊(duì)正致力于朝著這個(gè)目標(biāo)取得基礎(chǔ)性進(jìn)展。

  以下是我們當(dāng)前研究課題的一些例子:

  一個(gè)新的、通用的訓(xùn)練任務(wù)函數(shù):長(zhǎng)期以來(lái),世界模型研究的核心目標(biāo)之一,就是定義一個(gè)像 LLM 中的“預(yù)測(cè)下一個(gè)詞”那樣簡(jiǎn)潔優(yōu)雅的通用任務(wù)函數(shù)。然而,世界模型輸入和輸出的復(fù)雜性,使得構(gòu)建此類(lèi)函數(shù)本質(zhì)上更加困難。

  大規(guī)模訓(xùn)練數(shù)據(jù):訓(xùn)練世界模型所需的數(shù)據(jù),遠(yuǎn)比文本模型要復(fù)雜得多。好消息是:海量的數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)中規(guī)模龐大的圖像和視頻就是豐富、可及的訓(xùn)練材料,挑戰(zhàn)在于開(kāi)發(fā)出能從這些二維圖像或視頻幀信號(hào)中提取更深層空間信息的算法。

  過(guò)去十年的研究已經(jīng)揭示了語(yǔ)言模型中數(shù)據(jù)量與模型規(guī)模之間的 Scaling Law 的力量,而世界模型的關(guān)鍵突破點(diǎn),在于構(gòu)建能夠利用同等規(guī)?,F(xiàn)有視覺(jué)數(shù)據(jù)的架構(gòu)。

  此外,我不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及深度、觸覺(jué)等額外模態(tài)信息的力量。它們?cè)谟?xùn)練過(guò)程的關(guān)鍵步驟中為互聯(lián)網(wǎng)的數(shù)據(jù)提供了補(bǔ)充。但是,這依賴(lài)于更好的傳感器系統(tǒng)、更魯棒的信號(hào)提取算法,以及遠(yuǎn)比現(xiàn)在更強(qiáng)大的神經(jīng)模擬方法。

  新的模型架構(gòu)和表征學(xué)習(xí):世界模型的研究將不可免地推動(dòng)模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前的多模態(tài)大模型和“視頻擴(kuò)散”范式。

  它們通常將數(shù)據(jù)“詞元化”(tokenize)為一維或二維序列,這使得簡(jiǎn)單的空間任務(wù)變得異常困難。比如在短視頻中統(tǒng)計(jì)不同椅子的數(shù)量,或者記住一個(gè)小時(shí)前房間的樣子。

  替代性的架構(gòu)可能會(huì)有所幫助,例如用于詞元化、上下文和記憶的“感知3D或4D”的方法。舉個(gè)例子,在 World Labs,我們最近關(guān)于一個(gè)名為 RTFM 的實(shí)時(shí)生成式幀基模型(Real-Time Generative Frame-based Model)的研究就展示了這種轉(zhuǎn)變。該模型使用“空間定位的幀”(spatially-grounded frames)作為一種空間記憶形式,以實(shí)現(xiàn)高效的實(shí)時(shí)生成,同時(shí)在所生成的世界中保持物體的持久性。

  顯然,在通過(guò)世界建模來(lái)完全解鎖空間智能之前,我們?nèi)匀幻媾R著令人生畏的挑戰(zhàn)。這項(xiàng)研究不僅僅是一次理論演習(xí),還是一種新型創(chuàng)意和生產(chǎn)力工具的核心引擎。

  World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近向有限數(shù)量的用戶分享了 Marble 的驚鴻一瞥。這是有史以來(lái)第一個(gè)世界模型,它可以通過(guò)多模態(tài)輸入進(jìn)行提示,為用戶和故事講述者生成并維護(hù)一致的3D環(huán)境,以供他們?cè)趧?chuàng)意工作流中探索、互動(dòng)和進(jìn)一步構(gòu)建。我們正努力使它盡快向公眾開(kāi)放。

  Marble 只是我們創(chuàng)造一個(gè)真正具有空間智能的世界模型的第一步。隨著進(jìn)展的加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開(kāi)始認(rèn)識(shí)到它的潛力,下一代世界模型將使機(jī)器能夠在全新層面上獲得空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)仍普遍缺乏的關(guān)鍵能力。

  使用世界模型構(gòu)建更美好的世界

  發(fā)展AI的動(dòng)機(jī)至關(guān)重要,作為幫助開(kāi)啟了現(xiàn)代AI時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)始終明確:AI必須增強(qiáng)人類(lèi)能力,而不是取而代之。

  多年來(lái),我一直致力于使AI的開(kāi)發(fā)、部署和治理與人類(lèi)的需求保持一致。如今,技術(shù)烏托邦和末日啟示錄的極端敘事比比皆是,但我始終持有一種更務(wù)實(shí)的觀點(diǎn):AI由人開(kāi)發(fā),為人所用,并受人治理。它必須始終尊重人的能動(dòng)性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力,使我們更有創(chuàng)造力、聯(lián)系更緊密、更有效率、更感充實(shí)。

  空間智能代表了這一愿景:AI賦能人類(lèi)的創(chuàng)造者、看護(hù)者、科學(xué)家和夢(mèng)想家,去實(shí)現(xiàn)那些曾經(jīng)遙不可及的成就。正是這一信念,驅(qū)動(dòng)著我將空間智能作為AI下一個(gè)偉大前沿的承諾。

  空間智能的應(yīng)用橫跨不同的時(shí)間段。創(chuàng)意工具正于當(dāng)下涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到了創(chuàng)造者和故事講述者手中。機(jī)器人技術(shù)代表了一個(gè)雄心勃勃的中期圖景,我們正在不斷完善感知與行動(dòng)之間的循環(huán)。而最具變革性的科學(xué)應(yīng)用將需要更長(zhǎng)的時(shí)間,但它們有望對(duì)人類(lèi)的繁榮產(chǎn)生深遠(yuǎn)的影響。

  所有這些圖景中,有幾個(gè)領(lǐng)域因其重塑人類(lèi)能力的潛力而脫穎而出。這需要巨大的集體努力,非單個(gè)團(tuán)隊(duì)或公司所能企及。

  這個(gè)愿景值得追求。以下是這個(gè)未來(lái)所包含的內(nèi)容:

  1. 創(chuàng)意:為故事敘述和沉浸式體驗(yàn)注入超能力

  “創(chuàng)造力是智能在享樂(lè)?!?這是我最喜歡的偉人——愛(ài)因斯坦的名言之一。

  故事,是我們理解世界的方式,是我們跨越距離和時(shí)間建立聯(lián)系的方式,是我們探索生而為人的意義的方式,最重要的是,是我們尋找生命意義和內(nèi)心中“愛(ài)”的方式。

  今天,空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式,這種方式既尊重其根本的重要性,也將其影響力從娛樂(lè)擴(kuò)展到教育,從設(shè)計(jì)延伸到建筑。

  World Labs 的 Marble 平臺(tái)將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計(jì)師、建筑師和各類(lèi)故事講述者手中,允許他們快速創(chuàng)建和迭代可完全探索的3D世界,而無(wú)需背負(fù)傳統(tǒng)3D設(shè)計(jì)軟件的沉重負(fù)擔(dān)。

  創(chuàng)造性行為本身一如既往地至關(guān)重要且富有人性,AI工具只是放大和加速了創(chuàng)造者所能達(dá)成的成就。這包括:

  新維度的敘事體驗(yàn):電影制作人和游戲設(shè)計(jì)師正在使用 Marble 來(lái)構(gòu)想完整的世界,而不受預(yù)算或地理位置的限制,探索那些在傳統(tǒng)制作流程中難以企及的各種場(chǎng)景和視角。

  隨著不同形式的媒體和娛樂(lè)之間的界限日益模糊,我們正在接近一種融合了藝術(shù)、模擬和游戲的全新互動(dòng)體驗(yàn)。

  在這個(gè)性化的世界里,任何人,而不僅僅是工作室,都可以創(chuàng)造和棲居于自己的故事中。隨著將概念和故事板提升為完整體驗(yàn)的更新、更快捷的方式的出現(xiàn),敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無(wú)數(shù)的界面和平臺(tái)上構(gòu)建具有共同主線的世界。

  通過(guò)設(shè)計(jì)實(shí)現(xiàn)空間敘事:幾乎每一個(gè)物體或建筑在被創(chuàng)造之前,都必須在虛擬3D環(huán)境中進(jìn)行設(shè)計(jì)。這個(gè)過(guò)程通常迭代次數(shù)極多,且耗時(shí)耗錢(qián)。

  有了空間智能模型,建筑師可以在投入數(shù)月反復(fù)進(jìn)行設(shè)計(jì)修改之前,快速地先將結(jié)構(gòu)可視化出來(lái)。工業(yè)設(shè)計(jì)師和時(shí)裝設(shè)計(jì)師可以將想象力瞬間轉(zhuǎn)化為具象化的形式,探索物體如何與人體和空間互動(dòng)。

  全新的沉浸式和交互式體驗(yàn):“體驗(yàn)”本身是人類(lèi)創(chuàng)造意義最深刻的方式之一。在整個(gè)人類(lèi)歷史中,只存在一個(gè)唯一的3D世界:我們共同生活的這個(gè)物理世界。僅僅在近幾十年,通過(guò)游戲和早期的虛擬現(xiàn)實(shí),我們才得以一窺分享我們自己創(chuàng)造的“另類(lèi)世界”意味著什么。

  2. 機(jī)器人:具身智能在行動(dòng)

  無(wú)論昆蟲(chóng)還是人類(lèi),動(dòng)物都在憑借空間智能感知環(huán)境、規(guī)劃路徑、維系與世界的互動(dòng),機(jī)器人同樣遵循這一邏輯。

  自這個(gè)領(lǐng)域誕生以來(lái),創(chuàng)造出擁有空間感知能力的機(jī)器一直是個(gè)夢(mèng)想。這也包括我與我的學(xué)生和合作者在斯坦福研究實(shí)驗(yàn)室所做的工作。這也是為什么我對(duì)使用 World Labs 正在構(gòu)建的模型來(lái)實(shí)現(xiàn)機(jī)器人落地如此興奮。

  通過(guò)世界模型擴(kuò)展機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展,取決于一個(gè)可擴(kuò)展的、可行的訓(xùn)練數(shù)據(jù)解決方案。鑒于機(jī)器人必須學(xué)會(huì)理解、推理、規(guī)劃和互動(dòng)的可能性狀態(tài)空間(state spaces)極其龐大,許多人推測(cè),需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實(shí)世界的人類(lèi)演示捕捉,才能真正創(chuàng)造出可泛化的機(jī)器人。

  但與語(yǔ)言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)極其稀缺。世界模型將在這方 面扮演決定性角色。隨著世界模型在感知保真度和計(jì)算效率上的提升,其輸出可以迅速縮小模擬與現(xiàn)實(shí)之間的差距。這將有助于在模擬無(wú)數(shù)狀態(tài)、互動(dòng)和環(huán)境的情況下,訓(xùn)練機(jī)器人。

  伙伴與合作者:機(jī)器人作為人類(lèi)的合作者,無(wú)論是在實(shí)驗(yàn)臺(tái)旁協(xié)助科學(xué)家,還是在獨(dú)居老人的家中提供幫助,都可以在急需更多勞動(dòng)力的領(lǐng)域解決部分問(wèn)題。要做到這一點(diǎn)就需要空間智能。最重要的是,機(jī)器人要在情感上與人類(lèi)的目標(biāo)和行為保持一致。

  例如,實(shí)驗(yàn)室機(jī)器人可以處理儀器,以便科學(xué)家可以專(zhuān)注于需要靈巧性或推理的任務(wù);而家庭助理可以幫助老年人做飯,同時(shí)不減少他們的樂(lè)趣或自主權(quán)。能夠預(yù)測(cè)下一個(gè)狀態(tài)、甚至可能預(yù)測(cè)出符合這種期望的動(dòng)作的、真正具有空間智能的世界模型,對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

  擴(kuò)展具身形態(tài):人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一定的角色,但創(chuàng)新的更多益處將來(lái)自大量多樣化的設(shè)計(jì)。比如,遞送藥物的納米機(jī)器人、在狹窄空間中穿行的軟體機(jī)器人,以及專(zhuān)為深海或外太空而造的機(jī)器。無(wú)論它們形態(tài)如何,未來(lái)的空間智能模型都必須整合這些機(jī)器人所在的外部環(huán)境,以及機(jī)器人自身的感知和運(yùn)動(dòng)。

  但在開(kāi)發(fā)這些機(jī)器人時(shí),一個(gè)關(guān)鍵挑戰(zhàn)是缺乏適用于這些多種多樣具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測(cè)試任務(wù)方面為這些努力發(fā)揮關(guān)鍵作用。

  3. 更長(zhǎng)遠(yuǎn)的圖景:科學(xué)、醫(yī)療和教育

  除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將擴(kuò)展到那些AI可以增強(qiáng)人類(lèi)能力、拯救生命和加速發(fā)現(xiàn)的領(lǐng)域。

  我在此重點(diǎn)介紹三個(gè)具有深度變革潛力的應(yīng)用領(lǐng)域,但毋庸置疑,空間智能的落地在更多行業(yè)中都將是極其廣泛的。

  在科學(xué)研究中,空間智能系統(tǒng)可以模擬實(shí)驗(yàn),并行測(cè)試科學(xué)猜想,并探索人類(lèi)無(wú)法到達(dá)的極端環(huán)境。通過(guò)結(jié)合多維模擬的數(shù)據(jù)與現(xiàn)實(shí)世界的真實(shí)數(shù)據(jù),空間智能可以降低實(shí)驗(yàn)門(mén)檻,擴(kuò)展每個(gè)實(shí)驗(yàn)室所能觀察和測(cè)試的極限范圍。

  在醫(yī)療保健領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到床旁的一切。在斯坦福,我的學(xué)生、合作者和我花了多年時(shí)間與醫(yī)院、老年護(hù)理機(jī)構(gòu)和居家患者合作。這段經(jīng)歷使我確信空間智能在這里的變革潛力。

  AI可以通過(guò)多維度建模分子互動(dòng)來(lái)加速藥物發(fā)現(xiàn);通過(guò)幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)規(guī)律來(lái)增強(qiáng)診斷能力;建立一個(gè)“環(huán)境監(jiān)測(cè)系統(tǒng)”,給護(hù)理人員提供支持。

  在教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體有形,并創(chuàng)造對(duì)我們大腦和身體學(xué)習(xí)方式至關(guān)重要的體驗(yàn)。學(xué)生可以在虛擬空間中探索生物結(jié)構(gòu),教師可以通過(guò)創(chuàng)造交互式的環(huán)境來(lái)更好的教學(xué)。

  在所有這些領(lǐng)域,可能性是無(wú)窮無(wú)盡的,但目標(biāo)始終如一:AI應(yīng)增強(qiáng)人類(lèi)專(zhuān)長(zhǎng),加速人類(lèi)發(fā)現(xiàn),并放大人類(lèi)關(guān)懷——而不是取代作為人類(lèi)核心的判斷力、創(chuàng)造力和同理心。

  結(jié)論

  在過(guò)去十年中,AI已成為一種全球現(xiàn)象,也是技術(shù)、經(jīng)濟(jì)乃至地緣政治的拐點(diǎn)。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,75年前圖靈提出的那個(gè)問(wèn)題,“機(jī)器能思考嗎?”背后的精神,仍然最能激勵(lì)我。我仍然分享著他那份好奇感。正是這份好奇感,讓我每一天都為空間智能這一挑戰(zhàn)而充滿活力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
貴州省2名縣處級(jí)干部接受紀(jì)律審查、監(jiān)察調(diào)查

貴州省2名縣處級(jí)干部接受紀(jì)律審查、監(jiān)察調(diào)查

貴陽(yáng)網(wǎng)
2026-04-16 11:06:12
股價(jià)大漲8%!成本僅為英偉達(dá)1/10,特斯拉AI5芯片流片!雙芯性能對(duì)標(biāo)Blackwell!

股價(jià)大漲8%!成本僅為英偉達(dá)1/10,特斯拉AI5芯片流片!雙芯性能對(duì)標(biāo)Blackwell!

新浪財(cái)經(jīng)
2026-04-16 08:40:21
三峽大壩收支出爐:運(yùn)行20多年,總投資近2500億,如今回本了嗎?

三峽大壩收支出爐:運(yùn)行20多年,總投資近2500億,如今回本了嗎?

巢客HOME
2026-04-16 09:35:03
東方衛(wèi)視首播!42集諜戰(zhàn)大劇來(lái)襲,全劇實(shí)力派,不看太可惜了!

東方衛(wèi)視首播!42集諜戰(zhàn)大劇來(lái)襲,全劇實(shí)力派,不看太可惜了!

手工制作阿殲
2026-04-16 09:57:17
美國(guó)恢復(fù)制裁,俄外長(zhǎng)來(lái)華面談,王毅講出7個(gè)字,給中俄關(guān)系定調(diào)

美國(guó)恢復(fù)制裁,俄外長(zhǎng)來(lái)華面談,王毅講出7個(gè)字,給中俄關(guān)系定調(diào)

起喜電影
2026-04-16 11:11:36
菲律賓政壇炸鍋:副總統(tǒng)不到一天花光巨款,舉報(bào)人稱(chēng)“分給三人”

菲律賓政壇炸鍋:副總統(tǒng)不到一天花光巨款,舉報(bào)人稱(chēng)“分給三人”

云景侃記
2026-04-16 11:44:25
拉夫羅夫訪華任務(wù)曝光,中俄聯(lián)手對(duì)西方亮劍,普京的計(jì)劃已成現(xiàn)實(shí)

拉夫羅夫訪華任務(wù)曝光,中俄聯(lián)手對(duì)西方亮劍,普京的計(jì)劃已成現(xiàn)實(shí)

頭條爆料007
2026-04-16 09:05:34
“半價(jià)理想L9”真來(lái)了!長(zhǎng)超5米2,預(yù)計(jì)僅售25萬(wàn),零跑D19今日上市

“半價(jià)理想L9”真來(lái)了!長(zhǎng)超5米2,預(yù)計(jì)僅售25萬(wàn),零跑D19今日上市

隔壁說(shuō)車(chē)?yán)贤?/span>
2026-04-16 07:32:50
霍爾木茲海峽一封鎖,全球才發(fā)現(xiàn)中國(guó)藏了三十年的底牌

霍爾木茲海峽一封鎖,全球才發(fā)現(xiàn)中國(guó)藏了三十年的底牌

愛(ài)爾愛(ài)電影
2026-04-14 20:42:44
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
內(nèi)娛最好命闊太: 住億萬(wàn)豪宅, 一頓飯賺7000萬(wàn), 被老公寵愛(ài)30年!

內(nèi)娛最好命闊太: 住億萬(wàn)豪宅, 一頓飯賺7000萬(wàn), 被老公寵愛(ài)30年!

趣文說(shuō)娛
2026-04-15 21:42:55
中國(guó)向伊朗提供武器?面對(duì)美國(guó)威脅,中國(guó)挑明“必將堅(jiān)決反制”

中國(guó)向伊朗提供武器?面對(duì)美國(guó)威脅,中國(guó)挑明“必將堅(jiān)決反制”

健身狂人
2026-04-16 06:55:26
特朗普只給中國(guó)兩個(gè)選擇,北京毫不遲疑,直接給俄羅斯發(fā)出邀請(qǐng)函

特朗普只給中國(guó)兩個(gè)選擇,北京毫不遲疑,直接給俄羅斯發(fā)出邀請(qǐng)函

通鑒史智
2026-04-16 09:29:51
四川內(nèi)江市資中縣凌晨發(fā)生4.2級(jí)、3.3級(jí)地震

四川內(nèi)江市資中縣凌晨發(fā)生4.2級(jí)、3.3級(jí)地震

界面新聞
2026-04-16 07:11:44
四川內(nèi)江市資中縣發(fā)生4.2級(jí)地震,震源深度9千米

四川內(nèi)江市資中縣發(fā)生4.2級(jí)地震,震源深度9千米

界面新聞
2026-04-16 06:53:17
“你喊那么大聲干嘛?”00后強(qiáng)勢(shì)回懟領(lǐng)導(dǎo),場(chǎng)面一度失控!

“你喊那么大聲干嘛?”00后強(qiáng)勢(shì)回懟領(lǐng)導(dǎo),場(chǎng)面一度失控!

一絲不茍的法律人
2026-04-14 10:37:26
樹(shù)倒猢猻散!峰學(xué)未來(lái)翻天了, 大鵬高調(diào)離職反踩一腳, 張姩菡不忍

樹(shù)倒猢猻散!峰學(xué)未來(lái)翻天了, 大鵬高調(diào)離職反踩一腳, 張姩菡不忍

阿鳧愛(ài)吐槽
2026-04-16 06:07:04
家長(zhǎng)注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢(qián)還坑娃

家長(zhǎng)注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢(qián)還坑娃

番外行
2026-03-27 10:27:39
紅軍過(guò)草地其實(shí)僅用了幾天,巨大非戰(zhàn)斗減員源自哪里?有何隱情?

紅軍過(guò)草地其實(shí)僅用了幾天,巨大非戰(zhàn)斗減員源自哪里?有何隱情?

浩渺青史
2026-04-16 01:06:29
這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學(xué)拍的結(jié)婚照

這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學(xué)拍的結(jié)婚照

喜歡歷史的阿繁
2026-04-11 06:47:10
2026-04-16 12:27:00
四木相對(duì)論 incentive-icons
四木相對(duì)論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

39.98萬(wàn)!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

上海阿姨向親生兒子索要36萬(wàn)"帶孫費(fèi)" 兒子當(dāng)庭喊冤

頭條要聞

上海阿姨向親生兒子索要36萬(wàn)"帶孫費(fèi)" 兒子當(dāng)庭喊冤

體育要聞

WNBA史上最大合同!阿賈3年500萬(wàn)超級(jí)頂薪留隊(duì)

娛樂(lè)要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車(chē)要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

健康
旅游
時(shí)尚
房產(chǎn)
數(shù)碼

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

“帶寵物入園可免門(mén)票” 遼寧一景區(qū)推出免門(mén)票活動(dòng) 游客腦洞大開(kāi) 于是雞、鴨、鵝、羊、孔雀也都來(lái)了

赫本愛(ài)穿的傘裙,好優(yōu)雅!

房產(chǎn)要聞

業(yè)主狂喜!海口二手房?jī)r(jià),終于漲了!

數(shù)碼要聞

創(chuàng)維全品類(lèi)矩陣亮相第139屆廣交會(huì) “AI科技+綠色生態(tài)”雙核驅(qū)動(dòng)品牌出海

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版