国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

李飛飛:語言太窄,裝不下三維世界

0
分享至

在AI播客Latent Space近日發(fā)布的一期對(duì)話中,World Labs聯(lián)合創(chuàng)始人李飛飛與Justin Johnson深入探討了"空間智能"這一概念——他們認(rèn)為這將是大語言模型之后AI發(fā)展的下一個(gè)前沿。

李飛飛常被稱為"AI教母",這位斯坦福教授在2006年發(fā)布了ImageNet視覺數(shù)據(jù)庫的學(xué)術(shù)成果,由此開啟了教會(huì)計(jì)算機(jī)像人類一樣"看"的探索,并點(diǎn)燃了一波AI發(fā)展的浪潮。就在三天前的11月24日,思科投資宣布向World Labs注資,李飛飛在聲明中表示:"World Labs只有一個(gè)熱情驅(qū)動(dòng)著我們:推進(jìn)AI以增強(qiáng)人類潛能并創(chuàng)造現(xiàn)實(shí)世界的影響。"


World Labs在2024年9月走出隱身模式時(shí),已獲得2.3億美元融資。如今公司估值已超過10億美元,成為空間智能領(lǐng)域當(dāng)之無愧的領(lǐng)跑者。而這期播客錄制的時(shí)間點(diǎn)恰在Marble正式商業(yè)化發(fā)布之際——Marble是World Labs的第一款商業(yè)化生成式世界模型產(chǎn)品,能夠從文本、照片、視頻或3D布局生成可編輯的3D環(huán)境。

1. 從ImageNet到空間智能:一條跨越十三年的路徑

"當(dāng)我加入李飛飛實(shí)驗(yàn)室的那個(gè)學(xué)期,正是AlexNet發(fā)布的那個(gè)學(xué)期。"Johnson在播客中回憶道。那是2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton組成的SuperVision團(tuán)隊(duì),憑借AlexNet在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中以15.3%的top-5錯(cuò)誤率奪冠,比第二名高出超過10.8個(gè)百分點(diǎn)。

這里的"top-5錯(cuò)誤率"是ImageNet競賽的核心指標(biāo):給模型一張圖片,它會(huì)輸出五個(gè)最可能的答案,只要正確答案在這五個(gè)里面就算對(duì)。15.3%的錯(cuò)誤率意味著84.7%的圖片都能被正確識(shí)別——在當(dāng)時(shí),這個(gè)成績遠(yuǎn)超所有傳統(tǒng)方法,震驚了整個(gè)學(xué)術(shù)界。

李飛飛正是ImageNet的創(chuàng)建者。ImageNet的完成是訓(xùn)練AlexNet的關(guān)鍵——這個(gè)數(shù)據(jù)集包含超過1400萬張標(biāo)注圖像,涵蓋22000多個(gè)類別。2012年的這場勝利,標(biāo)志著深度學(xué)習(xí)從一個(gè)被多數(shù)人認(rèn)為不切實(shí)際的美好想法,轉(zhuǎn)變?yōu)榫哂袑?shí)際應(yīng)用價(jià)值的技術(shù)路徑。

Johnson是李飛飛最優(yōu)秀的學(xué)生之一。博士畢業(yè)后,他先后在Facebook擔(dān)任研究科學(xué)家,又在密歇根大學(xué)擔(dān)任助理教授直到2024年。兩年多前,師生二人重新聚首,發(fā)現(xiàn)彼此都在思考同一個(gè)問題:語言模型之后是什么?

"我們獨(dú)立地都在關(guān)注大模型的發(fā)展,思考語言模型之外還有什么,"李飛飛說,"構(gòu)建世界模型、空間智能——這對(duì)我們來說是自然而然的方向。"

2. "深度學(xué)習(xí)的整個(gè)歷史,某種意義上就是計(jì)算擴(kuò)展的歷史"

Johnson在播客中給出了一個(gè)驚人的數(shù)據(jù)對(duì)比。

從AlexNet訓(xùn)練時(shí)使用的GPU到今天,單卡性能已經(jīng)提升了約一千倍。而現(xiàn)在訓(xùn)練大模型動(dòng)輒使用成百上千甚至上萬張GPU。"我們今天能調(diào)動(dòng)的計(jì)算量,比我讀博剛開始時(shí)多了大約一百萬倍。"

這種計(jì)算能力的指數(shù)級(jí)增長,讓深度學(xué)習(xí)從一個(gè)學(xué)術(shù)概念變成了席卷全球的技術(shù)革命。語言模型是過去幾年里"真正開始運(yùn)轉(zhuǎn)得相當(dāng)好"的領(lǐng)域。但當(dāng)我們想要處理視覺數(shù)據(jù)、空間數(shù)據(jù)、世界數(shù)據(jù)時(shí),需要處理的信息量要大得多。

"我最近做了個(gè)計(jì)算,"Johnson說,"如果你每天24小時(shí)不停說話,以每分鐘150個(gè)詞的平均語速,大約能產(chǎn)生21.5萬個(gè)token。但你生活的這個(gè)世界的帶寬比這大得多。"

這里的token是語言模型處理文本的基本單位,大致相當(dāng)于一個(gè)詞或詞的一部分。21.5萬個(gè)token聽起來很多,但換算成中文大約是十幾萬字——一個(gè)人一天不眠不休能說的全部內(nèi)容。而你每天用眼睛看到的信息量、用身體感知到的空間信息,遠(yuǎn)遠(yuǎn)超過這個(gè)數(shù)字。

這就是空間智能存在的意義——語言是一個(gè)低帶寬、有損的通道,無法完整描述我們身處的三維物理世界。

3. 空間智能不是"傳統(tǒng)智能"的對(duì)立面

有人問李飛飛:當(dāng)Dario Amodei說"我們有一個(gè)裝滿愛因斯坦的數(shù)據(jù)中心"時(shí),他指的是傳統(tǒng)智能而非空間智能,這兩者有什么區(qū)別?

"首先,我不理解那句話,"李飛飛笑著回應(yīng),"一個(gè)裝滿愛因斯坦的數(shù)據(jù)中心——我就是不明白它的意思。"

她接著給出了自己的解釋框架:人類智能本身就是多元的。心理學(xué)家Howard Gardner在1960年代就提出了"多元智能"理論——語言智能、空間智能、邏輯智能、情感智能。"所以對(duì)我來說,空間智能是語言智能的補(bǔ)充,而不是與'傳統(tǒng)智能'對(duì)立——我不知道'傳統(tǒng)'是什么意思。"

她舉了DNA結(jié)構(gòu)發(fā)現(xiàn)的例子。Francis Crick和James Watson推導(dǎo)雙螺旋結(jié)構(gòu)的過程,很大程度上依賴于對(duì)分子和化學(xué)鍵在三維空間中排列方式的推理。"那種能力,很難還原為純粹的語言。"

但這種能力又無處不在。"每一天,我在這里試圖抓住一個(gè)杯子。看到杯子、看到它所處的環(huán)境、看到我自己的手、張開手指讓幾何形狀匹配杯子、觸碰正確的著力點(diǎn)——所有這些都是深度空間性的。我在嘗試用語言敘述這個(gè)過程,但另一方面,那些敘述的語言本身并不能幫你真的拿起一個(gè)杯子。"

4. 當(dāng)5.4億年遇上50萬年:視覺為何被低估

"作為一個(gè)視覺科學(xué)家,我總是發(fā)現(xiàn)視覺被低估了,"李飛飛說,"因?yàn)樗鼘?duì)人類來說太輕松了。你作為嬰兒睜開眼睛,就開始看這個(gè)世界。我們似乎天生就擁有這種能力。"

學(xué)習(xí)語言則不同——你必須付出努力學(xué)習(xí)如何書寫、如何運(yùn)用語法、如何表達(dá)。"這讓它感覺很難。而大自然花了更多時(shí)間去優(yōu)化的東西——感知和空間智能——卻被人類低估了。"

她給出了一個(gè)時(shí)間尺度的對(duì)比:視覺和空間智能經(jīng)過了5.4億年的進(jìn)化優(yōu)化;而語言發(fā)展最寬泛的估計(jì),大概只有50萬年。

"今年夏天我剛?cè)ミ^非洲,"她說,"那些小動(dòng)物,出生后幾分鐘內(nèi)就必須站起來行動(dòng),否則就會(huì)被獅子抓住。在自然界,你知道進(jìn)化花了5.4億年來優(yōu)化感知和空間智能。"

5. Marble:窺見World Labs模型能力的第一扇窗

"Marble是我們模型的一瞥,"李飛飛解釋說,"它是這段旅程的起點(diǎn)。它是世界上第一個(gè)以這種保真度生成3D世界、并交到公眾手中的同類模型。"

與許多其他世界基礎(chǔ)模型不同——包括World Labs自己的實(shí)時(shí)幀模型RTFM——Marble讓用戶生成持久的世界,并將其下載為3D模型,而非即時(shí)生成。這意味著你可以精確控制攝像機(jī)位置、錄制場景、編輯特定元素。

"我注意到一個(gè)非常有趣的工具——你可以在場景內(nèi)部錄制,"播客主持人指出。李飛飛立刻解釋了其中的含義:"能夠錄制意味著對(duì)攝像機(jī)位置的精確控制。要有精確的攝像機(jī)位置,就必須有三維空間感。否則你不知道如何定向攝像機(jī)、如何移動(dòng)攝像機(jī)。這是這類模型的自然結(jié)果。"

Johnson補(bǔ)充了技術(shù)細(xì)節(jié):Marble原生輸出的是高斯散點(diǎn)(Gaussian splats)——一種用大量半透明小粒子來表示三維場景的方法。假設(shè)把一個(gè)場景"打碎"成幾百萬個(gè)彩色小光斑,每個(gè)光斑都有自己在空間中的位置、朝向和顏色,亮度從中心向邊緣逐漸衰減,無數(shù)光斑疊加在一起就還原出完整的三維世界。這種表示方式的優(yōu)勢在于渲染速度極快,在iPhone上也能實(shí)時(shí)顯示,在VR頭顯中也能流暢運(yùn)行。

"我們也可以導(dǎo)出為其他格式——三角形網(wǎng)格、視頻——"Johnson說。三角形網(wǎng)格是3D圖形的另一種經(jīng)典表示方式,用無數(shù)個(gè)小三角形拼接成物體表面,是游戲引擎和電影特效行業(yè)的通用格式。"這很酷,因?yàn)槟憧梢园堰@些3D資產(chǎn)放入各種傳統(tǒng)工作流。你可以把三角形網(wǎng)格放進(jìn)游戲,把高斯散點(diǎn)用于VFX鏡頭的合成。"

6. 模型"理解"物理嗎?——一個(gè)需要謹(jǐn)慎使用的詞

播客中提到了一篇哈佛論文,研究者向LLM輸入大量軌道運(yùn)動(dòng)模式,然后讓模型預(yù)測行星繞太陽的軌道。模型生成的結(jié)果看起來很好,但當(dāng)你要求它畫出力的矢量時(shí),一切都變得混亂——它并沒有真正學(xué)會(huì)牛頓力學(xué)。

這個(gè)例子揭示了一個(gè)關(guān)鍵問題:模型可以通過學(xué)習(xí)大量數(shù)據(jù)來"模仿"正確的結(jié)果,但這不等于它理解了背后的規(guī)律。行星軌道是橢圓形的,這一點(diǎn)模型可以從數(shù)據(jù)中學(xué)到;但"為什么是橢圓形"——因?yàn)橐εc距離平方成反比——這個(gè)因果關(guān)系模型并沒有掌握。所以當(dāng)你問一個(gè)它沒見過的問題(比如畫出任意時(shí)刻的力的方向),它就露餡了。

"如果你用'理解'這個(gè)詞來指你所理解的方式,"李飛飛說,"我相當(dāng)確定模型并不理解。模型是從數(shù)據(jù)中學(xué)習(xí),從模式中學(xué)習(xí)。"

但這是否重要?

"至少對(duì)于目前的用例來說,我認(rèn)為不重要——假設(shè)它渲染出你需要的東西是完美的,"她繼續(xù)說,"問題在于使用場景。如果用例是生成虛擬電影或制作的背景,你只需要看起來合理的東西,那可能不重要。但如果你是建筑師,要用這個(gè)來設(shè)計(jì)一座真正要建造的建筑,那就確實(shí)重要了——你需要正確地建模力,不希望建成后東西塌掉。"

Johnson指出了另一個(gè)關(guān)鍵差異:"這些模型是一種與人類智能非常不同的智能形式。人類智能的有趣之處在于,我能在某種程度上反省自己的思維過程,然后我相信我的思維過程可能與其他人相似,所以當(dāng)我觀察別人的行為時(shí),我推斷他們的內(nèi)部心理狀態(tài)可能與我觀察到的自己的內(nèi)部狀態(tài)相似。"

"但這些模型像是一種外星形式的智能——它們能做真正有趣的事情,展現(xiàn)真正有趣的行為。但不管它們有什么內(nèi)部認(rèn)知或內(nèi)部自我反思的等價(jià)物——如果存在的話——都與我們做的完全不同。"

7. 學(xué)術(shù)界的資源失衡:一個(gè)比"開放vs封閉"更重要的問題

播客主持人問了一個(gè)尖銳的問題:在今天的商業(yè)壓力下,你還能重做ImageNet嗎?當(dāng)你融了那么多錢,如果你有最好的數(shù)據(jù)集,你有什么動(dòng)機(jī)去公開它?

"我確實(shí)有擔(dān)憂,"李飛飛回應(yīng),"但不太是關(guān)于壓力,更多是關(guān)于學(xué)術(shù)界資源的失衡。"

這是一個(gè)與World Labs公司無關(guān)的話題。作為斯坦福大學(xué)"以人為本AI研究院"的創(chuàng)始聯(lián)合主任,她一直在與政策制定者合作,推動(dòng)公共部門和學(xué)術(shù)界AI研究的資源投入。她與特朗普第一屆政府合作推動(dòng)了國家AI研究資源(NAIR)法案,旨在建立國家AI計(jì)算云和數(shù)據(jù)倉庫。

"我認(rèn)為問題不在于開放vs封閉、產(chǎn)品化vs開源,"她說,"問題是學(xué)術(shù)界本身嚴(yán)重缺乏資源,研究者和學(xué)生沒有足夠的資源來嘗試這些想法。"

Johnson從另一個(gè)角度補(bǔ)充了這個(gè)討論:"五到十年前,你確實(shí)可以在實(shí)驗(yàn)室里用幾塊GPU訓(xùn)練最先進(jìn)的模型。但因?yàn)槟琼?xiàng)技術(shù)如此成功、規(guī)模擴(kuò)展得如此之大,你現(xiàn)在不能用幾塊GPU訓(xùn)練最先進(jìn)的模型了。這不是壞事,這是好事——意味著技術(shù)真的奏效了。"

這意味著對(duì)學(xué)術(shù)界角色的重新定位。"不應(yīng)該是試圖訓(xùn)練最大的模型、擴(kuò)展最大的東西。應(yīng)該是嘗試瘋狂的想法、新想法、古怪的想法——大部分不會(huì)成功。我認(rèn)為那里有很多可做的事。"

8. Transformer的真實(shí)身份:不是序列處理器,而是集合處理器

在被問到空間智能是否需要徹底拋棄當(dāng)前的技術(shù)棧時(shí),Johnson給出了一個(gè)出人意料的回答。

"我認(rèn)為Transformer實(shí)際上不是序列模型,而是集合(set)模型。"

這聽起來反直覺——ChatGPT明明就是一個(gè)詞接一個(gè)詞地生成文本,怎么不是處理序列的?

Johnson的論證是這樣的:Transformer內(nèi)部有兩類操作。第一類是"逐token操作",比如前饋網(wǎng)絡(luò)(FFN)、QKV投影、層歸一化,這些對(duì)每個(gè)token獨(dú)立進(jìn)行,根本不關(guān)心其他token的存在,就像給一堆蘋果逐個(gè)打蠟,每個(gè)蘋果的處理互不影響。第二類是token之間通過注意力機(jī)制(Attention)的交互,但這個(gè)操作有一個(gè)關(guān)鍵的數(shù)學(xué)性質(zhì):置換等變(permutation equivariant)——如果你把輸入的token順序打亂,輸出也會(huì)以完全相同的方式被打亂。注意力機(jī)制只關(guān)心"誰和誰在交互",不關(guān)心"誰排在前面"。

那Transformer為什么能處理語言這種明顯有順序的東西?答案是位置編碼(Positional Encoding)——一個(gè)額外"貼"上去的信息,告訴模型"這個(gè)token在第1位""那個(gè)token在第5位"。沒有位置編碼,Transformer根本分不清"我愛你"和"你愛我"。

換句話說,Transformer的"核心引擎"本身是處理集合的,序列處理能力是通過位置編碼這個(gè)"外掛"實(shí)現(xiàn)的。

這個(gè)技術(shù)細(xì)節(jié)之所以重要,是因?yàn)樗卮鹆艘粋(gè)實(shí)際問題:現(xiàn)有架構(gòu)能不能用來處理三維空間數(shù)據(jù)?如果Transformer本質(zhì)上是"序列處理器",處理3D數(shù)據(jù)就很別扭——三維空間不是一條線,怎么強(qiáng)行排成序列?但如果它本質(zhì)上是"集合處理器",問題就簡單了:三維空間中的一堆點(diǎn)、一堆高斯散點(diǎn),本來就是一個(gè)集合。只需要設(shè)計(jì)合適的位置編碼來表達(dá)三維坐標(biāo)關(guān)系,現(xiàn)有技術(shù)棧的很大一部分就可以直接復(fù)用。

這就是為什么李飛飛說"注意力機(jī)制還在,不需要修復(fù)沒壞的東西"。

但Johnson也指出了一個(gè)更長遠(yuǎn)的問題。今天的神經(jīng)網(wǎng)絡(luò)架構(gòu)是圍繞矩陣乘法設(shè)計(jì)的,因?yàn)镚PU特別擅長做矩陣乘法。但硬件的擴(kuò)展正在接近物理極限——"即使從Hopper到Blackwell,每瓦性能幾乎沒變。他們主要是增加晶體管數(shù)量、增大芯片尺寸、增加功耗。"(Hopper和Blackwell是NVIDIA兩代GPU架構(gòu)的代號(hào),分別對(duì)應(yīng)H100和B200系列顯卡。)

當(dāng)單卡性能無法繼續(xù)提升時(shí),擴(kuò)展的方式就變成了堆更多卡。計(jì)算的基本單元不再是單張GPU,而是由成千上萬設(shè)備組成的分布式集群。Johnson的問題是:如果硬件形態(tài)變了,是不是應(yīng)該有與之匹配的新計(jì)算原語和新架構(gòu)?

"這種問題不是三個(gè)月能解決的,"他說,"但如果你坐下來花幾年時(shí)間認(rèn)真思考,也許能取得突破。這正是學(xué)術(shù)界完美匹配的長期研究方向。"

9. 空間智能與語言智能:互補(bǔ)而非替代

播客主持人追問:視覺和語言建模真的那么不同嗎?DeepSeek最近嘗試了一個(gè)瘋狂的做法——直接從像素建模文本,直接在上面訓(xùn)練,這可能是未來的方向。

這里需要解釋一下"從像素建模文本"是什么意思。傳統(tǒng)語言模型的工作方式是把文字切分成token(比如把"我愛你"切成"我""愛""你"三個(gè)符號(hào)),每個(gè)token對(duì)應(yīng)一個(gè)數(shù)字ID,模型學(xué)習(xí)這些ID之間的關(guān)系。但DeepSeek-OCR等研究嘗試了完全不同的路徑:把文字渲染成圖片,讓模型直接從像素學(xué)習(xí)語言,徹底繞過token這一層。Andrej Karpathy(特斯拉前AI總監(jiān)、OpenAI創(chuàng)始團(tuán)隊(duì)成員)對(duì)這個(gè)方向大加贊賞,認(rèn)為像素輸入可能比傳統(tǒng)token更優(yōu)——壓縮率更高、上下文窗口更短,還能保留字體、顏色、排版等傳統(tǒng)token會(huì)丟失的格式信息。

如果這條路走通,是不是意味著視覺和語言可以統(tǒng)一處理?主持人的問題正是在追問這一點(diǎn)。

"我認(rèn)為它們是不同的,"李飛飛堅(jiān)持說,"我確實(shí)認(rèn)為這些生成模型的架構(gòu)會(huì)共享很多可分享的組件,但深度三維四維的空間世界有一種結(jié)構(gòu)層次,與純粹的一維生成信號(hào)根本不同。"

她的意思是:即使你可以把文字變成像素來處理,文字本質(zhì)上還是一維的序列——一個(gè)字接一個(gè)字。而真實(shí)的三維世界有完全不同的結(jié)構(gòu):上下左右前后的空間關(guān)系、物體之間的遮擋、物理規(guī)律的約束。換一種編碼方式,并不能消除這種根本性的結(jié)構(gòu)差異。

Johnson則從另一個(gè)角度切入,他稱之為"像素極大主義":"語言看起來是一種獨(dú)立的東西,但我們終究是用眼睛在看語言。我們視網(wǎng)膜上的感光細(xì)胞,本質(zhì)上就是生物版的像素傳感器。我們看著文字,覺得它是一串離散的符號(hào),但這種感覺只存在于我們的頭腦中。文字在物理世界中的真實(shí)存在方式,是印在紙上、顯示在屏幕上的圖案——我們用眼睛看到的,其實(shí)是圖像。"

這個(gè)觀點(diǎn)需要停下來想一想。當(dāng)你閱讀這行文字時(shí),物理上到底發(fā)生了什么?屏幕上的像素發(fā)出光,光進(jìn)入你的眼睛,視網(wǎng)膜上密密麻麻的感光細(xì)胞——大約1.2億個(gè)——各自捕捉一小塊光信號(hào),轉(zhuǎn)化成神經(jīng)脈沖傳給大腦。對(duì)眼睛來說,"這是一個(gè)漢字"和"這是一張風(fēng)景照"沒有任何區(qū)別,都是一片光點(diǎn)的圖案。把光點(diǎn)解讀為"文字"還是"圖片",是大腦做的事,不是眼睛看到的物理現(xiàn)實(shí)。

Johnson想說的是:既然人類本來就是用"看圖"的方式在閱讀文字,為什么AI非要先把文字切成token?直接讓模型看圖,不是更接近人類處理信息的方式嗎?而且切成token確實(shí)會(huì)丟東西——同樣一句話,用宋體印刷還是用手寫體,排成一行還是分成兩段,某個(gè)詞加粗還是標(biāo)紅,這些視覺信息在token序列里全都消失了,但在像素圖像里完整保留著。

但這不意味著要拋棄語言模型。"即使你那樣做——也有一種實(shí)用性的考量:人們使用語言,人們想用語言與系統(tǒng)交互。即使從實(shí)用角度,構(gòu)建讓人們能與之交談的系統(tǒng)、產(chǎn)品、模型也是有用的。我不認(rèn)為那會(huì)消失。"

李飛飛補(bǔ)充說:"甚至我們的模型Marble今天也把語言作為輸入——它是深度多模態(tài)的。在很多用例中,這些模型會(huì)協(xié)同工作。也許有一天我們會(huì)有一個(gè)通用模型。"

這段討論的深層問題是:AI應(yīng)該在什么層次上理解世界?純語言模型在最高層次的符號(hào)抽象上工作;從像素建模文字往下走了一層,但信息本質(zhì)上仍是一維的;而空間智能要做的,是直接在三維物理世界的層次上工作——那里有語言無法完整捕捉的結(jié)構(gòu)、關(guān)系和規(guī)律。這也是為什么李飛飛要?jiǎng)?chuàng)建World Labs,而不是繼續(xù)在語言模型的路上走下去。

10. 從創(chuàng)意工具到機(jī)器人訓(xùn)練:Marble的應(yīng)用版圖

如果你訪問World Labs的主頁,有一個(gè)叫做Marble Labs的頁面,展示了不同的用例——視覺效果、游戲、模擬。在模擬類別中,他們展示了這項(xiàng)技術(shù)如何幫助機(jī)器人訓(xùn)練。

"機(jī)器人訓(xùn)練真的缺乏數(shù)據(jù),"李飛飛解釋說,"高保真的真實(shí)世界數(shù)據(jù)絕對(duì)至關(guān)重要,但你就是得不到大量那樣的數(shù)據(jù)。另一個(gè)極端是純粹的互聯(lián)網(wǎng)視頻數(shù)據(jù),但你缺乏訓(xùn)練具身智能體所需要的可控性。所以模擬和合成數(shù)據(jù)實(shí)際上是一個(gè)非常重要的中間地帶。"

她在這個(gè)領(lǐng)域工作多年,最大的痛點(diǎn)一直是:從哪里獲得這些合成模擬數(shù)據(jù)?你必須策劃資產(chǎn)、構(gòu)建這些復(fù)雜的場景,而在機(jī)器人學(xué)中你需要大量不同的狀態(tài)。Marble實(shí)際上是一個(gè)有潛力幫助生成這些用于具身智能體訓(xùn)練的合成模擬世界的工具。

Johnson則開玩笑說他在Slack上發(fā)過一個(gè)視頻:"誰想用Marble規(guī)劃下一次廚房改造?這個(gè)用例其實(shí)已經(jīng)很好用了。只要拍兩張你廚房的照片,在Marble中重建它,然后用編輯功能看看如果換臺(tái)面、換地板、換櫥柜,那個(gè)空間會(huì)是什么樣子。"

"我們有早期測試用戶正在用API構(gòu)建室內(nèi)設(shè)計(jì)用例,"李飛飛補(bǔ)充道。

Q&A核心歸納

Q1:空間智能與語言智能的核心差異是什么?

空間智能是機(jī)器感知、推理、移動(dòng)和交互于三維空間的能力。語言是一個(gè)低帶寬、有損的通道——你可以嘗試用語言敘述拿起一個(gè)杯子的過程,但那些敘述本身無法幫你真正拿起杯子。自然界花了5.4億年進(jìn)化優(yōu)化視覺和空間智能,而語言發(fā)展最多只有50萬年。當(dāng)今的大語言模型直接跳到了最高層次的抽象推理,而空間智能是要打開那個(gè)黑箱,承認(rèn)我們在直接跳到完全抽象的語言和推理形式時(shí)可能丟失了什么。

Q2:World Labs的世界模型與其他視頻生成模型有何不同?

關(guān)鍵區(qū)別在于"持久性"和"可控性"。Marble生成的是持久的、可下載的3D環(huán)境,而非即時(shí)生成即消失的世界。你可以精確控制攝像機(jī)位置和角度,可以錄制場景,可以編輯特定元素——這些都源于模型對(duì)三維空間的理解。輸出格式包括高斯散點(diǎn)(用大量半透明粒子表示三維場景)和三角形網(wǎng)格(用小三角形拼接成物體表面的傳統(tǒng)3D格式),可以無縫集成到游戲引擎、VFX工作流中。這是"空間一致性"與"幀序列生成"的根本區(qū)別。

Q3:現(xiàn)有的AI技術(shù)棧能否用于空間智能,還是需要推倒重來?

不需要推倒重來。Transformer的核心架構(gòu)本質(zhì)上是處理"集合"而非"序列"的——它對(duì)順序的感知完全依賴額外添加的位置編碼。這意味著只要設(shè)計(jì)合適的三維位置編碼,現(xiàn)有架構(gòu)就能處理空間數(shù)據(jù)。但長遠(yuǎn)來看,隨著硬件從單GPU向大規(guī)模分布式集群演進(jìn),可能需要探索與新硬件形態(tài)更匹配的計(jì)算原語和架構(gòu)——這類需要數(shù)年時(shí)間的基礎(chǔ)研究,正是學(xué)術(shù)界應(yīng)該承擔(dān)的角色。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

新京報(bào)政事兒
2025-12-27 21:39:39
俄羅斯戰(zhàn)略專家:只有日本知道,中國綜合國力強(qiáng)大到了什么程度

俄羅斯戰(zhàn)略專家:只有日本知道,中國綜合國力強(qiáng)大到了什么程度

農(nóng)夫史記
2025-12-27 20:04:36
重要決策,記者:快船正權(quán)衡在交易截止日前進(jìn)行拆隊(duì)還是引援

重要決策,記者:快船正權(quán)衡在交易截止日前進(jìn)行拆隊(duì)還是引援

懂球帝
2025-12-27 13:49:28
7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報(bào)警

7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報(bào)警

罪案洞察者
2025-12-02 11:25:59
一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

胡麒牧博士
2025-12-27 20:10:13
濟(jì)南地鐵三線齊發(fā),市委書記等領(lǐng)導(dǎo)與市民代表共乘地鐵調(diào)研

濟(jì)南地鐵三線齊發(fā),市委書記等領(lǐng)導(dǎo)與市民代表共乘地鐵調(diào)研

澎湃新聞
2025-12-27 20:28:27
黃正問父親黃永勝:誰是你最好的上級(jí)?他說了三個(gè)名字沒有林彪

黃正問父親黃永勝:誰是你最好的上級(jí)?他說了三個(gè)名字沒有林彪

冰雅憶史
2025-12-26 10:18:01
斯普利特談楊瀚森:需要保持耐心,我清楚整個(gè)中國都在關(guān)注他

斯普利特談楊瀚森:需要保持耐心,我清楚整個(gè)中國都在關(guān)注他

懂球帝
2025-12-27 15:39:03
40歲拒絕過戶學(xué)區(qū)房給侄子,丈夫大罵,看到一張紙條他閉嘴了

40歲拒絕過戶學(xué)區(qū)房給侄子,丈夫大罵,看到一張紙條他閉嘴了

木子言故事
2025-12-27 10:08:18
回頭看10年前南博的龐萊臣名畫展,格外諷刺

回頭看10年前南博的龐萊臣名畫展,格外諷刺

亮見
2025-12-25 15:05:31
房山的房價(jià),徹底瘋了!

房山的房價(jià),徹底瘋了!

童童聊娛樂啊
2025-12-27 15:06:16
A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

阿纂看事
2025-12-27 17:14:43
勇士隊(duì)已詢價(jià)小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

勇士隊(duì)已詢價(jià)小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

鍋?zhàn)踊@球
2025-12-27 14:47:17
廣東宏遠(yuǎn)沖擊7連勝!全力擊敗山西,胡明軒復(fù)出,央視直播

廣東宏遠(yuǎn)沖擊7連勝!全力擊敗山西,胡明軒復(fù)出,央視直播

體壇瞎白話
2025-12-27 17:00:13
年?duì)I收300萬,28個(gè)員工,最后利潤8萬塊:這就是最真實(shí)小老板!

年?duì)I收300萬,28個(gè)員工,最后利潤8萬塊:這就是最真實(shí)小老板!

熊林老師
2025-11-17 18:00:03
1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

春秋硯
2025-12-20 08:55:09
Shams:湖人后衛(wèi)里夫斯左腿腓腸肌二級(jí)拉傷,將在四周后復(fù)查

Shams:湖人后衛(wèi)里夫斯左腿腓腸肌二級(jí)拉傷,將在四周后復(fù)查

懂球帝
2025-12-27 10:26:34
超級(jí)大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

超級(jí)大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

郝小小看體育
2025-12-27 13:30:30
全球第一,清華高考狀元要IPO

全球第一,清華高考狀元要IPO

投資家
2025-12-27 21:20:58
哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
2025-12-27 22:20:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

時(shí)尚
教育
親子
家居
軍事航空

穿好雪地靴的4個(gè)訣竅,還挺有效!

教育要聞

30號(hào)展播!廣州市“Fun學(xué)英語”系列活動(dòng)之“讀者劇場”展評(píng)活動(dòng)|AI+教師發(fā)展公益行·廣州站

親子要聞

寶藍(lán)爸爸扮演“廚師”開了一家披薩店,太好玩了,快來看看吧!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對(duì)烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版