網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

李飛飛最新思考：語言模型救不了機器人

2025-11-17 20:19:26　來源: AI科技評論

廣東舉報

分享至

聊天模型卷不動未來，空間智能才是真正的戰(zhàn)場。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年里，AI 行業(yè)的節(jié)奏快得近乎失真。模型一次次刷新極限，產(chǎn)品迭代像在搶時間，討論從“推理成本”到“智能涌現(xiàn)”再到“AGI 時間表”，情緒在樂觀與焦慮之間來回擺動。

在這樣密集的技術(shù)周期里，很少有人愿意停下來思考一個更基本的問題：我們到底在追求怎樣的智能？語言之上，是否還有尚未被充分理解的能力？

一周前，李飛飛用一篇關(guān)于世界模型的長文把這個問題重新擺上了臺面，這篇文章沒有渲染革命，也沒有給出輕松的未來，它的分量在于指出當下技術(shù)正在繞開的那些硬骨頭：空間理解、物理推理、具身行為以及真實世界的不確定性，這些長期被回避的難題在文中被逐一攤開，也迅速 AI 圈內(nèi)部關(guān)于世界模型的激烈討論。

一周后，李飛飛在最新的訪談再次提及那篇文章里尚未說盡的部分，把那些自己反復(fù)思考卻在長文里無法完全展開的問題細致拆解，從語言模型在世界理解上的結(jié)構(gòu)性短板，到三維空間在智能形成中扮演的基礎(chǔ)角色，再到機器人長期停滯背后那些難以繞過的現(xiàn)實條件，她都給出了更具體的解釋。

隨著這些碎片化的線索被重新理順，這次訪談本身也像是那篇長文的延續(xù)與補全，讓外界得以更清楚地看到她真正關(guān)注的技術(shù)方向以及其中的邏輯。

對此，AI 科技評論將訪談內(nèi)容做了不改變原意的編譯：

01
從圖靈問題到深度學習的七十年

主持人：今天的嘉賓是李飛飛博士，被譽為 AI 教母。她一直是推動這場人工智能革命的關(guān)鍵人物，主導(dǎo)了許多重要突破。她牽頭創(chuàng)建了 ImageNet 數(shù)據(jù)集，提出了一個影響深遠的觀點，也就是人工智能要變得更聰明，需要海量而干凈的標注數(shù)據(jù)。這個數(shù)據(jù)集成為一個轉(zhuǎn)折點，為今天模型的訓(xùn)練方式和規(guī)?；於嘶A(chǔ)。她曾擔任谷歌云的首席 AI 科學家，參與并推動了早期多項重大技術(shù)的誕生。

她還在斯坦福大學領(lǐng)導(dǎo)人工智能實驗室，培養(yǎng)了很多頂尖人才。同時，她和同事共同創(chuàng)立了斯坦福以人為本人工智能研究所，這個機構(gòu)正深刻影響著未來 AI 的發(fā)展方向。她也曾在推特董事會任職，被《時代》雜志評為全球百位 AI 影響力人物，并入選聯(lián)合國顧問委員會。

李飛飛：謝謝，能來到這里我很開心。

主持人：我想先用一段評價來鋪墊一下背景?！哆B線》雜志說過，李飛飛是那一小群推動人工智能近年巨大進步的科學家之一，這個群體小到用一張餐桌都能坐下。很多人叫你 AI 教母，還有一點和許多 AI 領(lǐng)域的領(lǐng)導(dǎo)者不同，你對 AI 充滿樂觀。你不認為 AI 會取代人類，不會搶走所有工作，更不會帶來毀滅。所以我想先從這個問題開始，你覺得從長遠看，AI 會怎樣影響人類。

李飛飛：我可能要先澄清一下，我不是烏托邦主義者。我并不是說 AI 不會對就業(yè)或社會產(chǎn)生影響。事實上，我更愿意把自己稱為人文主義者。我一直相信，AI 現(xiàn)在能做什么、未來能走多遠，都取決于我們，都取決于人類自己。

如果把視角放到人類文明的長河中來看，技術(shù)整體上始終是推動力。我們是一個天生愛創(chuàng)新的物種，從最早的文字記載直到今天，人類一直在不斷發(fā)明、不斷改進工具。正是依靠這些，我們改善生活、提升工作方式、建設(shè)文明。

我堅信 AI 也是這條道路的一部分，這就是我保持樂觀的原因。不過任何技術(shù)都有兩面，如果我們作為物種、社會、社群、個人沒有做出正確選擇，也可能把事情帶到糟糕的方向。

我二十五年前就開始研究人工智能，過去二十年也在帶學生。幾乎每個從我實驗室畢業(yè)的學生，我都會提醒他們，你們研究的叫人工智能，可真正重要的部分從來不是人工，而是智能。

主持人：回到你剛才說的，AI 的未來走向取決于我們自己。你覺得我們需要做些什么，才能讓 AI 往正確的方向發(fā)展？我知道這是很難回答的問題，你有沒有一些建議？

李飛飛：我始終覺得，每個人都應(yīng)該做一個有責任感的個體。不管做什么，我們從小就教孩子要有責任心，作為成年人更要做到這一點。

無論你是在研發(fā)、部署還是使用 AI，甚至在技術(shù)越來越普及的情況下，大多數(shù)人都會在不同環(huán)節(jié)和 AI 打交道，都應(yīng)該帶著負責的態(tài)度，真正關(guān)心它的發(fā)展，而且是認真地關(guān)心。

現(xiàn)在，每個人都需要關(guān)注 AI，因為它會影響你的生活、你的社區(qū)、整個社會，甚至影響下一代。以負責任的心態(tài)去面對 AI，是第一步，也是最重要的一步。

主持人：那在 ImageNet 出現(xiàn)之前，AI 的世界是什么樣的？你為什么要創(chuàng)建它？它是如何成為后續(xù)革命的分水嶺的？從那之后又發(fā)生了什么？

李飛飛：老實說，我有時會忘了，對大多數(shù)人來說 AI 還是件相對新的事情。我這一生幾乎都在做 AI，從十幾歲因為好奇心走進這個領(lǐng)域，到今天它變成可能改變整個人類文明的技術(shù)，我覺得這是非常幸運的事情。

不過嚴格來說，我不算第一代 AI 研究者。第一代 AI 要追溯到二十世紀五六十年代，甚至更早。在四十年代，Alan Turing 就已經(jīng)提出了一個相當前瞻的問題，我們能不能造出會思考的機器？他還提出了一種測試方法，也就是對話形式的機器測試。按照這個標準，我們現(xiàn)在確實已經(jīng)擁有能“對話”的機器了，不過那更像是一則具有啟發(fā)意義的小故事。

AI 真正作為一個學科起步是在五十年代，當時的計算機科學家們聚在一起，討論如何用程序和算法做一些原本只有人類才能完成的認知任務(wù)。

1956 年的達特茅斯會議被認為是 AI 的正式誕生點，John McCarthy 教授在那次會議上第一次提出“人工智能”一詞。從五十年代到八十年代，是 AI 的早期探索期，出現(xiàn)了邏輯系統(tǒng)、專家系統(tǒng)，也開始有了對神經(jīng)網(wǎng)絡(luò)的初步嘗試。

到了八十年代末、九十年代到二十一世紀初，機器學習開始興起，它把計算機編程和統(tǒng)計學習結(jié)合到一起，帶來了一個非常重要的理念，也就是單靠規(guī)則和程序，是無法讓機器擁有我們期望的那種龐大認知能力的。

我們必須讓機器自己去學習模式。一旦它能學模式，就有希望延展能力。比如給它看三只貓，我們的目標不是讓它認出這三只，而是讓它能認出接下來無數(shù)只貓。這種學習能力是人類和動物的基本能力，AI 也應(yīng)該具備這一點。

我在二十一世紀初正式進入 AI 領(lǐng)域，2000 年在加州理工開始讀博士。我算是第一代機器學習研究者。當時我們已經(jīng)開始學習神經(jīng)網(wǎng)絡(luò)等概念，我在加州理工上的第一門課就是神經(jīng)網(wǎng)絡(luò)，但學得非常吃力。當時正好處在“AI 寒冬”的中間階段，公眾并不關(guān)注，資金也有限，但同時也有很多有意思的新想法不斷冒出來。

而我之所以后來能和現(xiàn)代 AI 的起點緊密聯(lián)系在一起，主要有兩個原因。第一是我選擇從視覺智能來切入 AI。人類本質(zhì)上是高度依賴視覺的生物，我們的大部分智能都建立在視覺感知和空間理解上，不只是一種語言能力，這兩者是相輔相成的。

所以在博士階段和職業(yè)生涯的早期，我和學生們一直在研究一個核心問題，就是物體識別。因為物體識別是理解世界的基礎(chǔ)。我們在現(xiàn)實中行動、觀察、推理、互動，很大程度上都是基于“物體”這個層級的。我們不會在每次操作時把世界拆成分子層面，比如拿起茶壺時，你不會想著這東西由很多碎片組成，而是直接把它當作一個整體來互動。

但研究物體識別時，我們嘗試過各種數(shù)學模型，包括神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)，卻遇到了一個非常突出的瓶頸，就是數(shù)據(jù)不夠。那時整個領(lǐng)域大多把注意力放在模型本身上，可我漸漸意識到，人類的學習方式、甚至生物進化，都是一種不斷吸收大量經(jīng)驗的過程。

人通過接觸海量經(jīng)歷不斷學習，動物在進化時也是不斷體驗世界。因此，我和學生漸漸意識到，讓 AI 真正“活”起來，有一個被忽略但極其關(guān)鍵的因素，就是大規(guī)模數(shù)據(jù)。

于是我們在 2006 年和 2007 年啟動了 ImageNet 項目。當時我們非常有野心，想把互聯(lián)網(wǎng)上所有和物體相關(guān)的圖像都收集起來。當然，那時候互聯(lián)網(wǎng)規(guī)模還遠沒現(xiàn)在這么大，所以這個想法聽起來還算合理。放到今天，絕對不可能靠幾個學生和一個教授完成。

但我們真的做出來了。我們從互聯(lián)網(wǎng)上精挑細選了大約一千五百萬張圖像，借鑒了 WordNet 的體系，構(gòu)建了兩萬多個概念類別，最終形成了 ImageNet，并把它開源給全世界的研究者。我們還舉辦年度 ImageNet 挑戰(zhàn)賽，邀請大家一起參與，同時也繼續(xù)推進自己的研究。

2012 年被很多人視為現(xiàn)代深度學習的起點。那一年 Geoff Hinton 教授帶領(lǐng)多倫多大學團隊參加 ImageNet 挑戰(zhàn)，他們用 ImageNet 的大數(shù)據(jù)和兩塊英偉達 GPU 訓(xùn)練出一個神經(jīng)網(wǎng)絡(luò)模型。雖然它沒有完全解決物體識別，但帶來了突破性的提升。

大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和 GPU 這三個因素疊加，成了現(xiàn)代 AI 的黃金組合。

快進到 ChatGPT 的發(fā)布，這是 AI 真正進入公眾視野的時刻。從技術(shù)角度看，ChatGPT 的出現(xiàn)依然離不開這三大核心要素，只是數(shù)據(jù)規(guī)模變成了互聯(lián)網(wǎng)級，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜，用的 GPU 數(shù)量也更多，但底層的邏輯和原理并沒有改變。這三件事到現(xiàn)在仍然是現(xiàn)代 AI 的基石。

主持人：你當時就是覺得，要推動 AI 發(fā)展，ImageNet 必須做，然后就去做了。不過在那個時期，大家更常用的說法是機器學習，對嗎？

李飛飛：當時 AI 和機器學習這兩個詞是交替使用的。大概在 2015 年年中到 2016 年年中，一些科技公司會刻意回避用 AI 這個詞，因為他們擔心這個詞會不會變成負面標簽。但我一直鼓勵大家勇敢使用 AI 這個詞。因為在我看來，讓機器變得智能，是人類在科技探索中提出過最大膽的問題之一，我對這個詞非常自豪。不過確實，在早期，很多人是有顧慮的。

主持人：那是哪一年開始，AI 這個詞逐漸被廣泛接受的？

李飛飛：我覺得是2016 年吧那算是一個轉(zhuǎn)折點，那時起有些人開始愿意用 AI 這個詞了。再往后，如果你看硅谷公司的宣傳，大概 2017 年左右，才真正出現(xiàn)公司開始把自己定位成 AI 公司。

主持人：說到那段早期歷史，你覺得有沒有什么重要但大家可能不知道的事值得分享？

李飛飛：我覺得和所有歷史一樣，雖然我被視為這段發(fā)展的一部分，但背后有太多無名英雄和研究者。這是幾代人一起耕耘出來的結(jié)果。在我的職業(yè)生涯中，有無數(shù)人給過我啟發(fā)，我在書里也提到過這些。

不過我們的文化，特別是硅谷文化，總習慣把功勞集中在某一個人身上。雖然這樣做有它的價值，但我想提醒大家，AI 的發(fā)展已經(jīng)持續(xù)了七十年，是好幾代研究者共同鋪出來的路，不可能靠某一個人的力量走到今天。

02
AI 的「人本」視角

主持人：你覺得我們距離 AGI 還有多遠？按照現(xiàn)在的發(fā)展趨勢，我們能實現(xiàn)它嗎？需要更多技術(shù)突破嗎？現(xiàn)有的技術(shù)路徑足夠支撐我們走到那一步嗎？

李飛飛：這是個很有意思的概念。我不確定有沒有誰真正給過 AGI 一個嚴謹?shù)亩x。不同的人有不同的理解，有人認為是讓機器擁有某種超能力，有人認為是讓機器成為社會里能獨立立足的主體，比如能自己創(chuàng)造價值。這樣的標準算是 AGI 嗎？

作為科學家，我習慣非常嚴謹?shù)乜创龁栴}。我進入這個領(lǐng)域，就是因為被“機器能否像人一樣思考和行動”這個大膽問題所吸引。對我來說，這一直是人工智能的核心目標。

從這個角度看，我不覺得 AI 和 AGI 有本質(zhì)區(qū)別。我們在某些方向上已經(jīng)取得了不錯的進展，比如對話系統(tǒng)，但離全面實現(xiàn)人工智能還有一段距離。如果你現(xiàn)在去問 Alan Turing，他大概會說，這不就是我在二十世紀四十年代就提出的問題嗎。

所以我不想陷入對 AI 和 AGI 的定義之爭。在我看來，AGI 更像是營銷語言，而不是科學術(shù)語。對我來說，人工智能就是我所追求的目標，也是整個領(lǐng)域的真正目標。大家愿意怎么稱呼它都可以。

主持人：就像你前面說的，從 ImageNet 和 AlexNet 開始，我們靠著一些關(guān)鍵要素走到了今天，比如 GPU、數(shù)據(jù)、標注數(shù)據(jù)和模型算法，而 Transformer 架構(gòu)似乎也是這條路線上的重要一步。

你覺得這些現(xiàn)有要素能不能讓我們繼續(xù)做出強大十倍、足以改變世界的模型？我們還需要哪些突破？我知道我們待會會聊世界模型，那可能是其中一個方向，但除此之外，你覺得還有哪些瓶頸？換句話說，現(xiàn)在的技術(shù)是不是只要往上堆數(shù)據(jù)、堆算力、堆 GPU 就能繼續(xù)往前走？

李飛飛：我覺得我們一定需要更多創(chuàng)新。增加數(shù)據(jù)、增加 GPU、放大模型規(guī)模，這些方向當然還有空間，但我始終相信我們需要更多根本性的創(chuàng)新。

在人類的科學史上，沒有任何一門成熟的學科會說自己已經(jīng)不需要創(chuàng)新了。人工智能雖然已經(jīng)發(fā)展了幾十年，但相比其他學科，它仍然非常年輕，我們現(xiàn)在不過剛剛開始。

舉個例子，我們之后會聊世界模型。你給一個當前的模型看一段辦公室的視頻，讓它數(shù)清楚里面有多少把椅子，這對幼兒園小朋友或者小學生來說都不難，可 AI 現(xiàn)在還做不到。更別說像牛頓那樣，通過觀察天體運動推導(dǎo)出適用于所有物體的運動規(guī)律。

那種創(chuàng)造力、推理能力和抽象能力，我們現(xiàn)在完全無法讓機器具備。再看看情感智能，一個學生走進老師辦公室，談自己的動力、興趣、困擾，今天的對話系統(tǒng)在情緒理解和表達上還遠達不到這種水平。

所以我們還有太多可以提升的地方，我完全不認為創(chuàng)新已經(jīng)走到盡頭。

03
語言之外，智能世界模型登場

主持人：那你覺得什么是世界模型，它為什么如此重要？

李飛飛：我這一輩子都在思考怎么推動 AI 向前走。過去幾年，學界和像 OpenAI 這樣的機構(gòu)陸續(xù)推出的大型語言模型，對我這樣的長期研究者來說，都帶來了很強的啟發(fā)。

我記得 GPT-2 推出時是 2020 年底，當時我在斯坦福大學以人為本人工智能研究所擔任聯(lián)合主任，現(xiàn)在依然在這個崗位，不過那時是全職投入。那時候公眾還意識不到大型語言模型的潛力，但我們研究者已經(jīng)看到了未來的模樣。

我和做自然語言處理的同事們聊過很多次，我們都覺得這項技術(shù)的影響會非常深遠。斯坦福的以人為本人工智能研究所是最早建立完整基礎(chǔ)模型研究中心的機構(gòu)之一，很多研究者還主導(dǎo)發(fā)表了第一篇關(guān)于基礎(chǔ)模型的論文，這些都令我很受鼓舞。

不過我出身于視覺智能方向，我一直在想，除了語言之外，其實還有非常大的空間可以發(fā)展。

因為人類很多重要能力，是依賴空間智能和對真實世界的理解完成的。你如果處在一個混亂的應(yīng)急救援場景里，不管是火災(zāi)、車禍還是自然災(zāi)害，你會發(fā)現(xiàn)人們組織救援、阻止災(zāi)情擴散、撲滅火勢，有大量能力是來自行動本身、來自對物體和環(huán)境的即時理解，還有對情境的把握。語言當然有用，但在很多情況下，光靠語言并不能讓你穿上消防服沖進去救人。

這就是我一直反復(fù)思考的問題。我同時還做了大量機器人研究，漸漸意識到，要打通語言之外的其他智能，要真正連接具身智能和視覺智能，關(guān)鍵就在于機器理解世界的空間能力。

在 2024 年的 TED 演講中，我談到空間智能和世界模型。其實這個想法早在 2022 年就開始成形了，來自我在機器人和計算機視覺方向的持續(xù)研究。后來我想得越來越清楚，我希望和最頂尖的技術(shù)人才合作，把這些能力盡快從實驗室?guī)У浆F(xiàn)實世界，于是我們創(chuàng)辦了 World Labs，名字里有 world，就是因為我們堅信世界建模和空間智能的巨大價值。

主持人：很多人對聊天機器人很熟悉，會覺得大型語言模型就是一種對話工具。那世界模型是不是可以理解成，你描述一個場景，它就能生成一個能隨意探索的世界？我們之后會附上你們的產(chǎn)品鏈接，不過這個理解準確嗎？算是世界模型的一部分嗎？

李飛飛：可以說是一部分。世界模型的一個直觀理解是，你可以用一句話或一張圖，在腦海中構(gòu)建出任何世界，并且可以在這個世界里互動，比如觀察、走動、拿起物體、調(diào)整場景，同時還能在里面進行推理。

如果使用這個世界模型的是機器人，它就應(yīng)該能規(guī)劃路線、整理廚房之類的。所以世界模型更像一個基礎(chǔ)平臺，你可以在上面推理、互動、創(chuàng)造各種世界。

主持人：你剛才說，要讓機器人真正能在現(xiàn)實世界里發(fā)揮作用，關(guān)鍵就在于理解世界的運行方式，這正是目前缺少的那一塊。

李飛飛：首先，我覺得受影響的不只是機器人，但你說得很對。世界建模和空間智能確實是具身智能短板所在。同時，我們也不應(yīng)該忽略人類本身作為具身主體的屬性，人類同樣能通過 AI 獲得能力提升。

就像人類是依賴語言的生物，AI 在語言方面已經(jīng)給我們提供了巨大幫助?？晌覀兺雎粤?，作為具身主體的人類，其實也能從世界模型和空間智能模型中受益匪淺，就和機器人一樣。

此外，這對設(shè)計領(lǐng)域也非常關(guān)鍵。人類在設(shè)計機器、建筑、家居用品等時都離不開對空間和物體的理解。再看看科學發(fā)現(xiàn)的過程，我特別想舉 DNA 結(jié)構(gòu)發(fā)現(xiàn)的例子。Rosalind Franklin 拍攝的那張 X 射線衍射照片非常關(guān)鍵，那是一張二維平面圖像，展示的是交叉的衍射圖案。研究者們正是結(jié)合這張照片和其他信息，通過三維空間推理，推導(dǎo)出了 DNA 雙螺旋的三維結(jié)構(gòu)。

這種復(fù)雜結(jié)構(gòu)不可能在二維層面得出，必須依賴三維空間思維和人類強大的空間智能。所以我認為，在科學發(fā)現(xiàn)領(lǐng)域，空間智能乃至 AI 輔助的空間智能同樣至關(guān)重要。

04
「慘痛教訓(xùn)」教不出機器人

主持人：那為什么說“慘痛教訓(xùn)”理論單獨用在機器人領(lǐng)域可能行不通？

首先，“慘痛教訓(xùn)”有不同的表述方式，但大家通常指的是 Richard S. Sutton 近期發(fā)表的那篇論文。他剛拿到圖靈獎，是強化學習領(lǐng)域非常重要的人物。Sutton 在論文里回顧了人工智能算法的發(fā)展，指出歷史上最終勝出的，往往是依賴海量數(shù)據(jù)的簡單模型，而不是依賴少量數(shù)據(jù)的復(fù)雜模型。

這篇論文是 ImageNet 之后很多年發(fā)表的。對我來說，它一點都不慘痛，甚至可以說是一種甜蜜的驗證。這正是我當初做 ImageNet 的原因，我本來就相信大數(shù)據(jù)的價值。

但你問為什么“慘痛教訓(xùn)”單獨放在機器人領(lǐng)域可能不太奏效，原因有幾個。首先，我們要肯定當前的進展。機器人研究還處于非常早期的實驗階段，遠不如語言模型成熟?，F(xiàn)在很多團隊都在嘗試不同的算法，其中有一些確實依賴大數(shù)據(jù)，所以大數(shù)據(jù)在機器人上依然會發(fā)揮作用。

不過機器人領(lǐng)域有一些特別的挑戰(zhàn)。第一是數(shù)據(jù)獲取難度更高。你可能會說現(xiàn)在可以用網(wǎng)絡(luò)視頻，確實最新的機器人研究開始這么做，這也能帶來一定幫助。但從我做計算機視覺和空間智能的角度來說，我真的很羨慕做自然語言處理的同事：他們的所有訓(xùn)練數(shù)據(jù)都是文字，模型輸出也是文字。

也就是說，訓(xùn)練數(shù)據(jù)和訓(xùn)練目標之間是完美對齊的。而機器人不是，空間智能也不是。我們的目標是讓機器人輸出動作，但訓(xùn)練數(shù)據(jù)里恰恰缺少三維世界里的動作信息，而動作是機器人必須具備的核心能力。

這就造成訓(xùn)練過程有點方枘圓鑿，我們必須用其他方式來補這個缺口，比如加入遠程操控的數(shù)據(jù)或生成的數(shù)據(jù)，讓機器人也能依靠海量數(shù)據(jù)進行學習。我認為這是有希望的，因為我們做的世界建模，未來會給機器人提供大量這樣的信息來源。

但我們也要保持冷靜，因為目前還在非常早期的階段，“慘痛教訓(xùn)”能不能在機器人領(lǐng)域完全成立，還需要時間驗證。畢竟我們還沒真正解決機器人需要的大規(guī)模數(shù)據(jù)問題。

還有一點需要記住，機器人是物理系統(tǒng)。這一點讓它們更像自動駕駛汽車，而不是大型語言模型。這點非常關(guān)鍵。讓機器人工作得很好，不只是軟件層面的事，還需要合適的硬件，以及明確的應(yīng)用場景。

想想自動駕駛汽車的發(fā)展：我的同事 Sebastian Thrun 帶著斯坦福團隊在 2005 年前后贏得了 DARPA 大賽。從那輛能在內(nèi)華達沙漠跑一百三十英里的原型車，到今天舊金山街頭能看到的 Waymo，已經(jīng)過了二十年，可我們?nèi)匀粵]有完全攻克自動駕駛。

而且自動駕駛比機器人簡單多了，自動駕駛只是讓一輛金屬盒子在二維平面上移動，目標是不撞任何東西。機器人則是在三維世界里運作的三維實體，它不僅不能撞東西，還要與物體互動。

所以機器人技術(shù)的推進要素更多、難度更高，發(fā)展的周期會更長。當然有人會說，自動駕駛早期還在深度學習出現(xiàn)之前，現(xiàn)在深度學習可能會加速整個進程，我同意這一點，這也是我對機器人和空間智能感到興奮的原因。但別忘了，汽車行業(yè)已經(jīng)非常成熟了，要規(guī)?；涞?，還需要成熟的供應(yīng)鏈、硬件體系和實際應(yīng)用場景。

所以現(xiàn)在正是研究這些問題的好時機。但你說得沒錯，我們大概率還會在機器人領(lǐng)域經(jīng)歷不少真正意義上的慘痛教訓(xùn)。

主持人：在做這些工作的時候，你會不會經(jīng)常對人類大腦感到敬畏？畢竟人類可以輕松完成很多復(fù)雜任務(wù)，而讓機器做到哪怕只是走路、不摔倒、不撞東西都這么難。這會不會讓你更加感嘆人類的能力？

李飛飛：當然。人類大腦的能耗大概只有二十瓦，甚至比我所在房間里的燈泡還暗，但它卻能做到那么多事情。事實上，我在 AI 里投入得越深，就越敬畏人類本身。

05
影子，與真正的世界

主持人：我們再來聊聊你們剛推出的產(chǎn)品 Marble。它究竟是什么？

李飛飛：Marble 是 World Labs 推出的第一款產(chǎn)品。World Labs 是一家專注前沿基礎(chǔ)模型的公司，由四位有深厚技術(shù)背景的創(chuàng)始人共同創(chuàng)辦。我的聯(lián)合創(chuàng)始人都來自人工智能、計算機圖形學和計算機視覺領(lǐng)域。我們一直相信，空間智能和世界建模的重要性不亞于語言模型，甚至在某些方面更有價值，而且兩者之間是相互支持的。

所以我們希望抓住這個機會，打造一個深度技術(shù)實驗室，讓前沿模型真正走向產(chǎn)品。Marble 就是基于我們構(gòu)建的前沿模型開發(fā)的應(yīng)用。我們花了一年多時間，構(gòu)建出了全球首個能夠真正生成三維世界的生成式模型。這件事的難度極高，研發(fā)過程也非常艱辛，我們的核心團隊來自許多頂尖技術(shù)團隊。

就在一兩個月前，我們第一次實現(xiàn)了用一句話、一張圖片或幾張圖片作為提示，生成一個可以自由探索的三維世界。如果你戴上 VR 眼鏡，還能真的走進去。這項技術(shù)我們已經(jīng)研究很久了，但當它真正成功的時候，我們自己都非常激動。

我們也希望把它交到需要的人手中。我們知道，創(chuàng)作者、設(shè)計師、機器人仿真研究者、游戲開發(fā)者，還有任何需要可導(dǎo)航、可交互、沉浸式世界的人，都會在其中發(fā)現(xiàn)價值。

所以我們發(fā)布了 Marble 作為第一步。雖然它仍處于早期，但已經(jīng)是全球第一個能做到這一點的模型，也是第一款讓用戶通過提示詞創(chuàng)建三維世界的產(chǎn)品。

作為做研究的人，這對我們來說也是一次學習。比如那些幫助用戶進入世界的“點”，其實是我們專門設(shè)計的可視化方式，不是模型本身。模型真正的任務(wù)是生成世界，而我們要找到方式讓用戶順利進入這個世界。

我們的工程師嘗試了多個版本，最后選定用點云來引導(dǎo)用戶。對我們來說，看到一個不是模型本身、而是用于用戶體驗設(shè)計的小功能這么受歡迎，是一種特別的成就感。

主持人：那如果有人現(xiàn)在就想體驗或使用 Marble，它已經(jīng)可以用在哪些場景里？你們這次推出的目標是什么？

李飛飛：首先是電影虛擬制作。影視團隊需要三維世界來做攝像機校準，讓演員在表演時，工作人員能準確控制鏡頭走位。我們已經(jīng)看到特別好的應(yīng)用效果。你在發(fā)布視頻中看到的內(nèi)容，就是由一家虛擬制作公司完成的，我們和索尼合作，他們用 Marble 實現(xiàn)了視頻拍攝。

技術(shù)藝術(shù)家和導(dǎo)演告訴我們，Marble 讓制作效率提高了大概四十倍。我們當時只有一個月時間完成這個項目，而且他們需要拍很多內(nèi)容。Marble 極大地加快了視覺特效和虛擬制作的流程。

第二個應(yīng)用是游戲開發(fā)。用戶可以把 Marble 生成的場景導(dǎo)出為網(wǎng)格文件，直接導(dǎo)入 VR 游戲或其他自研游戲里。我們已經(jīng)展示了相關(guān)案例。

第三個是機器人仿真。我一直在做機器人訓(xùn)練研究，其中最大的難題之一就是為訓(xùn)練生成合成數(shù)據(jù)。這些數(shù)據(jù)必須非常多樣化，要來自不同環(huán)境，還要包含豐富的可操作物體，而通過計算機仿真生成是最高效的方式。

如果不這樣做，人類必須手工創(chuàng)建每一個訓(xùn)練場景，工作量會指數(shù)級增長。已經(jīng)有研究團隊聯(lián)系到我們，希望用 Marble 來生成機器人訓(xùn)練需要的合成環(huán)境。

還有一些我們原本沒想到的應(yīng)用。例如有個心理學研究團隊找到我們，他們研究某些精神疾病患者，需要不同特點的沉浸式環(huán)境來觀察大腦反應(yīng)。但這類環(huán)境很難獲取，構(gòu)建起來也很費時，而 Marble 能幾乎即時生成大量這樣的實驗場景。

所以我們已經(jīng)看到不少清晰的應(yīng)用方向。視覺特效、游戲開發(fā)、仿真研究、設(shè)計領(lǐng)域的人都對 Marble 表現(xiàn)出強烈興趣。

主持人：那Marble 和其他視頻生成模型有什么區(qū)別？

李飛飛：World Labs 的核心理念是，空間智能非常重要，而空間智能絕不只是生成視頻。

視頻本質(zhì)上是一種被動呈現(xiàn)的二維畫面。我很喜歡用柏拉圖的“洞穴寓言”來解釋視覺。想象一個囚犯被固定在洞穴里的椅子上，不能回頭，只能看見墻壁；而洞穴外的真實世界里，人們在表演，光線把他們的影子投射到墻上，囚犯只能通過這些影子來揣測真實發(fā)生了什么。

這個例子雖然極端，但非常準確地刻畫了視覺的本質(zhì)。我們總是從二維畫面中去理解一個三維甚至四維的世界。而對我來說，空間智能不是生成二維內(nèi)容，而是讓模型具備生成、推理、交互、理解深度空間世界的能力。這正是 World Labs 專注的方向。

當然，生成視頻本身也屬于空間智能的一部分。就在幾周前，我們展示了全球首個能在單塊 H100 GPU 上實時生成視頻的演示。

所以我們的技術(shù)也能生成視頻，但 Marble 的核心區(qū)別在于：它讓創(chuàng)作者、設(shè)計師、開發(fā)者能夠使用一個真正具備三維結(jié)構(gòu)的世界生成模型，用它來完成自己的工作。這就是 Marble 與現(xiàn)有視頻生成模型最大的不同。

順便說一下，Marble 也支持導(dǎo)出視頻。比如你創(chuàng)建了一個霍比特人洞穴的世界，你可以根據(jù)自己的想法設(shè)計攝像機的移動軌跡，然后直接從 Marble 里導(dǎo)出這段視頻。

主持人：打造這樣一款產(chǎn)品需要什么條件？比如團隊規(guī)模大嗎？用到多少 GPU？

李飛飛：最核心的是“腦力”。每個人類的大腦功耗大概只有二十瓦，從數(shù)字上看很小，但正是億萬年的進化，讓我們擁有了這些能力。

我們目前的團隊大概三十人左右，主要是研究員和研究工程師，也有設(shè)計和產(chǎn)品方面的同事。我們始終相信，要打造一家以空間智能深度技術(shù)為核心的公司，同時也要交付真正能用的產(chǎn)品。所以我們讓研發(fā)和產(chǎn)品化緊密結(jié)合。當然，我們也用到了大量 GPU，這一點毫無疑問。

06
做前沿領(lǐng)域的無畏者

主持人：你的這家公司是什么時候成立的？兩三年前？

李飛飛：大概一年前，準確來說差不多十八個月。

主持人：如果你能回到十八個月前，對那時候的自己悄悄說一句話，你希望告訴自己什么？

李飛飛：我一直希望自己能提前洞察技術(shù)的未來。其實，能預(yù)見趨勢也是我們創(chuàng)業(yè)的優(yōu)勢之一，我們通常能比絕大多數(shù)人更早看到方向。但即便如此，未知的一切和未來的挑戰(zhàn)依然讓人既緊張又興奮。

我知道你問這個問題，更多是想聽聽我對技術(shù)未來的感悟。但其實從創(chuàng)業(yè)角度來看，我二十歲時也沒有創(chuàng)辦過這種規(guī)模的公司。十九歲的時候我開過一家干洗店，規(guī)模小太多了。后來我參與創(chuàng)立谷歌云的 AI 部門，也在斯坦福創(chuàng)辦了研究所，但這些經(jīng)歷和如今的創(chuàng)業(yè)完全不是一回事。

作為創(chuàng)業(yè)者，我覺得自己比二十歲左右的人更能承受這種高強度的節(jié)奏，但還是會不斷遇到意外。比如我沒想到 AI 領(lǐng)域的競爭會這么激烈，不管是模型、技術(shù)，還是人才，都卷得超乎想象。

創(chuàng)辦公司時，我也完全沒想到頂尖人才的成本會高到這種程度。這類事情不斷讓我重新認識現(xiàn)實，也逼著我時刻保持敏銳。

主持人：那對于那些希望在人生中做出突破、走在時代前沿的人來說，你從一個地方到另一個地方、加入這些核心團隊的過程，是否有一條持續(xù)貫穿的主線？也許能夠給大家一些啟發(fā)。

李飛飛：確實有。我也想過這個問題。很明顯，是好奇心和熱情把我?guī)肓?AI 領(lǐng)域，這更像是一種純粹的科學追求，我從不在乎 AI 當時是不是熱門。但至于我為什么會選那些特定的地方去工作，包括后來創(chuàng)辦 World Labs，背后有更深的原因。

我很慶幸自己是一個在求知上無所畏懼的人。我在招年輕人的時候也很看重這一點。因為如果一個人想推動改變，就必須接受自己要去創(chuàng)造新事物，要進入無人探索的領(lǐng)域。意識到這一點后，你就得學會讓自己無畏。

比如，當年我從普林斯頓跳槽到斯坦福時，我在普林斯頓的學術(shù)職位已經(jīng)快拿到終身教職，也就是所謂的鐵飯碗。但我還是選擇了回斯坦福，因為我熱愛那所學校，那里的同事非常優(yōu)秀，硅谷的生態(tài)也無比動人。我愿意冒險，從頭開始新的終身教職考核，還成為斯坦福人工智能實驗室的第一位女性主任。

那時我其實還算年輕，但我愿意這么做，因為我在乎那個社群，也沒花太多時間擔心失敗。當然，我很幸運，資深教員都非常支持我。我只是在努力為這個領(lǐng)域做一些事情。

后來加入谷歌也是類似的情況，我想和杰夫·迪恩、杰夫·辛頓這樣杰出的科學家共事。創(chuàng)辦 World Labs 也一樣，我對空間智能充滿熱情，也相信志同道合的人能夠一起創(chuàng)造出真正重要的東西。

所以這就是貫穿我職業(yè)生涯的主線：我不會過度擔心那些可能會出錯的事情，因為如果想把它們一條條想清楚，那可太多了。

主持人：你現(xiàn)在在斯坦福大學以人為本人工智能研究所主要負責哪些事務(wù)？

李飛飛：以人為本人工智能研究所是我和幾位教授在 2018 年共同創(chuàng)辦的。當時我剛結(jié)束在谷歌的休假，面臨一個重要決定：繼續(xù)留在行業(yè)，還是回到學術(shù)界。

在谷歌的經(jīng)歷讓我真正意識到，AI 已經(jīng)成為一項文明級別的技術(shù)，它對人類的重要性非常深遠。同一年，我在《紐約時報》發(fā)表了一篇文章，呼吁建立一套框架來指導(dǎo) AI 的研發(fā)和應(yīng)用，而這套框架必須以人類的善意和人的主體性為核心。

我認為，斯坦福作為全球頂尖學府，位于孕育了英偉達、谷歌等公司的硅谷中央，應(yīng)該承擔起思想領(lǐng)導(dǎo)的角色，建立這套以人為本的 AI 框架，并把它融入研究、教育、政策與生態(tài)建設(shè)。

如今六七年過去了，以人為本人工智能研究所已經(jīng)成為全球最大的 AI 研究所，專注于以人為中心的研究、教育、生態(tài)拓展和政策影響。研究所覆蓋斯坦福八個學院的數(shù)百位教授，領(lǐng)域從醫(yī)學、教育、可持續(xù)發(fā)展、商業(yè)，到工程、人文、法律等非常廣泛。

我們支持跨學科研究，從數(shù)字人文、法律與治理，到藥物研發(fā)和新型算法。同時，我們也非常重視政策工作。在創(chuàng)辦研究所時，我就注意到硅谷和華盛頓、布魯塞爾等政策制定者之間缺乏溝通。而 AI 這么重要，我們必須讓更多人參與進來。

主持人：聽你說完我才意識到，你做的事情遠比我想像的更多。這讓我想到 Charlie Munger 的那句話，“接受一個簡單的理念，并認真踐行它。” 你在多個領(lǐng)域通過不斷踐行自己的理念產(chǎn)生了非常深遠的影響。最后，你有什么想對聽眾說的嗎？

李飛飛：我對 AI 的未來非常期待。我想回答一個我在世界各地旅行時常被問到的問題：“如果我是音樂家、中學老師、護士、會計師或農(nóng)民，我在 AI 時代還有位置嗎？AI 會不會奪走我的生活或工作？”

我認為這是關(guān)于 AI 最關(guān)鍵的問題。在硅谷，我們常常沒有好好和外界交流，只是拋出“無限生產(chǎn)力”“無限閑暇”“無限權(quán)力”這樣的詞匯。但 AI 的根本是關(guān)于人的。

對這個問題，我的答案永遠是肯定的：每個人在 AI 時代都有自己的角色。你的位置取決于你想做什么、愿意做什么。任何技術(shù)都不應(yīng)剝奪人的尊嚴，人的主體性必須始終處于技術(shù)研發(fā)、部署和治理的中心。

如果你是年輕的藝術(shù)家，熱愛講故事，那就把 AI 當工具，用它來擴展你的創(chuàng)作邊界，甚至可以試試 Marble。你講故事的方式是獨特的，這個世界始終需要這樣的聲音，關(guān)鍵在于你如何用這項強大的工具更生動地表達它。

如果你是一位即將退休的農(nóng)民，AI 也與你密切相關(guān)。作為公民，你有權(quán)參與社區(qū)決策，對 AI 的使用方式發(fā)聲，也可以鼓勵周圍的人用 AI 讓生活更便利。

如果你是護士，我想特別告訴你，在我的職業(yè)生涯中，我投入了大量精力在醫(yī)療和健康研究上。我相信醫(yī)護人員理應(yīng)得到 AI 的支持，無論是提供更多信息的智能攝像頭，還是輔助照護的機器人。我們的護士太辛苦了，而隨著社會老齡化加劇，我們需要更多支持去照顧他人，AI 完全可以在這方面幫助我們。

所以我想說，即使作為一個深度參與技術(shù)的人，我也真心相信：每一個人，在 AI 時代都有屬于自己的位置。

主持人：這個結(jié)尾太精彩了，完美呼應(yīng)了我們開場時的主題。AI 的未來取決于我們每一個人，我們也要為它在生活中產(chǎn)生的影響承擔起責任。

博客地址：

https://www.lennysnewsletter.com/p/the-godmother-of-ai

視頻地址：

https://www.youtube.com/watch?v=Ctjiatnd6Xk

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.