国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛最新思考:語言模型救不了機器人

0
分享至



聊天模型卷不動未來,空間智能才是真正的戰(zhàn)場。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年里,AI 行業(yè)的節(jié)奏快得近乎失真。模型一次次刷新極限,產(chǎn)品迭代像在搶時間,討論從“推理成本”到“智能涌現(xiàn)”再到“AGI 時間表”,情緒在樂觀與焦慮之間來回擺動。

在這樣密集的技術(shù)周期里,很少有人愿意停下來思考一個更基本的問題:我們到底在追求怎樣的智能?語言之上,是否還有尚未被充分理解的能力?

一周前,李飛飛用一篇關(guān)于世界模型的長文把這個問題重新擺上了臺面,這篇文章沒有渲染革命,也沒有給出輕松的未來,它的分量在于指出當下技術(shù)正在繞開的那些硬骨頭:空間理解、物理推理、具身行為以及真實世界的不確定性,這些長期被回避的難題在文中被逐一攤開,也迅速 AI 圈內(nèi)部關(guān)于世界模型的激烈討論。

一周后,李飛飛在最新的訪談再次提及那篇文章里尚未說盡的部分,把那些自己反復(fù)思考卻在長文里無法完全展開的問題細致拆解,從語言模型在世界理解上的結(jié)構(gòu)性短板,到三維空間在智能形成中扮演的基礎(chǔ)角色,再到機器人長期停滯背后那些難以繞過的現(xiàn)實條件,她都給出了更具體的解釋。

隨著這些碎片化的線索被重新理順,這次訪談本身也像是那篇長文的延續(xù)與補全,讓外界得以更清楚地看到她真正關(guān)注的技術(shù)方向以及其中的邏輯。

對此,AI 科技評論將訪談內(nèi)容做了不改變原意的編譯:


01
從圖靈問題到深度學習的七十年

主持人:今天的嘉賓是李飛飛博士,被譽為 AI 教母。她一直是推動這場人工智能革命的關(guān)鍵人物,主導(dǎo)了許多重要突破。她牽頭創(chuàng)建了 ImageNet 數(shù)據(jù)集,提出了一個影響深遠的觀點,也就是人工智能要變得更聰明,需要海量而干凈的標注數(shù)據(jù)。這個數(shù)據(jù)集成為一個轉(zhuǎn)折點,為今天模型的訓(xùn)練方式和規(guī)?;於嘶A(chǔ)。她曾擔任谷歌云的首席 AI 科學家,參與并推動了早期多項重大技術(shù)的誕生。

她還在斯坦福大學領(lǐng)導(dǎo)人工智能實驗室,培養(yǎng)了很多頂尖人才。同時,她和同事共同創(chuàng)立了斯坦福以人為本人工智能研究所,這個機構(gòu)正深刻影響著未來 AI 的發(fā)展方向。她也曾在推特董事會任職,被《時代》雜志評為全球百位 AI 影響力人物,并入選聯(lián)合國顧問委員會。

李飛飛:謝謝,能來到這里我很開心。

主持人:我想先用一段評價來鋪墊一下背景?!哆B線》雜志說過,李飛飛是那一小群推動人工智能近年巨大進步的科學家之一,這個群體小到用一張餐桌都能坐下。很多人叫你 AI 教母,還有一點和許多 AI 領(lǐng)域的領(lǐng)導(dǎo)者不同,你對 AI 充滿樂觀。你不認為 AI 會取代人類,不會搶走所有工作,更不會帶來毀滅。所以我想先從這個問題開始,你覺得從長遠看,AI 會怎樣影響人類。

李飛飛:我可能要先澄清一下,我不是烏托邦主義者。我并不是說 AI 不會對就業(yè)或社會產(chǎn)生影響。事實上,我更愿意把自己稱為人文主義者。我一直相信,AI 現(xiàn)在能做什么、未來能走多遠,都取決于我們,都取決于人類自己。

如果把視角放到人類文明的長河中來看,技術(shù)整體上始終是推動力。我們是一個天生愛創(chuàng)新的物種,從最早的文字記載直到今天,人類一直在不斷發(fā)明、不斷改進工具。正是依靠這些,我們改善生活、提升工作方式、建設(shè)文明。

我堅信 AI 也是這條道路的一部分,這就是我保持樂觀的原因。不過任何技術(shù)都有兩面,如果我們作為物種、社會、社群、個人沒有做出正確選擇,也可能把事情帶到糟糕的方向。

我二十五年前就開始研究人工智能,過去二十年也在帶學生。幾乎每個從我實驗室畢業(yè)的學生,我都會提醒他們,你們研究的叫人工智能,可真正重要的部分從來不是人工,而是智能。

主持人:回到你剛才說的,AI 的未來走向取決于我們自己。你覺得我們需要做些什么,才能讓 AI 往正確的方向發(fā)展?我知道這是很難回答的問題,你有沒有一些建議?

李飛飛:我始終覺得,每個人都應(yīng)該做一個有責任感的個體。不管做什么,我們從小就教孩子要有責任心,作為成年人更要做到這一點。

無論你是在研發(fā)、部署還是使用 AI,甚至在技術(shù)越來越普及的情況下,大多數(shù)人都會在不同環(huán)節(jié)和 AI 打交道,都應(yīng)該帶著負責的態(tài)度,真正關(guān)心它的發(fā)展,而且是認真地關(guān)心。

現(xiàn)在,每個人都需要關(guān)注 AI,因為它會影響你的生活、你的社區(qū)、整個社會,甚至影響下一代。以負責任的心態(tài)去面對 AI,是第一步,也是最重要的一步。

主持人:那在 ImageNet 出現(xiàn)之前,AI 的世界是什么樣的?你為什么要創(chuàng)建它?它是如何成為后續(xù)革命的分水嶺的?從那之后又發(fā)生了什么?

李飛飛:老實說,我有時會忘了,對大多數(shù)人來說 AI 還是件相對新的事情。我這一生幾乎都在做 AI,從十幾歲因為好奇心走進這個領(lǐng)域,到今天它變成可能改變整個人類文明的技術(shù),我覺得這是非常幸運的事情。

不過嚴格來說,我不算第一代 AI 研究者。第一代 AI 要追溯到二十世紀五六十年代,甚至更早。在四十年代,Alan Turing 就已經(jīng)提出了一個相當前瞻的問題,我們能不能造出會思考的機器?他還提出了一種測試方法,也就是對話形式的機器測試。按照這個標準,我們現(xiàn)在確實已經(jīng)擁有能“對話”的機器了,不過那更像是一則具有啟發(fā)意義的小故事。

AI 真正作為一個學科起步是在五十年代,當時的計算機科學家們聚在一起,討論如何用程序和算法做一些原本只有人類才能完成的認知任務(wù)。

1956 年的達特茅斯會議被認為是 AI 的正式誕生點,John McCarthy 教授在那次會議上第一次提出“人工智能”一詞。從五十年代到八十年代,是 AI 的早期探索期,出現(xiàn)了邏輯系統(tǒng)、專家系統(tǒng),也開始有了對神經(jīng)網(wǎng)絡(luò)的初步嘗試。

到了八十年代末、九十年代到二十一世紀初,機器學習開始興起,它把計算機編程和統(tǒng)計學習結(jié)合到一起,帶來了一個非常重要的理念,也就是單靠規(guī)則和程序,是無法讓機器擁有我們期望的那種龐大認知能力的。

我們必須讓機器自己去學習模式。一旦它能學模式,就有希望延展能力。比如給它看三只貓,我們的目標不是讓它認出這三只,而是讓它能認出接下來無數(shù)只貓。這種學習能力是人類和動物的基本能力,AI 也應(yīng)該具備這一點。

我在二十一世紀初正式進入 AI 領(lǐng)域,2000 年在加州理工開始讀博士。我算是第一代機器學習研究者。當時我們已經(jīng)開始學習神經(jīng)網(wǎng)絡(luò)等概念,我在加州理工上的第一門課就是神經(jīng)網(wǎng)絡(luò),但學得非常吃力。當時正好處在“AI 寒冬”的中間階段,公眾并不關(guān)注,資金也有限,但同時也有很多有意思的新想法不斷冒出來。

而我之所以后來能和現(xiàn)代 AI 的起點緊密聯(lián)系在一起,主要有兩個原因。第一是我選擇從視覺智能來切入 AI。人類本質(zhì)上是高度依賴視覺的生物,我們的大部分智能都建立在視覺感知和空間理解上,不只是一種語言能力,這兩者是相輔相成的。

所以在博士階段和職業(yè)生涯的早期,我和學生們一直在研究一個核心問題,就是物體識別。因為物體識別是理解世界的基礎(chǔ)。我們在現(xiàn)實中行動、觀察、推理、互動,很大程度上都是基于“物體”這個層級的。我們不會在每次操作時把世界拆成分子層面,比如拿起茶壺時,你不會想著這東西由很多碎片組成,而是直接把它當作一個整體來互動。

但研究物體識別時,我們嘗試過各種數(shù)學模型,包括神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò),卻遇到了一個非常突出的瓶頸,就是數(shù)據(jù)不夠。那時整個領(lǐng)域大多把注意力放在模型本身上,可我漸漸意識到,人類的學習方式、甚至生物進化,都是一種不斷吸收大量經(jīng)驗的過程。

人通過接觸海量經(jīng)歷不斷學習,動物在進化時也是不斷體驗世界。因此,我和學生漸漸意識到,讓 AI 真正“活”起來,有一個被忽略但極其關(guān)鍵的因素,就是大規(guī)模數(shù)據(jù)。

于是我們在 2006 年和 2007 年啟動了 ImageNet 項目。當時我們非常有野心,想把互聯(lián)網(wǎng)上所有和物體相關(guān)的圖像都收集起來。當然,那時候互聯(lián)網(wǎng)規(guī)模還遠沒現(xiàn)在這么大,所以這個想法聽起來還算合理。放到今天,絕對不可能靠幾個學生和一個教授完成。

但我們真的做出來了。我們從互聯(lián)網(wǎng)上精挑細選了大約一千五百萬張圖像,借鑒了 WordNet 的體系,構(gòu)建了兩萬多個概念類別,最終形成了 ImageNet,并把它開源給全世界的研究者。我們還舉辦年度 ImageNet 挑戰(zhàn)賽,邀請大家一起參與,同時也繼續(xù)推進自己的研究。

2012 年被很多人視為現(xiàn)代深度學習的起點。那一年 Geoff Hinton 教授帶領(lǐng)多倫多大學團隊參加 ImageNet 挑戰(zhàn),他們用 ImageNet 的大數(shù)據(jù)和兩塊英偉達 GPU 訓(xùn)練出一個神經(jīng)網(wǎng)絡(luò)模型。雖然它沒有完全解決物體識別,但帶來了突破性的提升。

大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和 GPU 這三個因素疊加,成了現(xiàn)代 AI 的黃金組合。

快進到 ChatGPT 的發(fā)布,這是 AI 真正進入公眾視野的時刻。從技術(shù)角度看,ChatGPT 的出現(xiàn)依然離不開這三大核心要素,只是數(shù)據(jù)規(guī)模變成了互聯(lián)網(wǎng)級,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,用的 GPU 數(shù)量也更多,但底層的邏輯和原理并沒有改變。這三件事到現(xiàn)在仍然是現(xiàn)代 AI 的基石。

主持人:你當時就是覺得,要推動 AI 發(fā)展,ImageNet 必須做,然后就去做了。不過在那個時期,大家更常用的說法是機器學習,對嗎?

李飛飛:當時 AI 和機器學習這兩個詞是交替使用的。大概在 2015 年年中到 2016 年年中,一些科技公司會刻意回避用 AI 這個詞,因為他們擔心這個詞會不會變成負面標簽。但我一直鼓勵大家勇敢使用 AI 這個詞。因為在我看來,讓機器變得智能,是人類在科技探索中提出過最大膽的問題之一,我對這個詞非常自豪。不過確實,在早期,很多人是有顧慮的。

主持人:那是哪一年開始,AI 這個詞逐漸被廣泛接受的?

李飛飛:我覺得是2016 年吧那算是一個轉(zhuǎn)折點,那時起有些人開始愿意用 AI 這個詞了。再往后,如果你看硅谷公司的宣傳,大概 2017 年左右,才真正出現(xiàn)公司開始把自己定位成 AI 公司。

主持人:說到那段早期歷史,你覺得有沒有什么重要但大家可能不知道的事值得分享?

李飛飛:我覺得和所有歷史一樣,雖然我被視為這段發(fā)展的一部分,但背后有太多無名英雄和研究者。這是幾代人一起耕耘出來的結(jié)果。在我的職業(yè)生涯中,有無數(shù)人給過我啟發(fā),我在書里也提到過這些。

不過我們的文化,特別是硅谷文化,總習慣把功勞集中在某一個人身上。雖然這樣做有它的價值,但我想提醒大家,AI 的發(fā)展已經(jīng)持續(xù)了七十年,是好幾代研究者共同鋪出來的路,不可能靠某一個人的力量走到今天。

02
AI 的「人本」視角

主持人:你覺得我們距離 AGI 還有多遠?按照現(xiàn)在的發(fā)展趨勢,我們能實現(xiàn)它嗎?需要更多技術(shù)突破嗎?現(xiàn)有的技術(shù)路徑足夠支撐我們走到那一步嗎?

李飛飛:這是個很有意思的概念。我不確定有沒有誰真正給過 AGI 一個嚴謹?shù)亩x。不同的人有不同的理解,有人認為是讓機器擁有某種超能力,有人認為是讓機器成為社會里能獨立立足的主體,比如能自己創(chuàng)造價值。這樣的標準算是 AGI 嗎?

作為科學家,我習慣非常嚴謹?shù)乜创龁栴}。我進入這個領(lǐng)域,就是因為被“機器能否像人一樣思考和行動”這個大膽問題所吸引。對我來說,這一直是人工智能的核心目標。

從這個角度看,我不覺得 AI 和 AGI 有本質(zhì)區(qū)別。我們在某些方向上已經(jīng)取得了不錯的進展,比如對話系統(tǒng),但離全面實現(xiàn)人工智能還有一段距離。如果你現(xiàn)在去問 Alan Turing,他大概會說,這不就是我在二十世紀四十年代就提出的問題嗎。

所以我不想陷入對 AI 和 AGI 的定義之爭。在我看來,AGI 更像是營銷語言,而不是科學術(shù)語。對我來說,人工智能就是我所追求的目標,也是整個領(lǐng)域的真正目標。大家愿意怎么稱呼它都可以。

主持人:就像你前面說的,從 ImageNet 和 AlexNet 開始,我們靠著一些關(guān)鍵要素走到了今天,比如 GPU、數(shù)據(jù)、標注數(shù)據(jù)和模型算法,而 Transformer 架構(gòu)似乎也是這條路線上的重要一步。

你覺得這些現(xiàn)有要素能不能讓我們繼續(xù)做出強大十倍、足以改變世界的模型?我們還需要哪些突破?我知道我們待會會聊世界模型,那可能是其中一個方向,但除此之外,你覺得還有哪些瓶頸?換句話說,現(xiàn)在的技術(shù)是不是只要往上堆數(shù)據(jù)、堆算力、堆 GPU 就能繼續(xù)往前走?

李飛飛:我覺得我們一定需要更多創(chuàng)新。增加數(shù)據(jù)、增加 GPU、放大模型規(guī)模,這些方向當然還有空間,但我始終相信我們需要更多根本性的創(chuàng)新。

在人類的科學史上,沒有任何一門成熟的學科會說自己已經(jīng)不需要創(chuàng)新了。人工智能雖然已經(jīng)發(fā)展了幾十年,但相比其他學科,它仍然非常年輕,我們現(xiàn)在不過剛剛開始。

舉個例子,我們之后會聊世界模型。你給一個當前的模型看一段辦公室的視頻,讓它數(shù)清楚里面有多少把椅子,這對幼兒園小朋友或者小學生來說都不難,可 AI 現(xiàn)在還做不到。更別說像牛頓那樣,通過觀察天體運動推導(dǎo)出適用于所有物體的運動規(guī)律。

那種創(chuàng)造力、推理能力和抽象能力,我們現(xiàn)在完全無法讓機器具備。再看看情感智能,一個學生走進老師辦公室,談自己的動力、興趣、困擾,今天的對話系統(tǒng)在情緒理解和表達上還遠達不到這種水平。

所以我們還有太多可以提升的地方,我完全不認為創(chuàng)新已經(jīng)走到盡頭。

03
語言之外,智能世界模型登場

主持人:那你覺得什么是世界模型,它為什么如此重要?

李飛飛:我這一輩子都在思考怎么推動 AI 向前走。過去幾年,學界和像 OpenAI 這樣的機構(gòu)陸續(xù)推出的大型語言模型,對我這樣的長期研究者來說,都帶來了很強的啟發(fā)。

我記得 GPT-2 推出時是 2020 年底,當時我在斯坦福大學以人為本人工智能研究所擔任聯(lián)合主任,現(xiàn)在依然在這個崗位,不過那時是全職投入。那時候公眾還意識不到大型語言模型的潛力,但我們研究者已經(jīng)看到了未來的模樣。

我和做自然語言處理的同事們聊過很多次,我們都覺得這項技術(shù)的影響會非常深遠。斯坦福的以人為本人工智能研究所 是最早建立完整基礎(chǔ)模型研究中心的機構(gòu)之一,很多研究者還主導(dǎo)發(fā)表了第一篇關(guān)于基礎(chǔ)模型的論文,這些都令我很受鼓舞。

不過我出身于視覺智能方向,我一直在想,除了語言之外,其實還有非常大的空間可以發(fā)展。

因為人類很多重要能力,是依賴空間智能和對真實世界的理解完成的。你如果處在一個混亂的應(yīng)急救援場景里,不管是火災(zāi)、車禍還是自然災(zāi)害,你會發(fā)現(xiàn)人們組織救援、阻止災(zāi)情擴散、撲滅火勢,有大量能力是來自行動本身、來自對物體和環(huán)境的即時理解,還有對情境的把握。語言當然有用,但在很多情況下,光靠語言并不能讓你穿上消防服沖進去救人。

這就是我一直反復(fù)思考的問題。我同時還做了大量機器人研究,漸漸意識到,要打通語言之外的其他智能,要真正連接具身智能和視覺智能,關(guān)鍵就在于機器理解世界的空間能力。

在 2024 年的 TED 演講中,我談到空間智能和世界模型。其實這個想法早在 2022 年就開始成形了,來自我在機器人和計算機視覺方向的持續(xù)研究。后來我想得越來越清楚,我希望和最頂尖的技術(shù)人才合作,把這些能力盡快從實驗室?guī)У浆F(xiàn)實世界,于是我們創(chuàng)辦了 World Labs,名字里有 world,就是因為我們堅信世界建模和空間智能的巨大價值。

主持人:很多人對聊天機器人很熟悉,會覺得大型語言模型就是一種對話工具。那世界模型是不是可以理解成,你描述一個場景,它就能生成一個能隨意探索的世界?我們之后會附上你們的產(chǎn)品鏈接,不過這個理解準確嗎?算是世界模型的一部分嗎?

李飛飛:可以說是一部分。世界模型的一個直觀理解是,你可以用一句話或一張圖,在腦海中構(gòu)建出任何世界,并且可以在這個世界里互動,比如觀察、走動、拿起物體、調(diào)整場景,同時還能在里面進行推理。

如果使用這個世界模型的是機器人,它就應(yīng)該能規(guī)劃路線、整理廚房之類的。所以世界模型更像一個基礎(chǔ)平臺,你可以在上面推理、互動、創(chuàng)造各種世界。

主持人:你剛才說,要讓機器人真正能在現(xiàn)實世界里發(fā)揮作用,關(guān)鍵就在于理解世界的運行方式,這正是目前缺少的那一塊。

李飛飛:首先,我覺得受影響的不只是機器人,但你說得很對。世界建模和空間智能確實是具身智能短板所在。同時,我們也不應(yīng)該忽略人類本身作為具身主體的屬性,人類同樣能通過 AI 獲得能力提升。

就像人類是依賴語言的生物,AI 在語言方面已經(jīng)給我們提供了巨大幫助??晌覀兺雎粤?,作為具身主體的人類,其實也能從世界模型和空間智能模型中受益匪淺,就和機器人一樣。

此外,這對設(shè)計領(lǐng)域也非常關(guān)鍵。人類在設(shè)計機器、建筑、家居用品等時都離不開對空間和物體的理解。再看看科學發(fā)現(xiàn)的過程,我特別想舉 DNA 結(jié)構(gòu)發(fā)現(xiàn)的例子。Rosalind Franklin 拍攝的那張 X 射線衍射照片非常關(guān)鍵,那是一張二維平面圖像,展示的是交叉的衍射圖案。研究者們正是結(jié)合這張照片和其他信息,通過三維空間推理,推導(dǎo)出了 DNA 雙螺旋的三維結(jié)構(gòu)。

這種復(fù)雜結(jié)構(gòu)不可能在二維層面得出,必須依賴三維空間思維和人類強大的空間智能。所以我認為,在科學發(fā)現(xiàn)領(lǐng)域,空間智能乃至 AI 輔助的空間智能同樣至關(guān)重要。

04
「慘痛教訓(xùn)」教不出機器人

主持人:那為什么說“慘痛教訓(xùn)”理論單獨用在機器人領(lǐng)域可能行不通?

首先,“慘痛教訓(xùn)”有不同的表述方式,但大家通常指的是 Richard S. Sutton 近期發(fā)表的那篇論文。他剛拿到圖靈獎,是強化學習領(lǐng)域非常重要的人物。Sutton 在論文里回顧了人工智能算法的發(fā)展,指出歷史上最終勝出的,往往是依賴海量數(shù)據(jù)的簡單模型,而不是依賴少量數(shù)據(jù)的復(fù)雜模型。

這篇論文是 ImageNet 之后很多年發(fā)表的。對我來說,它一點都不慘痛,甚至可以說是一種甜蜜的驗證。這正是我當初做 ImageNet 的原因,我本來就相信大數(shù)據(jù)的價值。

但你問為什么“慘痛教訓(xùn)”單獨放在機器人領(lǐng)域可能不太奏效,原因有幾個。首先,我們要肯定當前的進展。機器人研究還處于非常早期的實驗階段,遠不如語言模型成熟?,F(xiàn)在很多團隊都在嘗試不同的算法,其中有一些確實依賴大數(shù)據(jù),所以大數(shù)據(jù)在機器人上依然會發(fā)揮作用。

不過機器人領(lǐng)域有一些特別的挑戰(zhàn)。第一是數(shù)據(jù)獲取難度更高。你可能會說現(xiàn)在可以用網(wǎng)絡(luò)視頻,確實最新的機器人研究開始這么做,這也能帶來一定幫助。但從我做計算機視覺和空間智能的角度來說,我真的很羨慕做自然語言處理的同事:他們的所有訓(xùn)練數(shù)據(jù)都是文字,模型輸出也是文字。

也就是說,訓(xùn)練數(shù)據(jù)和訓(xùn)練目標之間是完美對齊的。而機器人不是,空間智能也不是。我們的目標是讓機器人輸出動作,但訓(xùn)練數(shù)據(jù)里恰恰缺少三維世界里的動作信息,而動作是機器人必須具備的核心能力。

這就造成訓(xùn)練過程有點方枘圓鑿,我們必須用其他方式來補這個缺口,比如加入遠程操控的數(shù)據(jù)或生成的數(shù)據(jù),讓機器人也能依靠海量數(shù)據(jù)進行學習。我認為這是有希望的,因為我們做的世界建模,未來會給機器人提供大量這樣的信息來源。

但我們也要保持冷靜,因為目前還在非常早期的階段,“慘痛教訓(xùn)”能不能在機器人領(lǐng)域完全成立,還需要時間驗證。畢竟我們還沒真正解決機器人需要的大規(guī)模數(shù)據(jù)問題。

還有一點需要記住,機器人是物理系統(tǒng)。這一點讓它們更像自動駕駛汽車,而不是大型語言模型。這點非常關(guān)鍵。讓機器人工作得很好,不只是軟件層面的事,還需要合適的硬件,以及明確的應(yīng)用場景。

想想自動駕駛汽車的發(fā)展:我的同事 Sebastian Thrun 帶著斯坦福團隊在 2005 年前后贏得了 DARPA 大賽。從那輛能在內(nèi)華達沙漠跑一百三十英里的原型車,到今天舊金山街頭能看到的 Waymo,已經(jīng)過了二十年,可我們?nèi)匀粵]有完全攻克自動駕駛。

而且自動駕駛比機器人簡單多了,自動駕駛只是讓一輛金屬盒子在二維平面上移動,目標是不撞任何東西。機器人則是在三維世界里運作的三維實體,它不僅不能撞東西,還要與物體互動。

所以機器人技術(shù)的推進要素更多、難度更高,發(fā)展的周期會更長。當然有人會說,自動駕駛早期還在深度學習出現(xiàn)之前,現(xiàn)在深度學習可能會加速整個進程,我同意這一點,這也是我對機器人和空間智能感到興奮的原因。但別忘了,汽車行業(yè)已經(jīng)非常成熟了,要規(guī)?;涞?,還需要成熟的供應(yīng)鏈、硬件體系和實際應(yīng)用場景。

所以現(xiàn)在正是研究這些問題的好時機。但你說得沒錯,我們大概率還會在機器人領(lǐng)域經(jīng)歷不少真正意義上的慘痛教訓(xùn)。

主持人:在做這些工作的時候,你會不會經(jīng)常對人類大腦感到敬畏?畢竟人類可以輕松完成很多復(fù)雜任務(wù),而讓機器做到哪怕只是走路、不摔倒、不撞東西都這么難。這會不會讓你更加感嘆人類的能力?

李飛飛:當然。人類大腦的能耗大概只有二十瓦,甚至比我所在房間里的燈泡還暗,但它卻能做到那么多事情。事實上,我在 AI 里投入得越深,就越敬畏人類本身。

05
影子,與真正的世界

主持人:我們再來聊聊你們剛推出的產(chǎn)品 Marble。它究竟是什么?

李飛飛:Marble 是 World Labs 推出的第一款產(chǎn)品。World Labs 是一家專注前沿基礎(chǔ)模型的公司,由四位有深厚技術(shù)背景的創(chuàng)始人共同創(chuàng)辦。我的聯(lián)合創(chuàng)始人都來自人工智能、計算機圖形學和計算機視覺領(lǐng)域。我們一直相信,空間智能和世界建模的重要性不亞于語言模型,甚至在某些方面更有價值,而且兩者之間是相互支持的。

所以我們希望抓住這個機會,打造一個深度技術(shù)實驗室,讓前沿模型真正走向產(chǎn)品。Marble 就是基于我們構(gòu)建的前沿模型開發(fā)的應(yīng)用。我們花了一年多時間,構(gòu)建出了全球首個能夠真正生成三維世界的生成式模型。這件事的難度極高,研發(fā)過程也非常艱辛,我們的核心團隊來自許多頂尖技術(shù)團隊。

就在一兩個月前,我們第一次實現(xiàn)了用一句話、一張圖片或幾張圖片作為提示,生成一個可以自由探索的三維世界。如果你戴上 VR 眼鏡,還能真的走進去。這項技術(shù)我們已經(jīng)研究很久了,但當它真正成功的時候,我們自己都非常激動。

我們也希望把它交到需要的人手中。我們知道,創(chuàng)作者、設(shè)計師、機器人仿真研究者、游戲開發(fā)者,還有任何需要可導(dǎo)航、可交互、沉浸式世界的人,都會在其中發(fā)現(xiàn)價值。

所以我們發(fā)布了 Marble 作為第一步。雖然它仍處于早期,但已經(jīng)是全球第一個能做到這一點的模型,也是第一款讓用戶通過提示詞創(chuàng)建三維世界的產(chǎn)品。

作為做研究的人,這對我們來說也是一次學習。比如那些幫助用戶進入世界的“點”,其實是我們專門設(shè)計的可視化方式,不是模型本身。模型真正的任務(wù)是生成世界,而我們要找到方式讓用戶順利進入這個世界。

我們的工程師嘗試了多個版本,最后選定用點云來引導(dǎo)用戶。對我們來說,看到一個不是模型本身、而是用于用戶體驗設(shè)計的小功能這么受歡迎,是一種特別的成就感。

主持人:那如果有人現(xiàn)在就想體驗或使用 Marble,它已經(jīng)可以用在哪些場景里?你們這次推出的目標是什么?

李飛飛:首先是電影虛擬制作。影視團隊需要三維世界來做攝像機校準,讓演員在表演時,工作人員能準確控制鏡頭走位。我們已經(jīng)看到特別好的應(yīng)用效果。你在發(fā)布視頻中看到的內(nèi)容,就是由一家虛擬制作公司完成的,我們和索尼合作,他們用 Marble 實現(xiàn)了視頻拍攝。

技術(shù)藝術(shù)家和導(dǎo)演告訴我們,Marble 讓制作效率提高了大概四十倍。我們當時只有一個月時間完成這個項目,而且他們需要拍很多內(nèi)容。Marble 極大地加快了視覺特效和虛擬制作的流程。

第二個應(yīng)用是游戲開發(fā)。用戶可以把 Marble 生成的場景導(dǎo)出為網(wǎng)格文件,直接導(dǎo)入 VR 游戲或其他自研游戲里。我們已經(jīng)展示了相關(guān)案例。

第三個是機器人仿真。我一直在做機器人訓(xùn)練研究,其中最大的難題之一就是為訓(xùn)練生成合成數(shù)據(jù)。這些數(shù)據(jù)必須非常多樣化,要來自不同環(huán)境,還要包含豐富的可操作物體,而通過計算機仿真生成是最高效的方式。

如果不這樣做,人類必須手工創(chuàng)建每一個訓(xùn)練場景,工作量會指數(shù)級增長。已經(jīng)有研究團隊聯(lián)系到我們,希望用 Marble 來生成機器人訓(xùn)練需要的合成環(huán)境。

還有一些我們原本沒想到的應(yīng)用。例如有個心理學研究團隊找到我們,他們研究某些精神疾病患者,需要不同特點的沉浸式環(huán)境來觀察大腦反應(yīng)。但這類環(huán)境很難獲取,構(gòu)建起來也很費時,而 Marble 能幾乎即時生成大量這樣的實驗場景。

所以我們已經(jīng)看到不少清晰的應(yīng)用方向。視覺特效、游戲開發(fā)、仿真研究、設(shè)計領(lǐng)域的人都對 Marble 表現(xiàn)出強烈興趣。

主持人:那Marble 和其他視頻生成模型有什么區(qū)別?

李飛飛:World Labs 的核心理念是,空間智能非常重要,而空間智能絕不只是生成視頻。

視頻本質(zhì)上是一種被動呈現(xiàn)的二維畫面。我很喜歡用柏拉圖的“洞穴寓言”來解釋視覺。想象一個囚犯被固定在洞穴里的椅子上,不能回頭,只能看見墻壁;而洞穴外的真實世界里,人們在表演,光線把他們的影子投射到墻上,囚犯只能通過這些影子來揣測真實發(fā)生了什么。

這個例子雖然極端,但非常準確地刻畫了視覺的本質(zhì)。我們總是從二維畫面中去理解一個三維甚至四維的世界。而對我來說,空間智能不是生成二維內(nèi)容,而是讓模型具備生成、推理、交互、理解深度空間世界的能力。這正是 World Labs 專注的方向。

當然,生成視頻本身也屬于空間智能的一部分。就在幾周前,我們展示了全球首個能在單塊 H100 GPU 上實時生成視頻的演示。

所以我們的技術(shù)也能生成視頻,但 Marble 的核心區(qū)別在于:它讓創(chuàng)作者、設(shè)計師、開發(fā)者能夠使用一個真正具備三維結(jié)構(gòu)的世界生成模型,用它來完成自己的工作。這就是 Marble 與現(xiàn)有視頻生成模型最大的不同。

順便說一下,Marble 也支持導(dǎo)出視頻。比如你創(chuàng)建了一個霍比特人洞穴的世界,你可以根據(jù)自己的想法設(shè)計攝像機的移動軌跡,然后直接從 Marble 里導(dǎo)出這段視頻。

主持人:打造這樣一款產(chǎn)品需要什么條件?比如團隊規(guī)模大嗎?用到多少 GPU?

李飛飛:最核心的是“腦力”。每個人類的大腦功耗大概只有二十瓦,從數(shù)字上看很小,但正是億萬年的進化,讓我們擁有了這些能力。

我們目前的團隊大概三十人左右,主要是研究員和研究工程師,也有設(shè)計和產(chǎn)品方面的同事。我們始終相信,要打造一家以空間智能深度技術(shù)為核心的公司,同時也要交付真正能用的產(chǎn)品。所以我們讓研發(fā)和產(chǎn)品化緊密結(jié)合。當然,我們也用到了大量 GPU,這一點毫無疑問。

06
做前沿領(lǐng)域的無畏者

主持人:你的這家公司是什么時候成立的?兩三年前?

李飛飛:大概一年前,準確來說差不多十八個月。

主持人:如果你能回到十八個月前,對那時候的自己悄悄說一句話,你希望告訴自己什么?

李飛飛:我一直希望自己能提前洞察技術(shù)的未來。其實,能預(yù)見趨勢也是我們創(chuàng)業(yè)的優(yōu)勢之一,我們通常能比絕大多數(shù)人更早看到方向。但即便如此,未知的一切和未來的挑戰(zhàn)依然讓人既緊張又興奮。

我知道你問這個問題,更多是想聽聽我對技術(shù)未來的感悟。但其實從創(chuàng)業(yè)角度來看,我二十歲時也沒有創(chuàng)辦過這種規(guī)模的公司。十九歲的時候我開過一家干洗店,規(guī)模小太多了。后來我參與創(chuàng)立谷歌云的 AI 部門,也在斯坦福創(chuàng)辦了研究所,但這些經(jīng)歷和如今的創(chuàng)業(yè)完全不是一回事。

作為創(chuàng)業(yè)者,我覺得自己比二十歲左右的人更能承受這種高強度的節(jié)奏,但還是會不斷遇到意外。比如我沒想到 AI 領(lǐng)域的競爭會這么激烈,不管是模型、技術(shù),還是人才,都卷得超乎想象。

創(chuàng)辦公司時,我也完全沒想到頂尖人才的成本會高到這種程度。這類事情不斷讓我重新認識現(xiàn)實,也逼著我時刻保持敏銳。

主持人:那對于那些希望在人生中做出突破、走在時代前沿的人來說,你從一個地方到另一個地方、加入這些核心團隊的過程,是否有一條持續(xù)貫穿的主線?也許能夠給大家一些啟發(fā)。

李飛飛:確實有。我也想過這個問題。很明顯,是好奇心和熱情把我?guī)肓?AI 領(lǐng)域,這更像是一種純粹的科學追求,我從不在乎 AI 當時是不是熱門。但至于我為什么會選那些特定的地方去工作,包括后來創(chuàng)辦 World Labs,背后有更深的原因。

我很慶幸自己是一個在求知上無所畏懼的人。我在招年輕人的時候也很看重這一點。因為如果一個人想推動改變,就必須接受自己要去創(chuàng)造新事物,要進入無人探索的領(lǐng)域。意識到這一點后,你就得學會讓自己無畏。

比如,當年我從普林斯頓跳槽到斯坦福時,我在普林斯頓的學術(shù)職位已經(jīng)快拿到終身教職,也就是所謂的鐵飯碗。但我還是選擇了回斯坦福,因為我熱愛那所學校,那里的同事非常優(yōu)秀,硅谷的生態(tài)也無比動人。我愿意冒險,從頭開始新的終身教職考核,還成為斯坦福人工智能實驗室的第一位女性主任。

那時我其實還算年輕,但我愿意這么做,因為我在乎那個社群,也沒花太多時間擔心失敗。當然,我很幸運,資深教員都非常支持我。我只是在努力為這個領(lǐng)域做一些事情。

后來加入谷歌也是類似的情況,我想和杰夫·迪恩、杰夫·辛頓這樣杰出的科學家共事。創(chuàng)辦 World Labs 也一樣,我對空間智能充滿熱情,也相信志同道合的人能夠一起創(chuàng)造出真正重要的東西。

所以這就是貫穿我職業(yè)生涯的主線:我不會過度擔心那些可能會出錯的事情,因為如果想把它們一條條想清楚,那可太多了。

主持人:你現(xiàn)在在斯坦福大學以人為本人工智能研究所主要負責哪些事務(wù)?

李飛飛:以人為本人工智能研究所是我和幾位教授在 2018 年共同創(chuàng)辦的。當時我剛結(jié)束在谷歌的休假,面臨一個重要決定:繼續(xù)留在行業(yè),還是回到學術(shù)界。

在谷歌的經(jīng)歷讓我真正意識到,AI 已經(jīng)成為一項文明級別的技術(shù),它對人類的重要性非常深遠。同一年,我在《紐約時報》發(fā)表了一篇文章,呼吁建立一套框架來指導(dǎo) AI 的研發(fā)和應(yīng)用,而這套框架必須以人類的善意和人的主體性為核心。

我認為,斯坦福作為全球頂尖學府,位于孕育了英偉達、谷歌等公司的硅谷中央,應(yīng)該承擔起思想領(lǐng)導(dǎo)的角色,建立這套以人為本的 AI 框架,并把它融入研究、教育、政策與生態(tài)建設(shè)。

如今六七年過去了,以人為本人工智能研究所已經(jīng)成為全球最大的 AI 研究所,專注于以人為中心的研究、教育、生態(tài)拓展和政策影響。研究所覆蓋斯坦福八個學院的數(shù)百位教授,領(lǐng)域從醫(yī)學、教育、可持續(xù)發(fā)展、商業(yè),到工程、人文、法律等非常廣泛。

我們支持跨學科研究,從數(shù)字人文、法律與治理,到藥物研發(fā)和新型算法。同時,我們也非常重視政策工作。在創(chuàng)辦研究所時,我就注意到硅谷和華盛頓、布魯塞爾等政策制定者之間缺乏溝通。而 AI 這么重要,我們必須讓更多人參與進來。

主持人:聽你說完我才意識到,你做的事情遠比我想像的更多。這讓我想到 Charlie Munger 的那句話,“接受一個簡單的理念,并認真踐行它。” 你在多個領(lǐng)域通過不斷踐行自己的理念產(chǎn)生了非常深遠的影響。最后,你有什么想對聽眾說的嗎?

李飛飛:我對 AI 的未來非常期待。我想回答一個我在世界各地旅行時常被問到的問題:“如果我是音樂家、中學老師、護士、會計師或農(nóng)民,我在 AI 時代還有位置嗎?AI 會不會奪走我的生活或工作?”

我認為這是關(guān)于 AI 最關(guān)鍵的問題。在硅谷,我們常常沒有好好和外界交流,只是拋出“無限生產(chǎn)力”“無限閑暇”“無限權(quán)力”這樣的詞匯。但 AI 的根本是關(guān)于人的。

對這個問題,我的答案永遠是肯定的:每個人在 AI 時代都有自己的角色。你的位置取決于你想做什么、愿意做什么。任何技術(shù)都不應(yīng)剝奪人的尊嚴,人的主體性必須始終處于技術(shù)研發(fā)、部署和治理的中心。

如果你是年輕的藝術(shù)家,熱愛講故事,那就把 AI 當工具,用它來擴展你的創(chuàng)作邊界,甚至可以試試 Marble。你講故事的方式是獨特的,這個世界始終需要這樣的聲音,關(guān)鍵在于你如何用這項強大的工具更生動地表達它。

如果你是一位即將退休的農(nóng)民,AI 也與你密切相關(guān)。作為公民,你有權(quán)參與社區(qū)決策,對 AI 的使用方式發(fā)聲,也可以鼓勵周圍的人用 AI 讓生活更便利。

如果你是護士,我想特別告訴你,在我的職業(yè)生涯中,我投入了大量精力在醫(yī)療和健康研究上。我相信醫(yī)護人員理應(yīng)得到 AI 的支持,無論是提供更多信息的智能攝像頭,還是輔助照護的機器人。我們的護士太辛苦了,而隨著社會老齡化加劇,我們需要更多支持去照顧他人,AI 完全可以在這方面幫助我們。

所以我想說,即使作為一個深度參與技術(shù)的人,我也真心相信:每一個人,在 AI 時代都有屬于自己的位置。

主持人:這個結(jié)尾太精彩了,完美呼應(yīng)了我們開場時的主題。AI 的未來取決于我們每一個人,我們也要為它在生活中產(chǎn)生的影響承擔起責任。

博客地址:

https://www.lennysnewsletter.com/p/the-godmother-of-ai

視頻地址:

https://www.youtube.com/watch?v=Ctjiatnd6Xk


未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中共中央紀委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風肅紀工作的通知》

中共中央紀委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風肅紀工作的通知》

新京報
2025-12-24 16:09:07
泰國防長不點名批評:有些國家聲稱保持中立,實際上在幫柬埔寨

泰國防長不點名批評:有些國家聲稱保持中立,實際上在幫柬埔寨

觀星賞月
2025-12-24 12:37:23
北京樓市放大招!新政發(fā)布當晚有購房人馬上預(yù)約看房,專家:對二套改善人群友好

北京樓市放大招!新政發(fā)布當晚有購房人馬上預(yù)約看房,專家:對二套改善人群友好

時代周報
2025-12-24 20:20:10
澤連斯基:烏克蘭不會放棄加入北約

澤連斯基:烏克蘭不會放棄加入北約

新華社
2025-12-24 18:57:04
Lisa舞臺爭議:藝術(shù)表達還是低俗表演?

Lisa舞臺爭議:藝術(shù)表達還是低俗表演?

娛曉曉
2025-12-22 17:02:07
為什么中國和俄國的歷史學界,都認為《尼布楚條約》是自家吃虧?

為什么中國和俄國的歷史學界,都認為《尼布楚條約》是自家吃虧?

文史道
2025-12-22 13:29:06
新進展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

新進展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

社會日日鮮
2025-12-24 06:20:47
癱子娘、瘋子爹!744分高考狀元被清華錄取8年后,現(xiàn)狀令人淚目

癱子娘、瘋子爹!744分高考狀元被清華錄取8年后,現(xiàn)狀令人淚目

阿柒的訊
2025-12-22 18:46:40
網(wǎng)友吐槽沈陽掃雪車弄臟路旁私家車,當?shù)鼗貞?yīng):難免出現(xiàn)該情況,表示歉意

網(wǎng)友吐槽沈陽掃雪車弄臟路旁私家車,當?shù)鼗貞?yīng):難免出現(xiàn)該情況,表示歉意

極目新聞
2025-12-24 18:41:04
長期腦力工作的人會沉迷簡單的體力勞動!網(wǎng)友:像是發(fā)現(xiàn)了新大陸

長期腦力工作的人會沉迷簡單的體力勞動!網(wǎng)友:像是發(fā)現(xiàn)了新大陸

另子維愛讀史
2025-12-23 16:31:52
外蒙為何反華?如今寧可餓死也不向東大靠攏?

外蒙為何反華?如今寧可餓死也不向東大靠攏?

扶蘇聊歷史
2025-12-24 10:09:43
明年養(yǎng)老金繼續(xù)漲?人社部部長表態(tài)了!累計繳費30年以上能多漲嗎

明年養(yǎng)老金繼續(xù)漲?人社部部長表態(tài)了!累計繳費30年以上能多漲嗎

甜檸聊史
2025-12-24 18:23:34
曝柬埔寨GDP的40%來自電詐,幕后金主疑為華人資本,網(wǎng)友炸鍋

曝柬埔寨GDP的40%來自電詐,幕后金主疑為華人資本,網(wǎng)友炸鍋

胡嚴亂語
2025-12-23 19:15:27
阿隆索糾錯!皇馬6000萬前鋒蛻變:邊緣人晉升主力 全隊受益

阿隆索糾錯!皇馬6000萬前鋒蛻變:邊緣人晉升主力 全隊受益

葉青足球世界
2025-12-24 07:58:11
靈魂拷問:徐院長與“徐小姐”,究竟是何關(guān)系?

靈魂拷問:徐院長與“徐小姐”,究竟是何關(guān)系?

西門老爹
2025-12-24 11:50:15
霍啟剛沒想到,44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

霍啟剛沒想到,44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

榮亭小吏
2025-12-24 11:45:24
養(yǎng)老院65歲大媽半夜哭喊下身疼,被送往急診,醫(yī)生檢查后:報警!

養(yǎng)老院65歲大媽半夜哭喊下身疼,被送往急診,醫(yī)生檢查后:報警!

第四思維
2025-09-02 09:31:36
澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

向航說
2025-12-24 00:20:02
順德魚生是淡水生魚片,不擔心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

順德魚生是淡水生魚片,不擔心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

夜深愛雜談
2025-12-23 17:35:17
美烏20條“和平協(xié)議”內(nèi)容曝光,雙方都做了讓步

美烏20條“和平協(xié)議”內(nèi)容曝光,雙方都做了讓步

史政先鋒
2025-12-24 18:29:42
2025-12-24 22:16:49
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

韓國財閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

頭條要聞

韓國財閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

本地
時尚
數(shù)碼
旅游
公開課

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

快點告別“媽媽裝”!50+女性的冬季穿搭靈感,每一套都超美

數(shù)碼要聞

手機太小,平板太大?華為MatePad Mini給出年終出行最優(yōu)解

旅游要聞

北海市海絲首港將上演跨年煙花秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版