国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VLA死了,遙操也死了!英偉達(dá)機(jī)器人一號(hào)位說的

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

VLA已死,世界動(dòng)作模型當(dāng)立。遙操已死,人類的傳感器數(shù)據(jù)長(zhǎng)存。

在今年的紅杉AI Ascent 2026上,Jim Fan只用了20分鐘,就給機(jī)器人行業(yè)連開了兩場(chǎng)“葬禮”。

第一場(chǎng),送別過去三年幾乎統(tǒng)治具身智能的VLA;第二場(chǎng),送別所有人以為還能再吃很多年的遙操作。

作為現(xiàn)任英偉達(dá)機(jī)器人方向負(fù)責(zé)人,Jim Fan去年還在同一張講臺(tái)上講機(jī)器人如何通過測(cè)試。今年,他已經(jīng)開始討論——

舊范式怎么死,新范式怎么立。

而這一新范式在Jim眼里,很大程度上得靠抄LLM的作業(yè)。

預(yù)訓(xùn)練模擬下一個(gè)世界狀態(tài),對(duì)應(yīng)LLM的next token prediction;

動(dòng)作微調(diào)校準(zhǔn)對(duì)真實(shí)機(jī)器人有價(jià)值的部分,對(duì)應(yīng)supervised finetuning;

最后,由強(qiáng)化學(xué)習(xí)完成最后一里路。



過去一段時(shí)間,英偉達(dá)陸續(xù)放出EgoScale、DreamDojo、Dream Zero等一系列工作,幾乎以一己之力定義了具身智能2026年的走向。

而在這場(chǎng)名叫Robotics: Endgame(機(jī)器人聯(lián)盟,終局之戰(zhàn))的演講中,則匯聚了Jim Fan關(guān)于VLA世界模型遙操作UMIegocentric仿真Scaling Law等機(jī)器人領(lǐng)域思考的最新沉淀,十分值得一看。

以下是演講核心觀點(diǎn)摘錄:

  • VLA已死,WAM將作為新的預(yù)訓(xùn)練范式。
  • 未來一到兩年,遙操占比會(huì)降到幾乎可以忽略不計(jì)。機(jī)器人的「主食」會(huì)變成第一視角人類視頻,整個(gè)數(shù)據(jù)范式轉(zhuǎn)向Sensorized Human Data(人類傳感器數(shù)據(jù))。
  • 人類第一視角視頻成功啟示了機(jī)器人領(lǐng)域的scaling law,英偉達(dá)將徹底押注第一視角人類視頻。
  • 算力=環(huán)境=數(shù)據(jù)。
  • 機(jī)器人科技樹只剩三個(gè)成就待解鎖,物理圖靈測(cè)試(2-3年內(nèi))、Physical API、Physical Auto Research,2040年有望全部點(diǎn)亮。

以下為演講全文。

(為方便閱讀,做了適當(dāng)?shù)臐?rùn)色與刪減)

機(jī)器人聯(lián)盟:終局之戰(zhàn)

2016年的一個(gè)夏日,我就在我們現(xiàn)在坐的辦公室里。有一個(gè)身穿亮皮夾克、手臂粗壯的家伙,舉著一個(gè)大金屬托盤。

他在上面寫道:致Elon和OpenAI團(tuán)隊(duì),致計(jì)算與人類的未來,我將向你們展示世界上第一臺(tái)DGX1。

那是我第一次見到黃仁勛。和任何優(yōu)秀的實(shí)習(xí)生一樣,我迫不及待地排隊(duì)簽上自己的名字。

你能找到嗎?我的名字在這里,還有Andrej Karpathy的名字。



那時(shí),我完全不知道自己將要經(jīng)歷什么。而接下來的事情,沒人能比Ilya本人描述得更好:

如果你相信深度學(xué)習(xí),那它也會(huì)相信你。



果然,他們對(duì)深度學(xué)習(xí)的信念感染了我們每一個(gè)人。

三步函數(shù),六年時(shí)間,這就是我們到今天的全部歷程。



第一步(2020年),GPT-3預(yù)訓(xùn)練。預(yù)測(cè)下一個(gè)詞元(next token prediction)主要是學(xué)習(xí)語法規(guī)則,理解語言結(jié)構(gòu),模擬思想、代碼和字符串的展開方式。

第二步(2022年),InstructGPT(指令GPT)通過監(jiān)督微調(diào)對(duì)模擬進(jìn)行校準(zhǔn),使其能夠執(zhí)行實(shí)際任務(wù),或使用強(qiáng)化學(xué)習(xí)超越模仿學(xué)習(xí)。

第三步(2026年),自動(dòng)化研究(autoresearch)加速整個(gè)循環(huán),超越人類能力。

正如Andrej所說,所有付出都在向最終目標(biāo)沖刺,對(duì)于LMS(語言模型系統(tǒng))來說,他們正處于終局階段。



老實(shí)說,我非常羨慕,看Andrej的笑容就知道他有多開心。

語言模型團(tuán)隊(duì)正在享受他們的巔峰時(shí)刻,他們正在極速開發(fā)AGI(通用人工智能),并將路上的創(chuàng)造稱之為“神話(myhtos)”。

那為什么搞機(jī)器人的不能也享受這種樂趣呢?

作為自尊心強(qiáng)的科學(xué)家,我復(fù)制了他們的思路并將它重新命名——“大平行(Great Parallel)”。

我們不再模擬字符串,而是模擬物理世界的下一個(gè)狀態(tài)(next physical world state),然后通過動(dòng)作微調(diào)(action finetuning)校準(zhǔn)模擬中對(duì)真實(shí)機(jī)器人有價(jià)值的部分,并讓強(qiáng)化學(xué)習(xí)完成最后一里路。



大平行就是復(fù)制語言模型的成功策略。打不過他們,就加入。

接下來的章節(jié)就到了——機(jī)器人聯(lián)盟:終局之戰(zhàn)(Robotics:The End Game)。

抱歉,我忍不住開個(gè)小玩笑,香蕉太有趣了,感謝哈薩比斯。



如何玩轉(zhuǎn)終局?歸結(jié)為兩點(diǎn):模型策略(models trategy)和數(shù)據(jù)策略(data strategy)。



先看模型策略。過去三年,視覺-語言-動(dòng)作模型(VisualLanguageActionModels,VLA)占據(jù)主導(dǎo),Pi和Gr00t等模型也屬于這一類。




我們假設(shè)預(yù)訓(xùn)練由VLM(視覺語言模型,Visual Language Model)完成,然后在其上添加動(dòng)作頭(action head)。

但實(shí)際上,這些模型都是LVA(語言視覺動(dòng)作模型,Language Visual Action),大部分參數(shù)用于語言,使語言成為核心,其次是視覺和動(dòng)作。

在VLA里,語言才是一等公民,視覺和動(dòng)作只能靠邊站。



設(shè)計(jì)上,VLA更擅長(zhǎng)編碼知識(shí)和名詞,但在物理和動(dòng)詞方面表現(xiàn)不足,有點(diǎn)「頭重腳輕」。

我最喜歡VLA原論文(RT-2)中的例子,把代碼移動(dòng)到泰勒·斯威夫特(TaylorSwift)的圖片上。

它從未見過她,卻能泛化,但這并不是我們想要的預(yù)訓(xùn)練能力。



那么,第二條預(yù)訓(xùn)練范式是什么?

我們認(rèn)為,第二種預(yù)訓(xùn)練范式理應(yīng)應(yīng)該非常美麗,但不幸的是,它變成了AI視頻垃圾(AI Video Slop),比如看貓咪在監(jiān)控?cái)z像頭上彈班卓琴。

這雖然表面上看很娛樂,但沒人認(rèn)真對(duì)待它,直到我們意識(shí)到這些視頻模型實(shí)際上在內(nèi)部學(xué)習(xí)模擬下一個(gè)世界狀態(tài)。

這是Veo3的一些例子,模型自動(dòng)學(xué)習(xí)了重力、浮力、光照、反射、折射等物理規(guī)律,沒有顯式編碼,通過大規(guī)模預(yù)測(cè)下一團(tuán)像素,物理規(guī)律自己涌現(xiàn)了,視覺規(guī)劃也自然出現(xiàn)。



Veo-3是如何解決這些物體的?通過在像素空間前向模擬。特別注意右下角,這是我最喜歡的例子。Veo3超聰明,它能發(fā)現(xiàn)如果你沒看,幾何就是可選的。我稱之為“物理垃圾(physics slop)”。

如何讓這些世界模型有用?我們通過動(dòng)作微調(diào),將所有可能的未來狀態(tài)的疊加(superposition)壓縮到對(duì)真實(shí)機(jī)器人有價(jià)值的部分。

于是,就有了Dream Zero。



Dream Zero是一種全新的策略模型。它會(huì)先“夢(mèng)”到未來幾秒鐘里可能發(fā)生什么,然后再據(jù)此做出動(dòng)作。

要知道,機(jī)器人的運(yùn)動(dòng)控制本質(zhì)上是一組高維、連續(xù)的信號(hào)。從某種意義上說,它和像素并沒有本質(zhì)區(qū)別,都可以被看作連續(xù)變化的數(shù)據(jù)流。

所以,我們可以像渲染視頻一樣,同時(shí)把動(dòng)作也渲染出來。

Dream Zero能同時(shí)解碼兩個(gè)東西,下一刻的世界狀態(tài),以及下一步該執(zhí)行的動(dòng)作。

也正因?yàn)槿绱?,它能夠零樣本(zero-shot)完成那些訓(xùn)練中從未見過的新任務(wù)、新動(dòng)作。

更有意思的是,當(dāng)機(jī)器人真正開始執(zhí)行時(shí),我們甚至可以實(shí)時(shí)“看到”它正在想什么,而且這種相關(guān)性非常緊密。

如果視頻預(yù)測(cè)是對(duì)的,動(dòng)作通常就是對(duì)的;?如果視頻開始幻覺,動(dòng)作也往往會(huì)失敗。

所以,也直到這里,視覺和行動(dòng)才第一次真正坐到了一張桌子上。

我們后來用Dream Zero做了很多有趣的實(shí)驗(yàn),就讓機(jī)器人在實(shí)驗(yàn)室里到處轉(zhuǎn),然后往prompt輸入框里隨便打各種指令,看看它會(huì)怎么做。

當(dāng)然,Dream Zero現(xiàn)在還做不到把每個(gè)任務(wù)都100%穩(wěn)定完成。

不過,它有點(diǎn)像GPT-2,雖然未必每次都精準(zhǔn),但它幾乎總能先把動(dòng)作的大致“形狀”做對(duì)。

Dream Zero,是我們邁向機(jī)器人“開放式任務(wù)”和“開放詞匯提示”(open-ended, open-vocabulary prompting)的第一步。

我們把這類全新的模型稱為:World Action Models,簡(jiǎn)稱WAM——世界動(dòng)作模型。

所以此刻,讓我們一起為我們的老朋友VLA 默哀片刻。



它們?cè)?jīng)很好地服務(wù)過我們。安息吧,VLA。VLA已死,WAM當(dāng)立。

而要實(shí)現(xiàn)WAM,接下來要拼的,就是下一代數(shù)據(jù)策略。

畫面里的這個(gè)人,是Bill Dally,正在我們實(shí)驗(yàn)室里親自做遙操作。



考慮到他的薪水,我敢說這大概是我們整個(gè)數(shù)據(jù)集里,成本最高的一條遙操作軌跡。

過去三年,機(jī)器人領(lǐng)域幾乎被遙操所統(tǒng)治。那簡(jiǎn)直是遙操的黃金時(shí)代。

各種VR頭顯、為低延遲串流做極致優(yōu)化的系統(tǒng)、還有那些結(jié)構(gòu)復(fù)雜、看起來像中世紀(jì)刑具一樣的遙操作設(shè)備。

整個(gè)行業(yè)砸了大量資金。也經(jīng)受了大量痛苦。

但問題是遙操的數(shù)據(jù)產(chǎn)能從物理上就有上限。理論上,一臺(tái)機(jī)器人一天最多也就24小時(shí)的數(shù)據(jù)。

但說實(shí)話,如果現(xiàn)實(shí)里每臺(tái)機(jī)器人一天能穩(wěn)定采到3小時(shí),就已經(jīng)謝天謝地了。



而且前提還是——機(jī)器人之神今天心情不錯(cuò)。因?yàn)檫@些家伙,真的隔三差五就鬧脾氣(機(jī)器人故障)。

那問題來了,我們還能做得更好嗎?

有人的答案是直接把機(jī)器人的手,戴在你自己的手上。

這套系統(tǒng)叫UMI(Universal Manipulation Interface,通用操作接口)。

它的想法簡(jiǎn)單得近乎狡猾你把機(jī)器人穿在自己手上。你的手怎么動(dòng),機(jī)器人就怎么動(dòng)。與此同時(shí),把機(jī)器人其余身體部分,統(tǒng)統(tǒng)從數(shù)據(jù)采集閉環(huán)里拿掉。

換句話說,直接用人類的手,去采機(jī)器人需要的數(shù)據(jù)。

在我看來,UMI可能是機(jī)器人數(shù)據(jù)領(lǐng)域最偉大的論文之一。而它最終催生了兩家獨(dú)角獸公司。



左邊,是Generalist團(tuán)隊(duì)成員把這個(gè)設(shè)計(jì)進(jìn)一步優(yōu)化?,F(xiàn)在,你可以直接把機(jī)械夾爪戴在自己的手上。

右邊,則是Sunday做出的三指數(shù)據(jù)手套。

而去年,我們又往前邁了一步。我們?cè)O(shè)計(jì)出了一套外骨骼(exoskeleton)系統(tǒng),它和五指靈巧機(jī)器人手之間,能夠做到1:1映射。

我們把它叫做DexUMI,來看實(shí)際效果。



左邊,是最傳統(tǒng)也最快的數(shù)據(jù)采集方式,人類直接完成操作,永遠(yuǎn)是最快的。

右邊,是遙操作。你會(huì)發(fā)現(xiàn)這有多難。畫面里這位操作員,是我們團(tuán)隊(duì)最熟練的PhD之一。

即便如此,他仍然得極其小心地對(duì)齊、校準(zhǔn)。整個(gè)過程又慢又累。而且,成功率也不高。

中間,就是我們的方案。你只需要戴上這套外骨骼,直接完成動(dòng)作,數(shù)據(jù)就同步被采集下來。然后,我們用這些數(shù)據(jù)訓(xùn)練機(jī)器人策略模型。

而你現(xiàn)在看到的,是一個(gè)完全自主執(zhí)行的機(jī)器人策略。最關(guān)鍵的是它訓(xùn)練過程中,使用的遙操數(shù)據(jù)是零。

這意味著,我們第一次打破了那個(gè)機(jī)器人領(lǐng)域的詛咒,每臺(tái)機(jī)器人每天最多只能采24小時(shí)數(shù)據(jù)。而且你看這些機(jī)器人有多開心。因?yàn)椋鼈兘K于不用再親自參與數(shù)據(jù)采集了。

但問題來了,這就是終點(diǎn)嗎?我們真的解決了機(jī)器人的scaling問題嗎?

在場(chǎng)有人開Tesla或Waymo嗎?開車的時(shí)候,其實(shí)你一直都在參與世界上最大的物理數(shù)據(jù)飛輪。

更妙的是,你甚至感覺不到。尤其是在Tesla FSD工作的時(shí)候,數(shù)據(jù)上傳,是一個(gè)悄無聲息、在后臺(tái)自動(dòng)完成的過程。

但戴著UMI這種數(shù)據(jù)穿戴設(shè)備呢?

說實(shí)話,還是太麻煩了。它依然是侵入式的。遠(yuǎn)沒有每天開車去上班那樣自然。所以,我們需要一個(gè)屬于機(jī)器人的FSD等價(jià)物。

我們需要讓數(shù)據(jù)采集,徹底退出前臺(tái),融入背景,悄無聲息地發(fā)生。只有這樣,我們才能真正捕捉到,人類靈巧操作最完整的樣子。

不只是實(shí)驗(yàn)室。而是各行各業(yè),而是所有具備經(jīng)濟(jì)價(jià)值的勞動(dòng)場(chǎng)景。

基于此,我們徹底押注在第一視角人類視頻(human egocentric videos)。并且給這些視頻加入精細(xì)的手部位置追蹤;高密度語言標(biāo)注。



我們把這套訓(xùn)練范式叫做EgoScale。在EgoScale中,99.9%的訓(xùn)練數(shù)據(jù),全部來自人類第一視角視頻。

最終的結(jié)果是一個(gè)真正end-to-end的機(jī)器人策略模型。它能夠直接從攝像頭像素輸入,映射到擁有22個(gè)高自由度的靈巧機(jī)器人手。一句話就是,從“看見”,直接到“動(dòng)手”。

你現(xiàn)在看到的,就是一個(gè)完全自主執(zhí)行的機(jī)器人。



在預(yù)訓(xùn)練階段,我們用EgoScale,在2.1萬小時(shí)的真實(shí)世界第一視角人類數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。沒有使用任何機(jī)器人數(shù)據(jù)。

在預(yù)訓(xùn)練過程中模型學(xué)習(xí)去預(yù)測(cè)手部關(guān)節(jié)位置和手腕姿態(tài)。



到了動(dòng)作微調(diào)階段,我們只額外采集了50小時(shí)的高精度數(shù)據(jù)手套數(shù)據(jù)以及4小時(shí)的遙操數(shù)據(jù),這甚至不到整個(gè)訓(xùn)練數(shù)據(jù)混合中的0.1%。



而靠著EgoScale,模型已經(jīng)能夠泛化到各種高度靈巧的任務(wù)。比如,整理撲克牌、操作注射器、精準(zhǔn)轉(zhuǎn)移液體。說不定哪天,家里的機(jī)器人護(hù)士,真會(huì)因此出現(xiàn)。

更有意思的是,對(duì)于像折襯衫這種任務(wù),模型在測(cè)試階段只需要一次示范就能學(xué)會(huì)全新的折疊策略。

這篇論文里,也許最令人興奮的發(fā)現(xiàn)是,我們第一次發(fā)現(xiàn)了“機(jī)器人靈巧性”的神經(jīng)scaling law。

它描述的是預(yù)訓(xùn)練時(shí)長(zhǎng),與最優(yōu)驗(yàn)證損失之間的關(guān)系。這個(gè)關(guān)系,漂亮得驚人。



它幾乎是一條完美的log-linear(對(duì)數(shù)線性)曲線。距離語言模型第一次發(fā)現(xiàn)neural scaling law,已經(jīng)過去整整六年。

如今,機(jī)器人,也終于有了自己的scaling law。如果把這些數(shù)據(jù)策略畫成一張圖:X軸,和機(jī)器人硬件的對(duì)齊程度;Y軸,可擴(kuò)展性。



那大概會(huì)是這樣,遙操作在最左下角。它最貼近機(jī)器人硬件,但幾乎最難擴(kuò)展。

再往上,是數(shù)據(jù)穿戴設(shè)備,它大概能擴(kuò)展到幾十萬小時(shí)。

而再往上,是第一視角視頻如果我們真的能跑通機(jī)器人版的動(dòng)駕駛飛輪,那它的規(guī)模,輕輕松松就能達(dá)到千萬小時(shí)級(jí)。

如果在圖上畫一條線,那這條線左邊,代表的是機(jī)器人的新范式Sensorized Human Data,人類的傳感器數(shù)據(jù)。

所以,我想大膽做幾個(gè)預(yù)測(cè)未來一到兩年,遙操的占比會(huì)越來越低。低到幾乎可以忽略不計(jì)。

接下來,會(huì)出現(xiàn)大量針對(duì)不同機(jī)器人硬件、不同場(chǎng)景量身定制的數(shù)據(jù)穿戴設(shè)備。

而最終,機(jī)器人的“主食”,會(huì)變成第一視角人類視頻。

所以,讓我們?cè)俅螢槲覀兊睦吓笥眩b操,默哀片刻。



它曾經(jīng)很好地服務(wù)過我們。安息吧。遙操已死。人類傳感器數(shù)據(jù)長(zhǎng)存。

但數(shù)據(jù)策略,到這里就結(jié)束了嗎?沒有。

你注意到我畫了兩層圓。那外圈是什么?



今天,所有前沿實(shí)驗(yàn)室都在砸重金購(gòu)買數(shù)百萬個(gè)代碼環(huán)境用來做強(qiáng)化學(xué)習(xí)。

機(jī)器人也一樣。我們迫切需要海量環(huán)境。

當(dāng)然,你也可以直接在真實(shí)機(jī)器人上做RL。在我們的實(shí)驗(yàn)室里,我們用RL把某些任務(wù)推到了接近100%成功率。

機(jī)器人可以連續(xù)執(zhí)行幾個(gè)小時(shí)不停。說實(shí)話,看著機(jī)器人自己默默組裝GPU,還有點(diǎn)治愈。

正如一位智者說的Good boi(這項(xiàng)任務(wù),已經(jīng)通過老板審批。)



但問題是,如果機(jī)器人也想像今天的大模型一樣,把強(qiáng)化學(xué)習(xí)真正推向百萬環(huán)境的規(guī)模,傳統(tǒng)路線幾乎走不通。

因?yàn)榘催^去的做法,100萬個(gè)環(huán)境幾乎就意味著你得先準(zhǔn)備100萬臺(tái)機(jī)器人,這在成本、維護(hù)、部署上顯然都是不現(xiàn)實(shí)的。

于是,我們開始尋找一條全新的路。

比如,你只需要拿出一臺(tái)iPhone,隨手拍下一張現(xiàn)實(shí)世界的照片,再把它送進(jìn)一套3D world scanning pipeline(3D世界掃描管線),系統(tǒng)就能自動(dòng)識(shí)別場(chǎng)景中的所有物體,提取它們的三維結(jié)構(gòu),并進(jìn)一步把這些物體自動(dòng)重建到經(jīng)典物理模擬器里。

更關(guān)鍵的是,這些被重建出來的物體不是靜態(tài)模型,而是真正可以被交互、被操作、被碰撞的數(shù)字實(shí)體。

接下來,研究人員還可以基于這些場(chǎng)景無限擴(kuò)增各種變體,他們把這些變體稱為Digital Cousins。

到了這一步,iPhone不再只是手機(jī),而變成了一個(gè)真正意義上的“口袋世界掃描儀”。

而整個(gè)流程,也被命名為Real→Sim→Real——從真實(shí)世界出發(fā),進(jìn)入仿真,再回到真實(shí)世界。

靠著這套方法,機(jī)器人終于第一次擁有了一種可以規(guī)模化地把物理世界搬進(jìn)數(shù)字世界的能力。

但即便如此,這套方案本質(zhì)上依然建立在傳統(tǒng)的圖形學(xué)模擬器之上。

那么,我們還能不能再往前走一步?

來吧!Dream Dojo。

Dream Dojo是一套建立在視頻world model之上的、真正意義上的神經(jīng)模擬器,它接收輸入的不再是傳統(tǒng)物理參數(shù),而是一連串連續(xù)的動(dòng)作信號(hào);



而輸出的,則是機(jī)器人下一刻將會(huì)看到的RGB視頻畫面,以及對(duì)應(yīng)的傳感器狀態(tài),并且這一切都是實(shí)時(shí)生成的。

換句話說,你此刻看到的畫面里,沒有一個(gè)像素是真的。

Dream Dojo能夠通過一種純粹數(shù)據(jù)驅(qū)動(dòng)的方式,直接捕捉并學(xué)會(huì)不同機(jī)器人背后的運(yùn)動(dòng)機(jī)制和動(dòng)力學(xué)規(guī)律,整個(gè)過程里,沒有任何物理方程參與,也沒有任何圖形學(xué)引擎介入。

因此,機(jī)器人正在進(jìn)入一個(gè)全新的post-training范式。

少量真實(shí)機(jī)器人站點(diǎn)負(fù)責(zé)在物理世界中持續(xù)采集高價(jià)值交互數(shù)據(jù),而另一端則是大規(guī)模并行運(yùn)行的graphics cores、world scans以及高強(qiáng)度推理計(jì)算,共同支撐世界模型的持續(xù)迭代。



在這個(gè)新范式里,有一個(gè)極其關(guān)鍵的等式正在成立——

算力=環(huán)境=數(shù)據(jù)。

也就是說,算力正在變成環(huán)境,環(huán)境正在變成數(shù)據(jù),而數(shù)據(jù)本身又反過來定義下一輪算力投入,整個(gè)過程開始像自動(dòng)駕駛里的FSD flywheel一樣形成自我強(qiáng)化的飛輪。

正如老板半開玩笑地總結(jié)的那樣“買得越多,省得越多?!碑?dāng)然,這句話也已經(jīng)通過他的審批。



把這一切拼在一起,你會(huì)發(fā)現(xiàn),機(jī)器人正在走上一條和大模型幾乎完全平行的進(jìn)化路徑,而且這一切不是未來式,而是此刻正在發(fā)生。

我們眼前看到的,也許正是機(jī)器人終局之戰(zhàn)的開端。

我一直最喜歡《文明》,并且喜歡把自己的研究想象成在文明科技樹上不斷解鎖成就。

如果按照我的判斷,機(jī)器人這棵科技樹上,現(xiàn)在只剩下最后三個(gè)成就等待被點(diǎn)亮,只要全部解鎖,我就可以退休了。

第一個(gè)成就,叫做物理圖靈測(cè)試。



所謂物理圖靈測(cè)試,說白了就是在足夠豐富、足夠復(fù)雜的現(xiàn)實(shí)任務(wù)里,人類已經(jīng)無法僅靠觀察去判斷,眼前完成工作的到底是人類,還是機(jī)器人。

它并不神秘,無非就是單位能源輸入,單位勞動(dòng)力輸出。只要同樣的能量輸入能夠產(chǎn)出同等級(jí)的勞動(dòng)價(jià)值,機(jī)器人就真正通過了物理世界里的圖靈測(cè)試。

也許喝醉的人類不算在內(nèi),而看看今天機(jī)器人那些還有些“僵硬甚至略顯性感”的動(dòng)作姿態(tài),我們顯然還有很多工作要做,但如果一切順利,他認(rèn)為這件事距離我們可能只剩下兩到三年。

第二個(gè)成就,叫做Physical API。



那時(shí)候,機(jī)器人將不再是一臺(tái)臺(tái)獨(dú)立存在的機(jī)器,而會(huì)像今天的軟件服務(wù)一樣,變成一種真正可編程、可調(diào)用、可編排的基礎(chǔ)設(shè)施。

你擁有的可能不再是一臺(tái)機(jī)器人,而是一整個(gè)艦隊(duì),而你控制它們的方式,也不再是按鈕和控制器,而是API、CLI以及更高級(jí)的編制系統(tǒng)。

也許某一天,這一切甚至?xí)杀冉裉旄鼜?qiáng)大的agent,比如Opus4.6,統(tǒng)一進(jìn)行調(diào)度。

而一旦Physical API真正出現(xiàn),很多今天聽起來像科幻的東西都會(huì)迅速落地。

比如所謂的Lighthouse Factories——燈塔工廠,它們本質(zhì)上不再是流水線,而更像“原子打印機(jī)”,你輸入的不再是CAD圖紙,甚至不需要復(fù)雜工程文件,而可能只是一份markdown文檔,輸出的卻是已經(jīng)完全組裝好的實(shí)體產(chǎn)品,整個(gè)過程完全自主完成;

又比如wet labs,也就是自動(dòng)化濕實(shí)驗(yàn)室,機(jī)器人將獨(dú)立完成化學(xué)實(shí)驗(yàn)、生物實(shí)驗(yàn)?zāi)酥了幬镅邪l(fā),把科學(xué)發(fā)現(xiàn)的速度推到人類實(shí)驗(yàn)室從未達(dá)到過的高度。

而最后一個(gè),也是機(jī)器人科技樹上的終極成就,叫做Physical Auto Research。



到了那一天,機(jī)器人將不再只是執(zhí)行人類交給它們的任務(wù),它們會(huì)開始自己設(shè)計(jì)自己,自己優(yōu)化自己,自己制造下一代自己,并且迭代速度將遠(yuǎn)遠(yuǎn)超越任何人類工程團(tuán)隊(duì)所能達(dá)到的極限。

聽到這里,你也許會(huì)覺得,這聽起來已經(jīng)太像科幻了,我們這一代人真的有機(jī)會(huì)看到嗎?

從2012年AlexNet完成第一次forward pass開始,那個(gè)連貓和狗都分得磕磕絆絆的模型。

到今天,整個(gè)AI community只用了14年,就走到了agentic AI時(shí)代。

而今天是2026年,如果機(jī)器人也遵循類似的指數(shù)曲線,那我們不妨再給它14年,2026年剛好站在2012年和2040年的正中間,而技術(shù)從來不是線性前進(jìn)的,它永遠(yuǎn)以指數(shù)形式爆發(fā)。



所以,我有95%的把握,在2040年之前,我們會(huì)真正走到機(jī)器人科技樹的終點(diǎn),而等那一天到來時(shí),我們依然年輕。

如果你相信機(jī)器人,機(jī)器人終將回應(yīng)你的相信。

我們的這一代人,也許出生得太晚,沒趕上探索地球,也出生得太早,還沒趕上探索星辰,但我們出生得剛剛好,因?yàn)槲覀冋泌s上,去解決機(jī)器人。

演講鏈接
[1]https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一旦裝上心臟支架,還能活多少年?醫(yī)生不再隱瞞,說出了實(shí)話

一旦裝上心臟支架,還能活多少年?醫(yī)生不再隱瞞,說出了實(shí)話

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-05-01 23:20:56
暫停使用!已陪伴廣州人22年!街坊:不舍

暫停使用!已陪伴廣州人22年!街坊:不舍

廣州生活美食圈
2026-05-08 11:47:10
格里爾貿(mào)易代表被問:中國(guó)下令不許企業(yè)聽從美制裁,你們準(zhǔn)備咋辦

格里爾貿(mào)易代表被問:中國(guó)下令不許企業(yè)聽從美制裁,你們準(zhǔn)備咋辦

云鵬敘事
2026-05-08 21:52:32
生活由普京擔(dān)保,來中國(guó)療養(yǎng),葉利欽人生中最后那8年過得怎樣?

生活由普京擔(dān)保,來中國(guó)療養(yǎng),葉利欽人生中最后那8年過得怎樣?

云霄紀(jì)史觀
2026-04-25 20:20:46
日本有一個(gè)地方叫中國(guó)

日本有一個(gè)地方叫中國(guó)

新科文
2026-04-29 14:35:10
歐美白人正被“換種”,背后原因不寒而栗

歐美白人正被“換種”,背后原因不寒而栗

云石
2026-05-07 22:04:33
美國(guó)解密UFO檔案,目擊1.2米外星人戴頭盔,接觸者擔(dān)憂人身安全

美國(guó)解密UFO檔案,目擊1.2米外星人戴頭盔,接觸者擔(dān)憂人身安全

譯言
2026-05-09 08:34:31
騎士vs活塞G3前瞻:低迷哈登再遇考驗(yàn),騎士欲捍衛(wèi)季后賽主場(chǎng)不敗

騎士vs活塞G3前瞻:低迷哈登再遇考驗(yàn),騎士欲捍衛(wèi)季后賽主場(chǎng)不敗

新殺豬的秀才
2026-05-09 17:05:03
河南博物院洗手間被指毫無隱私,女士進(jìn)入洗手間必須路過男士小便池區(qū)域;回應(yīng):深表歉意,立馬整改

河南博物院洗手間被指毫無隱私,女士進(jìn)入洗手間必須路過男士小便池區(qū)域;回應(yīng):深表歉意,立馬整改

環(huán)球網(wǎng)資訊
2026-05-09 11:06:24
山東女孩放學(xué)回家路上失蹤,連續(xù)5天給母親托夢(mèng):我就在鍋里

山東女孩放學(xué)回家路上失蹤,連續(xù)5天給母親托夢(mèng):我就在鍋里

紙鳶奇譚
2025-01-26 17:18:28
歌手2026首發(fā)陣容官宣!鄭欣宜強(qiáng)勢(shì)復(fù)出!

歌手2026首發(fā)陣容官宣!鄭欣宜強(qiáng)勢(shì)復(fù)出!

廣州正嘢
2026-05-09 14:46:18
老人是否長(zhǎng)壽,看這7條就夠了,占的越多越長(zhǎng)壽,你占幾條?

老人是否長(zhǎng)壽,看這7條就夠了,占的越多越長(zhǎng)壽,你占幾條?

暖風(fēng)吹過竹林
2026-05-09 14:34:53
日本女乒半決賽前集體不談德國(guó),光叭叭要贏中國(guó)隊(duì),哪來的自信?

日本女乒半決賽前集體不談德國(guó),光叭叭要贏中國(guó)隊(duì),哪來的自信?

張辱鹵說體育
2026-05-09 15:53:36
表哥吹噓自己買了大平層,我低頭玩手機(jī),臨走時(shí)銀行催繳巨額貸款

表哥吹噓自己買了大平層,我低頭玩手機(jī),臨走時(shí)銀行催繳巨額貸款

墨染塵香
2026-05-08 14:35:29
森林狼憾負(fù)!最后3秒,文班持球不攻,愛德華茲轉(zhuǎn)身走向場(chǎng)邊

森林狼憾負(fù)!最后3秒,文班持球不攻,愛德華茲轉(zhuǎn)身走向場(chǎng)邊

擔(dān)酒
2026-05-09 12:41:24
張?zhí)m赴臺(tái)為霖霖慶生,小S發(fā)文談大S愛犬,馬筱梅直播互動(dòng)汪寶

張?zhí)m赴臺(tái)為霖霖慶生,小S發(fā)文談大S愛犬,馬筱梅直播互動(dòng)汪寶

李橑在北漂
2026-05-09 14:42:31
兩口子因?yàn)榻o不給9歲的兒子割包皮 爭(zhēng)八百回!網(wǎng)友:聽爸爸的沒錯(cuò)

兩口子因?yàn)榻o不給9歲的兒子割包皮 爭(zhēng)八百回!網(wǎng)友:聽爸爸的沒錯(cuò)

市井大實(shí)話
2026-04-24 10:20:09
多燕瘦減肥真?zhèn)伪妫簢?guó)家級(jí)媒體報(bào)道與權(quán)威檢測(cè)共同構(gòu)建品牌信任

多燕瘦減肥真?zhèn)伪妫簢?guó)家級(jí)媒體報(bào)道與權(quán)威檢測(cè)共同構(gòu)建品牌信任

唐若心學(xué)
2026-05-09 16:58:46
“4只皮皮蝦1035元”消費(fèi)者再發(fā)聲:否認(rèn)“想吃白食”,已拒絕先行賠付,不是錢的問題,等待調(diào)查出租車和商家的問題

“4只皮皮蝦1035元”消費(fèi)者再發(fā)聲:否認(rèn)“想吃白食”,已拒絕先行賠付,不是錢的問題,等待調(diào)查出租車和商家的問題

揚(yáng)子晚報(bào)
2026-05-08 22:15:38
獨(dú)家 | 西班牙官員:押注中國(guó),就是押注未來

獨(dú)家 | 西班牙官員:押注中國(guó),就是押注未來

觀察者網(wǎng)
2026-05-07 17:30:08
2026-05-09 17:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12597文章數(shù) 176461關(guān)注度
往期回顧 全部

科技要聞

美國(guó)政府強(qiáng)力下場(chǎng) 蘋果英特爾達(dá)成代工協(xié)議

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎(jiǎng)金

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎(jiǎng)金

體育要聞

成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

財(cái)經(jīng)要聞

存儲(chǔ)芯片上演造富潮

汽車要聞

軸距加長(zhǎng)/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
健康
藝術(shù)
軍事航空

房產(chǎn)要聞

低價(jià)甩賣!??谶@個(gè)地標(biāo)商業(yè),無人接盤!

你敢變重6公斤嗎?

干細(xì)胞能讓人“返老還童”嗎

藝術(shù)要聞

齊白石 紫藤蜜蜂

軍事要聞

美伊突然再次交火 伊朗外長(zhǎng):戰(zhàn)爭(zhēng)準(zhǔn)備程度是1000%

無障礙瀏覽 進(jìn)入關(guān)懷版