網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

VLA死了，遙操也死了！英偉達(dá)機(jī)器人一號(hào)位說的

2026-05-09 14:22:56　來源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

VLA已死，世界動(dòng)作模型當(dāng)立。遙操已死，人類的傳感器數(shù)據(jù)長(zhǎng)存。

在今年的紅杉AI Ascent 2026上，Jim Fan只用了20分鐘，就給機(jī)器人行業(yè)連開了兩場(chǎng)“葬禮”。

第一場(chǎng)，送別過去三年幾乎統(tǒng)治具身智能的VLA；第二場(chǎng)，送別所有人以為還能再吃很多年的遙操作。

作為現(xiàn)任英偉達(dá)機(jī)器人方向負(fù)責(zé)人，Jim Fan去年還在同一張講臺(tái)上講機(jī)器人如何通過測(cè)試。今年，他已經(jīng)開始討論——

舊范式怎么死，新范式怎么立。

而這一新范式在Jim眼里，很大程度上得靠抄LLM的作業(yè)。

預(yù)訓(xùn)練模擬下一個(gè)世界狀態(tài)，對(duì)應(yīng)LLM的next token prediction；

動(dòng)作微調(diào)校準(zhǔn)對(duì)真實(shí)機(jī)器人有價(jià)值的部分，對(duì)應(yīng)supervised finetuning；

最后，由強(qiáng)化學(xué)習(xí)完成最后一里路。

過去一段時(shí)間，英偉達(dá)陸續(xù)放出EgoScale、DreamDojo、Dream Zero等一系列工作，幾乎以一己之力定義了具身智能2026年的走向。

而在這場(chǎng)名叫Robotics: Endgame（機(jī)器人聯(lián)盟，終局之戰(zhàn)）的演講中，則匯聚了Jim Fan關(guān)于VLA世界模型遙操作UMIegocentric仿真Scaling Law等機(jī)器人領(lǐng)域思考的最新沉淀，十分值得一看。

以下是演講核心觀點(diǎn)摘錄：

VLA已死，WAM將作為新的預(yù)訓(xùn)練范式。
未來一到兩年，遙操占比會(huì)降到幾乎可以忽略不計(jì)。機(jī)器人的「主食」會(huì)變成第一視角人類視頻，整個(gè)數(shù)據(jù)范式轉(zhuǎn)向Sensorized Human Data（人類傳感器數(shù)據(jù)）。
人類第一視角視頻成功啟示了機(jī)器人領(lǐng)域的scaling law，英偉達(dá)將徹底押注第一視角人類視頻。
算力=環(huán)境=數(shù)據(jù)。
機(jī)器人科技樹只剩三個(gè)成就待解鎖，物理圖靈測(cè)試（2-3年內(nèi)）、Physical API、Physical Auto Research，2040年有望全部點(diǎn)亮。

以下為演講全文。

（為方便閱讀，做了適當(dāng)?shù)臐?rùn)色與刪減）

機(jī)器人聯(lián)盟：終局之戰(zhàn)

2016年的一個(gè)夏日，我就在我們現(xiàn)在坐的辦公室里。有一個(gè)身穿亮皮夾克、手臂粗壯的家伙，舉著一個(gè)大金屬托盤。

他在上面寫道：致Elon和OpenAI團(tuán)隊(duì)，致計(jì)算與人類的未來，我將向你們展示世界上第一臺(tái)DGX1。

那是我第一次見到黃仁勛。和任何優(yōu)秀的實(shí)習(xí)生一樣，我迫不及待地排隊(duì)簽上自己的名字。

你能找到嗎？我的名字在這里，還有Andrej Karpathy的名字。

那時(shí)，我完全不知道自己將要經(jīng)歷什么。而接下來的事情，沒人能比Ilya本人描述得更好：

如果你相信深度學(xué)習(xí)，那它也會(huì)相信你。

果然，他們對(duì)深度學(xué)習(xí)的信念感染了我們每一個(gè)人。

三步函數(shù)，六年時(shí)間，這就是我們到今天的全部歷程。

第一步（2020年），GPT-3預(yù)訓(xùn)練。預(yù)測(cè)下一個(gè)詞元（next token prediction）主要是學(xué)習(xí)語法規(guī)則，理解語言結(jié)構(gòu)，模擬思想、代碼和字符串的展開方式。

第二步（2022年），InstructGPT（指令GPT）通過監(jiān)督微調(diào)對(duì)模擬進(jìn)行校準(zhǔn)，使其能夠執(zhí)行實(shí)際任務(wù)，或使用強(qiáng)化學(xué)習(xí)超越模仿學(xué)習(xí)。

第三步（2026年），自動(dòng)化研究（autoresearch）加速整個(gè)循環(huán)，超越人類能力。

正如Andrej所說，所有付出都在向最終目標(biāo)沖刺，對(duì)于LMS（語言模型系統(tǒng)）來說，他們正處于終局階段。

老實(shí)說，我非常羨慕，看Andrej的笑容就知道他有多開心。

語言模型團(tuán)隊(duì)正在享受他們的巔峰時(shí)刻，他們正在極速開發(fā)AGI（通用人工智能），并將路上的創(chuàng)造稱之為“神話（myhtos）”。

那為什么搞機(jī)器人的不能也享受這種樂趣呢？

作為自尊心強(qiáng)的科學(xué)家，我復(fù)制了他們的思路并將它重新命名——“大平行（Great Parallel）”。

我們不再模擬字符串，而是模擬物理世界的下一個(gè)狀態(tài)（next physical world state），然后通過動(dòng)作微調(diào)（action finetuning）校準(zhǔn)模擬中對(duì)真實(shí)機(jī)器人有價(jià)值的部分，并讓強(qiáng)化學(xué)習(xí)完成最后一里路。

大平行就是復(fù)制語言模型的成功策略。打不過他們，就加入。

接下來的章節(jié)就到了——機(jī)器人聯(lián)盟：終局之戰(zhàn)（Robotics:The End Game）。

抱歉，我忍不住開個(gè)小玩笑，香蕉太有趣了，感謝哈薩比斯。

如何玩轉(zhuǎn)終局？歸結(jié)為兩點(diǎn)：模型策略（models trategy）和數(shù)據(jù)策略（data strategy）。

先看模型策略。過去三年，視覺-語言-動(dòng)作模型（VisualLanguageActionModels，VLA）占據(jù)主導(dǎo)，Pi和Gr00t等模型也屬于這一類。

我們假設(shè)預(yù)訓(xùn)練由VLM（視覺語言模型，Visual Language Model）完成，然后在其上添加動(dòng)作頭（action head）。

但實(shí)際上，這些模型都是LVA（語言視覺動(dòng)作模型，Language Visual Action），大部分參數(shù)用于語言，使語言成為核心，其次是視覺和動(dòng)作。

在VLA里，語言才是一等公民，視覺和動(dòng)作只能靠邊站。

設(shè)計(jì)上，VLA更擅長(zhǎng)編碼知識(shí)和名詞，但在物理和動(dòng)詞方面表現(xiàn)不足，有點(diǎn)「頭重腳輕」。

我最喜歡VLA原論文（RT-2）中的例子，把代碼移動(dòng)到泰勒·斯威夫特（TaylorSwift）的圖片上。

它從未見過她，卻能泛化，但這并不是我們想要的預(yù)訓(xùn)練能力。

那么，第二條預(yù)訓(xùn)練范式是什么？

我們認(rèn)為，第二種預(yù)訓(xùn)練范式理應(yīng)應(yīng)該非常美麗，但不幸的是，它變成了AI視頻垃圾（AI Video Slop），比如看貓咪在監(jiān)控?cái)z像頭上彈班卓琴。

這雖然表面上看很娛樂，但沒人認(rèn)真對(duì)待它，直到我們意識(shí)到這些視頻模型實(shí)際上在內(nèi)部學(xué)習(xí)模擬下一個(gè)世界狀態(tài)。

這是Veo3的一些例子，模型自動(dòng)學(xué)習(xí)了重力、浮力、光照、反射、折射等物理規(guī)律，沒有顯式編碼，通過大規(guī)模預(yù)測(cè)下一團(tuán)像素，物理規(guī)律自己涌現(xiàn)了，視覺規(guī)劃也自然出現(xiàn)。

Veo-3是如何解決這些物體的？通過在像素空間前向模擬。特別注意右下角，這是我最喜歡的例子。Veo3超聰明，它能發(fā)現(xiàn)如果你沒看，幾何就是可選的。我稱之為“物理垃圾（physics slop）”。

如何讓這些世界模型有用？我們通過動(dòng)作微調(diào)，將所有可能的未來狀態(tài)的疊加（superposition）壓縮到對(duì)真實(shí)機(jī)器人有價(jià)值的部分。

于是，就有了Dream Zero。

Dream Zero是一種全新的策略模型。它會(huì)先“夢(mèng)”到未來幾秒鐘里可能發(fā)生什么，然后再據(jù)此做出動(dòng)作。

要知道，機(jī)器人的運(yùn)動(dòng)控制本質(zhì)上是一組高維、連續(xù)的信號(hào)。從某種意義上說，它和像素并沒有本質(zhì)區(qū)別，都可以被看作連續(xù)變化的數(shù)據(jù)流。

所以，我們可以像渲染視頻一樣，同時(shí)把動(dòng)作也渲染出來。

Dream Zero能同時(shí)解碼兩個(gè)東西，下一刻的世界狀態(tài)，以及下一步該執(zhí)行的動(dòng)作。

也正因?yàn)槿绱?，它能夠零樣本（zero-shot）完成那些訓(xùn)練中從未見過的新任務(wù)、新動(dòng)作。

更有意思的是，當(dāng)機(jī)器人真正開始執(zhí)行時(shí)，我們甚至可以實(shí)時(shí)“看到”它正在想什么，而且這種相關(guān)性非常緊密。

如果視頻預(yù)測(cè)是對(duì)的，動(dòng)作通常就是對(duì)的；?如果視頻開始幻覺，動(dòng)作也往往會(huì)失敗。

所以，也直到這里，視覺和行動(dòng)才第一次真正坐到了一張桌子上。

我們后來用Dream Zero做了很多有趣的實(shí)驗(yàn)，就讓機(jī)器人在實(shí)驗(yàn)室里到處轉(zhuǎn)，然后往prompt輸入框里隨便打各種指令，看看它會(huì)怎么做。

當(dāng)然，Dream Zero現(xiàn)在還做不到把每個(gè)任務(wù)都100%穩(wěn)定完成。

不過，它有點(diǎn)像GPT-2，雖然未必每次都精準(zhǔn)，但它幾乎總能先把動(dòng)作的大致“形狀”做對(duì)。

Dream Zero，是我們邁向機(jī)器人“開放式任務(wù)”和“開放詞匯提示”（open-ended, open-vocabulary prompting）的第一步。

我們把這類全新的模型稱為：World Action Models，簡(jiǎn)稱WAM——世界動(dòng)作模型。

所以此刻，讓我們一起為我們的老朋友VLA 默哀片刻。

它們?cè)?jīng)很好地服務(wù)過我們。安息吧，VLA。VLA已死，WAM當(dāng)立。

而要實(shí)現(xiàn)WAM，接下來要拼的，就是下一代數(shù)據(jù)策略。

畫面里的這個(gè)人，是Bill Dally，正在我們實(shí)驗(yàn)室里親自做遙操作。

考慮到他的薪水，我敢說這大概是我們整個(gè)數(shù)據(jù)集里，成本最高的一條遙操作軌跡。

過去三年，機(jī)器人領(lǐng)域幾乎被遙操所統(tǒng)治。那簡(jiǎn)直是遙操的黃金時(shí)代。

各種VR頭顯、為低延遲串流做極致優(yōu)化的系統(tǒng)、還有那些結(jié)構(gòu)復(fù)雜、看起來像中世紀(jì)刑具一樣的遙操作設(shè)備。

整個(gè)行業(yè)砸了大量資金。也經(jīng)受了大量痛苦。

但問題是遙操的數(shù)據(jù)產(chǎn)能從物理上就有上限。理論上，一臺(tái)機(jī)器人一天最多也就24小時(shí)的數(shù)據(jù)。

但說實(shí)話，如果現(xiàn)實(shí)里每臺(tái)機(jī)器人一天能穩(wěn)定采到3小時(shí)，就已經(jīng)謝天謝地了。

而且前提還是——機(jī)器人之神今天心情不錯(cuò)。因?yàn)檫@些家伙，真的隔三差五就鬧脾氣（機(jī)器人故障）。

那問題來了，我們還能做得更好嗎？

有人的答案是直接把機(jī)器人的手，戴在你自己的手上。

這套系統(tǒng)叫UMI（Universal Manipulation Interface，通用操作接口）。

它的想法簡(jiǎn)單得近乎狡猾你把機(jī)器人穿在自己手上。你的手怎么動(dòng)，機(jī)器人就怎么動(dòng)。與此同時(shí)，把機(jī)器人其余身體部分，統(tǒng)統(tǒng)從數(shù)據(jù)采集閉環(huán)里拿掉。

換句話說，直接用人類的手，去采機(jī)器人需要的數(shù)據(jù)。

在我看來，UMI可能是機(jī)器人數(shù)據(jù)領(lǐng)域最偉大的論文之一。而它最終催生了兩家獨(dú)角獸公司。

左邊，是Generalist團(tuán)隊(duì)成員把這個(gè)設(shè)計(jì)進(jìn)一步優(yōu)化?，F(xiàn)在，你可以直接把機(jī)械夾爪戴在自己的手上。

右邊，則是Sunday做出的三指數(shù)據(jù)手套。

而去年，我們又往前邁了一步。我們?cè)O(shè)計(jì)出了一套外骨骼（exoskeleton）系統(tǒng)，它和五指靈巧機(jī)器人手之間，能夠做到1:1映射。

我們把它叫做DexUMI，來看實(shí)際效果。

左邊，是最傳統(tǒng)也最快的數(shù)據(jù)采集方式，人類直接完成操作，永遠(yuǎn)是最快的。

右邊，是遙操作。你會(huì)發(fā)現(xiàn)這有多難。畫面里這位操作員，是我們團(tuán)隊(duì)最熟練的PhD之一。

即便如此，他仍然得極其小心地對(duì)齊、校準(zhǔn)。整個(gè)過程又慢又累。而且，成功率也不高。

中間，就是我們的方案。你只需要戴上這套外骨骼，直接完成動(dòng)作，數(shù)據(jù)就同步被采集下來。然后，我們用這些數(shù)據(jù)訓(xùn)練機(jī)器人策略模型。

而你現(xiàn)在看到的，是一個(gè)完全自主執(zhí)行的機(jī)器人策略。最關(guān)鍵的是它訓(xùn)練過程中，使用的遙操數(shù)據(jù)是零。

這意味著，我們第一次打破了那個(gè)機(jī)器人領(lǐng)域的詛咒，每臺(tái)機(jī)器人每天最多只能采24小時(shí)數(shù)據(jù)。而且你看這些機(jī)器人有多開心。因?yàn)椋鼈兘K于不用再親自參與數(shù)據(jù)采集了。

但問題來了，這就是終點(diǎn)嗎？我們真的解決了機(jī)器人的scaling問題嗎？

在場(chǎng)有人開Tesla或Waymo嗎？開車的時(shí)候，其實(shí)你一直都在參與世界上最大的物理數(shù)據(jù)飛輪。

更妙的是，你甚至感覺不到。尤其是在Tesla FSD工作的時(shí)候，數(shù)據(jù)上傳，是一個(gè)悄無聲息、在后臺(tái)自動(dòng)完成的過程。

但戴著UMI這種數(shù)據(jù)穿戴設(shè)備呢？

說實(shí)話，還是太麻煩了。它依然是侵入式的。遠(yuǎn)沒有每天開車去上班那樣自然。所以，我們需要一個(gè)屬于機(jī)器人的FSD等價(jià)物。

我們需要讓數(shù)據(jù)采集，徹底退出前臺(tái)，融入背景，悄無聲息地發(fā)生。只有這樣，我們才能真正捕捉到，人類靈巧操作最完整的樣子。

不只是實(shí)驗(yàn)室。而是各行各業(yè)，而是所有具備經(jīng)濟(jì)價(jià)值的勞動(dòng)場(chǎng)景。

基于此，我們徹底押注在第一視角人類視頻（human egocentric videos）。并且給這些視頻加入精細(xì)的手部位置追蹤；高密度語言標(biāo)注。

我們把這套訓(xùn)練范式叫做EgoScale。在EgoScale中，99.9%的訓(xùn)練數(shù)據(jù)，全部來自人類第一視角視頻。

最終的結(jié)果是一個(gè)真正end-to-end的機(jī)器人策略模型。它能夠直接從攝像頭像素輸入，映射到擁有22個(gè)高自由度的靈巧機(jī)器人手。一句話就是，從“看見”，直接到“動(dòng)手”。

你現(xiàn)在看到的，就是一個(gè)完全自主執(zhí)行的機(jī)器人。

在預(yù)訓(xùn)練階段，我們用EgoScale，在2.1萬小時(shí)的真實(shí)世界第一視角人類數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。沒有使用任何機(jī)器人數(shù)據(jù)。

在預(yù)訓(xùn)練過程中模型學(xué)習(xí)去預(yù)測(cè)手部關(guān)節(jié)位置和手腕姿態(tài)。

到了動(dòng)作微調(diào)階段，我們只額外采集了50小時(shí)的高精度數(shù)據(jù)手套數(shù)據(jù)以及4小時(shí)的遙操數(shù)據(jù)，這甚至不到整個(gè)訓(xùn)練數(shù)據(jù)混合中的0.1%。

而靠著EgoScale，模型已經(jīng)能夠泛化到各種高度靈巧的任務(wù)。比如，整理撲克牌、操作注射器、精準(zhǔn)轉(zhuǎn)移液體。說不定哪天，家里的機(jī)器人護(hù)士，真會(huì)因此出現(xiàn)。

更有意思的是，對(duì)于像折襯衫這種任務(wù)，模型在測(cè)試階段只需要一次示范就能學(xué)會(huì)全新的折疊策略。

這篇論文里，也許最令人興奮的發(fā)現(xiàn)是，我們第一次發(fā)現(xiàn)了“機(jī)器人靈巧性”的神經(jīng)scaling law。

它描述的是預(yù)訓(xùn)練時(shí)長(zhǎng)，與最優(yōu)驗(yàn)證損失之間的關(guān)系。這個(gè)關(guān)系，漂亮得驚人。

它幾乎是一條完美的log-linear（對(duì)數(shù)線性）曲線。距離語言模型第一次發(fā)現(xiàn)neural scaling law，已經(jīng)過去整整六年。

如今，機(jī)器人，也終于有了自己的scaling law。如果把這些數(shù)據(jù)策略畫成一張圖：X軸，和機(jī)器人硬件的對(duì)齊程度；Y軸，可擴(kuò)展性。

那大概會(huì)是這樣，遙操作在最左下角。它最貼近機(jī)器人硬件，但幾乎最難擴(kuò)展。

再往上，是數(shù)據(jù)穿戴設(shè)備，它大概能擴(kuò)展到幾十萬小時(shí)。

而再往上，是第一視角視頻如果我們真的能跑通機(jī)器人版的動(dòng)駕駛飛輪，那它的規(guī)模，輕輕松松就能達(dá)到千萬小時(shí)級(jí)。

如果在圖上畫一條線，那這條線左邊，代表的是機(jī)器人的新范式Sensorized Human Data，人類的傳感器數(shù)據(jù)。

所以，我想大膽做幾個(gè)預(yù)測(cè)未來一到兩年，遙操的占比會(huì)越來越低。低到幾乎可以忽略不計(jì)。

接下來，會(huì)出現(xiàn)大量針對(duì)不同機(jī)器人硬件、不同場(chǎng)景量身定制的數(shù)據(jù)穿戴設(shè)備。

而最終，機(jī)器人的“主食”，會(huì)變成第一視角人類視頻。

所以，讓我們?cè)俅螢槲覀兊睦吓笥眩b操，默哀片刻。

它曾經(jīng)很好地服務(wù)過我們。安息吧。遙操已死。人類傳感器數(shù)據(jù)長(zhǎng)存。

但數(shù)據(jù)策略，到這里就結(jié)束了嗎？沒有。

你注意到我畫了兩層圓。那外圈是什么？

今天，所有前沿實(shí)驗(yàn)室都在砸重金購(gòu)買數(shù)百萬個(gè)代碼環(huán)境用來做強(qiáng)化學(xué)習(xí)。

機(jī)器人也一樣。我們迫切需要海量環(huán)境。

當(dāng)然，你也可以直接在真實(shí)機(jī)器人上做RL。在我們的實(shí)驗(yàn)室里，我們用RL把某些任務(wù)推到了接近100%成功率。

機(jī)器人可以連續(xù)執(zhí)行幾個(gè)小時(shí)不停。說實(shí)話，看著機(jī)器人自己默默組裝GPU，還有點(diǎn)治愈。

正如一位智者說的Good boi（這項(xiàng)任務(wù)，已經(jīng)通過老板審批。）

但問題是，如果機(jī)器人也想像今天的大模型一樣，把強(qiáng)化學(xué)習(xí)真正推向百萬環(huán)境的規(guī)模，傳統(tǒng)路線幾乎走不通。

因?yàn)榘催^去的做法，100萬個(gè)環(huán)境幾乎就意味著你得先準(zhǔn)備100萬臺(tái)機(jī)器人，這在成本、維護(hù)、部署上顯然都是不現(xiàn)實(shí)的。

于是，我們開始尋找一條全新的路。

比如，你只需要拿出一臺(tái)iPhone，隨手拍下一張現(xiàn)實(shí)世界的照片，再把它送進(jìn)一套3D world scanning pipeline（3D世界掃描管線），系統(tǒng)就能自動(dòng)識(shí)別場(chǎng)景中的所有物體，提取它們的三維結(jié)構(gòu)，并進(jìn)一步把這些物體自動(dòng)重建到經(jīng)典物理模擬器里。

更關(guān)鍵的是，這些被重建出來的物體不是靜態(tài)模型，而是真正可以被交互、被操作、被碰撞的數(shù)字實(shí)體。

接下來，研究人員還可以基于這些場(chǎng)景無限擴(kuò)增各種變體，他們把這些變體稱為Digital Cousins。

到了這一步，iPhone不再只是手機(jī)，而變成了一個(gè)真正意義上的“口袋世界掃描儀”。

而整個(gè)流程，也被命名為Real→Sim→Real——從真實(shí)世界出發(fā)，進(jìn)入仿真，再回到真實(shí)世界。

靠著這套方法，機(jī)器人終于第一次擁有了一種可以規(guī)模化地把物理世界搬進(jìn)數(shù)字世界的能力。

但即便如此，這套方案本質(zhì)上依然建立在傳統(tǒng)的圖形學(xué)模擬器之上。

那么，我們還能不能再往前走一步？

來吧！Dream Dojo。

Dream Dojo是一套建立在視頻world model之上的、真正意義上的神經(jīng)模擬器，它接收輸入的不再是傳統(tǒng)物理參數(shù)，而是一連串連續(xù)的動(dòng)作信號(hào)；

而輸出的，則是機(jī)器人下一刻將會(huì)看到的RGB視頻畫面，以及對(duì)應(yīng)的傳感器狀態(tài)，并且這一切都是實(shí)時(shí)生成的。

換句話說，你此刻看到的畫面里，沒有一個(gè)像素是真的。

Dream Dojo能夠通過一種純粹數(shù)據(jù)驅(qū)動(dòng)的方式，直接捕捉并學(xué)會(huì)不同機(jī)器人背后的運(yùn)動(dòng)機(jī)制和動(dòng)力學(xué)規(guī)律，整個(gè)過程里，沒有任何物理方程參與，也沒有任何圖形學(xué)引擎介入。

因此，機(jī)器人正在進(jìn)入一個(gè)全新的post-training范式。

少量真實(shí)機(jī)器人站點(diǎn)負(fù)責(zé)在物理世界中持續(xù)采集高價(jià)值交互數(shù)據(jù)，而另一端則是大規(guī)模并行運(yùn)行的graphics cores、world scans以及高強(qiáng)度推理計(jì)算，共同支撐世界模型的持續(xù)迭代。

在這個(gè)新范式里，有一個(gè)極其關(guān)鍵的等式正在成立——

算力=環(huán)境=數(shù)據(jù)。

也就是說，算力正在變成環(huán)境，環(huán)境正在變成數(shù)據(jù)，而數(shù)據(jù)本身又反過來定義下一輪算力投入，整個(gè)過程開始像自動(dòng)駕駛里的FSD flywheel一樣形成自我強(qiáng)化的飛輪。

正如老板半開玩笑地總結(jié)的那樣“買得越多，省得越多?！碑?dāng)然，這句話也已經(jīng)通過他的審批。

把這一切拼在一起，你會(huì)發(fā)現(xiàn)，機(jī)器人正在走上一條和大模型幾乎完全平行的進(jìn)化路徑，而且這一切不是未來式，而是此刻正在發(fā)生。

我們眼前看到的，也許正是機(jī)器人終局之戰(zhàn)的開端。

我一直最喜歡《文明》，并且喜歡把自己的研究想象成在文明科技樹上不斷解鎖成就。

如果按照我的判斷，機(jī)器人這棵科技樹上，現(xiàn)在只剩下最后三個(gè)成就等待被點(diǎn)亮，只要全部解鎖，我就可以退休了。

第一個(gè)成就，叫做物理圖靈測(cè)試。

所謂物理圖靈測(cè)試，說白了就是在足夠豐富、足夠復(fù)雜的現(xiàn)實(shí)任務(wù)里，人類已經(jīng)無法僅靠觀察去判斷，眼前完成工作的到底是人類，還是機(jī)器人。

它并不神秘，無非就是單位能源輸入，單位勞動(dòng)力輸出。只要同樣的能量輸入能夠產(chǎn)出同等級(jí)的勞動(dòng)價(jià)值，機(jī)器人就真正通過了物理世界里的圖靈測(cè)試。

也許喝醉的人類不算在內(nèi)，而看看今天機(jī)器人那些還有些“僵硬甚至略顯性感”的動(dòng)作姿態(tài)，我們顯然還有很多工作要做，但如果一切順利，他認(rèn)為這件事距離我們可能只剩下兩到三年。

第二個(gè)成就，叫做Physical API。

那時(shí)候，機(jī)器人將不再是一臺(tái)臺(tái)獨(dú)立存在的機(jī)器，而會(huì)像今天的軟件服務(wù)一樣，變成一種真正可編程、可調(diào)用、可編排的基礎(chǔ)設(shè)施。

你擁有的可能不再是一臺(tái)機(jī)器人，而是一整個(gè)艦隊(duì)，而你控制它們的方式，也不再是按鈕和控制器，而是API、CLI以及更高級(jí)的編制系統(tǒng)。

也許某一天，這一切甚至?xí)杀冉裉旄鼜?qiáng)大的agent，比如Opus4.6，統(tǒng)一進(jìn)行調(diào)度。

而一旦Physical API真正出現(xiàn)，很多今天聽起來像科幻的東西都會(huì)迅速落地。

比如所謂的Lighthouse Factories——燈塔工廠，它們本質(zhì)上不再是流水線，而更像“原子打印機(jī)”，你輸入的不再是CAD圖紙，甚至不需要復(fù)雜工程文件，而可能只是一份markdown文檔，輸出的卻是已經(jīng)完全組裝好的實(shí)體產(chǎn)品，整個(gè)過程完全自主完成；

又比如wet labs，也就是自動(dòng)化濕實(shí)驗(yàn)室，機(jī)器人將獨(dú)立完成化學(xué)實(shí)驗(yàn)、生物實(shí)驗(yàn)?zāi)酥了幬镅邪l(fā)，把科學(xué)發(fā)現(xiàn)的速度推到人類實(shí)驗(yàn)室從未達(dá)到過的高度。

而最后一個(gè)，也是機(jī)器人科技樹上的終極成就，叫做Physical Auto Research。

到了那一天，機(jī)器人將不再只是執(zhí)行人類交給它們的任務(wù)，它們會(huì)開始自己設(shè)計(jì)自己，自己優(yōu)化自己，自己制造下一代自己，并且迭代速度將遠(yuǎn)遠(yuǎn)超越任何人類工程團(tuán)隊(duì)所能達(dá)到的極限。

聽到這里，你也許會(huì)覺得，這聽起來已經(jīng)太像科幻了，我們這一代人真的有機(jī)會(huì)看到嗎？

從2012年AlexNet完成第一次forward pass開始，那個(gè)連貓和狗都分得磕磕絆絆的模型。

到今天，整個(gè)AI community只用了14年，就走到了agentic AI時(shí)代。

而今天是2026年，如果機(jī)器人也遵循類似的指數(shù)曲線，那我們不妨再給它14年，2026年剛好站在2012年和2040年的正中間，而技術(shù)從來不是線性前進(jìn)的，它永遠(yuǎn)以指數(shù)形式爆發(fā)。

所以，我有95%的把握，在2040年之前，我們會(huì)真正走到機(jī)器人科技樹的終點(diǎn)，而等那一天到來時(shí)，我們依然年輕。

如果你相信機(jī)器人，機(jī)器人終將回應(yīng)你的相信。

我們的這一代人，也許出生得太晚，沒趕上探索地球，也出生得太早，還沒趕上探索星辰，但我們出生得剛剛好，因?yàn)槲覀冋泌s上，去解決機(jī)器人。

演講鏈接
[1]https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.