国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Jim Fan解讀機(jī)器人“終局之戰(zhàn)”:人類將在2040年徹底解鎖“機(jī)器人技術(shù)樹(shù)”

0
分享至

英偉達(dá)具身自主研究團(tuán)隊(duì)負(fù)責(zé)人Jim Fan宣告,機(jī)器人領(lǐng)域正在復(fù)制大語(yǔ)言模型的成功路徑,終局之戰(zhàn)已經(jīng)開(kāi)始,而他以95%的置信度押注:2040年,機(jī)器人技術(shù)樹(shù)將徹底解鎖。機(jī)器人技術(shù)樹(shù)即機(jī)器人從“身體”到“大腦”所需的關(guān)鍵技術(shù),包括底層硬件、中層感知、上層決策等。

在近日舉行的AI Ascent大會(huì)上,英偉達(dá)具身自主研究團(tuán)隊(duì)負(fù)責(zé)人Jim Fan發(fā)表了一場(chǎng)題為"機(jī)器人學(xué):終局之戰(zhàn)"的主題演講。他系統(tǒng)闡述了一套完整的機(jī)器人技術(shù)發(fā)展路線圖——從模型范式革命到數(shù)據(jù)策略顛覆,并以"偉大的類比"為核心論點(diǎn):機(jī)器人領(lǐng)域?qū)?yán)格復(fù)制LLM的成功路徑,從預(yù)訓(xùn)練到推理,再到自動(dòng)化研究,"這是對(duì)大語(yǔ)言模型成功路徑的全面復(fù)制。"

Fan開(kāi)場(chǎng)即直接點(diǎn)出他對(duì)大語(yǔ)言模型團(tuán)隊(duì)的羨慕:"LLM團(tuán)隊(duì)正在享受他們?nèi)松凶钶x煌的時(shí)刻……那么,機(jī)器人領(lǐng)域?yàn)槭裁床荒芤舱凑垂饽兀?


機(jī)器人“大腦”換新方案:舊模型偏“嘴皮子”,新模型長(zhǎng)“手腳”

過(guò)去三年,機(jī)器人行業(yè)流行一種叫VLA的訓(xùn)練方法(中文叫“視覺(jué)-語(yǔ)言-動(dòng)作模型”)。英偉達(dá)自己的Groot和另一家明星公司Pi都用的這套。

但Fan直接開(kāi)懟:這套方法說(shuō)白了就是“語(yǔ)言-視覺(jué)-動(dòng)作模型”——大部分算力都喂給了語(yǔ)言模塊,語(yǔ)言是老大,視覺(jué)和動(dòng)作只能排后面。結(jié)果是,機(jī)器人學(xué)了一堆知識(shí)和名詞,但物理操作和“動(dòng)詞”能力明顯不行。

英偉達(dá)的新方案是:先看世界怎么動(dòng),再學(xué)自己怎么動(dòng)。

Fan團(tuán)隊(duì)推出了新模型,叫“世界行動(dòng)模型”。邏輯很簡(jiǎn)單:第一步,用海量視頻訓(xùn)練機(jī)器人預(yù)測(cè)“接下來(lái)世界會(huì)發(fā)生什么”(比如杯子倒了水會(huì)灑);第二步,用少量操作數(shù)據(jù)微調(diào),讓機(jī)器人把注意力放到真實(shí)任務(wù)上;最后用強(qiáng)化學(xué)習(xí)收尾。

具體產(chǎn)品叫Dream Zero。它能一邊預(yù)測(cè)畫(huà)面一邊輸出動(dòng)作——畫(huà)面預(yù)測(cè)對(duì)了,動(dòng)作就執(zhí)行;畫(huà)面預(yù)測(cè)錯(cuò)了,動(dòng)作就失敗。實(shí)驗(yàn)顯示,它甚至能零樣本執(zhí)行從沒(méi)見(jiàn)過(guò)的軟體操作任務(wù)。

遙操作之死:人類視頻成為機(jī)器人數(shù)據(jù)主糧

數(shù)據(jù)策略上,F(xiàn)an指出遙操作同樣走到了終點(diǎn)。問(wèn)題的本質(zhì)是物理極限:

"每臺(tái)機(jī)器人每天的有效工作時(shí)間更像是3小時(shí)——而且還是在機(jī)器人狀態(tài)良好、不鬧脾氣的情況下。"

他提出的替代路徑是"類FSD方案"——讓數(shù)據(jù)采集無(wú)感化、背景化,就像特斯拉FSD悄悄上傳駕駛數(shù)據(jù)一樣。英偉達(dá)團(tuán)隊(duì)開(kāi)發(fā)了MANUS系統(tǒng)(與五指機(jī)械手實(shí)現(xiàn)1:1映射的軸骨架),并用Ego Scale方案證明了以人為中心視頻的顛覆性潛力。關(guān)鍵數(shù)字如下:

  • 使用20,000小時(shí)真實(shí)場(chǎng)景人類手部視頻預(yù)訓(xùn)練
  • 零機(jī)器人數(shù)據(jù)參與預(yù)訓(xùn)練
  • 微調(diào)階段僅需50小時(shí)模擬數(shù)據(jù) + 4小時(shí)真實(shí)數(shù)據(jù)(占總訓(xùn)練數(shù)據(jù)不足0.1%)

最終模型能夠泛化到卡片分類、操作注射器、液體轉(zhuǎn)移等高靈巧度任務(wù),"也許有一天我們會(huì)擁有家庭機(jī)器人護(hù)士。"

更值得關(guān)注的發(fā)現(xiàn)是:Fan團(tuán)隊(duì)發(fā)現(xiàn)了機(jī)器人靈巧操作的神經(jīng)縮放定律——"在最初針對(duì)語(yǔ)言模型的神經(jīng)縮放定律提出六年之后,我們發(fā)現(xiàn)了一個(gè)簡(jiǎn)潔的對(duì)數(shù)線性數(shù)學(xué)方程,同樣適用于機(jī)器人靈巧操作。"預(yù)訓(xùn)練時(shí)長(zhǎng)與最優(yōu)驗(yàn)證損失之間存在非常清晰的數(shù)學(xué)關(guān)系。

他明確預(yù)測(cè):未來(lái)一兩年內(nèi),遙操作數(shù)據(jù)需求將下降至幾乎可以忽略不計(jì),以自我中心視頻為核心的數(shù)據(jù)范式將全面接管。

"計(jì)算量=環(huán)境=數(shù)據(jù)":模擬器革命

強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境的規(guī)模化,是機(jī)器人領(lǐng)域的另一大瓶頸——"我們目前還無(wú)法實(shí)現(xiàn)100萬(wàn)個(gè)并行訓(xùn)練環(huán)境的目標(biāo),如果用傳統(tǒng)方法,那需要100萬(wàn)個(gè)真實(shí)機(jī)器人。"

英偉達(dá)的解法分兩步:

Real2Sim2Real:用iPhone拍照→3D掃描提取物體→在物理模擬器中自動(dòng)重新合成,"iPhone基本上就變成了一個(gè)口袋世界掃描儀。"

Dream Dojo:基于視頻世界模型構(gòu)建的神經(jīng)模擬器,實(shí)時(shí)輸出RGB圖像和傳感器狀態(tài),"不涉及任何物理方程,也不涉及任何圖形引擎。"

這使得一個(gè)等式成立:"計(jì)算量 = 環(huán)境,環(huán)境 = 數(shù)據(jù)。" Fan隨即引用了黃仁勛的話作為注腳——"買(mǎi)得越多,省得越多。"

三大成就與2040年終局

Fan將機(jī)器人技術(shù)的終局拆解為文明游戲式的"三大成就":

第一成就——物理圖靈測(cè)試:讓人無(wú)法分辨是機(jī)器人還是人類在完成任務(wù)。Fan判斷:"大約還需要兩到三年時(shí)間。"

第二成就——物理API:機(jī)器人像軟件一樣通過(guò)API和命令行調(diào)度,支撐"燈塔工廠"(原子打印機(jī):輸入Markdown設(shè)計(jì)文件,輸出完整組裝產(chǎn)品)或濕實(shí)驗(yàn)室中化學(xué)、生物、醫(yī)學(xué)領(lǐng)域的科學(xué)發(fā)現(xiàn)自動(dòng)化。

第三成就——物理自動(dòng)化研究的頂峰:機(jī)器人能夠設(shè)計(jì)、改進(jìn)和構(gòu)建下一代自身,"其能力將遠(yuǎn)遠(yuǎn)超出人類的范疇。"

時(shí)間線上,F(xiàn)an援引了一個(gè)精確類比:AI領(lǐng)域從2012年AlexNet到如今逼真視頻生成模型,歷時(shí)14年。"2026年正好介于2012年和2040年之間。而且技術(shù)發(fā)展并非線性,而是呈指數(shù)級(jí)增長(zhǎng)。"

以下是演講原文:

主持人 00:02
首先,我很高興向大家介紹我的朋友 Jim Fan。Jim 領(lǐng)導(dǎo)著英偉達(dá)的具身自主研究團(tuán)隊(duì),也就是英偉達(dá)機(jī)器人團(tuán)隊(duì)。我認(rèn)為機(jī)器人是未來(lái)最激動(dòng)人心的發(fā)明之一。汽車(chē)本質(zhì)上就是一個(gè)大型機(jī)器人,但我更期待機(jī)器人能夠幫我們排便、搬運(yùn)東西。Jim 在去年的 AI 大會(huì)上表現(xiàn)出色,我們非常高興他能再次參加。
Jim Fan 00:27
那是 2016 年的一個(gè)夏日,就在我們現(xiàn)在坐的這間辦公室里。一個(gè)穿著锃亮皮夾克、肌肉發(fā)達(dá)的家伙,把一個(gè)大金屬托盤(pán)扔了進(jìn)來(lái)。托盤(pán)上寫(xiě)著:"致埃隆·馬斯克和 OpenAI 團(tuán)隊(duì),致計(jì)算機(jī)和人類的未來(lái):我向你們展示世界上第一臺(tái) DGX-1。"那是我第一次見(jiàn)到黃仁勛(Jensen)。像任何一個(gè)優(yōu)秀的實(shí)習(xí)生一樣,我趕緊排隊(duì)在上面簽名。你們能找到嗎?我的名字就在這里。還能找到另一個(gè)嗎?那是安德烈(Andrej)。安德烈,我們要去計(jì)算機(jī)歷史博物館了。我感覺(jué)自己像個(gè)恐龍。那時(shí)候我根本不知道自己即將加入的是什么。接下來(lái)發(fā)生的事,恐怕沒(méi)有人比伊利亞(Ilya)本人更能描述清楚了。如果你相信深度學(xué)習(xí),他們也會(huì)相信你。他們對(duì)我們所有人的深度學(xué)習(xí)信念,真是無(wú)比堅(jiān)定。
Jim Fan 01:36
三個(gè)階段,六年時(shí)間,這就是我們走到今天的全部歷程。
首先是 GPT-3,無(wú)監(jiān)督預(yù)訓(xùn)練。接下來(lái)是詞元預(yù)測(cè)——它實(shí)際上是在學(xué)習(xí)語(yǔ)法規(guī)則,語(yǔ)言結(jié)構(gòu)則是在模擬思想、代碼以及各種信息序列應(yīng)當(dāng)如何折疊。2022 年,我們引導(dǎo) GPT 進(jìn)行監(jiān)督微調(diào),使模型能夠完成有用的工作,或者使用強(qiáng)化學(xué)習(xí)進(jìn)行推理,以超越模仿學(xué)習(xí)。最后是自動(dòng)化研究,將整個(gè)循環(huán)加速到人類能力的極限。正如 Andrej 所說(shuō),所有的努力都是為了最終決戰(zhàn)。對(duì)于大語(yǔ)言模型(LLM)團(tuán)隊(duì)來(lái)說(shuō),他們已經(jīng)進(jìn)入了游戲的最后階段。說(shuō)實(shí)話,我非常羨慕?纯 Andrej 有多開(kāi)心,臉上掛著燦爛的笑容。
Jim Fan 02:33
LLM 團(tuán)隊(duì)正在享受他們?nèi)松凶钶x煌的時(shí)刻。他們用名為"Missile"的神秘利器,以極速推進(jìn)通用人工智能(AGI)。那么,機(jī)器人領(lǐng)域?yàn)槭裁床荒芤舱凑垂饽兀坑谑,就像任何一個(gè)自尊自重的科學(xué)家都會(huì)做的那樣,我照搬了這套方法,并給它起了個(gè)新名字,稱之為"偉大的類比"。
與其預(yù)測(cè) token 序列,我們能否預(yù)測(cè)下一個(gè)物理世界狀態(tài)?然后,通過(guò)動(dòng)作微調(diào),將機(jī)器人與模擬中對(duì)真實(shí)機(jī)器人至關(guān)重要的關(guān)鍵區(qū)域進(jìn)行對(duì)齊。最后,讓強(qiáng)化學(xué)習(xí)完成最后的沖刺。就是這樣。這是對(duì)大語(yǔ)言模型成功路徑的全面復(fù)制。
Jim Fan 03:18
既然無(wú)法戰(zhàn)勝他們,那就加入他們。請(qǐng)收看新一期節(jié)目——機(jī)器人學(xué):終局之戰(zhàn)。
香蕉真是太美味了,謝謝,Dennis。
那么,我們?cè)撊绾未蜻@場(chǎng)終局之戰(zhàn)呢?歸根結(jié)底,就是兩件事:模型策略和數(shù)據(jù)策略。
我們先來(lái)看模型。過(guò)去三年,視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)占據(jù)了主導(dǎo)地位,Pi 和 Groot 這樣的模型也屬于這一范疇。我們假設(shè)預(yù)訓(xùn)練由視覺(jué)語(yǔ)言模型完成,然后在其上附加一個(gè)動(dòng)作頭。但如果仔細(xì)想想,這些模型其實(shí)更應(yīng)該叫做語(yǔ)言-視覺(jué)-動(dòng)作模型(VLA),因?yàn)榇蟛糠謪?shù)都分配給了語(yǔ)言模塊。語(yǔ)言是第一等公民,視覺(jué)和動(dòng)作居其次。根據(jù)設(shè)計(jì),VLA 更擅長(zhǎng)編碼知識(shí)和名詞,但在物理和動(dòng)詞方面則略顯不足——在某些方面有點(diǎn)用力過(guò)猛。
這是我最喜歡的 VLA 原始論文中的例子:把可樂(lè)罐移動(dòng)到泰勒·斯威夫特的圖片上。是的,模型之前從未見(jiàn)過(guò)泰勒·斯威夫特,它確實(shí)具備泛化能力,但這并非我們所追求的預(yù)訓(xùn)練方向。
那么,第二種預(yù)訓(xùn)練范式是什么?我們?cè)疽詾樗鼤?huì)非常出色?上ЫY(jié)果發(fā)現(xiàn),它不過(guò)是"AI 視頻老虎機(jī)"——就是那種"我可以整天看監(jiān)控錄像里的貓彈班卓琴"的玩意兒,簡(jiǎn)直是互聯(lián)網(wǎng)的巔峰之作。但說(shuō)真的,除非我們意識(shí)到這些視頻模型正在學(xué)習(xí)內(nèi)部模擬下一個(gè)世界狀態(tài),否則沒(méi)人會(huì)認(rèn)真對(duì)待它。
這里展示了 Veo 3 中的一些片段。你可以看到,這些模型能夠自主地捕捉重力、浮力、光照、反射和折射等效果——所有這些都不是預(yù)先編碼的。物理特性是通過(guò)大規(guī)模預(yù)測(cè)下一個(gè)像素塊而涌現(xiàn)出來(lái)的,甚至視覺(jué)規(guī)劃也是如此。
Jim Fan 05:23
看看 Veo 是如何解決這些物理推理問(wèn)題的——它通過(guò)在像素空間中向前運(yùn)行模擬來(lái)解決。注意右下角,這是我最喜歡的例子。如果你眨一下眼,就會(huì)錯(cuò)過(guò) Veo 3 是如何解決這個(gè)問(wèn)題的——它非常智能。你知道,如果不仔細(xì)看,幾何關(guān)系就顯得多余了。我把這稱為"物理槽"。
Jim Fan 05:53
那么,我們?nèi)绾尾拍茏屵@些世界模型真正發(fā)揮作用?答案是:進(jìn)行動(dòng)作微調(diào)。我們將所有可能的未來(lái)狀態(tài)疊加起來(lái),并將其壓縮到對(duì)真實(shí)機(jī)器人至關(guān)重要的那一薄層上。
Jim Fan 06:09
隆重推出 Dream Zero。這是一種新型策略模型,它能夠預(yù)測(cè)幾秒鐘后的未來(lái),并據(jù)此采取行動(dòng)。運(yùn)動(dòng)動(dòng)作是高維連續(xù)信號(hào),看起來(lái)就像像素一樣,因此我們可以在渲染視頻的同時(shí)渲染動(dòng)作。Dream Zero 可以聯(lián)合解碼下一個(gè)世界狀態(tài)和下一個(gè)動(dòng)作。由此,它能夠零樣本執(zhí)行從未見(jiàn)過(guò)的軟體任務(wù)和動(dòng)作。
當(dāng)機(jī)器人執(zhí)行動(dòng)作時(shí),我們可以可視化正在傳輸?shù)膬?nèi)容,相關(guān)性非常高:如果視頻預(yù)測(cè)正確,動(dòng)作就會(huì)執(zhí)行;如果視頻出現(xiàn)錯(cuò)誤,動(dòng)作就會(huì)失敗。視覺(jué)和動(dòng)作再次成為重中之重。
我們用 Dream Zero 做了很多有趣的實(shí)驗(yàn)——只需在實(shí)驗(yàn)室里讓機(jī)器人滾動(dòng),然后在提示框中輸入一些隨機(jī)內(nèi)容。當(dāng)然,Dream Zero 無(wú)法 100% 保證所有任務(wù)的魯棒性,但它就像 GPU 一樣,力求在每種情況下都正確捕捉運(yùn)動(dòng)軌跡。
Jim Fan 07:19
Dream Zero 是我們邁向機(jī)器人開(kāi)放式、開(kāi)放詞匯提示的第一步。我們將這種新型模型稱為世界行動(dòng)模型(World Action Model)。
讓我們?yōu)槲覀兊睦吓笥?VLA 默哀片刻。它為我們做出了巨大貢獻(xiàn)。安息吧,一路走好。
接下來(lái)是數(shù)據(jù)策略。這位是英偉達(dá)首席科學(xué)家 Bill Dally,他正在我們實(shí)驗(yàn)室進(jìn)行遠(yuǎn)程操作。考慮到他的薪水,我認(rèn)為這絕對(duì)是我們數(shù)據(jù)集中收集到的最昂貴的軌跡。
過(guò)去三年,遠(yuǎn)程操作占據(jù)了主導(dǎo)地位——這是黃金時(shí)代:VR 頭顯、極致優(yōu)化的流媒體延遲,以及這些看起來(lái)像中世紀(jì)酷刑裝置的復(fù)雜綁帶系統(tǒng)。
Jim Fan 08:17
工業(yè)領(lǐng)域投入了那么多資金,付出了那么多痛苦和磨難,然而每臺(tái)機(jī)器人每天的工作時(shí)間上限只有 24 小時(shí),這是基本的物理極限。實(shí)際上,更準(zhǔn)確地說(shuō),每臺(tái)機(jī)器人每天的有效工作時(shí)間更像是 3 小時(shí)——而且還是在機(jī)器人狀態(tài)良好、不鬧脾氣的情況下。
Jim Fan 08:37
那么我們?cè)撊绾巫龅酶媚?不如試試這個(gè)——你只需把機(jī)械手戴在自己的手上。這叫做 UMI(通用操作接口,Universal Manipulation Interface),是一個(gè)看似簡(jiǎn)單卻意義深遠(yuǎn)的想法:戴上機(jī)器人末端執(zhí)行器,用手操作,像人類一樣直接收集數(shù)據(jù),而機(jī)器人的其他部分則無(wú)需參與。
我認(rèn)為 UMI 或許是機(jī)器人數(shù)據(jù)領(lǐng)域最重要的論文之一,它催生了兩家獨(dú)角獸初創(chuàng)公司。左邊是 Physical Intelligence(π)對(duì)這個(gè)設(shè)計(jì)進(jìn)行的改進(jìn);右邊是 Sunday 制作的三指數(shù)據(jù)手套。
去年,我們更進(jìn)一步,設(shè)計(jì)了一個(gè)軸骨架,與五指 Dexterous 機(jī)器人手實(shí)現(xiàn)了 1:1 的映射,我們稱之為 MANUS(純文本操作數(shù)據(jù)采集系統(tǒng))。
來(lái)看一下對(duì)比:左邊是人直接收集數(shù)據(jù),速度最快;右邊,操作員是我們技術(shù)最精湛的博士之一,他必須非常仔細(xì)地進(jìn)行對(duì)準(zhǔn),速度非常慢,成功率也很低;而中間方案,只需穿戴這個(gè)軸骨架,就能直接采集高質(zhì)量數(shù)據(jù)。我們用這些數(shù)據(jù)訓(xùn)練機(jī)器人策略。現(xiàn)在看到的是完全自主的策略部署,該策略基于零機(jī)器人操作數(shù)據(jù)訓(xùn)練而成。如此一來(lái),我們打破了每個(gè)機(jī)器人每天 24 小時(shí)運(yùn)行的限制——看看這些機(jī)器人有多開(kāi)心,因?yàn)樗鼈儾辉傩枰獏⑴c數(shù)據(jù)采集了。
Jim Fan 10:16
所以這就是答案嗎?我們解決了機(jī)器人技術(shù)的規(guī);瘑(wèn)題嗎?
這里有人開(kāi)特斯拉或 Waymo 嗎?你知道,當(dāng)你開(kāi)車(chē)的時(shí)候,你實(shí)際上參與了迄今規(guī)模最大的物理數(shù)據(jù)采集。妙處在于,在 FSD(全自動(dòng)駕駛)模式下,你甚至感覺(jué)不到它的存在,因?yàn)閿?shù)據(jù)上傳是一個(gè)無(wú)聲的過(guò)程。然而,佩戴 UMI 或 MANUS 這類數(shù)據(jù)可穿戴設(shè)備仍然很麻煩——它很突兀,不像開(kāi)車(chē)上班那樣無(wú)縫。
所以我們需要一套類似 FSD 的方案。數(shù)據(jù)收集需要變得更加輕量、融入背景,這樣我們才能充分捕捉人類在各行各業(yè)、所有經(jīng)濟(jì)價(jià)值勞動(dòng)中展現(xiàn)的靈巧技能。
Jim Fan 11:06
因此,我們?nèi)ν度氲揭匀祟悶橹行牡囊曨l中,這些視頻配有詳細(xì)標(biāo)注,包括手部位置追蹤、密集語(yǔ)言標(biāo)注,并引入了自我尺度(Ego Scale)的概念。其中,99.9% 的訓(xùn)練數(shù)據(jù)都基于以人類為中心的視頻。最終,我們獲得了一種端到端的策略,可以直接將攝像頭像素映射到具有 22 個(gè)自由度的高靈巧度機(jī)器人手上。
Jim Fan 11:35
您現(xiàn)在看到的是完全自主運(yùn)行的結(jié)果。我們使用 20,000 小時(shí)的真實(shí)場(chǎng)景下以人為中心的人類視頻數(shù)據(jù)對(duì) Ego Scale 進(jìn)行預(yù)訓(xùn)練,完全不使用任何機(jī)器人數(shù)據(jù)。在預(yù)訓(xùn)練過(guò)程中,我們預(yù)測(cè)手部關(guān)節(jié)位置和腕部姿態(tài)。在動(dòng)作微調(diào)階段,我們僅收集了 50 小時(shí)的高精度模擬數(shù)據(jù),以及 4 小時(shí)的真實(shí)訓(xùn)練數(shù)據(jù)——這 4 小時(shí)的數(shù)據(jù)不到我們總訓(xùn)練數(shù)據(jù)的 0.1%。
憑借這些數(shù)據(jù),Ego Scale 能夠泛化到一些非常靈巧的任務(wù),例如卡片分類、操作注射器以及液體轉(zhuǎn)移。也許有一天我們會(huì)擁有家庭機(jī)器人護(hù)士。對(duì)于這些任務(wù),只需在測(cè)試時(shí)進(jìn)行一次演示,模型就能學(xué)習(xí)不同的襯衫折疊策略。
Jim Fan 12:33
這篇論文中最引人入勝的發(fā)現(xiàn),是我們發(fā)現(xiàn)了靈巧性相關(guān)的神經(jīng)縮放定律——預(yù)訓(xùn)練時(shí)長(zhǎng)與最優(yōu)驗(yàn)證損失之間存在非常清晰的關(guān)系。在最初針對(duì)語(yǔ)言模型的神經(jīng)縮放定律提出六年之后,我們發(fā)現(xiàn)了一個(gè)簡(jiǎn)潔的對(duì)數(shù)線性數(shù)學(xué)方程,同樣適用于機(jī)器人靈巧操作。
如果我們把所有數(shù)據(jù)策略都放在一張圖表上,X 軸代表與機(jī)器人硬件的耦合程度,Y 軸代表可擴(kuò)展性,圖表大致如下:可擴(kuò)展性最差的數(shù)據(jù)可穿戴設(shè)備,其數(shù)據(jù)量也不過(guò)數(shù)十萬(wàn)小時(shí)。而對(duì)于自我中心(Egocentric)視頻,如果能充分發(fā)揮類 FSD 的優(yōu)勢(shì),下一階段的數(shù)據(jù)量很容易突破數(shù)千萬(wàn)小時(shí)。此外,如果我們?cè)趫D表上畫(huà)一條分界線,線左側(cè)的所有方法都代表了新的數(shù)據(jù)范式——人體傳感器數(shù)據(jù)。
Jim Fan 13:29
讓我做幾個(gè)預(yù)測(cè)。
未來(lái)一兩年內(nèi),我們會(huì)看到機(jī)器人遙操作數(shù)據(jù)的需求持續(xù)下降,直至幾乎可以忽略不計(jì)。屆時(shí),將會(huì)出現(xiàn)一系列針對(duì)不同硬件和應(yīng)用場(chǎng)景定制的數(shù)據(jù)變體。最終,機(jī)器人領(lǐng)域的主要數(shù)據(jù)來(lái)源將是自我中心視頻。
讓我們?yōu)槲覀兊睦吓笥堰b操作默哀片刻。你為我們做出了卓越的貢獻(xiàn)。安息吧。
那么,數(shù)據(jù)策略完成了嗎?大家注意到我在數(shù)據(jù)策略上標(biāo)了兩個(gè)環(huán)嗎?外環(huán)是什么?所有前沿 AI 領(lǐng)域都投入了大量資源來(lái)構(gòu)建數(shù)百萬(wàn)個(gè)編碼環(huán)境,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。機(jī)器人領(lǐng)域同樣如此,我們迫切需要擴(kuò)展訓(xùn)練環(huán)境的數(shù)量。當(dāng)然,你也可以直接在真實(shí)機(jī)器人上進(jìn)行強(qiáng)化學(xué)習(xí)。在我們的實(shí)驗(yàn)室里,我們通過(guò) RL 將某些任務(wù)的成功率提升到接近 100%,讓機(jī)器人連續(xù)執(zhí)行數(shù)小時(shí)。
Jim Fan 14:35
看著這些機(jī)器人自主組裝 GPU,感覺(jué)確實(shí)挺有意思的。用我老板的話說(shuō)就是:干得好,這項(xiàng)任務(wù)已經(jīng)得到批準(zhǔn)了。然而,我們目前還無(wú)法實(shí)現(xiàn) 100 萬(wàn)個(gè)并行訓(xùn)練環(huán)境的目標(biāo)——如果用傳統(tǒng)方法,那需要 100 萬(wàn)個(gè)真實(shí)機(jī)器人。
所以我們需要一種更好的方法。假設(shè)你用 iPhone 拍張照片,通過(guò) 3D 掃描流程提取場(chǎng)景中所有物體,再在經(jīng)典物理模擬器中自動(dòng)重新合成它們。掃描完成后,所有這些物體都具有交互性,你可以在模擬中無(wú)限擴(kuò)展,添加我們稱之為"數(shù)字表親"的各種變體。在這個(gè)我們稱之為**"實(shí)物到仿真再回到實(shí)物(Real2Sim2Real)"**的流程中,iPhone 基本上就變成了一個(gè)口袋世界掃描儀。通過(guò)這種方式,我們擁有了一種可擴(kuò)展的方法,可以將物理世界移植到數(shù)字世界。但這種方法仍然依賴于經(jīng)典的圖形渲染引擎。
我們能否做得更好?Dream Dojo 的出現(xiàn)讓我們能夠更好地利用視頻世界模型,并將其轉(zhuǎn)化為功能齊全的神經(jīng)模擬器。Dream Dojo 接收連續(xù)的動(dòng)作信號(hào)作為輸入,并實(shí)時(shí)輸出下一幀 RGB 圖像以及傳感器狀態(tài)。您現(xiàn)在看到的每一個(gè)像素都不是真實(shí)的。Dream Dojo 能夠通過(guò)純數(shù)據(jù)驅(qū)動(dòng)的方法,捕捉并學(xué)習(xí)不同機(jī)器人的運(yùn)行機(jī)制。
Jim Fan 16:10
這個(gè)過(guò)程不涉及任何物理方程,也不涉及任何圖形引擎。因此,機(jī)器人訓(xùn)練的新范式是:一套大規(guī)模并行的強(qiáng)化學(xué)習(xí)系統(tǒng),運(yùn)行在少數(shù)幾個(gè)真實(shí)機(jī)器人工作站上,配備大量 GPU 來(lái)執(zhí)行世界掃描和強(qiáng)化學(xué)習(xí)計(jì)算,同時(shí)運(yùn)行世界模型。
正如這個(gè)等式所描述的:計(jì)算量 = 環(huán)境,環(huán)境 = 數(shù)據(jù)。用我老板的話說(shuō):買(mǎi)得越多,省得越多。
好了,整理一下。機(jī)器人技術(shù)的發(fā)展將遵循一個(gè)宏大的平行規(guī)律,而且它正在發(fā)生——我們正處于最終階段的起點(diǎn)。
大家都玩過(guò)《文明》這款游戲吧,它至今仍是我的最愛(ài)。我喜歡把自己的研究比作在文明科技樹(shù)上解鎖成就。機(jī)器人技術(shù)還有三個(gè)成就需要解鎖。
Jim Fan17:16
解鎖之后,我就大功告成,可以退休了。
第一個(gè)成就,是讓機(jī)器人通過(guò)涵蓋各種活動(dòng)的物理圖靈測(cè)試——讓你根本分辨不出是人類還是機(jī)器人在完成某項(xiàng)任務(wù)(也許喝醉的人類除外)。物理圖靈測(cè)試關(guān)注的是單位能量輸入與單位勞動(dòng)輸出的比值。光看現(xiàn)在機(jī)器人的姿態(tài),我覺(jué)得我們還有很多工作要做。大約還需要兩到三年時(shí)間。
第二個(gè)成就是物理 API——屆時(shí)我們將擁有一整支機(jī)器人隊(duì)伍,它們可以像任何軟件一樣,通過(guò) API 和命令行進(jìn)行配置與調(diào)度,并最終由 Opus 9.0 這樣的 AI 進(jìn)行協(xié)調(diào)。
有了物理 API,我們將能夠?qū)崿F(xiàn)燈塔工廠(Lighthouse Factory)。這些工廠本質(zhì)上是原子打印機(jī):接收以 Markdown 文件形式輸入的設(shè)計(jì),輸出完全組裝好的產(chǎn)品,全程自主運(yùn)行;蛘邞(yīng)用于濕實(shí)驗(yàn)室,實(shí)現(xiàn)化學(xué)、生物學(xué)和醫(yī)學(xué)領(lǐng)域的科學(xué)發(fā)現(xiàn)自動(dòng)化。
第三個(gè)成就是物理自動(dòng)化研究的頂峰——屆時(shí)機(jī)器人將能夠設(shè)計(jì)、改進(jìn)和構(gòu)建下一代自身,其能力將遠(yuǎn)遠(yuǎn)超出人類的范疇。
Jim Fan 18:40
你可能會(huì)問(wèn):這難道不是科幻小說(shuō)嗎?我們這輩子能看到嗎?
人工智能領(lǐng)域花了整整 14 年,才從 2012 年 AlexNet 的第一次前向傳播,發(fā)展到如今能夠生成逼真視頻的模型。AlexNet 最初只能勉強(qiáng)區(qū)分貓和狗。
2026 年——好吧,我們聊的是實(shí)體智能,那就再加 14 年——2040 年。2026 年正好介于 2012 年和 2040 年之間。而且技術(shù)發(fā)展并非線性,而是呈指數(shù)級(jí)增長(zhǎng)。
所以我可以 95% 確定地說(shuō),到 2040 年,我們將完成機(jī)器人技術(shù)樹(shù)的最終階段。而我們那時(shí)依然年輕。
如果你相信機(jī)器人技術(shù),機(jī)器人技術(shù)也會(huì)相信你。
對(duì)于在座的各位——我們這一代人,生不逢時(shí),錯(cuò)過(guò)了探索地球的最佳時(shí)機(jī);生不逢時(shí),錯(cuò)過(guò)了探索星辰的最佳時(shí)機(jī)。但我們生逢其時(shí),正值攻克機(jī)器人技術(shù)難題的最佳時(shí)機(jī)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人到中年后,為什么很難快樂(lè)起來(lái)?網(wǎng)友:都是陳塘關(guān)村民罷了!

人到中年后,為什么很難快樂(lè)起來(lái)?網(wǎng)友:都是陳塘關(guān)村民罷了!

夜深愛(ài)雜談
2026-05-05 10:24:06
中超沒(méi)負(fù)分球隊(duì)了,蓉城又?jǐn)U大領(lǐng)先優(yōu)勢(shì),鐵人換教練后不一定成功

中超沒(méi)負(fù)分球隊(duì)了,蓉城又?jǐn)U大領(lǐng)先優(yōu)勢(shì),鐵人換教練后不一定成功

行舟問(wèn)茶
2026-05-06 14:31:15
難怪特朗普急著訪華,中國(guó)除稀土外的又一張王牌,讓美軍夜不能寐

難怪特朗普急著訪華,中國(guó)除稀土外的又一張王牌,讓美軍夜不能寐

曹興教授TALK
2026-05-03 19:04:45
科斯塔庫(kù)塔:當(dāng)年巴特斯曾經(jīng)從我手里搶走了一個(gè)漂亮姑娘

科斯塔庫(kù)塔:當(dāng)年巴特斯曾經(jīng)從我手里搶走了一個(gè)漂亮姑娘

懂球帝
2026-05-06 13:22:04
花幾百萬(wàn),換17歲男孩的血?

花幾百萬(wàn),換17歲男孩的血?

中國(guó)新聞周刊
2026-05-04 12:36:50
俞敏洪口無(wú)遮攔!一句“一看就是來(lái)蹭吃蹭喝的”,讓陳行甲難消化

俞敏洪口無(wú)遮攔!一句“一看就是來(lái)蹭吃蹭喝的”,讓陳行甲難消化

火山詩(shī)話
2026-05-06 06:12:10
甘肅臺(tái)球協(xié)會(huì)副會(huì)長(zhǎng)喊話吳宜澤:回來(lái)請(qǐng)你吃牛肉面,必須肉蛋雙飛

甘肅臺(tái)球協(xié)會(huì)副會(huì)長(zhǎng)喊話吳宜澤:回來(lái)請(qǐng)你吃牛肉面,必須肉蛋雙飛

懂球帝
2026-05-06 11:03:21
上映6天,票房破2.6億,陳思誠(chéng)吳慷仁都?jí)翰蛔,五一檔黑馬誕生了

上映6天,票房破2.6億,陳思誠(chéng)吳慷仁都?jí)翰蛔,五一檔黑馬誕生了

糊咖娛樂(lè)
2026-05-06 14:55:22
油價(jià)大漲超1.71元/升,今年一箱油貴85元后,5月8日油價(jià)或再大漲

油價(jià)大漲超1.71元/升,今年一箱油貴85元后,5月8日油價(jià)或再大漲

油價(jià)早知道
2026-05-04 01:15:42
7冠王亨德利調(diào)侃吳宜澤:別拿8個(gè)世錦賽冠軍 奧沙利文:他能奪8冠

7冠王亨德利調(diào)侃吳宜澤:別拿8個(gè)世錦賽冠軍 奧沙利文:他能奪8冠

念洲
2026-05-06 07:42:00
曼聯(lián)領(lǐng)跑“BIG6”小聯(lián)賽,卡里克再造紅魔基因

曼聯(lián)領(lǐng)跑“BIG6”小聯(lián)賽,卡里克再造紅魔基因

樂(lè)道足球C
2026-05-06 14:32:31
獲得7國(guó)支持后,巴拿馬向中國(guó)提出相關(guān)訴求,中方明確拒絕開(kāi)先例

獲得7國(guó)支持后,巴拿馬向中國(guó)提出相關(guān)訴求,中方明確拒絕開(kāi)先例

潮鹿逐夢(mèng)
2026-05-05 15:40:05
央視直播!倫敦世乒賽男團(tuán)16強(qiáng)對(duì)陣出爐,國(guó)乒男團(tuán)今日會(huì)戰(zhàn)羅馬尼亞

央視直播!倫敦世乒賽男團(tuán)16強(qiáng)對(duì)陣出爐,國(guó)乒男團(tuán)今日會(huì)戰(zhàn)羅馬尼亞

好乒乓
2026-05-06 12:23:48
中方拒絕接見(jiàn),日本派議員訪俄,俄當(dāng)面劃下紅線,高市碰一鼻子灰

中方拒絕接見(jiàn),日本派議員訪俄,俄當(dāng)面劃下紅線,高市碰一鼻子灰

史智文道
2026-05-06 14:41:51
三文魚(yú)變虹鱒?商家拿出檢測(cè)報(bào)告也沒(méi)用,自助餐的水比想象中還深

三文魚(yú)變虹鱒?商家拿出檢測(cè)報(bào)告也沒(méi)用,自助餐的水比想象中還深

丁丁鯉史紀(jì)
2026-05-04 17:50:18
《暗黑4》真有奶牛關(guān)!過(guò)程復(fù)雜到喪心病狂!

《暗黑4》真有奶牛關(guān)!過(guò)程復(fù)雜到喪心病狂!

游民星空
2026-05-06 10:06:27
大降價(jià)果然有一定效果!沃爾沃S90月售1700多臺(tái)!銷(xiāo)量提升1200臺(tái)

大降價(jià)果然有一定效果!沃爾沃S90月售1700多臺(tái)!銷(xiāo)量提升1200臺(tái)

沙雕小琳琳
2026-05-06 09:58:32
“我沒(méi)錢(qián)補(bǔ)交1400萬(wàn)的稅,就連喊冤的資格都沒(méi)有嗎?”

“我沒(méi)錢(qián)補(bǔ)交1400萬(wàn)的稅,就連喊冤的資格都沒(méi)有嗎?”

舒圣祥律師
2026-04-02 16:37:57
1987年法國(guó)影星阿蘭德龍?jiān)L華時(shí),與中國(guó)演員們的珍貴合影。

1987年法國(guó)影星阿蘭德龍?jiān)L華時(shí),與中國(guó)演員們的珍貴合影。

草莓解說(shuō)體育
2026-05-06 08:37:32
大連市副市長(zhǎng)趙東,添新職

大連市副市長(zhǎng)趙東,添新職

黃河新聞網(wǎng)呂梁
2026-05-06 08:53:52
2026-05-06 15:51:00
華爾街見(jiàn)聞官方 incentive-icons
華爾街見(jiàn)聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
145656文章數(shù) 2653475關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

世界杯FIFA給中國(guó)開(kāi)出天價(jià)版權(quán)費(fèi) 電視轉(zhuǎn)播談判陷僵局

頭條要聞

世界杯FIFA給中國(guó)開(kāi)出天價(jià)版權(quán)費(fèi) 電視轉(zhuǎn)播談判陷僵局

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣(mài) 誰(shuí)在講故事?

汽車(chē)要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
游戲
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

教育要聞

聚焦小初高英語(yǔ)教學(xué)銜接,AI+教師發(fā)展公益行·昆明五華站圓滿落幕

《生肖山》登陸Steam牌組構(gòu)建游戲節(jié)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版