網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

π0.7發(fā)布，VLA押出了機(jī)器人的GPT-3時(shí)刻

2026-04-17 14:56:08　來(lái)源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

今天凌晨，Physical Intelligence發(fā)布了全新的VLA模型π0.7，狠狠敲了世界模型一記悶棍。

π0.7第一次在機(jī)器人領(lǐng)域證明了Compositional Generalization（組合泛化），且VLA。

在遇到新任務(wù)時(shí)，模型可以組合以前學(xué)過(guò)的原子技能，自己拼出解法。

就像喬丹會(huì)跳投、會(huì)后仰，遇到新防守時(shí)自己琢磨出后仰跳投。

沒(méi)人專(zhuān)門(mén)教他這一招，他自己組出來(lái)了。

Demo里最炸的兩個(gè)：

任務(wù)泛化：機(jī)器人沒(méi)見(jiàn)過(guò)空氣炸鍋，也能根據(jù)指令，組合機(jī)械臂動(dòng)作把紅薯烤出來(lái)。

本體泛化：把從一個(gè)機(jī)械臂學(xué)來(lái)的抓取策略，直接部署在另一臺(tái)機(jī)械臂上。

更離譜的是，Physical Intelligence的研究員自己也說(shuō)不清π0.7到底會(huì)什么。

他們還在探索邊界，玩起來(lái)很有趣，到目前為止效果相當(dāng)令人驚喜。

切黃瓜、削皮、倒垃圾、烤紅薯……都能干

用Physical Intelligence的研究員Ashwin Balakrishna說(shuō)：

我過(guò)去總能根據(jù)訓(xùn)練數(shù)據(jù)猜出模型能做什么。這一次,我猜不到了。

π0.7：具有涌現(xiàn)能力的可控模型

π0.7最核心的洞見(jiàn)只有一句話(huà)，多樣化的數(shù)據(jù)需要多樣化的prompt。但它帶來(lái)的結(jié)果，遠(yuǎn)比這句話(huà)本身要深遠(yuǎn)得多。

用多樣化的prompt，吃下多樣化的數(shù)據(jù)

過(guò)去VLA訓(xùn)練只喂一句清理冰箱，模型得到的信號(hào)是單一的。π0.7把prompt展開(kāi)成四層：

任務(wù)指令（清理廚房）+子任務(wù)指令（打開(kāi)冰箱）+子目標(biāo)圖像（下一秒畫(huà)面應(yīng)該長(zhǎng)什么樣）+episode元數(shù)據(jù)（這條數(shù)據(jù)質(zhì)量幾分、有沒(méi)有出錯(cuò)、速度多快）。

有了這些豐富的context，模型就能分得清訓(xùn)練數(shù)據(jù)里的好壞、快慢、對(duì)錯(cuò)。

然后它就能吃下以前吃不了的數(shù)據(jù)。失敗的rollouts，低質(zhì)量的演示，其他機(jī)器人的片段，人類(lèi)的egocentric視頻，全都變成有用的信號(hào)。

換句話(huà)說(shuō)，多樣數(shù)據(jù)本身不是問(wèn)題，問(wèn)題是模型不知道自己在學(xué)什么。

π0.7加的那層prompt，就是讓模型知道“這段數(shù)據(jù)是什么質(zhì)量、用什么策略做的”。

于是，具身領(lǐng)域第一次出現(xiàn)通才追平專(zhuān)才的涌現(xiàn)時(shí)刻。

通才追平專(zhuān)才

在轉(zhuǎn)帖中，Physical Intelligence聯(lián)合創(chuàng)始人Chelsea Finn說(shuō)了一個(gè)很有意思的對(duì)比：

大語(yǔ)言模型的后訓(xùn)練，過(guò)去指的是針對(duì)下游任務(wù)做微調(diào)。一直以來(lái)，機(jī)器人也卡在這個(gè)階段，想要最好的性能，就得針對(duì)具體任務(wù)微調(diào)。

π0.7改變了這一點(diǎn)：開(kāi)箱即用，而且超過(guò)了fine-tuned的專(zhuān)家模型。

口說(shuō)無(wú)憑，實(shí)驗(yàn)數(shù)據(jù)是這樣的：

π0.7沒(méi)做任何專(zhuān)項(xiàng)訓(xùn)練，就能在做咖啡、疊衣服、裝箱三個(gè)復(fù)雜任務(wù)上，追平π0.6經(jīng)過(guò)微調(diào)的的專(zhuān)家模型。

這里說(shuō)的專(zhuān)家模型有兩種，一種是π*0.6的RL specialist，用RECAP方法針對(duì)咖啡、裝箱、疊衣服單獨(dú)訓(xùn)過(guò)。

另一種是π0.6上的SFT specialist，針對(duì)每個(gè)任務(wù)單獨(dú)微調(diào)過(guò)。

更離譜的是，在疊衣服裝箱這兩個(gè)最難的任務(wù)上，π0.7的比RL specialist單位時(shí)間完成的次數(shù)更多。

可以說(shuō)，一個(gè)什么都沒(méi)專(zhuān)門(mén)訓(xùn)過(guò)的通才，打過(guò)了專(zhuān)門(mén)為某個(gè)任務(wù)訓(xùn)出來(lái)的專(zhuān)才。而這也是PI一直堅(jiān)定的方向之一。

組合泛化開(kāi)始涌現(xiàn)

π0.7的涌現(xiàn)能力分成四塊。

開(kāi)箱即用的dexterity：做咖啡、疊衣服、剝蔬菜、削西葫蘆、換垃圾袋。全部不做任務(wù)專(zhuān)項(xiàng)訓(xùn)練。

指令泛化：在4個(gè)沒(méi)見(jiàn)過(guò)的廚房和2個(gè)沒(méi)見(jiàn)過(guò)的臥室里，跟著3-6步開(kāi)放指令干活。

甚至能聽(tīng)懂拿起那個(gè)最大盤(pán)子里的水果、拿起我用來(lái)喝湯的那個(gè)東西這種復(fù)雜空間和語(yǔ)義指代。

跨本體泛化：在疊T恤等任務(wù)中，訓(xùn)練數(shù)據(jù)里一條UR5e疊衣服的樣本都沒(méi)有。

π0.7不但做出來(lái)了，任務(wù)完成度85.6%，和10個(gè)平均375小時(shí)teleoperation經(jīng)驗(yàn)的頂級(jí)人類(lèi)操作員的90.9%基本打平。

而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人類(lèi)操作員在源機(jī)器人上用傾斜夾爪貼住桌面抓，π0.7在UR5e上用的是垂直抓取，因?yàn)檫@更適合UR5e更長(zhǎng)的手臂運(yùn)動(dòng)學(xué)。

組合任務(wù)泛化

用空氣炸鍋?zhàn)黾t薯、烤貝果、按下按鈕、用抹布擦耳機(jī)和尺子、擰旋鈕和桌面風(fēng)扇，訓(xùn)練數(shù)據(jù)里一條都沒(méi)有。

這不是多做了幾個(gè)任務(wù)的增量，是機(jī)器人第一次像LLM那樣，從訓(xùn)練數(shù)據(jù)里涌現(xiàn)出新能力。

正如，Sergey Levine說(shuō)的：

一旦模型越過(guò)那個(gè)閾值，從「只能做收集過(guò)數(shù)據(jù)的事」變成「開(kāi)始重組出新事」，能力就會(huì)超線(xiàn)性地隨數(shù)據(jù)增長(zhǎng)。

數(shù)據(jù)過(guò)濾可能是個(gè)偽問(wèn)題

論文里藏著一個(gè)非常反直覺(jué)的實(shí)驗(yàn)。

研究把疊衣服的數(shù)據(jù)按質(zhì)量分四檔：top30%、top50%、top80%、全部數(shù)據(jù)。

然后分別訓(xùn)兩個(gè)版本的π0.7，一個(gè)加metadata（每條數(shù)據(jù)打上質(zhì)量幾分、有沒(méi)有出錯(cuò)、多快完成的標(biāo)簽），一個(gè)不加。

結(jié)果很有意思。

不加metadata的版本，數(shù)據(jù)越多，性能越差——因?yàn)榛烊肓说唾|(zhì)量數(shù)據(jù)把模型帶歪了。

加了metadata的版本，數(shù)據(jù)越多，性能越好——哪怕平均質(zhì)量在下降。

這意味著整個(gè)具身領(lǐng)域過(guò)去幾年都在做的“數(shù)據(jù)清洗”，可能是個(gè)偽問(wèn)題。

只要模型知道每條數(shù)據(jù)的質(zhì)量標(biāo)簽，它就能自己決定要學(xué)什么、不學(xué)什么。

垃圾數(shù)據(jù)不再是垃圾，是帶著quality=1/5標(biāo)簽的有用信號(hào)。失敗數(shù)據(jù)也不是要丟掉的東西，是告訴模型這么干會(huì)失敗的反面教材。

過(guò)去所有人都在小心翼翼地挑演示、刪失敗、洗數(shù)據(jù)。π0.7說(shuō)，別洗了，告訴模型哪些臟就行。

π0.7是怎么做到的？

π0.7是一個(gè)5B參數(shù)的模型，分三塊。

VLM骨干：4B參數(shù)的Gemma3，負(fù)責(zé)理解視覺(jué)和語(yǔ)言。
Action expert：860M參數(shù)的transformer，用flow matching生成連續(xù)動(dòng)作chunk，50Hz高頻控制。
World model：從14B的BAGEL圖像生成模型初始化，負(fù)責(zé)給π0.7畫(huà)出未來(lái)幾秒應(yīng)該是什么樣子。

在推理中，模型輸入包括：4路攝像頭（前視+兩個(gè)腕部+可選后視）、每路6幀歷史畫(huà)面、機(jī)器人關(guān)節(jié)狀態(tài)、再加上任務(wù)指令、子任務(wù)指令、元數(shù)據(jù)、以及world model實(shí)時(shí)畫(huà)出的次目標(biāo)圖像。

輸出是一段50步的action chunk，實(shí)際執(zhí)行15到25步，然后再推下一段。

說(shuō)到這里，可能有人會(huì)問(wèn)，π0.7里塞了個(gè)world model，這算不算和世界模型派融合了？

半算，半不算。

世界模型派的核心是讓模型學(xué)會(huì)模擬物理演化：給一個(gè)動(dòng)作，預(yù)測(cè)世界變成什么樣。policy基于這個(gè)預(yù)測(cè)做決策。

π0.7里的world model不干這事。它只負(fù)責(zé)一件事，把任務(wù)指令翻譯成成功那一幀應(yīng)該長(zhǎng)啥樣。不預(yù)測(cè)動(dòng)作后果，不模擬物理，不參與決策鏈路。

它是個(gè)消歧器，不是個(gè)規(guī)劃器。

用世界模型派的武器，干了一件不是世界模型派想象的事。

此外，π0.7還站在兩篇前作的肩膀上，繼承了π0.6的架構(gòu)底子，以及MEM的多尺度記憶編碼器（短期視頻memory+長(zhǎng)期語(yǔ)義memory）。

訓(xùn)練上用了Knowledge Insulation

VLM骨干用FAST token做next-token prediction訓(xùn)練，action expert的梯度不回傳到VLM。這樣VLM從互聯(lián)網(wǎng)學(xué)來(lái)的語(yǔ)義知識(shí)被保護(hù)住，不被機(jī)器人動(dòng)作數(shù)據(jù)污染。

但架構(gòu)不是π0.7最重要的東西，論文中也說(shuō)：

我們的貢獻(xiàn)不是提出新的架構(gòu)或模型設(shè)計(jì)，而是一套讓VLA能使用更多樣化數(shù)據(jù)源的方法論。

VLM可以直接控制機(jī)器人，不需要先學(xué)會(huì)想象世界

在π0.7之前，具身圈最火的還是英偉達(dá)去年用Cosmos帶起來(lái)的世界模型風(fēng)潮。

讓機(jī)器人先學(xué)會(huì)想象未來(lái)，再去操作現(xiàn)在

這個(gè)路線(xiàn)看起來(lái)很符合直覺(jué)，人類(lèi)不就是這么干的嗎？閉上眼睛想一下要做什么，然后再動(dòng)手。

從2025年到現(xiàn)在，這條路線(xiàn)收了最多的注意力和投入。

今天，風(fēng)向又要變了——VLA回來(lái)了！

而說(shuō)到VLA，壓根沒(méi)人比Physical Intelligence更懂。

2023年，PI聯(lián)創(chuàng)Karol HausmanSergey LevineChelsea Finn三個(gè)人，在Google做RT-2的時(shí)候，就押注了一個(gè)判斷。

VLM可以直接控制機(jī)器人，不需要先學(xué)會(huì)想象世界。

意思是，你不用讓模型先學(xué)會(huì)預(yù)測(cè)下一幀畫(huà)面、不用讓它腦補(bǔ)物理規(guī)律、不用讓它建立一個(gè)內(nèi)部的世界模擬器。

你直接拿一個(gè)已經(jīng)見(jiàn)過(guò)互聯(lián)網(wǎng)的VLM，接一個(gè)動(dòng)作頭，端到端訓(xùn)，就夠了。

從RT-2到π0.7，其實(shí)只有兩代VLA架構(gòu)。

第一代是RT-2，把機(jī)器人動(dòng)作離散化成token，塞進(jìn)VLM的next-token prediction里。

能動(dòng)，但控制精度不高，而且自回歸預(yù)測(cè)生成慢，跟不上50Hz的高頻連續(xù)控制。

第二代是π0開(kāi)的頭，給VLM接一個(gè)專(zhuān)門(mén)的action expert，用flow matching直接生成連續(xù)動(dòng)作chunk。

中間那些模型——π0.5的open-world generalization、π0.6的RL自我練習(xí)、MEM的多尺度記憶——

都沒(méi)改這個(gè)基座。都是在VLM+action expert+flow matching這個(gè)結(jié)構(gòu)上往上加能力。

π0.7也是。架構(gòu)上它和π*0.6沒(méi)有本質(zhì)差別，它加的是prompt的多樣性。

這就是為什么論文里說(shuō)”我們的貢獻(xiàn)不是架構(gòu)”。

但，更有意思的是另一個(gè)人。

Lucy Shi，斯坦福博士生在讀，師從Chelsea Finn，π0.7的核心作者之一。

她在推特上發(fā)了一條thread，講了一個(gè)非常誠(chéng)實(shí)的故事。

之前，她跟著朱玉可、Jim Fan在英偉達(dá)做世界模型。

她押的注和Karol他們相反——

世界模型會(huì)是關(guān)鍵的鑰匙，會(huì)在任務(wù)泛化上顯著超過(guò)標(biāo)準(zhǔn)VLA方法。

一開(kāi)始，結(jié)果確實(shí)支持這個(gè)假設(shè)。她拿到了驚艷的組合泛化，機(jī)器人能遵循沒(méi)見(jiàn)過(guò)的指令，做訓(xùn)練數(shù)據(jù)里沒(méi)有的任務(wù)，從其他機(jī)器人和人類(lèi)視頻遷移。

但有個(gè)奇怪的事情發(fā)生了。

他們拿來(lái)對(duì)比的VLA基線(xiàn)，一直在變強(qiáng)。

隨著數(shù)據(jù)越收越多，VLA越來(lái)越強(qiáng)，直到有一天，VLA基線(xiàn)也開(kāi)始展示出組合泛化的信號(hào)。

而且，VLA的方法簡(jiǎn)單得多。

面對(duì)這一問(wèn)題，Lucy感到無(wú)可奈何：

當(dāng)你的基線(xiàn)吃掉了你的研究假設(shè)，你能怎么辦？你寫(xiě)一篇論文，去搞清楚基線(xiàn)為什么這么強(qiáng)。

那篇論文，就是π0.7。

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.