国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

π0.7發(fā)布,VLA押出了機(jī)器人的GPT-3時(shí)刻

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

今天凌晨,Physical Intelligence發(fā)布了全新的VLA模型π0.7,狠狠敲了世界模型一記悶棍。

π0.7第一次在機(jī)器人領(lǐng)域證明了Compositional Generalization(組合泛化),且VLA。

在遇到新任務(wù)時(shí),模型可以組合以前學(xué)過(guò)的原子技能,自己拼出解法。



就像喬丹會(huì)跳投、會(huì)后仰,遇到新防守時(shí)自己琢磨出后仰跳投。

沒(méi)人專(zhuān)門(mén)教他這一招,他自己組出來(lái)了。

Demo里最炸的兩個(gè):

任務(wù)泛化:機(jī)器人沒(méi)見(jiàn)過(guò)空氣炸鍋,也能根據(jù)指令,組合機(jī)械臂動(dòng)作把紅薯烤出來(lái)。

本體泛化:把從一個(gè)機(jī)械臂學(xué)來(lái)的抓取策略,直接部署在另一臺(tái)機(jī)械臂上。

更離譜的是,Physical Intelligence的研究員自己也說(shuō)不清π0.7到底會(huì)什么。

他們還在探索邊界,玩起來(lái)很有趣,到目前為止效果相當(dāng)令人驚喜。

切黃瓜、削皮、倒垃圾、烤紅薯……都能干

用Physical Intelligence的研究員Ashwin Balakrishna說(shuō):

我過(guò)去總能根據(jù)訓(xùn)練數(shù)據(jù)猜出模型能做什么。這一次,我猜不到了。

π0.7:具有涌現(xiàn)能力的可控模型

π0.7最核心的洞見(jiàn)只有一句話(huà),多樣化的數(shù)據(jù)需要多樣化的prompt。 但它帶來(lái)的結(jié)果,遠(yuǎn)比這句話(huà)本身要深遠(yuǎn)得多。

用多樣化的prompt,吃下多樣化的數(shù)據(jù)

過(guò)去VLA訓(xùn)練只喂一句清理冰箱,模型得到的信號(hào)是單一的。π0.7把prompt展開(kāi)成四層:



任務(wù)指令(清理廚房)+子任務(wù)指令(打開(kāi)冰箱)+子目標(biāo)圖像(下一秒畫(huà)面應(yīng)該長(zhǎng)什么樣)+episode元數(shù)據(jù)(這條數(shù)據(jù)質(zhì)量幾分、有沒(méi)有出錯(cuò)、速度多快)。

有了這些豐富的context,模型就能分得清訓(xùn)練數(shù)據(jù)里的好壞、快慢、對(duì)錯(cuò)。

然后它就能吃下以前吃不了的數(shù)據(jù)。失敗的rollouts,低質(zhì)量的演示,其他機(jī)器人的片段,人類(lèi)的egocentric視頻,全都變成有用的信號(hào)。

換句話(huà)說(shuō),多樣數(shù)據(jù)本身不是問(wèn)題,問(wèn)題是模型不知道自己在學(xué)什么。

π0.7加的那層prompt,就是讓模型知道“這段數(shù)據(jù)是什么質(zhì)量、用什么策略做的”。

于是,具身領(lǐng)域第一次出現(xiàn)通才追平專(zhuān)才的涌現(xiàn)時(shí)刻。

通才追平專(zhuān)才

在轉(zhuǎn)帖中,Physical Intelligence聯(lián)合創(chuàng)始人Chelsea Finn說(shuō)了一個(gè)很有意思的對(duì)比:

大語(yǔ)言模型的后訓(xùn)練,過(guò)去指的是針對(duì)下游任務(wù)做微調(diào)。一直以來(lái),機(jī)器人也卡在這個(gè)階段,想要最好的性能,就得針對(duì)具體任務(wù)微調(diào)。

π0.7改變了這一點(diǎn):開(kāi)箱即用,而且超過(guò)了fine-tuned的專(zhuān)家模型。



口說(shuō)無(wú)憑,實(shí)驗(yàn)數(shù)據(jù)是這樣的:

π0.7沒(méi)做任何專(zhuān)項(xiàng)訓(xùn)練,就能在做咖啡、疊衣服、裝箱三個(gè)復(fù)雜任務(wù)上,追平π0.6經(jīng)過(guò)微調(diào)的的專(zhuān)家模型。



這里說(shuō)的專(zhuān)家模型有兩種,一種是π*0.6的RL specialist,用RECAP方法針對(duì)咖啡、裝箱、疊衣服單獨(dú)訓(xùn)過(guò)。

另一種是π0.6上的SFT specialist,針對(duì)每個(gè)任務(wù)單獨(dú)微調(diào)過(guò)。

更離譜的是,在疊衣服裝箱這兩個(gè)最難的任務(wù)上,π0.7的比RL specialist單位時(shí)間完成的次數(shù)更多。

可以說(shuō),一個(gè)什么都沒(méi)專(zhuān)門(mén)訓(xùn)過(guò)的通才,打過(guò)了專(zhuān)門(mén)為某個(gè)任務(wù)訓(xùn)出來(lái)的專(zhuān)才。而這也是PI一直堅(jiān)定的方向之一。

組合泛化開(kāi)始涌現(xiàn)

π0.7的涌現(xiàn)能力分成四塊。

開(kāi)箱即用的dexterity:做咖啡、疊衣服、剝蔬菜、削西葫蘆、換垃圾袋。全部不做任務(wù)專(zhuān)項(xiàng)訓(xùn)練。

指令泛化:在4個(gè)沒(méi)見(jiàn)過(guò)的廚房和2個(gè)沒(méi)見(jiàn)過(guò)的臥室里,跟著3-6步開(kāi)放指令干活。

甚至能聽(tīng)懂拿起那個(gè)最大盤(pán)子里的水果、拿起我用來(lái)喝湯的那個(gè)東西這種復(fù)雜空間和語(yǔ)義指代。

跨本體泛化:在疊T恤等任務(wù)中,訓(xùn)練數(shù)據(jù)里一條UR5e疊衣服的樣本都沒(méi)有。

π0.7不但做出來(lái)了,任務(wù)完成度85.6%,和10個(gè)平均375小時(shí)teleoperation經(jīng)驗(yàn)的頂級(jí)人類(lèi)操作員的90.9%基本打平。



而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人類(lèi)操作員在源機(jī)器人上用傾斜夾爪貼住桌面抓,π0.7在UR5e上用的是垂直抓取,因?yàn)檫@更適合UR5e更長(zhǎng)的手臂運(yùn)動(dòng)學(xué)。

組合任務(wù)泛化

用空氣炸鍋?zhàn)黾t薯、烤貝果、按下按鈕、用抹布擦耳機(jī)和尺子、擰旋鈕和桌面風(fēng)扇,訓(xùn)練數(shù)據(jù)里一條都沒(méi)有。



這不是多做了幾個(gè)任務(wù)的增量,是機(jī)器人第一次像LLM那樣,從訓(xùn)練數(shù)據(jù)里涌現(xiàn)出新能力。

正如,Sergey Levine說(shuō)的:

一旦模型越過(guò)那個(gè)閾值,從「只能做收集過(guò)數(shù)據(jù)的事」變成「開(kāi)始重組出新事」,能力就會(huì)超線(xiàn)性地隨數(shù)據(jù)增長(zhǎng)。

數(shù)據(jù)過(guò)濾可能是個(gè)偽問(wèn)題

論文里藏著一個(gè)非常反直覺(jué)的實(shí)驗(yàn)。



研究把疊衣服的數(shù)據(jù)按質(zhì)量分四檔:top30%、top50%、top80%、全部數(shù)據(jù)。

然后分別訓(xùn)兩個(gè)版本的π0.7,一個(gè)加metadata(每條數(shù)據(jù)打上質(zhì)量幾分、有沒(méi)有出錯(cuò)、多快完成的標(biāo)簽),一個(gè)不加。

結(jié)果很有意思。

不加metadata的版本,數(shù)據(jù)越多,性能越差——因?yàn)榛烊肓说唾|(zhì)量數(shù)據(jù)把模型帶歪了。

加了metadata的版本,數(shù)據(jù)越多,性能越好——哪怕平均質(zhì)量在下降。

這意味著整個(gè)具身領(lǐng)域過(guò)去幾年都在做的“數(shù)據(jù)清洗”,可能是個(gè)偽問(wèn)題。

只要模型知道每條數(shù)據(jù)的質(zhì)量標(biāo)簽,它就能自己決定要學(xué)什么、不學(xué)什么。

垃圾數(shù)據(jù)不再是垃圾,是帶著quality=1/5標(biāo)簽的有用信號(hào)。失敗數(shù)據(jù)也不是要丟掉的東西,是告訴模型這么干會(huì)失敗的反面教材。

過(guò)去所有人都在小心翼翼地挑演示、刪失敗、洗數(shù)據(jù)。π0.7說(shuō),別洗了,告訴模型哪些臟就行。

π0.7是怎么做到的?

π0.7是一個(gè)5B參數(shù)的模型,分三塊。



  • VLM骨干:4B參數(shù)的Gemma3,負(fù)責(zé)理解視覺(jué)和語(yǔ)言。
  • Action expert:860M參數(shù)的transformer,用flow matching生成連續(xù)動(dòng)作chunk,50Hz高頻控制。
  • World model:從14B的BAGEL圖像生成模型初始化,負(fù)責(zé)給π0.7畫(huà)出未來(lái)幾秒應(yīng)該是什么樣子。

在推理中,模型輸入包括:4路攝像頭(前視+兩個(gè)腕部+可選后視)、每路6幀歷史畫(huà)面、機(jī)器人關(guān)節(jié)狀態(tài)、再加上任務(wù)指令、子任務(wù)指令、元數(shù)據(jù)、以及world model實(shí)時(shí)畫(huà)出的次目標(biāo)圖像。

輸出是一段50步的action chunk,實(shí)際執(zhí)行15到25步,然后再推下一段。

說(shuō)到這里,可能有人會(huì)問(wèn),π0.7里塞了個(gè)world model,這算不算和世界模型派融合了?

半算,半不算。

世界模型派的核心是讓模型學(xué)會(huì)模擬物理演化:給一個(gè)動(dòng)作,預(yù)測(cè)世界變成什么樣。policy基于這個(gè)預(yù)測(cè)做決策。

π0.7里的world model不干這事。它只負(fù)責(zé)一件事,把任務(wù)指令翻譯成成功那一幀應(yīng)該長(zhǎng)啥樣。不預(yù)測(cè)動(dòng)作后果,不模擬物理,不參與決策鏈路。

它是個(gè)消歧器,不是個(gè)規(guī)劃器。

用世界模型派的武器,干了一件不是世界模型派想象的事。



此外,π0.7還站在兩篇前作的肩膀上,繼承了π0.6的架構(gòu)底子,以及MEM的多尺度記憶編碼器(短期視頻memory+長(zhǎng)期語(yǔ)義memory)。

訓(xùn)練上用了Knowledge Insulation

VLM骨干用FAST token做next-token prediction訓(xùn)練,action expert的梯度不回傳到VLM。這樣VLM從互聯(lián)網(wǎng)學(xué)來(lái)的語(yǔ)義知識(shí)被保護(hù)住,不被機(jī)器人動(dòng)作數(shù)據(jù)污染。

但架構(gòu)不是π0.7最重要的東西,論文中也說(shuō):

我們的貢獻(xiàn)不是提出新的架構(gòu)或模型設(shè)計(jì),而是一套讓VLA能使用更多樣化數(shù)據(jù)源的方法論。

VLM可以直接控制機(jī)器人,不需要先學(xué)會(huì)想象世界

在π0.7之前,具身圈最火的還是英偉達(dá)去年用Cosmos帶起來(lái)的世界模型風(fēng)潮。

讓機(jī)器人先學(xué)會(huì)想象未來(lái),再去操作現(xiàn)在

這個(gè)路線(xiàn)看起來(lái)很符合直覺(jué),人類(lèi)不就是這么干的嗎?閉上眼睛想一下要做什么,然后再動(dòng)手。

從2025年到現(xiàn)在,這條路線(xiàn)收了最多的注意力和投入。

今天,風(fēng)向又要變了——VLA回來(lái)了!



而說(shuō)到VLA,壓根沒(méi)人比Physical Intelligence更懂。

2023年,PI聯(lián)創(chuàng)Karol HausmanSergey LevineChelsea Finn三個(gè)人,在Google做RT-2的時(shí)候,就押注了一個(gè)判斷。

VLM可以直接控制機(jī)器人,不需要先學(xué)會(huì)想象世界。

意思是,你不用讓模型先學(xué)會(huì)預(yù)測(cè)下一幀畫(huà)面、不用讓它腦補(bǔ)物理規(guī)律、不用讓它建立一個(gè)內(nèi)部的世界模擬器。

你直接拿一個(gè)已經(jīng)見(jiàn)過(guò)互聯(lián)網(wǎng)的VLM,接一個(gè)動(dòng)作頭,端到端訓(xùn),就夠了。

從RT-2到π0.7,其實(shí)只有兩代VLA架構(gòu)。

第一代是RT-2,把機(jī)器人動(dòng)作離散化成token,塞進(jìn)VLM的next-token prediction里。

能動(dòng),但控制精度不高,而且自回歸預(yù)測(cè)生成慢,跟不上50Hz的高頻連續(xù)控制。



第二代是π0開(kāi)的頭,給VLM接一個(gè)專(zhuān)門(mén)的action expert,用flow matching直接生成連續(xù)動(dòng)作chunk。



中間那些模型——π0.5的open-world generalization、π0.6的RL自我練習(xí)、MEM的多尺度記憶——

都沒(méi)改這個(gè)基座。都是在VLM+action expert+flow matching這個(gè)結(jié)構(gòu)上往上加能力。

π0.7也是。架構(gòu)上它和π*0.6沒(méi)有本質(zhì)差別,它加的是prompt的多樣性。

這就是為什么論文里說(shuō)”我們的貢獻(xiàn)不是架構(gòu)”。

但,更有意思的是另一個(gè)人。

Lucy Shi,斯坦福博士生在讀,師從Chelsea Finn,π0.7的核心作者之一。



她在推特上發(fā)了一條thread,講了一個(gè)非常誠(chéng)實(shí)的故事。



之前,她跟著朱玉可、Jim Fan在英偉達(dá)做世界模型。



她押的注和Karol他們相反——

世界模型會(huì)是關(guān)鍵的鑰匙,會(huì)在任務(wù)泛化上顯著超過(guò)標(biāo)準(zhǔn)VLA方法。

一開(kāi)始,結(jié)果確實(shí)支持這個(gè)假設(shè)。她拿到了驚艷的組合泛化,機(jī)器人能遵循沒(méi)見(jiàn)過(guò)的指令,做訓(xùn)練數(shù)據(jù)里沒(méi)有的任務(wù),從其他機(jī)器人和人類(lèi)視頻遷移。

但有個(gè)奇怪的事情發(fā)生了。

他們拿來(lái)對(duì)比的VLA基線(xiàn),一直在變強(qiáng)。

隨著數(shù)據(jù)越收越多,VLA越來(lái)越強(qiáng),直到有一天,VLA基線(xiàn)也開(kāi)始展示出組合泛化的信號(hào)。

而且,VLA的方法簡(jiǎn)單得多。

面對(duì)這一問(wèn)題,Lucy感到無(wú)可奈何:

當(dāng)你的基線(xiàn)吃掉了你的研究假設(shè),你能怎么辦?你寫(xiě)一篇論文,去搞清楚基線(xiàn)為什么這么強(qiáng)。

那篇論文,就是π0.7。

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三級(jí)歐戰(zhàn)4強(qiáng)全出爐:英超4隊(duì)成大贏家!意甲全軍覆沒(méi),創(chuàng)7年恥辱

三級(jí)歐戰(zhàn)4強(qiáng)全出爐:英超4隊(duì)成大贏家!意甲全軍覆沒(méi),創(chuàng)7年恥辱

我愛(ài)英超
2026-04-17 06:35:13
1969年張治中逝世,國(guó)務(wù)院吵了一整晚,周總理拍板作出2項(xiàng)決定

1969年張治中逝世,國(guó)務(wù)院吵了一整晚,周總理拍板作出2項(xiàng)決定

浩渺青史
2026-04-17 13:50:53
2026年女籃世界杯抽簽分檔出爐:中國(guó)女籃第二檔 美德法澳第一檔

2026年女籃世界杯抽簽分檔出爐:中國(guó)女籃第二檔 美德法澳第一檔

醉臥浮生
2026-04-17 10:35:48
演員潘宏彬去世,曾在《射雕英雄傳》中飾演楊康,與劉德華是同學(xué)

演員潘宏彬去世,曾在《射雕英雄傳》中飾演楊康,與劉德華是同學(xué)

紅星新聞
2026-04-17 10:47:19
霍爾木茲封鎖72小時(shí):美國(guó)沒(méi)敢攔中國(guó)油輪,但山東煉廠已到生死線(xiàn)

霍爾木茲封鎖72小時(shí):美國(guó)沒(méi)敢攔中國(guó)油輪,但山東煉廠已到生死線(xiàn)

環(huán)球格局觀
2026-04-17 14:13:48
圣陽(yáng)股份連收7個(gè)漲停板

圣陽(yáng)股份連收7個(gè)漲停板

證券時(shí)報(bào)
2026-04-17 10:16:11
可樂(lè)再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝可樂(lè),不用多久或有5變化

可樂(lè)再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝可樂(lè),不用多久或有5變化

蜉蝣說(shuō)
2026-04-17 11:00:32
14歲被送上導(dǎo)演的床,17歲拍全裸寫(xiě)真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫(xiě)真,被操控半生,如今怎樣了?

阿廢冷眼觀察所
2026-04-17 13:59:46
剛剛,突傳大利好!尾盤(pán),直線(xiàn)爆拉!

剛剛,突傳大利好!尾盤(pán),直線(xiàn)爆拉!

中國(guó)基金報(bào)
2026-04-17 15:32:10
恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無(wú)下限,會(huì)壞到什么地步?

恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無(wú)下限,會(huì)壞到什么地步?

道術(shù)意義
2026-04-08 07:32:08
經(jīng)過(guò)伊朗這一戰(zhàn),中美之間可能至少50年內(nèi)不會(huì)爆發(fā)戰(zhàn)爭(zhēng)

經(jīng)過(guò)伊朗這一戰(zhàn),中美之間可能至少50年內(nèi)不會(huì)爆發(fā)戰(zhàn)爭(zhēng)

地球記
2026-04-16 20:21:55
倒反天罡,美國(guó)大網(wǎng)紅被中國(guó)小孩懟得原地破防

倒反天罡,美國(guó)大網(wǎng)紅被中國(guó)小孩懟得原地破防

楓冷慕詩(shī)
2026-04-16 12:01:12
我空降到家鄉(xiāng)擔(dān)任副省長(zhǎng),參加校友聚會(huì),卻被班花的處長(zhǎng)丈夫嘲笑

我空降到家鄉(xiāng)擔(dān)任副省長(zhǎng),參加校友聚會(huì),卻被班花的處長(zhǎng)丈夫嘲笑

紅豆講堂
2025-04-16 10:47:03
朋友圈的“訃告”,93年

朋友圈的“訃告”,93年

螞蟻大喇叭
2026-04-17 15:20:16
周繼紅出手了!跳水隊(duì)大換血,2人上桌2人下桌,全紅嬋陳芋汐在列

周繼紅出手了!跳水隊(duì)大換血,2人上桌2人下桌,全紅嬋陳芋汐在列

阿纂看事
2026-04-16 14:04:03
結(jié)婚登記創(chuàng)36年新低,越來(lái)越多男人主動(dòng)不結(jié)婚,到底在怕啥?

結(jié)婚登記創(chuàng)36年新低,越來(lái)越多男人主動(dòng)不結(jié)婚,到底在怕啥?

老特有話(huà)說(shuō)
2026-04-15 15:05:41
新疆新設(shè)草湖市

新疆新設(shè)草湖市

新京報(bào)
2026-04-17 12:30:35
快訊!印度虧慘了!

快訊!印度虧慘了!

有態(tài)度的何總
2026-04-17 10:59:36
DeepSeek分析:未來(lái)3年內(nèi),普通家庭貶值最快的5項(xiàng)資產(chǎn),越早知道越好

DeepSeek分析:未來(lái)3年內(nèi),普通家庭貶值最快的5項(xiàng)資產(chǎn),越早知道越好

十點(diǎn)讀書(shū)
2026-04-16 18:54:00
長(zhǎng)春市紀(jì)委監(jiān)委通報(bào):于亮被查

長(zhǎng)春市紀(jì)委監(jiān)委通報(bào):于亮被查

吉刻新聞
2026-04-17 16:24:18
2026-04-17 17:00:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12487文章數(shù) 176454關(guān)注度
往期回顧 全部

科技要聞

營(yíng)收5年百億,8年千億!智元立下軍令狀

頭條要聞

陜西黃金商戶(hù)網(wǎng)上接單被指資金涉詐:10萬(wàn)貨款不敢動(dòng)

頭條要聞

陜西黃金商戶(hù)網(wǎng)上接單被指資金涉詐:10萬(wàn)貨款不敢動(dòng)

體育要聞

遭網(wǎng)暴后,22歲大滿(mǎn)貫冠軍反擊:我的頭發(fā)足夠好

娛樂(lè)要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車(chē)要聞

又快又穩(wěn)的開(kāi)掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

健康
旅游
本地
公開(kāi)課
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

大理花事 | 大理上和月季正當(dāng)時(shí)

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以?;?0天 以方稱(chēng)不會(huì)撤軍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版