国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

PI最新VLA模型登場!機器人疊衣服、做咖啡、組裝紙箱成功率翻倍

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影

機器人前瞻11月18日報道,今天,Physical Intelligence(簡稱PI)發(fā)布了旗下最新機器人基礎(chǔ)模型π*0.6。

PI是一家2024年成立于美國舊金山的機器人初創(chuàng)公司,團隊堪稱全明星陣容,CEO兼聯(lián)合創(chuàng)始人Karol Hausman曾是Google DeepMind資深研究科學家;聯(lián)合創(chuàng)始人還包括強化學習領(lǐng)域領(lǐng)軍人物Sergey Levine、斯坦福大學教授Chelsea Finn等。

PI的融資節(jié)奏和估值增長也十分迅猛:2024年3月種子輪融資中,以約4億美元估值籌集7000萬美元;同年11月完成4億美元A輪融資,估值飆升至24億美元。今年9月,有消息稱其正討論以50億美元估值開展新一輪融資,若落地則成立18個月內(nèi)估值將翻12倍。

Sergey Levine表示,搭載了π*0.6的機器人,已經(jīng)在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了,能夠狂干13小時,中間只有幾次中斷。

網(wǎng)友:這做咖啡的手法和效率,意大利人看了都備受震撼。

機器人還連續(xù)疊了3個小時衣服,衣服類型五花八門,疊一件衣服大概需要3分鐘。


針對組裝紙箱的任務,機器人連續(xù)組裝了1個小時,每個箱子大概需要兩分半鐘。

從PI發(fā)布的技術(shù)博客來看,π*0.6在多項任務的表現(xiàn)上,實現(xiàn)了吞吐量(每小時成功完成任務的次數(shù))和成功率較基礎(chǔ)模型翻倍,成功率超90%。

尤其是做咖啡這項任務,π*0.6較基礎(chǔ)模型的提升幅度非常明顯。不過,也有眼尖的網(wǎng)友發(fā)現(xiàn),機器人在制作拿鐵時,跳過了用蒸汽處理牛奶的關(guān)鍵步驟??磥頇C器人離成為一個合格的咖啡店員,還得再多練練。

一、糾正式指導+強化學習,破解模仿學習的累積錯誤難題

RECAP實現(xiàn)了三個關(guān)鍵步驟:通過演示訓練機器人、通過糾正進行指導,并使機器人能夠從自主經(jīng)驗中改進。這解決了模仿學習在機器人技術(shù)中的關(guān)鍵缺陷:小錯誤在現(xiàn)實實踐中引發(fā)累積錯誤,降低可靠性。

Recap能夠使研究人員通過兩種方式從“質(zhì)量較差”的經(jīng)驗數(shù)據(jù)中獲取良好的訓練信號:

1、糾正式指導(coaching with corrections)

由專家展示機器人如何修復錯誤或做得更好,從而提供修正。

想要讓糾正式指導真正有用,專家遠程操控者需要提供的是:在真實世界里,機器人實際犯錯之后,怎樣從這些錯誤中恢復的糾正示范。在實踐中,這意味著運行當前最好的策略,當機器人犯錯時,用人工遠程操控接管它。

但是,僅僅依靠糾正式指導是有限的:這類監(jiān)督的質(zhì)量受制于人類是否能及時判斷應當介入以及是否能提供高質(zhì)量的糾正。對于那些特別明顯或嚴重的錯誤,這種方式是有效的。

不過,就像運動員如果不自己反復練習,是不可能真正掌握一項運動一樣,研究人員需要一種辦法,讓策略可以通過通過練習和強化繼續(xù)學習和完善其行為的微小細節(jié)。

2、強化學習(reinforcement learning)

機器人依據(jù)整個任務過程的最終結(jié)果,自行判斷哪些行為更好或更差,并通過迭代學習強化好的行為、避免不好的行為。

通過任務結(jié)果來進行強化學習的核心難題是信用分配(credit assignment):也就是弄清楚機器人在整個過程中做的哪些動作導致了好的結(jié)果,而哪些動作導致了壞的結(jié)果。

比如,如果機器人用錯誤的方式拿起意式咖啡機的手柄,那之后它在把手柄插回機器里時可能就會遇到困難。真正的錯誤并不在“插入”這個動作本身,而是在更早之前的抓取動作。


▲通過模仿學習訓練的基礎(chǔ)模型,在將手柄插入意式咖啡機時會遇到困難。

一個正確的信用分配方法應當能把這次失敗歸因到那次抓取上,即使失敗是在后面才表現(xiàn)出來的。

Recap 通過訓練一個價值函數(shù)來應對這樣的信用分配難題,價值函數(shù)是一個模型,它能夠預測特定情境相對于其他情境有多好。

舉個例子,在國際象棋這類游戲中,智能體只會在贏棋時獲得獎勵,那么價值函數(shù)可以根據(jù)當前棋局來預測智能體獲勝的概率。

如果研究人員能從機器人的經(jīng)驗中學到這樣的價值函數(shù),就可以通過價值函數(shù)的變化來判斷一個動作是好是壞:那些讓價值函數(shù)變大的動作,就像讓棋局更接近勝利的落子,是應該被鼓勵的好動作;而那些讓價值函數(shù)變小的動作,則應該被抑制。

二、吞吐量和成功率較基礎(chǔ)模型翻倍,任務成功率超90%

PI使用Recap來訓練π*(0.6)模型,使其能夠執(zhí)行多項真實世界應用。π*(0.6)是基于π(0.6)模型訓練而來的,而π(0.6)是早期π(0.5)模型的改進版本。


研究人員測試了三個應用場景:制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱,這每一項任務都包含許多挑戰(zhàn):

制作咖啡流程長,要求機器人能夠傾倒液體、把握好咖啡制作時間、制作完成后清理機器等。

疊衣物,機器人需要能夠處理高度的多樣性,對不同衣物采用不同的折疊方法。

組裝包裝箱,機器人需在保持箱體結(jié)構(gòu)的同時折疊箱蓋,還要應對箱子粘連等特殊情況。


Recap的第一階段,是用離線強化學習(offline RL)對π*(0.6)模型進行預訓練,這一點與基礎(chǔ)的 π(0.6)和π(0.5)用純監(jiān)督學習訓練的方式不同。在此基礎(chǔ)上,研究人員再用示范數(shù)據(jù)對π*(0.6)進行按任務的微調(diào),接著再用在機器人上采集到的額外數(shù)據(jù)進行強化學習訓練:其中既包括專家提供的糾正,用來修復大的錯誤,也包括基于獎勵信號的反饋,讓模型能從自主經(jīng)驗中學習提升。

研究人員對比了幾種模型的表現(xiàn):基礎(chǔ)π(0.6)模型(通過監(jiān)督學習訓練)、基礎(chǔ)π*(0.6)模型(通過離線 RL訓練,即Recap的第一階段)、經(jīng)過演示數(shù)據(jù)微調(diào)后的π*(0.6)模型,以及最終經(jīng)過機器上經(jīng)驗微調(diào)后的 π*(0.6)模型。

從最終結(jié)果來看,對于像做咖啡這樣的頗具挑戰(zhàn)性的任務,在加入機器人的真實執(zhí)行經(jīng)驗后,吞吐量和成功率都提升了超過兩倍,均實現(xiàn)了超過90%的成功率。


結(jié)語:從經(jīng)驗中學習,或?qū)⒊蔀楦咝阅苣P偷年P(guān)鍵一部分

目前,機器人基礎(chǔ)模型主要使用的是由人工采集的示范數(shù)據(jù)(例如遠程操控)。這種方式讓訓練流程變得簡單、直接,但也帶來了一個非常嚴峻的障礙:數(shù)據(jù)采集需要大量人工投入;模型的速度和魯棒性受限于人類水平;而且機器人本身不會因為積累經(jīng)驗而逐漸變得更強。

而像Recap這樣的方法,理論上可以通過直接從機器人自身的經(jīng)驗中學習,從而解決這些限制。

隨著機器人在真實世界中的部署越來越廣泛,來自經(jīng)驗的學習有可能會是一個非常重要的訓練數(shù)據(jù)來源,并成為實現(xiàn)高性能表現(xiàn)的關(guān)鍵組成部分。

就像人類是通過“講解+指導+練習”的組合方式來學習一樣,機器人未來也會從許多不同的數(shù)據(jù)源中學習。不過,這些數(shù)據(jù)源會承擔不同的角色:專家示范,用來定義新的行為;糾正式指導,用來打磨和優(yōu)化策略;而自主經(jīng)驗——很可能是規(guī)模最大的數(shù)據(jù)來源——則用來把這些行為打磨到極致,甚至有望最終達到超越人類的表現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
粉絲預算5000拿下iPhone17!網(wǎng)友:該價位最值得入手的機型!

粉絲預算5000拿下iPhone17!網(wǎng)友:該價位最值得入手的機型!

果粉使用技巧
2025-12-27 19:45:25
李小璐寫真生圖高清

李小璐寫真生圖高清

翩翩明星
2025-11-14 09:39:36
天山勝利隧道通車!其意義不亞于中國建造航母,對新疆意味什么?

天山勝利隧道通車!其意義不亞于中國建造航母,對新疆意味什么?

特特農(nóng)村生活
2025-12-28 01:00:36
自作孽!放走2大主力,迷信31歲老將,老牌勁旅,如今成CBA魚腩隊

自作孽!放走2大主力,迷信31歲老將,老牌勁旅,如今成CBA魚腩隊

金山話體育
2025-12-28 11:24:53
簽了簽了!正式加盟快船!發(fā)展聯(lián)盟轟下53分

簽了簽了!正式加盟快船!發(fā)展聯(lián)盟轟下53分

籃球?qū)崙?zhàn)寶典
2025-12-28 20:16:12
羽球最新戰(zhàn)報!安東森首局6-1被逆轉(zhuǎn),石宇奇22-20反敗為勝,1-0

羽球最新戰(zhàn)報!安東森首局6-1被逆轉(zhuǎn),石宇奇22-20反敗為勝,1-0

劉姚堯的文字城堡
2025-12-28 20:16:05
沉默10天,中國突然對美國強硬出手,力度之大、范圍之廣從沒見過

沉默10天,中國突然對美國強硬出手,力度之大、范圍之廣從沒見過

文雅筆墨
2025-12-28 17:03:13
外國人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國人吃

外國人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國人吃

帶你感受人間冷暖
2025-12-26 00:05:14
美國專家:漢字是全球唯一超越時空的文字,這一優(yōu)勢碾壓英法俄語

美國專家:漢字是全球唯一超越時空的文字,這一優(yōu)勢碾壓英法俄語

比利
2025-12-27 19:26:54
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

阿纂看事
2025-12-27 23:23:46
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
美油輪被扣,特朗普急了,向6國發(fā)出邀請,以色列早已按耐不住

美油輪被扣,特朗普急了,向6國發(fā)出邀請,以色列早已按耐不住

云上烏托邦
2025-12-27 15:04:43
全國人大常委會批準任命張升民為中國人民解放軍選舉委員會副主任

全國人大常委會批準任命張升民為中國人民解放軍選舉委員會副主任

澎湃新聞
2025-12-27 18:40:05
1958年,2億只麻雀一夜之間沒了,大家都以為保住了糧食,結(jié)果第二年那報應來得太猛,還得厚著臉皮找蘇聯(lián)救急

1958年,2億只麻雀一夜之間沒了,大家都以為保住了糧食,結(jié)果第二年那報應來得太猛,還得厚著臉皮找蘇聯(lián)救急

歷史回憶室
2025-12-26 11:11:27
生娃“獎房子”,真金白銀鼓勵生育|新京報快評

生娃“獎房子”,真金白銀鼓勵生育|新京報快評

新京報
2025-12-27 19:47:14
畸形兒風波反轉(zhuǎn)!醫(yī)院回應透露2個關(guān)鍵信息 闞清子的沉默早有預兆

畸形兒風波反轉(zhuǎn)!醫(yī)院回應透露2個關(guān)鍵信息 闞清子的沉默早有預兆

觀察鑒娛
2025-12-28 10:26:06
萊利預言成真,火箭擺出終極陣容!杜蘭特笑納大勝申京成唯一輸家

萊利預言成真,火箭擺出終極陣容!杜蘭特笑納大勝申京成唯一輸家

鍋子籃球
2025-12-28 13:10:00
美國國務院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

三石記
2025-12-27 15:03:24
江蘇“呼啦圈西施”顏倩離世!3歲兒子目睹全程,去年被搶救20天

江蘇“呼啦圈西施”顏倩離世!3歲兒子目睹全程,去年被搶救20天

寒士之言本尊
2025-12-28 18:09:24
郭艾倫缺席廣州終結(jié)吉林4連勝 威金頓21分陳國豪8+8

郭艾倫缺席廣州終結(jié)吉林4連勝 威金頓21分陳國豪8+8

醉臥浮生
2025-12-28 21:24:38
2025-12-28 21:48:49
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
278文章數(shù) 5關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
本地
數(shù)碼
親子
軍事航空

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

LG電子2026款OLED電視獲英偉達G-SYNC認證,至高165Hz

親子要聞

爸爸非常自責呢

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關(guān)懷版