国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機器人大神Sergey Levine詳解:VLA+強化學習 會催生更強大的系統(tǒng)

0
分享至

Sergey Levine簡介/Physical Intelligence (PI)聯(lián)合創(chuàng)始人、加州理工大學伯克利分校(UC Berkeley)副教授。他以流匹配架構(gòu)與混合專家模型,突破機器人控制瓶頸,并以VLA融合模型重新定義了通用機器人的學習范式。

7月27日,在2025 WAIC上,由智元機器人主辦的「智啟具身論壇」如期舉辦。在其重量級嘉賓陣容中,RoboX首先編譯整理了Sergey Levine的演講內(nèi)容,供大家參考:

開端:RT-2的「視覺問答」

“幾年前,基于首個機器人基礎(chǔ)模型,我的學生凱文·布萊克發(fā)送了一個指令——‘把茄子放進鍋里’。當時的基礎(chǔ)模型運行在遠程服務(wù)器上,且運行的是一個我們沒有開發(fā)、也不太清楚工作原理的模型。凱文能夠向這個模型發(fā)送指令,然后機器人就完成了任務(wù)?!?/p>

在演講的開頭,Levine回憶道,像這樣簡單的任務(wù),卻已經(jīng)讓凱文研究了很長一段時間。因此,這一指令的成功,讓他們看到了新型系統(tǒng)勢的能力,以及其不可阻擋的趨勢:

“隨著我們開發(fā)出可遠程調(diào)用的機器人基礎(chǔ)模型,這將釋放出一種力量,使任何機器人都能執(zhí)行任何任務(wù)?!?/p>

他介紹稱,首個機器人VLA模型是RT-2(谷歌DeepMind于2023年7月 推出)。RT-2其實是一個非常簡單的模型,它基于能夠處理圖像的大語言模型,并進一步訓練以實現(xiàn)機器人控制,所以它仍屬于語言模型,并可以處理「視覺問答」類任務(wù)——向它們展示一張圖片,問一個問題,模型就會嘗試回答問題。

“為了使模型適應(yīng)機器人操控,我們只需將機器人的規(guī)控表述為一個問題,而問題的答案就是應(yīng)該發(fā)送給機器人的電機指令。RT-2基于PaLI-XPaLM-E兩種預訓練的VLM,構(gòu)建出一個相當復雜的VLA模型,它可以執(zhí)行各種基礎(chǔ)的語言指令。”Levine說道。

但是,要充分釋放機器人基礎(chǔ)模型的潛力,還需要一些其他條件——合適的數(shù)據(jù)集。

RT-X帶來質(zhì)變

“我認為,朝著這一目標邁出的另一步意義重大,那就是RT-X數(shù)據(jù)集的開發(fā)。”(編者注:DeepMind于2023年發(fā)布了RT-X通用大模型,并開放了訓練數(shù)據(jù)集Open X-Embodiment。)

Levine表示,RT-X的數(shù)據(jù)集是一個跨具身數(shù)據(jù)集,其數(shù)據(jù)來自34個不同的研究實驗室、22種不同類型的機器人。

在這一數(shù)據(jù)集中,可以看到各種各樣不同的機械臂、場景及任務(wù)。如今,這個數(shù)據(jù)集具備了訓練機器人基礎(chǔ)模型所需的多樣性和可變性的雛形。

“我們通過RT-X發(fā)現(xiàn)的一個非常有趣的現(xiàn)象是,基于這些數(shù)據(jù)訓練的通用模型,其表現(xiàn)能夠優(yōu)于那些專門針對特定場景進行調(diào)整的專業(yè)模型?!?/strong>

Levine表示,平均而言,跨具身模型在這些實驗室中的表現(xiàn)比各自單獨研發(fā)的模型要好約50%。

“這相當令人振奮,因為每個實驗室都在研發(fā)最適合自身場景的模型。而這個包含來自所有其他機器人數(shù)據(jù)的跨具身模型,表現(xiàn)反而更出色。所以,這在一定程度上體現(xiàn)了我們在自然語言處理和計算機視覺等其他領(lǐng)域所期望看到的通用性優(yōu)勢的開端。”

他指出,對于分布外指令(即訓練數(shù)據(jù)中未涵蓋的指令),RT-X的表現(xiàn)比僅基于單個機器人數(shù)據(jù)訓練的模型好約3倍。

VLA的模型的迭代

RT-2實際上是第一代VLA模型,它的設(shè)計方法很簡單,只是將機器人控制問題構(gòu)建成問答問題,這是一種相當直接簡單的實現(xiàn)方式。

現(xiàn)在,行業(yè)已經(jīng)有了性能好得多的模型,它們能夠更出色地處理復雜且多樣的任務(wù)。Levine對于這些模型也進行了介紹——

首先,從語言模型說起:語言模型是一個大型的Transformer,用于預測文本中后續(xù)的Token。

為了讓大語言模型也能處理圖像,可以將圖像嵌入到與文本相同的嵌入空間中,這樣就得到了視覺語言模型。

而第一代VLA模型,是簡單地將視覺語言模型的輸出后綴,替換為用離散Token的機器人指令,來進行訓練。

“第一代VLA模型的架構(gòu)與VLM的架構(gòu)完全相同。而在開發(fā)第二代的VLA模型時,人們意識到動作并非離散Token,而是連續(xù)的。因此,第二代VLA模型采用了連續(xù)動作分布,通常由高容量的多模態(tài)模型來表示,例如擴散模型或流匹配模型?!?/p>

這些模型能夠利用基礎(chǔ)VLM的內(nèi)部表示,同時生成連續(xù)動作,通常是以動作片段的時間跨度形式生成,這意味著它們能同時生成多個未來動作步驟,從而顯著提升了性能。

第二代VLA的設(shè)計方法

如今,第二代VLA模型有著多種不同的設(shè)計方法。但它們有個共同點——都采用了單獨的生成機制,這種機制更適合生成連續(xù)動作,通常適用于實現(xiàn)更高頻率和更靈活精細的控制。

它們擁有專門的連續(xù)采樣機制,能夠?qū)iT針對運動控制進行優(yōu)化,就像是一種虛擬的運動皮層。

在此背景下,Levine向大家介紹了PI(Physical Intelligence)的第二代VLA模型——π0,它基于擁有30億參數(shù)的Polyglot – LLM(多語言大語言模型)開發(fā),并在此基礎(chǔ)上增加了動作專家模塊。

而且,它們可以采用專家混合模型,即利用不同的權(quán)重為不同的Token生成輸出。

π0模型中,有一個獨立的動作專家模塊,不過這個模塊比專門用于生成連續(xù)動作片段的基礎(chǔ)VLM要小很多。

π0模型的輸入根據(jù)機器人的具體形態(tài)而定,包括1-3張圖像和一條語言指令。動作專家模塊會關(guān)注基礎(chǔ)語言模型中的所有內(nèi)部激活狀態(tài),同時處理像關(guān)節(jié)角度這樣的連續(xù)信息,并輸出一個包含50個時間步的動作片段,其維度足夠高,能夠控制數(shù)據(jù)集中的任何機器人.

π0的數(shù)據(jù)集

現(xiàn)在,π0的模型只是機器人基礎(chǔ)模型整體設(shè)計中的一小部分,另一部分則是用于訓練π0的數(shù)據(jù)集。

“我們已經(jīng)收集了一個規(guī)模非常大的數(shù)據(jù)集,包含來自各種不同機器人的約10,000小時數(shù)據(jù),并將其與之前收集的數(shù)據(jù)集(如RT-X的數(shù)據(jù)集)進行合并。一旦在這個數(shù)據(jù)集上進行訓練,我們就能快速將模型微調(diào)至新任務(wù),包括非常復雜的任務(wù)?!?/p>

Levine展示了一個相關(guān)的任務(wù)示例——將一個盒子進行折疊,使其完全組裝好。從視頻來看,只需將盒子放在機器人面前,它便開始工作。

這是一個極具挑戰(zhàn)性的任務(wù),因為它需要機器人具備極高的靈活性。而且,在折疊盒子時,機器人需要利用桌面來支撐盒子,并且在恰當?shù)臅r機正確施力。

不過,Levine坦言,這一方案遠非完美,所以有時也會犯錯。但它確實能在多種不同的位置成功折疊盒子。根據(jù)實際測試,在三項任務(wù)中的兩項里,通過預訓練獲得了非常大的性能提升。

據(jù)他介紹,現(xiàn)在,π0還能執(zhí)行較為復雜的任務(wù),例如折疊衣物:它能相當可靠地折疊各種衣物,包括短褲、T恤等等。它會犯一些錯誤,但最終能恢復過來并正確折疊衣物。

并能在多種不同的環(huán)境中完成這項任務(wù),也能用不同的機器人來完成。

“真正令人興奮的一點是,它能從預訓練中吸收大量知識,這意味著它能夠從干擾中恢復過來?!?/p>

在一些視頻中可以看到,在機器人折疊衣物時,旁邊的人會在桌上添加衣物、或者去擺弄衣物,但機器人最終都能從干擾中恢復過來。

基于π0的機器人,可以將多個不同的任務(wù),組合成一個連續(xù)的的執(zhí)行過程。例如,機器人可以先把衣物從烘干機里拿出來,帶到折疊桌旁,然后按順序折疊所有的衣物。

π0.5:可執(zhí)行長期持續(xù)任務(wù)

至于最新的版本——π0.5,也融合了許多其他功能。

據(jù)Levine介紹,π0.5的設(shè)計目標,是在全新環(huán)境中執(zhí)行非常長期的任務(wù)。例如清理臥室——讓機器人進入全新的家中,收拾地上衣物、扔掉垃圾以及整理床鋪等。

為了這些長期任務(wù),PI對π0.5增加了高層和低層推理的能力——與直接收簡單指令、輸出動作的π0不同,π0.5可以接收類似「打掃臥室」這樣的高層指令,然后進行高層推理,在任務(wù)執(zhí)行的當前節(jié)點選擇合適的子步驟;接著,它將這個低層指令傳遞給模型的其余部分,繼續(xù)選擇合適的動作。

“這也是一種從海量網(wǎng)絡(luò)數(shù)據(jù)中進行訓練、從而更有效地遷移知識的方法。因為推斷這些語義步驟是VLM應(yīng)該非常擅長的。我們?yōu)?strong>π0.5使用了非常復雜的任務(wù)組合,其中包含了許多不同機器人的數(shù)據(jù)。同時,我們采用了多種訓練目標,包括對問答問題、邊界框檢測問題以及機器人任務(wù)(如預測語義子步驟和預測動作)進行訓練?!?/p>

在進行總結(jié)后,Levine還指出了一點:移動操作類數(shù)據(jù)僅占π0.5訓練數(shù)據(jù)集的3%。這類數(shù)據(jù)很難獲取,因為這些機器人都很復雜。

實際上,絕大多數(shù)數(shù)據(jù)(97%)來自非移動機器人形態(tài),包括可以放置在各種不同位置的更簡單的機械臂、在實驗室收集的機器人數(shù)據(jù)等等。

盡管如此,π0.5卻能在現(xiàn)實場景中進行廣泛應(yīng)用。例如,在真實的廚房里疊毛巾、進行清潔工作等等。這些實驗都是在訓練數(shù)據(jù)中未出現(xiàn)過的場景中進行的,是全新的住宅環(huán)境。

未來的VLA:與強化學習結(jié)合

盡管現(xiàn)在的機器人已經(jīng)有了通用模型,且該模型在一系列復雜的任務(wù)中表現(xiàn)出色,但仍存在一些不足之處。

其中一點不足在于,這個模型完全是通過模仿學習進行訓練的,它并沒有真正直接針對任務(wù)成功、魯棒性和速度進行優(yōu)化。

“更具前瞻性的是即將出現(xiàn)的強化學習技術(shù),我們可以將其納入未來的VLA模型,以大大提高其魯棒性和性能?!?/p>

Levine打了個比方,在訓練標準基礎(chǔ)模型(比如LLMs和VLMs)時,通常分兩個階段進行:

首先,是預訓練階段,也就是從網(wǎng)絡(luò)上收集大量數(shù)據(jù)。這個階段的目的并非讓模型真正地執(zhí)行任務(wù),而是將大量知識融入模型中。

接著,是后訓練階段,也叫對齊階段——使用高質(zhì)量的監(jiān)督微調(diào)(SFT)數(shù)據(jù)集,或者采用某種強化學習方法。這一階段的目的不一定是獲取新知識,而是專門教導模型如何執(zhí)行用戶的任務(wù),以及如何穩(wěn)健、高效地執(zhí)行這些任務(wù)。

“我認為,在機器人基礎(chǔ)模型中,我們也會看到同樣的階段劃分,會有預訓練階段和后訓練階段。在后訓練階段,目標是利用強化學習和高質(zhì)量數(shù)據(jù),讓機器人能夠出色地完成各項任務(wù)。”

Levine表示,經(jīng)過過去幾年的研究,他們發(fā)現(xiàn)現(xiàn)實世界中的強化學習,能夠通過「帶先驗數(shù)據(jù)的RLPD算法」變得非常高效。

它是一種離策略(off - policy)的演員-評論家(Actor - Critic)方法,且通過示范數(shù)據(jù)進行初始化。

例如,主要觀測數(shù)據(jù)來自機械臂腕部攝像頭的原始圖像,使用預訓練的視覺編碼器至關(guān)重要。

而獎勵機制由一個圖像分類器構(gòu)成,該分類器只需判斷機器人是否成功完成任務(wù),因此這是一個非常稀疏的獎勵。

因此,為了提高效率,也可以將人工干預納入系統(tǒng),即當機器人任務(wù)失敗時,人員可以介入并提出修正建議,這既能提供額外的獎勵信號,也能提供額外的數(shù)據(jù)。訓練過程中的人工干預,能讓學習過程高效得多。

這就像一位老師,在指導機器人如何執(zhí)行任務(wù)的同時,也讓它自己嘗試完成任務(wù)。這套系統(tǒng)在學習各種單個任務(wù)時非常有效。

Levine指出,VLA是一種通用型架構(gòu),而強化學習(RL,Reinforcement Learning)系統(tǒng)實際上是一個用于訓練「專家」的系統(tǒng),不過它也能為各種廣泛的任務(wù)訓練出非常出色的專家。

這些任務(wù)包括給齒輪安裝正時皮帶、組裝家具、翻煎蛋,還有一些高度動態(tài)的任務(wù)。這些都是相當復雜、難以學習的任務(wù)。

將VLA與DLA整合互補

VLA的這種能力與DLA(Deep Learning Architecture)具有很強的互補性,PI真正想做的是將它們整合在一起。這樣,專家數(shù)據(jù)就可以指導通用型體系,使其變得更出色。

從視頻演示來看,當機器人給齒輪安裝正時皮帶時,即便面對干擾,機器人也恢復得相當專業(yè)。

“目前,如何將這些專家整合到一個通用型體系中,仍然是一個尚未解決的問題。不過,我們已經(jīng)朝著解決這個問題邁出了初步的步伐?!?/p>

其中一步所采用的方法,即為RLDG(編者注:Robotic Generalist Policy Distillation via Reinforcement Learning,一種通過強化學習蒸餾提升機器人通才策略的方法)。該方法直接利用強化學習Agent,來生成用于訓練VLA的數(shù)據(jù)。

“我認為,就這類研究而言,目前仍處于早期階段,但我認為它極具潛力。在我們的RLDG原型中,成功訓練出了用于插入各種連接器的專才策略,比如VGA連接器、USB連接器等等?!?/p>

之后,Levine利用來自這些「專家數(shù)據(jù)」對VLA進行訓練,結(jié)果發(fā)現(xiàn),VLA能夠?qū)⑦@些所學知識泛化到全新的Agent上。類似疊衣服、搭盒子那樣的任務(wù),只是初步的進展。

“未來,我們會在將強化學習與VLA相結(jié)合,并取得大量進展。這或許會催生出性能更可靠、更出色的系統(tǒng)?!?/strong>

他認為,目前已經(jīng)出現(xiàn)了非常高效的強化學習算法,以及將強化學習技能提煉到VLA中的方法,但仍存在一些尚未解決的問題。

“我們?nèi)匀粵]有一套穩(wěn)定、有效且可靠的端到端訓練流程,用于借助強化學習訓練VLA。我認為,在借助VLA促進探索和隨機應(yīng)變能力,以切實輔助強化學習上,我們還有大量的系統(tǒng)構(gòu)建工作有待完成?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人都死了,才罰7.6萬?越看越不對勁

人都死了,才罰7.6萬?越看越不對勁

走讀新生
2026-04-09 15:37:03
遁入空門?遲重瑞寺廟誦經(jīng),送妻后被曝皈依,百億遺產(chǎn)說扔就扔

遁入空門?遲重瑞寺廟誦經(jīng),送妻后被曝皈依,百億遺產(chǎn)說扔就扔

李橑在北漂
2026-04-10 17:17:42
中國“撿錢”時代將要來臨:若手中只有10萬,試下死啃這兩條線

中國“撿錢”時代將要來臨:若手中只有10萬,試下死啃這兩條線

混沌錄
2026-04-03 17:28:23
樊振東自愿放棄倫敦世乒賽資格,國際乒聯(lián)主席回應(yīng)樊振東赴海外參訓:這是全新的歷練,選手打完聯(lián)賽依舊可回歸,所有賽事均保持開放

樊振東自愿放棄倫敦世乒賽資格,國際乒聯(lián)主席回應(yīng)樊振東赴海外參訓:這是全新的歷練,選手打完聯(lián)賽依舊可回歸,所有賽事均保持開放

極目新聞
2026-04-10 09:12:57
廣東官方緊急提醒!毒性極強可致命,很多深圳人天天吃

廣東官方緊急提醒!毒性極強可致命,很多深圳人天天吃

環(huán)球網(wǎng)資訊
2026-04-10 16:52:30
女子出軌被丈夫捉奸在床

女子出軌被丈夫捉奸在床

太陽來
2026-04-10 17:15:06
震驚!2025年收入216360.18元,一份南京小學教師個稅清單引熱議

震驚!2025年收入216360.18元,一份南京小學教師個稅清單引熱議

火山詩話
2026-04-10 15:51:39
小米全新入門低價新車曝光!這也太棒了

小米全新入門低價新車曝光!這也太棒了

XCiOS俱樂部
2026-04-10 18:38:08
湖人3配角價值突顯!肯納德攻守全輸出,史密斯連爆,布朗尼進步

湖人3配角價值突顯!肯納德攻守全輸出,史密斯連爆,布朗尼進步

籃球資訊達人
2026-04-10 13:52:22
中央一錘定音!6月1日起全國統(tǒng)一執(zhí)行,家家戶戶用水將迎7大變化

中央一錘定音!6月1日起全國統(tǒng)一執(zhí)行,家家戶戶用水將迎7大變化

三農(nóng)雷哥
2026-04-10 17:43:46
“這種人誰敢錄?”39歲華東師范考生舉報第一名,學?;貞?yīng)來了

“這種人誰敢錄?”39歲華東師范考生舉報第一名,學?;貞?yīng)來了

妍妍教育日記
2026-04-09 10:55:07
美國議員自曝患癌:壽命或只剩3個月,現(xiàn)在最放不下三個孩子

美國議員自曝患癌:壽命或只剩3個月,現(xiàn)在最放不下三個孩子

芭比衣櫥
2026-04-10 18:10:39
毛主席從不批評劉伯承和徐向前,一個是不忍批評,另一個無需批評

毛主席從不批評劉伯承和徐向前,一個是不忍批評,另一個無需批評

鶴羽說個事
2026-04-08 22:21:11
研究了5.6萬顆恒星后,天文學家發(fā)現(xiàn):太陽似乎被精心設(shè)計過

研究了5.6萬顆恒星后,天文學家發(fā)現(xiàn):太陽似乎被精心設(shè)計過

觀察宇宙
2026-04-08 20:32:34
丁俊暉深夜回信戳中萬人淚點:8歲拿球桿那天就把命交給這張球桌

丁俊暉深夜回信戳中萬人淚點:8歲拿球桿那天就把命交給這張球桌

林子說事
2026-04-10 12:34:19
一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

共工之錨
2026-04-08 00:29:52
臺北市長滿意度近七成,國民黨支持率卻跌破三成。

臺北市長滿意度近七成,國民黨支持率卻跌破三成。

吃貨的分享
2026-04-09 17:48:49
601020,實際控制人變更,下周一復牌!

601020,實際控制人變更,下周一復牌!

數(shù)據(jù)寶
2026-04-10 21:23:37
6個進球全是烏龍!10歲孩子為何踢假球?賽制安排不合理引發(fā)亂象

6個進球全是烏龍!10歲孩子為何踢假球?賽制安排不合理引發(fā)亂象

中國足球的那些事兒
2026-04-10 13:16:45
央行數(shù)據(jù)曝光:41.5%家庭手握多套房,房價下跌后,他們有多難?

央行數(shù)據(jù)曝光:41.5%家庭手握多套房,房價下跌后,他們有多難?

老特有話說
2026-04-08 14:45:55
2026-04-11 00:03:00
RoboX
RoboX
關(guān)注智能汽車、機器人在內(nèi)的具身智能前沿科技
237文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預售35萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
藝術(shù)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

28條新規(guī)落地!好房子,終于有了“廣州標準”!

數(shù)碼要聞

飛利浦推出“27M2G5800”27英寸顯示器,4999元

藝術(shù)要聞

于小冬2026年4月油畫新作《花季》

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版