国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind 顛覆機器人學(xué)習(xí)范式:讓機器像人一樣 “自由成長”

0
分享至



從 “模仿者” 到 “學(xué)習(xí)者”,機器人的進(jìn)化更進(jìn)一步。

作者丨劉欣

編輯丨陳彩嫻

機器人在底層控制方面的應(yīng)用始終局限于行為克隆,這種類似于照貓畫虎的學(xué)習(xí)方式,要求機器人必須依賴海量標(biāo)注的模仿數(shù)據(jù),不僅收集成本極高,更無法讓機器人應(yīng)對訓(xùn)練數(shù)據(jù)之外的全新場景。

谷歌 DeepMind 的最新研究試圖打破這一現(xiàn)狀,他們受到大型語言模型微調(diào)中強化學(xué)習(xí)階段成功經(jīng)驗的啟發(fā),提出了一種面向機器人學(xué)的兩階段后訓(xùn)練方法,第一階段是監(jiān)督微調(diào)( Supervised Fine-Tuning, SFT ),第二階段是自我提升( Self-Improvement )。

通過在真實世界與仿真機器人實體( LanguageTable 與 Aloha )上開展的大量實驗,提出的后訓(xùn)練方法在具身基礎(chǔ)模型上取得了顯著成果,機器人能自主練習(xí)并習(xí)得元朝訓(xùn)練時模仿學(xué)習(xí)數(shù)據(jù)集中所觀察到行為的新技能,并實現(xiàn)廣泛泛化。



論文鏈接:https://arxiv.org/pdf/2509.15155

01

兩階段后訓(xùn)練框架

本研究的核心是探究強化學(xué)習(xí)后訓(xùn)練在機器人具身基礎(chǔ)模型中的有效性。然而,機器人強化學(xué)習(xí)(尤其是操作任務(wù))面臨的關(guān)鍵挑戰(zhàn)是獎勵工程問題:設(shè)計有效的獎勵函數(shù)需要反復(fù)迭代訓(xùn)練策略并修正獎勵定義以規(guī)避非預(yù)期結(jié)果;此外,即便獎勵定義完美,在真實世界中測量獎勵也需要大量工程投入。因此,當(dāng)團(tuán)隊致力于訓(xùn)練能夠完成日益廣泛任務(wù)的機器人時,人工設(shè)計獎勵函數(shù)在真實世界機器人學(xué)中已難以為繼。


DeepMind 通過學(xué)習(xí)數(shù)據(jù)驅(qū)動型獎勵函數(shù)克服了這一障礙,該函數(shù)同時繼承了底層基礎(chǔ)模型經(jīng)網(wǎng)絡(luò)級預(yù)訓(xùn)練所具備的穩(wěn)健性與泛化性。提出的后訓(xùn)練框架如上圖所示,包含兩個階段:第一階段為監(jiān)督微調(diào)( Supervised Fine-Tuning, SFT ),利用以下兩種目標(biāo)對預(yù)訓(xùn)練基礎(chǔ)模型進(jìn)行微調(diào):a) 行為克隆;b) 剩余步驟預(yù)測( steps-to-go prediction )。第二階段為自我提升( Self-Improvement ),剩余步驟預(yù)測能夠助力提取平滑的獎勵函數(shù)與穩(wěn)健的成功檢測器,使機器人集群可在極少人工監(jiān)督的情況下自主練習(xí)下游任務(wù)。至關(guān)重要的是,數(shù)據(jù)驅(qū)動型獎勵設(shè)計無需真值獎勵,且能借助底層基礎(chǔ)模型的穩(wěn)健性與泛化性。

研究首先在第一階段先對模仿數(shù)據(jù)集進(jìn)行假設(shè),再基于數(shù)據(jù)集以預(yù)訓(xùn)練基礎(chǔ)模型初始化具身基礎(chǔ)模型,對行為克隆損失、剩余步驟預(yù)測損失這兩個目標(biāo)進(jìn)行監(jiān)督微調(diào)。在第二階段,則是想通過在線強化學(xué)習(xí)對具身基礎(chǔ)模型進(jìn)行下游任務(wù)微調(diào),以快速提升策略性能。研究對獎勵函數(shù)和成功指示器進(jìn)行了定義,即可對具身基礎(chǔ)模型進(jìn)行下游任務(wù)的在線強化學(xué)習(xí)微調(diào),凍結(jié)了一個第一階段的檢查點用于獎勵函數(shù)計算與成功檢測,同時也從第一階段檢查點初始化第二階段的策略。

研究提出了以下問題:

  • Q1:自我提升能否在監(jiān)督學(xué)習(xí)階段的基礎(chǔ)上進(jìn)一步提升下游任務(wù)性能?

  • Q2:監(jiān)督學(xué)習(xí)與自我提升的結(jié)合是否比單純的監(jiān)督學(xué)習(xí)具有更高的樣本效率?

  • Q3:依賴強化學(xué)習(xí)的自我提升方法是否足夠可靠且可復(fù)現(xiàn),能夠應(yīng)用于真實世界機器人學(xué)?

  • Q4:預(yù)訓(xùn)練對自我提升流程有何貢獻(xiàn)?

  • Q5:網(wǎng)絡(luò)級基礎(chǔ)模型預(yù)訓(xùn)練能否使自我提升在超出模仿數(shù)據(jù)集覆蓋范圍的任務(wù)上生效?

02

從“模仿者”到“學(xué)習(xí)者”

DeepMind 基于 LanguageTable 與 Aloha 兩種機器人實體,在仿真與真實世界環(huán)境中開展實驗,來驗證所提自我提升框架的有效性,研究全程采用 30 億參數(shù)的 PaLI 視覺 - 語言模型作為基礎(chǔ)預(yù)訓(xùn)練模型。研究主要進(jìn)行了6個實驗來回答上述問題,分別是:

(1)仿真 LanguageTable 實驗

仿真 LanguageTable 領(lǐng)域第一階段策略訓(xùn)練所使用的數(shù)據(jù)集來自原始研究,包含 181,020 條人類生成軌跡,以及 78,623 條描述軌跡目標(biāo)的獨特指令。對該數(shù)據(jù)集進(jìn)行子采樣,生成 3 個新數(shù)據(jù)集(原始規(guī)模的 10%、20% 和 80%)。針對每個數(shù)據(jù)集規(guī)模,在第一階段訓(xùn)練后,采用 3 個隨機種子進(jìn)行第二階段微調(diào),以驗證自我提升流程的可靠性。第二階段微調(diào)聚焦于 Block2Block 任務(wù)子集(例如 “將藍(lán)色月亮形狀塊移至紅色五邊形形狀塊處”),當(dāng)策略成功率趨于穩(wěn)定時停止訓(xùn)練。

(2)真實世界 LanguageTable 實驗

上述實驗中展現(xiàn)的高樣本效率與穩(wěn)健性表明,自我提升流程確實可應(yīng)用于真實世界機器人學(xué)。研究將所提方法應(yīng)用于真實世界 LanguageTable 領(lǐng)域,分別采用 20% 和 80% 規(guī)模的模仿學(xué)習(xí)數(shù)據(jù)集。與仿真場景相同,第二階段微調(diào)聚焦于 Block2Block 任務(wù)子集。由于指令采樣、獎勵標(biāo)記與成功檢測均為自動化流程,在自我提升階段,一名人類操作員即可監(jiān)控所有 LanguageTable 機器人工作站。操作員的唯一職責(zé)是在積木掉落桌面或工作站超過 5 分鐘未洗牌重置時進(jìn)行重置。每個實驗持續(xù)約 20 小時。

(3)仿真 Aloha 單插入任務(wù)實驗

研究還在第二種機器人實體 —— 雙臂 Aloha 操作平臺上驗證了所提微調(diào)框架。設(shè)計并收集了雙臂插入任務(wù)的數(shù)據(jù):左臂拿起套筒,右臂拿起插銷并將其插入套筒。該任務(wù)具有更復(fù)雜的觀測空間、70 維動作空間以及更小的模仿數(shù)據(jù)集,為驗證所提方法提供了挑戰(zhàn)性場景。

研究還構(gòu)建了 3 個規(guī)模分別為 5K、10K 和 15K 片段的模仿數(shù)據(jù)集,對 5K 和 10K 規(guī)模數(shù)據(jù)集執(zhí)行兩階段微調(diào),并報告 15K 規(guī)模數(shù)據(jù)集的監(jiān)督學(xué)習(xí)結(jié)果以作對比。與 LanguageTable 領(lǐng)域?qū)嶒炏啾?,本實驗的方法差異在于?)第二階段策略初始化的檢查點選擇;2)由于相機無法觀測到插銷完全插入套筒的成功條件,在獎勵函數(shù)中加入了一個小的正常數(shù)以標(biāo)記成功狀態(tài)。

(4)基礎(chǔ)模型預(yù)訓(xùn)練實驗

為消融 PaLI 中嵌入的多模態(tài)知識的影響,實驗基于 PaLI 模型的變體開展兩階段微調(diào):

  • 隨機初始化( Scratch ):采用 PaLI 架構(gòu),但參數(shù)隨機初始化。

  • 單模態(tài) PaLI( Uni-PaLI ):PaLI 參數(shù)由單獨預(yù)訓(xùn)練的視覺模型與語言模型初始化,未進(jìn)行聯(lián)合多模態(tài)視覺 - 語言微調(diào)。

在仿真 LanguageTable 領(lǐng)域采用與第一個實驗相同的設(shè)置進(jìn)行對比實驗。將消融實驗聚焦于自我提升階段:從 PaLI 第一階段檢查點初始化策略,使用隨機初始化或 Uni-PaLI 檢查點進(jìn)行獎勵計算。

(5)仿真與真實世界間的域遷移

首先探究較簡單的泛化形式 —— 仿真與真實世界間的域遷移。Sim2Real 是一類重要方法,可大幅減少訓(xùn)練高性能機器人策略所需的真實世界經(jīng)驗,并已在多個場景中成功應(yīng)用。為簡化實驗,在 LanguageTable 領(lǐng)域探究反向問題 ——Real2Sim 遷移:使用 80% 的真實世界 LanguageTable 數(shù)據(jù)集訓(xùn)練第一階段模型,在仿真 LanguageTable 環(huán)境中執(zhí)行第二階段自我提升。

(6)習(xí)得新技能的強泛化能力

為了進(jìn)一步探究更強的泛化形式:預(yù)訓(xùn)練基礎(chǔ)模型的自我提升能否使策略練習(xí)并習(xí)得超出第一階段模仿數(shù)據(jù)集所觀察到的全新行為技能?;谡鎸嵤澜?LanguageTable 數(shù)據(jù)集訓(xùn)練的策略與獎勵模型,在一個名為 “BananaTable” 的新任務(wù)上執(zhí)行自我提升。

與以往研究中機器人基礎(chǔ)模型的語義泛化能力不同,BananaTable 任務(wù)的遷移需要行為泛化,要求策略習(xí)得新技能。例如,由于香蕉的細(xì)長幾何形狀,推擊位置不準(zhǔn)確會導(dǎo)致香蕉自轉(zhuǎn)而非按預(yù)期方向移動,如下圖所示。


03

邁向自主學(xué)習(xí)新路徑

通過在 LanguageTable 與 Aloha 兩種機器人實體的真實與仿真環(huán)境中開展大量實驗,DeepMind 證實了所提新型后訓(xùn)練框架的驚人有效性。首先,自我提升不僅能穩(wěn)健地超越行為克隆的策略性能,且監(jiān)督微調(diào)與自我提升的結(jié)合在樣本效率上遠(yuǎn)優(yōu)于單純擴(kuò)大模仿數(shù)據(jù)規(guī)模的監(jiān)督學(xué)習(xí)。例如,在 LanguageTable 領(lǐng)域,僅增加 10% 的機器人自我提升訓(xùn)練時間,就能將策略成功率從 45% 提升至 75%;而將機器人模仿數(shù)據(jù)量增加 8 倍,成功率僅從 45% 提升至 60%。進(jìn)一步的消融實驗凸顯了基礎(chǔ)模型預(yù)訓(xùn)練在實現(xiàn)這一樣本效率與穩(wěn)健性中的核心作用。

更為振奮人心的是,在線自我提升與網(wǎng)絡(luò)級預(yù)訓(xùn)練的創(chuàng)新結(jié)合,還解鎖了現(xiàn)有方法無法實現(xiàn)的獨特能力:使機器人能夠自主練習(xí)并習(xí)得新技能。與以往研究中展示的語義泛化不同,這個組合方案實現(xiàn)了行為泛化,其范圍遠(yuǎn)超第一階段模仿數(shù)據(jù)所覆蓋的行為。本研究凸顯了將預(yù)訓(xùn)練基礎(chǔ)模型與在線自我提升相結(jié)合的變革性潛力,為機器人自主技能習(xí)得開辟了新路徑。

雖然這項研究在機器人自主學(xué)習(xí)新技能上取得了巨大的進(jìn)步,但在一些方面仍具有局限性:第一,樣本片段與技能邊界的規(guī)?;瘶?biāo)注:人工標(biāo)注成本過高,需要創(chuàng)新策略(如利用現(xiàn)有多模態(tài)基礎(chǔ)模型)從原始交互日志中恢復(fù)一致的邊界。探索此類自動分割方法是未來研究的重要方向。第二,在這個框架中,獎勵推斷無實時性要求,延遲約束極小,因此可使用更大規(guī)模的模型 —— 甚至迭代式、思維鏈推理 —— 以獲得更高保真度的標(biāo)記。

第三,本研究微調(diào)的通用視覺 - 語言骨干網(wǎng)絡(luò)在預(yù)訓(xùn)練階段從未接觸過機器人數(shù)據(jù)。隨著更大規(guī)模的機器人經(jīng)驗多模態(tài)語料庫的出現(xiàn),設(shè)計預(yù)訓(xùn)練課程至關(guān)重要 —— 既要賦予具身基礎(chǔ)模型強大的物理推理先驗,又要保留其廣泛的視覺 - 語義知識。

第四,研究選擇使用不重用數(shù)據(jù)的在線 REINFORCE 算法。這一選擇規(guī)避了 “致命三要素” 中的兩個要素:自舉法與離線學(xué)習(xí)。但該選擇也放棄了現(xiàn)代離線算法的數(shù)據(jù)重用優(yōu)勢。探究可擴(kuò)展至大型模型的離線變體有望進(jìn)一步降低機器人時間需求。

最后,團(tuán)隊觀察到,當(dāng)自我提升超出性能峰值后,成功率會下降,這表明需要更好的停止準(zhǔn)則或自適應(yīng)正則化器,以避免對塑形獎勵的過度優(yōu)化。對獎勵函數(shù)選擇的理論探究也可能揭示這種性能下降的原因。


未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
瘋了?朱孝天舉報五月天勾結(jié)黃牛洗錢、假唱?還曝F4合體背后隱情

瘋了?朱孝天舉報五月天勾結(jié)黃牛洗錢、假唱?還曝F4合體背后隱情

烏娛子醬
2025-12-25 14:32:18
胖東來賣喬丹親簽球衣,售價13.8萬元,工作人員回應(yīng):保真!定價受收購價影響,存在差異

胖東來賣喬丹親簽球衣,售價13.8萬元,工作人員回應(yīng):保真!定價受收購價影響,存在差異

魯中晨報
2025-12-25 15:57:08
中國旅游團(tuán),消失在歐洲

中國旅游團(tuán),消失在歐洲

旅界Pro
2025-12-25 08:33:19
全國人大外事委員會發(fā)言人就美國“2026財年國防授權(quán)法案”涉華消極條款發(fā)表談話

全國人大外事委員會發(fā)言人就美國“2026財年國防授權(quán)法案”涉華消極條款發(fā)表談話

界面新聞
2025-12-25 18:30:21
經(jīng)濟(jì)學(xué)家姚洋:制約中國生育率低的不是房價,而是教育

經(jīng)濟(jì)學(xué)家姚洋:制約中國生育率低的不是房價,而是教育

觀察者網(wǎng)
2025-12-23 13:42:06
“孩子都腺樣體了,還吃烤腸呢?”廉價早餐,暴露家長的認(rèn)知低下

“孩子都腺樣體了,還吃烤腸呢?”廉價早餐,暴露家長的認(rèn)知低下

妍妍教育日記
2025-12-25 19:02:14
菲律賓主動給中方發(fā)邀請,不到72小時通告全球:雙方聯(lián)手做成大事

菲律賓主動給中方發(fā)邀請,不到72小時通告全球:雙方聯(lián)手做成大事

書紀(jì)文譚
2025-12-25 15:20:18
日日驚恐!上海夫妻持斧逐戶砍砸鄰居家門!

日日驚恐!上海夫妻持斧逐戶砍砸鄰居家門!

看看新聞Knews
2025-12-25 21:32:09
安徽一男子信訪被勸返收鎮(zhèn)干部4300元路費被判尋釁滋事罪,二審駁回上訴

安徽一男子信訪被勸返收鎮(zhèn)干部4300元路費被判尋釁滋事罪,二審駁回上訴

齊魯壹點
2025-12-24 22:30:08
公安部官宣:KK園區(qū)494棟建筑被拆除,“亞太新城”被徹底清剿

公安部官宣:KK園區(qū)494棟建筑被拆除,“亞太新城”被徹底清剿

極目新聞
2025-12-25 20:27:18
系好安全帶!美國經(jīng)濟(jì)學(xué)家預(yù)測:2026年將出現(xiàn)“史上最嚴(yán)重的市場崩盤”!已持續(xù)近17年的市場泡沫將會破裂,導(dǎo)致股市下跌90%

系好安全帶!美國經(jīng)濟(jì)學(xué)家預(yù)測:2026年將出現(xiàn)“史上最嚴(yán)重的市場崩盤”!已持續(xù)近17年的市場泡沫將會破裂,導(dǎo)致股市下跌90%

和訊網(wǎng)
2025-12-25 16:45:04
江蘇4家村鎮(zhèn)銀行獲批解散,全國已有100多家!

江蘇4家村鎮(zhèn)銀行獲批解散,全國已有100多家!

深水財經(jīng)社
2025-12-24 10:44:19
徐湖平履歷被扒!曾是印刷廠工人,掌管南博25年,高中學(xué)歷成院長

徐湖平履歷被扒!曾是印刷廠工人,掌管南博25年,高中學(xué)歷成院長

葉公子
2025-12-21 22:41:27
80%依賴進(jìn)口!美的、奧克斯、TCL抱團(tuán)“鋁代銅”,格力董明珠不跟

80%依賴進(jìn)口!美的、奧克斯、TCL抱團(tuán)“鋁代銅”,格力董明珠不跟

財經(jīng)八卦
2025-12-24 20:24:20
現(xiàn)場視頻!緬甸妙瓦底KK園區(qū)等已被強力拆除

現(xiàn)場視頻!緬甸妙瓦底KK園區(qū)等已被強力拆除

環(huán)球網(wǎng)資訊
2025-12-25 20:27:32
阿維塔宣稱南極-50℃極寒測試,被網(wǎng)友打假:南極現(xiàn)在是夏季

阿維塔宣稱南極-50℃極寒測試,被網(wǎng)友打假:南極現(xiàn)在是夏季

玩車專家1
2025-12-25 17:24:33
多方回應(yīng)朱孝天爆料,阿信10字表明態(tài)度,朱孝天私信禁言輸?shù)脧氐?>
    </a>
        <h3>
      <a href=振華觀史
2025-12-25 16:15:44
龐家在香港發(fā)布會上“火力全開”,龐家發(fā)言怒懟:你們也配是記者

龐家在香港發(fā)布會上“火力全開”,龐家發(fā)言怒懟:你們也配是記者

范剬舍長
2025-12-23 22:52:07
亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

阿纂看事
2025-12-25 13:38:27
俄羅斯拒絕美烏20點和平計劃,澤連斯基愿“他”滅亡

俄羅斯拒絕美烏20點和平計劃,澤連斯基愿“他”滅亡

山河路口
2025-12-25 12:09:06
2025-12-25 23:40:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

本地
親子
手機
數(shù)碼
公開課

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

親子要聞

中國兒童癌癥生存率如何?《柳葉刀》發(fā)布重磅研究

手機要聞

行業(yè)唯一徠卡2億像素連續(xù)光變長焦!小米17 Ultra星空綠圖賞

數(shù)碼要聞

三星據(jù)稱將推出“100%自主技術(shù)”GPU 終極野心:打造第二個博通

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版