国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

真機(jī)RL殺瘋了!機(jī)器人自學(xué)20分鐘100分,數(shù)字孿生封神

0
分享至

  

  新智元報(bào)道

  編輯:犀牛

  【新智元導(dǎo)讀】TwinRL用手機(jī)掃一遍場(chǎng)景構(gòu)建數(shù)字孿生,讓機(jī)器人先在數(shù)字孿生里大膽探索、精準(zhǔn)試錯(cuò),再回到真機(jī)20分鐘跑滿全桌面100%成功率——比現(xiàn)有方法快30%,人類干預(yù)減少一半以上。

  機(jī)器人真正「走出演示數(shù)據(jù)」的那一刻,發(fā)生了什么?

  你花了兩周時(shí)間,手把手遙操作教一個(gè)機(jī)械臂抓香蕉放盤子。桌子左半邊,它學(xué)得像模像樣,十拿九穩(wěn)。

  然后你把香蕉往右邊挪了15厘米。

  機(jī)械臂愣住了。

  它不是「沒學(xué)好,而是從來(lái)沒見過(guò)那個(gè)位置。

  對(duì)它來(lái)說(shuō),桌子右半邊就是另一個(gè)宇宙。

  這不是段子,這是2025年幾乎所有VLA模型在真實(shí)世界里的真實(shí)處境。

  過(guò)去兩年,Vision-Language-Action(VLA)模型席卷機(jī)器人領(lǐng)域。

  從「看圖+聽話+動(dòng)手,到多任務(wù)、多場(chǎng)景的泛化執(zhí)行,VLA讓機(jī)器人第一次看起來(lái)像「理解世界的智能體。

  論文里成功率動(dòng)輒90%以上,演示視頻拍得漂亮極了。

  但真正做過(guò)真機(jī)實(shí)驗(yàn)的人都知道,這里面藏著一個(gè)所有人都心知肚明、卻很少有人正面回答的問(wèn)題:

  如果沒有人類不斷示范,機(jī)器人還能不能自己學(xué)?

  答案是——幾乎不能。

  現(xiàn)實(shí)的殘酷在于:

  人類示范(Teleoperation)昂貴、低效、覆蓋有限——一個(gè)人手握操控桿操作一天,也就覆蓋桌面的一小片區(qū)域

  在線強(qiáng)化學(xué)習(xí)(RL)在真實(shí)機(jī)器人上慢、危險(xiǎn)、資源消耗大——機(jī)械臂一個(gè)探索失誤,可能直接撞壞傳感器

  但這些都還不是最致命的。

  最致命的是——

  RL的探索空間,被SFT演示數(shù)據(jù)牢牢鎖死。

  哪怕你給機(jī)器人再多獎(jiǎng)勵(lì),它也只會(huì)在「演示數(shù)據(jù)附近打轉(zhuǎn)。

  就像一個(gè)只在家門口遛過(guò)彎的人,你跟他說(shuō)「去探索世界,他轉(zhuǎn)一圈還是回到了自家樓下。

  探索,根本沒有發(fā)生。

  這個(gè)問(wèn)題被回避得太久了。

  直到TwinRL,第一次把它撕開,攤到臺(tái)面上。

  近日,至簡(jiǎn)動(dòng)力、北京大學(xué)計(jì)算機(jī)學(xué)院多媒體信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室、清華大學(xué)、香港科技大學(xué),提出了一種面向真實(shí)世界機(jī)器人操作的數(shù)字孿生協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL(Digital Twin-DrivenReinforcement Learning),可直接在真實(shí)機(jī)器人上高效執(zhí)行在線強(qiáng)化學(xué)習(xí)并系統(tǒng)性擴(kuò)展探索空間。

  據(jù)行業(yè)知情人士透露,至簡(jiǎn)動(dòng)力目前估值已逼近獨(dú)角獸陣營(yíng)。成立半年即獲得如此密集的頂級(jí)資本加持,在整個(gè)具身智能賽道中也極為罕見。

  TwinRL的核心洞察:RL的問(wèn)題,不是學(xué)不會(huì),而是探索空間被限制。

  通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn),TwinRL團(tuán)隊(duì)觀察到一個(gè)關(guān)鍵現(xiàn)象:

  真實(shí)世界中,VLA的有效探索空間,幾乎完全由SFT數(shù)據(jù)分布決定。

  這意味著什么?

  RL更像是「重加權(quán),而不是「開新路

  Out-of-Distribution(OOD)區(qū)域,對(duì)SFT模型來(lái)說(shuō)幾乎不可達(dá)

  即便加入Human-in-the-Loop,也只是緩慢地「挪邊界

  問(wèn)題不在算法,而在探索空間本身。

  于是,一個(gè)大膽的想法出現(xiàn)了:

  如果真實(shí)世界沒法并行探索,那就把「探索這件事,提前搬到一個(gè)「可控、可擴(kuò)展的世界里。

  這個(gè)世界,就是數(shù)字孿生(Digital Twin)

  TwinRL:不是「模擬器」

  而是探索放大器和探索指引器

  和傳統(tǒng)「仿真+real2sim」不同,Digital Twin不是用來(lái)替代真實(shí)世界的,而是用來(lái)「放大真實(shí)世界探索能力」的。

  TwinRL構(gòu)建了一個(gè)數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架,核心由三步組成:

  一、探索空間擴(kuò)展(Exploration Space Expansion)

  使用手機(jī)拍攝真實(shí)場(chǎng)景

  基于3D Gaussian Splatting高效重建高保真數(shù)字孿生

  在孿生環(huán)境中生成遠(yuǎn)超人類示范覆蓋范圍的合成軌跡

  在SFT階段就顯式拓寬數(shù)據(jù)分布支持

  不是「學(xué)得更好」,而是一開始就站在更大的世界里。

  二、數(shù)字孿生中的并行在線RL

  真實(shí)機(jī)器人無(wú)法并行試錯(cuò),但數(shù)字孿生可以。

  TwinRL在部署前:

  在數(shù)字孿生中高效并行執(zhí)行在線RL

  生成RL風(fēng)格的高質(zhì)量探索軌跡,橋接offline→online

  這一步極大緩解了真實(shí)世界RL的冷啟動(dòng)和不穩(wěn)定問(wèn)題。

  三、Sim-to-Real引導(dǎo)的人在回路探索

  數(shù)字孿生不僅「多」,而且「準(zhǔn)」。

  TwinRL會(huì):

  在孿生環(huán)境中自動(dòng)識(shí)別失敗高發(fā)但信息密集的配置

  精準(zhǔn)引導(dǎo)人類只在「最有價(jià)值的位置「介入

  大幅減少無(wú)效示范和重復(fù)操作

  人類不再是苦力,而是策略級(jí)引導(dǎo)者。

  數(shù)字孿生協(xié)

  同強(qiáng)化學(xué)習(xí)框架TwinRL

  與以往僅在單一初始配置上達(dá)到高成功率不同,TwinRL 實(shí)現(xiàn)的不是「一個(gè)點(diǎn) 100%」,而是在更廣的工作空間范圍內(nèi)(包括分布外 OOD 區(qū)域)實(shí)現(xiàn) 100% 的成功率覆蓋。

  在 4 項(xiàng)真實(shí)世界操作任務(wù)中,TwinRL 平均僅需約 20 分鐘即可完成在線強(qiáng)化學(xué)習(xí)收斂,相比現(xiàn)有真實(shí)機(jī)器人 RL 方法實(shí)現(xiàn)至少 30% 的加速,同時(shí)顯著降低了人類干預(yù)需求。

  此外,即使在物體位置擾動(dòng)與環(huán)境變化條件下,TwinRL 依然能夠保持穩(wěn)定表現(xiàn),展現(xiàn)出更強(qiáng)的空間泛化與探索能力。

  真機(jī)測(cè)試視頻

  

  論文鏈接: https://arxiv.org/abs/2602.09023

  項(xiàng)目主頁(yè): https://sites.google.com/view/twinrl/twinrl

  1. 摘要

  盡管視覺–語(yǔ)言–動(dòng)作(Vision-Language-Action, VLA)模型在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化能力,其在真實(shí)世界中的應(yīng)用仍受到高成本人類示范數(shù)據(jù)和有限真實(shí)交互的制約。

  在線強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)為提升模型能力提供了基于環(huán)境反饋的有效途徑,但在真實(shí)機(jī)器人場(chǎng)景中,其探索效率與可擴(kuò)展性仍然受到顯著限制。

  通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn):在線強(qiáng)化學(xué)習(xí)在真實(shí)世界中的有效探索空間,與監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)階段所使用的數(shù)據(jù)分布高度相關(guān)。

  在此背景下,本文提出了一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL,旨在對(duì) VLA 模型的探索過(guò)程進(jìn)行系統(tǒng)性擴(kuò)展與引導(dǎo)。

  TwinRL 首先利用手機(jī)采集的真實(shí)場(chǎng)景數(shù)據(jù)高效重建高保真數(shù)字孿生環(huán)境,實(shí)現(xiàn)真實(shí)世界與仿真環(huán)境之間的雙向遷移。

  在監(jiān)督微調(diào)階段,框架通過(guò)數(shù)字孿生引入探索空間擴(kuò)展策略,以顯式拓寬軌跡數(shù)據(jù)分布的支持范圍。

  在此基礎(chǔ)上,TwinRL 進(jìn)一步提出了一種 sim-to-real 引導(dǎo)的探索機(jī)制,在部署前于數(shù)字孿生環(huán)境中執(zhí)行高效并行的在線強(qiáng)化學(xué)習(xí),從而有效銜接離線訓(xùn)練與真實(shí)世界在線學(xué)習(xí)過(guò)程。

  此外,框架還利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置,用于引導(dǎo)真實(shí)機(jī)器人上的定向人類在回路探索。

  在多個(gè)真實(shí)世界機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明,TwinRL 在示范數(shù)據(jù)覆蓋區(qū)域及分布外區(qū)域均取得了穩(wěn)定性能提升,在顯著減少人類干預(yù)的同時(shí),將真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂時(shí)間縮短至約 20 分鐘,并相比現(xiàn)有方法實(shí)現(xiàn)了至少 30% 的效率提升。

  

  圖 1:整體框架(a)我們提出了TwinRL,一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架。該框架通過(guò)引入數(shù)字孿生環(huán)境,將探索空間從人類示范所覆蓋的分布內(nèi)區(qū)域擴(kuò)展至分布外區(qū)域,并在數(shù)字孿生中執(zhí)行高效、并行的在線強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn) sim-to-real 引導(dǎo)的探索過(guò)程,顯著提升真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂速度。(b)在四個(gè)機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明,TwinRL 在在線強(qiáng)化學(xué)習(xí)階段收斂速度更快,并在真實(shí)世界示范覆蓋區(qū)域及分布外區(qū)域均取得了接近 100% 的成功率,平均約 20 分鐘即可達(dá)到該性能水平。由于 HiL-SERL 方法未包含監(jiān)督微調(diào)階段,其性能僅在分布內(nèi)區(qū)域進(jìn)行報(bào)告。

  2. 研究背景

  視覺–語(yǔ)言–動(dòng)作(Vision-Language-Action, VLA)模型近年來(lái)在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化潛力,能夠?qū)⒆匀徽Z(yǔ)言指令直接映射為連續(xù)控制行為。

  然而,現(xiàn)有 VLA 方法在真實(shí)世界部署中仍高度依賴人工示范數(shù)據(jù)(teleoperation),其獲取成本高、覆蓋范圍有限,且難以支持長(zhǎng)期自主學(xué)習(xí)。

  強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)被認(rèn)為是突破示范數(shù)據(jù)瓶頸的重要手段,但在真實(shí)機(jī)器人系統(tǒng)中直接應(yīng)用在線 RL 面臨效率低、風(fēng)險(xiǎn)高、難以并行等現(xiàn)實(shí)約束。

  尤其是在復(fù)雜物理環(huán)境下,機(jī)器人探索空間受到初始監(jiān)督數(shù)據(jù)分布的強(qiáng)烈限制,導(dǎo)致在線學(xué)習(xí)難以有效擴(kuò)展到未覆蓋區(qū)域。

  3. 核心觀察與研究動(dòng)機(jī)

  

  圖 2:探索瓶頸。(a) 我們將工作空間劃分為分布內(nèi)區(qū)域(A)與分布外區(qū)域(B)。每個(gè)區(qū)域由任務(wù)完成時(shí)被操作物體中心的位置進(jìn)行定義。(b) 熱力圖可視化展示了不同策略在各區(qū)域中的性能表現(xiàn)。(c) 學(xué)習(xí)曲線展示了 A-only 策略在兩個(gè)區(qū)域中進(jìn)行在線強(qiáng)化學(xué)習(xí)時(shí)的訓(xùn)練動(dòng)態(tài)變化。

  盡管在線強(qiáng)化學(xué)習(xí)(online RL)為提升任務(wù)魯棒性提供了探索路徑,但其在真實(shí)物理硬件上的樣本效率仍然面臨挑戰(zhàn)。

  受到通用領(lǐng)域研究的啟發(fā),我們觀察到,在真實(shí)世界的 VLA 強(qiáng)化學(xué)習(xí)中,探索過(guò)程實(shí)際上受到監(jiān)督微調(diào)(SFT)階段所誘導(dǎo)的軌跡分布空間支持的嚴(yán)格約束。

  這一約束帶來(lái)了雙重瓶頸:(1)限制策略能夠可靠探索的狀態(tài)集合;(2)即便引入人類干預(yù),也顯著降低在線 RL 的學(xué)習(xí)效率。

  實(shí)驗(yàn)設(shè)置.

  如圖所示,我們?cè)谝粋€(gè)高精度積木插入任務(wù)上開展實(shí)驗(yàn),該任務(wù)對(duì)空間位置精度要求較高。所有策略均基于 Octo 模型構(gòu)建。我們將工作空間劃分為分布內(nèi)區(qū)域 A(由示范數(shù)據(jù)覆蓋)與分布外區(qū)域 B(在 SFT 階段未被觀察到)。

  瓶頸一.我們通過(guò)改變 SFT 示范的空間覆蓋范圍,分析其對(duì)策略泛化能力與自主在線 RL 的影響。具體比較兩種訓(xùn)練數(shù)據(jù)分布:A-only,僅使用區(qū)域 A 的 30 條示范;A+B,在此基礎(chǔ)上加入來(lái)自區(qū)域 B 的 30 條數(shù)字孿生示范。為衡量示范覆蓋如何塑造探索空間,我們將策略初始化為 A-only SFT 模型,并在未見過(guò)的區(qū)域 B 中執(zhí)行自主在線 RL。

  發(fā)現(xiàn)一.如圖所示,在每個(gè)網(wǎng)格單元內(nèi)執(zhí)行 10 次 rollout。在區(qū)域 B 中,A+B 策略成功率達(dá)到 62.5%,而 A-only 策略完全局限于區(qū)域 A(區(qū)域 B 成功率為 0%)。這表明標(biāo)準(zhǔn) SFT 策略在空間未覆蓋區(qū)域上的外推能力極其有限。更重要的是,從 A-only 模型出發(fā)在區(qū)域 B 中進(jìn)行自主在線 RL 時(shí),會(huì)出現(xiàn)明顯的探索死鎖現(xiàn)象。在 OOD 初始配置下,即使經(jīng)過(guò) 40K 訓(xùn)練步(約兩小時(shí)),策略仍無(wú)法穩(wěn)定獲得正獎(jiǎng)勵(lì)。這一現(xiàn)象與此前工作的觀察一致:replay buffer 被失敗軌跡主導(dǎo),導(dǎo)致自主適應(yīng)幾乎失效。結(jié)果說(shuō)明,在線 RL 的有效探索空間與 SFT 數(shù)據(jù)的空間覆蓋范圍高度相關(guān)。

  瓶頸二.為緩解探索死鎖,可以引入人類在回路(HiL)干預(yù),引導(dǎo)機(jī)器人完成任務(wù)。然而,關(guān)鍵問(wèn)題在于:在人類指導(dǎo)可用的情況下,是否能夠保證在 OOD 場(chǎng)景下實(shí)現(xiàn)高效在線適應(yīng)?為此,我們比較兩種設(shè)置:分布內(nèi)后訓(xùn)練(在區(qū)域 A 中進(jìn)行在線 RL)與分布外后訓(xùn)練(在區(qū)域 B 中進(jìn)行在線 RL)。所有模型均初始化自相同的 A-only SFT 策略。

  發(fā)現(xiàn)二.盡管在人類干預(yù)下,兩種設(shè)置都能獲得成功的糾正示范,但樣本效率差異顯著。如圖所示,分布內(nèi)后訓(xùn)練適應(yīng)迅速,在約 45 分鐘(約 14K 交互步)內(nèi)成功率超過(guò) 90%;相比之下,分布外后訓(xùn)練收斂更慢且更不穩(wěn)定,在相同交互預(yù)算下未能達(dá)到可比性能。這些結(jié)果表明,即便引入 HiL 機(jī)制,在未見過(guò)的區(qū)域 B 中學(xué)習(xí)仍然困難。這主要源于不利的獎(jiǎng)勵(lì)景觀以及 replay buffer 中數(shù)據(jù)分布失衡,顯著降低了梯度效率。

  結(jié)論。上述觀察表明,要突破兩個(gè)瓶頸,必須在真實(shí)世界交互前擴(kuò)展探索覆蓋范圍,并在在線階段系統(tǒng)性引導(dǎo)人類干預(yù)以提升學(xué)習(xí)效率。基于此,我們提出TwinRL —— 一個(gè)數(shù)字孿生與真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架,將數(shù)字孿生作為探索放大器與引導(dǎo)器,貫穿 SFT 與在線 RL 兩個(gè)階段。

  4. TwinRL 框架概述

  整個(gè)框架由三個(gè)緊密耦合的階段構(gòu)成:探索空間擴(kuò)展、數(shù)字孿生并行在線強(qiáng)化學(xué)習(xí)以及 sim-to-real 引導(dǎo)的真實(shí)世界探索。

  探索空間擴(kuò)展策略.首先,我們構(gòu)建高保真的數(shù)字孿生環(huán)境。通過(guò)手機(jī)采集真實(shí)場(chǎng)景并基于 3D Gaussian Splatting 進(jìn)行重建,實(shí)現(xiàn)真實(shí)環(huán)境與仿真環(huán)境之間的幾何與視覺一致性?;谠搶\生環(huán)境,我們?cè)诒O(jiān)督微調(diào)(SFT)warm-up 階段引入探索空間擴(kuò)展策略,在保持任務(wù)語(yǔ)義一致的前提下生成覆蓋更廣狀態(tài)配置的軌跡數(shù)據(jù),顯式拓寬訓(xùn)練軌跡分布的支持范圍,從而增強(qiáng)策略在分布外區(qū)域的可達(dá)性。

  孿生在線 RL 階段.盡管我們的方法在 SFT 階段擴(kuò)展了 VLA 模型的探索支持范圍,但在真實(shí)機(jī)器人上直接啟動(dòng)在線強(qiáng)化學(xué)習(xí)仍然面臨兩個(gè)關(guān)鍵瓶頸。第一,監(jiān)督示范數(shù)據(jù)與 RL 風(fēng)格專家軌跡之間的分布不匹配,可能在離線到在線過(guò)渡過(guò)程中引發(fā)嚴(yán)重的性能退化以及 Q 值不穩(wěn)定問(wèn)題。第二,即便采用人類在回路(HiL)引導(dǎo)的在線 RL,仍然存在較高的樣本復(fù)雜度,并高度依賴操作者經(jīng)驗(yàn)。為了解決這些問(wèn)題,我們將數(shù)字孿生作為并行計(jì)算引擎,引入“孿生在線 RL 階段”以及一種“失敗感知的探索機(jī)制”,從而將真實(shí)世界中的探索轉(zhuǎn)化為更加有針對(duì)性且樣本效率更高的過(guò)程。如方法圖 Stage II 所示,為了彌合示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間的分布差距,我們首先在數(shù)字孿生中執(zhí)行并行在線 RL。在該階段,策略從 SFT 模型初始化,并在 N 個(gè)并行孿生環(huán)境中進(jìn)行交互訓(xùn)練。優(yōu)化目標(biāo)為:

  。其中,與 SFT 階段所使用的損失相同;為強(qiáng)化學(xué)習(xí)目標(biāo),鼓勵(lì)策略選擇具有更高 Q 估計(jì)值的動(dòng)作,其形式為對(duì)狀態(tài) s 和策略動(dòng)作 a 的期望負(fù) Q 值。通過(guò)這一過(guò)程,孿生在線 RL 階段能夠高效收集多樣化軌跡,包括成功執(zhí)行、失敗行為以及恢復(fù)策略,并將其存儲(chǔ)在孿生 replay buffer中。由于并行處理能力,我們可以在約 1 分鐘內(nèi)生成一批 rollout(例如每個(gè) episode 約 30 步)。由于示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間存在分布差距,早期在線學(xué)習(xí)往往表現(xiàn)出不穩(wěn)定性。因此,在數(shù)字孿生中完成高效在線學(xué)習(xí)后,我們將孿生 buffer 中的數(shù)據(jù)遷移至真實(shí)世界 replay buffer,用于初始化真實(shí)訓(xùn)練過(guò)程。通過(guò)提供更加均衡的訓(xùn)練信號(hào),該初始化策略能夠減少離線 SFT 向真實(shí)在線學(xué)習(xí)過(guò)渡階段的訓(xùn)練不穩(wěn)定性,并緩解性能退化。此外,在后續(xù)的定向 HiL 引導(dǎo)在線 RL 過(guò)程中,該策略也有助于防止在已有良好性能配置上出現(xiàn)災(zāi)難性遺忘。

  真實(shí)世界在線 RL.如方法圖 Stage III 所示,我們利用數(shù)字孿生識(shí)別狀態(tài)空間中容易失敗的區(qū)域,并據(jù)此引導(dǎo)真實(shí)世界在線 RL 的初始狀態(tài)分布。與以往依賴真實(shí) rollouts 的課程學(xué)習(xí)或重置策略不同,數(shù)字孿生可以在不消耗物理交互預(yù)算的前提下,以低成本、系統(tǒng)化方式評(píng)估策略在大范圍初始配置下的表現(xiàn)。具體而言,我們?cè)跀?shù)字孿生中評(píng)估當(dāng)前策略,并構(gòu)建目標(biāo)初始狀態(tài)集合:

  ,其中表示從初始狀態(tài)出發(fā)的經(jīng)驗(yàn)成功率,為熟練度閾值。在真實(shí)世界在線交互過(guò)程中,優(yōu)先從中采樣初始狀態(tài)進(jìn)行 episode 重置,使有限的真實(shí)交互預(yù)算集中于更具挑戰(zhàn)性的狀態(tài)區(qū)域。為進(jìn)一步降低在困難區(qū)域探索的成本與風(fēng)險(xiǎn),我們?cè)谡鎸?shí)機(jī)器人訓(xùn)練中引入 HiL 機(jī)制。干預(yù)生成的軌跡被存入 replay buffer,并用于后續(xù)策略更新。不同于現(xiàn)有 HiL 方法,我們提出了一種新的引導(dǎo)機(jī)制:由數(shù)字孿生決定在真實(shí)世界 RL 過(guò)程中“何時(shí)”以及“何處”觸發(fā) HiL 干預(yù),從而實(shí)現(xiàn)更加精準(zhǔn)和高效的協(xié)同學(xué)習(xí)。隨后,我們利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置,并據(jù)此引導(dǎo)真實(shí)機(jī)器人上的 targeted human-in-the-loop 交互,使有限的人類干預(yù)集中于最具學(xué)習(xí)價(jià)值的區(qū)域。

  我們的貢獻(xiàn)總結(jié)如下:

  我們通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn)揭示了真實(shí)世界 VLA 在線強(qiáng)化學(xué)習(xí)中“有效探索空間受 SFT 數(shù)據(jù)分布顯著約束”的關(guān)鍵現(xiàn)象,并據(jù)此明確了探索結(jié)構(gòu)設(shè)計(jì)在真實(shí)世界 RL 中的重要性。

  我們提出TwinRL數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架,通過(guò)數(shù)字孿生重建與雙向遷移,將數(shù)字孿生從驗(yàn)證工具提升為探索擴(kuò)展與引導(dǎo)的核心組件,實(shí)現(xiàn)從分布內(nèi)示范到分布外區(qū)域的探索空間擴(kuò)展。

  我們提出探索空間擴(kuò)展的 SFT warm-up 策略,并結(jié)合數(shù)字孿生中的并行在線 RL 與 failure-driven 的 sim-to-real 引導(dǎo)人類在回路探索機(jī)制,有效橋接離線與在線階段并顯著加速真實(shí)世界 RL 收斂;在四項(xiàng)任務(wù)中實(shí)現(xiàn)接近 100% 成功率,平均約 20 分鐘收斂,并獲得至少 30% 的訓(xùn)練加速。

  

  圖 3:TwinRL 框架。階段 I:從人類遙操作示范出發(fā),我們引入一種探索空間擴(kuò)展策略,通過(guò)合成多樣化的數(shù)字孿生示范數(shù)據(jù)來(lái)拓寬 SFT 的覆蓋范圍。階段 II:隨后,基于 SFT 初始化的策略在數(shù)字孿生環(huán)境中進(jìn)行可擴(kuò)展、并行的在線強(qiáng)化學(xué)習(xí),生成具有強(qiáng)化學(xué)習(xí)特征的 rollout 軌跡;這些軌跡被遷移至真實(shí)世界以初始化 replay buffer,從而穩(wěn)定在線學(xué)習(xí)過(guò)程。階段 III:在真實(shí)世界在線強(qiáng)化學(xué)習(xí)過(guò)程中,數(shù)字孿生高效且持續(xù)地識(shí)別失敗頻發(fā)但信息密集的物體配置,并據(jù)此引導(dǎo)有針對(duì)性的 Human-in-the-Loop(HiL)rollout。

  5. 實(shí)驗(yàn)結(jié)果

  定量與定性分析.我們?cè)?4 個(gè)真實(shí)世界操作任務(wù)上系統(tǒng)評(píng)估 TwinRL,包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。

  所有實(shí)驗(yàn)均在 7-DoF Franka Emika FR3 平臺(tái)上進(jìn)行,并采用雙相機(jī)感知系統(tǒng)(固定第三視角 + 腕部相機(jī))進(jìn)行觀測(cè)。

  我們報(bào)告成功率(SR)隨真實(shí)世界訓(xùn)練時(shí)間與交互步數(shù)變化的曲線,用于比較不同方法的收斂速度與最終性能。

  在分布內(nèi)(ID)區(qū)域,TwinRL 在在線強(qiáng)化學(xué)習(xí)初始階段即表現(xiàn)出顯著更高的成功率,這一優(yōu)勢(shì)源于探索空間擴(kuò)展策略在 SFT 階段對(duì)軌跡分布支持的拓寬。

  相比僅使用真實(shí)示范的基線方法,TwinRL 在 0-step(真實(shí)交互開始前)即具備更強(qiáng)的部署先驗(yàn)。

  隨著在線 RL 進(jìn)行,TwinRL 在大多數(shù)任務(wù)中均在約 20 分鐘內(nèi)在分布內(nèi)(ID)與分布外(OOD)區(qū)域完成收斂,達(dá)到 100% 成功率,而對(duì)比方法(ConRFT 與 HiL-SERL)則收斂更慢,或在相同交互預(yù)算下未能達(dá)到相當(dāng)性能。

  在分布外(OOD)區(qū)域,性能差距更加顯著。TwinRL 在 OOD 區(qū)域同樣實(shí)現(xiàn)接近 100% 的成功率,并保持穩(wěn)定的收斂曲線,而僅依賴真實(shí)示范初始化的策略往往在 OOD 區(qū)域出現(xiàn)探索死鎖,難以獲得穩(wěn)定的正獎(jiǎng)勵(lì)信號(hào)。相比現(xiàn)有真實(shí)世界 RL 方法,TwinRL 在整體收斂速度上實(shí)現(xiàn)了至少 30% 的加速,顯著減少了達(dá)到高成功率所需的真實(shí)交互時(shí)間。

  從穩(wěn)定性角度來(lái)看,所有方法在從離線 SFT 過(guò)渡到在線 RL 階段時(shí)都會(huì)經(jīng)歷性能波動(dòng)。然而,TwinRL 在該過(guò)渡階段表現(xiàn)出更小的性能退化,并能夠更快恢復(fù)至高成功率水平。這一現(xiàn)象與我們將數(shù)字孿生中并行在線 RL 軌跡遷移至真實(shí) replay buffer 的設(shè)計(jì)一致,該機(jī)制有效緩解了離線–在線分布切換所帶來(lái)的梯度不穩(wěn)定問(wèn)題。

  真機(jī)online強(qiáng)化學(xué)習(xí)過(guò)程

  

  圖 4:真實(shí)世界實(shí)驗(yàn)。我們報(bào)告了四項(xiàng)操作任務(wù)在分布內(nèi)(ID)與分布外(OOD)設(shè)置下進(jìn)行在線強(qiáng)化學(xué)習(xí)的成功率曲線??v軸表示成功率,橫軸同時(shí)給出在線訓(xùn)練時(shí)間以及模型訓(xùn)練步數(shù)。

  

  消融實(shí)驗(yàn).我們選取 Insert-Hexagon-Block 任務(wù)進(jìn)行消融分析。如圖所示,每一行均執(zhí)行 10 次 rollout 試驗(yàn)。

  探索空間擴(kuò)展的影響。我們分析孿生數(shù)據(jù)的規(guī)模與分布如何影響 warm-up 階段的性能。表中報(bào)告了在不同 ID/OOD 合成軌跡增強(qiáng)設(shè)置下的成功率。與基礎(chǔ)模型相比,在 ID 與 OOD 各加入 30 條孿生軌跡的平衡設(shè)置下,成功率達(dá)到 57.0%(提升 30%),表明我們的數(shù)字孿生管線即便在高精度任務(wù)中,也能夠在整個(gè)工作空間生成高質(zhì)量軌跡。進(jìn)一步增加孿生數(shù)據(jù)量可帶來(lái)額外性能提升:將 ID 數(shù)據(jù)加倍(60/30)獲得最大收益,在 ID 區(qū)域成功率峰值達(dá)到 80%;增加 OOD 數(shù)據(jù)(30/60)則將成功率提升至 70%??傮w來(lái)看,這些結(jié)果驗(yàn)證了探索空間擴(kuò)展策略能夠有效拓寬 SFT 的覆蓋范圍。需要注意的是,雖然更多合成數(shù)據(jù)有助于提升性能,但也會(huì)增加 SFT 時(shí)間成本,形成準(zhǔn)確率與效率之間的權(quán)衡。

  表 I:探索空間擴(kuò)展的消融實(shí)驗(yàn)。我們?cè)?SFT warm-up 階段改變加入的孿生生成軌跡數(shù)量,并測(cè)量相應(yīng)的成功率(SR)。

  

  Sim-to-Real 引導(dǎo) HiL 的效率。我們?cè)u(píng)估數(shù)字孿生引導(dǎo)的 HiL 在真實(shí)世界在線 RL 中的作用。如圖所示,我們對(duì)比了是否啟用孿生引導(dǎo)機(jī)制的 TwinRL。該機(jī)制利用數(shù)字孿生 rollout 識(shí)別信息密集的初始物體配置,并在必要時(shí)觸發(fā) HiL 干預(yù)。結(jié)果表明,啟用孿生引導(dǎo)干預(yù)能夠顯著減少真實(shí)訓(xùn)練步數(shù),在保持更高成功率的同時(shí)實(shí)現(xiàn)更快收斂。相反,在相同的策略初始化與 replay buffer 條件下,移除該機(jī)制會(huì)導(dǎo)致適應(yīng)速度變慢、樣本效率降低。這說(shuō)明,在 TwinRL 中,數(shù)字孿生不僅在部署前擴(kuò)展探索支持,還在在線階段通過(guò)將真實(shí)交互引導(dǎo)至具有挑戰(zhàn)性且信息密集的狀態(tài)區(qū)域中發(fā)揮關(guān)鍵作用。

  

  圖 x:Sim-to-Real 引導(dǎo) HiL 的消融實(shí)驗(yàn)。引導(dǎo)機(jī)制顯著加速了強(qiáng)化學(xué)習(xí)過(guò)程,在約 4k 步(約 14 分鐘)時(shí)達(dá)到 100% 成功率;而未使用引導(dǎo)機(jī)制的訓(xùn)練收斂更慢,且最終成功率更低。

  魯棒性分析.我們?cè)诖饲拔匆娺^(guò)的環(huán)境擾動(dòng)條件下,對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行零樣本魯棒性評(píng)估。這些擾動(dòng)包括背景雜物干擾和光照變化。如圖所示,我們?cè)O(shè)計(jì)了三種測(cè)試條件:背景擾動(dòng)(加入與任務(wù)無(wú)關(guān)的物體以形成雜亂場(chǎng)景)、變暗光照(整體均勻照明變化)以及動(dòng)態(tài)光照(動(dòng)態(tài)彩色光源與移動(dòng)光影效果)。

  實(shí)驗(yàn)結(jié)果表明,在觀測(cè)分布發(fā)生偏移的情況下,TwinRL 的性能僅出現(xiàn)輕微下降,而僅經(jīng)過(guò) SFT 訓(xùn)練的模型則表現(xiàn)出明顯更大的性能退化。這些結(jié)果說(shuō)明,通過(guò)真實(shí)世界交互進(jìn)行 RL 微調(diào),可以推動(dòng)策略形成更加穩(wěn)定的控制行為和更具抗噪能力的決策邊界。進(jìn)一步地,TwinRL 通過(guò)孿生引導(dǎo)的 HiL 機(jī)制,將真實(shí)交互集中于高信息密度的關(guān)鍵配置,從而進(jìn)一步增強(qiáng)了策略的魯棒性。

  

  圖 x:魯棒性分析。我們?cè)诖饲拔匆娺^(guò)的環(huán)境擾動(dòng)條件下,對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行對(duì)比;上排展示了擾動(dòng)場(chǎng)景示例。

  具身智能的技術(shù)閉環(huán)

  至簡(jiǎn)動(dòng)力團(tuán)隊(duì)通過(guò)一系列環(huán)環(huán)相扣的研究,他們正在構(gòu)建起具身智能的「三部曲」:從強(qiáng)大的基座模型出發(fā),通過(guò)創(chuàng)新的推理范式,最終實(shí)現(xiàn) 100 分的在線進(jìn)化與實(shí)際落地。

  第一步:LaST?——構(gòu)建隱式時(shí)空思維基座

  一切進(jìn)化的起點(diǎn)源于基座能力的突破。至簡(jiǎn)動(dòng)力近期發(fā)布的LaST?基座模型,首次將世界模型對(duì)物理世界的理解、預(yù)測(cè)及VLA的快慢思維融合。

  技術(shù)核心:精細(xì)操作僅依靠語(yǔ)言是不夠的,更依賴對(duì)物理世界的充分理解和精準(zhǔn)預(yù)測(cè), LaST? 在latent space對(duì)語(yǔ)言邏輯、視覺語(yǔ)義、3D空間結(jié)構(gòu)以及機(jī)器人狀態(tài)聯(lián)合建模及生成預(yù)測(cè),在保證高頻動(dòng)作執(zhí)行流暢的前提下,顯著提升了對(duì)物理世界動(dòng)態(tài)的高效推理能力。

  解決痛點(diǎn):如果說(shuō)傳統(tǒng)模型容易在復(fù)雜動(dòng)態(tài)環(huán)境下容易失效、“反應(yīng)遲鈍”, LaST? 則解決了機(jī)器人“怎么一邊想一邊快速動(dòng)”的難題。

  第二步:ManualVLA——打通“推理到執(zhí)行”的精細(xì)操作說(shuō)明書

  有了強(qiáng)大的基座,如何讓機(jī)器人真正理解復(fù)雜的的長(zhǎng)程任務(wù)?針對(duì)推理到執(zhí)行的閉環(huán),至簡(jiǎn)動(dòng)力提出了 ManualVLA。

  技術(shù)核心:它貫通了生成式推理與低層動(dòng)作執(zhí)行,使模型能夠從目標(biāo)狀態(tài)出發(fā),自動(dòng)生成類似人類使用的多模態(tài)“操作說(shuō)明書”,基于說(shuō)明書實(shí)現(xiàn)精細(xì)長(zhǎng)程操縱。

  應(yīng)用表現(xiàn):這使得機(jī)器人能完成細(xì)粒度的長(zhǎng)程操縱。在樂高組裝等復(fù)雜任務(wù)上,其平均成功率比此前最優(yōu)方法高出 32%。它完美回答了機(jī)器人“怎么想清楚再動(dòng)手”的問(wèn)題。

  第三步:TwinRL——借助數(shù)字孿生實(shí)現(xiàn)“100分”的在線進(jìn)化

  當(dāng)模型具備了推理與執(zhí)行能力,最后的關(guān)鍵在于如何讓它在真實(shí)世界中持續(xù)進(jìn)化,實(shí)現(xiàn)真正的VLA落地。基于上述統(tǒng)一的模型能力,至簡(jiǎn)動(dòng)力進(jìn)一步提出 TwinRL。

  技術(shù)核心:TwinRL 借助數(shù)字孿生擴(kuò)展了真機(jī)強(qiáng)化學(xué)習(xí)的探索空間,極大提升了探索效率。

  突破性指標(biāo):實(shí)驗(yàn)驗(yàn)證顯示,在多個(gè)任務(wù)上,機(jī)器人少于 20 分鐘即可在桌面區(qū)域達(dá)到 100% 的成功率,包括真機(jī)數(shù)據(jù)成功覆蓋了訓(xùn)練分布內(nèi)與分布外區(qū)域。

  進(jìn)化價(jià)值:TwinRL 真正解決了“怎么讓機(jī)器人在真實(shí)世界里自己變強(qiáng)”的終極挑戰(zhàn)。

  結(jié)語(yǔ):一體化 VLA 范式的落地元年

  我們?cè)谶@篇文章中,將至簡(jiǎn)動(dòng)力的三項(xiàng)核心技術(shù)——LaST?(基座與推理)、ManualVLA(指令與執(zhí)行)、TwinRL(進(jìn)化與落地)有機(jī)串聯(lián),構(gòu)建起一個(gè)從基礎(chǔ)研究到產(chǎn)業(yè)落地的完整故事閉環(huán)。

  這三者共同構(gòu)成了至簡(jiǎn)動(dòng)力「推理—執(zhí)行—進(jìn)化」的 VLA 技術(shù)三角。

  從「紙面論文」到 「 物理閉環(huán) 」 ,見證至簡(jiǎn)動(dòng)力如何重塑具身智能 VLA 范式。

  這不僅是學(xué)術(shù)上的領(lǐng)先,更是一場(chǎng)真正一體化 VLA 基礎(chǔ)模型范式從論文走向真實(shí)產(chǎn)線和場(chǎng)景的躍遷。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

讀懂世界歷史
2026-02-12 21:48:53
劉少昂女友曬照力挺:我看到你的付出!她曾是花滑運(yùn)動(dòng)員身材曼妙

劉少昂女友曬照力挺:我看到你的付出!她曾是花滑運(yùn)動(dòng)員身材曼妙

Emily說(shuō)個(gè)球
2026-02-26 12:35:25
錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

墨印齋
2026-01-31 16:37:48
中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

夜深愛雜談
2026-02-24 22:41:54
外交部:中方支持伊朗政府和人民維護(hù)國(guó)家穩(wěn)定和正當(dāng)權(quán)益

外交部:中方支持伊朗政府和人民維護(hù)國(guó)家穩(wěn)定和正當(dāng)權(quán)益

每日經(jīng)濟(jì)新聞
2026-02-26 16:15:19
甘肅一中學(xué)回應(yīng)“不住校就去其他學(xué)校就讀”:表述方式不當(dāng)

甘肅一中學(xué)回應(yīng)“不住校就去其他學(xué)校就讀”:表述方式不當(dāng)

界面新聞
2026-02-26 15:37:28
美媒解讀東契奇拒投絕殺后唇語(yǔ):詹姆斯讓我傳球,我就傳了

美媒解讀東契奇拒投絕殺后唇語(yǔ):詹姆斯讓我傳球,我就傳了

懂球帝
2026-02-26 09:45:10
傅彪兒子近照曝光!過(guò)年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

傅彪兒子近照曝光!過(guò)年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

叨嘮
2026-02-24 21:53:09
朝鮮“新星女將軍”金主愛:下一代領(lǐng)導(dǎo)者?她頻頻露面原因?yàn)楹危?>
    </a>
        <h3>
      <a href=洞鑒歷史
2024-04-24 15:10:54
美籍快艇闖入古巴并交火,4死6傷!7人身份確定:有卡車司機(jī)、送貨員,美方展開調(diào)查

美籍快艇闖入古巴并交火,4死6傷!7人身份確定:有卡車司機(jī)、送貨員,美方展開調(diào)查

紅星新聞
2026-02-26 18:03:21
2月重慶多地氣溫破紀(jì)錄,氣象專家解讀原因

2月重慶多地氣溫破紀(jì)錄,氣象專家解讀原因

上游新聞
2026-02-26 20:07:03
4首輪+1互換!再看貝恩交易,值嗎?

4首輪+1互換!再看貝恩交易,值嗎?

籃球?qū)嶄?/span>
2026-02-26 00:01:50
法國(guó)藝術(shù)圈地震!芭蕾女神、哲學(xué)少女,都被鋼琴家送給了愛潑斯坦!

法國(guó)藝術(shù)圈地震!芭蕾女神、哲學(xué)少女,都被鋼琴家送給了愛潑斯坦!

新歐洲
2026-02-18 19:44:34
29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產(chǎn)

29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產(chǎn)

查爾菲的筆記
2026-02-25 19:52:18
演員黃曼近況曝光!終于公開與李乃文真正關(guān)系,原來(lái)我們都被騙了

演員黃曼近況曝光!終于公開與李乃文真正關(guān)系,原來(lái)我們都被騙了

陳意小可愛
2026-02-26 01:27:47
打人夫妻老底被扒光!村民曝更多惡心事,遠(yuǎn)不止群毆女孩這么簡(jiǎn)單

打人夫妻老底被扒光!村民曝更多惡心事,遠(yuǎn)不止群毆女孩這么簡(jiǎn)單

天天熱點(diǎn)見聞
2026-02-26 08:10:16
大反轉(zhuǎn)!三只羊“上市”成功

大反轉(zhuǎn)!三只羊“上市”成功

首席品牌評(píng)論
2026-02-25 23:00:11
6億打水漂?投資人揭《美人魚2》不上映原因,劣跡藝人害慘周星馳

6億打水漂?投資人揭《美人魚2》不上映原因,劣跡藝人害慘周星馳

查爾菲的筆記
2025-09-02 00:48:54
可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

墨蘭史書
2026-02-25 20:30:05
2026-02-26 22:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14596文章數(shù) 66643關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬(wàn)億":工廠可能會(huì)被拍賣

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬(wàn)億":工廠可能會(huì)被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
家居
本地
公開課

手機(jī)要聞

不止魅族,曝還有廠商暫停下一代旗艦研發(fā)

數(shù)碼要聞

英特爾Arc顯卡32.0.101.8531驅(qū)動(dòng)發(fā)布

家居要聞

歸隱于都市 慢享自由

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版