網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

真機(jī)RL殺瘋了！機(jī)器人自學(xué)20分鐘100分，數(shù)字孿生封神

2026-02-13 09:04:39　來(lái)源: 新智元

北京舉報(bào)

分享至

　　新智元報(bào)道

　　編輯：犀牛

　　【新智元導(dǎo)讀】TwinRL用手機(jī)掃一遍場(chǎng)景構(gòu)建數(shù)字孿生，讓機(jī)器人先在數(shù)字孿生里大膽探索、精準(zhǔn)試錯(cuò)，再回到真機(jī)20分鐘跑滿全桌面100%成功率——比現(xiàn)有方法快30%，人類干預(yù)減少一半以上。

　　讓機(jī)器人真正「走出演示數(shù)據(jù)」的那一刻，發(fā)生了什么？

　　你花了兩周時(shí)間，手把手遙操作教一個(gè)機(jī)械臂抓香蕉放盤子。桌子左半邊，它學(xué)得像模像樣，十拿九穩(wěn)。

　　然后你把香蕉往右邊挪了15厘米。

　　機(jī)械臂愣住了。

　　它不是「沒學(xué)好」，而是從來(lái)沒見過(guò)那個(gè)位置。

　　對(duì)它來(lái)說(shuō)，桌子右半邊就是另一個(gè)宇宙。

　　這不是段子，這是2025年幾乎所有VLA模型在真實(shí)世界里的真實(shí)處境。

　　過(guò)去兩年，Vision-Language-Action（VLA）模型席卷機(jī)器人領(lǐng)域。

　　從「看圖+聽話+動(dòng)手」，到多任務(wù)、多場(chǎng)景的泛化執(zhí)行，VLA讓機(jī)器人第一次看起來(lái)像「理解世界」的智能體。

　　論文里成功率動(dòng)輒90%以上，演示視頻拍得漂亮極了。

　　但真正做過(guò)真機(jī)實(shí)驗(yàn)的人都知道，這里面藏著一個(gè)所有人都心知肚明、卻很少有人正面回答的問(wèn)題：

　　如果沒有人類不斷示范，機(jī)器人還能不能自己學(xué)？

　　答案是——幾乎不能。

　　現(xiàn)實(shí)的殘酷在于：

　　人類示范（Teleoperation）昂貴、低效、覆蓋有限——一個(gè)人手握操控桿操作一天，也就覆蓋桌面的一小片區(qū)域

　　在線強(qiáng)化學(xué)習(xí)（RL）在真實(shí)機(jī)器人上慢、危險(xiǎn)、資源消耗大——機(jī)械臂一個(gè)探索失誤，可能直接撞壞傳感器

　　但這些都還不是最致命的。

　　最致命的是——

　　RL的探索空間，被SFT演示數(shù)據(jù)牢牢鎖死。

　　哪怕你給機(jī)器人再多獎(jiǎng)勵(lì)，它也只會(huì)在「演示數(shù)據(jù)附近」打轉(zhuǎn)。

　　就像一個(gè)只在家門口遛過(guò)彎的人，你跟他說(shuō)「去探索世界」，他轉(zhuǎn)一圈還是回到了自家樓下。

　　探索，根本沒有發(fā)生。

　　這個(gè)問(wèn)題被回避得太久了。

　　直到TwinRL，第一次把它撕開，攤到臺(tái)面上。

　　近日，至簡(jiǎn)動(dòng)力、北京大學(xué)計(jì)算機(jī)學(xué)院多媒體信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室、清華大學(xué)、香港科技大學(xué)，提出了一種面向真實(shí)世界機(jī)器人操作的數(shù)字孿生協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL（Digital Twin-DrivenReinforcement Learning），可直接在真實(shí)機(jī)器人上高效執(zhí)行在線強(qiáng)化學(xué)習(xí)并系統(tǒng)性擴(kuò)展探索空間。

　　據(jù)行業(yè)知情人士透露，至簡(jiǎn)動(dòng)力目前估值已逼近獨(dú)角獸陣營(yíng)。成立半年即獲得如此密集的頂級(jí)資本加持，在整個(gè)具身智能賽道中也極為罕見。

　　TwinRL的核心洞察：RL的問(wèn)題，不是學(xué)不會(huì)，而是探索空間被限制。

　　通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn)，TwinRL團(tuán)隊(duì)觀察到一個(gè)關(guān)鍵現(xiàn)象：

　　真實(shí)世界中，VLA的有效探索空間，幾乎完全由SFT數(shù)據(jù)分布決定。

　　這意味著什么？

　　RL更像是「重加權(quán)」，而不是「開新路」

　　Out-of-Distribution（OOD）區(qū)域，對(duì)SFT模型來(lái)說(shuō)幾乎不可達(dá)

　　即便加入Human-in-the-Loop，也只是緩慢地「挪邊界」

　　問(wèn)題不在算法，而在探索空間本身。

　　于是，一個(gè)大膽的想法出現(xiàn)了：

　　如果真實(shí)世界沒法并行探索，那就把「探索」這件事，提前搬到一個(gè)「可控、可擴(kuò)展的世界」里。

　　這個(gè)世界，就是數(shù)字孿生（Digital Twin）。

　　TwinRL：不是「模擬器」

　　而是探索放大器和探索指引器

　　和傳統(tǒng)「仿真+real2sim」不同，Digital Twin不是用來(lái)替代真實(shí)世界的，而是用來(lái)「放大真實(shí)世界探索能力」的。

　　TwinRL構(gòu)建了一個(gè)數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架，核心由三步組成：

　　一、探索空間擴(kuò)展（Exploration Space Expansion）

　　使用手機(jī)拍攝真實(shí)場(chǎng)景

　　基于3D Gaussian Splatting高效重建高保真數(shù)字孿生

　　在孿生環(huán)境中生成遠(yuǎn)超人類示范覆蓋范圍的合成軌跡

　　在SFT階段就顯式拓寬數(shù)據(jù)分布支持

　　不是「學(xué)得更好」，而是一開始就站在更大的世界里。

　　二、數(shù)字孿生中的并行在線RL

　　真實(shí)機(jī)器人無(wú)法并行試錯(cuò)，但數(shù)字孿生可以。

　　TwinRL在部署前：

　　在數(shù)字孿生中高效并行執(zhí)行在線RL

　　生成RL風(fēng)格的高質(zhì)量探索軌跡，橋接offline→online

　　這一步極大緩解了真實(shí)世界RL的冷啟動(dòng)和不穩(wěn)定問(wèn)題。

　　三、Sim-to-Real引導(dǎo)的人在回路探索

　　數(shù)字孿生不僅「多」，而且「準(zhǔn)」。

　　TwinRL會(huì)：

　　在孿生環(huán)境中自動(dòng)識(shí)別失敗高發(fā)但信息密集的配置

　　精準(zhǔn)引導(dǎo)人類只在「最有價(jià)值的位置「介入

　　大幅減少無(wú)效示范和重復(fù)操作

　　人類不再是苦力，而是策略級(jí)引導(dǎo)者。

　　數(shù)字孿生協(xié)

　　同強(qiáng)化學(xué)習(xí)框架TwinRL

　　與以往僅在單一初始配置上達(dá)到高成功率不同，TwinRL 實(shí)現(xiàn)的不是「一個(gè)點(diǎn) 100%」，而是在更廣的工作空間范圍內(nèi)（包括分布外 OOD 區(qū)域）實(shí)現(xiàn) 100% 的成功率覆蓋。

　　在 4 項(xiàng)真實(shí)世界操作任務(wù)中，TwinRL 平均僅需約 20 分鐘即可完成在線強(qiáng)化學(xué)習(xí)收斂，相比現(xiàn)有真實(shí)機(jī)器人 RL 方法實(shí)現(xiàn)至少 30% 的加速，同時(shí)顯著降低了人類干預(yù)需求。

　　此外，即使在物體位置擾動(dòng)與環(huán)境變化條件下，TwinRL 依然能夠保持穩(wěn)定表現(xiàn)，展現(xiàn)出更強(qiáng)的空間泛化與探索能力。

　　真機(jī)測(cè)試視頻

　　論文鏈接: https://arxiv.org/abs/2602.09023

　　項(xiàng)目主頁(yè): https://sites.google.com/view/twinrl/twinrl

　　1. 摘要

　　盡管視覺–語(yǔ)言–動(dòng)作（Vision-Language-Action, VLA）模型在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化能力，其在真實(shí)世界中的應(yīng)用仍受到高成本人類示范數(shù)據(jù)和有限真實(shí)交互的制約。

　　在線強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）為提升模型能力提供了基于環(huán)境反饋的有效途徑，但在真實(shí)機(jī)器人場(chǎng)景中，其探索效率與可擴(kuò)展性仍然受到顯著限制。

　　通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)：在線強(qiáng)化學(xué)習(xí)在真實(shí)世界中的有效探索空間，與監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）階段所使用的數(shù)據(jù)分布高度相關(guān)。

　　在此背景下，本文提出了一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL，旨在對(duì) VLA 模型的探索過(guò)程進(jìn)行系統(tǒng)性擴(kuò)展與引導(dǎo)。

　　TwinRL 首先利用手機(jī)采集的真實(shí)場(chǎng)景數(shù)據(jù)高效重建高保真數(shù)字孿生環(huán)境，實(shí)現(xiàn)真實(shí)世界與仿真環(huán)境之間的雙向遷移。

　　在監(jiān)督微調(diào)階段，框架通過(guò)數(shù)字孿生引入探索空間擴(kuò)展策略，以顯式拓寬軌跡數(shù)據(jù)分布的支持范圍。

　　在此基礎(chǔ)上，TwinRL 進(jìn)一步提出了一種 sim-to-real 引導(dǎo)的探索機(jī)制，在部署前于數(shù)字孿生環(huán)境中執(zhí)行高效并行的在線強(qiáng)化學(xué)習(xí)，從而有效銜接離線訓(xùn)練與真實(shí)世界在線學(xué)習(xí)過(guò)程。

　　此外，框架還利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置，用于引導(dǎo)真實(shí)機(jī)器人上的定向人類在回路探索。

　　在多個(gè)真實(shí)世界機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明，TwinRL 在示范數(shù)據(jù)覆蓋區(qū)域及分布外區(qū)域均取得了穩(wěn)定性能提升，在顯著減少人類干預(yù)的同時(shí)，將真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂時(shí)間縮短至約 20 分鐘，并相比現(xiàn)有方法實(shí)現(xiàn)了至少 30% 的效率提升。

　　圖 1：整體框架（a）我們提出了TwinRL，一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架。該框架通過(guò)引入數(shù)字孿生環(huán)境，將探索空間從人類示范所覆蓋的分布內(nèi)區(qū)域擴(kuò)展至分布外區(qū)域，并在數(shù)字孿生中執(zhí)行高效、并行的在線強(qiáng)化學(xué)習(xí)，從而實(shí)現(xiàn) sim-to-real 引導(dǎo)的探索過(guò)程，顯著提升真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂速度。（b）在四個(gè)機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明，TwinRL 在在線強(qiáng)化學(xué)習(xí)階段收斂速度更快，并在真實(shí)世界示范覆蓋區(qū)域及分布外區(qū)域均取得了接近 100% 的成功率，平均約 20 分鐘即可達(dá)到該性能水平。由于 HiL-SERL 方法未包含監(jiān)督微調(diào)階段，其性能僅在分布內(nèi)區(qū)域進(jìn)行報(bào)告。

　　2. 研究背景

　　視覺–語(yǔ)言–動(dòng)作（Vision-Language-Action, VLA）模型近年來(lái)在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化潛力，能夠?qū)⒆匀徽Z(yǔ)言指令直接映射為連續(xù)控制行為。

　　然而，現(xiàn)有 VLA 方法在真實(shí)世界部署中仍高度依賴人工示范數(shù)據(jù)（teleoperation），其獲取成本高、覆蓋范圍有限，且難以支持長(zhǎng)期自主學(xué)習(xí)。

　　強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）被認(rèn)為是突破示范數(shù)據(jù)瓶頸的重要手段，但在真實(shí)機(jī)器人系統(tǒng)中直接應(yīng)用在線 RL 面臨效率低、風(fēng)險(xiǎn)高、難以并行等現(xiàn)實(shí)約束。

　　尤其是在復(fù)雜物理環(huán)境下，機(jī)器人探索空間受到初始監(jiān)督數(shù)據(jù)分布的強(qiáng)烈限制，導(dǎo)致在線學(xué)習(xí)難以有效擴(kuò)展到未覆蓋區(qū)域。

　　3. 核心觀察與研究動(dòng)機(jī)

　　圖 2：探索瓶頸。(a) 我們將工作空間劃分為分布內(nèi)區(qū)域（A）與分布外區(qū)域（B）。每個(gè)區(qū)域由任務(wù)完成時(shí)被操作物體中心的位置進(jìn)行定義。(b) 熱力圖可視化展示了不同策略在各區(qū)域中的性能表現(xiàn)。(c) 學(xué)習(xí)曲線展示了 A-only 策略在兩個(gè)區(qū)域中進(jìn)行在線強(qiáng)化學(xué)習(xí)時(shí)的訓(xùn)練動(dòng)態(tài)變化。

　　盡管在線強(qiáng)化學(xué)習(xí)（online RL）為提升任務(wù)魯棒性提供了探索路徑，但其在真實(shí)物理硬件上的樣本效率仍然面臨挑戰(zhàn)。

　　受到通用領(lǐng)域研究的啟發(fā)，我們觀察到，在真實(shí)世界的 VLA 強(qiáng)化學(xué)習(xí)中，探索過(guò)程實(shí)際上受到監(jiān)督微調(diào)（SFT）階段所誘導(dǎo)的軌跡分布空間支持的嚴(yán)格約束。

　　這一約束帶來(lái)了雙重瓶頸：（1）限制策略能夠可靠探索的狀態(tài)集合；（2）即便引入人類干預(yù)，也顯著降低在線 RL 的學(xué)習(xí)效率。

　　實(shí)驗(yàn)設(shè)置.

　　如圖所示，我們?cè)谝粋€(gè)高精度積木插入任務(wù)上開展實(shí)驗(yàn)，該任務(wù)對(duì)空間位置精度要求較高。所有策略均基于 Octo 模型構(gòu)建。我們將工作空間劃分為分布內(nèi)區(qū)域 A（由示范數(shù)據(jù)覆蓋）與分布外區(qū)域 B（在 SFT 階段未被觀察到）。

　　瓶頸一.我們通過(guò)改變 SFT 示范的空間覆蓋范圍，分析其對(duì)策略泛化能力與自主在線 RL 的影響。具體比較兩種訓(xùn)練數(shù)據(jù)分布：A-only，僅使用區(qū)域 A 的 30 條示范；A+B，在此基礎(chǔ)上加入來(lái)自區(qū)域 B 的 30 條數(shù)字孿生示范。為衡量示范覆蓋如何塑造探索空間，我們將策略初始化為 A-only SFT 模型，并在未見過(guò)的區(qū)域 B 中執(zhí)行自主在線 RL。

　　發(fā)現(xiàn)一.如圖所示，在每個(gè)網(wǎng)格單元內(nèi)執(zhí)行 10 次 rollout。在區(qū)域 B 中，A+B 策略成功率達(dá)到 62.5%，而 A-only 策略完全局限于區(qū)域 A（區(qū)域 B 成功率為 0%）。這表明標(biāo)準(zhǔn) SFT 策略在空間未覆蓋區(qū)域上的外推能力極其有限。更重要的是，從 A-only 模型出發(fā)在區(qū)域 B 中進(jìn)行自主在線 RL 時(shí)，會(huì)出現(xiàn)明顯的探索死鎖現(xiàn)象。在 OOD 初始配置下，即使經(jīng)過(guò) 40K 訓(xùn)練步（約兩小時(shí)），策略仍無(wú)法穩(wěn)定獲得正獎(jiǎng)勵(lì)。這一現(xiàn)象與此前工作的觀察一致：replay buffer 被失敗軌跡主導(dǎo)，導(dǎo)致自主適應(yīng)幾乎失效。結(jié)果說(shuō)明，在線 RL 的有效探索空間與 SFT 數(shù)據(jù)的空間覆蓋范圍高度相關(guān)。

　　瓶頸二.為緩解探索死鎖，可以引入人類在回路（HiL）干預(yù)，引導(dǎo)機(jī)器人完成任務(wù)。然而，關(guān)鍵問(wèn)題在于：在人類指導(dǎo)可用的情況下，是否能夠保證在 OOD 場(chǎng)景下實(shí)現(xiàn)高效在線適應(yīng)？為此，我們比較兩種設(shè)置：分布內(nèi)后訓(xùn)練（在區(qū)域 A 中進(jìn)行在線 RL）與分布外后訓(xùn)練（在區(qū)域 B 中進(jìn)行在線 RL）。所有模型均初始化自相同的 A-only SFT 策略。

　　發(fā)現(xiàn)二.盡管在人類干預(yù)下，兩種設(shè)置都能獲得成功的糾正示范，但樣本效率差異顯著。如圖所示，分布內(nèi)后訓(xùn)練適應(yīng)迅速，在約 45 分鐘（約 14K 交互步）內(nèi)成功率超過(guò) 90%；相比之下，分布外后訓(xùn)練收斂更慢且更不穩(wěn)定，在相同交互預(yù)算下未能達(dá)到可比性能。這些結(jié)果表明，即便引入 HiL 機(jī)制，在未見過(guò)的區(qū)域 B 中學(xué)習(xí)仍然困難。這主要源于不利的獎(jiǎng)勵(lì)景觀以及 replay buffer 中數(shù)據(jù)分布失衡，顯著降低了梯度效率。

　　結(jié)論。上述觀察表明，要突破兩個(gè)瓶頸，必須在真實(shí)世界交互前擴(kuò)展探索覆蓋范圍，并在在線階段系統(tǒng)性引導(dǎo)人類干預(yù)以提升學(xué)習(xí)效率。基于此，我們提出TwinRL —— 一個(gè)數(shù)字孿生與真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架，將數(shù)字孿生作為探索放大器與引導(dǎo)器，貫穿 SFT 與在線 RL 兩個(gè)階段。

　　4. TwinRL 框架概述

　　整個(gè)框架由三個(gè)緊密耦合的階段構(gòu)成：探索空間擴(kuò)展、數(shù)字孿生并行在線強(qiáng)化學(xué)習(xí)以及 sim-to-real 引導(dǎo)的真實(shí)世界探索。

　　探索空間擴(kuò)展策略.首先，我們構(gòu)建高保真的數(shù)字孿生環(huán)境。通過(guò)手機(jī)采集真實(shí)場(chǎng)景并基于 3D Gaussian Splatting 進(jìn)行重建，實(shí)現(xiàn)真實(shí)環(huán)境與仿真環(huán)境之間的幾何與視覺一致性?；谠搶\生環(huán)境，我們?cè)诒O(jiān)督微調(diào)（SFT）warm-up 階段引入探索空間擴(kuò)展策略，在保持任務(wù)語(yǔ)義一致的前提下生成覆蓋更廣狀態(tài)配置的軌跡數(shù)據(jù)，顯式拓寬訓(xùn)練軌跡分布的支持范圍，從而增強(qiáng)策略在分布外區(qū)域的可達(dá)性。

　　孿生在線 RL 階段.盡管我們的方法在 SFT 階段擴(kuò)展了 VLA 模型的探索支持范圍，但在真實(shí)機(jī)器人上直接啟動(dòng)在線強(qiáng)化學(xué)習(xí)仍然面臨兩個(gè)關(guān)鍵瓶頸。第一，監(jiān)督示范數(shù)據(jù)與 RL 風(fēng)格專家軌跡之間的分布不匹配，可能在離線到在線過(guò)渡過(guò)程中引發(fā)嚴(yán)重的性能退化以及 Q 值不穩(wěn)定問(wèn)題。第二，即便采用人類在回路（HiL）引導(dǎo)的在線 RL，仍然存在較高的樣本復(fù)雜度，并高度依賴操作者經(jīng)驗(yàn)。為了解決這些問(wèn)題，我們將數(shù)字孿生作為并行計(jì)算引擎，引入“孿生在線 RL 階段”以及一種“失敗感知的探索機(jī)制”，從而將真實(shí)世界中的探索轉(zhuǎn)化為更加有針對(duì)性且樣本效率更高的過(guò)程。如方法圖 Stage II 所示，為了彌合示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間的分布差距，我們首先在數(shù)字孿生中執(zhí)行并行在線 RL。在該階段，策略從 SFT 模型初始化，并在 N 個(gè)并行孿生環(huán)境中進(jìn)行交互訓(xùn)練。優(yōu)化目標(biāo)為：

　　。其中，與 SFT 階段所使用的損失相同；為強(qiáng)化學(xué)習(xí)目標(biāo)，鼓勵(lì)策略選擇具有更高 Q 估計(jì)值的動(dòng)作，其形式為對(duì)狀態(tài) s 和策略動(dòng)作 a 的期望負(fù) Q 值。通過(guò)這一過(guò)程，孿生在線 RL 階段能夠高效收集多樣化軌跡，包括成功執(zhí)行、失敗行為以及恢復(fù)策略，并將其存儲(chǔ)在孿生 replay buffer中。由于并行處理能力，我們可以在約 1 分鐘內(nèi)生成一批 rollout（例如每個(gè) episode 約 30 步）。由于示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間存在分布差距，早期在線學(xué)習(xí)往往表現(xiàn)出不穩(wěn)定性。因此，在數(shù)字孿生中完成高效在線學(xué)習(xí)后，我們將孿生 buffer 中的數(shù)據(jù)遷移至真實(shí)世界 replay buffer，用于初始化真實(shí)訓(xùn)練過(guò)程。通過(guò)提供更加均衡的訓(xùn)練信號(hào)，該初始化策略能夠減少離線 SFT 向真實(shí)在線學(xué)習(xí)過(guò)渡階段的訓(xùn)練不穩(wěn)定性，并緩解性能退化。此外，在后續(xù)的定向 HiL 引導(dǎo)在線 RL 過(guò)程中，該策略也有助于防止在已有良好性能配置上出現(xiàn)災(zāi)難性遺忘。

　　真實(shí)世界在線 RL.如方法圖 Stage III 所示，我們利用數(shù)字孿生識(shí)別狀態(tài)空間中容易失敗的區(qū)域，并據(jù)此引導(dǎo)真實(shí)世界在線 RL 的初始狀態(tài)分布。與以往依賴真實(shí) rollouts 的課程學(xué)習(xí)或重置策略不同，數(shù)字孿生可以在不消耗物理交互預(yù)算的前提下，以低成本、系統(tǒng)化方式評(píng)估策略在大范圍初始配置下的表現(xiàn)。具體而言，我們?cè)跀?shù)字孿生中評(píng)估當(dāng)前策略，并構(gòu)建目標(biāo)初始狀態(tài)集合：

　　，其中表示從初始狀態(tài)出發(fā)的經(jīng)驗(yàn)成功率，為熟練度閾值。在真實(shí)世界在線交互過(guò)程中，優(yōu)先從中采樣初始狀態(tài)進(jìn)行 episode 重置，使有限的真實(shí)交互預(yù)算集中于更具挑戰(zhàn)性的狀態(tài)區(qū)域。為進(jìn)一步降低在困難區(qū)域探索的成本與風(fēng)險(xiǎn)，我們?cè)谡鎸?shí)機(jī)器人訓(xùn)練中引入 HiL 機(jī)制。干預(yù)生成的軌跡被存入 replay buffer，并用于后續(xù)策略更新。不同于現(xiàn)有 HiL 方法，我們提出了一種新的引導(dǎo)機(jī)制：由數(shù)字孿生決定在真實(shí)世界 RL 過(guò)程中“何時(shí)”以及“何處”觸發(fā) HiL 干預(yù)，從而實(shí)現(xiàn)更加精準(zhǔn)和高效的協(xié)同學(xué)習(xí)。隨后，我們利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置，并據(jù)此引導(dǎo)真實(shí)機(jī)器人上的 targeted human-in-the-loop 交互，使有限的人類干預(yù)集中于最具學(xué)習(xí)價(jià)值的區(qū)域。

　　我們的貢獻(xiàn)總結(jié)如下：

　　我們通過(guò)系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn)揭示了真實(shí)世界 VLA 在線強(qiáng)化學(xué)習(xí)中“有效探索空間受 SFT 數(shù)據(jù)分布顯著約束”的關(guān)鍵現(xiàn)象，并據(jù)此明確了探索結(jié)構(gòu)設(shè)計(jì)在真實(shí)世界 RL 中的重要性。

　　我們提出TwinRL數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架，通過(guò)數(shù)字孿生重建與雙向遷移，將數(shù)字孿生從驗(yàn)證工具提升為探索擴(kuò)展與引導(dǎo)的核心組件，實(shí)現(xiàn)從分布內(nèi)示范到分布外區(qū)域的探索空間擴(kuò)展。

　　我們提出探索空間擴(kuò)展的 SFT warm-up 策略，并結(jié)合數(shù)字孿生中的并行在線 RL 與 failure-driven 的 sim-to-real 引導(dǎo)人類在回路探索機(jī)制，有效橋接離線與在線階段并顯著加速真實(shí)世界 RL 收斂；在四項(xiàng)任務(wù)中實(shí)現(xiàn)接近 100% 成功率，平均約 20 分鐘收斂，并獲得至少 30% 的訓(xùn)練加速。

　　圖 3：TwinRL 框架。階段 I：從人類遙操作示范出發(fā)，我們引入一種探索空間擴(kuò)展策略，通過(guò)合成多樣化的數(shù)字孿生示范數(shù)據(jù)來(lái)拓寬 SFT 的覆蓋范圍。階段 II：隨后，基于 SFT 初始化的策略在數(shù)字孿生環(huán)境中進(jìn)行可擴(kuò)展、并行的在線強(qiáng)化學(xué)習(xí)，生成具有強(qiáng)化學(xué)習(xí)特征的 rollout 軌跡；這些軌跡被遷移至真實(shí)世界以初始化 replay buffer，從而穩(wěn)定在線學(xué)習(xí)過(guò)程。階段 III：在真實(shí)世界在線強(qiáng)化學(xué)習(xí)過(guò)程中，數(shù)字孿生高效且持續(xù)地識(shí)別失敗頻發(fā)但信息密集的物體配置，并據(jù)此引導(dǎo)有針對(duì)性的 Human-in-the-Loop（HiL）rollout。

　　5. 實(shí)驗(yàn)結(jié)果

　　定量與定性分析.我們?cè)?4 個(gè)真實(shí)世界操作任務(wù)上系統(tǒng)評(píng)估 TwinRL，包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。

　　所有實(shí)驗(yàn)均在 7-DoF Franka Emika FR3 平臺(tái)上進(jìn)行，并采用雙相機(jī)感知系統(tǒng)（固定第三視角 + 腕部相機(jī)）進(jìn)行觀測(cè)。

　　我們報(bào)告成功率（SR）隨真實(shí)世界訓(xùn)練時(shí)間與交互步數(shù)變化的曲線，用于比較不同方法的收斂速度與最終性能。

　　在分布內(nèi)（ID）區(qū)域，TwinRL 在在線強(qiáng)化學(xué)習(xí)初始階段即表現(xiàn)出顯著更高的成功率，這一優(yōu)勢(shì)源于探索空間擴(kuò)展策略在 SFT 階段對(duì)軌跡分布支持的拓寬。

　　相比僅使用真實(shí)示范的基線方法，TwinRL 在 0-step（真實(shí)交互開始前）即具備更強(qiáng)的部署先驗(yàn)。

　　隨著在線 RL 進(jìn)行，TwinRL 在大多數(shù)任務(wù)中均在約 20 分鐘內(nèi)在分布內(nèi)（ID）與分布外（OOD）區(qū)域完成收斂，達(dá)到 100% 成功率，而對(duì)比方法（ConRFT 與 HiL-SERL）則收斂更慢，或在相同交互預(yù)算下未能達(dá)到相當(dāng)性能。

　　在分布外（OOD）區(qū)域，性能差距更加顯著。TwinRL 在 OOD 區(qū)域同樣實(shí)現(xiàn)接近 100% 的成功率，并保持穩(wěn)定的收斂曲線，而僅依賴真實(shí)示范初始化的策略往往在 OOD 區(qū)域出現(xiàn)探索死鎖，難以獲得穩(wěn)定的正獎(jiǎng)勵(lì)信號(hào)。相比現(xiàn)有真實(shí)世界 RL 方法，TwinRL 在整體收斂速度上實(shí)現(xiàn)了至少 30% 的加速，顯著減少了達(dá)到高成功率所需的真實(shí)交互時(shí)間。

　　從穩(wěn)定性角度來(lái)看，所有方法在從離線 SFT 過(guò)渡到在線 RL 階段時(shí)都會(huì)經(jīng)歷性能波動(dòng)。然而，TwinRL 在該過(guò)渡階段表現(xiàn)出更小的性能退化，并能夠更快恢復(fù)至高成功率水平。這一現(xiàn)象與我們將數(shù)字孿生中并行在線 RL 軌跡遷移至真實(shí) replay buffer 的設(shè)計(jì)一致，該機(jī)制有效緩解了離線–在線分布切換所帶來(lái)的梯度不穩(wěn)定問(wèn)題。

　　真機(jī)online強(qiáng)化學(xué)習(xí)過(guò)程

　　圖 4：真實(shí)世界實(shí)驗(yàn)。我們報(bào)告了四項(xiàng)操作任務(wù)在分布內(nèi)（ID）與分布外（OOD）設(shè)置下進(jìn)行在線強(qiáng)化學(xué)習(xí)的成功率曲線?？v軸表示成功率，橫軸同時(shí)給出在線訓(xùn)練時(shí)間以及模型訓(xùn)練步數(shù)。

　　消融實(shí)驗(yàn).我們選取 Insert-Hexagon-Block 任務(wù)進(jìn)行消融分析。如圖所示，每一行均執(zhí)行 10 次 rollout 試驗(yàn)。

　　探索空間擴(kuò)展的影響。我們分析孿生數(shù)據(jù)的規(guī)模與分布如何影響 warm-up 階段的性能。表中報(bào)告了在不同 ID/OOD 合成軌跡增強(qiáng)設(shè)置下的成功率。與基礎(chǔ)模型相比，在 ID 與 OOD 各加入 30 條孿生軌跡的平衡設(shè)置下，成功率達(dá)到 57.0%（提升 30%），表明我們的數(shù)字孿生管線即便在高精度任務(wù)中，也能夠在整個(gè)工作空間生成高質(zhì)量軌跡。進(jìn)一步增加孿生數(shù)據(jù)量可帶來(lái)額外性能提升：將 ID 數(shù)據(jù)加倍（60/30）獲得最大收益，在 ID 區(qū)域成功率峰值達(dá)到 80%；增加 OOD 數(shù)據(jù)（30/60）則將成功率提升至 70%?？傮w來(lái)看，這些結(jié)果驗(yàn)證了探索空間擴(kuò)展策略能夠有效拓寬 SFT 的覆蓋范圍。需要注意的是，雖然更多合成數(shù)據(jù)有助于提升性能，但也會(huì)增加 SFT 時(shí)間成本，形成準(zhǔn)確率與效率之間的權(quán)衡。

　　表 I：探索空間擴(kuò)展的消融實(shí)驗(yàn)。我們?cè)?SFT warm-up 階段改變加入的孿生生成軌跡數(shù)量，并測(cè)量相應(yīng)的成功率（SR）。

　　Sim-to-Real 引導(dǎo) HiL 的效率。我們?cè)u(píng)估數(shù)字孿生引導(dǎo)的 HiL 在真實(shí)世界在線 RL 中的作用。如圖所示，我們對(duì)比了是否啟用孿生引導(dǎo)機(jī)制的 TwinRL。該機(jī)制利用數(shù)字孿生 rollout 識(shí)別信息密集的初始物體配置，并在必要時(shí)觸發(fā) HiL 干預(yù)。結(jié)果表明，啟用孿生引導(dǎo)干預(yù)能夠顯著減少真實(shí)訓(xùn)練步數(shù)，在保持更高成功率的同時(shí)實(shí)現(xiàn)更快收斂。相反，在相同的策略初始化與 replay buffer 條件下，移除該機(jī)制會(huì)導(dǎo)致適應(yīng)速度變慢、樣本效率降低。這說(shuō)明，在 TwinRL 中，數(shù)字孿生不僅在部署前擴(kuò)展探索支持，還在在線階段通過(guò)將真實(shí)交互引導(dǎo)至具有挑戰(zhàn)性且信息密集的狀態(tài)區(qū)域中發(fā)揮關(guān)鍵作用。

　　圖 x：Sim-to-Real 引導(dǎo) HiL 的消融實(shí)驗(yàn)。引導(dǎo)機(jī)制顯著加速了強(qiáng)化學(xué)習(xí)過(guò)程，在約 4k 步（約 14 分鐘）時(shí)達(dá)到 100% 成功率；而未使用引導(dǎo)機(jī)制的訓(xùn)練收斂更慢，且最終成功率更低。

　　魯棒性分析.我們?cè)诖饲拔匆娺^(guò)的環(huán)境擾動(dòng)條件下，對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行零樣本魯棒性評(píng)估。這些擾動(dòng)包括背景雜物干擾和光照變化。如圖所示，我們?cè)O(shè)計(jì)了三種測(cè)試條件：背景擾動(dòng)（加入與任務(wù)無(wú)關(guān)的物體以形成雜亂場(chǎng)景）、變暗光照（整體均勻照明變化）以及動(dòng)態(tài)光照（動(dòng)態(tài)彩色光源與移動(dòng)光影效果）。

　　實(shí)驗(yàn)結(jié)果表明，在觀測(cè)分布發(fā)生偏移的情況下，TwinRL 的性能僅出現(xiàn)輕微下降，而僅經(jīng)過(guò) SFT 訓(xùn)練的模型則表現(xiàn)出明顯更大的性能退化。這些結(jié)果說(shuō)明，通過(guò)真實(shí)世界交互進(jìn)行 RL 微調(diào)，可以推動(dòng)策略形成更加穩(wěn)定的控制行為和更具抗噪能力的決策邊界。進(jìn)一步地，TwinRL 通過(guò)孿生引導(dǎo)的 HiL 機(jī)制，將真實(shí)交互集中于高信息密度的關(guān)鍵配置，從而進(jìn)一步增強(qiáng)了策略的魯棒性。

　　圖 x：魯棒性分析。我們?cè)诖饲拔匆娺^(guò)的環(huán)境擾動(dòng)條件下，對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行對(duì)比；上排展示了擾動(dòng)場(chǎng)景示例。

　　具身智能的技術(shù)閉環(huán)

　　至簡(jiǎn)動(dòng)力團(tuán)隊(duì)通過(guò)一系列環(huán)環(huán)相扣的研究，他們正在構(gòu)建起具身智能的「三部曲」：從強(qiáng)大的基座模型出發(fā)，通過(guò)創(chuàng)新的推理范式，最終實(shí)現(xiàn) 100 分的在線進(jìn)化與實(shí)際落地。

　　第一步：LaST?——構(gòu)建隱式時(shí)空思維基座

　　一切進(jìn)化的起點(diǎn)源于基座能力的突破。至簡(jiǎn)動(dòng)力近期發(fā)布的LaST?基座模型，首次將世界模型對(duì)物理世界的理解、預(yù)測(cè)及VLA的快慢思維融合。

　　技術(shù)核心：精細(xì)操作僅依靠語(yǔ)言是不夠的，更依賴對(duì)物理世界的充分理解和精準(zhǔn)預(yù)測(cè)， LaST? 在latent space對(duì)語(yǔ)言邏輯、視覺語(yǔ)義、3D空間結(jié)構(gòu)以及機(jī)器人狀態(tài)聯(lián)合建模及生成預(yù)測(cè)，在保證高頻動(dòng)作執(zhí)行流暢的前提下，顯著提升了對(duì)物理世界動(dòng)態(tài)的高效推理能力。

　　解決痛點(diǎn)：如果說(shuō)傳統(tǒng)模型容易在復(fù)雜動(dòng)態(tài)環(huán)境下容易失效、“反應(yīng)遲鈍”， LaST? 則解決了機(jī)器人“怎么一邊想一邊快速動(dòng)”的難題。

　　第二步：ManualVLA——打通“推理到執(zhí)行”的精細(xì)操作說(shuō)明書

　　有了強(qiáng)大的基座，如何讓機(jī)器人真正理解復(fù)雜的的長(zhǎng)程任務(wù)？針對(duì)推理到執(zhí)行的閉環(huán)，至簡(jiǎn)動(dòng)力提出了 ManualVLA。

　　技術(shù)核心：它貫通了生成式推理與低層動(dòng)作執(zhí)行，使模型能夠從目標(biāo)狀態(tài)出發(fā)，自動(dòng)生成類似人類使用的多模態(tài)“操作說(shuō)明書”，基于說(shuō)明書實(shí)現(xiàn)精細(xì)長(zhǎng)程操縱。

　　應(yīng)用表現(xiàn)：這使得機(jī)器人能完成細(xì)粒度的長(zhǎng)程操縱。在樂高組裝等復(fù)雜任務(wù)上，其平均成功率比此前最優(yōu)方法高出 32%。它完美回答了機(jī)器人“怎么想清楚再動(dòng)手”的問(wèn)題。

　　第三步：TwinRL——借助數(shù)字孿生實(shí)現(xiàn)“100分”的在線進(jìn)化

　　當(dāng)模型具備了推理與執(zhí)行能力，最后的關(guān)鍵在于如何讓它在真實(shí)世界中持續(xù)進(jìn)化，實(shí)現(xiàn)真正的VLA落地。基于上述統(tǒng)一的模型能力，至簡(jiǎn)動(dòng)力進(jìn)一步提出 TwinRL。

　　技術(shù)核心：TwinRL 借助數(shù)字孿生擴(kuò)展了真機(jī)強(qiáng)化學(xué)習(xí)的探索空間，極大提升了探索效率。

　　突破性指標(biāo)：實(shí)驗(yàn)驗(yàn)證顯示，在多個(gè)任務(wù)上，機(jī)器人少于 20 分鐘即可在桌面區(qū)域達(dá)到 100% 的成功率，包括真機(jī)數(shù)據(jù)成功覆蓋了訓(xùn)練分布內(nèi)與分布外區(qū)域。

　　進(jìn)化價(jià)值：TwinRL 真正解決了“怎么讓機(jī)器人在真實(shí)世界里自己變強(qiáng)”的終極挑戰(zhàn)。

　　結(jié)語(yǔ)：一體化 VLA 范式的落地元年

　　我們?cè)谶@篇文章中，將至簡(jiǎn)動(dòng)力的三項(xiàng)核心技術(shù)——LaST?（基座與推理）、ManualVLA（指令與執(zhí)行）、TwinRL（進(jìn)化與落地）有機(jī)串聯(lián)，構(gòu)建起一個(gè)從基礎(chǔ)研究到產(chǎn)業(yè)落地的完整故事閉環(huán)。

　　這三者共同構(gòu)成了至簡(jiǎn)動(dòng)力「推理—執(zhí)行—進(jìn)化」的 VLA 技術(shù)三角。

　　從「紙面論文」到「物理閉環(huán) 」，見證至簡(jiǎn)動(dòng)力如何重塑具身智能 VLA 范式。

　　這不僅是學(xué)術(shù)上的領(lǐng)先，更是一場(chǎng)真正一體化 VLA 基礎(chǔ)模型范式從論文走向真實(shí)產(chǎn)線和場(chǎng)景的躍遷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.