国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RLinf v0.2嘗鮮版發(fā)布,像使用GPU一樣使用你的機(jī)器人!

0
分享至



在具身智能領(lǐng)域,特別是如何構(gòu)造一個(gè)高泛化性的 VLA,數(shù)據(jù)之爭一直存在:仿真數(shù)據(jù) vs 真機(jī)數(shù)據(jù)。數(shù)據(jù)來源不同,導(dǎo)致算法設(shè)計(jì)迥然不同,進(jìn)一步對(duì)系統(tǒng)設(shè)計(jì)提出了更多的要求。做 infra 的目標(biāo)是做好服務(wù),支持不同技術(shù)路線的探索。

「仿訓(xùn)推一體化」RLinf v0.1 面向的是采用仿真路線的用戶,那么今天要給大家介紹的是 RLinf v0.2,面向采用真機(jī)路線的用戶,也就是支持了真機(jī)強(qiáng)化學(xué)習(xí)。



  • 論文標(biāo)題:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
  • 論文地址:https://arxiv.org/abs/2509.15965
  • 開源地址:https://github.com/RLinf/RLinf

下面針對(duì) RLinf v0.2 的特色展開介紹。

特色 1:RLinf 允許用戶

像使用 GPU 一樣使用機(jī)器人

在 RLinf 中,我們將機(jī)器人看作與 GPU 相同層級(jí)的、可靈活配置的資源,如圖 1 所示,GPU Node 和 Robot Node 處于同一層級(jí)。過去我們通常把 Worker(訓(xùn)練、推理等工作組件)加載在 GPU 上,現(xiàn)在我們可以把 Worker 加載在機(jī)器人上。只要能夠 access 到機(jī)器人的 IP 和端口,無論它們身在何處,都可以接入 RLinf 系統(tǒng)。

RLinf 會(huì)按照用戶配置進(jìn)一步完成模型與機(jī)器人的對(duì)應(yīng)映射,之后 RLinf 會(huì)通過 Data Channel(RLinf 的通信原語)完成數(shù)據(jù)收集和模型參數(shù)更新。而實(shí)現(xiàn)這一切,用戶只需要編寫 YAML 文件即可完成,極大地降低了使用成本。例如,下圖 2 展示了以 Franka 為例的 2 臺(tái)機(jī)器人配置方法。



圖 1 將機(jī)器人看作與 GPU 相同層級(jí)的、可靈活配置的資源 圖 2 用戶只需要編寫 YAML 文件即可完成真機(jī)對(duì)接



圖2 用戶只需要編寫YAML文件即可完成真機(jī)對(duì)接

RLinf 這一獨(dú)特設(shè)計(jì)是為了解鎖更宏大的目標(biāo),即大規(guī)模分布式真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練范式,如圖 3 所示。

這一范式將有望成為具身智能在除了 Scaling 數(shù)據(jù)、模型之外的第三條路徑:Scaling 真機(jī)。大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí)能夠解決當(dāng)下真機(jī)強(qiáng)化學(xué)習(xí)面臨的諸多問題,當(dāng)然,天下沒有免費(fèi)的午餐,放松了對(duì)算法的要求,對(duì)應(yīng)地增加了對(duì) infra 的要求,如何做到穩(wěn)定、易用、靈活是 infra 要解決的主要挑戰(zhàn)。

RLinf 針對(duì)這一問題給出了自己的答案:極度靈活的系統(tǒng)設(shè)計(jì)思想支持多樣需求。特別地,RLinf 提出適配強(qiáng)化學(xué)習(xí)的新一代編程范式 Macro-to-Micro Flow (M2Flow),將上層工作流與底層計(jì)算優(yōu)化解耦,兼顧了靈活性與高效性。



圖 3 大規(guī)模分布式真機(jī)強(qiáng)化學(xué)習(xí)系統(tǒng)

特色 2:RLinf 支持

全異構(gòu)軟硬件集群配置

由于與物理世界高度耦合,真機(jī)強(qiáng)化學(xué)習(xí)面臨的集群配置通常是異構(gòu)的、端云協(xié)同的。例如,機(jī)器人的控制端需要實(shí)時(shí)操作系統(tǒng)且不需要運(yùn)行神經(jīng)網(wǎng)絡(luò)模型,通常會(huì)運(yùn)行在單獨(dú)的 CPU 機(jī)器,如 NUC;VLA 模型推理端需要與機(jī)器人的控制端足夠近,使得通信代價(jià)最小,且推理需要顯存較小,因此 VLA 模型推理通常直接運(yùn)行在端側(cè)小顯存機(jī)器,如 24GB 的 4090;VLA 模型訓(xùn)練為了加快訓(xùn)練速度,通常需要云端大顯存機(jī)器集群,如 80GB 的 A100/800 等。

在端云協(xié)同的背景下,RLinf 支持靈活的全異構(gòu)的軟硬件集群配置,提升系統(tǒng)吞吐和訓(xùn)練效率。例如,你可以:

  • 在支持光線追蹤的 GPU(如 RTX 4090)上運(yùn)行高保真模擬器;
  • 在大顯存計(jì)算 GPU(如 A800)上進(jìn)行訓(xùn)練;
  • 在小顯存計(jì)算 GPU(如 RTX 4090)進(jìn)行推理;
  • 在無顯存的 CPU 機(jī)器(如 NUC)運(yùn)行機(jī)器人控制器。

在 RLinf 中接入這樣的異構(gòu)環(huán)境,只需要在 YAML 配置文件中正確配置 cluster 段落即可,如下圖 4 所示。



圖 4 RLinf 支持全異構(gòu)軟硬件集群配置

特色 3:RLinf 支持

全異步 off-policy 算法

真機(jī)強(qiáng)化學(xué)習(xí)的一個(gè)典型局限就是物理世界無法被加速,數(shù)據(jù)效率成為顯著瓶頸,所以如何提高數(shù)據(jù)利用率成為關(guān)鍵一環(huán)。除此之外,當(dāng)下真機(jī)強(qiáng)化學(xué)習(xí)的一種行之有效的方法是人在環(huán)介入,例如在執(zhí)行過程中提供專家示教數(shù)據(jù),或者實(shí)時(shí)標(biāo)注數(shù)據(jù)等,傳統(tǒng)同步訓(xùn)推框架將會(huì)極大限制這一類方法的訓(xùn)練效率。

因此,RLinf v0.2 新增全異步設(shè)計(jì),端側(cè)推理節(jié)點(diǎn)與云側(cè)訓(xùn)練節(jié)點(diǎn)解耦,通過 Data Channel 進(jìn)行數(shù)據(jù)周期性同步,進(jìn)而實(shí)現(xiàn)訓(xùn)推并行,極大提高訓(xùn)練效率。同時(shí),RLinf v0.2 上線典型 off-policy RL 算法,包括僅利用在線數(shù)據(jù)的 SAC [1]、CrossQ [2] 和同時(shí)利用離線數(shù)據(jù)集和在線數(shù)據(jù)的 RLPD [3] 等,進(jìn)一步提升數(shù)據(jù)利用率。RLinf 中異步工作流示意圖如圖 5 所示。



圖 5 全異步算法流圖

實(shí)驗(yàn)結(jié)果

本次發(fā)布的嘗鮮版是基于小模型的真機(jī)強(qiáng)化學(xué)習(xí)。為了方便大家快速、低成本復(fù)現(xiàn)實(shí)驗(yàn),我們采用常見的Franka 機(jī)械臂,基于常見物品或者易獲取標(biāo)準(zhǔn)件設(shè)計(jì)了兩個(gè)快速驗(yàn)證任務(wù):ChargerPeg Insertion。其中,Charger 任務(wù)為稠密獎(jiǎng)勵(lì),使用異步 SAC [1] 算法訓(xùn)練,訓(xùn)練過程中有 20 次左右的人在環(huán)空間鼠標(biāo)接管,以提高訓(xùn)練效率。Peg Insertion 任務(wù)為稀疏獎(jiǎng)勵(lì),使用異步 RLPD 算法 [3] 訓(xùn)練。在開始訓(xùn)練前,采集了 20 條人類操作數(shù)據(jù)存儲(chǔ)在 Demo Buffer 中。

兩個(gè)任務(wù)的成功率曲線如圖 6 所示??梢园l(fā)現(xiàn),兩個(gè)任務(wù)均可以在 1.5h 以內(nèi)收斂。收斂后,Peg Insertion 任務(wù)可以連續(xù) 100+ 次成功,Charger 任務(wù)可以連續(xù) 50+ 次成功



圖 6 Peg Insertion & Charger 成功率曲線

訓(xùn)練過程的視頻記錄如視頻 1 所示,完整記錄了兩個(gè)任務(wù)的訓(xùn)練過程。同時(shí)我們也驗(yàn)證了位于不同空間的兩臺(tái) Franka 機(jī)械臂同時(shí)進(jìn)行真機(jī)強(qiáng)化學(xué)習(xí),見視頻 2。

視頻 1:訓(xùn)練過程。上:Peg Insertion;下:Charger

視頻 2:位于不同房間的兩臺(tái) Franka 機(jī)械臂同時(shí)進(jìn)行真機(jī)強(qiáng)化學(xué)習(xí)

RLinf 全體成員向支持 RLinf 的 2k 位社區(qū)用戶表達(dá)感謝。用戶的使用和反饋促使團(tuán)隊(duì)不斷完善代碼,也不斷增加了團(tuán)隊(duì)堅(jiān)定走下去的信心。自 2025.9.1 發(fā)布以來,RLinf 幾乎保持著每 2 周更新一次新 feature 的開發(fā)速度,在經(jīng)過幾輪重構(gòu)后,面向具身仿真路線需求的「仿訓(xùn)推一體化」強(qiáng)化學(xué)習(xí)框架 RLinf v0.1 版本于 2025.12.17 正式 release,歡迎大家查看中英雙語文檔(對(duì)!除了代碼沒有中文版,其他材料都有中文版!不要錯(cuò)過?。D壳?RLinf 支持矩陣可以總結(jié)如下:

  • Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
  • VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
  • Custom policy:MLP、CNN
  • RL Algos:GRPO、PPO、DAPO、Reinforce++
  • SFT:Full-para SFT、LoRA

仿真路線還在持續(xù)開發(fā),更多的 feature,如仿真器、模型也會(huì)盡快跟大家見面!

參考文獻(xiàn):

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯洛特賭贏了?廢棄薩拉赫后利物浦7場不敗+4連勝!4大新援全激活

斯洛特賭贏了?廢棄薩拉赫后利物浦7場不敗+4連勝!4大新援全激活

我愛英超
2025-12-28 02:29:19
2026做什么都順的星座,沒有之一

2026做什么都順的星座,沒有之一

同道大叔
2025-12-27 22:04:48
鳳姐在美國15年,是如何躲過斬殺線的?

鳳姐在美國15年,是如何躲過斬殺線的?

胡嚴(yán)亂語
2025-12-26 17:18:31
《我和春天有個(gè)約會(huì)》四姊妹30年首合體,蔡曉儀神隱多年驚喜現(xiàn)身

《我和春天有個(gè)約會(huì)》四姊妹30年首合體,蔡曉儀神隱多年驚喜現(xiàn)身

粵睇先生
2025-12-26 19:29:03
吳三桂為啥反清?實(shí)則是被逼的

吳三桂為啥反清?實(shí)則是被逼的

磊子講史
2025-12-25 19:05:01
尼日爾賴掉4億美元,驅(qū)逐中企高管,中方暗藏底牌漂亮反擊

尼日爾賴掉4億美元,驅(qū)逐中企高管,中方暗藏底牌漂亮反擊

南冥那只貓
2025-05-11 10:33:43
每天慢走六千步錯(cuò)了?醫(yī)生提醒:糖尿病人群,慢走要做到這7點(diǎn)

每天慢走六千步錯(cuò)了?醫(yī)生提醒:糖尿病人群,慢走要做到這7點(diǎn)

小胡軍事愛好
2025-12-27 17:32:44
50歲的阿姨一樣可以把粉色裙子穿出既減齡又不會(huì)顯得裝嫩的效果

50歲的阿姨一樣可以把粉色裙子穿出既減齡又不會(huì)顯得裝嫩的效果

美女穿搭分享
2025-12-26 16:54:05
甜度超標(biāo)!葵司:甜媚嬌憨切換自如,美照刷屏停不下來!

甜度超標(biāo)!葵司:甜媚嬌憨切換自如,美照刷屏停不下來!

灼灼小齊
2025-12-28 01:30:03
把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

極目新聞
2025-12-26 22:46:14
2025年,消失的公司年會(huì)。

2025年,消失的公司年會(huì)。

愛吃糖的貓cat
2025-12-24 19:01:36
我老公今年46,有個(gè)怪癖很多人理解不了,我睡著后,總是偷偷起來

我老公今年46,有個(gè)怪癖很多人理解不了,我睡著后,總是偷偷起來

熱心市民小黃
2025-12-27 14:27:26
北京市紀(jì)委監(jiān)委:涉嫌嚴(yán)重違紀(jì)違法,楊文勝被查

北京市紀(jì)委監(jiān)委:涉嫌嚴(yán)重違紀(jì)違法,楊文勝被查

瀟湘晨報(bào)
2025-12-27 18:54:21
2025年末回暖收官,江蘇跨年迎降水降溫

2025年末回暖收官,江蘇跨年迎降水降溫

揚(yáng)子晚報(bào)
2025-12-27 21:29:02
香港知名“爺孫戀”已玩完?女方被曝未離婚,還有一個(gè)16歲的兒子

香港知名“爺孫戀”已玩完?女方被曝未離婚,還有一個(gè)16歲的兒子

小小李?yuàn)?/span>
2025-12-27 11:40:21
“嘎子哥”謝孟偉拒還169萬欠款成老賴,原賬號(hào)被封后轉(zhuǎn)戰(zhàn)視頻號(hào),稱“希望大家給次機(jī)會(huì)”

“嘎子哥”謝孟偉拒還169萬欠款成老賴,原賬號(hào)被封后轉(zhuǎn)戰(zhàn)視頻號(hào),稱“希望大家給次機(jī)會(huì)”

極目新聞
2025-12-26 22:36:25
宋慶齡不愿與孫中山合葬,直言緣由:“這個(gè)人陪了我 53年,我早就答應(yīng)過,要和她葬在一起?!?>
    </a>
        <h3>
      <a href=史海孤雁
2025-12-27 20:40:17
德約:擊敗費(fèi)納后他們對(duì)我變得冷淡,納達(dá)爾與我同齡更能讓人理解

德約:擊敗費(fèi)納后他們對(duì)我變得冷淡,納達(dá)爾與我同齡更能讓人理解

網(wǎng)球之家
2025-12-27 23:16:43
天冷了要養(yǎng)骨!少吃白菜蘿卜,多吃這8樣,腿腳有勁,精氣十足!

天冷了要養(yǎng)骨!少吃白菜蘿卜,多吃這8樣,腿腳有勁,精氣十足!

美食店主
2025-12-22 00:27:55
女排積分榜大變臉,山東首次登頂,頭號(hào)魚腩出爐,施海榮引發(fā)爭議

女排積分榜大變臉,山東首次登頂,頭號(hào)魚腩出爐,施海榮引發(fā)爭議

章民解說體育
2025-12-27 23:26:12
2025-12-28 05:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
時(shí)尚
藝術(shù)
房產(chǎn)
家居

教育要聞

五年級(jí)附加題難度確實(shí)不小,很多孩子看到就直接放棄!

穿好雪地靴的4個(gè)訣竅,還挺有效!

藝術(shù)要聞

驚艷!這件木雕美得讓人心動(dòng),絕對(duì)不容錯(cuò)過!

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

無障礙瀏覽 進(jìn)入關(guān)懷版