国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RLinf v0.2嘗鮮版發(fā)布,像使用GPU一樣使用你的機(jī)器人!

0
分享至



在具身智能領(lǐng)域,特別是如何構(gòu)造一個(gè)高泛化性的 VLA,數(shù)據(jù)之爭一直存在:仿真數(shù)據(jù) vs 真機(jī)數(shù)據(jù)。數(shù)據(jù)來源不同,導(dǎo)致算法設(shè)計(jì)迥然不同,進(jìn)一步對(duì)系統(tǒng)設(shè)計(jì)提出了更多的要求。做 infra 的目標(biāo)是做好服務(wù),支持不同技術(shù)路線的探索。

「仿訓(xùn)推一體化」RLinf v0.1 面向的是采用仿真路線的用戶,那么今天要給大家介紹的是 RLinf v0.2,面向采用真機(jī)路線的用戶,也就是支持了真機(jī)強(qiáng)化學(xué)習(xí)。



  • 論文標(biāo)題:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
  • 論文地址:https://arxiv.org/abs/2509.15965
  • 開源地址:https://github.com/RLinf/RLinf

下面針對(duì) RLinf v0.2 的特色展開介紹。

特色 1:RLinf 允許用戶

像使用 GPU 一樣使用機(jī)器人

在 RLinf 中,我們將機(jī)器人看作與 GPU 相同層級(jí)的、可靈活配置的資源,如圖 1 所示,GPU Node 和 Robot Node 處于同一層級(jí)。過去我們通常把 Worker(訓(xùn)練、推理等工作組件)加載在 GPU 上,現(xiàn)在我們可以把 Worker 加載在機(jī)器人上。只要能夠 access 到機(jī)器人的 IP 和端口,無論它們身在何處,都可以接入 RLinf 系統(tǒng)。

RLinf 會(huì)按照用戶配置進(jìn)一步完成模型與機(jī)器人的對(duì)應(yīng)映射,之后 RLinf 會(huì)通過 Data Channel(RLinf 的通信原語)完成數(shù)據(jù)收集和模型參數(shù)更新。而實(shí)現(xiàn)這一切,用戶只需要編寫 YAML 文件即可完成,極大地降低了使用成本。例如,下圖 2 展示了以 Franka 為例的 2 臺(tái)機(jī)器人配置方法。



圖 1 將機(jī)器人看作與 GPU 相同層級(jí)的、可靈活配置的資源 圖 2 用戶只需要編寫 YAML 文件即可完成真機(jī)對(duì)接



圖2 用戶只需要編寫YAML文件即可完成真機(jī)對(duì)接

RLinf 這一獨(dú)特設(shè)計(jì)是為了解鎖更宏大的目標(biāo),即大規(guī)模分布式真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練范式,如圖 3 所示。

這一范式將有望成為具身智能在除了 Scaling 數(shù)據(jù)、模型之外的第三條路徑:Scaling 真機(jī)。大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí)能夠解決當(dāng)下真機(jī)強(qiáng)化學(xué)習(xí)面臨的諸多問題,當(dāng)然,天下沒有免費(fèi)的午餐,放松了對(duì)算法的要求,對(duì)應(yīng)地增加了對(duì) infra 的要求,如何做到穩(wěn)定、易用、靈活是 infra 要解決的主要挑戰(zhàn)。

RLinf 針對(duì)這一問題給出了自己的答案:極度靈活的系統(tǒng)設(shè)計(jì)思想支持多樣需求。特別地,RLinf 提出適配強(qiáng)化學(xué)習(xí)的新一代編程范式 Macro-to-Micro Flow (M2Flow),將上層工作流與底層計(jì)算優(yōu)化解耦,兼顧了靈活性與高效性。



圖 3 大規(guī)模分布式真機(jī)強(qiáng)化學(xué)習(xí)系統(tǒng)

特色 2:RLinf 支持

全異構(gòu)軟硬件集群配置

由于與物理世界高度耦合,真機(jī)強(qiáng)化學(xué)習(xí)面臨的集群配置通常是異構(gòu)的、端云協(xié)同的。例如,機(jī)器人的控制端需要實(shí)時(shí)操作系統(tǒng)且不需要運(yùn)行神經(jīng)網(wǎng)絡(luò)模型,通常會(huì)運(yùn)行在單獨(dú)的 CPU 機(jī)器,如 NUC;VLA 模型推理端需要與機(jī)器人的控制端足夠近,使得通信代價(jià)最小,且推理需要顯存較小,因此 VLA 模型推理通常直接運(yùn)行在端側(cè)小顯存機(jī)器,如 24GB 的 4090;VLA 模型訓(xùn)練為了加快訓(xùn)練速度,通常需要云端大顯存機(jī)器集群,如 80GB 的 A100/800 等。

在端云協(xié)同的背景下,RLinf 支持靈活的全異構(gòu)的軟硬件集群配置,提升系統(tǒng)吞吐和訓(xùn)練效率。例如,你可以:

  • 在支持光線追蹤的 GPU(如 RTX 4090)上運(yùn)行高保真模擬器;
  • 在大顯存計(jì)算 GPU(如 A800)上進(jìn)行訓(xùn)練;
  • 在小顯存計(jì)算 GPU(如 RTX 4090)進(jìn)行推理;
  • 在無顯存的 CPU 機(jī)器(如 NUC)運(yùn)行機(jī)器人控制器。

在 RLinf 中接入這樣的異構(gòu)環(huán)境,只需要在 YAML 配置文件中正確配置 cluster 段落即可,如下圖 4 所示。



圖 4 RLinf 支持全異構(gòu)軟硬件集群配置

特色 3:RLinf 支持

全異步 off-policy 算法

真機(jī)強(qiáng)化學(xué)習(xí)的一個(gè)典型局限就是物理世界無法被加速,數(shù)據(jù)效率成為顯著瓶頸,所以如何提高數(shù)據(jù)利用率成為關(guān)鍵一環(huán)。除此之外,當(dāng)下真機(jī)強(qiáng)化學(xué)習(xí)的一種行之有效的方法是人在環(huán)介入,例如在執(zhí)行過程中提供專家示教數(shù)據(jù),或者實(shí)時(shí)標(biāo)注數(shù)據(jù)等,傳統(tǒng)同步訓(xùn)推框架將會(huì)極大限制這一類方法的訓(xùn)練效率。

因此,RLinf v0.2 新增全異步設(shè)計(jì),端側(cè)推理節(jié)點(diǎn)與云側(cè)訓(xùn)練節(jié)點(diǎn)解耦,通過 Data Channel 進(jìn)行數(shù)據(jù)周期性同步,進(jìn)而實(shí)現(xiàn)訓(xùn)推并行,極大提高訓(xùn)練效率。同時(shí),RLinf v0.2 上線典型 off-policy RL 算法,包括僅利用在線數(shù)據(jù)的 SAC [1]、CrossQ [2] 和同時(shí)利用離線數(shù)據(jù)集和在線數(shù)據(jù)的 RLPD [3] 等,進(jìn)一步提升數(shù)據(jù)利用率。RLinf 中異步工作流示意圖如圖 5 所示。



圖 5 全異步算法流圖

實(shí)驗(yàn)結(jié)果

本次發(fā)布的嘗鮮版是基于小模型的真機(jī)強(qiáng)化學(xué)習(xí)。為了方便大家快速、低成本復(fù)現(xiàn)實(shí)驗(yàn),我們采用常見的Franka 機(jī)械臂,基于常見物品或者易獲取標(biāo)準(zhǔn)件設(shè)計(jì)了兩個(gè)快速驗(yàn)證任務(wù):ChargerPeg Insertion。其中,Charger 任務(wù)為稠密獎(jiǎng)勵(lì),使用異步 SAC [1] 算法訓(xùn)練,訓(xùn)練過程中有 20 次左右的人在環(huán)空間鼠標(biāo)接管,以提高訓(xùn)練效率。Peg Insertion 任務(wù)為稀疏獎(jiǎng)勵(lì),使用異步 RLPD 算法 [3] 訓(xùn)練。在開始訓(xùn)練前,采集了 20 條人類操作數(shù)據(jù)存儲(chǔ)在 Demo Buffer 中。

兩個(gè)任務(wù)的成功率曲線如圖 6 所示??梢园l(fā)現(xiàn),兩個(gè)任務(wù)均可以在 1.5h 以內(nèi)收斂。收斂后,Peg Insertion 任務(wù)可以連續(xù) 100+ 次成功,Charger 任務(wù)可以連續(xù) 50+ 次成功



圖 6 Peg Insertion & Charger 成功率曲線

訓(xùn)練過程的視頻記錄如視頻 1 所示,完整記錄了兩個(gè)任務(wù)的訓(xùn)練過程。同時(shí)我們也驗(yàn)證了位于不同空間的兩臺(tái) Franka 機(jī)械臂同時(shí)進(jìn)行真機(jī)強(qiáng)化學(xué)習(xí),見視頻 2。

視頻 1:訓(xùn)練過程。上:Peg Insertion;下:Charger

視頻 2:位于不同房間的兩臺(tái) Franka 機(jī)械臂同時(shí)進(jìn)行真機(jī)強(qiáng)化學(xué)習(xí)

RLinf 全體成員向支持 RLinf 的 2k 位社區(qū)用戶表達(dá)感謝。用戶的使用和反饋促使團(tuán)隊(duì)不斷完善代碼,也不斷增加了團(tuán)隊(duì)堅(jiān)定走下去的信心。自 2025.9.1 發(fā)布以來,RLinf 幾乎保持著每 2 周更新一次新 feature 的開發(fā)速度,在經(jīng)過幾輪重構(gòu)后,面向具身仿真路線需求的「仿訓(xùn)推一體化」強(qiáng)化學(xué)習(xí)框架 RLinf v0.1 版本于 2025.12.17 正式 release,歡迎大家查看中英雙語文檔(對(duì)!除了代碼沒有中文版,其他材料都有中文版!不要錯(cuò)過?。?。目前 RLinf 支持矩陣可以總結(jié)如下:

  • Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
  • VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
  • Custom policy:MLP、CNN
  • RL Algos:GRPO、PPO、DAPO、Reinforce++
  • SFT:Full-para SFT、LoRA

仿真路線還在持續(xù)開發(fā),更多的 feature,如仿真器、模型也會(huì)盡快跟大家見面!

參考文獻(xiàn):

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美日26年GDP預(yù)測(cè)出爐:美31萬億,日跌破4.5萬億,中國令人意外

中美日26年GDP預(yù)測(cè)出爐:美31萬億,日跌破4.5萬億,中國令人意外

古史青云啊
2026-01-08 12:33:21
她是畢福劍關(guān)門弟子,師傅落魄時(shí)不離不棄,如今四處旅游好不快活

她是畢福劍關(guān)門弟子,師傅落魄時(shí)不離不棄,如今四處旅游好不快活

林雁飛
2026-01-08 13:38:48
太拼了!楊瀚森與火箭內(nèi)線肉搏纏斗,右臂出現(xiàn)兩道大血印

太拼了!楊瀚森與火箭內(nèi)線肉搏纏斗,右臂出現(xiàn)兩道大血印

懂球帝
2026-01-08 14:04:19
中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問中國一個(gè)問題

中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問中國一個(gè)問題

知法而形
2026-01-07 16:52:08
西工大連夜宣布好消息!全世界都沒想到,中國居然“彎道超車”

西工大連夜宣布好消息!全世界都沒想到,中國居然“彎道超車”

墨印齋
2026-01-06 15:25:54
經(jīng)紀(jì)人曝光37歲女星!與男子車上發(fā)生關(guān)系,腳踢司機(jī)椅背險(xiǎn)釀車禍

經(jīng)紀(jì)人曝光37歲女星!與男子車上發(fā)生關(guān)系,腳踢司機(jī)椅背險(xiǎn)釀車禍

小欣欣聊體育
2026-01-06 18:26:10
留給大清的時(shí)間,真的不多了

留給大清的時(shí)間,真的不多了

我是歷史其實(shí)挺有趣
2026-01-03 08:50:37
國產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

國產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

回旋鏢
2026-01-01 21:00:24
特朗普強(qiáng)硬表態(tài),誰敢攔截對(duì)臺(tái)軍售就對(duì)誰開戰(zhàn),美國軍工股暴漲

特朗普強(qiáng)硬表態(tài),誰敢攔截對(duì)臺(tái)軍售就對(duì)誰開戰(zhàn),美國軍工股暴漲

我心縱橫天地間
2026-01-07 16:57:21
美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

壹知眠羊
2025-12-21 07:15:19
四川多地發(fā)布人事動(dòng)態(tài),涉縣長、副縣長任命

四川多地發(fā)布人事動(dòng)態(tài),涉縣長、副縣長任命

金臺(tái)資訊
2026-01-08 15:30:10
我70歲才明白:孩子不尊重你,無需翻臉,用“烏鴉定律”就行

我70歲才明白:孩子不尊重你,無需翻臉,用“烏鴉定律”就行

蘭姐說故事
2026-01-03 17:40:03
俄怒炸美國工廠,300噸石油當(dāng)街橫流,2026年普京開局就是王炸

俄怒炸美國工廠,300噸石油當(dāng)街橫流,2026年普京開局就是王炸

滄海旅行家
2026-01-07 17:12:49
河南鄧州被舉報(bào)的兩在職教師均系冒用他人學(xué)籍,相關(guān)調(diào)查仍在繼續(xù)

河南鄧州被舉報(bào)的兩在職教師均系冒用他人學(xué)籍,相關(guān)調(diào)查仍在繼續(xù)

現(xiàn)代快報(bào)
2026-01-07 14:45:04
中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過美國的竟不是經(jīng)濟(jì)

中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過美國的竟不是經(jīng)濟(jì)

華人星光
2026-01-07 13:32:47
2026年1月1日剛過,不少人去醫(yī)院開藥就發(fā)現(xiàn)規(guī)矩變了

2026年1月1日剛過,不少人去醫(yī)院開藥就發(fā)現(xiàn)規(guī)矩變了

百態(tài)人間
2026-01-06 05:00:03
渤海完全屬于中國!因當(dāng)年毛主席的一句話,如今沒有一艘外船敢進(jìn)

渤海完全屬于中國!因當(dāng)年毛主席的一句話,如今沒有一艘外船敢進(jìn)

抽象派大師
2025-12-11 17:05:41
比“缺芯”還嚴(yán)重?90%市場(chǎng)被美日壟斷,中國連山寨版都造不出?

比“缺芯”還嚴(yán)重?90%市場(chǎng)被美日壟斷,中國連山寨版都造不出?

比利
2025-12-25 20:31:38
紐約新市長就職第一夫人全網(wǎng)熱搜,被譽(yù)為Z世代戴安娜王妃!

紐約新市長就職第一夫人全網(wǎng)熱搜,被譽(yù)為Z世代戴安娜王妃!

ChicMyGeek
2026-01-07 19:10:06
元旦表演后,商家曝光多地學(xué)生退踩臟的演出服,校方回應(yīng)

元旦表演后,商家曝光多地學(xué)生退踩臟的演出服,校方回應(yīng)

極目新聞
2026-01-07 12:00:17
2026-01-08 17:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時(shí)尚
教育
房產(chǎn)
健康
公開課

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

教育要聞

中考數(shù)學(xué),求陰影面積?

房產(chǎn)要聞

三亞新房,又全國第一了!

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版