国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

當世界模型不可信:如何讓RL在想象里訓練,但不被想象騙?

0
分享至

清華大學、中國科學院自動化研究所和北京中關村學院聯(lián)合提出WoVR(World Models as Reliable Simulators for Post-Training VLA Policies with RL):一種基于可靠世界模型的VLA 強化學習后訓練框架,核心聚焦一個痛點:世界模型的閉環(huán)自回歸執(zhí)行會產生“幻覺”,如何讓強化學習在著這種不完美的世界中實現(xiàn)有效訓練?


論文題目: World Models as Reliable Simulators for Post-Training VLA Policies with RL 論文鏈接: https://arxiv.org/abs/2602.13977 代碼鏈接: https://github.com/RLinf /RLinf HuggingFace: https://huggingface.co/collections/RLinf/wovr

一、研究背景

2026 年具身智能的一個主流共識是:強化學習(RL)正在成為進一步提升智能的關鍵路徑。 但當 RL 真正落到機器人上,研究者普遍卡在兩條路線:

路線 A:在仿真器里學。

仿真便宜、可并行、可規(guī)?;?,這是 RL 最舒服的土壤;但現(xiàn)實代價是仿真到現(xiàn)實非常難遷移——為了對齊真實世界,往往需要復雜的建模、調參、域隨機化與反復迭代,投入大量時間與工程成本,但是最終結果仍然差強人意。

路線 B:在真實世界里學。

直接與真實機器人交互最“對”,但會立刻碰到工程與數據效率的天花板:

試錯成本高(安全、磨損、重置、人力)、數據效率低、訓練速度慢,導致進展往往緩慢且難以規(guī)模化。

隨著世界模型的發(fā)展,隨著世界模型的快速發(fā)展,第三條路線逐漸形成 —— 用學習到的世界模型當模擬器,在“想象里”做強化學習——既想保留仿真器的規(guī)?;窒敫N近現(xiàn)實世界的動力學和分布。

然而,這條路線還存在不可忽視的問題,阻礙了其實際應用:

世界模型的閉環(huán)自回歸執(zhí)行會產生“幻覺”——畫面看起來像成功,甚至給出成功獎勵,但現(xiàn)實執(zhí)行是失敗。一旦把這種“幻覺軌跡”喂給強化學習,優(yōu)化信號會被系統(tǒng)性污染:策略學到的不是完成任務,而是學會利用模型漏洞。如圖1所示。


圖1:由于幻覺,機器人在想象中成功,在現(xiàn)實執(zhí)行失敗

因此,我們提出 WoVR:不再假設世界模型是忠實模擬器,而是把問題當成“可靠性”問題來解——研究強化學習應該如何與不完美的想象動態(tài)交互。WoVR 從三個相互關聯(lián)的層面同時約束“幻覺”:

(1)模擬器層:把世界模型做得更穩(wěn)、更可控

(2)交互層:不一定從起點想象——關鍵幀初始化 KIR

(3)對齊層:策略在變,模擬器也要跟上——PACE 共進化


圖2:WoVR 的整體框架圖 二、核心方法 2.1 把模擬器做得更穩(wěn)、更可控:基于 Wan 的動作可控世界模型

我們基于先進的 Wan2.2-TI2V-5B作為網絡的主干,將動作嵌入通過兩個通道進行注入:與擴散時間步相加后通過AdaLN-Zero調制;將原始的文本嵌入替換為動作嵌入通過交叉注意力注入。

為了抑制累計誤差,模型的自回歸生成使用首幀錨定的上下文,即context由固定的序列首幀和上一個chunk生成的最后4幀組成,因為自注意力機制在去噪時會更多關注第一幀。此外在訓練時我們向context的后4幀注入噪聲提升魯棒性。

2.2再在策略優(yōu)化時主動避開幻覺:關鍵幀初始

長時自回歸生成的累計誤差會導致世界模型的生成產生物理上不正確的轉變影響RL質量。在VLA交互中,許多決定性的交互往往發(fā)生在夾爪與物體接觸的關鍵幀附近,能否準確模擬這一段的交互對于世界模型最終的生成質量至關重要,為此,我們引入 Keyframe-Initialized Rollouts (KIR):直接從任務關鍵幀附近初始化再開始執(zhí)行“想象”,縮短有效誤差深度,讓學習更關注“關鍵接觸段”,而不是被長前綴的漂移帶偏。


RL方法上,采用GRPO更新策略,對于成功的軌跡,我們會掩碼成功之后的步驟并用有效長度對每條軌跡歸一化。這種方法補充了KIR,因為其往往用更少的有效步驟完成任務,使用這種方法可以增加KIR軌跡每步的貢獻,進而讓梯度由短且關鍵的任務段主導,而非長且容易偏移的延續(xù)段主導。



2.3 最后解決策略–模型分布錯配:提出 PACE ,讓模擬器跟得上策略演化

雖然策略優(yōu)化完全在學習到的世界模型中進行,但策略分布會在訓練過程中不斷演變,隨著策略偏移用于訓練初始世界模型的數據分布,這種分布不匹配會降低想象rollout的可靠性。為此,我們引入PACE(Policy-Aligned Co-Evolution),PACE 采用低頻率、階段式的共進化:首先用基礎VLA收集的軌跡訓練初始世界模型 WMBase,在WMBase中完成第一階段策略優(yōu)化后,我們根據更新后的策略收集額外rollout進一步優(yōu)化世界模型得到WMEvo。這種低頻率的優(yōu)化只需要再次收集一次數據,不需要持續(xù)的人類監(jiān)督,降低操作開銷;同時在不犧牲訓練穩(wěn)定性的前提下保持了模擬器的可靠性。

我們在RLinf上構建WoVR,以實現(xiàn)高效的訓練和推理。

三、實驗驗證 3.1 世界模型的性能指標

我們的世界模型在rollout 128/256/512幀的情形下性能超過EVAC,Cosmos-Predict2和WMPO中所采用的OpenSora


3.2 仿真環(huán)境性能

我們在 libero suite 上進行實驗。在每類套件上,我們限制世界模型和仿真器的交互軌跡數量,以此來模擬真實世界中軌跡昂貴的情況。 WoVR 和 WMPO 作為基于世界模型的方法,使用的軌跡都只用來訓練世界模型,再在世界模型中訓練策略,而 GRPO 則是通過和環(huán)境進行交互來優(yōu)化性能。在相同的軌跡條數限制下,WoVR在4個套件上均實現(xiàn)超過WMPO和GRPO。


四、真機實驗

真機上,我們基于 Franka 開展了兩個經典的 pick and place 的任務,在引入少量軌跡,無需在線交互只在世界模型中訓練策略的情況下, WoVR實現(xiàn)了策略性能提升。


五、世界模型組件消融實驗

在消融實驗中,我們驗證了首幀錨定的上下文機制和訓練時的噪聲幀機制的必要性。



六、策略優(yōu)化機制消融實驗

我們驗證了KIR(關鍵幀初始化)機制和PACE(世界模型和策略協(xié)同進化)機制對于策略性能的提升效果


七、總結

世界模型用于 RL 的關鍵,不僅僅是把視頻生成做得更像,而是把“幻覺如何影響優(yōu)化信號”這件事控制住。WoVR 給出了從模擬器、交互協(xié)議到對齊機制的系統(tǒng)解法。

llustration generated by AI.

-The End-

掃碼觀看!

本周上新!


“AI技術流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內容獎勵

投稿方式

發(fā)送郵件到

yimingzhang@thejiangmen.com

添加工作人員微信(aceyiming投稿,溝通投稿詳情

關于我“門”

將門是一家以專注于數智核心科技領域新型創(chuàng)投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4-2輕取石洵瑤!17歲張本美和零消耗晉級 四強出爐中日各兩席

4-2輕取石洵瑤!17歲張本美和零消耗晉級 四強出爐中日各兩席

顏小白的籃球夢
2026-03-14 21:48:24
中國女籃10分險勝!產生2個意想不到,最新形勢:基本晉級世界杯

中國女籃10分險勝!產生2個意想不到,最新形勢:基本晉級世界杯

侃球熊弟
2026-03-14 20:18:44
山東泰山2:1力克北京國安,徐亮賽后點評,句句在理,客觀中肯!

山東泰山2:1力克北京國安,徐亮賽后點評,句句在理,客觀中肯!

田先生籃球
2026-03-14 22:02:01
中國女足主帥米利西奇:半決賽王霜缺席是損失,全隊要一起向前看

中國女足主帥米利西奇:半決賽王霜缺席是損失,全隊要一起向前看

極目新聞
2026-03-14 21:07:31
深圳寶馬4S店“銷冠店”停擺,店內財產已被法院查封

深圳寶馬4S店“銷冠店”停擺,店內財產已被法院查封

南方都市報
2026-03-14 16:52:20
中建五局掀桌子,一口氣舉報了14家央企!

中建五局掀桌子,一口氣舉報了14家央企!

巢客HOME
2026-03-13 17:51:43
真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

人民日報健康客戶端
2026-02-25 07:34:27
丟人丟到國外!中國男子在肯尼亞機場被攔,行李中發(fā)現(xiàn)2238只蟻后

丟人丟到國外!中國男子在肯尼亞機場被攔,行李中發(fā)現(xiàn)2238只蟻后

萬象硬核本尊
2026-03-14 20:02:47
低頭了!古巴扛不住重壓與美談判,革命風骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
TVB前女星退圈29年罕現(xiàn)身,古天樂請客掀回憶殺,自曝曾兩度流產

TVB前女星退圈29年罕現(xiàn)身,古天樂請客掀回憶殺,自曝曾兩度流產

蒂蒂茱家
2026-03-14 18:45:28
廣東省高齡津貼新標準,3月1日起執(zhí)行!標準是多少,如何申領?

廣東省高齡津貼新標準,3月1日起執(zhí)行!標準是多少,如何申領?

云鵬敘事
2026-03-14 16:48:43
巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

一娛三分地
2026-03-12 19:11:45
股民要坐穩(wěn)扶好了,下周周一周二兩天,或將重演18年歷史行情!

股民要坐穩(wěn)扶好了,下周周一周二兩天,或將重演18年歷史行情!

風風順
2026-03-15 01:00:08
砍27分+7記三分!國手后衛(wèi)打法堪比CBA小外援,率隊掀翻衛(wèi)冕冠軍

砍27分+7記三分!國手后衛(wèi)打法堪比CBA小外援,率隊掀翻衛(wèi)冕冠軍

老葉評球
2026-03-14 23:08:04
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
評論 | 誰是南亞軍購王?最新武器貿易數據全解讀

評論 | 誰是南亞軍購王?最新武器貿易數據全解讀

南亞研究通訊
2026-03-13 23:06:50
女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當事人發(fā)聲

女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當事人發(fā)聲

環(huán)球網資訊
2026-03-14 18:28:08
Meta大裁員:1.58萬人面臨失業(yè)!

Meta大裁員:1.58萬人面臨失業(yè)!

芯智訊
2026-03-14 23:17:42
張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

觀魚聽雨
2026-03-12 22:44:11
你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

史政先鋒
2026-03-13 17:17:54
2026-03-15 02:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術驅動型初創(chuàng)企業(yè)
2310文章數 596關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數炮全打空

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內線

娛樂要聞

九成美曝田栩寧孕期出軌 AI反轉引熱議

財經要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

時尚
教育
本地
房產
公開課

伊姐周六熱推:電視劇《逐玉》;電視劇《江湖夜雨十年燈》......

教育要聞

去英國留學的核心意義,其實80%以上國內家庭是不知道的!

本地新聞

坐標北京,過敏季反向遷徒

房產要聞

不容易??!海口終于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版