国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大×字節(jié)跳動(dòng)Seed提出WMPO,在世界模型中進(jìn)行VLA強(qiáng)化學(xué)習(xí)

0
分享至



香港科技大學(xué) PEI-Lab 與字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)近期提出的 WMPO(World Model-based Policy Optimization),正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無需在真實(shí)機(jī)器人上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)交互,卻能顯著提升策略性能,甚至涌現(xiàn)出 自我糾錯(cuò)(Self-correction) 行為。該文章目前已被 ICLR 2026 接收,目前,論文、代碼與模型均已開源。

論文第一作者朱方琪是香港科技大學(xué)博士生,研究方向包括世界模型,具身智能,多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽。通訊作者為香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)馬驍。



  • 論文標(biāo)題:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
  • 項(xiàng)目網(wǎng)站:https://wm-po.github.io
  • 論文鏈接:https://arxiv.org/abs/2511.09515
  • 論文代碼:https://github.com/WM-PO/WMPO

傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”:

模仿易碎,交互昂貴

近年來,視覺 - 語言 - 動(dòng)作(VLA)模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力,但其訓(xùn)練方式長(zhǎng)期受制于兩大瓶頸。

第一,模仿學(xué)習(xí)的先天局限。

大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練,只學(xué)習(xí)了 “什么是正確操作”,卻幾乎沒有見過 “犯錯(cuò)之后該怎么辦”。在推理時(shí),一旦狀態(tài)稍微偏離訓(xùn)練分布,錯(cuò)誤便會(huì)不斷累積,最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長(zhǎng)序列操作中尤為明顯。

第二,現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)的高昂代價(jià)。

強(qiáng)化學(xué)習(xí)理論上可以解決上述問題,但在真實(shí)機(jī)器人上進(jìn)行 RL 交互往往需要數(shù)百萬次嘗試,不僅采樣效率極低,還伴隨著硬件磨損、安全風(fēng)險(xiǎn)和高昂的實(shí)驗(yàn)成本。

已有研究 [1] 嘗試借助潛空間世界模型(Latent Space World Model)來緩解現(xiàn)實(shí)交互壓力,但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實(shí)圖像表征存在差異,難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。



WMPO 的核心突破:

像素級(jí) “想象” 與 Online GRPO

WMPO 提出了一種新的訓(xùn)練范式:將策略優(yōu)化過程完整地遷移到視覺世界模型中完成,讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯(cuò)誤中恢復(fù)。其核心設(shè)計(jì)包含三個(gè)關(guān)鍵要點(diǎn):

像素級(jí)視覺世界模型,讓錯(cuò)誤也能被真實(shí)模擬

與以往在潛空間中進(jìn)行預(yù)測(cè)不同,WMPO 構(gòu)建的是像素級(jí)視覺世界模型。模型直接在圖像空間中,根據(jù)當(dāng)前觀察和動(dòng)作預(yù)測(cè)下一幀視覺反饋,從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為,還能覆蓋策略執(zhí)行過程中可能出現(xiàn)的各種偏差,研究團(tuán)隊(duì)引入了策略行為對(duì)齊(Policy Behavior Alignment) 機(jī)制:在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊訓(xùn)練,使世界模型能夠準(zhǔn)確模擬 OOD 動(dòng)作及其失敗后果。

在想象空間中進(jìn)行 Online GRPO

在高保真的視覺世界模型中,WMPO 進(jìn)一步將強(qiáng)化學(xué)習(xí)過程引入 “想象空間”。具體而言,對(duì)于同一初始狀態(tài),VLA 模型會(huì)在世界模型中生成一組不同的候選軌跡;通過訓(xùn)練得到的獎(jiǎng)勵(lì)函數(shù)判斷每條軌跡是否成功,并在組內(nèi)進(jìn)行相對(duì)比較,從而估計(jì)優(yōu)勢(shì)。這種 Online GRPO(Group Relative Policy Optimization) 的方式不依賴額外的價(jià)值網(wǎng)絡(luò),顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度,同時(shí)在長(zhǎng)序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是,“組內(nèi)競(jìng)爭(zhēng)” 機(jī)制使模型能夠自動(dòng)偏好那些即使犯錯(cuò)、也能恢復(fù)并完成任務(wù)的動(dòng)作路徑。

攻克長(zhǎng)時(shí)生成難題:讓 “想象” 不崩壞

長(zhǎng)時(shí)間視頻預(yù)測(cè)一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時(shí)間退化,WMPO 引入了:

  • 噪聲幀增強(qiáng)(Noisy-frame conditioning)
  • 幀級(jí)動(dòng)作控制機(jī)制

這些設(shè)計(jì)確保模型在生成數(shù)百幀 “想象軌跡” 時(shí),仍能保持畫面清晰、動(dòng)作對(duì)齊,為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。



WMPO 架構(gòu)解析:

像素級(jí)演化,三步跨越現(xiàn)實(shí)

構(gòu)建高保真 “沙盒”:視覺世界模型建模





策略行為對(duì)齊:為了讓世界模型能模擬策略生成的 OOD 動(dòng)作及其后果,研究團(tuán)隊(duì)不僅在專家數(shù)據(jù)上訓(xùn)練,還針對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊,確保模型能夠準(zhǔn)確預(yù)測(cè) “失敗案例”。

策略評(píng)價(jià)與改進(jìn):想象空間內(nèi)的 Online GRPO





這種 “組內(nèi)競(jìng)爭(zhēng)” 機(jī)制讓模型能夠自動(dòng)識(shí)別并強(qiáng)化那些能從錯(cuò)誤中恢復(fù)的動(dòng)作路徑。

學(xué)習(xí)目標(biāo):自監(jiān)督式參數(shù)優(yōu)化

在 “想象” 出的軌跡上,WMPO 最小化以下目標(biāo)函數(shù),將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者:



偽代碼算法如下:



實(shí)驗(yàn)結(jié)果:樣本效率,

涌現(xiàn)能力,執(zhí)行效率的驚喜

研究團(tuán)隊(duì)在 MimicGen 模擬環(huán)境和真實(shí) ALOHA 機(jī)器人上對(duì) WMPO 進(jìn)行了系統(tǒng)評(píng)估。

采樣效率顯著提升。

在僅使用 128 條真實(shí)軌跡作為數(shù)據(jù)預(yù)算時(shí),WMPO 的成功率已超過最優(yōu) Offline RL 基線 9.8%;當(dāng)預(yù)算提升至 1280 條時(shí),領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大至 15.2%。



自我糾錯(cuò)行為的涌現(xiàn)。

在 “方塊套圈” 等任務(wù)中,當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時(shí),WMPO 訓(xùn)練得到的策略會(huì)主動(dòng)調(diào)整動(dòng)作:例如抬起方塊、重新對(duì)準(zhǔn)目標(biāo)并再次嘗試。這類糾錯(cuò)行為并未出現(xiàn)在專家演示數(shù)據(jù)中,而是通過 “想象中的失敗與比較” 自然涌現(xiàn)。



執(zhí)行效率更高。

WMPO 訓(xùn)練的策略動(dòng)作更加連貫、果斷,成功軌跡長(zhǎng)度明顯縮短,減少了猶豫和重復(fù)嘗試。



需要注意的是,這種自我糾錯(cuò)能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到,其泛化邊界仍有待進(jìn)一步探索。

啟示與展望

WMPO 的成功證明了:高質(zhì)量的 “想象” 足以替代昂貴的 “實(shí)踐”。通過將 VLA 的強(qiáng)化學(xué)習(xí)過程解耦到生成式世界模型中,我們不僅解決了采樣效率的難題,更讓機(jī)器人學(xué)會(huì)了在挫折中自我完善。

正如達(dá)芬奇所言,“簡(jiǎn)單是終極的復(fù)雜”,WMPO 用純粹的視覺模擬,為具身智能走向通用化指明了一條充滿想象力的道路。

更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。

[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“生靈涂炭”,知名女主持人直播中落淚!連線時(shí)警報(bào)突然響起,網(wǎng)友紛紛祈愿……

“生靈涂炭”,知名女主持人直播中落淚!連線時(shí)警報(bào)突然響起,網(wǎng)友紛紛祈愿……

新民周刊
2026-03-02 16:00:18
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

上海約飯局
2025-10-31 15:32:01
家里有多少錢,才算有錢人?銀行行長(zhǎng):3個(gè)條件,達(dá)到其一就是!

家里有多少錢,才算有錢人?銀行行長(zhǎng):3個(gè)條件,達(dá)到其一就是!

生活新鮮市
2026-03-02 19:23:03
成功斬首哈梅內(nèi)伊,特朗普暴露了家底,伊朗的教訓(xùn)給中國敲響警鐘

成功斬首哈梅內(nèi)伊,特朗普暴露了家底,伊朗的教訓(xùn)給中國敲響警鐘

小楊侃事
2026-03-03 02:17:07
59歲的糖尿病專家李洪梅因糖尿病離世??磥磲t(yī)生也治不了自己的病

59歲的糖尿病專家李洪梅因糖尿病離世。看來醫(yī)生也治不了自己的病

新時(shí)代的兩性情感
2026-03-02 20:17:01
請(qǐng)假2小時(shí)被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

請(qǐng)假2小時(shí)被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

社會(huì)日日鮮
2026-03-02 20:25:30
給央視賣命19年,連站6年零下幾十度春晚分會(huì)場(chǎng),撒貝寧沒他微信

給央視賣命19年,連站6年零下幾十度春晚分會(huì)場(chǎng),撒貝寧沒他微信

百態(tài)人間
2026-02-28 15:31:33
以情報(bào)部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

以情報(bào)部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

揚(yáng)子晚報(bào)
2026-03-02 17:41:48
日本新晉女神!阿部夏樹,魔鬼般的身材比例,算得上是頂級(jí)天賦。

日本新晉女神!阿部夏樹,魔鬼般的身材比例,算得上是頂級(jí)天賦。

情感大頭說說
2026-02-28 15:21:28
山東姑娘獲 127 票高票當(dāng)選聯(lián)合國法官,這才是真正的中國驕傲!

山東姑娘獲 127 票高票當(dāng)選聯(lián)合國法官,這才是真正的中國驕傲!

眼界看視野
2026-03-02 19:22:50
天道好輪回!小蘋果還是走上母親葛薈婕的老路,汪峰也是有苦難言

天道好輪回!小蘋果還是走上母親葛薈婕的老路,汪峰也是有苦難言

光輝與陰暗
2026-03-02 16:54:29
救命,國產(chǎn)爛片又刷新下限了

救命,國產(chǎn)爛片又刷新下限了

喵喵娛樂團(tuán)
2026-02-28 16:41:47
突發(fā):莫斯科遭襲擊

突發(fā):莫斯科遭襲擊

中國網(wǎng)
2026-03-02 16:38:20
機(jī)構(gòu):若伊朗沖突長(zhǎng)期持續(xù) 油價(jià)或升至每桶100美元

機(jī)構(gòu):若伊朗沖突長(zhǎng)期持續(xù) 油價(jià)或升至每桶100美元

財(cái)聯(lián)社
2026-03-03 02:52:20
哈梅尸體被找到,伊朗發(fā)起五波反制,美軍損失慘重,中國開始行動(dòng)

哈梅尸體被找到,伊朗發(fā)起五波反制,美軍損失慘重,中國開始行動(dòng)

領(lǐng)悟看世界
2026-03-03 02:15:21
偉偉道來 |美以伊戰(zhàn)爭(zhēng)會(huì)持續(xù)多長(zhǎng)時(shí)間?有無談判止戰(zhàn)的機(jī)會(huì)和窗口?

偉偉道來 |美以伊戰(zhàn)爭(zhēng)會(huì)持續(xù)多長(zhǎng)時(shí)間?有無談判止戰(zhàn)的機(jī)會(huì)和窗口?

經(jīng)濟(jì)觀察報(bào)
2026-03-02 11:30:41
6.5億預(yù)算成本,《飛馳人生3》北美票房慘敗,沈騰吳京全被打懵了

6.5億預(yù)算成本,《飛馳人生3》北美票房慘敗,沈騰吳京全被打懵了

電影票房預(yù)告片
2026-03-02 23:27:38
老兩口結(jié)婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來孩子出生該怎么喊呢”

老兩口結(jié)婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來孩子出生該怎么喊呢”

觀威海
2026-03-02 09:20:14
終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

未曾青梅
2026-03-01 20:05:13
哈梅內(nèi)伊逃離德黑蘭,已被轉(zhuǎn)移到安全地點(diǎn)

哈梅內(nèi)伊逃離德黑蘭,已被轉(zhuǎn)移到安全地點(diǎn)

桂系007
2026-02-28 18:23:39
2026-03-03 05:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
旅游
本地
房產(chǎn)
手機(jī)

教育要聞

3月13日截止!山東綜評(píng)云平臺(tái)填寫教程!有視頻!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

手機(jī)要聞

iPhone 17e外觀與前代幾乎一致 舊款iPhone 16e保護(hù)殼可繼續(xù)用

無障礙瀏覽 進(jìn)入關(guān)懷版