国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026 | 世界模型卡在多機(jī)器人協(xié)作?一個(gè)順序分解思路打通

0
分享至



趙子杰,中國科學(xué)院自動(dòng)化研究所博士生,導(dǎo)師為趙冬斌研究員和朱圓恒副研究員。本科畢業(yè)于電子科技大學(xué)并獲得榮譽(yù)學(xué)位(Top 0.7%)。主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、世界模型和機(jī)器人學(xué)習(xí),重點(diǎn)關(guān)注融合學(xué)習(xí)、規(guī)劃與控制的方法,以實(shí)現(xiàn)魯棒且可擴(kuò)展的真實(shí)世界機(jī)器人智能。

近年來,Decision-Coupled World Model與Model-based RL在機(jī)器人領(lǐng)域取得了顯著成功。通過學(xué)習(xí)環(huán)境動(dòng)力學(xué)模型,智能體能夠在內(nèi)部模擬未來,從而進(jìn)行規(guī)劃與決策。但當(dāng)系統(tǒng)從單機(jī)器人擴(kuò)展到多機(jī)器人時(shí),問題開始變得棘手。

在多機(jī)器人系統(tǒng)中,世界的變化不再由單獨(dú)個(gè)體決定,而是由多個(gè)個(gè)體共同作用。于是,一個(gè)關(guān)鍵問題是:如何讓世界模型能夠理解多機(jī)器人系統(tǒng)的聯(lián)合動(dòng)力學(xué)?

為了解決這一挑戰(zhàn),中科院自動(dòng)化所深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)提出 SeqWM,對(duì)多機(jī)器人聯(lián)合動(dòng)力學(xué)進(jìn)行順序式的因果條件化分解,使機(jī)器人能夠在意圖共享的基礎(chǔ)上進(jìn)行協(xié)同規(guī)劃。該成果已被ICLR 2026接收,并在評(píng)審中獲得8 / 8 / 8 / 2的評(píng)分。



  • 論文標(biāo)題:Empowering Multi-Robot Cooperation via Sequential World Models
  • 代碼地址:https://github.com/zhaozijie2022/seqwm

為什么多機(jī)器人協(xié)作如此困難?

當(dāng)多個(gè)機(jī)器人同時(shí)參與決策時(shí),系統(tǒng)的動(dòng)力學(xué)會(huì)迅速變得復(fù)雜:每個(gè)機(jī)器人的動(dòng)作都會(huì)影響環(huán)境,也會(huì)影響其他機(jī)器人接下來的決策。這使得多機(jī)器人協(xié)作成為強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域長期以來的核心難題。核心原因在于:世界不再由單一策略驅(qū)動(dòng),而是由多個(gè)智能體共同決定。這帶來了兩個(gè)關(guān)鍵挑戰(zhàn):

  • 因果結(jié)構(gòu)復(fù)雜化:多個(gè)機(jī)器人同時(shí)作用于環(huán)境,導(dǎo)致動(dòng)力學(xué)模型需要同時(shí)處理多個(gè)「因果源」,學(xué)習(xí)難度顯著增加。強(qiáng)行共享策略易產(chǎn)生梯度沖突。
  • 決策 - 世界閉環(huán)被打破:在單機(jī)器人場(chǎng)景中,動(dòng)作 → 環(huán)境變化之間形成穩(wěn)定閉環(huán);而在多機(jī)器人系統(tǒng)中,每個(gè)機(jī)器人都受到其他機(jī)器人的影響,預(yù)測(cè)誤差會(huì)迅速累積。



圖 1:多智能體世界建模困境:在多個(gè) robot 的作用下,足球去向哪里?

SeqWM:多機(jī)器人世界模型的順序式因果分解

現(xiàn)有方法通常把多機(jī)器人系統(tǒng)看作一個(gè)整體:所有機(jī)器人的狀態(tài)和動(dòng)作會(huì)同時(shí)輸入到一個(gè)統(tǒng)一模型中,進(jìn)而預(yù)測(cè)未來環(huán)境變化。然而,隨著機(jī)器人數(shù)量增加,這種聯(lián)合動(dòng)力學(xué)建模的復(fù)雜度會(huì)迅速增長,使得模型難以穩(wěn)定學(xué)習(xí)和泛化,也增大了部署的難度。

SeqWM 從一個(gè)全新的視角重新思考了這個(gè)問題。研究團(tuán)隊(duì)提出一個(gè)關(guān)鍵觀察:

多機(jī)器人世界的變化,其實(shí)可以被建模為多個(gè)機(jī)器人依次作用于環(huán)境的過程。

基于這一觀察,SeqWM 不再試圖學(xué)習(xí)一個(gè)復(fù)雜的整體動(dòng)力學(xué)函數(shù),而是將聯(lián)合動(dòng)力學(xué)分解為一系列順序條件化的狀態(tài)轉(zhuǎn)移過程。每個(gè)機(jī)器人只需要學(xué)習(xí):在已知前序機(jī)器人動(dòng)作的條件下,自己對(duì)世界狀態(tài)演化所產(chǎn)生的邊際因果貢獻(xiàn)。形式上,原本的聯(lián)合動(dòng)力學(xué)被重寫為順序條件化的分解形式:



這種順序式分解將復(fù)雜的多機(jī)器人動(dòng)力學(xué)轉(zhuǎn)化為一系列條件預(yù)測(cè)問題,從而顯著降低了建模難度。



圖 2:R1 先規(guī)劃并共享未來軌跡,R2 據(jù)此調(diào)整路徑,實(shí)現(xiàn)對(duì)房間的協(xié)同探索

在軌跡預(yù)測(cè)階段,

  • 每個(gè)機(jī)器人維護(hù)一個(gè)獨(dú)立的世界模型
  • 每個(gè)模型只建模自身對(duì)環(huán)境的邊際貢獻(xiàn)
  • 后續(xù)機(jī)器人在預(yù)測(cè)時(shí)條件化前序機(jī)器人的預(yù)測(cè)結(jié)果

這種結(jié)構(gòu)使得復(fù)雜的聯(lián)合動(dòng)力學(xué)被拆解為多個(gè)簡單且可擴(kuò)展的局部預(yù)測(cè)過程。

在動(dòng)作規(guī)劃階段,SeqWM 使用 MPPI(Model Predictive Path Integral) 進(jìn)行動(dòng)作規(guī)劃。機(jī)器人按照順序進(jìn)行規(guī)劃,并共享預(yù)測(cè)軌跡。這意味著:后續(xù)機(jī)器人在規(guī)劃時(shí),可以提前知道前序機(jī)器人的未來計(jì)劃。這種機(jī)制形成了一種顯式的意圖共享,顯著增強(qiáng)協(xié)作能力。



圖 3:MPPI-based planner 示意圖

仿真實(shí)驗(yàn)對(duì)比

研究團(tuán)隊(duì)在兩個(gè)具有挑戰(zhàn)性的多機(jī)器人環(huán)境中評(píng)估了 SeqWM:

  • Bi-DexHands:雙靈巧手協(xié)作操作任務(wù)
  • Multi-Quadruped:多四足機(jī)器人協(xié)作任務(wù)

實(shí)驗(yàn)結(jié)果表明:SeqWM 在所有任務(wù)中均顯著超過現(xiàn)有方法,在性能與樣本效率方面均取得領(lǐng)先。



圖4:仿真實(shí)驗(yàn)可視化

協(xié)作行為如何自然產(chǎn)生?

SeqWM 不僅提升了任務(wù)成功率,還產(chǎn)生了多種自然協(xié)作行為。例如:

預(yù)測(cè)適應(yīng)(Predictive Adaptation):機(jī)器人能夠根據(jù)伙伴預(yù)測(cè)的未來動(dòng)作提前調(diào)整動(dòng)作。例如在接拋球任務(wù)中,接球機(jī)器人會(huì)提前移動(dòng)到預(yù)測(cè)落點(diǎn)附近,從而穩(wěn)定完成抓取。



角色分工(Role Division):在推箱子任務(wù)中:一只機(jī)器人負(fù)責(zé) 主要推進(jìn)力,另一只機(jī)器人負(fù)責(zé) 方向調(diào)整。這種分工并非人工設(shè)計(jì),而是在訓(xùn)練中自然產(chǎn)生。



Sim-to-Real 真實(shí)機(jī)器人實(shí)驗(yàn)

為了驗(yàn)證算法在真實(shí)環(huán)境中的效果,研究團(tuán)隊(duì)還將 SeqWM 部署到了 Unitree Go2-W 機(jī)器人平臺(tái)。實(shí)驗(yàn)包括:推箱子、通過窄門、引導(dǎo)目標(biāo)機(jī)器人:





實(shí)驗(yàn)結(jié)果表明,真實(shí)機(jī)器人系統(tǒng)中的協(xié)作行為與仿真結(jié)果高度一致,驗(yàn)證了 SeqWM 的實(shí)際應(yīng)用潛力。

總結(jié)

SeqWM 提出了一種新的多機(jī)器人世界建模方式:通過順序因果結(jié)構(gòu)分解多機(jī)器人動(dòng)力學(xué)。這一設(shè)計(jì)使得復(fù)雜的多機(jī)器人協(xié)作問題變得更加可建模、可規(guī)劃,也為真實(shí)機(jī)器人系統(tǒng)提供了一種可擴(kuò)展的解決方案。隨著世界模型與強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,未來的機(jī)器人系統(tǒng)或許能夠像人類團(tuán)隊(duì)一樣,通過共享意圖與協(xié)同行動(dòng)完成更加復(fù)雜的任務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點(diǎn)

伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點(diǎn)

冷峻視角下的世界
2026-02-20 07:45:35
陳小春和應(yīng)采兒在阿聯(lián)酋被偶遇!沒想到應(yīng)采兒這么高,真系靚!

陳小春和應(yīng)采兒在阿聯(lián)酋被偶遇!沒想到應(yīng)采兒這么高,真系靚!

智慧生活筆記
2026-04-02 14:58:01
張本智和驚魂大逆轉(zhuǎn)!2-0領(lǐng)先遭翻盤,7局鏖戰(zhàn)太窒息

張本智和驚魂大逆轉(zhuǎn)!2-0領(lǐng)先遭翻盤,7局鏖戰(zhàn)太窒息

林子說事
2026-04-02 15:09:46
送走馬蓉又來馮清,43歲的"老實(shí)人"王寶強(qiáng),還是沒逃出"女人圈"

送走馬蓉又來馮清,43歲的"老實(shí)人"王寶強(qiáng),還是沒逃出"女人圈"

趣知史館
2026-03-10 20:20:03
笑暈!南理工畢業(yè)照刷屏!密密麻麻全是研究生,網(wǎng)友:畢業(yè)即失業(yè)

笑暈!南理工畢業(yè)照刷屏!密密麻麻全是研究生,網(wǎng)友:畢業(yè)即失業(yè)

糖逗在娛樂
2026-04-02 08:38:28
中國AI真正的“底牌”,不在芯片

中國AI真正的“底牌”,不在芯片

陸棄
2026-04-01 08:15:03
NBA資深記者列舉湖人隊(duì)詹姆斯今夏的三種現(xiàn)實(shí)選擇:首選退役

NBA資深記者列舉湖人隊(duì)詹姆斯今夏的三種現(xiàn)實(shí)選擇:首選退役

好火子
2026-04-03 06:02:21
高盛:全面調(diào)倉中國互聯(lián)網(wǎng)...(4月2...

高盛:全面調(diào)倉中國互聯(lián)網(wǎng)...(4月2...

新浪財(cái)經(jīng)
2026-04-02 22:40:52
蒙太古杯:李家進(jìn) 劉凱源險(xiǎn)破門+0-1惜敗給巴西,中國男足2連敗墊底

蒙太古杯:李家進(jìn) 劉凱源險(xiǎn)破門+0-1惜敗給巴西,中國男足2連敗墊底

側(cè)身凌空斬
2026-04-03 02:57:43
吉林省一地任免一批領(lǐng)導(dǎo)干部

吉林省一地任免一批領(lǐng)導(dǎo)干部

吉刻新聞
2026-04-02 18:47:58
4.3今日金價(jià):大家不必等待了!接下來,金價(jià)有可能會(huì)重演歷史!

4.3今日金價(jià):大家不必等待了!接下來,金價(jià)有可能會(huì)重演歷史!

別人都叫我阿腈
2026-04-03 05:14:50
馬景濤女友疑似開撕吳佳尼,直播再曝“猛料”,信息量確實(shí)有點(diǎn)大

馬景濤女友疑似開撕吳佳尼,直播再曝“猛料”,信息量確實(shí)有點(diǎn)大

阿郎娛樂
2026-04-02 07:38:08
伊朗:動(dòng)用超100枚重型導(dǎo)彈 攻擊型無人機(jī)及200枚火箭彈 打擊范圍覆蓋以色列全境

伊朗:動(dòng)用超100枚重型導(dǎo)彈 攻擊型無人機(jī)及200枚火箭彈 打擊范圍覆蓋以色列全境

閃電新聞
2026-04-01 20:57:58
陳曉首談離婚:5年真實(shí)狀態(tài)曝光,網(wǎng)友:性格早就注定會(huì)分開

陳曉首談離婚:5年真實(shí)狀態(tài)曝光,網(wǎng)友:性格早就注定會(huì)分開

手工制作阿殲
2026-04-03 00:23:56
12家車企公布3月銷量:比亞迪拿下第一,廣汽豐田暫居前三

12家車企公布3月銷量:比亞迪拿下第一,廣汽豐田暫居前三

車市紅點(diǎn)
2026-04-01 20:41:36
中東這一打,中國套在美國脖子上的繩子,勒得更緊了

中東這一打,中國套在美國脖子上的繩子,勒得更緊了

紀(jì)中百大事
2026-04-02 09:49:12
中方回應(yīng)特朗普全國講話

中方回應(yīng)特朗普全國講話

新浪財(cái)經(jīng)
2026-04-02 15:40:25
離婚聊天記錄曝光,張婉婷傷心欲絕,宋寧峰給Q女士借三百還網(wǎng)貸

離婚聊天記錄曝光,張婉婷傷心欲絕,宋寧峰給Q女士借三百還網(wǎng)貸

話娛論影
2026-04-01 15:03:01
伊朗下死手!18家美國科技巨頭中東設(shè)施遭鎖定,這波打擊太精準(zhǔn)

伊朗下死手!18家美國科技巨頭中東設(shè)施遭鎖定,這波打擊太精準(zhǔn)

Thurman在昆明
2026-04-02 19:56:35
內(nèi)田有紀(jì)柏原崇登記結(jié)婚,16年愛情長跑終圓滿,30年情緣太好哭

內(nèi)田有紀(jì)柏原崇登記結(jié)婚,16年愛情長跑終圓滿,30年情緣太好哭

一禾的世界
2026-04-02 13:22:57
2026-04-03 06:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12668文章數(shù) 142605關(guān)注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

伊朗稱擊中敵軍先進(jìn)戰(zhàn)機(jī) 已墜入波斯灣

頭條要聞

伊朗稱擊中敵軍先進(jìn)戰(zhàn)機(jī) 已墜入波斯灣

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財(cái)經(jīng)要聞

市場(chǎng)被特朗普一句話打醒 滯脹交易回歸

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

健康
教育
旅游
數(shù)碼
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

重磅官宣2026年QS世界大學(xué)學(xué)科排名!清華多個(gè)專業(yè)進(jìn)入全球前10

旅游要聞

文明旅游 | 清明出行,讓文明與安全一路相伴!

數(shù)碼要聞

跨界者大疆:不折騰才是掃地機(jī)的終極形態(tài)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版