国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北航,清華,北大聯(lián)合發(fā)布: 異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)!

0
分享至





  • 論文標(biāo)題:Heterogeneous Agent Collaborative Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2603.02604
  • Github Page: https://zzx-peter.github.io/hacrl/
  • Huggingface: https://huggingface.co/papers/2603.02604

主要貢獻(xiàn)

  • 異構(gòu)協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)新范式:多個(gè)在參數(shù)狀態(tài)、模型規(guī)模乃至架構(gòu)家族上存在異構(gòu)性的智能體,在訓(xùn)練階段共享經(jīng)過驗(yàn)證的 rollouts實(shí)現(xiàn)協(xié)同策略優(yōu)化,而在推理階段各自獨(dú)立部署執(zhí)行。該范式既不同于需協(xié)同執(zhí)行的多智能體強(qiáng)化學(xué)習(xí),也區(qū)別于單向的 "教師 — 學(xué)生" 知識(shí)蒸餾 ——HACRL 首次實(shí)現(xiàn)了異構(gòu)智能體間的雙向互學(xué)與獨(dú)立部署的統(tǒng)一:訓(xùn)練時(shí)協(xié)同優(yōu)化,推理時(shí)各自獨(dú)立運(yùn)行
  • 異構(gòu)協(xié)同策略優(yōu)化(HACPO)算法,通過四項(xiàng)關(guān)鍵技術(shù)彌合智能體間的能力與策略分布差異
  • 實(shí)驗(yàn)結(jié)果:在多個(gè)數(shù)學(xué)推理基準(zhǔn)上,使所有參與智能體的性能均獲得一致提升,平均性能超越基線方法3.3%,同時(shí)僅需一半的采樣成本,為實(shí)現(xiàn)高效的多智能體協(xié)同學(xué)習(xí)指明了新方向。

問題背景:昂貴的 “單打獨(dú)斗”,寶貴的 “異構(gòu)數(shù)據(jù)”

  • 當(dāng)前大模型強(qiáng)化學(xué)習(xí)微調(diào)中,rollout 采樣與校驗(yàn)成本是整個(gè)微調(diào)流程的核心瓶頸,嚴(yán)重制約訓(xùn)練效率與規(guī)?;涞亍M瑫r(shí),現(xiàn)有的強(qiáng)化學(xué)習(xí)微調(diào)范式普遍采用孤立優(yōu)化范式,模型各自獨(dú)立采樣、驗(yàn)證與策略更新。這就導(dǎo)致模型生成的高質(zhì)量軌跡僅用于自訓(xùn)練迭代,寶貴探索經(jīng)驗(yàn)無法復(fù)用,樣本利用率極低,造成巨大算力浪費(fèi)。
  • 與此同時(shí),大模型生態(tài)呈現(xiàn)顯著異構(gòu)性,不同架構(gòu)、尺寸、狀態(tài)的模型面向同一任務(wù)生成的 rollouts,在任務(wù)目標(biāo)與格式上高度兼容,且攜帶互補(bǔ)知識(shí)。然而現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)主要針對(duì)多智能體組成統(tǒng)一的系統(tǒng),無法支持異構(gòu)模型訓(xùn)練時(shí)協(xié)同優(yōu)化推理時(shí)各自獨(dú)立運(yùn)行的場(chǎng)景;知識(shí)蒸餾難主要針對(duì)同構(gòu)模型單向?qū)W習(xí),難以支持異構(gòu)模型的雙向?qū)W習(xí)。目前的范式中,異構(gòu)數(shù)據(jù)的價(jià)值沒有被有效發(fā)掘。

論文的核心問題是:一個(gè)智能體能否利用其他異構(gòu)智能體生成的 rollouts 來同時(shí)提升效果和效率?

異構(gòu)智能體共享 Rollout:HACRL 范式

為了解決訓(xùn)練過程中模型的 “單打獨(dú)斗”,該工作提出了一個(gè)新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多個(gè)異構(gòu)智能體在訓(xùn)練時(shí)可以共享彼此的 Rollout (Response + Reward),推理時(shí)則各自獨(dú)立完成任務(wù)。HACRL 范式使得原本獨(dú)立的智能體可以互相學(xué)習(xí),同時(shí)提高了 Rollout 利用率。

HACRL 和現(xiàn)有的其它范式可不能混為一談:

  • HACRL 不同于多智能體強(qiáng)化學(xué)習(xí) (MARL): HACRL 強(qiáng)調(diào)多個(gè)獨(dú)立的智能體在訓(xùn)練時(shí)共享 Rollout 進(jìn)行協(xié)同優(yōu)化,但是在推理時(shí)彼此是獨(dú)立的;MARL 則是多個(gè)智能體在推理時(shí)相互合作??偨Y(jié)來說,HACRL 訓(xùn)練多個(gè)獨(dú)立的模型,而 MARL 則是在訓(xùn)練一個(gè)整體的系統(tǒng)
  • HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個(gè)異構(gòu)的智能體相互學(xué)習(xí),而蒸餾則是更強(qiáng)的教師模型單向地向弱小的學(xué)生模型傳遞知識(shí)。總結(jié)來說,HACRL 是異構(gòu)模型的相互學(xué)習(xí),而蒸餾則是同構(gòu)模型的單向傳遞



異構(gòu)智能體強(qiáng)化學(xué)習(xí) (HACRL) 與多智能體強(qiáng)化學(xué)習(xí) (MARL)、知識(shí)蒸餾 (KD)

核心算法:HACPO

HACRL 可不是簡(jiǎn)單的 Rollout 共享!因?yàn)楫悩?gòu)智能體之間存在著能力差異策略分布差異,如果異構(gòu)模型來自于不同的廠家,那么模型的分詞器也會(huì)不同,在共享數(shù)據(jù)時(shí)出現(xiàn)工程問題。

為了求解 HACRL 問題,該工作提出了一個(gè)新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基礎(chǔ)的強(qiáng)化學(xué)習(xí)優(yōu)化方法之上,引入了四項(xiàng)量身定制的修改,以彌合異構(gòu)智能體之間的能力與分布差異。同時(shí),該工作在理論證明了,利用自身和其它智能體 rollout 進(jìn)行的梯度更新方向,在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。



HACPO 的算法流程圖

1. 智能體能力感知的優(yōu)勢(shì)估計(jì) (Agent-Capability-Aware Advantage Estimation)

該工作提出了一種能力感知的估計(jì)器,它根據(jù)每個(gè)智能體的相對(duì)性能,為其分配不同的組間優(yōu)勢(shì)基線。直觀上,如果一個(gè)回應(yīng)由更強(qiáng)的智能體生成,其優(yōu)勢(shì)應(yīng)更高;若由更弱的智能體生成,則其優(yōu)勢(shì)應(yīng)更低。理論上,該估計(jì)器是無偏的。



2. 模型能力差異系數(shù) (Model Capabilities Discrepancy Coefficient)

為了鼓勵(lì)向更強(qiáng)的智能體學(xué)習(xí),同時(shí)對(duì)較弱的智能體保持保守,該工作使用能力比率來調(diào)節(jié)有效優(yōu)勢(shì)。能力比率



扮演兩個(gè)互補(bǔ)的角色:(i)基線校準(zhǔn)— 在估計(jì)能力感知基線時(shí)重新縮放獎(jiǎng)勵(lì),以對(duì)齊異構(gòu)智能體間的獎(jiǎng)勵(lì)統(tǒng)計(jì)量;(ii)梯度調(diào)制— 它作為一個(gè)類似學(xué)習(xí)率的因子,放大來自更強(qiáng)智能體的梯度,并衰減來自更弱智能體的梯度。調(diào)制后的優(yōu)勢(shì)為:



3. 指數(shù)重要性采樣 (Exponential Importance Sampling)

該工作采用序列級(jí)別的重要性比率并將其擴(kuò)展到異構(gòu)多智能體設(shè)置,同時(shí)引入了非梯度指數(shù)重加權(quán)。這種設(shè)計(jì)使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學(xué)習(xí)。對(duì)于具有不兼容分詞器的異構(gòu)智能體組合,將對(duì)應(yīng)反分詞器(detokenizer)得到文本,再使用目標(biāo)智能體的分詞器(tokenizer)重新進(jìn)行分詞。





4. 逐步裁剪 (Stepwise Clipping)

跨智能體重要性采樣比率在步驟之間和步驟內(nèi)部都會(huì)不規(guī)則地波動(dòng)。該工作首先對(duì)跨智能體回應(yīng)應(yīng)用非對(duì)稱裁剪邊界,以確??缰悄荏w回應(yīng)只能被降權(quán),而永遠(yuǎn)不會(huì)被增權(quán)。然后,應(yīng)用逐步裁剪策略,以防止跨智能體經(jīng)驗(yàn)在批次內(nèi)的后期更新中占據(jù)主導(dǎo)地位,從而提高訓(xùn)練穩(wěn)定性。



實(shí)驗(yàn)現(xiàn)象:尺有所短,寸有所長(zhǎng)

異構(gòu)模型間的取長(zhǎng)補(bǔ)短

實(shí)驗(yàn)設(shè)置與對(duì)比基線

該工作在 MATH 數(shù)據(jù)集 上選取 7500 道高質(zhì)量數(shù)學(xué)問題,并在 七個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試 上評(píng)估 HACPO 的性能。為嚴(yán)格驗(yàn)證協(xié)同訓(xùn)練范式的有效性,將 HACPO 與下列三類基線方法進(jìn)行了對(duì)比:

  • 標(biāo)準(zhǔn)單智能體基線:包括 GRPO、GSPO(Rollout 成本相同,參數(shù)更新成本只有 HACPO 的一半
  • 等資源基線(GSPO×2):用雙倍 rollout 和更新次數(shù),以排除因?yàn)閿?shù)據(jù)量增大帶來的提升(Rollout 成本是 HACPO 的一倍,參數(shù)更新成本相同
  • 樸素協(xié)同基線(Naive):簡(jiǎn)單共享 rollouts 的多智能體設(shè)置,但不包含 HACPO 的創(chuàng)新模塊(Rollout 和參數(shù)更新成本都和 HACPO相同

該工作總結(jié)了三類異構(gòu),并分別進(jìn)行了驗(yàn)證實(shí)驗(yàn):



主實(shí)驗(yàn)結(jié)果

結(jié)果分析

該工作在狀態(tài)異構(gòu)、尺寸異構(gòu)、模型異構(gòu)三中 setting 下進(jìn)行了多種實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了 HACPO 的有效性。同時(shí),將 HACPO 的效果歸因?yàn)橐韵聝煞N機(jī)制:

  • 能力驅(qū)動(dòng)的指導(dǎo):強(qiáng)模型提供更多高質(zhì)量正確解,幫助弱模型更快提高。
  • 互補(bǔ)知識(shí)的交換:弱模型作為 “不同探索器”,會(huì)產(chǎn)生強(qiáng)模型較少覆蓋的推理路徑與信息性錯(cuò)誤,甚至少量強(qiáng)模型未采到的正確解,從而使強(qiáng)模型也獲得可學(xué)習(xí)的補(bǔ)充信號(hào)。

狀態(tài)異構(gòu):

弱模型(Qwen3-4B)提高7.1%,強(qiáng)模型(Qwen3-4B-Instruct)提高1.4%。模型異構(gòu)性低,因此主要是強(qiáng)模型幫助弱模型,而弱模型難以對(duì)強(qiáng)模型有幫助。



尺寸異構(gòu):

大小模型都有提升,Qwen3-1.7B-Base 提升2.6%,Qwen3-4B-Base 提升2.3%。盡管小模型的準(zhǔn)確率低于大模型,其仍然可以為大模型提供一些難以覆蓋到的錯(cuò)誤路徑和少量正確路徑,提供互補(bǔ)知識(shí)



模型異構(gòu):

即使模型異構(gòu)程度很大,兩個(gè)模型也都有提升。Qwen3-4B-Base 提高,Llama3.2-3B-Instruct 提高3.9%。這表明 HACPO 算法的通用性和魯棒性。



效率、效果雙提升:

等資源基線(GSPO×2)進(jìn)行對(duì)比,HACPO 僅使用一半的 Rollout 成本,就實(shí)現(xiàn)了3.3% 的性能提升

消融實(shí)驗(yàn)

對(duì)于核心算法 HACPO 中的四個(gè)模塊進(jìn)行消融,實(shí)驗(yàn)證明了缺失任何一個(gè)模塊都會(huì)導(dǎo)致模型性能的下降,表明了四個(gè)模塊都是有效的。同時(shí),指數(shù)重要性采樣中的最佳指數(shù)在不同的模型組合上也會(huì)有不同。

討論和展望

本文針對(duì)當(dāng)前智能體強(qiáng)化學(xué)習(xí)面臨的孤立優(yōu)化采樣成本高、異構(gòu)大模型生態(tài)知識(shí)利用效率低的核心行業(yè)痛點(diǎn),提出了異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)全新范式。該范式突破知識(shí)蒸餾單向師生傳遞的固有局限,實(shí)現(xiàn)了訓(xùn)練階段異構(gòu)智能體協(xié)同優(yōu)化、推理階段獨(dú)立執(zhí)行的核心設(shè)計(jì)。

面向未來,HACRL 范式的拓展方向主要包括以下幾個(gè)方面:一是將適用場(chǎng)景從數(shù)學(xué)推理任務(wù)延伸至代碼生成、多模態(tài)理解等更廣泛的大模型核心下游任務(wù),以驗(yàn)證其在通用場(chǎng)景下的普適性;二是探索更大規(guī)模的異構(gòu)智能體協(xié)同訓(xùn)練網(wǎng)絡(luò),深入研究智能體間相互學(xué)習(xí)的效果邊界與影響機(jī)制。此外,HACPO 的提出為跨異構(gòu)智能體的數(shù)據(jù)統(tǒng)一復(fù)用奠定了初步框架,未來在邁向通用人工智能(AGI)的進(jìn)程中,構(gòu)建跨模型、跨領(lǐng)域的統(tǒng)一知識(shí)學(xué)習(xí)平臺(tái)同樣是不可或缺的重要方向。

作者:第一作者為北京航空航天大學(xué)本科生張之夏與博士生黃子軒,通訊作者為北京航空航天大學(xué)班義琨教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3月開始,中國(guó)可能出現(xiàn)四大漲潮:除油價(jià)以外,這三類也要上調(diào)了

3月開始,中國(guó)可能出現(xiàn)四大漲潮:除油價(jià)以外,這三類也要上調(diào)了

有范又有料
2026-03-27 19:14:52
楊穎咖位又降級(jí)了?新活動(dòng)與韓安冉同框合影,生圖再美也難掩尷尬

楊穎咖位又降級(jí)了?新活動(dòng)與韓安冉同框合影,生圖再美也難掩尷尬

阿傖說事
2026-03-28 15:39:17
總臺(tái)記者觀察丨胡塞武裝襲擊以色列 戰(zhàn)事呈擴(kuò)大化趨勢(shì)

總臺(tái)記者觀察丨胡塞武裝襲擊以色列 戰(zhàn)事呈擴(kuò)大化趨勢(shì)

北青網(wǎng)-北京青年報(bào)
2026-03-28 17:25:07
四川起義軍突然反水,處決十六名軍代表,為何比土匪更兇殘

四川起義軍突然反水,處決十六名軍代表,為何比土匪更兇殘

嘮叨說歷史
2026-03-25 11:05:30
伊朗越打越猛,伊朗一波襲擊打出美國(guó)最大戰(zhàn)損,大批美軍被抬走?

伊朗越打越猛,伊朗一波襲擊打出美國(guó)最大戰(zhàn)損,大批美軍被抬走?

向天祈福
2026-03-29 07:27:08
越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場(chǎng)

越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場(chǎng)

林輕吟
2026-03-26 07:34:21
李昌鈺,制造冤獄的神探,戲演完了

李昌鈺,制造冤獄的神探,戲演完了

不正確
2026-03-28 10:31:14
伊朗:摧毀位于迪拜的烏克蘭武器庫(kù),當(dāng)時(shí)武器庫(kù)內(nèi)還有21名烏克蘭士兵

伊朗:摧毀位于迪拜的烏克蘭武器庫(kù),當(dāng)時(shí)武器庫(kù)內(nèi)還有21名烏克蘭士兵

大象新聞
2026-03-28 19:45:11
《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

娛樂故事
2026-03-26 17:11:11
陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
車長(zhǎng)期不開,最多能停幾天?記住這個(gè)數(shù),不傷車、不毀電瓶

車長(zhǎng)期不開,最多能停幾天?記住這個(gè)數(shù),不傷車、不毀電瓶

沙雕小琳琳
2026-03-27 08:29:51
坦格西里遇襲身亡

坦格西里遇襲身亡

新浪財(cái)經(jīng)
2026-03-26 23:01:14
三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

現(xiàn)代小青青慕慕
2026-03-24 08:13:54
男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

帶你感受人間冷暖
2026-02-07 03:58:56
沙特削減對(duì)華供應(yīng),油少賣800萬桶,中方通知全球,指出當(dāng)務(wù)之急

沙特削減對(duì)華供應(yīng),油少賣800萬桶,中方通知全球,指出當(dāng)務(wù)之急

丁丁鯉史紀(jì)
2026-03-28 16:51:54
提升自己最快的方式(此文無價(jià))

提升自己最快的方式(此文無價(jià))

德魯克博雅管理
2026-03-10 17:03:11
血管清道夫榜單公布:洋蔥第3,第1名家家都有,中老年人宜多吃

血管清道夫榜單公布:洋蔥第3,第1名家家都有,中老年人宜多吃

餐飲新紀(jì)元
2026-03-27 07:11:03
美國(guó)和G6互噴!德外長(zhǎng):講真,氣死了

美國(guó)和G6互噴!德外長(zhǎng):講真,氣死了

觀察者網(wǎng)
2026-03-27 23:34:10
刷到王思聰又挽著新女友到處玩時(shí),屏幕那頭笑意正濃。

刷到王思聰又挽著新女友到處玩時(shí),屏幕那頭笑意正濃。

別人都叫我阿螫
2026-03-28 12:48:04
2026-03-29 08:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

親子
手機(jī)
家居
本地
公開課

親子要聞

全國(guó)學(xué)前教育專家齊聚深圳,共探美育與體育深度融合落地路徑

手機(jī)要聞

與直板機(jī)坐一桌 OPPO Find N6躋身暢銷機(jī)榜單

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版