網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北航，清華，北大聯(lián)合發(fā)布：異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)！

2026-03-20 11:54:26　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

論文標(biāo)題：Heterogeneous Agent Collaborative Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2603.02604
Github Page: https://zzx-peter.github.io/hacrl/
Huggingface: https://huggingface.co/papers/2603.02604

主要貢獻(xiàn)

異構(gòu)協(xié)同強(qiáng)化學(xué)習(xí)（HACRL）新范式：多個(gè)在參數(shù)狀態(tài)、模型規(guī)模乃至架構(gòu)家族上存在異構(gòu)性的智能體，在訓(xùn)練階段共享經(jīng)過驗(yàn)證的 rollouts實(shí)現(xiàn)協(xié)同策略優(yōu)化，而在推理階段各自獨(dú)立部署執(zhí)行。該范式既不同于需協(xié)同執(zhí)行的多智能體強(qiáng)化學(xué)習(xí)，也區(qū)別于單向的 "教師 — 學(xué)生" 知識(shí)蒸餾 ——HACRL 首次實(shí)現(xiàn)了異構(gòu)智能體間的雙向互學(xué)與獨(dú)立部署的統(tǒng)一：訓(xùn)練時(shí)協(xié)同優(yōu)化，推理時(shí)各自獨(dú)立運(yùn)行
異構(gòu)協(xié)同策略優(yōu)化（HACPO）算法，通過四項(xiàng)關(guān)鍵技術(shù)彌合智能體間的能力與策略分布差異
實(shí)驗(yàn)結(jié)果：在多個(gè)數(shù)學(xué)推理基準(zhǔn)上，使所有參與智能體的性能均獲得一致提升，平均性能超越基線方法3.3%，同時(shí)僅需一半的采樣成本，為實(shí)現(xiàn)高效的多智能體協(xié)同學(xué)習(xí)指明了新方向。

問題背景：昂貴的 “單打獨(dú)斗”，寶貴的 “異構(gòu)數(shù)據(jù)”

當(dāng)前大模型強(qiáng)化學(xué)習(xí)微調(diào)中，rollout 采樣與校驗(yàn)成本是整個(gè)微調(diào)流程的核心瓶頸，嚴(yán)重制約訓(xùn)練效率與規(guī)?；涞亍Ｍ瑫r(shí)，現(xiàn)有的強(qiáng)化學(xué)習(xí)微調(diào)范式普遍采用孤立優(yōu)化范式，模型各自獨(dú)立采樣、驗(yàn)證與策略更新。這就導(dǎo)致模型生成的高質(zhì)量軌跡僅用于自訓(xùn)練迭代，寶貴探索經(jīng)驗(yàn)無法復(fù)用，樣本利用率極低，造成巨大算力浪費(fèi)。
與此同時(shí)，大模型生態(tài)呈現(xiàn)顯著異構(gòu)性，不同架構(gòu)、尺寸、狀態(tài)的模型面向同一任務(wù)生成的 rollouts，在任務(wù)目標(biāo)與格式上高度兼容，且攜帶互補(bǔ)知識(shí)。然而現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)主要針對(duì)多智能體組成統(tǒng)一的系統(tǒng)，無法支持異構(gòu)模型訓(xùn)練時(shí)協(xié)同優(yōu)化推理時(shí)各自獨(dú)立運(yùn)行的場(chǎng)景；知識(shí)蒸餾難主要針對(duì)同構(gòu)模型單向?qū)W習(xí)，難以支持異構(gòu)模型的雙向?qū)W習(xí)。目前的范式中，異構(gòu)數(shù)據(jù)的價(jià)值沒有被有效發(fā)掘。

論文的核心問題是：一個(gè)智能體能否利用其他異構(gòu)智能體生成的 rollouts 來同時(shí)提升效果和效率？

異構(gòu)智能體共享 Rollout：HACRL 范式

為了解決訓(xùn)練過程中模型的 “單打獨(dú)斗”，該工作提出了一個(gè)新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning)，多個(gè)異構(gòu)智能體在訓(xùn)練時(shí)可以共享彼此的 Rollout (Response + Reward)，推理時(shí)則各自獨(dú)立完成任務(wù)。HACRL 范式使得原本獨(dú)立的智能體可以互相學(xué)習(xí)，同時(shí)提高了 Rollout 利用率。

HACRL 和現(xiàn)有的其它范式可不能混為一談：

HACRL 不同于多智能體強(qiáng)化學(xué)習(xí) (MARL): HACRL 強(qiáng)調(diào)多個(gè)獨(dú)立的智能體在訓(xùn)練時(shí)共享 Rollout 進(jìn)行協(xié)同優(yōu)化，但是在推理時(shí)彼此是獨(dú)立的；MARL 則是多個(gè)智能體在推理時(shí)相互合作?？偨Y(jié)來說，HACRL 訓(xùn)練多個(gè)獨(dú)立的模型，而 MARL 則是在訓(xùn)練一個(gè)整體的系統(tǒng)
HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個(gè)異構(gòu)的智能體相互學(xué)習(xí)，而蒸餾則是更強(qiáng)的教師模型單向地向弱小的學(xué)生模型傳遞知識(shí)。總結(jié)來說，HACRL 是異構(gòu)模型的相互學(xué)習(xí)，而蒸餾則是同構(gòu)模型的單向傳遞

異構(gòu)智能體強(qiáng)化學(xué)習(xí) (HACRL) 與多智能體強(qiáng)化學(xué)習(xí) (MARL)、知識(shí)蒸餾 (KD)

核心算法：HACPO

HACRL 可不是簡(jiǎn)單的 Rollout 共享！因?yàn)楫悩?gòu)智能體之間存在著能力差異策略分布差異，如果異構(gòu)模型來自于不同的廠家，那么模型的分詞器也會(huì)不同，在共享數(shù)據(jù)時(shí)出現(xiàn)工程問題。

為了求解 HACRL 問題，該工作提出了一個(gè)新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基礎(chǔ)的強(qiáng)化學(xué)習(xí)優(yōu)化方法之上，引入了四項(xiàng)量身定制的修改，以彌合異構(gòu)智能體之間的能力與分布差異。同時(shí)，該工作在理論證明了，利用自身和其它智能體 rollout 進(jìn)行的梯度更新方向，在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。

HACPO 的算法流程圖

1. 智能體能力感知的優(yōu)勢(shì)估計(jì) (Agent-Capability-Aware Advantage Estimation)

該工作提出了一種能力感知的估計(jì)器，它根據(jù)每個(gè)智能體的相對(duì)性能，為其分配不同的組間優(yōu)勢(shì)基線。直觀上，如果一個(gè)回應(yīng)由更強(qiáng)的智能體生成，其優(yōu)勢(shì)應(yīng)更高；若由更弱的智能體生成，則其優(yōu)勢(shì)應(yīng)更低。理論上，該估計(jì)器是無偏的。

2. 模型能力差異系數(shù) (Model Capabilities Discrepancy Coefficient)

為了鼓勵(lì)向更強(qiáng)的智能體學(xué)習(xí)，同時(shí)對(duì)較弱的智能體保持保守，該工作使用能力比率來調(diào)節(jié)有效優(yōu)勢(shì)。能力比率

扮演兩個(gè)互補(bǔ)的角色：（i）基線校準(zhǔn)— 在估計(jì)能力感知基線時(shí)重新縮放獎(jiǎng)勵(lì)，以對(duì)齊異構(gòu)智能體間的獎(jiǎng)勵(lì)統(tǒng)計(jì)量；（ii）梯度調(diào)制— 它作為一個(gè)類似學(xué)習(xí)率的因子，放大來自更強(qiáng)智能體的梯度，并衰減來自更弱智能體的梯度。調(diào)制后的優(yōu)勢(shì)為：

3. 指數(shù)重要性采樣 (Exponential Importance Sampling)

該工作采用序列級(jí)別的重要性比率并將其擴(kuò)展到異構(gòu)多智能體設(shè)置，同時(shí)引入了非梯度指數(shù)重加權(quán)。這種設(shè)計(jì)使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學(xué)習(xí)。對(duì)于具有不兼容分詞器的異構(gòu)智能體組合，將對(duì)應(yīng)反分詞器（detokenizer）得到文本，再使用目標(biāo)智能體的分詞器（tokenizer）重新進(jìn)行分詞。

4. 逐步裁剪 (Stepwise Clipping)

跨智能體重要性采樣比率在步驟之間和步驟內(nèi)部都會(huì)不規(guī)則地波動(dòng)。該工作首先對(duì)跨智能體回應(yīng)應(yīng)用非對(duì)稱裁剪邊界，以確?？缰悄荏w回應(yīng)只能被降權(quán)，而永遠(yuǎn)不會(huì)被增權(quán)。然后，應(yīng)用逐步裁剪策略，以防止跨智能體經(jīng)驗(yàn)在批次內(nèi)的后期更新中占據(jù)主導(dǎo)地位，從而提高訓(xùn)練穩(wěn)定性。

實(shí)驗(yàn)現(xiàn)象：尺有所短，寸有所長(zhǎng)

異構(gòu)模型間的取長(zhǎng)補(bǔ)短

實(shí)驗(yàn)設(shè)置與對(duì)比基線

該工作在 MATH 數(shù)據(jù)集上選取 7500 道高質(zhì)量數(shù)學(xué)問題，并在七個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上評(píng)估 HACPO 的性能。為嚴(yán)格驗(yàn)證協(xié)同訓(xùn)練范式的有效性，將 HACPO 與下列三類基線方法進(jìn)行了對(duì)比：

標(biāo)準(zhǔn)單智能體基線：包括 GRPO、GSPO（Rollout 成本相同，參數(shù)更新成本只有 HACPO 的一半
等資源基線（GSPO×2）：用雙倍 rollout 和更新次數(shù)，以排除因?yàn)閿?shù)據(jù)量增大帶來的提升（Rollout 成本是 HACPO 的一倍，參數(shù)更新成本相同
樸素協(xié)同基線（Naive）：簡(jiǎn)單共享 rollouts 的多智能體設(shè)置，但不包含 HACPO 的創(chuàng)新模塊（Rollout 和參數(shù)更新成本都和 HACPO相同

該工作總結(jié)了三類異構(gòu)，并分別進(jìn)行了驗(yàn)證實(shí)驗(yàn)：

主實(shí)驗(yàn)結(jié)果

結(jié)果分析

該工作在狀態(tài)異構(gòu)、尺寸異構(gòu)、模型異構(gòu)三中 setting 下進(jìn)行了多種實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明了 HACPO 的有效性。同時(shí)，將 HACPO 的效果歸因?yàn)橐韵聝煞N機(jī)制：

能力驅(qū)動(dòng)的指導(dǎo)：強(qiáng)模型提供更多高質(zhì)量正確解，幫助弱模型更快提高。
互補(bǔ)知識(shí)的交換：弱模型作為 “不同探索器”，會(huì)產(chǎn)生強(qiáng)模型較少覆蓋的推理路徑與信息性錯(cuò)誤，甚至少量強(qiáng)模型未采到的正確解，從而使強(qiáng)模型也獲得可學(xué)習(xí)的補(bǔ)充信號(hào)。

狀態(tài)異構(gòu)：

弱模型（Qwen3-4B）提高7.1%，強(qiáng)模型（Qwen3-4B-Instruct）提高1.4%。模型異構(gòu)性低，因此主要是強(qiáng)模型幫助弱模型，而弱模型難以對(duì)強(qiáng)模型有幫助。

尺寸異構(gòu)：

大小模型都有提升，Qwen3-1.7B-Base 提升2.6%，Qwen3-4B-Base 提升2.3%。盡管小模型的準(zhǔn)確率低于大模型，其仍然可以為大模型提供一些難以覆蓋到的錯(cuò)誤路徑和少量正確路徑，提供互補(bǔ)知識(shí)

模型異構(gòu)：

即使模型異構(gòu)程度很大，兩個(gè)模型也都有提升。Qwen3-4B-Base 提高，Llama3.2-3B-Instruct 提高3.9%。這表明 HACPO 算法的通用性和魯棒性。

效率、效果雙提升：

等資源基線（GSPO×2）進(jìn)行對(duì)比，HACPO 僅使用一半的 Rollout 成本，就實(shí)現(xiàn)了3.3% 的性能提升

消融實(shí)驗(yàn)

對(duì)于核心算法 HACPO 中的四個(gè)模塊進(jìn)行消融，實(shí)驗(yàn)證明了缺失任何一個(gè)模塊都會(huì)導(dǎo)致模型性能的下降，表明了四個(gè)模塊都是有效的。同時(shí)，指數(shù)重要性采樣中的最佳指數(shù)在不同的模型組合上也會(huì)有不同。

討論和展望

本文針對(duì)當(dāng)前智能體強(qiáng)化學(xué)習(xí)面臨的孤立優(yōu)化采樣成本高、異構(gòu)大模型生態(tài)知識(shí)利用效率低的核心行業(yè)痛點(diǎn)，提出了異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)（HACRL）全新范式。該范式突破知識(shí)蒸餾單向師生傳遞的固有局限，實(shí)現(xiàn)了訓(xùn)練階段異構(gòu)智能體協(xié)同優(yōu)化、推理階段獨(dú)立執(zhí)行的核心設(shè)計(jì)。

面向未來，HACRL 范式的拓展方向主要包括以下幾個(gè)方面：一是將適用場(chǎng)景從數(shù)學(xué)推理任務(wù)延伸至代碼生成、多模態(tài)理解等更廣泛的大模型核心下游任務(wù)，以驗(yàn)證其在通用場(chǎng)景下的普適性；二是探索更大規(guī)模的異構(gòu)智能體協(xié)同訓(xùn)練網(wǎng)絡(luò)，深入研究智能體間相互學(xué)習(xí)的效果邊界與影響機(jī)制。此外，HACPO 的提出為跨異構(gòu)智能體的數(shù)據(jù)統(tǒng)一復(fù)用奠定了初步框架，未來在邁向通用人工智能（AGI）的進(jìn)程中，構(gòu)建跨模型、跨領(lǐng)域的統(tǒng)一知識(shí)學(xué)習(xí)平臺(tái)同樣是不可或缺的重要方向。

作者：第一作者為北京航空航天大學(xué)本科生張之夏與博士生黃子軒，通訊作者為北京航空航天大學(xué)班義琨教授。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.