數(shù)據(jù)缺少標(biāo)注RL能誘導(dǎo)模型推理嗎？Co-rewarding提供自監(jiān)督RL方案

2026-02-25 17:42:40　來源: 機器之心Pro

河北舉報

分享至

本文來自香港浸會大學(xué)和上海交通大學(xué)的可信機器學(xué)習(xí)和推理組，已被ICLR 2026接收。

目前，RLVR（Reinforcement Learning with Verifiable Rewards）已成為誘導(dǎo)大語言模型推理能力的主流技術(shù)路線。然而，RLVR 需要高質(zhì)量標(biāo)注數(shù)據(jù)來監(jiān)督獎勵獲取，這一點是其可擴展性上的主要瓶頸。

一旦走向不需要標(biāo)注數(shù)據(jù)的 “自獎勵（Self-rewarding）” 強化學(xué)習(xí)訓(xùn)練，模型往往會迅速陷入訓(xùn)練崩潰（Training Collapse），看似獲取的獎勵（Reward）越來越高，實際上卻是在利用自我獎勵規(guī)則中的漏洞進行獎勵投機（Reward Hacking），而非真正答對問題獲取獎勵。

究竟什么樣的強化學(xué)習(xí)（Reinforcement Learning，RL）訓(xùn)練范式，才能在無需真實（Ground-truth）答案標(biāo)注的情況下，實現(xiàn)穩(wěn)定的 RL 訓(xùn)練，誘導(dǎo)出模型的推理能力？

針對這一挑戰(zhàn)，來自香港浸會大學(xué)和上海交通大學(xué)的可信機器學(xué)習(xí)和推理組提出了一個全新的自監(jiān)督 RL 框架 ——Co-rewarding。該框架通過在數(shù)據(jù)端或模型端引入互補視角的自監(jiān)督信號，穩(wěn)定獎勵獲取，提升 RL 過程中模型獎勵投機的難度，從而有效避免 RL 訓(xùn)練崩潰，實現(xiàn)穩(wěn)定訓(xùn)練和模型推理能力的誘導(dǎo)。

論文標(biāo)題：Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
論文鏈接：https://openreview.net/forum?id=fDk95XPsCU
代碼鏈接：https://github.com/bigai-ai/LIFT-humanoid
Huggingface 鏈接：https://huggingface.co/collections/TMLR-Group-HF/co-rewarding

自我獎勵策略訓(xùn)練模型為什么會導(dǎo)致訓(xùn)練崩潰？

在缺乏標(biāo)注數(shù)據(jù)的場景下，目前的自我獎勵策略均是通過強化模型的自信心來進行訓(xùn)練，主要分為兩個類別：（1）基于熵（Entropy）的方法：通過最小化模型輸出內(nèi)容的熵（Entropy），或最大化自我確定性（Self-certainty）等指標(biāo)來強化模型的信心；（2）基于一致的方法：讓模型針對同一個問題多次輸出后，進行多數(shù)投票（Majority-voting）得到偽標(biāo)簽（Pseudo label）來監(jiān)督 RL 訓(xùn)練。

圖 1：左邊 4 個圖為訓(xùn)練過程中驗證集上的性能曲線。右邊 2 個圖為訓(xùn)練過程中的獎勵（Reward）曲線。

無論是哪一類方法，它們都是讓當(dāng)前模型從單一視角產(chǎn)生信號監(jiān)督自己。這極易讓模型進行獎勵投機，以一種最容易方式拿到獎勵，而不是產(chǎn)生正確的推理路徑。這就像讓學(xué)生自己監(jiān)督自己學(xué)習(xí)時，學(xué)生會自己 “開小差” 一樣。如圖 1 所示，模型會發(fā)現(xiàn)重復(fù)輸出部分 token 可以使得熵最??；模型輸出一個一致但錯誤的答案，也可以拿到獎勵。這就模型在 RL 的自我獎勵機制中以投機的方式獲取到最高獎勵，獎勵獲取與推理正確性逐步脫鉤，進而導(dǎo)致訓(xùn)練崩潰。

圖 2：Co-rewarding 框架示意圖。不同于單視角自我監(jiān)督的方法，(a) Co-rewarding 引入其他視角互補的監(jiān)督信號；(b) 從數(shù)據(jù)視角，Co-rewarding-I 使用原題和改寫題進行相互監(jiān)督；(c) 從模型視角，Co-rewarding-II 使用一個教師參考模型產(chǎn)生偽標(biāo)簽監(jiān)督當(dāng)前模型。

Co-rewarding 提出關(guān)鍵轉(zhuǎn)變：互補視角進行監(jiān)督和獎勵

針對這一挑戰(zhàn)，Co-rewarding 提出避免訓(xùn)練崩潰的關(guān)鍵轉(zhuǎn)變：不再相信單一視角的監(jiān)督信號，而是主動引入 “互補視角的監(jiān)督”，進而增加模型獎勵投機的難度。具體來看，Co-rewarding 分別從數(shù)據(jù)視角和模型視角給出兩種實現(xiàn)。

方法一：Co-rewarding-I（數(shù)據(jù)視角）

如圖 2 (b) 所示，Co-rewarding-I 從數(shù)據(jù)層面引入互補監(jiān)督信號，對原問題構(gòu)建語義等價但表述不同的改寫問題（Rephrased Questions），利用原問題與改寫問題之間的 “類比一致性” 進行相互監(jiān)督：

對原題與改寫題分別進行多次采樣，生成回答。
用原題回答進行多數(shù)投票得到的偽標(biāo)簽去監(jiān)督改寫題，用改寫題回答多數(shù)投票得到的偽標(biāo)簽監(jiān)督原題。

這種設(shè)計的關(guān)鍵在于：模型必須在不同表述下保持推理結(jié)果的一致性，才能持續(xù)獲得獎勵。相比單一視角下的一致性自洽，跨問題的一致性顯著提高了獎勵投機的難度，從而有效緩解訓(xùn)練崩潰問題。

方法二：Co-rewarding-II（模型視角）

如圖 2 (c) 所示，Co-rewarding-II 從模型層面解開監(jiān)督信號與當(dāng)前 Policy 模型訓(xùn)練之間的耦合，即監(jiān)督信號所需要的偽標(biāo)簽不是從當(dāng)前 Policy 模型得到，而是一個另外的教師模型，這進一步降低了當(dāng)前 Policy 模型對于獎勵信號的控制，增強了獎勵投機的難度：

教師模型針對一個問題，生成多次推理回答，并多數(shù)投票產(chǎn)生偽標(biāo)簽。
學(xué)生 Policy 模型基于教師提供的偽標(biāo)簽進行獎勵獲取和 RL 訓(xùn)練。
教師模型無需引入一個額外的模型，而是由學(xué)生模型通過 EMA（指數(shù)滑動平均）更新參考模型（Reference Model）得到。

這種 “慢更新教師 + 快更新學(xué)生” 的結(jié)構(gòu)，本質(zhì)上是一種時間解耦的自蒸餾（Self-distillation）機制，能夠有效避免當(dāng)前 Policy 模型對于獎勵信號的操縱，從而顯著降低訓(xùn)練崩潰風(fēng)險。

實驗結(jié)果：不僅更加穩(wěn)定，而且性能更強

在多個訓(xùn)練集（MATH、DAPO-14k）、模型系列（Qwen2.5/3、Llama）上進行實驗。并在多個數(shù)學(xué)推理、代碼生成和通用領(lǐng)域基準(zhǔn)數(shù)據(jù)集上進行評估，Co-rewarding 均展現(xiàn)出相比于現(xiàn)有自我獎勵方法的優(yōu)勢：

表 1：在 MATH 訓(xùn)練集上的性能對比，顏色越深表示相同組內(nèi)性能越好。Co-rewarding-I 相比于最好的自我獎勵的基線方法在 4 個數(shù)學(xué)相關(guān)的基準(zhǔn)上的平均性能提升達到 + 4.42%

表 2：在 DAPO-14K 訓(xùn)練集上的性能對比，顏色越深表示相同組內(nèi)性能越好。Co-rewarding-II 相比于最好的自我獎勵基線方法在 4 個數(shù)學(xué)相關(guān)的基準(zhǔn)上的平均提升達到 + 12.90%

從表 1 中得到，在 4 個數(shù)學(xué)推理基準(zhǔn)上，相比于最好的自獎勵方法，Co-rewarding-I 平均性能提升達到 + 4.42%。從表 2 中得到，Co-rewarding-II 平均性能提升達到 + 12.90%。

在一些情況下，Co-rewarding 甚至超越了真實答案進行監(jiān)督的 RL 訓(xùn)練得到模型，例如 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上達到了 Pass@1 為 94.01%。

從圖 1 中觀察得到，Co-rewarding 在訓(xùn)練過程中，驗證集上的性能曲線持續(xù)提升，獎勵持續(xù)獲取，無訓(xùn)練崩潰和獎勵劫持現(xiàn)象發(fā)生。

Co-rewarding 在數(shù)學(xué)相關(guān)的訓(xùn)練集上進行訓(xùn)練，在代碼生成的基準(zhǔn)上依舊取得性能提升。

Co-rewarding 在 MMLU-Pro 和 IFEval 等多任務(wù)和通用領(lǐng)域基準(zhǔn)上性能保持穩(wěn)定，未犧牲模型通用領(lǐng)域的性能。

Co-rewarding 帶來的啟發(fā)

自監(jiān)督強化學(xué)習(xí)的關(guān)鍵，在于構(gòu)造更 “可靠” 的監(jiān)督信號來維持穩(wěn)定和持續(xù)的學(xué)習(xí)。通過引入互補視角的獎勵監(jiān)督機制，Co-rewarding 證明了：即便沒有人工標(biāo)注，通過合理可靠的自我獎勵機制，大模型也可以穩(wěn)定、持續(xù)地誘導(dǎo)出推理能力。這反應(yīng)了自監(jiān)督強化學(xué)習(xí)的潛力，在擺脫對于標(biāo)注數(shù)據(jù)依賴的同時，更加符合 Scaling Law 的精神，能夠更加容易的獲取到更多的數(shù)據(jù)用于模型訓(xùn)練。

作者介紹

張子卓、朱嘉寧（現(xiàn) UT Austin 博后）、周展科、李烜、馮嘯來自香港浸會大學(xué)計算機系可信機器學(xué)習(xí)和推理組，葛馨木和趙孜鏵來自上海交通大學(xué)，團隊導(dǎo)師為韓波教授和姚江超教授。本研究工作的作者均在 NeurIPS、ICML、ICLR 等機器學(xué)習(xí)和人工智能頂會上發(fā)表多篇論文，主要研究方向為大語言模型推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.