国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)據(jù)缺少標(biāo)注RL能誘導(dǎo)模型推理嗎?Co-rewarding提供自監(jiān)督RL方案

0
分享至



本文來自香港浸會大學(xué)和上海交通大學(xué)的可信機器學(xué)習(xí)和推理組,已被ICLR 2026接收。

目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成為誘導(dǎo)大語言模型推理能力的主流技術(shù)路線。然而,RLVR 需要高質(zhì)量標(biāo)注數(shù)據(jù)來監(jiān)督獎勵獲取,這一點是其可擴展性上的主要瓶頸。

一旦走向不需要標(biāo)注數(shù)據(jù)的 “自獎勵(Self-rewarding)” 強化學(xué)習(xí)訓(xùn)練,模型往往會迅速陷入訓(xùn)練崩潰(Training Collapse),看似獲取的獎勵(Reward)越來越高,實際上卻是在利用自我獎勵規(guī)則中的漏洞進行獎勵投機(Reward Hacking),而非真正答對問題獲取獎勵。

究竟什么樣的強化學(xué)習(xí)(Reinforcement Learning,RL)訓(xùn)練范式,才能在無需真實(Ground-truth)答案標(biāo)注的情況下,實現(xiàn)穩(wěn)定的 RL 訓(xùn)練,誘導(dǎo)出模型的推理能力?

針對這一挑戰(zhàn),來自香港浸會大學(xué)和上海交通大學(xué)的可信機器學(xué)習(xí)和推理組提出了一個全新的自監(jiān)督 RL 框架 ——Co-rewarding。該框架通過在數(shù)據(jù)端或模型端引入互補視角的自監(jiān)督信號,穩(wěn)定獎勵獲取,提升 RL 過程中模型獎勵投機的難度,從而有效避免 RL 訓(xùn)練崩潰,實現(xiàn)穩(wěn)定訓(xùn)練和模型推理能力的誘導(dǎo)。



  • 論文標(biāo)題:Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
  • 論文鏈接:https://openreview.net/forum?id=fDk95XPsCU
  • 代碼鏈接:https://github.com/bigai-ai/LIFT-humanoid
  • Huggingface 鏈接:https://huggingface.co/collections/TMLR-Group-HF/co-rewarding

自我獎勵策略訓(xùn)練模型為什么會導(dǎo)致訓(xùn)練崩潰?

在缺乏標(biāo)注數(shù)據(jù)的場景下,目前的自我獎勵策略均是通過強化模型的自信心來進行訓(xùn)練,主要分為兩個類別:(1)基于熵(Entropy)的方法:通過最小化模型輸出內(nèi)容的熵(Entropy),或最大化自我確定性(Self-certainty)等指標(biāo)來強化模型的信心;(2)基于一致的方法:讓模型針對同一個問題多次輸出后,進行多數(shù)投票(Majority-voting)得到偽標(biāo)簽(Pseudo label)來監(jiān)督 RL 訓(xùn)練。



圖 1:左邊 4 個圖為訓(xùn)練過程中驗證集上的性能曲線。右邊 2 個圖為訓(xùn)練過程中的獎勵(Reward)曲線。

無論是哪一類方法,它們都是讓當(dāng)前模型從單一視角產(chǎn)生信號監(jiān)督自己。這極易讓模型進行獎勵投機,以一種最容易方式拿到獎勵,而不是產(chǎn)生正確的推理路徑。這就像讓學(xué)生自己監(jiān)督自己學(xué)習(xí)時,學(xué)生會自己 “開小差” 一樣。如圖 1 所示,模型會發(fā)現(xiàn)重復(fù)輸出部分 token 可以使得熵最??;模型輸出一個一致但錯誤的答案,也可以拿到獎勵。這就模型在 RL 的自我獎勵機制中以投機的方式獲取到最高獎勵,獎勵獲取與推理正確性逐步脫鉤,進而導(dǎo)致訓(xùn)練崩潰。



圖 2:Co-rewarding 框架示意圖。不同于單視角自我監(jiān)督的方法,(a) Co-rewarding 引入其他視角互補的監(jiān)督信號;(b) 從數(shù)據(jù)視角,Co-rewarding-I 使用原題和改寫題進行相互監(jiān)督;(c) 從模型視角,Co-rewarding-II 使用一個教師參考模型產(chǎn)生偽標(biāo)簽監(jiān)督當(dāng)前模型。

Co-rewarding 提出關(guān)鍵轉(zhuǎn)變:互補視角進行監(jiān)督和獎勵

針對這一挑戰(zhàn),Co-rewarding 提出避免訓(xùn)練崩潰的關(guān)鍵轉(zhuǎn)變:不再相信單一視角的監(jiān)督信號,而是主動引入 “互補視角的監(jiān)督”,進而增加模型獎勵投機的難度。具體來看,Co-rewarding 分別從數(shù)據(jù)視角和模型視角給出兩種實現(xiàn)。

方法一:Co-rewarding-I(數(shù)據(jù)視角)

如圖 2 (b) 所示,Co-rewarding-I 從數(shù)據(jù)層面引入互補監(jiān)督信號,對原問題構(gòu)建語義等價但表述不同的改寫問題(Rephrased Questions),利用原問題與改寫問題之間的 “類比一致性” 進行相互監(jiān)督:

  • 對原題與改寫題分別進行多次采樣,生成回答。
  • 用原題回答進行多數(shù)投票得到的偽標(biāo)簽去監(jiān)督改寫題,用改寫題回答多數(shù)投票得到的偽標(biāo)簽監(jiān)督原題。

這種設(shè)計的關(guān)鍵在于:模型必須在不同表述下保持推理結(jié)果的一致性,才能持續(xù)獲得獎勵。相比單一視角下的一致性自洽,跨問題的一致性顯著提高了獎勵投機的難度,從而有效緩解訓(xùn)練崩潰問題。

方法二:Co-rewarding-II(模型視角)

如圖 2 (c) 所示,Co-rewarding-II 從模型層面解開監(jiān)督信號與當(dāng)前 Policy 模型訓(xùn)練之間的耦合,即監(jiān)督信號所需要的偽標(biāo)簽不是從當(dāng)前 Policy 模型得到,而是一個另外的教師模型,這進一步降低了當(dāng)前 Policy 模型對于獎勵信號的控制,增強了獎勵投機的難度:

  • 教師模型針對一個問題,生成多次推理回答,并多數(shù)投票產(chǎn)生偽標(biāo)簽。
  • 學(xué)生 Policy 模型基于教師提供的偽標(biāo)簽進行獎勵獲取和 RL 訓(xùn)練。
  • 教師模型無需引入一個額外的模型,而是由學(xué)生模型通過 EMA(指數(shù)滑動平均) 更新參考模型(Reference Model)得到。

這種 “慢更新教師 + 快更新學(xué)生” 的結(jié)構(gòu),本質(zhì)上是一種時間解耦的自蒸餾(Self-distillation)機制,能夠有效避免當(dāng)前 Policy 模型對于獎勵信號的操縱,從而顯著降低訓(xùn)練崩潰風(fēng)險。

實驗結(jié)果:不僅更加穩(wěn)定,而且性能更強

在多個訓(xùn)練集(MATH、DAPO-14k)、模型系列(Qwen2.5/3、Llama)上進行實驗。并在多個數(shù)學(xué)推理、代碼生成和通用領(lǐng)域基準(zhǔn)數(shù)據(jù)集上進行評估,Co-rewarding 均展現(xiàn)出相比于現(xiàn)有自我獎勵方法的優(yōu)勢:



表 1:在 MATH 訓(xùn)練集上的性能對比,顏色越深表示相同組內(nèi)性能越好。Co-rewarding-I 相比于最好的自我獎勵的基線方法在 4 個數(shù)學(xué)相關(guān)的基準(zhǔn)上的平均性能提升達到 + 4.42%



表 2:在 DAPO-14K 訓(xùn)練集上的性能對比,顏色越深表示相同組內(nèi)性能越好。Co-rewarding-II 相比于最好的自我獎勵基線方法在 4 個數(shù)學(xué)相關(guān)的基準(zhǔn)上的平均提升達到 + 12.90%

  • 從表 1 中得到,在 4 個數(shù)學(xué)推理基準(zhǔn)上,相比于最好的自獎勵方法,Co-rewarding-I 平均性能提升達到 + 4.42%。從表 2 中得到,Co-rewarding-II 平均性能提升達到 + 12.90%。

  • 在一些情況下,Co-rewarding 甚至超越了真實答案進行監(jiān)督的 RL 訓(xùn)練得到模型,例如 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上達到了 Pass@1 為 94.01%。

  • 從圖 1 中觀察得到,Co-rewarding 在訓(xùn)練過程中,驗證集上的性能曲線持續(xù)提升,獎勵持續(xù)獲取,無訓(xùn)練崩潰和獎勵劫持現(xiàn)象發(fā)生。

  • Co-rewarding 在數(shù)學(xué)相關(guān)的訓(xùn)練集上進行訓(xùn)練,在代碼生成的基準(zhǔn)上依舊取得性能提升。

  • Co-rewarding 在 MMLU-Pro 和 IFEval 等多任務(wù)和通用領(lǐng)域基準(zhǔn)上性能保持穩(wěn)定,未犧牲模型通用領(lǐng)域的性能。

Co-rewarding 帶來的啟發(fā)

自監(jiān)督強化學(xué)習(xí)的關(guān)鍵,在于構(gòu)造更 “可靠” 的監(jiān)督信號來維持穩(wěn)定和持續(xù)的學(xué)習(xí)。通過引入互補視角的獎勵監(jiān)督機制,Co-rewarding 證明了:即便沒有人工標(biāo)注,通過合理可靠的自我獎勵機制,大模型也可以穩(wěn)定、持續(xù)地誘導(dǎo)出推理能力。這反應(yīng)了自監(jiān)督強化學(xué)習(xí)的潛力,在擺脫對于標(biāo)注數(shù)據(jù)依賴的同時,更加符合 Scaling Law 的精神,能夠更加容易的獲取到更多的數(shù)據(jù)用于模型訓(xùn)練。

作者介紹

張子卓、朱嘉寧(現(xiàn) UT Austin 博后)、周展科、李烜、馮嘯來自香港浸會大學(xué)計算機系可信機器學(xué)習(xí)和推理組,葛馨木和趙孜鏵來自上海交通大學(xué),團隊導(dǎo)師為韓波教授和姚江超教授。本研究工作的作者均在 NeurIPS、ICML、ICLR 等機器學(xué)習(xí)和人工智能頂會上發(fā)表多篇論文,主要研究方向為大語言模型推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

芭比衣櫥
2026-02-28 07:02:51
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

老吳教育課堂
2026-02-28 21:05:07
烏克蘭為何突然解散國際軍團?真相并非一些媒體所報道

烏克蘭為何突然解散國際軍團?真相并非一些媒體所報道

史政先鋒
2026-02-28 16:57:37
凌晨宣戰(zhàn)清晨求和!巴基斯坦再次向世界展示中械軍實力的降維打擊

凌晨宣戰(zhàn)清晨求和!巴基斯坦再次向世界展示中械軍實力的降維打擊

黑鷹觀軍事
2026-02-28 22:31:50
快訊!美以襲擊伊朗,伊朗進行反擊,馬克龍表態(tài)

快訊!美以襲擊伊朗,伊朗進行反擊,馬克龍表態(tài)

環(huán)球網(wǎng)資訊
2026-02-28 20:36:25
巴拿馬總統(tǒng)徹底傻眼!發(fā)現(xiàn)強吞中國18億資產(chǎn),竟是自掘墳?zāi)?>
    </a>
        <h3>
      <a href=阿離家居
2026-02-28 11:47:01
“考研6年,卻敗給了一條黑褲襪”,90后女生活成研王爺,被群嘲

“考研6年,卻敗給了一條黑褲襪”,90后女生活成研王爺,被群嘲

妍妍教育日記
2026-02-27 18:35:54
澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

朗威談星座
2026-02-27 17:30:14
戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

墨印齋
2026-02-26 06:21:37
伊朗終于發(fā)狠了,打擊力度升級,關(guān)鍵時刻,掏出中國一王牌武器

伊朗終于發(fā)狠了,打擊力度升級,關(guān)鍵時刻,掏出中國一王牌武器

史智文道
2026-02-28 16:27:37
伊朗稱導(dǎo)彈襲擊已致超200名美軍人員傷亡,摧毀美雷達!警告特朗普:目前只是清庫存,將投入“從未面世的神秘武器”

伊朗稱導(dǎo)彈襲擊已致超200名美軍人員傷亡,摧毀美雷達!警告特朗普:目前只是清庫存,將投入“從未面世的神秘武器”

每日經(jīng)濟新聞
2026-02-28 23:29:39
梅德韋杰夫:美國對伊朗發(fā)動襲擊暴露“真面目”

梅德韋杰夫:美國對伊朗發(fā)動襲擊暴露“真面目”

環(huán)球網(wǎng)資訊
2026-02-28 18:15:47
37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

調(diào)侃國際觀點
2026-02-28 08:55:51
22歲男孩樊宸鑠去世!是家中獨子,死因曝光,網(wǎng)友:名字取大了

22歲男孩樊宸鑠去世!是家中獨子,死因曝光,網(wǎng)友:名字取大了

天天熱點見聞
2026-02-28 11:14:44
日本公開一幅祝允明真跡!這才是真草書,字字都是“金字塔尖”!

日本公開一幅祝允明真跡!這才是真草書,字字都是“金字塔尖”!

書畫博學(xué)
2026-01-15 09:27:02
男子春節(jié)前將牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其長出15厘米“黑色叢林”!

男子春節(jié)前將牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其長出15厘米“黑色叢林”!

上觀新聞
2026-02-26 17:19:08
臺積電前高管評價中國芯片:東西做的不好,但關(guān)鍵時期能拿出來用

臺積電前高管評價中國芯片:東西做的不好,但關(guān)鍵時期能拿出來用

星星會墜落
2026-02-26 20:53:30
葡體再造鋒霸!6690萬歐賣約克雷斯 2220萬歐簽西乙金靴 29球6助

葡體再造鋒霸!6690萬歐賣約克雷斯 2220萬歐簽西乙金靴 29球6助

智道足球
2026-02-28 17:16:28
亞歷山大談多爾特被驅(qū)逐:我沒看到發(fā)生了什么,但他只是想贏

亞歷山大談多爾特被驅(qū)逐:我沒看到發(fā)生了什么,但他只是想贏

懂球帝
2026-02-28 21:46:40
吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

世界體壇觀察家
2026-02-28 08:43:10
2026-03-01 00:39:01
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實目標(biāo)已經(jīng)擺上臺面 不達目的不罷休

頭條要聞

媒體:美以的真實目標(biāo)已經(jīng)擺上臺面 不達目的不罷休

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

游戲
數(shù)碼
健康
親子
時尚

所有人保持嘴角不變!生化危機:安魂曲里昂騷話大盤點

數(shù)碼要聞

小米Tag海外發(fā)布:僅重10克,兼容谷歌、蘋果查找網(wǎng)絡(luò)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

嬰兒吃的“洋”輔食,九成靠代工貼牌?涉及上市公司

這6款發(fā)色居然這么火?50張圖可以直接給tony

無障礙瀏覽 進入關(guān)懷版