国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

以判別式監(jiān)督學習強化推理LLM,解決難度偏差和熵崩塌難題

0
分享至



作者介紹:德州農工大學博士生李港,專注于設計和應用高效算法到大規(guī)模機器學習和人工智能任務,包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發(fā)表數篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發(fā)布了針對不平衡分類任務的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對群體相對策略優(yōu)化(GRPO)作為大型推理模型(LRM)強化學習方法的廣泛關注。

在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優(yōu)化目標,發(fā)現了由其群體相對優(yōu)勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統(tǒng)判別式監(jiān)督學習方法之間的聯(lián)系。

基于這些分析發(fā)現,作者提出了一個新穎的判別式約束優(yōu)化(DisCO)框架來強化大型推理模型。該框架基于判別式學習的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

與 GRPO 及其變體相比,DisCO 具有以下優(yōu)勢:

  1. 它通過采用判別式優(yōu)化目標完全消除了難度偏差
  2. 通過使用非裁剪評分函數和約束優(yōu)化方法,解決了 GRPO 及其變體的熵不穩(wěn)定性,得到了長期穩(wěn)定的訓練動態(tài);
  3. 它允許結合先進的判別式學習技術來解決數據不平衡問題,例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

在增強大型模型的數學推理能力方面的實驗表明,DisCO 大幅優(yōu)于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應長度(max response length)為8k 的 DisCO甚至優(yōu)于最大響應長度為 32k 的 GRPO。

論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。



  • 論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
  • 論文地址:https://arxiv.org/abs/2505.12366
  • 開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
  • GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問題分析

GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優(yōu)勢函數。當采用期望形式而非經驗平均時,其優(yōu)化目標為:







其中:



從上面的變式分析中,作者有兩個重要發(fā)現:

1. 與判別式監(jiān)督學習的聯(lián)系



2. 難度偏差(Difficulty Bias)





提出方法:判別式強化學習

1. 判別式目標函數(類似 AUC 優(yōu)化)

基于上述與 AUC 最大化聯(lián)系的分析發(fā)現,作者直接從判別式學習的原則重新設計了新的判別式強化學習框架:



為了避免其他研究發(fā)現的由裁剪操作引起的熵崩塌現象,作者設計選擇非裁剪評分函數, 例如



2. 基于 DRO 的判別式目標函數(類似局部 AUC 優(yōu)化)

基于判別式學習原則設計目標函數的一個優(yōu)點是能夠利用文獻中先進監(jiān)督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰(zhàn)就是稀疏獎勵,這導致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數量可能大大超過正確答案的數量,這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

為了解決這個問題,作者利用局部 AUC 優(yōu)化設計了分布魯棒性優(yōu)化(DRO)目標:



3. 約束優(yōu)化(穩(wěn)定訓練)

為了穩(wěn)定訓練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優(yōu)化問題:



不同于 TRPO 的二階優(yōu)化方法,作者采用近期發(fā)展的一種非凸不等式約束優(yōu)化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):





實驗結果與分析

測試效果對比

作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數學基準數據集上評估了 DisCO 和其他基線方法。

從下表觀察到,作者提出的 DisCO 方法始終顯著優(yōu)于其他基線方法。值得注意的是,訓練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優(yōu)于所有基線方法,比 GRPO 平均提高了 3.5%。



在上面這張表格中,作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓練或測試時使用的最大響應長度,限制模型能生成多長的推理結果。 其中用陰影標注的模型,是其他團隊所訓練的成果,相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結果要么來自現有模型的直接評估,要么是基于不同方法訓練后得到的結果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數據集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。



訓練動態(tài)對比

隨著大規(guī)模強化學習訓練成為改進推理模型的核心技術,學習算法的穩(wěn)定性至關重要,因為學習穩(wěn)定性決定了學習算法是否適用于大規(guī)模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態(tài)。

從下圖對 1.5B 和 7B 模型進行微調的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩(wěn)定的生成熵。

相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩(wěn)定,訓練獎勵不斷增加,生成熵保持相對穩(wěn)定。



上圖展示不同方法在訓練過程中的動態(tài)表現:左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況,右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況,獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值(反映輸出的多樣性)隨訓練步數的變化趨勢。

消融實驗



從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數是至關重要的。



總結

在這項工作中,作者提出了一種新的判別式約束優(yōu)化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數學推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優(yōu)越性。

雖然這項工作主要關注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監(jiān)督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優(yōu)化微調更大的模型或其他推理任務留作后續(xù)研究。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
幫助中國人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

幫助中國人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

南方都市報
2026-03-02 18:51:01
伊朗允許外國留學生無需出境許可經陸路口岸離境

伊朗允許外國留學生無需出境許可經陸路口岸離境

閃電新聞
2026-03-02 15:57:15
哈梅內伊之死和伊朗性史

哈梅內伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

樂悠悠娛樂
2026-03-01 10:27:25
伊朗遇襲女子小學已有165死、96傷 課本和書包上沾滿了學生的血

伊朗遇襲女子小學已有165死、96傷 課本和書包上沾滿了學生的血

閃電新聞
2026-03-02 13:53:00
4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

娛說瑜悅
2026-03-02 14:18:06
美伊沖突再次升級,全球股市失血,油價金價還能漲多久?|商業(yè)微史記

美伊沖突再次升級,全球股市失血,油價金價還能漲多久?|商業(yè)微史記

界面新聞
2026-03-02 15:51:05
哈梅內伊沒有“遇害”

哈梅內伊沒有“遇害”

西樓飲月
2026-03-02 22:33:08
油價或飆升至每桶130美元?伊朗警告:若油氣設施遭襲,將摧毀地區(qū)所有國家油氣設施

油價或飆升至每桶130美元?伊朗警告:若油氣設施遭襲,將摧毀地區(qū)所有國家油氣設施

紅星新聞
2026-03-02 11:33:13
不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

毒sir財經
2026-03-02 21:00:47
救命,國產爛片又刷新下限了

救命,國產爛片又刷新下限了

喵喵娛樂團
2026-02-28 16:41:47
比亞迪官宣2026年3月5日召開"顛覆性技術發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

比亞迪官宣2026年3月5日召開"顛覆性技術發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

金融界
2026-03-02 16:59:36
甘蔗立大功!醫(yī)生發(fā)現:甘蔗可能對這4種慢性病有好處!可以試試

甘蔗立大功!醫(yī)生發(fā)現:甘蔗可能對這4種慢性病有好處!可以試試

荊醫(yī)生科普
2026-03-02 17:05:04
從設計院到包子店:一位45歲建筑師靠“打零工”重啟人生

從設計院到包子店:一位45歲建筑師靠“打零工”重啟人生

北青深一度
2026-02-28 16:09:26
69歲伊朗前總統(tǒng),內賈德遇襲身亡

69歲伊朗前總統(tǒng),內賈德遇襲身亡

上觀新聞
2026-03-02 10:57:07
演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

三湘都市報
2026-03-02 20:33:03
伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

毛豆論道
2026-03-02 17:01:06
記者:曼城愿5000萬出售皇馬目標!切爾西年度虧損3.55億創(chuàng)紀錄!

記者:曼城愿5000萬出售皇馬目標!切爾西年度虧損3.55億創(chuàng)紀錄!

足球偵探
2026-03-02 18:25:22
2026比亞迪技術大年:DM?i 6.0登場,新一代刀片電池全面上車

2026比亞迪技術大年:DM?i 6.0登場,新一代刀片電池全面上車

趣味萌寵的日常
2026-03-02 16:28:34
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網
2026-03-02 21:29:04
2026-03-02 23:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

油價飆升 美伊沖突將如何攪動全球經濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

數碼
游戲
親子
手機
公開課

數碼要聞

英偉達發(fā)布595.71 WHQL驅動,修復顯卡風扇“翻車”問題

《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

手機要聞

iPhone 17系列:國內銷量已破2200萬!網友:華為仍需努力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版