兩個LLM互相對線，推理起飛：康奈爾團隊發(fā)布大模型版類GAN訓(xùn)練法

2025-12-08 16:16:12　來源: 機器之心Pro

河北舉報

分享至

大型語言模型（LLMs）雖然通過可驗證獎勵的強化學(xué)習(xí)（RLVR）取得了顯著進展，但仍然在很大程度上依賴外部監(jiān)督（例如人工標(biāo)注的數(shù)據(jù)）。自博弈（self-play）提供了一種有前景的替代方案，使模型能夠通過與自身反復(fù)對抗來學(xué)習(xí)，從而減少對外部監(jiān)督的依賴。GAN 則提供了另一種更具吸引力的訓(xùn)練范式：通過對抗式地訓(xùn)練兩個模型，其中一個模型專注于生成具有挑戰(zhàn)性的任務(wù)或?qū)箻颖?，另一個模型則專注于解決這些任務(wù)。

于是問題來了：LLM 是否也可以像 GAN 一樣進行訓(xùn)練？我們的希望是，通過賦予每個模型不同的專門化角色，可以促進持續(xù)的競爭與共同進化，從而讓它們能夠解決單一模型可能從根本上無法勝任的任務(wù)。

為解決這一難題，來自康奈爾大學(xué)的 NLP 團隊提出了PasoDoble，一個面向大語言模型的全新類 GAN 訓(xùn)練框架。PasoDoble 通過對抗式地訓(xùn)練兩個幾乎相同的模型：Proposer 用于生成帶有標(biāo)準(zhǔn)答案的高難度問題，Solver 則嘗試解決這些問題。我們進一步利用高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語料，并引入離線訓(xùn)練范式，以緩解潛在的訓(xùn)練不穩(wěn)定性。值得注意的是，PasoDoble 在整個訓(xùn)練過程中不依賴任何監(jiān)督信號

論文題目：Better LLM Reasoning via Dual-play
論文鏈接：https://arxiv.org/pdf/2511.10395
項目主頁：https://hcy123902.github.io/PasoDoble/
作者介紹：共同一作張正鑫，黃誠瑜為康奈爾大學(xué)計算機系博士，李奡翀為主要貢獻者之一，Claire Cardie 為通訊作者以及導(dǎo)師。

圖為使用 Qwen3-1.7B 在 MATH-500 上評估的 Solver 在不同訓(xùn)練步驟中的訓(xùn)練動態(tài)。Solver 的整體準(zhǔn)確率在無任何監(jiān)督的情況下從 45% 提升至 67%。它在第 20 步之前就超過了基線模型，并在第 360 步達到最高的 67%。重要的是，PasoDoble 能夠在數(shù)百個更新步驟中保持持續(xù)提升，展現(xiàn)出遠強于相關(guān)工作 R-Zero 的擴展能力。

我們?yōu)槊總€問題采樣六個回答，并報告 pass@1 的準(zhǔn)確率?；€模型按照 Qwen 技術(shù)報告中的設(shè)置，使用 4-shot 提示進行評估；其他模型則使用 0-shot 提示進行評估。

我們發(fā)現(xiàn)，在完全無監(jiān)督的情況下，PasoDoble 使 Qwen3-1.7B-Base 的數(shù)學(xué)任務(wù)平均性能提升約13 個點，使 Qwen3-4B-Base 提升約16 個點。

PasoDoble 方法概覽

PasoDoble 由四個組件構(gòu)成：Proposer (π_p)、Solver (π_s)、Knowledge Base (K)，以及用于離線訓(xùn)練的題目緩沖區(qū)（Question Buffer）。Proposer 和 Solver 均從同一個預(yù)訓(xùn)練模型初始化，隨后會進行初始的冷啟動訓(xùn)練。

在在線訓(xùn)練中，每次迭代都會從知識庫中采樣一個知識片段（1），用于提示 Proposer 生成一批問答（QA）對（2）。隨后，Solver 會針對每個問題生成多個解答嘗試（3–4）。Solver 根據(jù)其答案是否與 Proposer 的標(biāo)準(zhǔn)答案一致來獲得正確性獎勵（5）。為評估問題的難度，我們計算 Solver 在該問題上的準(zhǔn)確率（6），并將 Proposer 的難度獎勵定義為該準(zhǔn)確率的反比（7）；同時，還會加入一個多樣性獎勵以鼓勵生成新穎的問題（8）。這些獎勵被組合得到 Proposer 的最終獎勵（9）。只有那些具有非平凡難度、被判定為有效的問題才會被保留下來用于 Solver 的訓(xùn)練（10）。當(dāng)至少存在一個有效問題時，兩個模型都會同步更新（11），從而形成完整的在線訓(xùn)練循環(huán)。

在離線訓(xùn)練中，Proposer 會在 Solver 凍結(jié)的情況下首先更新若干步（11），并將生成的有效問題存入 Question Buffer（12）。隨后，將 Proposer 凍結(jié)，Solver 則利用 Question Buffer 中的問題進行更新（13），從而構(gòu)建其訓(xùn)練數(shù)據(jù)集。

Proposer Reward 是如何設(shè)計呢？

簡而言之，Proposer 會因為生成困難（即 Solver 準(zhǔn)確率低）且多樣（與近期問題不相似）的問題而獲得獎勵，但前提是這些問題是有效且格式良好的。

Proposer 的任務(wù)是生成既具有挑戰(zhàn)性又多樣化的數(shù)學(xué)問題。為引導(dǎo)這種行為，我們設(shè)計了一個由難度 reward多樣性 reward兩部分組成的 reward 機制。

1. 難度 Reward

我們希望 Proposer 能生成有挑戰(zhàn)性的問題 —— 即 Solver 不能輕易答對的問題。我們用 Solver 的通過率來衡量難度：

通過率 p_i 越低，問題越難，獎勵就越高。具體地，難度獎勵為：

即使一個問題非常簡單（例如 p_i = 1.0），獎勵仍然為 0.1，以確保 Proposer 始終傾向于生成有效的問題，而不是生成錯誤或無意義的問題。

2. 多樣性 Reward

我們還希望避免退化現(xiàn)象，例如 Proposer 反復(fù)生成同一種類型的問題。為此，我們將新生成的問題 q_i 與歷史緩沖區(qū) H 中的最近問題進行比較，采用 Jaccard 相似度：

如果兩個問題過于相似，我們將其視為重復(fù)：

因此，多樣性獎勵定義為：

簡而言之：問題越獨特，獎勵越高。

3. Proposer 最終獎勵

我們只有在問題既有效又具有多樣性的情況下才會對 Proposer 進行獎勵：

有效性（Validity）：通過率不能過低：

多樣性（Diversity）：不能過于重復(fù)：

最終獎勵為:

Solver Reward 是如何設(shè)計呢？

Solver 的訓(xùn)練僅依賴純正確性獎勵。

其中指標(biāo)函數(shù)定義為：

實驗設(shè)置

我們在多種模型規(guī)模上進行實驗，包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base，將它們分別用作 Proposer 和 Solver，然后執(zhí)行冷啟動訓(xùn)練。在冷啟動之后，我們使用 GRPO 同時訓(xùn)練 Proposer 和 Solver，并在在線與離線兩種設(shè)置下進行實驗。更多超參數(shù)設(shè)置參見論文附錄 B。我們使用 MegaMath-Pro-Max 預(yù)訓(xùn)練數(shù)據(jù)集作為知識庫 K。

實驗結(jié)果

主流數(shù)學(xué) benchmark 的結(jié)果

我們在競賽級數(shù)學(xué)基準(zhǔn)上評估了我們的方法，包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳結(jié)果，下劃線表示第二優(yōu)。

PasoDoble 能顯著提升模型在數(shù)學(xué)基準(zhǔn)上的表現(xiàn)，尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外，PasoDoble 的性能提升隨著模型規(guī)模的增大而持續(xù)增強。

Qwen2.5-0.5B-Base 模型的實驗結(jié)果。

Qwen3-0.6B-Base 模型的實驗結(jié)果。

Qwen2.5-1.5B-Base 模型的實驗結(jié)果。

Qwen3-1.7B-Base 模型的實驗結(jié)果。

Qwen2.5-3B-Base 模型的實驗結(jié)果。

Qwen3-4B-Base 模型的實驗結(jié)果。

Proposer 與隨機獎勵：Solver 到底學(xué)到了什么？

先前的研究表明，即使使用隨機獎勵也可能帶來非平凡的提升。因此，我們在 Qwen3-1.7B 模型上采用在線訓(xùn)練范式進行了相關(guān)實驗。

隨機獎勵的實驗結(jié)果。

如上表所示，使用完全隨機獎勵進行訓(xùn)練會使 Solver 在所有數(shù)學(xué)基準(zhǔn)上的平均準(zhǔn)確率幾乎跌至零。即便我們強制 Solver 以正確格式作答（部分隨機獎勵），其準(zhǔn)確率仍然大幅下降。與我們原始設(shè)置形成的鮮明對比清楚地表明：Solver 在訓(xùn)練過程中確實從 Proposer 的答案中受益匪淺

Proposer 生成的問題是由記憶驅(qū)動的，還是由推理驅(qū)動的？

Qwen3-1.7B-Base 在不同提示前綴比例下（即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的問題）對 Proposer 在第 200 個檢查點生成的問題進行評估，其 Exact Match（EM）和 ROUGE-L得分如上所示。所有評估均使用貪心解碼，并且不使用聊天模板。

我們通過上表進行了分析。即使提示問題前綴重疊達到 80%，EM 也僅約為 12%（使用知識庫）和 31%（不使用知識庫），這表明絕大多數(shù)生成的問題來源于推理而非記憶。

總結(jié)

我們的研究表明，大語言模型可以通過類似 GAN 的雙模型對抗式訓(xùn)練來提升數(shù)學(xué)推理能力，并在多個數(shù)學(xué)基準(zhǔn)上取得可量化的性能提升。該方法還通過利用預(yù)訓(xùn)練知識增強后訓(xùn)練效果，在預(yù)訓(xùn)練與后訓(xùn)練之間建立了一座橋梁。

盡管如此，我們的方法也存在局限性，例如在 GPQA 等領(lǐng)域外任務(wù)中并未帶來性能提升。未來的研究將探索將該框架拓展到其他領(lǐng)域，如代碼與事實問答，并進一步研究更廣泛的多模型訓(xùn)練范式，包括協(xié)作式、競爭式以及角色專門化等設(shè)置。這些方向可能對于解決遠比單一模型能可靠處理的任務(wù)更加復(fù)雜的問題至關(guān)重要。

參考文獻:

[1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

[2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

[3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

[4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

[5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

[6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

[7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.