国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

兩個LLM互相對線,推理起飛:康奈爾團隊發(fā)布大模型版類GAN訓練法

0
分享至



大型語言模型(LLMs)雖然通過可驗證獎勵的強化學習(RLVR)取得了顯著進展,但仍然在很大程度上依賴外部監(jiān)督(例如人工標注的數(shù)據(jù))。自博弈(self-play)提供了一種有前景的替代方案,使模型能夠通過與自身反復對抗來學習,從而減少對外部監(jiān)督的依賴。GAN 則提供了另一種更具吸引力的訓練范式:通過對抗式地訓練兩個模型,其中一個模型專注于生成具有挑戰(zhàn)性的任務或?qū)箻颖,另一個模型則專注于解決這些任務。

于是問題來了:LLM 是否也可以像 GAN 一樣進行訓練?我們的希望是,通過賦予每個模型不同的專門化角色,可以促進持續(xù)的競爭與共同進化,從而讓它們能夠解決單一模型可能從根本上無法勝任的任務。

為解決這一難題,來自康奈爾大學的 NLP 團隊提出了PasoDoble,一個面向大語言模型的全新類 GAN 訓練框架。PasoDoble 通過對抗式地訓練兩個幾乎相同的模型:Proposer 用于生成帶有標準答案的高難度問題,Solver 則嘗試解決這些問題。我們進一步利用高質(zhì)量的數(shù)學預訓練語料,并引入離線訓練范式,以緩解潛在的訓練不穩(wěn)定性。值得注意的是,PasoDoble 在整個訓練過程中不依賴任何監(jiān)督信號



  • 論文題目:Better LLM Reasoning via Dual-play
  • 論文鏈接:https://arxiv.org/pdf/2511.10395
  • 項目主頁:https://hcy123902.github.io/PasoDoble/
  • 作者介紹:共同一作張正鑫,黃誠瑜為康奈爾大學計算機系博士,李奡翀為主要貢獻者之一,Claire Cardie 為通訊作者以及導師。



圖為使用 Qwen3-1.7B 在 MATH-500 上評估的 Solver 在不同訓練步驟中的訓練動態(tài)。Solver 的整體準確率在無任何監(jiān)督的情況下從 45% 提升至 67%。它在第 20 步之前就超過了基線模型,并在第 360 步達到最高的 67%。重要的是,PasoDoble 能夠在數(shù)百個更新步驟中保持持續(xù)提升,展現(xiàn)出遠強于相關工作 R-Zero 的擴展能力。



我們?yōu)槊總問題采樣六個回答,并報告 pass@1 的準確率;模型按照 Qwen 技術報告中的設置,使用 4-shot 提示進行評估;其他模型則使用 0-shot 提示進行評估。

我們發(fā)現(xiàn),在完全無監(jiān)督的情況下,PasoDoble 使 Qwen3-1.7B-Base 的數(shù)學任務平均性能提升約13 個點,使 Qwen3-4B-Base 提升約16 個點。

PasoDoble 方法概覽

PasoDoble 由四個組件構(gòu)成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于離線訓練的題目緩沖區(qū)(Question Buffer)。Proposer 和 Solver 均從同一個預訓練模型初始化,隨后會進行初始的冷啟動訓練。

在在線訓練中,每次迭代都會從知識庫中采樣一個知識片段(1),用于提示 Proposer 生成一批問答(QA)對(2)。隨后,Solver 會針對每個問題生成多個解答嘗試(3–4)。Solver 根據(jù)其答案是否與 Proposer 的標準答案一致來獲得正確性獎勵(5)。為評估問題的難度,我們計算 Solver 在該問題上的準確率(6),并將 Proposer 的難度獎勵定義為該準確率的反比(7);同時,還會加入一個多樣性獎勵以鼓勵生成新穎的問題(8)。這些獎勵被組合得到 Proposer 的最終獎勵(9)。只有那些具有非平凡難度、被判定為有效的問題才會被保留下來用于 Solver 的訓練(10)。當至少存在一個有效問題時,兩個模型都會同步更新(11),從而形成完整的在線訓練循環(huán)。

在離線訓練中,Proposer 會在 Solver 凍結(jié)的情況下首先更新若干步(11),并將生成的有效問題存入 Question Buffer(12)。隨后,將 Proposer 凍結(jié),Solver 則利用 Question Buffer 中的問題進行更新(13),從而構(gòu)建其訓練數(shù)據(jù)集。

Proposer Reward 是如何設計呢?

簡而言之,Proposer 會因為生成困難(即 Solver 準確率低)且 多樣(與近期問題不相似)的問題而獲得獎勵,但前提是這些問題是有效且格式良好的。

Proposer 的任務是生成既具有挑戰(zhàn)性又多樣化的數(shù)學問題。為引導這種行為,我們設計了一個由難度 reward多樣性 reward兩部分組成的 reward 機制。

1. 難度 Reward

我們希望 Proposer 能生成有挑戰(zhàn)性的問題 —— 即 Solver 不能輕易答對的問題。我們用 Solver 的通過率來衡量難度:



通過率 p_i 越低,問題越難,獎勵就越高。具體地,難度獎勵為:



即使一個問題非常簡單(例如 p_i = 1.0),獎勵仍然為 0.1,以確保 Proposer 始終傾向于生成有效的問題,而不是生成錯誤或無意義的問題。

2. 多樣性 Reward

我們還希望避免退化現(xiàn)象,例如 Proposer 反復生成同一種類型的問題。為此,我們將新生成的問題 q_i 與歷史緩沖區(qū) H 中的最近問題進行比較,采用 Jaccard 相似度:



如果兩個問題過于相似,我們將其視為重復:



因此,多樣性獎勵定義為:



簡而言之:問題越獨特,獎勵越高。

3. Proposer 最終獎勵

我們只有在問題既有效又具有多樣性的情況下才會對 Proposer 進行獎勵:

  • 有效性(Validity):通過率不能過低:



  • 多樣性(Diversity):不能過于重復:



最終獎勵為:



Solver Reward 是如何設計呢?

Solver 的訓練僅依賴純正確性獎勵。



其中指標函數(shù)定義為:



實驗設置

我們在多種模型規(guī)模上進行實驗,包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,將它們分別用作 Proposer 和 Solver,然后執(zhí)行冷啟動訓練。在冷啟動之后,我們使用 GRPO 同時訓練 Proposer 和 Solver,并在在線與離線兩種設置下進行實驗。更多超參數(shù)設置參見論文附錄 B。我們使用 MegaMath-Pro-Max 預訓練數(shù)據(jù)集作為知識庫 K。

實驗結(jié)果

主流數(shù)學 benchmark 的結(jié)果

我們在競賽級數(shù)學基準上評估了我們的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳結(jié)果,下劃線表示第二優(yōu)。

PasoDoble 能顯著提升模型在數(shù)學基準上的表現(xiàn),尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升隨著模型規(guī)模的增大而持續(xù)增強。



Qwen2.5-0.5B-Base 模型的實驗結(jié)果。



Qwen3-0.6B-Base 模型的實驗結(jié)果。



Qwen2.5-1.5B-Base 模型的實驗結(jié)果。



Qwen3-1.7B-Base 模型的實驗結(jié)果。



Qwen2.5-3B-Base 模型的實驗結(jié)果。



Qwen3-4B-Base 模型的實驗結(jié)果。

Proposer 與隨機獎勵:Solver 到底學到了什么?

先前的研究表明,即使使用隨機獎勵也可能帶來非平凡的提升。因此,我們在 Qwen3-1.7B 模型上采用在線訓練范式進行了相關實驗。



隨機獎勵的實驗結(jié)果。



如上表所示,使用完全隨機獎勵進行訓練會使 Solver 在所有數(shù)學基準上的平均準確率幾乎跌至零。即便我們強制 Solver 以正確格式作答(部分隨機獎勵),其準確率仍然大幅下降。與我們原始設置形成的鮮明對比清楚地表明:Solver 在訓練過程中確實從 Proposer 的答案中受益匪淺

Proposer 生成的問題是由記憶驅(qū)動的,還是由推理驅(qū)動的?



Qwen3-1.7B-Base 在不同提示前綴比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 問題 )對 Proposer 在第 200 個檢查點生成的問題進行評估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有評估均使用貪心解碼,并且不使用聊天模板。

我們通過上表進行了分析。即使提示問題前綴重疊達到 80%,EM 也僅約為 12%(使用知識庫)和 31%(不使用知識庫),這表明絕大多數(shù)生成的問題來源于推理而非記憶。

總結(jié)

我們的研究表明,大語言模型可以通過類似 GAN 的雙模型對抗式訓練來提升數(shù)學推理能力,并在多個數(shù)學基準上取得可量化的性能提升。該方法還通過利用預訓練知識增強后訓練效果,在預訓練與后訓練之間建立了一座橋梁。

盡管如此,我們的方法也存在局限性,例如在 GPQA 等領域外任務中并未帶來性能提升。未來的研究將探索將該框架拓展到其他領域,如代碼與事實問答,并進一步研究更廣泛的多模型訓練范式,包括協(xié)作式、競爭式以及角色專門化等設置。這些方向可能對于解決遠比單一模型能可靠處理的任務更加復雜的問題至關重要。

參考文獻:

[1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

[2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

[3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

[4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

[5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

[6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

[7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炸鍋!安徽父子娶母女親上加親,知情人透露隱情

炸鍋!安徽父子娶母女親上加親,知情人透露隱情

凡知
2026-03-02 14:30:05
伊朗總統(tǒng)任命代理國防部長

伊朗總統(tǒng)任命代理國防部長

澎湃新聞
2026-03-02 19:57:02
哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

夢在深巷aqa
2026-03-02 01:17:46
資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

觀察鑒娛
2026-03-02 10:18:18
大量日系“電視棒”流入閑魚,跟打火機一樣小,預裝安卓系統(tǒng)

大量日系“電視棒”流入閑魚,跟打火機一樣小,預裝安卓系統(tǒng)

科技拌飯
2025-09-08 19:21:46
最高法:明確夫妻一方違反忠實義務將共同財產(chǎn)贈與第三人的行為無效

最高法:明確夫妻一方違反忠實義務將共同財產(chǎn)贈與第三人的行為無效

紅星新聞
2026-03-02 15:17:26
一場戰(zhàn)爭掀開了一個政治乞丐

一場戰(zhàn)爭掀開了一個政治乞丐

維美麗心甜
2025-11-12 07:20:03
你敢相信伊朗領導層48人團滅,而現(xiàn)任總統(tǒng)佩澤希齊揚卻完好無損

你敢相信伊朗領導層48人團滅,而現(xiàn)任總統(tǒng)佩澤希齊揚卻完好無損

我心縱橫天地間
2026-03-02 14:22:23
有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負責協(xié)防伊朗

有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負責協(xié)防伊朗

老馬拉車莫少裝
2026-03-02 23:29:20
78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

洲洲影視娛評
2026-01-28 12:23:18
撕毀合同倒向日本,拒賠中國361億違約金,這個國家如今怎么樣了

撕毀合同倒向日本,拒賠中國361億違約金,這個國家如今怎么樣了

墨印齋
2026-02-17 13:48:41
為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

嫹筆牂牂
2026-03-02 17:03:39
美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費用國家全買單

美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費用國家全買單

環(huán)球趣聞分享
2026-03-02 16:45:37
湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結(jié)婚

湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結(jié)婚

爆角追蹤
2025-11-23 11:25:00
豬油再次被關注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

懂球帝
2026-03-02 22:29:12
山西一高速服務區(qū)附近四五十輛車被扎胎,多名車主凌晨補胎,交警:大貨車散落鐵屑導致,已找到涉事司機,正在走理賠程序

山西一高速服務區(qū)附近四五十輛車被扎胎,多名車主凌晨補胎,交警:大貨車散落鐵屑導致,已找到涉事司機,正在走理賠程序

極目新聞
2026-03-02 13:20:04
300344,或被終止上市!

300344,或被終止上市!

中國基金報
2026-03-02 21:11:33
油市“末日時鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價沖擊200美元?

油市“末日時鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價沖擊200美元?

每日經(jīng)濟新聞
2026-03-02 21:42:28
中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

財聯(lián)社
2026-03-02 19:58:18
2026-03-03 06:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

數(shù)碼
藝術
游戲
本地
公開課

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版