国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1.5B模型新SOTA,RL訓(xùn)練新解法打破「簡單題過擬合、難題學(xué)不動(dòng)」

0
分享至



QuestA(問題增強(qiáng))引入了一種方法,用于提升強(qiáng)化學(xué)習(xí)中的推理能力。通過在訓(xùn)練過程中注入部分解題提示,QuestA 實(shí)現(xiàn)兩項(xiàng)重大成果:

Pass@1 的 SOTA 性能:在 1.5B 模型上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,甚至在關(guān)鍵基準(zhǔn)測(cè)試中超越了早期的 32B 模型。
提升 Pass@k:在提高 Pass@1 的同時(shí),QuestA 不會(huì)降低 Pass@k 性能 —— 事實(shí)上,它通過讓模型在多次嘗試中進(jìn)行更有效的推理,從而提升了模型能力。

這一在強(qiáng)化學(xué)習(xí)訓(xùn)練中的發(fā)現(xiàn),為開發(fā)具有更強(qiáng)推理能力的模型打開了大門。QuestA 使 RL 能夠高效處理不同難度的任務(wù),消除了通常在簡單與困難問題之間存在的權(quán)衡。

兩難:簡單任務(wù)導(dǎo)致熵坍縮 vs. 難任務(wù)減緩學(xué)習(xí)效率

多年來,RL 訓(xùn)練一直存在一個(gè)需要思考的數(shù)據(jù)平衡問題:簡單任務(wù)導(dǎo)致模型過度自信,而難任務(wù)提高推理能力,但由于樣本效率低下,學(xué)習(xí)速度變慢。

  • 簡單任務(wù)傾向于使模型過擬合,使其在特定、更簡單的問題上非常準(zhǔn)確。然而,這導(dǎo)致模型變得過度自信,從而妨礙了其泛化能力,難以解決更復(fù)雜的任務(wù)。
  • 難任務(wù)提高了模型的推理能力,但具有低樣本效率,這意味著它需要更長的時(shí)間來學(xué)習(xí)和進(jìn)展。稀疏的獎(jiǎng)勵(lì)和任務(wù)的難度使得在困難問題上的訓(xùn)練變得緩慢,限制了整體的學(xué)習(xí)速度。

這個(gè)權(quán)衡一直是 RL 模型的挑戰(zhàn),近日清華大學(xué)、上海期智研究院、Amazon 和斯坦福大學(xué)等機(jī)構(gòu)提出的QuestA 解決了這個(gè)問題。通過在訓(xùn)練困難任務(wù)時(shí)引入部分解決方案提示,QuestA 幫助模型更快地學(xué)習(xí),同時(shí)不犧牲在簡單任務(wù)上的表現(xiàn)。這確保了模型能夠從簡單任務(wù)和難任務(wù)中獲益,提升其推理能力,同時(shí)避免過擬合或?qū)W習(xí)緩慢。



  • 論文標(biāo)題:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
  • Arxiv 論文地址:https://www.arxiv.org/abs/2507.13266
  • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
  • GitHub 地址:https://github.com/foreverlasting1202/QuestA

研究者得出的關(guān)鍵結(jié)果是:強(qiáng)化學(xué)習(xí)可以提升模型能力。具體而言,QuestA 取得了以下顯著成果:

  1. Pass@1 改進(jìn):QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數(shù)模型的數(shù)學(xué)基準(zhǔn)測(cè)試中達(dá)到了新的最先進(jìn)結(jié)果:在 AIME24 上達(dá)到 72.50%(+10.73%),在 AIME25 上達(dá)到 62.29%(+12.79%),在 HMMT25 上達(dá)到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,盡管它是一個(gè)更小的模型。這表明 QuestA 顯著提高了模型在平時(shí)使用中的表現(xiàn)。
  2. Pass@k 改進(jìn):與傳統(tǒng)的 RL 方法不同,QuestA 還提高了Pass@k,展示了模型的容量隨著 RL 訓(xùn)練的進(jìn)行而增加。這是一個(gè)關(guān)鍵的區(qū)別,因?yàn)樗砻?QuestA 使得模型能夠持續(xù)進(jìn)行探索和推理,而不像其他方法,在優(yōu)化Pass@1時(shí)Pass@k性能會(huì)下降。

X上有人評(píng)價(jià)稱,QuestA 是一種巧妙的數(shù)據(jù)增強(qiáng)方法,不僅加速了 pass@1 的改進(jìn),還保持/增強(qiáng)了pass@k,并且沒有多樣性損失。這是 1.5B 推理模型的新SOTA。



QuestA 方法:提示即所需

QuestA 通過「數(shù)據(jù)增強(qiáng) + 迭代課程學(xué)習(xí)」的組合設(shè)計(jì),實(shí)現(xiàn)對(duì) RL 訓(xùn)練的高效改進(jìn),核心邏輯如下:

  1. 聚焦高難度問題:采用兩階段過濾流程篩選訓(xùn)練數(shù)據(jù) —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型,從 OpenR1-Math-220K 數(shù)據(jù)集中選出僅 0-1 次正確(8 次采樣)的 26K 高難度樣本;再對(duì)增強(qiáng)后的提示詞進(jìn)行二次篩選,保留模型仍難以正確解答(0-4 次正確)的樣本,最終聚焦不超過 10K 的核心困難任務(wù),確保訓(xùn)練資源用在能力突破點(diǎn)上。
  2. 動(dòng)態(tài)調(diào)整提示比例:為避免模型依賴提示,QuestA 設(shè)計(jì)迭代式課程學(xué)習(xí) —— 先以 50% 比例的部分解決方案作為提示(p=50%)訓(xùn)練至性能飽和,再將提示比例降至 25%(p=25%)繼續(xù)訓(xùn)練,逐步引導(dǎo)模型從「依賴提示」過渡到 “自主推理”,實(shí)現(xiàn)能力的真實(shí)遷移。
  3. 輕量化集成 RL:QuestA 無需修改 RL 算法核心或獎(jiǎng)勵(lì)函數(shù),僅通過替換訓(xùn)練數(shù)據(jù)(用增強(qiáng)提示詞替代原始提示詞)即可集成至現(xiàn)有 RL pipeline(如 GRPO、DAPO),具備「即插即用」的靈活性。



QuestA 通過在數(shù)據(jù)集中每個(gè)原始問題前添加部分解決方案提示,對(duì)原始問題進(jìn)行增強(qiáng)處理。



圖 1: QuestA 是一種數(shù)據(jù)增強(qiáng)方法,通過注入部分解決方案,為強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜推理問題上的訓(xùn)練提供有效支撐。研究者基于 OpenR1 中的高難度樣本,構(gòu)建了 2.6 萬個(gè)高質(zhì)量增強(qiáng)提示詞(augmented prompts),并采用 32K 上下文長度的強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)。將該方法應(yīng)用于 Nemotron-1.5B 模型后,QuestA 帶來了顯著的性能提升 —— 在所有數(shù)學(xué)基準(zhǔn)測(cè)試中,均為 15 億參數(shù)模型創(chuàng)下了新的當(dāng)前最優(yōu)(SOTA)結(jié)果。

訓(xùn)練細(xì)節(jié)

研究者使用AReaLite框架進(jìn)行 RL 訓(xùn)練。

具體而言,他們應(yīng)用了 GRPO 算法,并結(jié)合了來自 DAPO 的動(dòng)態(tài)過濾技術(shù),以排除訓(xùn)練中顯而易見正確或錯(cuò)誤的樣本。這一優(yōu)化幫助聚焦于最難的問題,提升了訓(xùn)練效率。

評(píng)估

研究者在競(jìng)爭(zhēng)級(jí)數(shù)學(xué)基準(zhǔn)測(cè)試上評(píng)估了 Pass@1(32 個(gè)樣本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中達(dá)到了最先進(jìn)水平,并在多個(gè)基準(zhǔn)測(cè)試中匹配或超過了DeepSeek-R1-Distill-32B,同時(shí)其模型體積小于20×。



核心差異點(diǎn):實(shí)現(xiàn)真實(shí)能力提升,而非熵坍縮

實(shí)驗(yàn)結(jié)果表明,QuestA 方法在提升模型推理能力的同時(shí),并未損害其多樣性。如圖 2 所示,即便在問題難度持續(xù)增加的情況下,Pass@k曲線仍呈現(xiàn)出穩(wěn)定的上升趨勢(shì)。



圖 2:研究者比較了使用 RLVR 訓(xùn)練的模型在有和沒有 QuestA 的情況下的 pass@k 曲線。作為對(duì)照實(shí)驗(yàn),我們使用易難不同的提示進(jìn)行 RL 訓(xùn)練。標(biāo)準(zhǔn) RL 在易提示下(紅色)隨著 k 值增大,pass@k 顯著下降,而與基準(zhǔn)模型(藍(lán)色)相比,表現(xiàn)較差。在難提示下訓(xùn)練(綠色)能夠提高 pass@k,但代價(jià)是訓(xùn)練時(shí)間顯著增加。這激發(fā)了他們開發(fā) QuestA 的動(dòng)機(jī),QuestA 通過為困難問題提供框架,提升了訓(xùn)練效率,并且在所有 k 值下提供了更強(qiáng)的結(jié)果:RL+QuestA 模型(橙色)在所有 k 值上都優(yōu)于標(biāo)準(zhǔn) RL(紅色),同時(shí)在較大的 k 值下相較于使用困難提示訓(xùn)練的 RL 模型,性能也保持或有所提升。

消融實(shí)驗(yàn)

QuestA 同時(shí)也在不同的基礎(chǔ)模型和不同的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),都讓模型得到了相應(yīng)幅度的提升,這證明了 QuestA 這個(gè)方法的泛用性。具體細(xì)節(jié)參考 Arxiv 文章。

結(jié)論:QuestA 方法彰顯強(qiáng)化學(xué)習(xí)在推理任務(wù)中的更大應(yīng)用潛力

QuestA 方法的研究結(jié)果表明,強(qiáng)化學(xué)習(xí)確實(shí)能夠助力模型習(xí)得新能力。通過同時(shí)提升Pass@1與Pass@k指標(biāo)的性能表現(xiàn),該方法證實(shí):強(qiáng)化學(xué)習(xí)可在不犧牲效率與泛化能力的前提下,持續(xù)拓展模型的能力邊界。

此外,QuestA 方法有效消除了傳統(tǒng)訓(xùn)練中簡單任務(wù)與復(fù)雜任務(wù)之間的權(quán)衡矛盾,使模型能夠在涵蓋廣泛問題類型的場(chǎng)景下,實(shí)現(xiàn)推理能力的極大提升。


這一技術(shù)突破對(duì)強(qiáng)化學(xué)習(xí)未來的應(yīng)用發(fā)展具有深遠(yuǎn)意義。依托 QuestA 方法,我們期待基于強(qiáng)化學(xué)習(xí)構(gòu)建的模型如今可處理更多復(fù)雜且多樣的推理任務(wù),其應(yīng)用場(chǎng)景已從數(shù)學(xué)問題求解延伸至邏輯推理及創(chuàng)造性思維等領(lǐng)域。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬筱梅產(chǎn)后5天,S家爆大瓜,S媽請(qǐng)律師,具俊曄清號(hào)跑路

馬筱梅產(chǎn)后5天,S家爆大瓜,S媽請(qǐng)律師,具俊曄清號(hào)跑路

孤城落日
2026-03-02 11:38:41
炸了!江蘇 7 條高鐵同步在建,總里程超 1100 公里,2027 年集中通車

炸了!江蘇 7 條高鐵同步在建,總里程超 1100 公里,2027 年集中通車

我不叫阿哏
2026-03-01 13:21:53
三大板塊集體大漲!

三大板塊集體大漲!

數(shù)據(jù)寶
2026-03-02 10:35:47
美媒:阿爾及利亞SU57再曝飛行照;毋庸置疑非洲最強(qiáng),斷崖式領(lǐng)先

美媒:阿爾及利亞SU57再曝飛行照;毋庸置疑非洲最強(qiáng),斷崖式領(lǐng)先

嘯鷹評(píng)
2026-02-28 23:48:07
盤點(diǎn)美國與伊朗的“前世今生”,從戰(zhàn)略盟友到兵戎相見,“伊朗人質(zhì)危機(jī)”是美伊關(guān)系重大轉(zhuǎn)折點(diǎn),美一直致力于阻止伊朗發(fā)展核武器

盤點(diǎn)美國與伊朗的“前世今生”,從戰(zhàn)略盟友到兵戎相見,“伊朗人質(zhì)危機(jī)”是美伊關(guān)系重大轉(zhuǎn)折點(diǎn),美一直致力于阻止伊朗發(fā)展核武器

極目新聞
2026-03-02 09:17:16
伊朗打擊美國中東軍事基地,美第五艦隊(duì)服務(wù)中心遭導(dǎo)彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導(dǎo)彈射向以色列……

伊朗打擊美國中東軍事基地,美第五艦隊(duì)服務(wù)中心遭導(dǎo)彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導(dǎo)彈射向以色列……

每日經(jīng)濟(jì)新聞
2026-02-28 18:02:13
盧卡庫補(bǔ)時(shí)絕殺后淚灑賽場(chǎng):終結(jié)9個(gè)月進(jìn)球荒,告慰在天之父

盧卡庫補(bǔ)時(shí)絕殺后淚灑賽場(chǎng):終結(jié)9個(gè)月進(jìn)球荒,告慰在天之父

星耀國際足壇
2026-03-01 14:00:56
TVB視后宣萱的頂級(jí)炫富,不是豪車名表,而是她車后座的102歲保姆

TVB視后宣萱的頂級(jí)炫富,不是豪車名表,而是她車后座的102歲保姆

西樓知趣雜談
2026-02-28 21:24:36
降級(jí)危機(jī)真來了!熱刺1-2不敵富勒姆,保級(jí)形勢(shì)岌岌可危

降級(jí)危機(jī)真來了!熱刺1-2不敵富勒姆,保級(jí)形勢(shì)岌岌可危

星耀國際足壇
2026-03-02 11:51:56
金銀全線高開,國際油價(jià)飆升

金銀全線高開,國際油價(jià)飆升

界面新聞
2026-03-02 07:30:04
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

霽寒飄雪
2026-03-02 10:15:21
他曾是河北省委書記,橫行霸道,上班警車開道,兒子仍潛逃在海外

他曾是河北省委書記,橫行霸道,上班警車開道,兒子仍潛逃在海外

舊時(shí)樓臺(tái)月
2024-07-26 09:57:13
新能源車集體“返祖”,按鍵門把卷土重來,安全成了唯一硬指標(biāo)

新能源車集體“返祖”,按鍵門把卷土重來,安全成了唯一硬指標(biāo)

侃故事的阿慶
2026-03-01 17:47:22
戰(zhàn)火“引燃”貴金屬:歷史規(guī)律告訴你,金價(jià)會(huì)怎么走

戰(zhàn)火“引燃”貴金屬:歷史規(guī)律告訴你,金價(jià)會(huì)怎么走

新浪財(cái)經(jīng)
2026-03-02 08:59:11
張?jiān)迄i親媽道出離婚實(shí)情,當(dāng)年并非拋棄孩子、滿是無奈

張?jiān)迄i親媽道出離婚實(shí)情,當(dāng)年并非拋棄孩子、滿是無奈

觀察鑒娛
2026-03-02 09:53:55
劉浩存春晚一字馬,彈幕直接炸穿

劉浩存春晚一字馬,彈幕直接炸穿

老吳教育課堂
2026-03-02 00:27:11
一百名癌癥科專家已證實(shí):吸煙和肺癌的關(guān)系,最好花點(diǎn)時(shí)間看看

一百名癌癥科專家已證實(shí):吸煙和肺癌的關(guān)系,最好花點(diǎn)時(shí)間看看

展望云霄
2026-02-28 10:42:38
人物|擔(dān)任最高領(lǐng)袖36年,哈梅內(nèi)伊如何領(lǐng)導(dǎo)伊朗走到今天?

人物|擔(dān)任最高領(lǐng)袖36年,哈梅內(nèi)伊如何領(lǐng)導(dǎo)伊朗走到今天?

澎湃新聞
2026-03-02 07:38:31
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
伊拉克民兵組織稱襲擊巴格達(dá)機(jī)場(chǎng)內(nèi)美軍目標(biāo)

伊拉克民兵組織稱襲擊巴格達(dá)機(jī)場(chǎng)內(nèi)美軍目標(biāo)

每日經(jīng)濟(jì)新聞
2026-03-02 11:38:37
2026-03-02 12:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12385文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

本地
房產(chǎn)
健康
公開課
軍事航空

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動(dòng)用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版