網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

訓練樣本在大型語言模型中進行推理的強化學習

2025-08-02 00:08:50　來源: CreateAMind

上海舉報

分享至

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

訓練樣本在大型語言模型中進行推理的強化學習

https://arxiv.org/pdf/2504.20571

摘要

我們證明，使用可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Reward, RLVR）在僅用一個訓練樣本（1-shot RLVR）的情況下，能夠有效激發(fā)大語言模型（LLMs）的數(shù)學推理能力。將RLVR應用于基礎模型Qwen2.5-Math-1.5B，我們發(fā)現(xiàn)僅用一個樣本就可使模型在MATH500上的性能從36.0%提升至73.6%，并在六個常見的數(shù)學推理基準測試上的平均性能從17.6%提升至35.7%。這一結果與使用包含1200個樣本的DeepScaleR子集（包含前述示例）所取得的性能相當（MATH500：73.6%，平均：35.9%）。此外，僅使用兩個樣本的RLVR甚至略微超過了這些結果（MATH500：74.8%，平均：36.6%）。在多種模型（Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B）、強化學習算法（GRPO和PPO）以及不同數(shù)學示例（其中許多示例作為單一樣本訓練時，在MATH500上帶來約30%或更高的提升）上，均觀察到類似的顯著改進。此外，我們在1-shot RLVR過程中發(fā)現(xiàn)了若干有趣現(xiàn)象，包括跨領域泛化、自我反思頻率的增加，以及即使訓練準確率已達到飽和后測試性能仍持續(xù)提升的現(xiàn)象，我們將后者稱為“飽和后泛化”（post-saturation generalization）。我們進一步驗證，1-shot RLVR的有效性主要源于策略梯度損失，從而將其與“頓悟”（grokking）現(xiàn)象區(qū)分開來。我們還展示了促進探索（例如，通過引入適當系數(shù)的熵損失）在1-shot RLVR訓練中的關鍵作用。作為附加發(fā)現(xiàn)，我們觀察到，僅使用熵損失而無需任何結果獎勵，即可使Qwen2.5-Math-1.5B在MATH500上的性能提升27.4%。我們還進一步討論了與格式糾正、標簽魯棒性以及提示修改相關的觀察結果。這些發(fā)現(xiàn)有望啟發(fā)未來關于RLVR數(shù)據(jù)效率的研究，并促使人們重新審視近期在RLVR方面的進展及其內(nèi)在機制。我們的代碼、模型和數(shù)據(jù)已在 https://github.com/ypwang61/One-Shot-RLVR 開源。

1 引言

近年來，在提升大語言模型（LLMs）的推理能力方面取得了顯著進展，包括OpenAI-o1 [1]、DeepSeek-R1 [2] 和 Kimi-1.5 [3]，尤其是在復雜的數(shù)學任務上。推動這些進展的關鍵方法之一是“基于可驗證獎勵的強化學習”（Reinforcement Learning with Verifiable Reward, RLVR）[4, 5, 2, 3]，該方法通常在大語言模型上應用強化學習，并使用基于規(guī)則的結果獎勵（例如，一個二元獎勵，表示模型對數(shù)學問題最終答案的正確性）。在RLVR中已觀察到若干引人注目的經(jīng)驗現(xiàn)象，例如特定認知行為（如自我反思）的激發(fā)或增強 [6]，以及在各種下游任務中的泛化能力提升 [5, 2, 3]。

目前，大量研究工作集中于改進強化學習算法（如PPO [7] 和 GRPO [8]），以進一步提升RLVR的性能和穩(wěn)定性 [9–16]。相比之下，RLVR的數(shù)據(jù)相關方面仍相對缺乏探索。盡管已有研究嘗試構建高質量的數(shù)學推理數(shù)據(jù)集 [17, 18, 11]，但對數(shù)據(jù)在RLVR中具體作用的深入研究仍較為有限。因此，一些關鍵問題仍未解決：究竟需要多少數(shù)據(jù)？哪些數(shù)據(jù)最有效？訓練數(shù)據(jù)的質量和數(shù)量與觀察到的經(jīng)驗現(xiàn)象（如自我反思和強泛化能力）之間有何關系？與此問題最相關的研究是LIMR [19]，該研究提出了一種稱為“學習影響度量”（Learning Impact Measurement, LIM）的指標，用于評估訓練樣本的有效性。通過LIM得分，他們將訓練樣本數(shù)量減少六倍的同時仍保持了模型性能。然而，該研究并未探索RLVR訓練數(shù)據(jù)集可被壓縮到何種極端程度。

受此啟發(fā)，本文重點研究以下科學問題：“在保持與使用完整數(shù)據(jù)集相當?shù)男阅艿那疤嵯?，RLVR的訓練數(shù)據(jù)集最多可以減少到什么程度？”

我們通過實驗發(fā)現(xiàn)，令人驚訝的是，RLVR的訓練數(shù)據(jù)集可以減少至僅一個樣本！這一發(fā)現(xiàn)支持了近期的觀點：基礎模型本身已具備較強的推理能力 [13, 20, 6, 21]，并進一步表明，僅用一個樣本就足以顯著提升基礎模型的數(shù)學性能。我們將這種設置稱為“單樣本RLVR”（1-shot RLVR）。我們的主要貢獻與發(fā)現(xiàn)總結如下：

我們發(fā)現(xiàn)，僅選擇一個特定樣本作為訓練數(shù)據(jù)，即可達到與包含該樣本的1200個樣本的DeepScaleR子集（DSR-sub）相當?shù)南掠涡阅?。具體而言，該方法使Qwen2.5-Math-1.5B模型在MATH500上的準確率從36.0%提升至73.6%，在六個數(shù)學推理基準測試上的平均性能從17.6%提升至35.7%（見圖1）。值得注意的是，這兩個樣本對基礎模型而言相對簡單，模型無需訓練即可以較大概率正確解答（見第3.2.1節(jié)）。此外，使用數(shù)學樣例進行1-shot RLVR還能提升模型在非數(shù)學推理任務上的表現(xiàn)，甚至優(yōu)于使用完整數(shù)據(jù)集的RLVR（見表1）。
我們驗證了1（少）樣本RLVR在不同基礎模型（Qwen2.5-Math-1.5/7B、Llama3.2-3B-Instruct）、從長鏈式思維（Chain-of-Thought, CoT）數(shù)據(jù)蒸餾出的模型（DeepSeek-R1-Distill-Qwen-1.5B），以及不同強化學習算法（GRPO、PPO）上的有效性。
我們揭示了1-shot RLVR中一個引人注目的現(xiàn)象：“飽和后泛化”（post-saturation generalization）。具體表現(xiàn)為：模型在單個訓練樣本上的訓練準確率迅速接近100%，但其在測試集上的準確率仍持續(xù)提升。此外，盡管僅使用一個訓練樣本，過擬合直到約1400個訓練步之后才發(fā)生。即使在過擬合后，模型對訓練樣本的推理輸出變?yōu)榛祀s著正確解的、難以理解的多語言亂碼，其測試性能依然保持強勁，且對測試樣本的推理輸出仍保持人類可讀。
此外，我們展示了以下現(xiàn)象：（1）在完整數(shù)據(jù)集中的幾乎所有數(shù)學樣例上，單獨使用每個樣例進行1-shot RLVR均是可行的。我們還在附錄C.2.3中討論了其與“格式糾正”（format correction）的關聯(lián)。（2）1-shot RLVR支持跨領域泛化：在某一領域（如幾何）的單個樣本上訓練，通常能提升模型在其他領域（如代數(shù)、數(shù)論）的性能。（3）隨著1-shot RLVR訓練的進行，模型對訓練樣本的響應長度以及在下游任務中使用自我反思類詞匯的頻率均有所增加。
通過消融實驗，我們證明1-shot RLVR的性能提升主要源于策略梯度損失，這與高度依賴權重衰減等正則化方法的“頓悟”（grokking）現(xiàn)象有本質區(qū)別。此外，我們強調在模型輸出中促進多樣化探索的重要性，表明加入適當系數(shù)的熵損失可進一步提升性能。
最后，我們發(fā)現(xiàn)，僅使用熵損失而無需任何結果獎勵，即可使Qwen2.5-Math-1.5B在MATH500上的性能提升27%。在Qwen2.5-Math-7B和Llama-3.2-3B-Instruct上也觀察到類似提升。我們還在附錄C.2中討論了RLVR中的標簽魯棒性和提示修改問題。

2 預備知識

RL 損失函數(shù)。 在本文中，除非另有說明，我們采用 GRPO [8, 2] 作為大語言模型（LLMs）的強化學習（RL）算法。我們在下面簡要介紹損失函數(shù)中的三個主要組成部分，并在附錄B.1中提供更多信息。

(1) 策略梯度損失（Policy gradient loss）： 它鼓勵模型生成具有更高獎勵的響應，并根據(jù)其組歸一化優(yōu)勢分配權重。因此，優(yōu)于平均值的解決方案會被強化，而較差的解決方案則受到懲罰。由于我們專注于數(shù)學問題，獎勵被定義為二元值（0-1），僅當模型響應的結果正確匹配真實答案時，才會獲得獎勵1。這里不包括格式獎勵，但我們在附錄C.2.3中討論了相關內(nèi)容。

(2) KL散度損失（KL divergence loss）：通過衡量當前模型輸出與參考模型輸出之間的分布差異，有助于保持模型整體的語言質量。

(3) 熵損失（Entropy loss）[22]：以負系數(shù)形式引入，鼓勵每個token的熵值更高，從而促進模型探索，生成更多樣化的推理路徑。我們注意到，熵損失對于GRPO訓練并非嚴格必需，但在我們的實驗中所使用的verl [22] 訓練流程中默認包含該損失項。其對1-shot RLVR的影響將在第4.1節(jié)中進一步討論。

數(shù)據(jù)選擇：歷史方差得分。為了探索在多大程度上可以減少RLVR訓練數(shù)據(jù)集，我們提出了一種簡單的訓練樣本排序方法。我們首先在完整數(shù)據(jù)集上使用RLVR訓練模型E個輪次。然后，對于每個樣本i ∈ [N] = {1, ..., N}，我們可以得到一個歷史訓練準確率列表Li = [si,1, ..., si,E]，該列表記錄了該樣本在每個訓練輪次中的平均訓練準確率。注意到一些先前的研究表明，獎勵信號的方差[23]對強化學習訓練至關重要，因此我們直接根據(jù)訓練準確率的歷史方差對數(shù)據(jù)進行排序，而該方差與獎勵直接相關。

然后，我們根據(jù)這一簡單的排名標準選擇示例。例如，通過Qwen2.5-Math-1.5B的歷史方差得分識別出的π1，在1-shot RLVR（第3.2.3節(jié)、3.3節(jié)）中表現(xiàn)良好。我們還從{π1, ..., π17}中選擇了來自不同領域的其他示例，并在1-shot RLVR下對它們進行了評估（表3），發(fā)現(xiàn)π13同樣表現(xiàn)出色。重要的是，我們強調，這一標準并不一定是為1-shot RLVR選擇單個示例的最佳標準。實際上，表3表明，許多示例（包括那些歷史方差中等或較低的示例）在作為RLVR中的單個訓練示例時，也能在MATH500上單獨實現(xiàn)大約30%或更高的提升。這表明可能存在一種與具體數(shù)據(jù)選擇方法無關的普遍現(xiàn)象。

3 實驗

3.1 實驗設置

模型。我們默認在 Qwen2.5-Math-1.5B [24, 25] 上進行實驗，同時在第 3.3 節(jié)中驗證了 Qwen2.5-Math-7B [25]、Llama-3.2-3B-Instruct [26] 和 DeepSeek-R1-DistillQwen-1.5B [2] 在單樣本（1-shot）RLVR 中的有效性。我們還在附錄 C.1.2 中包含了 Qwen2.5-1.5B 和 Qwen2.5-Math-1.5B-Instruct 的結果。

數(shù)據(jù)集。由于資源限制，我們從 DeepScaleR-Preview-Dataset [18] 中隨機選取了一個包含 1209 個樣例的子集作為我們的樣本池（“DSR-sub”）。對于數(shù)據(jù)選擇（第 2 節(jié)），如第 2 節(jié)所述，我們首先對 Qwen2.5-Math-1.5B 模型進行 500 步訓練，然后計算每個樣例的歷史方差得分（公式 1）及其對應的排序（公式 2）。為避免歧義，我們在所有實驗中均不更改 {πi}??????? 與樣例之間的對應關系，即所有樣例的排序均基于 Qwen2.5-Math-1.5B 的歷史方差得分。我們還使用 MATH [27] 訓練集（包含 7500 個實例）作為另一個數(shù)據(jù)集進行完整的 RLVR 實驗以作對比。為了實現(xiàn)單樣本或少樣本的 RLVR，我們將選中的數(shù)據(jù)復制，直到達到訓練批次大?。ɡ?128），并將其存儲為一個新的數(shù)據(jù)集。更多細節(jié)見附錄 B.2。

訓練。如第 2 節(jié)所述，我們采用 verl [22] 的訓練流程，默認情況下，KL 散度損失和熵損失的系數(shù)分別為 β = 0.001 和 α = ?0.001。vLLM [28] 的訓練 rollout 溫度設置為 0.6。訓練批次大小和小批次大小均為 128，我們對每個提示（prompt）采樣 8 個響應（response）。因此，每次 rollout 步驟包含 8 次梯度更新。默認情況下，最大提示長度為 1024，最大響應長度為 3072，考慮到 Qwen2.5-Math-1.5B/7B 的上下文長度為 4096。更多訓練細節(jié)見附錄 B.4。

評估。我們使用官方的 Qwen2.5-Math 評估流程 [25] 進行評估。本文采用了六個廣泛使用的復雜數(shù)學推理基準：MATH500 [27, 29]、AIME 2024 [30]、AMC 2023 [31]、Minerva Math [32]、OlympiadBench [33] 和 AIME 2025 [30]。我們還考慮了非數(shù)學推理任務 ARC-Easy 和 ARC-Challenge [34]。有關基準的更多細節(jié)見附錄 B.3。對于僅包含 30 或 40 道題的 AIME 2024、AIME 2025 和 AMC 2023，我們重復測試集 8 次以提高評估穩(wěn)定性，并在溫度為 0.6 的情況下評估模型，最終報告平均的 pass@1 性能（avg@8）。而對于其他三個數(shù)學基準，我們設置溫度為 0。更多評估細節(jié)見附錄 B.5。

3.2 單樣本/少樣本 RLVR 的觀察

如圖 1 所示，我們發(fā)現(xiàn)使用 1 個或 2 個樣例的 RLVR 可以達到與使用數(shù)千個樣例相當?shù)男阅埽槐?1 進一步表明，使用這些數(shù)學樣例的單樣本（或少樣本）RLVR 能夠在非數(shù)學推理任務上實現(xiàn)更好的泛化能力（更多細節(jié)見附錄 C.1）。為了更好地理解這一現(xiàn)象，本節(jié)將對單樣本 RLVR 進行詳細分析。

3.2.1 π1的剖析：一個并不太難的問題

3.2.2 飽和后泛化：超越訓練準確率飽和的持續(xù)泛化

接著，我們展示了單樣本 RLVR 中一個有趣的現(xiàn)象。如圖 2 所示，由于我們只有一個訓練樣本，π? 和 π?? 的訓練準確率在第 100 步之前迅速達到飽和是可以預見的。然而，模型在測試集上的性能仍在持續(xù)提升：使用 π? 的單樣本 RLVR 從第 100 步到第 1540 步平均提升了 3.4%，而使用 π?? 則從第 500 步到第 2000 步平均提升了 9.9%。我們將這一現(xiàn)象稱為“飽和后泛化”（post-saturation generalization）。

此外，目前在使用完整數(shù)據(jù)集 DSR-sub 進行全集 RLVR 時無法觀察到這一現(xiàn)象，因為在訓練準確率尚未收斂之前，測試性能已開始下降。

此外，我們在圖 3 中對比了訓練和評估階段的模型輸出。令人驚訝的是，我們發(fā)現(xiàn)，在單樣本 RLVR 的最終階段，模型通過在其推理輸出中混入正確的計算過程并生成冗長且難以理解的多語言內(nèi)容，從而對唯一的訓練樣本產(chǎn)生了過擬合。然而，測試階段的輸出仍然正常，并保持較高的準確率，這表明即使模型已過擬合訓練樣本，“飽和后泛化”現(xiàn)象依然存在。特別地，RLVR 中的過擬合出現(xiàn)得非常晚（π? 在 1400 步之后，π?? 在 1800 步之后）?？紤]到每一步每個樣本被采樣 1024 次，單個訓練樣本直到經(jīng)歷數(shù)百萬次 rollout 后才發(fā)生過擬合。更多分析見第 4.1 節(jié)。

3.2.3 單樣本 RLVR 對許多樣例均有效，并能在多個領域帶來提升

在本節(jié)中，我們研究了不同的數(shù)據(jù)在單樣本強化學習（RL）中的表現(xiàn)是否存在差異，以及來自特定領域的單個訓練樣例的單樣本 RLVR 是否有助于模型在其他領域更好地泛化。我們選取了具有高歷史方差（π?, ..., π??）、中等歷史方差（π???, π???）和低歷史方差（π????, ..., π????）（見公式 1）且來自不同主題的樣例。我們根據(jù)問題的特征確定其類別。表 3 展示了這些樣例在 MATH500 基準上整體及各子類別的詳細性能表現(xiàn)。更多性能曲線見附錄 C.1 中的圖 7。

我們觀察到以下幾點：（1）單樣本 RLVR 能夠提升 MATH500 中所有不同領域的性能，而不僅限于訓練樣例所屬的特定領域。（2）許多樣例都能從單樣本 RLVR 中獲益。除了一些使模型難以獲得獎勵的樣例（如 π???? 和 π????）外，幾乎所有樣例都能帶來 ≥30% 的性能提升。我們進一步表明，某些樣例在 RLVR 中的提升可能主要來源于對初始模型輸出格式的修正（見附錄 C.2.3 和 C.2.5），我們還發(fā)現(xiàn)，全集 RLVR 的很大一部分提升也歸因于格式修正；但像 π? 這樣的樣例仍能在格式修正之外實現(xiàn)明顯的額外提升。（3）盡管如此，不同樣例在單樣本 RLVR 中仍存在性能差距，這可能為未來的數(shù)據(jù)選擇方法提供啟示。（4）出乎意料的是，與單個訓練樣例屬于同一類別的測試數(shù)據(jù)并不一定獲得更好的提升效果。例如，π?? 屬于數(shù)論領域，但使用 π?? 進行 RLVR 時，其在數(shù)論類別上的得分相對較低，相比之下使用其他樣例（如來自微積分預備知識領域的 π???）反而表現(xiàn)更好。類似的現(xiàn)象也出現(xiàn)在 π?、π? 和 π??? 等樣例中。這表明，由某個實例激發(fā)的推理能力無法僅通過領域等表面特征簡單預測 [35]。

3.2.4 在測試數(shù)據(jù)上更頻繁的自我反思

在本節(jié)中，我們展示了單樣本 RLVR 的另一個經(jīng)驗性觀察結果：隨著訓練的進行，它能夠增加模型輸出中“自我反思”[6] 的頻率。為了研究這一點，我們檢查了在 Qwen2.5-Math-1.5B 上進行 RLVR 訓練過程中不同訓練檢查點（checkpoint）的輸出模式。我們發(fā)現(xiàn)，模型的自我反思過程通常會伴隨“rethink”（重新思考）、“recheck”（重新檢查）和“recalculate”（重新計算）等詞語出現(xiàn)。因此，在評估六個數(shù)學推理任務時，我們統(tǒng)計了包含這三個詞的響應數(shù)量。結果如圖 4 所示。

首先，大約在 1300 步之后，響應長度和熵損失顯著增加，這可能意味著模型在嘗試生成更多樣化的輸出模式，或出現(xiàn)了過擬合現(xiàn)象（見圖 3）。其次，在評估任務中，基礎模型本身已經(jīng)表現(xiàn)出自我反思行為，這也支持了近期研究中的發(fā)現(xiàn) [13, 21]。第三，在單樣本 RL 訓練的后期階段，自我檢查（self-recheck）過程的數(shù)量有所增加，這再次證實了模型在測試數(shù)據(jù)上具有良好的泛化能力，即使在已經(jīng)過擬合訓練數(shù)據(jù)之后，仍能展現(xiàn)出更復雜的推理過程。

有趣的是，對于包含 1200 個樣本的 DeepScaleR 子集，隨著訓練的推進，反思行為的頻率略有下降，這與響應長度的減少趨勢一致。

3.3 在其他模型/算法上的單樣本/少樣本 RLVR

我們進一步探究單樣本/少樣本 RLVR 是否適用于其他模型和強化學習算法。我們采用第 3.1 節(jié)中提到的實驗設置，結果如表 4 所示（各基準任務的詳細結果見附錄 C.1）。我們可以觀察到：

（1）對于 Qwen2.5-Math-7B 模型，使用 π? 的單樣本 RLVR 使平均性能提升了 17.8%，而四樣本（4-shot）RLVR 的表現(xiàn)與使用完整 DSR-sub 數(shù)據(jù)集的 RLVR 相當。此外，由 {π?, ..., π??} 組成的樣本集的表現(xiàn)優(yōu)于隨機抽取的 16 個樣本組成的子集。

（2）對于 Llama-3.2-3B-Instruct 模型，RLVR 帶來的絕對性能增益較小，但單樣本/少樣本 RLVR 仍能達到甚至超過（例如 {π?, π??}）完整數(shù)據(jù)集 RLVR 的性能。我們在附錄 C.1 中也展示了 Llama-3.2-3B-Instruct 上 RLVR 過程的不穩(wěn)定性。

（3）使用 PPO 算法對 Qwen2.5-Math-1.5B 進行以 π? 為訓練樣本的 RLVR 同樣有效。

（4）對于 DeepSeek-R1-Distill-Qwen-1.5B 模型，少樣本 RLVR 與全集 RLVR 之間的性能差距相對較大。盡管如此，單樣本和四樣本 RLVR 仍分別帶來了 6.9% 和 9.4% 的平均性能提升。

更多結果見附錄 C。

4 分析

在本節(jié)中，我們集中探討允許 RLVR 僅使用一個或少數(shù)幾個樣例工作的潛在機制。我們希望以下分析能夠為未來的研究提供一些啟示。關于格式修正（附錄 C.2.3）、提示修改（附錄 C.2.5）以及基礎模型的推理能力（附錄 D）的額外實驗和討論已包含在補充材料中。

4.1 消融研究：策略梯度損失是主要貢獻因素，熵損失進一步提升了飽和后泛化能力

如第 3.2.2 節(jié)所述，單樣本 RLVR 表現(xiàn)出“飽和后泛化”的特性。這一現(xiàn)象與“頓悟”（grokking）[36, 37] 類似：神經(jīng)網(wǎng)絡在訓練初期首先記憶/過擬合訓練數(shù)據(jù)，但在測試集上表現(xiàn)仍較差，經(jīng)過大量訓練步數(shù)后卻突然實現(xiàn)泛化能力的大幅提升。由此引出一個自然的問題：單樣本 RLVR 的性能提升是否與“頓悟”現(xiàn)象相關？為了回答這一問題，注意到“頓悟”現(xiàn)象受到權重衰減等正則化手段的強烈影響 [36, 38–41]，我們通過逐一移除或修改損失函數(shù)中的各個組成部分，進行消融實驗，以探究每個部分對性能提升的貢獻。

結果如表 5 所示（測試性能曲線見附錄 C.2.1）。我們發(fā)現(xiàn)，若僅使用策略梯度損失（第 2 行）并以 π? 為訓練樣本，MATH500 的性能即可提升至 71.8%，AIME24 提升至 15.4%，已接近完整損失函數(shù)的結果（第 5 行）。此外，進一步加入權重衰減（第 3 行）和 KL 散度損失（第 4 行）對模型性能沒有顯著影響；而加入熵損失（第 5 行）則可使 MATH500 再提升 4.0%，AIME24 再提升 2.5%。需要注意的是，熵損失的系數(shù)應謹慎設置，若系數(shù)過大（第 6 行），可能導致訓練過程更不穩(wěn)定。這些觀察表明，單樣本/少樣本 RLVR 的可行性主要歸因于策略梯度損失，這使其與“頓悟”現(xiàn)象區(qū)分開來——后者應顯著受到權重衰減的影響。為驗證這一點，我們發(fā)現(xiàn)僅加入權重衰減和 KL 散度損失（第 8 行）對模型性能影響甚微，而僅使用策略梯

度損失和熵損失（第 7 行）的表現(xiàn)幾乎與完整的 GRPO 損失相當。

此外，我們認為，鼓勵模型輸出的多樣性——例如，引入適當?shù)撵負p失——可以增強單樣本 RLVR 中的飽和后泛化能力。如圖 5 所示，在不使用熵損失的情況下，單樣本 RLVR 的模型性能在第 150 步之后提升有限，這恰好與訓練準確率飽和的時點一致（見圖 2 左圖）。而加入熵損失后，模型平均性能提升了 2.3%；進一步將溫度提升至 t = 1.0，則額外獲得 0.8% 的增益。關于熵損失與飽和后泛化的更多討論見附錄 C.2.2。

4.2僅熵損失訓練和標簽正確性

在表 3 中，我們發(fā)現(xiàn)，當使用 π???? 和 π???? 時，模型在單樣本 RLVR 訓練過程中很難輸出真實標簽并獲得獎勵，導致策略梯度信號非常稀疏。盡管如此，它們的表現(xiàn)仍優(yōu)于基礎模型，在 MATH500 上分別實現(xiàn)了 18.0% 和 9.0% 的提升。為了探究這一現(xiàn)象，我們從完整的 GRPO 損失中移除了策略損失（表 5，第 9 行），甚至僅保留熵損失（第 10 行），仍然觀察到了類似的性能提升。此外，這一現(xiàn)象在 Qwen2.5-Math-7B 和 Llama-3.2-3B-Instruct 模型上也存在，盡管提升僅出現(xiàn)在最初的若干訓練步中。這些結果支持了以下結論：熵損失能夠獨立地帶來性能提升，盡管其增益小于策略損失，但仍不可忽視。

此外，我們進行了一個實驗，將標簽分別改為：（1）正確的答案（“12.7”，第11行），（2）模型仍能過擬合的錯誤答案（“4”，第12行），以及（3）模型既無法猜出也無法過擬合的完全錯誤答案（“9292725”，第13行）。我們將這些情況與（4）原始標簽（“12.8”，第5行）進行比較。有趣的是，我們發(fā)現(xiàn)性能排序為：（1）≈（4）>（3）>（2）。這表明，標簽中的輕微不準確并不會顯著損害單樣本RLVR的性能；然而，如果錯誤標簽偏差較大但仍可被模型猜測或過擬合，其導致的性能下降甚至可能比使用完全錯誤且無法猜測的標簽更嚴重，后者的表現(xiàn)則與僅使用熵損失訓練時類似（第10行）。在附錄C.2.4中，我們還討論了全集RLVR的標簽魯棒性，結果顯示：如果數(shù)據(jù)集中有過多樣本被賦予隨機的錯誤標簽，全集RLVR的表現(xiàn)甚至可能不如單樣本RLVR。

5 結論

在本研究中，我們展示了僅使用單個樣本的 RLVR 就足以在推理任務中引發(fā)顯著的性能提升，甚至能夠達到與使用數(shù)千個樣本的 RLVR 相當?shù)男阅?。實驗結果不僅顯示出任務性能的提升，還揭示了若干額外現(xiàn)象，例如飽和后泛化、跨領域泛化以及更頻繁的自我反思行為，并對此進行了進一步分析。這些發(fā)現(xiàn)表明，模型的推理能力實際上已蘊含于基礎模型之中，只需在極少量數(shù)據(jù)上鼓勵探索，即可生成有效的強化學習訓練信號，從而激發(fā)大語言模型的推理能力。我們的工作也強調了在 RLVR 中更優(yōu)的數(shù)據(jù)選擇與收集的重要性。未來研究方向見附錄 D.4，研究局限性見附錄 D.1。

A 相關工作

基于可驗證獎勵的強化學習（RLVR）。RLVR 是一種通過基于規(guī)則的驗證函數(shù)計算獎勵的方法，已被證明在提升大語言模型（LLM）的推理能力方面有效。在將強化學習應用于數(shù)學推理數(shù)據(jù)集時，最常見的 RLVR 實踐是使用答案匹配：獎勵函數(shù)根據(jù)模型輸出的答案是否與標準參考答案一致，輸出一個二值信號 [4, 5, 2, 3, 42–44]。這種獎勵設計避免了對結果導向或過程導向的獎勵模型的需求，提供了一種簡單而有效的方法。RLVR 的成功也得益于強化學習算法的進展，包括對 PPO 的價值函數(shù)優(yōu)化或細節(jié)優(yōu)化 [7]（例如 VinePPO [9]、VCPPO [10]、VAPO [12]），GRPO 的穩(wěn)定性與加速方法 [2]（例如 DAPO [11]、Dr. GRPO [13]、GRPO+ [14]、SRPO [16]），以及多種組件的集成（例如 REINFORCE++ [15]）。還有一些近期工作專注于在極低人類監(jiān)督下的 RLVR（無需使用標注數(shù)據(jù)甚至問題本身），例如 Absolute-Zero [45]、EMPO [46] 和 TTRL [47]。

大語言模型后訓練中的數(shù)據(jù)選擇。大語言模型后訓練中的數(shù)據(jù)選擇問題在先前研究中已有廣泛探討 [48]，大多數(shù)工作集中在監(jiān)督微調（指令微調）的數(shù)據(jù)選擇上。這些方法包括基于大模型的質量評估 [49]、利用模型計算過程中的特征 [50]、基于梯度的選擇方法 [51] 等。另一類工作 [52–54] 探索了在基于人類反饋的強化學習（RLHF）[55] 中對人類偏好數(shù)據(jù)的數(shù)據(jù)選擇。相比之下，針對 RLVR 的數(shù)據(jù)選擇研究仍相對較少。

其中一項嘗試是 LIMR [19]，它從 8.5k 的完整數(shù)據(jù)集中篩選出 1.4k 個樣例用于 RLVR，以達到與全集相當?shù)男阅?；然而，與本文不同，該工作并未將訓練集規(guī)模的極限推向僅使用單個樣本的極端情況。另一項密切相關的同時期工作 [56] 表明，使用 PPO 的 RLVR 僅需 4 個樣例即可帶來顯著提升；但該研究并未系統(tǒng)性地探索這一現(xiàn)象，也未證明如此極小的訓練集能夠真正達到使用完整數(shù)據(jù)集的性能水平。

B 實驗設置

B.1 損失函數(shù)的細節(jié)

如正文所述，我們采用 verl [22] 的流程，在 GRPO 損失函數(shù)中包含三個組成部分：策略梯度損失、KL 散度損失和熵損失。具體如下：對于從問題集 P(Q) 中采樣的每個問題 q，GRPO 會從舊策略模型 πθ_old 中采樣一組輸出 {o?, o?, ..., o_G}，然后通過最小化以下?lián)p失函數(shù)來優(yōu)化策略模型 πθ：

B.2 訓練數(shù)據(jù)集

DeepScaleR-sub。DeepScaleR-Preview-Dataset [18] 包含約 40,000 個來自 AIME（1984–2023）、AMC（2023 年之前）以及其他來源（包括 Omni-MATH [58] 和 Still [59]）的獨特數(shù)學問題-答案對。數(shù)據(jù)處理流程包括：使用 Gemini-1.5-Pro-002 提取答案，通過基于 Sentence-Transformers 嵌入的 RAG 方法去除重復問題，以及過濾掉無法用 SymPy 進行評估的問題，以保證訓練集的純凈性。在我們的訓練中，我們隨機選取了一個包含 1,209 個樣例的子集，稱為“DSR-sub”。

MATH。該數(shù)據(jù)集由 [27] 引入，包含 12,500 道具有挑戰(zhàn)性的競賽數(shù)學題目，旨在衡量機器學習模型的高級問題解決能力。與標準數(shù)學題庫不同，MATH 數(shù)據(jù)集涵蓋高中數(shù)學競賽中的復雜問題，涉及前代數(shù)（Prealgebra）、代數(shù)（Algebra）、數(shù)論（Number Theory）、計數(shù)與概率（Counting and Probability）、幾何（Geometry）、中級代數(shù)（Intermediate Algebra）和微積分預備知識（Precalculus）等多個主題。每道題目均標注了 1 到 5 的難度等級，并附有詳細的分步解答。該數(shù)據(jù)集劃分為訓練子集（7,500 道題，占 60%）和測試子集（5,000 道題，占 40%）。

B.3 評估數(shù)據(jù)集

所有評估數(shù)據(jù)集均來自 Qwen2.5-Math 評估倉庫3，AIME2025? 除外。我們對其細節(jié)總結如下：

MATH500。MATH500 由 OpenAI [29] 構建，包含從 MATH 基準測試集 [27] 的測試部分（共 5,000 題）中精心篩選出的 500 道題目。該子集規(guī)模更小、更聚焦，專為高效評估而設計。

AIME 2024/2025。AIME 2024 和 2025 數(shù)據(jù)集是兩個專門的基準測試集，分別包含來自 2024 年和 2025 年美國數(shù)學邀請賽（AIME）I 卷和 II 卷的各 30 道題目 [30]。

AMC 2023。AMC 2023 數(shù)據(jù)集包含 40 道題目，選自面向美國 12 年級及以下學生的兩項高難度數(shù)學競賽（AMC 12A 和 12B）[31]。AMC 12 用于評估中學生在算術、代數(shù)、組合數(shù)學、幾何、數(shù)論和概率等領域的解題能力，所有題目均無需微積分即可解答。

Minerva Math。Minerva Math 最初在論文《Solving Quantitative Reasoning Problems with Language Models》[32] 中以“OCWCourses”形式隱式提出，包含從麻省理工學院（MIT）開放課程平臺（OpenCourseWare）收集的 272 道本科水平的 STEM 題目，專門用于評估語言模型的多步科學推理能力。這些題目精心選自固體化學、信息與熵、微分方程和狹義相對論等課程，每道題均被修改為自包含形式，并配有明確界定的答案，可通過數(shù)值解（191 題）或符號解（81 題）自動驗證。

OlympiadBench。OlympiadBench [33] 是一個大規(guī)模、雙語、多模態(tài)的基準測試集，旨在評估人工智能系統(tǒng)在高級數(shù)學和物理領域的推理能力。它包含 8,476 道來自各類競賽和國家考試的奧賽級別題目，并配有專家標注的分步解答。我們用于評估的子集包含 675 道英文開放文本型數(shù)學競賽題目。

我們還考慮了其他非數(shù)學推理任務：ARC-Challenge 和 ARC-Easy [34]。

ARC-Challenge/Easy。ARC-Challenge 基準集是從更廣泛的 ARC（AI2 推理挑戰(zhàn)）[34] 中選取的 2,590 道高難度科學考試題，這些題目被特別篩選出來，因為傳統(tǒng)的信息檢索和詞語共現(xiàn)方法無法正確解答。該具有挑戰(zhàn)性的評估基準完全由基于文本的英文多項選擇題（通常有四個選項）組成，涵蓋不同年級水平，旨在評估科學推理能力，而非簡單的模式匹配或信息檢索。作為補充，ARC-Easy [34] 子集包含 5,197 道可通過較簡單方法解答的題目。我們分別使用 1.17k 的測試集用于 ARC-Challenge 評估，2.38k 的測試集用于 ARC-Easy 評估。

B.4 更多訓練細節(jié)

對于 DeepSeek-R1-Distill-Qwen-1.5B，我們將其最大生成長度設置為 8192，遵循 DeepScaleR [18] 中第一階段的設置。學習率設為 1e-6。權重衰減系數(shù)默認設為 0.01。我們每 20 步保存一次模型檢查點用于評估，每次實驗使用 8 塊 A100 GPU。對于 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B，我們分別訓練 2000、1000、1000 和 1200 步，除非模型性能已出現(xiàn)明顯下降。我們采用與 DeepScaleR [18] 相同的方法（其代碼庫也源自 verl）將模型以 safetensors 格式保存，以便于后續(xù)評估。

B.5 更多評估細節(jié)

在評估過程中，默認最大生成 token 數(shù)為 3072。對于基于 Qwen 的模型，我們使用 “qwen25-math-cot” 提示模板進行評估。對于 Llama 及其蒸餾模型，我們使用它們各自的原始對話模板。評估時設置隨機種子（seed）為 0，top_p 為 1。對于 Llama-3.2-3B-Instruct [26]，我們采用相同的評估設置，僅更換為其自身的對話模板；對于 DeepSeek-R1-Distill-Qwen-1.5B [2]，我們也使用其自身的對話模板，并將最大生成 token 數(shù)設為 8192。默認情況下，我們報告在六個基準測試上平均性能最佳的檢查點的結果。但在第 3.2.3 節(jié)和第 4.1 節(jié)中，由于我們僅評估 MATH500 和 AIME2024，因此分別報告每個基準上表現(xiàn)最佳的檢查點（即最佳 MATH500 檢查點與最佳 AIME2024 檢查點可能不同）。這不會影響我們的結論，因為在附錄表 8 和表 10 中，我們?nèi)缘贸隽伺c正文一致的結論。評估過程使用 4 塊 GPU。最后需要說明的是，初始模型因數(shù)值精度差異可能存在輕微性能差異，但這并不影響我們的主要結論（見附錄 B.6）。

B.6 初始模型的性能差異

我們注意到，在表 7 中，從 Hugging Face 倉庫下載的模型與通過 verl/deepscaler 強化學習流程保存的初始檢查點之間存在精度不一致的問題。該差異的根源在于：verl/DeepScaleR 流程以 float32 精度保存檢查點，而 Hugging Face 上的原始基礎模型使用的是 bfloat16 精度。

根本原因出現(xiàn)在 verl 框架的模型初始化過程中。查看 verl 代碼庫中的 fsdp_workers.py 文件可以發(fā)現(xiàn)，模型在初始化時被刻意創(chuàng)建為 float32 精度，正如代碼注釋所指出的：“注意我們必須以 fp32 創(chuàng)建模型，否則優(yōu)化器會處于 bf16 狀態(tài)，這是不正確的”。這一設計選擇很可能是為了確保訓練過程中優(yōu)化器的穩(wěn)定性。在檢查檢查點保存過程時，初始化時設定的精度被保留下來，導致保存的檢查點保持 float32 精度，而非基礎模型原有的 bfloat16 精度。

我們的實證研究表明，通過修改保存的 config.json 文件中的 torch_dtype 參數(shù)，使其與基礎模型的精度一致（具體而言，將 float32 改為 bfloat16），可以成功解決觀察到的數(shù)值不一致問題。相關問題已在社區(qū)中有記錄?，而我們在實驗中采用了 verl 流程的默認設置。

C 評估結果

C.1 主要實驗

C.1.1 Qwen2.5-Math-1.5B 的詳細性能
在圖 6 中，我們展示了圖 1 所示結果的詳細性能。所有結果均基于在平均性能上表現(xiàn)最佳的檢查點報告。

C.1.2 更多模型的詳細性能
在表 9 中，我們還展示了基礎模型（Qwen2.5-1.5B [24]）和指令微調模型（Qwen2.5-Math-1.5B-Instruct [25]）上的單樣本/少樣本 RLVR 結果。更詳細的測試曲線見圖 12 和圖 13。我們可以觀察到：（1）對于 Qwen2.5-1.5B，使用 π? 的單樣本 RLVR 與全集 RLVR 之間仍存在較大差距，但前者仍顯著提升了模型性能（例如 MATH500：從 3.2% 提升至 43.6%），而 16 樣本 RLVR 的表現(xiàn)已非常接近全集 RLVR。（2）對于 Qwen2.5-Math-1.5B-Instruct，由于初始模型性能已較好，全集 RLVR 和單樣本 RLVR 的提升均有限。有趣的是，如圖 13 所示，我們觀察到單樣本 RLVR 比全集 RLVR 更穩(wěn)定。

C.1.3 各基準最佳性能的詳細結果
在表 8 中，我們展示了 Qwen2.5-Math-1.5B 的單樣本/少樣本 RLVR 詳細結果。此處我們記錄模型在每個基準上各自的最佳性能，因此其平均值可能高于整體平均性能的最佳值（“Avg.”）。我們提供這些結果以估計模型在各基準上可能達到的性能上限。此外，我們還包含了一些雖不如 π? 或 π?? 表現(xiàn)突出但仍帶來顯著提升的樣例，例如 π?、π???? 和 π????。我們觀察到，總體而言，性能越好的結果通常對應更晚的檢查點步數(shù)，這可能意味著更長的“飽和后泛化”過程。類似地，在表 10 中，我們也分別列出了 Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B 的各基準最佳性能結果，以及使用 PPO 訓練的 Qwen2.5-Math-1.5B 的結果。

C.1.4 Qwen2.5-Math-1.5B

上單樣本 RLVR 在 MATH500 的詳細測試曲線
我們繪制了在單樣本 RLVR 下，使用不同數(shù)學樣例時 MATH500 各子類別的性能曲線。如圖 7 所示，不同樣例的選擇導致了顯著不同的提升效果和訓練動態(tài)，突顯了數(shù)據(jù)選擇對未來少樣本 RLVR 方法的關鍵重要性。

C.1.5 訓練過程中各基準的詳細 RLVR 結果
為了更好地可視化 RLVR 的訓練過程，并比較少樣本 RLVR 與全集 RLVR 的差異，我們在圖 8、9、10 和 11 中展示了每個模型在各個基準上的性能曲線。我們注意到，對于 Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B，少樣本 RLVR 可以達到與全集 RLVR 相當甚至更優(yōu)的平均性能，但后者可以在更多訓練步中保持穩(wěn)定，即使測試性能不再提升。未來值得關注的是，若將單樣本/少樣本 RLVR 應用于更穩(wěn)定的 GRPO 變體 [13, 11, 12, 16]，是否能緩解這一現(xiàn)象。除了第 3.3 節(jié)中討論的結論外，我們還注意到：

Llama3.2-3B-Instruct 在訓練過程中更不穩(wěn)定，幾乎所有設置在 200 步之前就開始出現(xiàn)性能下降。
在 DeepSeek-R1-Distill-Qwen-1.5B 上，我們觀察到單樣本 RLVR 的模型性能在約 100 步后開始下降，而四樣本和十六樣本 RLVR 可以在更多訓練步中持續(xù)提升。我們推測蒸餾模型可能需要更多樣本來穩(wěn)定強化學習過程，該問題留待未來研究。

在附錄 C.1.2 中，我們還測試了 Qwen 系列的基礎模型和指令微調版本模型，其測試曲線也展示在圖 12 和圖 13 中。

C.2 分析

C.2.1 消融研究的測試曲線在圖 14 中，我們展示了消融研究（第 4.1 節(jié)）的測試性能曲線。可以看出，策略梯度損失是單樣本 RLVR 的主要貢獻因素。關于格式修正的更多討論見附錄 C.2.3。

C.2.2 熵損失

僅使用熵損失訓練的詳細結果。如第 4.2 節(jié)所述，我們在表 11 中展示了僅使用熵損失訓練的完整結果。僅使用熵損失訓練若干步，即可在除 AIME2025 外的所有數(shù)學基準上提升模型性能。測試曲線見圖 14。值得注意的是，僅使用熵損失訓練在 Qwen2.5-Math-1.5B 上的提升效果與僅使用格式獎勵的 RLVR 相似（見附錄 C.2.3 和表 12），因此我們懷疑僅使用熵損失訓練的有效性可能來源于格式修正。這一現(xiàn)象的嚴格分析留待未來工作。

關于熵損失及其在單樣本 RLVR 中作用的討論。值得注意的是，我們觀察到在單樣本 RLVR 中加入熵損失所帶來的益處，與先前工作 [60] 在完整 RLVR 數(shù)據(jù)集上的結論一致，即適當?shù)撵卣齽t化可以增強泛化能力，盡管其效果仍對系數(shù)選擇較為敏感。我們推測單樣本 RLVR 成功的原因在于：在已學習樣例（如 π?）上的策略梯度損失，實際上起到了一種隱式正則化的作用——當模型嘗試探索更多樣化的響應或策略時，該損失確保了訓練樣例學習結果的正確性（如圖 3 第 1300 步所示）。正因如此，策略損失和熵損失均可為單樣本 RLVR 的性能提升做出貢獻。嚴格的理論分析留待未來研究。

C.2.3 （僅僅是）格式修正嗎？

如 Dr. GRPO [13] 中所討論的，更改 Qwen2.5-Math 模型的提示模板會顯著影響其數(shù)學性能。在本節(jié)中，我們探討幾個關鍵問題：（單樣本）RLVR 是否在進行格式修正？如果是，這是否是單樣本 RLVR 唯一在做的事情？

為探究這一問題，我們考慮以下三種方法：

(a). 在 RLVR 中應用格式獎勵。我們嘗試僅使用格式獎勵進行 RLVR（即：如果驗證器能從模型輸出中解析出最終答案，則無論答案是否正確，均給予獎勵 1；否則獎勵為 0），同時考慮單樣本和全集設置。結果見表 12，測試曲線分別見圖 16 和圖 15。

值得注意的是，我們發(fā)現(xiàn)：（1）在全集 RLVR 和單樣本 RLVR 中應用格式獎勵的表現(xiàn)非常相似。（2）僅使用格式獎勵已能顯著提升模型性能（例如，在 MATH500 上提升約 29%，平均提升約 11%）。（3）使用結果獎勵（outcome reward）的單樣本 RLVR（以 π? 為例）與僅使用格式獎勵的 RLVR 之間仍存在顯著性能差距（例如，MATH500 上高出 +7.4%，平均高出 +5.8%），盡管兩者在評估中輸出包含“\boxed{}”的響應比例可能相近（更多討論見下文 (b) 部分）。（4）特別地，基于圖 16 和圖 15，格式獎勵 RLVR 對熵損失更為敏感。

有趣的是，我們還注意到，格式獎勵 RLVR 在 MATH500 和 AIME24 上的最佳性能，接近于使用相對效果較差樣例的單樣本 RLVR 的性能，例如第 3.2.3 節(jié)表 3 中的 π? 和 π??。這可能意味著：使用結果獎勵的單樣本 RLVR 至少可以達到與格式獎勵 RLVR 相當?shù)男阅埽欢ㄟ^選擇能夠更好激發(fā)模型推理能力的合適樣例，使用結果獎勵的單樣本 RLVR 還能帶來額外的、非平凡的性能提升。附錄 C.2.5 提供了一個示例 π′?（使用 π? 的一個子問題），支持了我們在此處的論斷。

(b) 觀察單樣本 RLVR 中格式的變化。我們進一步研究模型輸出格式（例如，“\boxed{}”符號的數(shù)量）在單樣本 RLVR 訓練過程中的變化情況。結果如圖 17 所示。我們可以看到：（1）測試準確率與“\boxed{}”數(shù)量呈顯著正相關，這印證了我們在 (a) 中的觀點，即格式修正在模型性能提升中起到了重要作用；但（2）對于某些基準（如 MATH500、Minerva Math 和 OlympiadBench），當“\boxed{}”數(shù)量已保持在較高比例時，這些基準上的測試準確率仍在持續(xù)提升，這可能意味著模型的推理能力在格式修正之外實現(xiàn)了獨立的提升。

特別地，為了防止模型輸出了正確答案但未將其放入“\boxed{}”的情況，我們還使用基于大語言模型的裁判方法（LLM-as-a-judge）[61]，借助 QwQ-32B [62] 來判斷模型響應中是否包含正確答案。結果如表 13 所示。我們可以看到，基于規(guī)則的 Qwen-Eval 評估流程與大模型裁判 QwQ-32B 判斷出的準確率非常接近；并且隨著“\boxed{}”比例的上升，測試準確率也隨之提高，這表明響應中實際出現(xiàn)的正確答案數(shù)量也在增加，而不僅僅是將正確答案放入“\boxed{}”中。

值得注意的是，我們還觀察到 Qwen2.5-Math 模型在響應末尾常常出現(xiàn)大量重復內(nèi)容，這可能導致無法正確提取最終結果。在評估 MATH500 時，Qwen2.5-Math-1.5B 和 Qwen2.5-Math-7B 的重復比例分別高達約 40% 和 20%，而 Llama3.2-3B-Instruct 僅為約 2%。這可能是導致 (a) 中提到的格式修正（例如格式獎勵 RLVR）帶來顯著提升的原因之一。

(c) 使用單樣本示例的上下文學習。上下文學習（in-context learning）[63] 是指令遵循任務中廣泛使用的一種基線方法（盡管它也可能提升模型的推理能力）。在本節(jié)中，我們嘗試探究單樣本 RLVR 是否優(yōu)于上下文學習。具體而言，我們考慮 Qwen-Eval [25] 官方為上下文學習選定的 4 個示例，以及單個訓練樣本 π?。結果如表 14 所示。

我們可以發(fā)現(xiàn)：（1）令人驚訝的是，使用模型自生成響應的 π? 在 1.5B 和 7B 模型上均顯著優(yōu)于 Qwen 的官方示例。特別是在 Qwen2.5-Math-7B 上，使用 π? 的上下文學習可將 MATH500 的性能從 51.0% 提升至 75.4%，平均性能從 22.4% 提升至 37.4%。（2）盡管上下文學習也能提升基礎模型的性能，但單樣本 RLVR 的表現(xiàn)仍優(yōu)于所有上下文學習的結果，顯示出 RLVR 的優(yōu)勢。

總之，我們通過這三種方法證實：單樣本 RLVR 確實實現(xiàn)了格式修正，并從中獲得了大量性能提升，但它仍帶來了額外的改進，這些改進無法僅通過格式獎勵或上下文學習輕易獲得。

C.2.4 隨機錯誤標簽的影響

在本節(jié)中，我們希望探究 RLVR 對標簽噪聲的魯棒性。眾所周知，一般的深度學習對標簽噪聲具有一定的魯棒性 [64]，我們希望驗證這一特性是否在 RLVR 中同樣成立。我們嘗試在 DSR-sub 數(shù)據(jù)集中隨機翻轉最終答案的標簽，觀察模型性能的變化。具體操作為：對數(shù)值答案在 ±10 范圍內(nèi)隨機加減一個數(shù)，并隨機改變其正負號；若為分數(shù)，則對其分子和分母分別進行類似的隨機加減。

結果如表 15 所示。我們可以觀察到：（1）即使將 60% 的數(shù)據(jù)標簽隨機替換為錯誤標簽，RLVR 仍能取得較好的結果。（2）如果數(shù)據(jù)集中 90% 的標簽都是錯誤的（即僅有約 120 個正確標簽，其余 1.1 千個數(shù)據(jù)均為錯誤標簽），模型的性能將低于僅使用一個正確標簽的單樣本 RLVR（即使用 π? 的情況，其中僅包含 1 個正確標簽?。?。這表明，RLVR 對標簽噪聲具有一定的魯棒性，但如果數(shù)據(jù)集中存在過多隨機錯誤標簽，它們可能會削弱正確標簽數(shù)據(jù)所帶來的性能提升。

C.2.5 修改 π? 的提示

如第 3.2.1 節(jié)所述，我們發(fā)現(xiàn)模型幾乎能夠解決 π?，但有時會在最后一步“計算 ?2048”上失敗。我們將這一步驟本身作為一個獨立問題（記為 π′?），并觀察其在單樣本 RLVR 中的表現(xiàn)。結果如表 16 所示。有趣的是，我們發(fā)現(xiàn) π′? 的表現(xiàn)顯著不如 π?，相較于格式獎勵僅帶來 1.3% 的平均性能提升（如附錄 C.2.3 (a) 所示）。我們認為原因在于：盡管計算 ?2048 是 π? 中最具挑戰(zhàn)性的部分之一，但 π? 還包含其他關鍵步驟（例如，根據(jù)給定數(shù)值從公式 P = kAV3 中求解 k），這些步驟可能引發(fā)更多樣化的思維鏈（CoT）模式（而不僅僅是數(shù)值計算），從而在“飽和后泛化”階段提供更大的探索空間，更有效地激發(fā)模型的推理能力。

D 討論

D.1 本工作的局限性

由于計算資源的限制，我們目前尚未嘗試在更大的模型（如 Qwen2.5-32B）上進行訓練。但總體而言，許多 RLVR 研究都是在 1.5B 和 7B 規(guī)模的模型上開展的，并已在 OlympiadBench 等具有挑戰(zhàn)性的數(shù)學基準上取得了顯著提升，因此我們的實驗對于 RLVR 領域仍具有重要的參考價值。本工作的另一局限在于，我們主要聚焦于數(shù)學領域，尚未在其他可驗證任務（如代碼生成）上嘗試單樣本/少樣本 RLVR。但我們強調，本文中所有與數(shù)學相關的實驗和結論在邏輯上是自洽且清晰記錄的，以確保讀者理解清晰、避免混淆。我們的主要目標是深入分析這一新現(xiàn)象本身，它已帶來了諸多新穎的觀察結果（例如跨領域泛化、飽和后泛化、以及單樣本 RLVR 中更頻繁的自我反思等）。我們將少樣本 RLVR 在其他場景（如編程）中的應用留待未來研究。

特別需要指出的是，我們的核心目標是提出一種新的觀察現(xiàn)象，而非提出一種更優(yōu)的新方法，需注意單樣本 RLVR 并不能節(jié)?。ㄉ踔量赡苄枰啵娀瘜W習的計算資源。此外，π? 不一定是在其他模型上進行單樣本 RLVR 的最佳選擇，因為它是基于 Qwen2.5-Math-1.5B 的歷史方差得分選出的?？傮w而言，使用少樣本 RLVR 可能使訓練更穩(wěn)定，例如我們在 DeepSeek-R1-Distill-Qwen-1.5B（表 4）、Qwen2.5-Math-7B（表 4）和 Qwen2.5-1.5B（表 9）上的實驗表明，使用 16 個樣例（{π?, ..., π??}）的 RLVR 表現(xiàn)與使用 1.2k 數(shù)據(jù)集 DSR-sub 相當，且優(yōu)于使用單個樣例 π? 的單樣本 RLVR。

D.2 基礎模型的推理能力

單樣本/少樣本 RLVR 的有效性為近年來提出的一個假設提供了有力證據(jù)，即：基礎模型本身已具備較強的推理能力 [13, 6, 20, 21]。例如，Dr. GRPO [13] 已證明，在不使用特定提示模板的情況下，基礎模型在下游任務中可取得顯著更優(yōu)的表現(xiàn)。近期研究進一步支持了這一觀點，發(fā)現(xiàn)從 pass@k 指標來看，隨著 k 的增加，通過 RLVR 訓練的模型性能會逐漸低于基礎模型 [20]。我們的工作從另一個角度佐證了這一觀點：單個訓練樣例幾乎不提供額外知識，卻能帶來顯著提升。此外，我們的實驗表明，僅使用極少量樣例的 RLVR 就足以在數(shù)學推理任務上實現(xiàn)顯著改進。因此，值得深入研究如何選擇合適的數(shù)據(jù)，以在保持數(shù)據(jù)效率的同時更好地在強化學習階段激活模型的潛在能力。

D.3 為何模型在訓練準確率達到接近 100% 后仍能持續(xù)提升？

人們對單樣本 RLVR 的一個自然擔憂是：當訓練準確率接近 100%（例如在單個樣本上過度訓練時可能發(fā)生），GRPO 的優(yōu)勢函數(shù)（公式 6）應趨近于零，從而導致策略梯度信號消失。然而，熵損失鼓勵輸出的多樣性，導致模型偶爾出現(xiàn)錯誤（訓練準確率維持在 99.x%），從而產(chǎn)生非零梯度（在包含錯誤響應的批次中，由于方差較小，優(yōu)勢函數(shù)值反而變大）。這體現(xiàn)了熵損失對“飽和后泛化”的重要性（見圖 5）。支持這一點的是，圖 18 顯示，在 Qwen2.5-Math-1.5B 上進行單樣本 RLVR 訓練（使用 π?）時，策略梯度損失在 100 步之后仍保持非零。

D.4 未來工作

我們認為，本研究的發(fā)現(xiàn)可為以下方向提供一些啟示：

數(shù)據(jù)選擇與構建。目前，除 LIMR [19] 外，尚無專門針對 RLVR 的數(shù)據(jù)選擇方法。值得注意的是，單樣本 RLVR 允許對每個樣例進行獨立評估，這有助于衡量數(shù)據(jù)的價值，從而為設計更優(yōu)的數(shù)據(jù)選擇策略提供支持。此外，由于不同樣例在激發(fā)大語言模型推理能力方面存在顯著差異（見表 3），有必要深入探究哪些類型的數(shù)據(jù)對 RLVR 更為有效，這對 RLVR 的數(shù)據(jù)收集階段至關重要。需要強調的是，我們的工作并不意味著擴大 RLVR 數(shù)據(jù)集規(guī)模毫無意義，而是強調了在 RLVR 中進行更優(yōu)數(shù)據(jù)選擇與構建的重要性。

理解單樣本 RLVR 與飽和后泛化。目前，對于單樣本大模型 RLVR 的可行性以及“飽和后泛化”現(xiàn)象，仍缺乏嚴謹?shù)睦碚摻忉?。我們推測一種可能的機制是：當模型在熵損失或更高 rollout 溫度的激勵下嘗試探索更多樣化的輸出策略時，對已學習樣例的策略損失起到了“隱式正則化”的作用——它會懲罰那些導致模型無法正確回答已學習數(shù)據(jù)的探索模式，從而為探索過程提供驗證。值得探究的是，這一現(xiàn)象是否與“雙下降”（Double Descent）[65] 或 SGD 的隱式正則化 [66, 67] 有關。我們將在未來工作中對此現(xiàn)象進行嚴謹分析，相信這將有助于我們深入理解 RLVR 過程中發(fā)生的變化。

探索的重要性。在第 4.1 節(jié)中，我們強調了熵損失在單樣本 RLVR 中的重要性，并指出為何僅使用熵損失訓練即可提升模型性能，其背后的機理仍是一個值得深入研究的方向（見第 4.2 節(jié)）。相關地，熵損失已受到社區(qū)越來越多的關注，近期研究探討了其動態(tài)特性 [68, 47, 60]，或從熵的角度提出了改進算法 [46]。我們進一步認為，更廣泛且更重要的啟示是：鼓勵模型在解空間內(nèi)探索更多樣化的輸出至關重要，這可能顯著影響模型在下游任務中的泛化能力 [69]。添加熵損失只是實現(xiàn)這一目標的一種可能方式，未必是最優(yōu)解。如本文及先前工作 [60] 所示，熵損失的效果對系數(shù)選擇敏感，這可能限制其在更大規(guī)模實驗中的適用性。我們相信，發(fā)現(xiàn)更優(yōu)的探索促進策略將進一步提升 RLVR 的有效性。

其他應用場景。本文主要聚焦于數(shù)學推理數(shù)據(jù)，但評估單樣本 RLVR 在其他領域（如代碼生成或無法提供可驗證獎勵的任務）中的有效性同樣重要。此外，在多種數(shù)據(jù)受限場景下進一步提升少樣本 RLVR 性能的方法論研究也具有重要價值。正如第 4.2 節(jié)所討論的，RLVR 的標簽魯棒性也值得進一步探索。最后，這些觀察結果可能激勵我們開發(fā)新的評估集，以更準確地衡量單樣本 RLVR 與全集 RLVR 在數(shù)學或其他推理任務上的差異。

E 示例細節(jié)

在正文中，我們展示了樣例 π? 的詳細信息。另一個有用的樣例 π?? 如表 17 所示。此處我們指出，π?? 是一個幾何問題，其答案是精確的。與 π? 類似，在對初始基礎模型進行 128 次采樣的結果中，仍有 21.9% 的輸出成功得到了結果 4/3。

此外，補充材料中的表18至表38提供了我們實驗中使用的所有樣例以及 {π?, ..., π??} 中其他樣例的詳細信息。每個表格包含單個樣例的具體提示（prompt）和對應的標準答案標簽（ground truth label）。

原文鏈接：https://arxiv.org/pdf/2504.20571

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.