復(fù)旦提出簡單指標(biāo)，找出推理蒸餾中真正有教學(xué)價值的數(shù)據(jù)

2026-01-28 14:00:43　來源: 機(jī)器之心Pro

河北舉報

分享至

什么樣的思維鏈，能「教會」學(xué)生更好地推理？

許多人都有這樣的學(xué)習(xí)體驗：內(nèi)容過于熟悉，難以帶來新的收獲；內(nèi)容過于陌生，又往往超出理解能力，難以消化吸收。

類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強(qiáng)的教師模型的思維鏈，可能過于晦澀，學(xué)生模型難以掌握其推理模式；而與學(xué)生認(rèn)知相近的教師模型，其推理軌跡又常常缺乏新信息，難以帶來實質(zhì)提升。

因此，要獲得理想的蒸餾效果，關(guān)鍵在于為不同學(xué)生模型選擇恰好合適的數(shù)據(jù)，在「熟悉」與「陌生」之間找到最佳平衡。然而，現(xiàn)有基于概率的篩選或度量方法（如 Perplexity）難以刻畫這種細(xì)粒度的適配關(guān)系。

那么，是否存在一種直觀且易于計算的數(shù)據(jù)適配度指標(biāo)，能夠量化這種平衡？

來自復(fù)旦大學(xué)和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法，Rank-Surprisal Ratio (RSR)：

RSR 從學(xué)生模型的視角出發(fā)，綜合考慮樣本的信息量與對齊程度，旨在找出那些既足夠「新」，又未超出學(xué)生認(rèn)知邊界的推理數(shù)據(jù)。

在大規(guī)模蒸餾實驗中，RSR 與學(xué)生模型后訓(xùn)練性能的相關(guān)性高達(dá) 0.86，并且可以直接用于篩選推理軌跡以及選擇教師模型，無需實際訓(xùn)練即可找到更合適的思維鏈數(shù)據(jù)。

論文鏈接：https://arxiv.org/pdf/2601.14249
代碼鏈接：https://github.com/UmeanNever/RankSurprisalRatio

反直覺的現(xiàn)象

長思維鏈（CoT）的生成被普遍認(rèn)為是大模型推理能力的核心。相應(yīng)地，包含長思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號，可以用于有監(jiān)督微調(diào)（SFT）訓(xùn)練學(xué)生模型，或助力強(qiáng)化學(xué)習(xí)的冷啟動。

但越來越多的實驗呈現(xiàn)出一個反直覺現(xiàn)象：教師模型越強(qiáng)，學(xué)生模型未必學(xué)得越好。

在這篇工作中，作者系統(tǒng)性地構(gòu)建了 11 個 teacher（教師模型）× 5 個 student（學(xué)生模型）的蒸餾實驗，覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示：

teacher 的參數(shù)規(guī)模、推理準(zhǔn)確率與 student 的推理提升相關(guān)性很弱；
同一個 teacher 的數(shù)據(jù)在不同 student 上的訓(xùn)練效果差異顯著；
跨模型家族的 teacher（如 GPT-OSS → Qwen）往往效果更差；
推理數(shù)據(jù)是否「適合」當(dāng)前 student 是關(guān)鍵。

表一：蒸餾實驗結(jié)果，在多個數(shù)學(xué) benchmark 上評測 student 模型使用 teacher 數(shù)據(jù)訓(xùn)練后的性能。

現(xiàn)有數(shù)據(jù)篩選方法的問題

當(dāng)前主流的數(shù)據(jù)篩選或評估方法，大多依賴一個信號：student 模型生成該數(shù)據(jù)的概率（perplexity /log-likelihood/surprisal），認(rèn)為 student 覺得「自然」的數(shù)據(jù)就更容易學(xué)。

但問題在于：

太「自然」的推理數(shù)據(jù)，往往信息增量有限；
真正有價值的推理數(shù)據(jù)，恰恰是 student 尚未充分掌握的部分。

這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge：如何在提供新知識的 informativeness 與符合學(xué)生當(dāng)前認(rèn)知的 alignment 之間取得平衡？

關(guān)鍵洞察

「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學(xué)習(xí)價值

面對看似難以兼顧的「熟悉 - 陌生」的平衡，作者從 token 級別重新審視 student 的預(yù)測分布，提出一個直觀、但之前被忽略的視角：

Informativeness 關(guān)注的是當(dāng)前 token 在概率層面的絕對陌生度，可由 Surprisal（?log p / 負(fù)對數(shù)似然）刻畫；
Alignment 關(guān)注的是當(dāng)前 token對比其它候選 token 的相對熟悉度，可由 Rank（在詞表預(yù)測中的名次）衡量。

在這一視角下，一個 token 可以同時滿足：

被 student 生成的概率不高（informative）
但在候選詞表中排名靠前（aligned）

因此，informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點(diǎn)的 token，構(gòu)成了最適合 student 學(xué)習(xí)的推理數(shù)據(jù)。

圖一：Rank-Surprisal Ratio 的設(shè)計動機(jī) —— 合適的推理數(shù)據(jù)應(yīng)當(dāng)兼顧 informativeness 與 alignment

直觀的指標(biāo)：Rank-Surprisal Ratio

基于前文在 token 級別的觀察，以及相關(guān)仿真分析與數(shù)學(xué)推導(dǎo)，論文提出了一個形式上極其簡潔的樣本級指標(biāo)：

直覺解釋：

分子（Rank）越小，表示當(dāng)前樣本越符合 student 的行為模式，對齊程度（alignment）越高；
分母（Surprisal）越大，表示當(dāng)前樣本提供的信息量越充分，信息性（informativeness）越強(qiáng)；
RSR 越小 → 信息量與對齊程度的平衡越好。

在實現(xiàn)上：

僅需對 student 進(jìn)行一次前向計算；
不依賴 verifier 或額外測試數(shù)據(jù)；
融合了 rank clipping 與 surprisal 加權(quán)平均機(jī)制，在極端情況下具有更好的數(shù)值穩(wěn)定性。

實驗：與訓(xùn)練效果的相關(guān)性

作者將 RSR 與多種已有指標(biāo)進(jìn)行了對比，包括 teacher 模型及訓(xùn)練數(shù)據(jù)的若干統(tǒng)計量、常用的數(shù)據(jù)質(zhì)量評估方法、基于概率的指標(biāo)，以及其他基于 student 模型計算的指標(biāo)。

實驗結(jié)果在 5 個 student 模型上高度一致：RSR 與 student 模型后訓(xùn)練性能的 Spearman 相關(guān)系數(shù)平均達(dá)到 0.86，顯著高于其它指標(biāo)。

表二：不同指標(biāo)與模型后訓(xùn)練推理性能之間的相關(guān)性

在實際場景中的應(yīng)用

場景 1：Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù)）

在該場景中，針對訓(xùn)練集中的每一道題目，作者從多個 teacher 模型生成的 33 條候選思維鏈中，依據(jù)不同指標(biāo)選擇一條最合適的推理軌跡，從而構(gòu)建用于訓(xùn)練 student 的推理數(shù)據(jù)集。
實驗結(jié)果表明，基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù)，在不同 student 模型上訓(xùn)練后均取得了最優(yōu)的推理性能，優(yōu)于其它方法。

表三：不同數(shù)據(jù)篩選方法的后訓(xùn)練性能

場景 2：Teacher Selection（選擇最合適的教師模型）

在該場景中，作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度，從而模擬實際蒸餾前的 teacher 選擇過程。
實驗結(jié)果顯示，RSR 能穩(wěn)定選出接近 oracle（真實最優(yōu)）的 teacher 模型，整體表現(xiàn)優(yōu)于其它方法。

表三：不同 teacher 模型選擇方法的表現(xiàn)

結(jié)語

這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題：什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的相對熟悉度（rank）與絕對信息量（surprisal）結(jié)合，Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規(guī)模實驗中被驗證有效的答案。

更重要的是，RSR 并不依賴額外的評估數(shù)據(jù)或驗證器，而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價值。這使它不僅是一個分析工具，也具備作為實際數(shù)據(jù)工程指標(biāo)的潛力。

向前看，這種「informative alignment」的視角或許可以進(jìn)一步擴(kuò)展到：

更通用的 reasoning 任務(wù)（如 code、tool use）；
推理軌跡的重寫與合成，而不僅是選擇；
以及與 On-policy Distillation、RL 結(jié)合的動態(tài)數(shù)據(jù)調(diào)度。

當(dāng)推理模型的瓶頸逐漸從「規(guī)�！罐D(zhuǎn)向「數(shù)據(jù)的高效利用」，理解哪些思維過程真正具有教學(xué)價值，可能將成為下一階段 post-training 的關(guān)鍵問題。

作者介紹

楊宇銘，復(fù)旦大學(xué)自然語言處理實驗室博士生，導(dǎo)師為張奇教授。本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系，碩士畢業(yè)于密歇根大學(xué)統(tǒng)計學(xué)系。博士階段前曾在微軟擔(dān)任數(shù)據(jù)科學(xué)家。研究方向為自然語言處理與大語言模型，作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發(fā)表多篇論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.