国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦提出簡(jiǎn)單指標(biāo),找出推理蒸餾中真正有教學(xué)價(jià)值的數(shù)據(jù)

0
分享至



什么樣的思維鏈,能「教會(huì)」學(xué)生更好地推理?


許多人都有這樣的學(xué)習(xí)體驗(yàn):內(nèi)容過于熟悉,難以帶來新的收獲;內(nèi)容過于陌生,又往往超出理解能力,難以消化吸收。

類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強(qiáng)的教師模型的思維鏈,可能過于晦澀,學(xué)生模型難以掌握其推理模式;而與學(xué)生認(rèn)知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實(shí)質(zhì)提升。

因此,要獲得理想的蒸餾效果,關(guān)鍵在于為不同學(xué)生模型選擇恰好合適的數(shù)據(jù),在「熟悉」與「陌生」之間找到最佳平衡。然而,現(xiàn)有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細(xì)粒度的適配關(guān)系。

那么,是否存在一種直觀且易于計(jì)算的數(shù)據(jù)適配度指標(biāo),能夠量化這種平衡?

來自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的研究者提出了一種簡(jiǎn)單而有效的度量方法,Rank-Surprisal Ratio (RSR):



RSR 從學(xué)生模型的視角出發(fā),綜合考慮樣本的信息量與對(duì)齊程度,旨在找出那些既足夠「新」,又未超出學(xué)生認(rèn)知邊界的推理數(shù)據(jù)。

在大規(guī)模蒸餾實(shí)驗(yàn)中,RSR 與學(xué)生模型后訓(xùn)練性能的相關(guān)性高達(dá) 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實(shí)際訓(xùn)練即可找到更合適的思維鏈數(shù)據(jù)。



  • 論文鏈接:https://arxiv.org/pdf/2601.14249
  • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

反直覺的現(xiàn)象


長(zhǎng)思維鏈(CoT)的生成被普遍認(rèn)為是大模型推理能力的核心。相應(yīng)地,包含長(zhǎng)思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號(hào),可以用于有監(jiān)督微調(diào)(SFT)訓(xùn)練學(xué)生模型,或助力強(qiáng)化學(xué)習(xí)的冷啟動(dòng)。

但越來越多的實(shí)驗(yàn)呈現(xiàn)出一個(gè)反直覺現(xiàn)象:教師模型越強(qiáng),學(xué)生模型未必學(xué)得越好。

在這篇工作中,作者系統(tǒng)性地構(gòu)建了 11 個(gè) teacher(教師模型)× 5 個(gè) student(學(xué)生模型)的蒸餾實(shí)驗(yàn),覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示:

  • teacher 的參數(shù)規(guī)模、推理準(zhǔn)確率與 student 的推理提升相關(guān)性很弱;
  • 同一個(gè) teacher 的數(shù)據(jù)在不同 student 上的訓(xùn)練效果差異顯著;
  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
  • 推理數(shù)據(jù)是否「適合」當(dāng)前 student 是關(guān)鍵。



表一:蒸餾實(shí)驗(yàn)結(jié)果,在多個(gè)數(shù)學(xué) benchmark 上評(píng)測(cè) student 模型使用 teacher 數(shù)據(jù)訓(xùn)練后的性能。

現(xiàn)有數(shù)據(jù)篩選方法的問題

當(dāng)前主流的數(shù)據(jù)篩選或評(píng)估方法,大多依賴一個(gè)信號(hào):student 模型生成該數(shù)據(jù)的概率(perplexity /log-likelihood/surprisal),認(rèn)為 student 覺得「自然」的數(shù)據(jù)就更容易學(xué)。



但問題在于:

  • 太「自然」的推理數(shù)據(jù),往往信息增量有限;
  • 真正有價(jià)值的推理數(shù)據(jù),恰恰是 student 尚未充分掌握的部分。

這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識(shí)的 informativeness 與符合學(xué)生當(dāng)前認(rèn)知的 alignment 之間取得平衡?

關(guān)鍵洞察

「絕對(duì)陌生 (Absolute unfamiliarity) + 相對(duì)熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學(xué)習(xí)價(jià)值

面對(duì)看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級(jí)別重新審視 student 的預(yù)測(cè)分布,提出一個(gè)直觀、但之前被忽略的視角:

  • Informativeness 關(guān)注的是當(dāng)前 token 在概率層面的絕對(duì)陌生度,可由 Surprisal(?log p / 負(fù)對(duì)數(shù)似然)刻畫;
  • Alignment 關(guān)注的是當(dāng)前 token對(duì)比其它候選 token 的相對(duì)熟悉度,可由 Rank(在詞表預(yù)測(cè)中的名次)衡量。

在這一視角下,一個(gè) token 可以同時(shí)滿足:

  • 被 student 生成的概率不高(informative)
  • 但在候選詞表中排名靠前(aligned)

因此,informativeness 與 alignment 并非天然沖突。恰恰是同時(shí)滿足這兩點(diǎn)的 token,構(gòu)成了最適合 student 學(xué)習(xí)的推理數(shù)據(jù)。



圖一:Rank-Surprisal Ratio 的設(shè)計(jì)動(dòng)機(jī) —— 合適的推理數(shù)據(jù)應(yīng)當(dāng)兼顧 informativeness 與 alignment

直觀的指標(biāo):Rank-Surprisal Ratio


基于前文在 token 級(jí)別的觀察,以及相關(guān)仿真分析與數(shù)學(xué)推導(dǎo),論文提出了一個(gè)形式上極其簡(jiǎn)潔的樣本級(jí)指標(biāo):



直覺解釋:

  • 分子(Rank)越小,表示當(dāng)前樣本越符合 student 的行為模式,對(duì)齊程度(alignment)越高;
  • 分母(Surprisal)越大,表示當(dāng)前樣本提供的信息量越充分,信息性(informativeness)越強(qiáng);
  • RSR 越小 → 信息量與對(duì)齊程度的平衡越好。

在實(shí)現(xiàn)上:

  • 僅需對(duì) student 進(jìn)行一次前向計(jì)算;
  • 不依賴 verifier 或額外測(cè)試數(shù)據(jù);
  • 融合了 rank clipping 與 surprisal 加權(quán)平均機(jī)制,在極端情況下具有更好的數(shù)值穩(wěn)定性。

實(shí)驗(yàn):與訓(xùn)練效果的相關(guān)性

作者將 RSR 與多種已有指標(biāo)進(jìn)行了對(duì)比,包括 teacher 模型及訓(xùn)練數(shù)據(jù)的若干統(tǒng)計(jì)量、常用的數(shù)據(jù)質(zhì)量評(píng)估方法、基于概率的指標(biāo),以及其他基于 student 模型計(jì)算的指標(biāo)。

實(shí)驗(yàn)結(jié)果在 5 個(gè) student 模型上高度一致:RSR 與 student 模型后訓(xùn)練性能的 Spearman 相關(guān)系數(shù)平均達(dá)到 0.86,顯著高于其它指標(biāo)。



表二:不同指標(biāo)與模型后訓(xùn)練推理性能之間的相關(guān)性

在實(shí)際場(chǎng)景中的應(yīng)用

場(chǎng)景 1:Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù))

  • 在該場(chǎng)景中,針對(duì)訓(xùn)練集中的每一道題目,作者從多個(gè) teacher 模型生成的 33 條候選思維鏈中,依據(jù)不同指標(biāo)選擇一條最合適的推理軌跡,從而構(gòu)建用于訓(xùn)練 student 的推理數(shù)據(jù)集。
  • 實(shí)驗(yàn)結(jié)果表明,基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù),在不同 student 模型上訓(xùn)練后均取得了最優(yōu)的推理性能,優(yōu)于其它方法。



表三:不同數(shù)據(jù)篩選方法的后訓(xùn)練性能

場(chǎng)景 2:Teacher Selection(選擇最合適的教師模型)

  • 在該場(chǎng)景中,作者僅使用每個(gè) teacher 模型生成的 200 條推理軌跡來估計(jì)其與不同 student 的適配程度,從而模擬實(shí)際蒸餾前的 teacher 選擇過程。
  • 實(shí)驗(yàn)結(jié)果顯示,RSR 能穩(wěn)定選出接近 oracle(真實(shí)最優(yōu))的 teacher 模型,整體表現(xiàn)優(yōu)于其它方法。



表三:不同 teacher 模型選擇方法的表現(xiàn)

結(jié)語

這項(xiàng)工作重新審視了推理蒸餾中一個(gè)看似簡(jiǎn)單卻難以回答的的問題:什么樣的推理軌跡能「教會(huì)」student 更好地推理。通過將 token 的 相對(duì)熟悉度(rank) 與 絕對(duì)信息量(surprisal) 結(jié)合,Rank-Surprisal Ratio 給出了一個(gè)直觀、易于計(jì)算、且在大規(guī)模實(shí)驗(yàn)中被驗(yàn)證有效的答案。

更重要的是,RSR 并不依賴額外的評(píng)估數(shù)據(jù)或驗(yàn)證器,而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價(jià)值。這使它不僅是一個(gè)分析工具,也具備作為實(shí)際數(shù)據(jù)工程指標(biāo)的潛力。

向前看,這種「informative alignment」的視角或許可以進(jìn)一步擴(kuò)展到:

  • 更通用的 reasoning 任務(wù)(如 code、tool use);
  • 推理軌跡的重寫與合成,而不僅是選擇;
  • 以及與 On-policy Distillation、RL 結(jié)合的動(dòng)態(tài)數(shù)據(jù)調(diào)度。

當(dāng)推理模型的瓶頸逐漸從「規(guī)!罐D(zhuǎn)向「數(shù)據(jù)的高效利用」,理解哪些思維過程真正具有教學(xué)價(jià)值,可能將成為下一階段 post-training 的關(guān)鍵問題。

作者介紹

楊宇銘,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室博士生,導(dǎo)師為張奇教授。本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系,碩士畢業(yè)于密歇根大學(xué)統(tǒng)計(jì)學(xué)系。博士階段前曾在微軟擔(dān)任數(shù)據(jù)科學(xué)家。研究方向?yàn)樽匀徽Z言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級(jí)會(huì)議發(fā)表多篇論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今日開啟訪華之旅,期待深化經(jīng)貿(mào)關(guān)系,斯塔默:“忽視中國(guó)是不明智的”

今日開啟訪華之旅,期待深化經(jīng)貿(mào)關(guān)系,斯塔默:“忽視中國(guó)是不明智的”

環(huán)球網(wǎng)資訊
2026-01-28 07:22:06
救救美國(guó)的中產(chǎn)吧,他們都快要餓死了!

救救美國(guó)的中產(chǎn)吧,他們都快要餓死了!

走讀新生
2026-01-27 21:49:52
收退賽大禮!德約0-2落后穆塞蒂傷退 進(jìn)四強(qiáng)澳網(wǎng)103勝超費(fèi)德勒

收退賽大禮!德約0-2落后穆塞蒂傷退 進(jìn)四強(qiáng)澳網(wǎng)103勝超費(fèi)德勒

醉臥浮生
2026-01-28 14:58:32
結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
牢A回國(guó)后,“大瓜”一個(gè)比一個(gè)勁爆,他火下去是好是壞?

牢A回國(guó)后,“大瓜”一個(gè)比一個(gè)勁爆,他火下去是好是壞?

文字里拾光
2026-01-26 19:36:46
網(wǎng)友吃自助烤肉結(jié)果每盒只有一點(diǎn)肉,于是開始玩起疊塔游戲

網(wǎng)友吃自助烤肉結(jié)果每盒只有一點(diǎn)肉,于是開始玩起疊塔游戲

映射生活的身影
2026-01-28 15:42:38
貝克漢姆14歲女兒挎香奈兒,卻也比父母節(jié)儉,“不上學(xué)”引發(fā)爭(zhēng)議

貝克漢姆14歲女兒挎香奈兒,卻也比父母節(jié)儉,“不上學(xué)”引發(fā)爭(zhēng)議

譯言
2026-01-28 08:36:25
中國(guó)足球真相:不是14億人選不出11個(gè),而是10萬個(gè)有錢人的游戲

中國(guó)足球真相:不是14億人選不出11個(gè),而是10萬個(gè)有錢人的游戲

小鄭說史
2026-01-28 00:25:03
大S雕像正式進(jìn)入墓園:用9階大理石制作,S形蜿蜒臺(tái)階令人淚目

大S雕像正式進(jìn)入墓園:用9階大理石制作,S形蜿蜒臺(tái)階令人淚目

素素娛樂
2026-01-28 11:22:48
掀桌了?高市公布戰(zhàn)爭(zhēng)方案,日要求漁民撤離,白宮與五角大樓沉默

掀桌了?高市公布戰(zhàn)爭(zhēng)方案,日要求漁民撤離,白宮與五角大樓沉默

時(shí)時(shí)有聊
2026-01-28 08:18:56
突擊檢查全國(guó)武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

突擊檢查全國(guó)武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
黃仁勛現(xiàn)身英偉達(dá)深圳公司樓下,參加年會(huì)并“逛吃”;去年曾在年會(huì)派發(fā)多個(gè)萬元大紅包

黃仁勛現(xiàn)身英偉達(dá)深圳公司樓下,參加年會(huì)并“逛吃”;去年曾在年會(huì)派發(fā)多個(gè)萬元大紅包

瀟湘晨報(bào)
2026-01-28 13:55:12
從5勝16負(fù),到16勝8負(fù),全聯(lián)盟找不到下家!NBA傳奇球星該退役了

從5勝16負(fù),到16勝8負(fù),全聯(lián)盟找不到下家!NBA傳奇球星該退役了

老梁體育漫談
2026-01-28 00:04:41
不打算買了,日本12萬噸水產(chǎn)全爛在港口!日企哀嘆:這是致命一擊

不打算買了,日本12萬噸水產(chǎn)全爛在港口!日企哀嘆:這是致命一擊

墨蘭史書
2026-01-28 13:10:03
要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
一頭“野豬”的死亡,讓李嘉誠(chéng)的香港“豪宅”再次進(jìn)入大眾視野!

一頭“野豬”的死亡,讓李嘉誠(chéng)的香港“豪宅”再次進(jìn)入大眾視野!

良有方
2026-01-27 11:00:18
伊朗已被包圍,美軍開戰(zhàn)在即,哈梅內(nèi)伊進(jìn)地堡,中方要做最壞打算

伊朗已被包圍,美軍開戰(zhàn)在即,哈梅內(nèi)伊進(jìn)地堡,中方要做最壞打算

鐵錘簡(jiǎn)科
2026-01-27 23:33:49
中國(guó)鋼鐵太頂了!賤賣換不來尊重,這波反手限供,讓全球急瘋了

中國(guó)鋼鐵太頂了!賤賣換不來尊重,這波反手限供,讓全球急瘋了

百科密碼
2026-01-27 17:27:07
9.6萬,特斯拉的車主懵了...

9.6萬,特斯拉的車主懵了...

放毒
2026-01-26 17:28:57
四川電信科長(zhǎng)斂財(cái)數(shù)千萬,其上級(jí)女高管亦有巨額財(cái)產(chǎn)卻平安落地?

四川電信科長(zhǎng)斂財(cái)數(shù)千萬,其上級(jí)女高管亦有巨額財(cái)產(chǎn)卻平安落地?

法治邊角料
2026-01-27 13:45:45
2026-01-28 17:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12209文章數(shù) 142551關(guān)注度
往期回顧 全部

教育要聞

C9大學(xué):2026年起,學(xué)碩全部要讀博!

頭條要聞

女生曬春運(yùn)"出國(guó)回家"攻略:連飛俄兩地再坐船回黑龍江

頭條要聞

女生曬春運(yùn)"出國(guó)回家"攻略:連飛俄兩地再坐船回黑龍江

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

王祖賢入駐某音:一條7秒視頻吸粉55萬

財(cái)經(jīng)要聞

40倍杠桿斷裂!水貝一黃金平臺(tái)兌付困難

科技要聞

它是神也是毒!Clawdbot改名卷入千萬詐騙

汽車要聞

新手必看!冰雪路面不敢開?記住這4點(diǎn) 關(guān)鍵時(shí)刻真能保命

態(tài)度原創(chuàng)

時(shí)尚
本地
家居
手機(jī)
健康

被章若楠、舒淇帶火的毛衣,這樣穿太時(shí)髦了!

本地新聞

云游中國(guó)|撥開云霧,巫山每幀都是航拍大片

家居要聞

躍式別墅 包絡(luò)石木為生

手機(jī)要聞

REDMI Turbo 5系列官宣“搶票模式”:超級(jí)島讀秒,還能降低延遲

耳石癥分類型,癥狀大不同

無障礙瀏覽 進(jìn)入關(guān)懷版