網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

謝菲爾德大學(xué)研究揭開大模型訓(xùn)練后"千人一面"之謎

2026-04-28 17:31:50　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由英國謝菲爾德大學(xué)計(jì)算機(jī)科學(xué)學(xué)院主導(dǎo)的研究，于2026年4月以預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2604.16027，題為《Where does output diversity collapse in post-training?》，目前正在同行評(píng)審中。

你有沒有注意到，當(dāng)你用ChatGPT或者類似的AI工具寫文章、做創(chuàng)意策劃時(shí)，感覺它們的回答總是有點(diǎn)"模板化"——文風(fēng)相近、結(jié)構(gòu)雷同，甚至連比喻都似曾相識(shí)？這不是你的錯(cuò)覺。AI大模型在經(jīng)過特定的"調(diào)教"訓(xùn)練之后，確實(shí)會(huì)變得越來越"千人一面"，輸出的內(nèi)容多樣性會(huì)大幅下降。研究者們把這種現(xiàn)象叫做"輸出多樣性崩塌"。

謝菲爾德大學(xué)的研究團(tuán)隊(duì)決定深挖這個(gè)問題的根源。他們不只是想知道"多樣性消失了"這個(gè)事實(shí)，而是要追問：**多樣性究竟在哪個(gè)訓(xùn)練環(huán)節(jié)丟失的？為什么不同的訓(xùn)練路徑會(huì)導(dǎo)致不同的消失模式？**更關(guān)鍵的是，有沒有辦法在不重新訓(xùn)練的情況下，通過調(diào)整AI的使用方式來"找回"那些消失的多樣性？

這項(xiàng)研究的特別之處在于，它首次系統(tǒng)性地把"訓(xùn)練方法"和"訓(xùn)練數(shù)據(jù)"區(qū)分開來考察，同時(shí)也把"模型內(nèi)在的學(xué)習(xí)結(jié)果"和"模型輸出時(shí)的格式選擇"分開分析。通過對(duì)同一個(gè)基礎(chǔ)模型的三條不同訓(xùn)練路徑（Think、Instruct和RL-Zero）進(jìn)行全程追蹤，研究團(tuán)隊(duì)在15個(gè)不同任務(wù)上、用4種多樣性測(cè)量指標(biāo)，把多樣性的消失過程拍了個(gè)"全程錄像"。

一、訓(xùn)練AI的"調(diào)教"過程是什么樣的

要理解這項(xiàng)研究，先得知道AI大模型是怎么從一個(gè)"什么都懂但什么都亂說"的基礎(chǔ)模型，變成一個(gè)聽話、有禮貌、會(huì)幫你干活的助手的。這個(gè)過程就是"后訓(xùn)練"，大致分三個(gè)階段。

第一階段叫做"監(jiān)督微調(diào)"（SFT），簡單說就是給AI看大量示范：這道題應(yīng)該這么答，這類問題應(yīng)該這么回應(yīng)。AI通過模仿這些示范來學(xué)習(xí)"正確的行為"。第二階段叫"直接偏好優(yōu)化"（DPO），就是給AI看兩個(gè)答案，告訴它哪個(gè)更好，讓它學(xué)會(huì)"偏好判斷"。第三階段叫"強(qiáng)化學(xué)習(xí)"（RL），就是讓AI自己嘗試，答對(duì)了就獎(jiǎng)勵(lì)，答錯(cuò)了就懲罰，像訓(xùn)練運(yùn)動(dòng)員一樣靠反復(fù)練習(xí)提升表現(xiàn)。

研究團(tuán)隊(duì)選擇了一個(gè)叫做Olmo 3的開源模型作為研究對(duì)象，這個(gè)模型的好處在于它公開了所有訓(xùn)練階段的中間狀態(tài)，就好比一家餐廳不只給你看最終端上桌的菜，還讓你看每道工序的半成品。研究團(tuán)隊(duì)追蹤了三條從同一個(gè)"原料"出發(fā)的不同"烹飪路線"。

第一條路線叫Think，專注于讓AI學(xué)會(huì)"鏈?zhǔn)剿季S"——就是先想，再答，像做數(shù)學(xué)題時(shí)先打草稿。這條路線的訓(xùn)練數(shù)據(jù)來自兩個(gè)"老師模型"生成的約230萬條推理示例，全都是解題步驟很詳細(xì)的樣本。第二條路線叫Instruct，是個(gè)"全能選手"培訓(xùn)路線，訓(xùn)練數(shù)據(jù)來自多個(gè)來源，包括GPT-3.5、GPT-4等多個(gè)不同的AI系統(tǒng)生成的約220萬條示例，覆蓋寫作、對(duì)話、工具調(diào)用等各種任務(wù)。第三條路線叫RL-Zero，直接跳過前兩個(gè)階段，從基礎(chǔ)模型出發(fā)，只用強(qiáng)化學(xué)習(xí)來訓(xùn)練，針對(duì)數(shù)學(xué)、代碼、指令遵循、通用能力四個(gè)不同方向各訓(xùn)練了一個(gè)版本。

為了衡量"多樣性"，研究團(tuán)隊(duì)設(shè)計(jì)了四把"尺子"：第一把測(cè)詞匯多樣性，看AI的不同回答里有多少不重復(fù)的詞匯組合；第二把測(cè)語義多樣性，看不同回答在意思層面上有多大的差距；第三把測(cè)邏輯多樣性，看不同回答之間有沒有互相矛盾或互相蘊(yùn)含；第四把叫"Vendi分?jǐn)?shù)"，把它理解成"有效獨(dú)特模式的數(shù)量"即可——分?jǐn)?shù)越高，說明AI給出的回答在本質(zhì)上越不相同。

二、多樣性在哪里消失了：兩條路線的截然不同

研究的第一個(gè)重大發(fā)現(xiàn)，是Think和Instruct這兩條路線雖然都經(jīng)歷了完全相同的三個(gè)訓(xùn)練階段，但多樣性的"斷崖"出現(xiàn)在完全不同的位置。

Think路線在第一階段（監(jiān)督微調(diào)）就遭遇了"多樣性大崩塌"。與原始基礎(chǔ)模型相比，Think在監(jiān)督微調(diào)之后平均損失了62%的語義多樣性，幾乎是從高樓直接跳下來。之所以如此劇烈，是因?yàn)門hink的訓(xùn)練數(shù)據(jù)來自兩個(gè)相互關(guān)聯(lián)、風(fēng)格相近的"老師模型"。這兩個(gè)老師雖然能給出高質(zhì)量的推理示例，但他們的"思維方式"本來就有限，導(dǎo)致AI學(xué)到的回答模式集中在一個(gè)很窄的區(qū)間里。這就像你從小只聽一位老師講課，那位老師的口頭禪、敘述方式、思考框架就會(huì)深深印在你腦子里，你的表達(dá)方式也就越來越像那位老師了。

相比之下，Instruct路線在監(jiān)督微調(diào)階段只損失了約38%的多樣性，而且還有一個(gè)有趣現(xiàn)象：由于Instruct的監(jiān)督微調(diào)是在Think監(jiān)督微調(diào)之后的模型基礎(chǔ)上繼續(xù)訓(xùn)練的，相當(dāng)于在一個(gè)"已經(jīng)部分坍塌"的基礎(chǔ)上重新注入了多樣性。換句話說，更廣泛的多源數(shù)據(jù)確實(shí)能部分"修復(fù)"已經(jīng)損失的多樣性，大約找回了40%的失去部分。

Instruct路線真正的"多樣性大崩塌"發(fā)生在第二階段：直接偏好優(yōu)化（DPO）。DPO在Instruct路線中造成了約23%的額外損失，而在Think路線中這個(gè)數(shù)字只有4%。這種差異其實(shí)很好理解：Think在進(jìn)入DPO之前已經(jīng)被壓縮得很"整齊"了，DPO挑不出多少"尾巴"來修剪；而Instruct進(jìn)入DPO時(shí)還保留著相當(dāng)?shù)亩鄻有?，DPO的"喜好導(dǎo)向修剪"于是顯得格外有力。研究團(tuán)隊(duì)還發(fā)現(xiàn)，在某些數(shù)學(xué)和代碼任務(wù)上，DPO甚至能輕微提升多樣性，因?yàn)樗芗m正監(jiān)督微調(diào)階段帶來的某些單一化傾向。

至于第三階段的強(qiáng)化學(xué)習(xí)，對(duì)Think路線來說反而有約4%的多樣性"回彈"，對(duì)Instruct則造成了約5%的額外損失。在GSM8K數(shù)學(xué)題上，Instruct的強(qiáng)化學(xué)習(xí)階段造成了37%的單階段最大損失，因?yàn)轵?yàn)證獎(jiǎng)勵(lì)信號(hào)把概率集中到了最主流的"正確解法"上，其他路徑都被打壓了。

RL-Zero則是另一番景象。完全繞開監(jiān)督微調(diào)和DPO，直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí)，最終保留了基礎(chǔ)模型約93%的多樣性。這個(gè)數(shù)字與兩條主流路線最終剩余的約34%-38%相比，簡直是天壤之別。

三、思維鏈的"鏈"斷了，多樣性能回來嗎

研究的第二個(gè)核心問題更加精妙。Think路線的AI在回答問題時(shí)，會(huì)先在腦子里"推導(dǎo)"一番，把思維過程用文字寫出來（這叫"鏈?zhǔn)剿季S"，英文縮寫CoT），然后再給出最終答案。這個(gè)"先想后答"的格式本身，會(huì)不會(huì)是讓輸出多樣性下降的原因？

為了回答這個(gè)問題，研究團(tuán)隊(duì)做了一個(gè)干凈利落的實(shí)驗(yàn)：把Think系列模型里的推導(dǎo)過程"強(qiáng)制刪掉"，讓它直接給出答案，不允許打草稿。他們管這種狀態(tài)下的模型叫"Think-not-thinking"（Think但不思考）。

實(shí)驗(yàn)結(jié)果非常清晰：刪掉思維鏈，多樣性毫無恢復(fù)。不管是在監(jiān)督微調(diào)階段、DPO階段還是強(qiáng)化學(xué)習(xí)之后的最終模型，強(qiáng)制讓模型跳過推導(dǎo)直接回答，語義多樣性的水平與保留推導(dǎo)過程時(shí)幾乎完全一致。換言之，多樣性的損失是刻在模型"骨子里"的，跟輸出時(shí)有沒有思維鏈格式無關(guān)。

然而，刪掉思維鏈對(duì)回答質(zhì)量的影響是實(shí)實(shí)在在的。在難度較大的任務(wù)上，質(zhì)量下降相當(dāng)顯著：數(shù)學(xué)競賽題（MATH-Algebra）正確率下降28%，代碼生成任務(wù)（HumanEval）下降32%，數(shù)學(xué)幾何題（MATH-Geometry）下降32%。刪掉推導(dǎo)過程就像要求一個(gè)習(xí)慣打草稿的學(xué)生直接交卷，他的成績自然會(huì)受影響，但他做題時(shí)的"解題風(fēng)格"（也就是多樣性）并不會(huì)因此變得更豐富。

有一個(gè)有趣的例外值得一提：在創(chuàng)意寫作任務(wù)（WritingPrompts）上，刪掉思維鏈居然輕微提升了語義多樣性（增加約0.046），這說明在這類任務(wù)里，思維鏈可能反而起到了一種"模板化敘事框架"的作用，約束了故事的走向。不過這只是一個(gè)小例外，整體格局沒有改變。

邏輯多樣性（NLI分?jǐn)?shù)）則揭示了一個(gè)微妙的反差：當(dāng)Think模型被強(qiáng)制去掉思維鏈時(shí)，它的邏輯多樣性分?jǐn)?shù)反而升高了——在GSM8K上從0.70升到0.87，在MATH-Algebra上從0.73升到0.91。這聽起來像是"更多樣"，但結(jié)合質(zhì)量數(shù)據(jù)來看，真相是：沒有推導(dǎo)過程的模型開始輸出更多不同類型的錯(cuò)誤答案，而不是更多樣的正確解法。就好比一個(gè)人不允許打草稿，他寫出來的東西確實(shí)各不相同，但基本上都是亂寫的。

四、多樣性的消失，是"質(zhì)量控制"還是真正的"思維固化"

研究的第三條追問觸及了一個(gè)根本性的哲學(xué)問題：訓(xùn)練后模型的多樣性下降，到底有多少是因?yàn)?把錯(cuò)誤答案過濾掉了"，有多少是真正的"連正確答案都趨于單一"？

這個(gè)問題很重要，因?yàn)槿绻鄻有韵陆抵皇?去掉了錯(cuò)答案"，那其實(shí)是好事；但如果連正確答案都越來越相同，那就是真正的問題了。

研究團(tuán)隊(duì)把這兩個(gè)效應(yīng)分開來計(jì)算。他們對(duì)每道題的16個(gè)答案分別標(biāo)注"正確"和"錯(cuò)誤"，然后分別測(cè)量"所有答案的多樣性"和"僅正確答案的多樣性"，兩者之差就代表"質(zhì)量控制貢獻(xiàn)"，僅正確答案的多樣性本身就是"真正的思維固化程度"。

結(jié)果顯示，這個(gè)分裂比例是高度任務(wù)依賴的。在指令遵循任務(wù)（IFEval）上，高達(dá)83.4%的多樣性損失來自"真正的思維固化"——也就是說，即使只看答對(duì)的那些回答，它們也高度雷同。在代碼生成任務(wù)（MBPP）上，真正的固化比例降至38%。而在代碼理解任務(wù)（HumanEval）上，這個(gè)比例甚至不到10%——多樣性損失主要來自篩掉了大量錯(cuò)誤代碼，正確代碼之間的多樣性其實(shí)還好。數(shù)學(xué)推理任務(wù)居于中間，大約57%-64%的損失屬于真正的固化。

在代碼任務(wù)上，研究團(tuán)隊(duì)還用了專門針對(duì)代碼結(jié)構(gòu)的測(cè)量方式：把代碼解析成語法樹，然后比較不同答案在語法結(jié)構(gòu)層面的差異。結(jié)果發(fā)現(xiàn)，Think系列模型在HumanEval上給出的正確代碼，語法結(jié)構(gòu)極其相近（結(jié)構(gòu)相似度高達(dá)0.47），而基礎(chǔ)模型和RL-Zero系列的正確代碼則保有相當(dāng)大的結(jié)構(gòu)差異（相似度僅約0.11-0.41）。這說明Think不只是把思路收斂到了"正確答案"，連"怎么寫出這個(gè)答案"都變成了一種固定套路。

這個(gè)發(fā)現(xiàn)直接揭示了一個(gè)實(shí)用后果：對(duì)于需要"多抽幾次，只要有一次答對(duì)就行"這類應(yīng)用場(chǎng)景（技術(shù)上叫pass@k），那些保留了更多多樣性的模型顯然更有優(yōu)勢(shì)。以數(shù)學(xué)代數(shù)題為例，Think-not-thinking和RL-Zero-Math的單次準(zhǔn)確率都約為49%，但RL-Zero-Math的正確答案多樣性是前者的兩倍，因此多數(shù)投票（抽16次，取最常見答案）能額外獲得15%的準(zhǔn)確率提升，而Think-not-thinking只能獲得7%的提升。

在HumanEval上還出現(xiàn)了另一種反直覺的現(xiàn)象：Instruct模型的單次準(zhǔn)確率（81.2%）低于Think模型（87.7%），但如果給16次機(jī)會(huì)，Instruct反而超過了Think（98.2% vs. 95.7%）。原因在于Think的多次回答太過相似，第2-16次幾乎是第1次的復(fù)制；而Instruct的回答稍微分散一些，增加了至少有一次答對(duì)的概率。

最"慘"的是TruthfulQA這個(gè)任務(wù)，它專門用來測(cè)試AI會(huì)不會(huì)堅(jiān)持說錯(cuò)誤的常識(shí)（比如常見謠言）。在這個(gè)任務(wù)上，多數(shù)投票反而讓所有模型的表現(xiàn)更差——因?yàn)槎啻纬闃佣荚谥貜?fù)同一個(gè)錯(cuò)誤，投票只會(huì)"加固"這個(gè)錯(cuò)誤，而不會(huì)幫助糾正它。

五、RL-Zero的啟示：不經(jīng)調(diào)教的AI，反而更有創(chuàng)意

RL-Zero系列模型的表現(xiàn)提供了一組對(duì)照實(shí)驗(yàn)，讓這項(xiàng)研究的結(jié)論更加鮮明。這批模型繞過了監(jiān)督微調(diào)和DPO，直接在基礎(chǔ)模型上施加特定領(lǐng)域的獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)。結(jié)果，它們平均保留了基礎(chǔ)模型93%的多樣性，遠(yuǎn)高于Think（保留38%）和Instruct（保留34%）。

不同方向的RL-Zero版本之間也有差異，而且差異模式和獎(jiǎng)勵(lì)信號(hào)的"精確程度"高度相關(guān)。專門做指令遵循的RL-Zero-IF（只要答案格式符合要求就給獎(jiǎng)勵(lì)）保留了基礎(chǔ)模型99%的多樣性，因?yàn)檫@類獎(jiǎng)勵(lì)對(duì)答案內(nèi)容幾乎沒有約束。專做代碼的RL-Zero-Code保留了88%，因?yàn)?代碼能不能跑通"這個(gè)判斷標(biāo)準(zhǔn)更精確，會(huì)把不同但都能跑通的代碼路徑過濾掉。數(shù)學(xué)獎(jiǎng)勵(lì)居于中間，因?yàn)閿?shù)學(xué)題允許多種不同的解題思路通向同一個(gè)答案。這個(gè)規(guī)律揭示了一個(gè)核心邏輯：**獎(jiǎng)勵(lì)信號(hào)越精確，多樣性損失越大**。

當(dāng)然，RL-Zero的高多樣性是有代價(jià)的。在GSM8K數(shù)學(xué)題上，Think的單次準(zhǔn)確率高達(dá)93%，Instruct為80%，而RL-Zero系列只有49-61%。在指令遵循任務(wù)上，Think達(dá)到79%，RL-Zero只有49%。多樣性和質(zhì)量之間存在真實(shí)的權(quán)衡，不可能兩者兼得，除非改變訓(xùn)練方式本身。

六、"思維固化"刻在骨子里，換種方式用也沒用

研究團(tuán)隊(duì)的結(jié)論指向一個(gè)讓很多人不舒服的事實(shí)：多樣性的損失是在訓(xùn)練時(shí)就定下來的，后來想通過調(diào)整使用方式來彌補(bǔ)，基本沒有用。

有人可能會(huì)想：既然Think模型因?yàn)橥茖?dǎo)過程而產(chǎn)生了固化，那我強(qiáng)制讓它不推導(dǎo)，是不是就能找回多樣性？上面已經(jīng)說了，答案是否定的。還有人可能想：那我把溫度參數(shù)調(diào)高，讓AI隨機(jī)性更大，是不是能恢復(fù)多樣性？研究團(tuán)隊(duì)也測(cè)試了這個(gè)問題。在與基礎(chǔ)模型推薦溫度（T=1.0）對(duì)比之下，他們研究中統(tǒng)一使用的較低溫度（T=0.6）確實(shí)造成了約11%的語義多樣性損失，但這個(gè)損失與從基礎(chǔ)模型到Think監(jiān)督微調(diào)階段的62%崩塌相比，簡直微不足道。換句話說，就算把溫度撥回去，也遠(yuǎn)遠(yuǎn)彌補(bǔ)不了訓(xùn)練帶來的損失。

這對(duì)實(shí)際應(yīng)用有一個(gè)重要的提示：如果你需要AI給你提供多樣化的答案，比如頭腦風(fēng)暴、創(chuàng)意生成、多角度分析等，那么選對(duì)模型比調(diào)整參數(shù)更重要，而選對(duì)模型背后的核心是關(guān)心那個(gè)模型是用什么數(shù)據(jù)訓(xùn)練出來的。

從機(jī)制上來理解，這也有一定的道理。監(jiān)督微調(diào)本質(zhì)上是對(duì)訓(xùn)練數(shù)據(jù)做最大似然估計(jì)，如果訓(xùn)練數(shù)據(jù)本身來自風(fēng)格相近的少數(shù)幾個(gè)"老師"，那模型輸出就會(huì)向這個(gè)狹窄的分布靠攏，這是數(shù)學(xué)上的必然結(jié)果，而不是某個(gè)偶然的失誤。DPO的數(shù)學(xué)原理是"對(duì)好答案加權(quán)，對(duì)差答案降權(quán)"，而"好答案"的定義本身就是一個(gè)壓縮多樣性的過程——它把概率質(zhì)量推向人類偏好分布的峰值，而不是分散在各種可能的回答里。強(qiáng)化學(xué)習(xí)里用的GRPO算法，在沒有KL懲罰（限制模型不能偏離太遠(yuǎn)）的情況下，反而可以讓模型自由探索并且找回一些被壓制的答案模式，這解釋了為什么RL-Zero能保留那么多多樣性，也解釋了為什么Think的強(qiáng)化學(xué)習(xí)階段有輕微的多樣性回彈。

七、當(dāng)AI失去多樣性，哪些場(chǎng)景受害最深

研究團(tuán)隊(duì)還仔細(xì)分析了不同任務(wù)類型在多樣性損失上的差異，這對(duì)實(shí)際使用場(chǎng)景有直接的參考價(jià)值。

在數(shù)學(xué)推理任務(wù)上，多樣性的損失有相當(dāng)大一部分來自"剔除錯(cuò)誤解法"，正確答案之間的收斂程度相對(duì)沒那么嚴(yán)重，這使得多數(shù)投票仍然能帶來一定的性能提升。在代碼任務(wù)上，大部分多樣性損失其實(shí)來自篩掉了跑不通的代碼（尤其是基礎(chǔ)模型大量的無效代碼），真正正確代碼之間的固化程度因模型而異。

真正讓人擔(dān)憂的是創(chuàng)意寫作和價(jià)值觀相關(guān)的任務(wù)。在創(chuàng)意寫作任務(wù)上，Think和Instruct都把語義多樣性壓縮到了基礎(chǔ)模型的約37%，但每次寫出來的故事質(zhì)量都遠(yuǎn)高于基礎(chǔ)模型（超過97%的勝率）。這意味著：AI變成了一個(gè)很會(huì)寫故事、但所有故事讀起來都像是同一個(gè)作者寫的機(jī)器。研究團(tuán)隊(duì)用Vendi分?jǐn)?shù)來描述這個(gè)現(xiàn)象：基礎(chǔ)模型有約6.9個(gè)"有效故事模式"，訓(xùn)練后只剩約2.6個(gè)。

價(jià)值觀任務(wù)（比如PRISM數(shù)據(jù)集，專門測(cè)AI對(duì)有爭議問題的多元立場(chǎng)表現(xiàn)）上，兩條訓(xùn)練路線都遭受了嚴(yán)重的多樣性崩塌，其中Think路線下降了約78%。這意味著面對(duì)"安樂死是否應(yīng)該合法化"、"移民政策應(yīng)該更嚴(yán)格還是更寬松"這類本質(zhì)上沒有唯一正確答案的問題，經(jīng)過訓(xùn)練的AI可能會(huì)越來越傾向于給出同一種回答。這種"價(jià)值觀單一化"的風(fēng)險(xiǎn)，是這項(xiàng)研究發(fā)出的最深層的警示。

研究團(tuán)隊(duì)也在這里做了一個(gè)重要的區(qū)分：他們測(cè)量的是"分布多樣性"（統(tǒng)計(jì)意義上有多少種不同的答案），而不是"立場(chǎng)多樣性"（有沒有真正代表不同價(jià)值觀的答案）。一個(gè)模型可以在詞匯上很多樣，但所有答案都默認(rèn)一種立場(chǎng)；也可以看起來很單一，但實(shí)際上保留了最關(guān)鍵的立場(chǎng)差異。這兩種多樣性需要不同的測(cè)量工具，目前的研究還無法完全分辨。

歸根結(jié)底，這項(xiàng)研究做的事情有點(diǎn)像給一家工廠的生產(chǎn)線裝了全程攝像頭，逐幀分析產(chǎn)品質(zhì)量是在哪道工序開始下降的。答案令人深思：AI的創(chuàng)意損失，不是一個(gè)技術(shù)bug，而是訓(xùn)練流程本身的必然結(jié)果，而且決定性的因素不是訓(xùn)練方法，而是訓(xùn)練數(shù)據(jù)的來源結(jié)構(gòu)。

這意味著，如果你是一個(gè)AI產(chǎn)品的使用者，你沒有辦法靠"換一種問法"或者"調(diào)高隨機(jī)參數(shù)"來讓AI回答得更有創(chuàng)意——那扇門在訓(xùn)練階段就已經(jīng)關(guān)上了。如果你是AI產(chǎn)品的開發(fā)者或研究者，這項(xiàng)研究給出了兩個(gè)方向：一是在監(jiān)督微調(diào)數(shù)據(jù)上多元化"老師來源"，避免用少數(shù)幾個(gè)風(fēng)格相近的模型作為唯一的學(xué)習(xí)樣本；二是在強(qiáng)化學(xué)習(xí)階段減少或去掉KL懲罰，讓模型保留自由探索的空間。不過研究團(tuán)隊(duì)也坦誠，這兩種方法能緩解多樣性崩塌的速度，但能否真正提高多樣性的"底線"，目前還不清楚。

這項(xiàng)研究留下了幾個(gè)值得繼續(xù)追問的問題：AI推導(dǎo)過程（思維鏈）本身有多樣性嗎？多樣性的"底線"是否真的由訓(xùn)練方法的數(shù)學(xué)特性決定，而非數(shù)據(jù)？面對(duì)有多元合理答案的問題，未來的AI訓(xùn)練能否主動(dòng)保護(hù)而不是壓制多樣性？如果你對(duì)這些問題感興趣，可以通過arXiv編號(hào)2604.16027找到完整論文進(jìn)行深入閱讀。

Q&A

Q1：AI大模型訓(xùn)練后輸出多樣性崩塌的主要原因是什么？

A：根據(jù)謝菲爾德大學(xué)的研究，多樣性崩塌的主要原因是訓(xùn)練數(shù)據(jù)的來源結(jié)構(gòu)，而不是訓(xùn)練方法本身。如果監(jiān)督微調(diào)階段使用的示范數(shù)據(jù)來自少數(shù)幾個(gè)風(fēng)格相近的"老師模型"，AI學(xué)到的回答模式就會(huì)被壓縮在一個(gè)很窄的區(qū)間里。數(shù)據(jù)來源越多元，崩塌發(fā)生得越晚、程度越輕。

Q2：調(diào)高AI的隨機(jī)性溫度參數(shù)能恢復(fù)多樣性嗎？

A：效果非常有限。研究發(fā)現(xiàn)，溫度參數(shù)從推薦值調(diào)低大約造成11%的多樣性損失，但這與訓(xùn)練過程造成的62%崩塌相比可以忽略不計(jì)。把溫度調(diào)回去也只能彌補(bǔ)很小一部分，訓(xùn)練數(shù)據(jù)帶來的多樣性損失是刻在模型權(quán)重里的，無法通過調(diào)參在推理時(shí)恢復(fù)。

Q3：RL-Zero為什么能保留更多多樣性，它的代價(jià)是什么？

A：RL-Zero繞過了監(jiān)督微調(diào)和偏好優(yōu)化兩個(gè)階段，直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí)，因此沒有經(jīng)歷這兩個(gè)階段帶來的多樣性壓縮，平均保留了基礎(chǔ)模型93%的多樣性。但代價(jià)是質(zhì)量大幅下降——在數(shù)學(xué)題上單次準(zhǔn)確率只有49-61%，而經(jīng)過完整訓(xùn)練的模型可以達(dá)到80-93%。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.