国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

謝菲爾德大學(xué)研究揭開大模型訓(xùn)練后"千人一面"之謎

0
分享至


這項(xiàng)由英國謝菲爾德大學(xué)計(jì)算機(jī)科學(xué)學(xué)院主導(dǎo)的研究,于2026年4月以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2604.16027,題為《Where does output diversity collapse in post-training?》,目前正在同行評(píng)審中。

你有沒有注意到,當(dāng)你用ChatGPT或者類似的AI工具寫文章、做創(chuàng)意策劃時(shí),感覺它們的回答總是有點(diǎn)"模板化"——文風(fēng)相近、結(jié)構(gòu)雷同,甚至連比喻都似曾相識(shí)?這不是你的錯(cuò)覺。AI大模型在經(jīng)過特定的"調(diào)教"訓(xùn)練之后,確實(shí)會(huì)變得越來越"千人一面",輸出的內(nèi)容多樣性會(huì)大幅下降。研究者們把這種現(xiàn)象叫做"輸出多樣性崩塌"。

謝菲爾德大學(xué)的研究團(tuán)隊(duì)決定深挖這個(gè)問題的根源。他們不只是想知道"多樣性消失了"這個(gè)事實(shí),而是要追問:**多樣性究竟在哪個(gè)訓(xùn)練環(huán)節(jié)丟失的?為什么不同的訓(xùn)練路徑會(huì)導(dǎo)致不同的消失模式?**更關(guān)鍵的是,有沒有辦法在不重新訓(xùn)練的情況下,通過調(diào)整AI的使用方式來"找回"那些消失的多樣性?

這項(xiàng)研究的特別之處在于,它首次系統(tǒng)性地把"訓(xùn)練方法"和"訓(xùn)練數(shù)據(jù)"區(qū)分開來考察,同時(shí)也把"模型內(nèi)在的學(xué)習(xí)結(jié)果"和"模型輸出時(shí)的格式選擇"分開分析。通過對(duì)同一個(gè)基礎(chǔ)模型的三條不同訓(xùn)練路徑(Think、Instruct和RL-Zero)進(jìn)行全程追蹤,研究團(tuán)隊(duì)在15個(gè)不同任務(wù)上、用4種多樣性測(cè)量指標(biāo),把多樣性的消失過程拍了個(gè)"全程錄像"。

一、訓(xùn)練AI的"調(diào)教"過程是什么樣的

要理解這項(xiàng)研究,先得知道AI大模型是怎么從一個(gè)"什么都懂但什么都亂說"的基礎(chǔ)模型,變成一個(gè)聽話、有禮貌、會(huì)幫你干活的助手的。這個(gè)過程就是"后訓(xùn)練",大致分三個(gè)階段。

第一階段叫做"監(jiān)督微調(diào)"(SFT),簡單說就是給AI看大量示范:這道題應(yīng)該這么答,這類問題應(yīng)該這么回應(yīng)。AI通過模仿這些示范來學(xué)習(xí)"正確的行為"。第二階段叫"直接偏好優(yōu)化"(DPO),就是給AI看兩個(gè)答案,告訴它哪個(gè)更好,讓它學(xué)會(huì)"偏好判斷"。第三階段叫"強(qiáng)化學(xué)習(xí)"(RL),就是讓AI自己嘗試,答對(duì)了就獎(jiǎng)勵(lì),答錯(cuò)了就懲罰,像訓(xùn)練運(yùn)動(dòng)員一樣靠反復(fù)練習(xí)提升表現(xiàn)。

研究團(tuán)隊(duì)選擇了一個(gè)叫做Olmo 3的開源模型作為研究對(duì)象,這個(gè)模型的好處在于它公開了所有訓(xùn)練階段的中間狀態(tài),就好比一家餐廳不只給你看最終端上桌的菜,還讓你看每道工序的半成品。研究團(tuán)隊(duì)追蹤了三條從同一個(gè)"原料"出發(fā)的不同"烹飪路線"。

第一條路線叫Think,專注于讓AI學(xué)會(huì)"鏈?zhǔn)剿季S"——就是先想,再答,像做數(shù)學(xué)題時(shí)先打草稿。這條路線的訓(xùn)練數(shù)據(jù)來自兩個(gè)"老師模型"生成的約230萬條推理示例,全都是解題步驟很詳細(xì)的樣本。第二條路線叫Instruct,是個(gè)"全能選手"培訓(xùn)路線,訓(xùn)練數(shù)據(jù)來自多個(gè)來源,包括GPT-3.5、GPT-4等多個(gè)不同的AI系統(tǒng)生成的約220萬條示例,覆蓋寫作、對(duì)話、工具調(diào)用等各種任務(wù)。第三條路線叫RL-Zero,直接跳過前兩個(gè)階段,從基礎(chǔ)模型出發(fā),只用強(qiáng)化學(xué)習(xí)來訓(xùn)練,針對(duì)數(shù)學(xué)、代碼、指令遵循、通用能力四個(gè)不同方向各訓(xùn)練了一個(gè)版本。

為了衡量"多樣性",研究團(tuán)隊(duì)設(shè)計(jì)了四把"尺子":第一把測(cè)詞匯多樣性,看AI的不同回答里有多少不重復(fù)的詞匯組合;第二把測(cè)語義多樣性,看不同回答在意思層面上有多大的差距;第三把測(cè)邏輯多樣性,看不同回答之間有沒有互相矛盾或互相蘊(yùn)含;第四把叫"Vendi分?jǐn)?shù)",把它理解成"有效獨(dú)特模式的數(shù)量"即可——分?jǐn)?shù)越高,說明AI給出的回答在本質(zhì)上越不相同。

二、多樣性在哪里消失了:兩條路線的截然不同

研究的第一個(gè)重大發(fā)現(xiàn),是Think和Instruct這兩條路線雖然都經(jīng)歷了完全相同的三個(gè)訓(xùn)練階段,但多樣性的"斷崖"出現(xiàn)在完全不同的位置。

Think路線在第一階段(監(jiān)督微調(diào))就遭遇了"多樣性大崩塌"。與原始基礎(chǔ)模型相比,Think在監(jiān)督微調(diào)之后平均損失了62%的語義多樣性,幾乎是從高樓直接跳下來。之所以如此劇烈,是因?yàn)門hink的訓(xùn)練數(shù)據(jù)來自兩個(gè)相互關(guān)聯(lián)、風(fēng)格相近的"老師模型"。這兩個(gè)老師雖然能給出高質(zhì)量的推理示例,但他們的"思維方式"本來就有限,導(dǎo)致AI學(xué)到的回答模式集中在一個(gè)很窄的區(qū)間里。這就像你從小只聽一位老師講課,那位老師的口頭禪、敘述方式、思考框架就會(huì)深深印在你腦子里,你的表達(dá)方式也就越來越像那位老師了。

相比之下,Instruct路線在監(jiān)督微調(diào)階段只損失了約38%的多樣性,而且還有一個(gè)有趣現(xiàn)象:由于Instruct的監(jiān)督微調(diào)是在Think監(jiān)督微調(diào)之后的模型基礎(chǔ)上繼續(xù)訓(xùn)練的,相當(dāng)于在一個(gè)"已經(jīng)部分坍塌"的基礎(chǔ)上重新注入了多樣性。換句話說,更廣泛的多源數(shù)據(jù)確實(shí)能部分"修復(fù)"已經(jīng)損失的多樣性,大約找回了40%的失去部分。

Instruct路線真正的"多樣性大崩塌"發(fā)生在第二階段:直接偏好優(yōu)化(DPO)。DPO在Instruct路線中造成了約23%的額外損失,而在Think路線中這個(gè)數(shù)字只有4%。這種差異其實(shí)很好理解:Think在進(jìn)入DPO之前已經(jīng)被壓縮得很"整齊"了,DPO挑不出多少"尾巴"來修剪;而Instruct進(jìn)入DPO時(shí)還保留著相當(dāng)?shù)亩鄻有?,DPO的"喜好導(dǎo)向修剪"于是顯得格外有力。研究團(tuán)隊(duì)還發(fā)現(xiàn),在某些數(shù)學(xué)和代碼任務(wù)上,DPO甚至能輕微提升多樣性,因?yàn)樗芗m正監(jiān)督微調(diào)階段帶來的某些單一化傾向。

至于第三階段的強(qiáng)化學(xué)習(xí),對(duì)Think路線來說反而有約4%的多樣性"回彈",對(duì)Instruct則造成了約5%的額外損失。在GSM8K數(shù)學(xué)題上,Instruct的強(qiáng)化學(xué)習(xí)階段造成了37%的單階段最大損失,因?yàn)轵?yàn)證獎(jiǎng)勵(lì)信號(hào)把概率集中到了最主流的"正確解法"上,其他路徑都被打壓了。

RL-Zero則是另一番景象。完全繞開監(jiān)督微調(diào)和DPO,直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí),最終保留了基礎(chǔ)模型約93%的多樣性。這個(gè)數(shù)字與兩條主流路線最終剩余的約34%-38%相比,簡直是天壤之別。

三、思維鏈的"鏈"斷了,多樣性能回來嗎

研究的第二個(gè)核心問題更加精妙。Think路線的AI在回答問題時(shí),會(huì)先在腦子里"推導(dǎo)"一番,把思維過程用文字寫出來(這叫"鏈?zhǔn)剿季S",英文縮寫CoT),然后再給出最終答案。這個(gè)"先想后答"的格式本身,會(huì)不會(huì)是讓輸出多樣性下降的原因?

為了回答這個(gè)問題,研究團(tuán)隊(duì)做了一個(gè)干凈利落的實(shí)驗(yàn):把Think系列模型里的推導(dǎo)過程"強(qiáng)制刪掉",讓它直接給出答案,不允許打草稿。他們管這種狀態(tài)下的模型叫"Think-not-thinking"(Think但不思考)。

實(shí)驗(yàn)結(jié)果非常清晰:刪掉思維鏈,多樣性毫無恢復(fù)。不管是在監(jiān)督微調(diào)階段、DPO階段還是強(qiáng)化學(xué)習(xí)之后的最終模型,強(qiáng)制讓模型跳過推導(dǎo)直接回答,語義多樣性的水平與保留推導(dǎo)過程時(shí)幾乎完全一致。換言之,多樣性的損失是刻在模型"骨子里"的,跟輸出時(shí)有沒有思維鏈格式無關(guān)。

然而,刪掉思維鏈對(duì)回答質(zhì)量的影響是實(shí)實(shí)在在的。在難度較大的任務(wù)上,質(zhì)量下降相當(dāng)顯著:數(shù)學(xué)競賽題(MATH-Algebra)正確率下降28%,代碼生成任務(wù)(HumanEval)下降32%,數(shù)學(xué)幾何題(MATH-Geometry)下降32%。刪掉推導(dǎo)過程就像要求一個(gè)習(xí)慣打草稿的學(xué)生直接交卷,他的成績自然會(huì)受影響,但他做題時(shí)的"解題風(fēng)格"(也就是多樣性)并不會(huì)因此變得更豐富。

有一個(gè)有趣的例外值得一提:在創(chuàng)意寫作任務(wù)(WritingPrompts)上,刪掉思維鏈居然輕微提升了語義多樣性(增加約0.046),這說明在這類任務(wù)里,思維鏈可能反而起到了一種"模板化敘事框架"的作用,約束了故事的走向。不過這只是一個(gè)小例外,整體格局沒有改變。

邏輯多樣性(NLI分?jǐn)?shù))則揭示了一個(gè)微妙的反差:當(dāng)Think模型被強(qiáng)制去掉思維鏈時(shí),它的邏輯多樣性分?jǐn)?shù)反而升高了——在GSM8K上從0.70升到0.87,在MATH-Algebra上從0.73升到0.91。這聽起來像是"更多樣",但結(jié)合質(zhì)量數(shù)據(jù)來看,真相是:沒有推導(dǎo)過程的模型開始輸出更多不同類型的錯(cuò)誤答案,而不是更多樣的正確解法。就好比一個(gè)人不允許打草稿,他寫出來的東西確實(shí)各不相同,但基本上都是亂寫的。

四、多樣性的消失,是"質(zhì)量控制"還是真正的"思維固化"

研究的第三條追問觸及了一個(gè)根本性的哲學(xué)問題:訓(xùn)練后模型的多樣性下降,到底有多少是因?yàn)?把錯(cuò)誤答案過濾掉了",有多少是真正的"連正確答案都趨于單一"?

這個(gè)問題很重要,因?yàn)槿绻鄻有韵陆抵皇?去掉了錯(cuò)答案",那其實(shí)是好事;但如果連正確答案都越來越相同,那就是真正的問題了。

研究團(tuán)隊(duì)把這兩個(gè)效應(yīng)分開來計(jì)算。他們對(duì)每道題的16個(gè)答案分別標(biāo)注"正確"和"錯(cuò)誤",然后分別測(cè)量"所有答案的多樣性"和"僅正確答案的多樣性",兩者之差就代表"質(zhì)量控制貢獻(xiàn)",僅正確答案的多樣性本身就是"真正的思維固化程度"。

結(jié)果顯示,這個(gè)分裂比例是高度任務(wù)依賴的。在指令遵循任務(wù)(IFEval)上,高達(dá)83.4%的多樣性損失來自"真正的思維固化"——也就是說,即使只看答對(duì)的那些回答,它們也高度雷同。在代碼生成任務(wù)(MBPP)上,真正的固化比例降至38%。而在代碼理解任務(wù)(HumanEval)上,這個(gè)比例甚至不到10%——多樣性損失主要來自篩掉了大量錯(cuò)誤代碼,正確代碼之間的多樣性其實(shí)還好。數(shù)學(xué)推理任務(wù)居于中間,大約57%-64%的損失屬于真正的固化。

在代碼任務(wù)上,研究團(tuán)隊(duì)還用了專門針對(duì)代碼結(jié)構(gòu)的測(cè)量方式:把代碼解析成語法樹,然后比較不同答案在語法結(jié)構(gòu)層面的差異。結(jié)果發(fā)現(xiàn),Think系列模型在HumanEval上給出的正確代碼,語法結(jié)構(gòu)極其相近(結(jié)構(gòu)相似度高達(dá)0.47),而基礎(chǔ)模型和RL-Zero系列的正確代碼則保有相當(dāng)大的結(jié)構(gòu)差異(相似度僅約0.11-0.41)。這說明Think不只是把思路收斂到了"正確答案",連"怎么寫出這個(gè)答案"都變成了一種固定套路。

這個(gè)發(fā)現(xiàn)直接揭示了一個(gè)實(shí)用后果:對(duì)于需要"多抽幾次,只要有一次答對(duì)就行"這類應(yīng)用場(chǎng)景(技術(shù)上叫pass@k),那些保留了更多多樣性的模型顯然更有優(yōu)勢(shì)。以數(shù)學(xué)代數(shù)題為例,Think-not-thinking和RL-Zero-Math的單次準(zhǔn)確率都約為49%,但RL-Zero-Math的正確答案多樣性是前者的兩倍,因此多數(shù)投票(抽16次,取最常見答案)能額外獲得15%的準(zhǔn)確率提升,而Think-not-thinking只能獲得7%的提升。

在HumanEval上還出現(xiàn)了另一種反直覺的現(xiàn)象:Instruct模型的單次準(zhǔn)確率(81.2%)低于Think模型(87.7%),但如果給16次機(jī)會(huì),Instruct反而超過了Think(98.2% vs. 95.7%)。原因在于Think的多次回答太過相似,第2-16次幾乎是第1次的復(fù)制;而Instruct的回答稍微分散一些,增加了至少有一次答對(duì)的概率。

最"慘"的是TruthfulQA這個(gè)任務(wù),它專門用來測(cè)試AI會(huì)不會(huì)堅(jiān)持說錯(cuò)誤的常識(shí)(比如常見謠言)。在這個(gè)任務(wù)上,多數(shù)投票反而讓所有模型的表現(xiàn)更差——因?yàn)槎啻纬闃佣荚谥貜?fù)同一個(gè)錯(cuò)誤,投票只會(huì)"加固"這個(gè)錯(cuò)誤,而不會(huì)幫助糾正它。

五、RL-Zero的啟示:不經(jīng)調(diào)教的AI,反而更有創(chuàng)意

RL-Zero系列模型的表現(xiàn)提供了一組對(duì)照實(shí)驗(yàn),讓這項(xiàng)研究的結(jié)論更加鮮明。這批模型繞過了監(jiān)督微調(diào)和DPO,直接在基礎(chǔ)模型上施加特定領(lǐng)域的獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)。結(jié)果,它們平均保留了基礎(chǔ)模型93%的多樣性,遠(yuǎn)高于Think(保留38%)和Instruct(保留34%)。

不同方向的RL-Zero版本之間也有差異,而且差異模式和獎(jiǎng)勵(lì)信號(hào)的"精確程度"高度相關(guān)。專門做指令遵循的RL-Zero-IF(只要答案格式符合要求就給獎(jiǎng)勵(lì))保留了基礎(chǔ)模型99%的多樣性,因?yàn)檫@類獎(jiǎng)勵(lì)對(duì)答案內(nèi)容幾乎沒有約束。專做代碼的RL-Zero-Code保留了88%,因?yàn)?代碼能不能跑通"這個(gè)判斷標(biāo)準(zhǔn)更精確,會(huì)把不同但都能跑通的代碼路徑過濾掉。數(shù)學(xué)獎(jiǎng)勵(lì)居于中間,因?yàn)閿?shù)學(xué)題允許多種不同的解題思路通向同一個(gè)答案。這個(gè)規(guī)律揭示了一個(gè)核心邏輯:**獎(jiǎng)勵(lì)信號(hào)越精確,多樣性損失越大**。

當(dāng)然,RL-Zero的高多樣性是有代價(jià)的。在GSM8K數(shù)學(xué)題上,Think的單次準(zhǔn)確率高達(dá)93%,Instruct為80%,而RL-Zero系列只有49-61%。在指令遵循任務(wù)上,Think達(dá)到79%,RL-Zero只有49%。多樣性和質(zhì)量之間存在真實(shí)的權(quán)衡,不可能兩者兼得,除非改變訓(xùn)練方式本身。

六、"思維固化"刻在骨子里,換種方式用也沒用

研究團(tuán)隊(duì)的結(jié)論指向一個(gè)讓很多人不舒服的事實(shí):多樣性的損失是在訓(xùn)練時(shí)就定下來的,后來想通過調(diào)整使用方式來彌補(bǔ),基本沒有用。

有人可能會(huì)想:既然Think模型因?yàn)橥茖?dǎo)過程而產(chǎn)生了固化,那我強(qiáng)制讓它不推導(dǎo),是不是就能找回多樣性?上面已經(jīng)說了,答案是否定的。還有人可能想:那我把溫度參數(shù)調(diào)高,讓AI隨機(jī)性更大,是不是能恢復(fù)多樣性?研究團(tuán)隊(duì)也測(cè)試了這個(gè)問題。在與基礎(chǔ)模型推薦溫度(T=1.0)對(duì)比之下,他們研究中統(tǒng)一使用的較低溫度(T=0.6)確實(shí)造成了約11%的語義多樣性損失,但這個(gè)損失與從基礎(chǔ)模型到Think監(jiān)督微調(diào)階段的62%崩塌相比,簡直微不足道。換句話說,就算把溫度撥回去,也遠(yuǎn)遠(yuǎn)彌補(bǔ)不了訓(xùn)練帶來的損失。

這對(duì)實(shí)際應(yīng)用有一個(gè)重要的提示:如果你需要AI給你提供多樣化的答案,比如頭腦風(fēng)暴、創(chuàng)意生成、多角度分析等,那么選對(duì)模型比調(diào)整參數(shù)更重要,而選對(duì)模型背后的核心是關(guān)心那個(gè)模型是用什么數(shù)據(jù)訓(xùn)練出來的。

從機(jī)制上來理解,這也有一定的道理。監(jiān)督微調(diào)本質(zhì)上是對(duì)訓(xùn)練數(shù)據(jù)做最大似然估計(jì),如果訓(xùn)練數(shù)據(jù)本身來自風(fēng)格相近的少數(shù)幾個(gè)"老師",那模型輸出就會(huì)向這個(gè)狹窄的分布靠攏,這是數(shù)學(xué)上的必然結(jié)果,而不是某個(gè)偶然的失誤。DPO的數(shù)學(xué)原理是"對(duì)好答案加權(quán),對(duì)差答案降權(quán)",而"好答案"的定義本身就是一個(gè)壓縮多樣性的過程——它把概率質(zhì)量推向人類偏好分布的峰值,而不是分散在各種可能的回答里。強(qiáng)化學(xué)習(xí)里用的GRPO算法,在沒有KL懲罰(限制模型不能偏離太遠(yuǎn))的情況下,反而可以讓模型自由探索并且找回一些被壓制的答案模式,這解釋了為什么RL-Zero能保留那么多多樣性,也解釋了為什么Think的強(qiáng)化學(xué)習(xí)階段有輕微的多樣性回彈。

七、當(dāng)AI失去多樣性,哪些場(chǎng)景受害最深

研究團(tuán)隊(duì)還仔細(xì)分析了不同任務(wù)類型在多樣性損失上的差異,這對(duì)實(shí)際使用場(chǎng)景有直接的參考價(jià)值。

在數(shù)學(xué)推理任務(wù)上,多樣性的損失有相當(dāng)大一部分來自"剔除錯(cuò)誤解法",正確答案之間的收斂程度相對(duì)沒那么嚴(yán)重,這使得多數(shù)投票仍然能帶來一定的性能提升。在代碼任務(wù)上,大部分多樣性損失其實(shí)來自篩掉了跑不通的代碼(尤其是基礎(chǔ)模型大量的無效代碼),真正正確代碼之間的固化程度因模型而異。

真正讓人擔(dān)憂的是創(chuàng)意寫作和價(jià)值觀相關(guān)的任務(wù)。在創(chuàng)意寫作任務(wù)上,Think和Instruct都把語義多樣性壓縮到了基礎(chǔ)模型的約37%,但每次寫出來的故事質(zhì)量都遠(yuǎn)高于基礎(chǔ)模型(超過97%的勝率)。這意味著:AI變成了一個(gè)很會(huì)寫故事、但所有故事讀起來都像是同一個(gè)作者寫的機(jī)器。研究團(tuán)隊(duì)用Vendi分?jǐn)?shù)來描述這個(gè)現(xiàn)象:基礎(chǔ)模型有約6.9個(gè)"有效故事模式",訓(xùn)練后只剩約2.6個(gè)。

價(jià)值觀任務(wù)(比如PRISM數(shù)據(jù)集,專門測(cè)AI對(duì)有爭議問題的多元立場(chǎng)表現(xiàn))上,兩條訓(xùn)練路線都遭受了嚴(yán)重的多樣性崩塌,其中Think路線下降了約78%。這意味著面對(duì)"安樂死是否應(yīng)該合法化"、"移民政策應(yīng)該更嚴(yán)格還是更寬松"這類本質(zhì)上沒有唯一正確答案的問題,經(jīng)過訓(xùn)練的AI可能會(huì)越來越傾向于給出同一種回答。這種"價(jià)值觀單一化"的風(fēng)險(xiǎn),是這項(xiàng)研究發(fā)出的最深層的警示。

研究團(tuán)隊(duì)也在這里做了一個(gè)重要的區(qū)分:他們測(cè)量的是"分布多樣性"(統(tǒng)計(jì)意義上有多少種不同的答案),而不是"立場(chǎng)多樣性"(有沒有真正代表不同價(jià)值觀的答案)。一個(gè)模型可以在詞匯上很多樣,但所有答案都默認(rèn)一種立場(chǎng);也可以看起來很單一,但實(shí)際上保留了最關(guān)鍵的立場(chǎng)差異。這兩種多樣性需要不同的測(cè)量工具,目前的研究還無法完全分辨。

歸根結(jié)底,這項(xiàng)研究做的事情有點(diǎn)像給一家工廠的生產(chǎn)線裝了全程攝像頭,逐幀分析產(chǎn)品質(zhì)量是在哪道工序開始下降的。答案令人深思:AI的創(chuàng)意損失,不是一個(gè)技術(shù)bug,而是訓(xùn)練流程本身的必然結(jié)果,而且決定性的因素不是訓(xùn)練方法,而是訓(xùn)練數(shù)據(jù)的來源結(jié)構(gòu)。

這意味著,如果你是一個(gè)AI產(chǎn)品的使用者,你沒有辦法靠"換一種問法"或者"調(diào)高隨機(jī)參數(shù)"來讓AI回答得更有創(chuàng)意——那扇門在訓(xùn)練階段就已經(jīng)關(guān)上了。如果你是AI產(chǎn)品的開發(fā)者或研究者,這項(xiàng)研究給出了兩個(gè)方向:一是在監(jiān)督微調(diào)數(shù)據(jù)上多元化"老師來源",避免用少數(shù)幾個(gè)風(fēng)格相近的模型作為唯一的學(xué)習(xí)樣本;二是在強(qiáng)化學(xué)習(xí)階段減少或去掉KL懲罰,讓模型保留自由探索的空間。不過研究團(tuán)隊(duì)也坦誠,這兩種方法能緩解多樣性崩塌的速度,但能否真正提高多樣性的"底線",目前還不清楚。

這項(xiàng)研究留下了幾個(gè)值得繼續(xù)追問的問題:AI推導(dǎo)過程(思維鏈)本身有多樣性嗎?多樣性的"底線"是否真的由訓(xùn)練方法的數(shù)學(xué)特性決定,而非數(shù)據(jù)?面對(duì)有多元合理答案的問題,未來的AI訓(xùn)練能否主動(dòng)保護(hù)而不是壓制多樣性?如果你對(duì)這些問題感興趣,可以通過arXiv編號(hào)2604.16027找到完整論文進(jìn)行深入閱讀。

Q&A

Q1:AI大模型訓(xùn)練后輸出多樣性崩塌的主要原因是什么?

A:根據(jù)謝菲爾德大學(xué)的研究,多樣性崩塌的主要原因是訓(xùn)練數(shù)據(jù)的來源結(jié)構(gòu),而不是訓(xùn)練方法本身。如果監(jiān)督微調(diào)階段使用的示范數(shù)據(jù)來自少數(shù)幾個(gè)風(fēng)格相近的"老師模型",AI學(xué)到的回答模式就會(huì)被壓縮在一個(gè)很窄的區(qū)間里。數(shù)據(jù)來源越多元,崩塌發(fā)生得越晚、程度越輕。

Q2:調(diào)高AI的隨機(jī)性溫度參數(shù)能恢復(fù)多樣性嗎?

A:效果非常有限。研究發(fā)現(xiàn),溫度參數(shù)從推薦值調(diào)低大約造成11%的多樣性損失,但這與訓(xùn)練過程造成的62%崩塌相比可以忽略不計(jì)。把溫度調(diào)回去也只能彌補(bǔ)很小一部分,訓(xùn)練數(shù)據(jù)帶來的多樣性損失是刻在模型權(quán)重里的,無法通過調(diào)參在推理時(shí)恢復(fù)。

Q3:RL-Zero為什么能保留更多多樣性,它的代價(jià)是什么?

A:RL-Zero繞過了監(jiān)督微調(diào)和偏好優(yōu)化兩個(gè)階段,直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí),因此沒有經(jīng)歷這兩個(gè)階段帶來的多樣性壓縮,平均保留了基礎(chǔ)模型93%的多樣性。但代價(jià)是質(zhì)量大幅下降——在數(shù)學(xué)題上單次準(zhǔn)確率只有49-61%,而經(jīng)過完整訓(xùn)練的模型可以達(dá)到80-93%。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺(tái)州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺(tái)球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

房產(chǎn)
旅游
數(shù)碼
家居
軍事航空

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4??!

旅游要聞

莫讓內(nèi)卷式競爭削弱旅游消費(fèi)信心

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預(yù)約

家居要聞

江景風(fēng)格 流動(dòng)的秩序

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進(jìn)入關(guān)懷版