国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

哥倫比亞大學(xué)揭示強(qiáng)化學(xué)習(xí)的探索與利用悖論

0
分享至


這項(xiàng)由哥倫比亞大學(xué)的Peter Chen領(lǐng)導(dǎo),聯(lián)合香港中文大學(xué)(深圳)、阿里巴巴達(dá)摩院(美國(guó))以及紐約大學(xué)斯特恩商學(xué)院的研究團(tuán)隊(duì)共同完成的研究,發(fā)表于2025年12月。研究團(tuán)隊(duì)深入探討了一個(gè)看似矛盾的現(xiàn)象:在訓(xùn)練大語(yǔ)言模型的過(guò)程中,兩種看似完全對(duì)立的策略竟然都能提升模型表現(xiàn)。感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2512.16912v1查詢完整研究?jī)?nèi)容。

要理解這項(xiàng)研究的意義,我們可以把訓(xùn)練AI模型想象成教導(dǎo)一個(gè)學(xué)生學(xué)會(huì)數(shù)學(xué)解題。傳統(tǒng)的教學(xué)理論告訴我們,學(xué)生需要在"探索新方法"和"鞏固已掌握技能"之間找到平衡。探索太多,學(xué)生會(huì)迷失方向;鞏固太多,學(xué)生會(huì)固步自封。然而,研究團(tuán)隊(duì)在AI模型訓(xùn)練中發(fā)現(xiàn)了一個(gè)令人費(fèi)解的現(xiàn)象:無(wú)論是阻止學(xué)生探索新方法,還是阻止學(xué)生鞏固已有技能,竟然都能讓學(xué)生的成績(jī)變得更好。

這種看似不合理的現(xiàn)象出現(xiàn)在一種稱(chēng)為"可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)"的AI訓(xùn)練方法中。這種方法特別適用于數(shù)學(xué)推理等有明確對(duì)錯(cuò)標(biāo)準(zhǔn)的任務(wù)。當(dāng)模型給出答案時(shí),系統(tǒng)能夠立即驗(yàn)證答案是否正確,就像老師批改選擇題一樣直接明確。這種訓(xùn)練方法已經(jīng)被應(yīng)用于最新的AI推理模型中,比如OpenAI的o1系列和DeepSeek的R1模型,幫助它們?cè)趪?guó)際數(shù)學(xué)奧林匹克競(jìng)賽等高難度測(cè)試中達(dá)到人類(lèi)水平的表現(xiàn)。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架中,我們通常認(rèn)為需要鼓勵(lì)模型探索不同的解題策略,同時(shí)獎(jiǎng)勵(lì)那些能夠產(chǎn)生正確答案的行為。這就像培養(yǎng)一個(gè)學(xué)生既要勇于嘗試新方法,又要記住有效的解題步驟。然而,可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)具有三個(gè)獨(dú)特之處,使其完全不同于傳統(tǒng)方法。

首先,獎(jiǎng)勵(lì)信號(hào)極其稀疏。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,系統(tǒng)可能在每一個(gè)小步驟都給出反饋,就像老師在學(xué)生解題過(guò)程中不斷點(diǎn)頭或搖頭。但在可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)中,只有在學(xué)生完成整道題目后才能知道答案對(duì)錯(cuò),中間的所有步驟都得不到任何反饋。其次,探索過(guò)程發(fā)生在整個(gè)解題序列的層面上,而不是單個(gè)步驟。最后,模型更新依賴(lài)于一種叫做"比率裁剪"的技術(shù),這種技術(shù)對(duì)于答案的相對(duì)優(yōu)劣非常敏感。

正是這些特殊性質(zhì)讓研究團(tuán)隊(duì)觀察到了兩個(gè)看似矛盾的現(xiàn)象。第一個(gè)現(xiàn)象是"虛假獎(jiǎng)勵(lì)"的積極作用。虛假獎(jiǎng)勵(lì)就像給學(xué)生隨機(jī)發(fā)糖果,完全不考慮他們的答題表現(xiàn)。按照常理,這種毫無(wú)根據(jù)的獎(jiǎng)勵(lì)應(yīng)該會(huì)干擾學(xué)習(xí)過(guò)程,讓學(xué)生搞不清楚什么是正確的。但令人意外的是,在某些AI模型上,這種隨機(jī)獎(jiǎng)勵(lì)竟然提升了模型在數(shù)學(xué)測(cè)試中的表現(xiàn)。

第二個(gè)現(xiàn)象是"熵最小化"的效果。在這個(gè)語(yǔ)境下,熵可以理解為模型輸出的隨機(jī)性程度。高熵意味著模型經(jīng)常給出不同的答案,就像一個(gè)猶豫不決的學(xué)生;低熵意味著模型傾向于給出確定性的答案,就像一個(gè)非常自信的學(xué)生。傳統(tǒng)觀點(diǎn)認(rèn)為,適度的隨機(jī)性有助于探索不同的解題策略。但研究發(fā)現(xiàn),降低這種隨機(jī)性,讓模型變得更加確定和自信,竟然也能提升表現(xiàn)。

這兩個(gè)現(xiàn)象共同構(gòu)成了一個(gè)令人困惑的悖論:既阻礙"利用"(通過(guò)虛假獎(jiǎng)勵(lì)),又阻礙"探索"(通過(guò)降低熵),都能改善推理性能。這就像發(fā)現(xiàn)無(wú)論是禁止學(xué)生使用熟悉的解題方法,還是禁止學(xué)生嘗試新方法,都能讓考試成績(jī)變好一樣不可思議。

一、裁剪機(jī)制的真實(shí)作用:并非學(xué)習(xí)信號(hào)而是熵調(diào)節(jié)器

研究團(tuán)隊(duì)首先深入分析了"比率裁剪"這個(gè)技術(shù)的真實(shí)作用機(jī)制。比率裁剪最初是為了防止模型在訓(xùn)練過(guò)程中發(fā)生劇烈變化而設(shè)計(jì)的穩(wěn)定性措施,就像汽車(chē)的安全帶一樣,目的是保護(hù)而不是推動(dòng)前進(jìn)。

通過(guò)嚴(yán)格的數(shù)學(xué)分析,研究團(tuán)隊(duì)證明了在虛假獎(jiǎng)勵(lì)條件下,裁剪產(chǎn)生的偏差在數(shù)量級(jí)上遠(yuǎn)小于原始的學(xué)習(xí)信號(hào)。具體來(lái)說(shuō),他們建立了一個(gè)理論框架,將裁剪后的目標(biāo)函數(shù)分解為原始項(xiàng)和裁剪修正項(xiàng)兩部分。通過(guò)推導(dǎo)精確的數(shù)學(xué)界限,他們發(fā)現(xiàn)裁剪修正項(xiàng)的期望值比原始學(xué)習(xí)信號(hào)小約17倍。這意味著,即使裁剪確實(shí)會(huì)產(chǎn)生某種偏差,這種偏差也微不足道,不足以解釋觀察到的性能提升。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了裁剪的真正作用機(jī)制:它實(shí)際上是在調(diào)節(jié)模型輸出的隨機(jī)性程度。當(dāng)模型接受虛假獎(jiǎng)勵(lì)訓(xùn)練時(shí),裁剪會(huì)系統(tǒng)性地降低輸出的熵值,使模型變得更加確定性和自信。這就像原本猶豫不決的學(xué)生突然變得非常堅(jiān)定,雖然判斷依據(jù)可能不夠充分,但表達(dá)更加清晰明確。

為了驗(yàn)證這一理論發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。他們使用Qwen2.5-Math-7B模型在DeepScaleR數(shù)據(jù)集上進(jìn)行訓(xùn)練,一組實(shí)驗(yàn)啟用裁剪,另一組完全關(guān)閉裁剪功能。結(jié)果顯示,在啟用裁剪的情況下,模型在MATH500驗(yàn)證集上的表現(xiàn)確實(shí)有所提升,但關(guān)閉裁剪時(shí)表現(xiàn)更好。更關(guān)鍵的是,裁剪激活的頻率極低,在整個(gè)訓(xùn)練過(guò)程中從未超過(guò)0.2%,這進(jìn)一步證實(shí)了裁剪偏差不是性能提升的主要原因。

研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)新穎的"一步策略熵變化"理論框架,用數(shù)學(xué)公式精確描述了裁剪如何影響模型的輸出分布。他們證明,在有裁剪的情況下,策略熵會(huì)單調(diào)遞減,而在無(wú)裁剪的情況下,根據(jù)初始策略的偏斜程度,熵可能增加或減少。這個(gè)發(fā)現(xiàn)徹底顛覆了之前認(rèn)為裁剪直接提供學(xué)習(xí)信號(hào)的觀點(diǎn),揭示了其作為熵調(diào)節(jié)機(jī)制的真實(shí)身份。

二、策略熵與性能的復(fù)雜關(guān)系:打破因果聯(lián)系神話

在深入理解裁剪機(jī)制后,研究團(tuán)隊(duì)轉(zhuǎn)向探討第二個(gè)核心問(wèn)題:模型輸出的隨機(jī)性程度是否直接決定了性能表現(xiàn)。這個(gè)問(wèn)題的重要性在于,如果能夠建立熵與性能之間的直接因果關(guān)系,就可以通過(guò)簡(jiǎn)單調(diào)節(jié)熵值來(lái)優(yōu)化模型性能。

研究團(tuán)隊(duì)設(shè)計(jì)了多組對(duì)照實(shí)驗(yàn)來(lái)檢驗(yàn)這一假設(shè)。他們?cè)谙嗤挠?xùn)練設(shè)置下,分別記錄有裁剪和無(wú)裁剪情況下的策略熵變化和模型性能。結(jié)果令人驚訝:在某些情況下,熵的降低確實(shí)伴隨著性能提升,但在另一些情況下,熵的增加同樣帶來(lái)了性能改善。

具體來(lái)說(shuō),當(dāng)使用較難的AIME數(shù)據(jù)集訓(xùn)練Qwen2.5-Math-7B模型時(shí),無(wú)論是有裁剪(熵降低)還是無(wú)裁剪(熵增加)的訓(xùn)練方式,部分實(shí)驗(yàn)都顯示出性能改善。這種現(xiàn)象就像發(fā)現(xiàn)不同的學(xué)生適合不同的學(xué)習(xí)風(fēng)格:有些學(xué)生需要變得更加專(zhuān)注和確定,有些學(xué)生則需要保持開(kāi)放和靈活的思維方式。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要的調(diào)節(jié)因素:模型的初始能力和訓(xùn)練數(shù)據(jù)的難度。對(duì)于能力較強(qiáng)的模型(如QwQ-32B和R1-Distill-Llama-8B),即使在困難的訓(xùn)練數(shù)據(jù)上,它們也能從隨機(jī)獎(jiǎng)勵(lì)中獲益。但對(duì)于能力較弱的模型,當(dāng)面對(duì)超出其處理能力的困難任務(wù)時(shí),無(wú)論采用何種熵調(diào)節(jié)策略,性能提升都非常有限。

這一發(fā)現(xiàn)打破了"低熵必然帶來(lái)高性能"的簡(jiǎn)單假設(shè)。研究團(tuán)隊(duì)進(jìn)一步分析發(fā)現(xiàn),熵的變化更像是模型適應(yīng)訓(xùn)練信號(hào)的一種表現(xiàn),而不是性能改善的直接原因。真正的關(guān)鍵在于模型是否能找到適合當(dāng)前任務(wù)復(fù)雜度的輸出確定性水平。

通過(guò)對(duì)不同模型族(Qwen-Math、Llama、QwQ)的廣泛測(cè)試,研究團(tuán)隊(duì)驗(yàn)證了這一結(jié)論的普遍性。他們發(fā)現(xiàn),性能提升的關(guān)鍵不在于達(dá)到特定的熵值,而在于訓(xùn)練過(guò)程是否幫助模型找到了更有效的推理策略。這就像不同的學(xué)生需要不同程度的自信:有些學(xué)生需要變得更加篤定,有些學(xué)生則需要保持質(zhì)疑和探索的態(tài)度。

三、獎(jiǎng)勵(lì)錯(cuò)配理論:揭示虛假獎(jiǎng)勵(lì)的積極機(jī)制

為了解釋為什么看似毫無(wú)意義的隨機(jī)獎(jiǎng)勵(lì)能夠提升模型性能,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)創(chuàng)新的"獎(jiǎng)勵(lì)錯(cuò)配"理論模型。這個(gè)模型的核心思想是將訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)分配錯(cuò)誤看作一個(gè)概率問(wèn)題,通過(guò)分析正確答案和錯(cuò)誤答案在隨機(jī)獎(jiǎng)勵(lì)下的分布特征,來(lái)理解性能提升的機(jī)制。

研究團(tuán)隊(duì)將訓(xùn)練樣本分為兩類(lèi):正確回答的樣本和錯(cuò)誤回答的樣本。在理想情況下,正確答案應(yīng)該獲得獎(jiǎng)勵(lì),錯(cuò)誤答案不應(yīng)獲得獎(jiǎng)勵(lì)。但在隨機(jī)獎(jiǎng)勵(lì)系統(tǒng)中,會(huì)出現(xiàn)兩種"標(biāo)記錯(cuò)誤":假陽(yáng)性錯(cuò)誤(錯(cuò)誤答案被誤獎(jiǎng)勵(lì))和假陰性錯(cuò)誤(正確答案未被獎(jiǎng)勵(lì))。

通過(guò)精確的概率分析,研究團(tuán)隊(duì)證明了一個(gè)關(guān)鍵結(jié)論:當(dāng)模型的基線準(zhǔn)確率較高時(shí),隨機(jī)獎(jiǎng)勵(lì)造成的"優(yōu)勢(shì)損失"會(huì)顯著減小。具體而言,如果一個(gè)模型在測(cè)試中有70%的答案是正確的,那么即使采用完全隨機(jī)的獎(jiǎng)勵(lì),正確答案仍然有更大概率獲得更多的凈優(yōu)勢(shì)。這就像在一個(gè)主要由好學(xué)生組成的班級(jí)中,即使老師隨機(jī)發(fā)獎(jiǎng),好學(xué)生獲得獎(jiǎng)勵(lì)的總量仍然會(huì)超過(guò)差學(xué)生。

更深入的分析揭示了一個(gè)重要的數(shù)學(xué)性質(zhì):隨機(jī)獎(jiǎng)勵(lì)損失的期望值和方差都隨著正確樣本比例的增加而減少。當(dāng)模型準(zhǔn)確率從50%提升到70%時(shí),獎(jiǎng)勵(lì)錯(cuò)配造成的干擾會(huì)呈平方級(jí)別下降。這解釋了為什么較強(qiáng)的模型更容易從隨機(jī)獎(jiǎng)勵(lì)中受益,而較弱的模型則可能受到更多干擾。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)模型處于不同的能力水平時(shí),假陽(yáng)性錯(cuò)誤和假陰性錯(cuò)誤的相對(duì)影響是不同的。對(duì)于高能力模型,假陰性錯(cuò)誤(正確答案未獲獎(jiǎng)勵(lì))的負(fù)面影響更為顯著,而假陽(yáng)性錯(cuò)誤的影響相對(duì)較小。這意味著,對(duì)于已經(jīng)表現(xiàn)良好的模型,隨機(jī)獎(jiǎng)勵(lì)主要是在"懲罰"一些本應(yīng)被獎(jiǎng)勵(lì)的正確行為,但這種懲罰的整體影響有限。

為了驗(yàn)證這一理論,研究團(tuán)隊(duì)測(cè)試了不同基線能力的模型。他們使用了能力較弱的Qwen2.5-Math-1.5B模型和能力較強(qiáng)的R1-Distill-Llama-8B模型進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果完全符合理論預(yù)測(cè):較強(qiáng)的模型在隨機(jī)獎(jiǎng)勵(lì)下表現(xiàn)出穩(wěn)定的改善,而較弱的模型則顯示出更大的性能波動(dòng)和不穩(wěn)定性。

這一發(fā)現(xiàn)還解釋了為什么先前的研究中出現(xiàn)了相互矛盾的結(jié)果。一些研究報(bào)告隨機(jī)獎(jiǎng)勵(lì)有害,另一些研究則發(fā)現(xiàn)其有益。實(shí)際上,這些差異很大程度上反映了所測(cè)試模型的不同基線能力水平。當(dāng)研究者使用的是相對(duì)較弱的模型時(shí),隨機(jī)獎(jiǎng)勵(lì)確實(shí)可能帶來(lái)負(fù)面影響;但當(dāng)使用較強(qiáng)的模型時(shí),隨機(jī)獎(jiǎng)勵(lì)就可能表現(xiàn)出積極作用。

四、模型污染假說(shuō)的質(zhì)疑:超越單一解釋框架

早期對(duì)隨機(jī)獎(jiǎng)勵(lì)積極效果的解釋主要集中在"模型污染"假說(shuō)上。這個(gè)假說(shuō)認(rèn)為,某些模型在預(yù)訓(xùn)練階段就已經(jīng)見(jiàn)過(guò)了測(cè)試數(shù)據(jù),因此具有"作弊"的先天優(yōu)勢(shì)。當(dāng)這些已經(jīng)"記住答案"的模型接受隨機(jī)獎(jiǎng)勵(lì)時(shí),它們能夠利用內(nèi)在的記憶來(lái)維持性能,而隨機(jī)性反而幫助它們避免過(guò)度擬合到特定的答題模式。

然而,研究團(tuán)隊(duì)通過(guò)多個(gè)角度的實(shí)驗(yàn)設(shè)計(jì),系統(tǒng)性地質(zhì)疑了這一單一解釋框架的充分性。他們的第一個(gè)重要發(fā)現(xiàn)是,隨機(jī)獎(jiǎng)勵(lì)的積極效果并不局限于被懷疑存在污染的Qwen-Math模型族,在其他模型族中同樣可以觀察到類(lèi)似現(xiàn)象。

具體來(lái)說(shuō),研究團(tuán)隊(duì)測(cè)試了Llama系列和QwQ系列模型,這些模型系列沒(méi)有被報(bào)告存在MATH500數(shù)據(jù)集的污染問(wèn)題。令人意外的是,這些"清潔"的模型同樣在隨機(jī)獎(jiǎng)勵(lì)條件下顯示出性能提升。這一發(fā)現(xiàn)直接挑戰(zhàn)了污染假說(shuō)作為唯一解釋機(jī)制的合理性。

進(jìn)一步的分析顯示,即使在被懷疑存在污染的模型中,隨機(jī)獎(jiǎng)勵(lì)的效果也表現(xiàn)出與污染假說(shuō)預(yù)期不符的模式。如果隨機(jī)獎(jiǎng)勵(lì)的作用確實(shí)主要來(lái)自于強(qiáng)化已記憶的內(nèi)容,那么效果應(yīng)該主要體現(xiàn)在模型已經(jīng)"知道"答案的問(wèn)題上。但實(shí)驗(yàn)結(jié)果顯示,改善是相對(duì)均勻分布的,包括模型之前表現(xiàn)不佳的問(wèn)題類(lèi)型。

研究團(tuán)隊(duì)還注意到訓(xùn)練數(shù)據(jù)集的選擇對(duì)結(jié)果的影響。他們?cè)趯?shí)驗(yàn)中使用的DeepScaleR訓(xùn)練集包含AMC、AIME、Omni-Math和Still等數(shù)據(jù)源,這些數(shù)據(jù)源并未出現(xiàn)在Qwen2.5-Math模型的已知訓(xùn)練語(yǔ)料中。這種訓(xùn)練-測(cè)試數(shù)據(jù)的分離設(shè)計(jì)進(jìn)一步削弱了簡(jiǎn)單污染解釋的可信度。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同強(qiáng)度的模型表現(xiàn)出了系統(tǒng)性的差異模式。如果污染是主要因素,那么污染程度應(yīng)該是決定性的,但實(shí)際觀察到的模式更符合基于模型能力的解釋?zhuān)耗芰υ綇?qiáng)的模型越能夠從隨機(jī)獎(jiǎng)勵(lì)中受益,無(wú)論其是否存在污染。

這些發(fā)現(xiàn)并不是要完全否定污染可能產(chǎn)生的影響,而是表明現(xiàn)實(shí)情況比單一的污染解釋要復(fù)雜得多。隨機(jī)獎(jiǎng)勵(lì)的積極效果可能同時(shí)涉及多個(gè)機(jī)制,包括但不限于:模型的先驗(yàn)知識(shí)、訓(xùn)練動(dòng)態(tài)的調(diào)整、探索-利用平衡的重新校準(zhǔn),以及模型容量與任務(wù)難度的匹配程度。

研究團(tuán)隊(duì)的綜合分析表明,我們需要一個(gè)更加細(xì)致和多層面的理解框架,而不能依賴(lài)任何單一的解釋機(jī)制。這種認(rèn)識(shí)對(duì)于未來(lái)的AI訓(xùn)練方法設(shè)計(jì)具有重要啟示:我們不應(yīng)該基于簡(jiǎn)化的假設(shè)來(lái)制定訓(xùn)練策略,而應(yīng)該考慮多種因素的交互作用。

五、實(shí)驗(yàn)驗(yàn)證與跨模型泛化:從理論到實(shí)踐的全面檢驗(yàn)

為了確保研究結(jié)論的可靠性和普適性,研究團(tuán)隊(duì)設(shè)計(jì)了迄今為止最為全面的實(shí)驗(yàn)驗(yàn)證方案。這套驗(yàn)證方案不僅覆蓋了多個(gè)模型族和不同的參數(shù)規(guī)模,還考慮了不同的訓(xùn)練設(shè)置和任務(wù)難度。

在模型選擇方面,研究涵蓋了三個(gè)主要的模型族:Qwen-Math系列、Llama系列和QwQ系列。每個(gè)模型族都包含了不同參數(shù)規(guī)模的變體,從7B到32B不等。這種多樣化的選擇確保了發(fā)現(xiàn)的普遍適用性,避免了基于單一模型得出的可能有偏的結(jié)論。

實(shí)驗(yàn)設(shè)置遵循了嚴(yán)格的控制變量原則。所有實(shí)驗(yàn)都使用相同的超參數(shù)配置:批次大小128,組大小16,解碼溫度1.0,學(xué)習(xí)率5×10^-7,KL系數(shù)0。唯一變化的參數(shù)是裁剪比例和是否啟用隨機(jī)獎(jiǎng)勵(lì)。這種標(biāo)準(zhǔn)化確保了不同實(shí)驗(yàn)之間的可比性。

在訓(xùn)練數(shù)據(jù)方面,研究團(tuán)隊(duì)使用了兩個(gè)不同難度等級(jí)的數(shù)據(jù)集。DeepScaleR數(shù)據(jù)集代表中等難度,而AIME Past系列則代表高難度。通過(guò)這種難度梯度設(shè)計(jì),研究者能夠觀察到模型能力與訓(xùn)練數(shù)據(jù)難度之間的交互效應(yīng)。

實(shí)驗(yàn)結(jié)果展現(xiàn)出了清晰的模式。在中等難度的DeepScaleR數(shù)據(jù)集上,大多數(shù)模型都能從隨機(jī)獎(jiǎng)勵(lì)中獲得一定程度的性能提升。具體表現(xiàn)為,Qwen2.5-Math-7B的準(zhǔn)確率從64%提升到70%,R1-Distill-Llama-8B從66%提升到74%。這些改善雖然看似有限,但在AI模型評(píng)估中被認(rèn)為是顯著的。

然而,當(dāng)訓(xùn)練數(shù)據(jù)難度增加到AIME級(jí)別時(shí),模式變得更加復(fù)雜。能力較強(qiáng)的QwQ-32B和R1-Distill-Llama-8B模型仍然能夠從隨機(jī)獎(jiǎng)勵(lì)中受益,它們的性能曲線顯示出穩(wěn)定的上升趨勢(shì)。但能力相對(duì)較弱的Qwen2.5-Math-7B模型則表現(xiàn)出明顯的掙扎,其性能曲線呈現(xiàn)隨機(jī)游走狀態(tài),幾乎沒(méi)有meaningful的改善。

這種能力依賴(lài)性驗(yàn)證了獎(jiǎng)勵(lì)錯(cuò)配理論的預(yù)測(cè)。理論模型表明,當(dāng)正確答案的比例較高時(shí),隨機(jī)獎(jiǎng)勵(lì)造成的干擾相對(duì)較。划(dāng)正確答案比例較低時(shí),隨機(jī)獎(jiǎng)勵(lì)的負(fù)面影響就會(huì)放大。實(shí)驗(yàn)結(jié)果完美印證了這一預(yù)期。

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的裁剪閾值敏感性分析。他們測(cè)試了0.1、0.15和0.2三種不同的裁剪閾值,發(fā)現(xiàn)雖然具體的收斂速度有所不同,但總體的性能改善模式保持一致。這表明觀察到的現(xiàn)象并不依賴(lài)于特定的超參數(shù)設(shè)置。

特別值得注意的是穩(wěn)定性分析的結(jié)果。研究團(tuán)隊(duì)為每種設(shè)置進(jìn)行了六次獨(dú)立的重復(fù)實(shí)驗(yàn),記錄了性能提升的變異性。結(jié)果顯示,能力較強(qiáng)的模型不僅平均性能更好,而且表現(xiàn)出更好的穩(wěn)定性,實(shí)驗(yàn)間的標(biāo)準(zhǔn)差明顯較小。這進(jìn)一步支持了"模型能力是關(guān)鍵調(diào)節(jié)因素"的觀點(diǎn)。

在訓(xùn)練動(dòng)態(tài)分析方面,研究團(tuán)隊(duì)追蹤了整個(gè)訓(xùn)練過(guò)程中策略熵的演化軌跡。他們發(fā)現(xiàn),無(wú)論最終性能如何,所有成功的訓(xùn)練運(yùn)行都表現(xiàn)出某種形式的熵調(diào)節(jié):要么是漸進(jìn)的熵降低(有裁剪情況),要么是適度的熵增加(無(wú)裁剪情況)。這種觀察進(jìn)一步印證了"裁剪作為熵調(diào)節(jié)機(jī)制"的理論發(fā)現(xiàn)。

結(jié)論

說(shuō)到底,這項(xiàng)研究為我們揭示了AI模型訓(xùn)練中一個(gè)既有趣又實(shí)用的現(xiàn)象。研究團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)睦碚摲治龊痛笠?guī)模實(shí)驗(yàn),證明了在特定條件下,看似有害的隨機(jī)獎(jiǎng)勵(lì)確實(shí)能夠改善模型的數(shù)學(xué)推理能力,但這種改善并不來(lái)自于我們之前以為的機(jī)制。

歸根結(jié)底,裁剪技術(shù)的作用不是直接提供學(xué)習(xí)信號(hào),而是在調(diào)節(jié)模型輸出的確定性程度。當(dāng)模型接受隨機(jī)獎(jiǎng)勵(lì)訓(xùn)練時(shí),裁剪會(huì)讓模型變得更加自信和確定,這種變化有時(shí)候反而有利于推理表現(xiàn)。同時(shí),模型輸出的隨機(jī)性程度本身并不直接決定性能,真正重要的是這種隨機(jī)性是否適合當(dāng)前的任務(wù)和模型能力。

這項(xiàng)發(fā)現(xiàn)對(duì)AI技術(shù)的未來(lái)發(fā)展具有重要啟示。它告訴我們,在設(shè)計(jì)AI訓(xùn)練方法時(shí),不能簡(jiǎn)單地按照人類(lèi)學(xué)習(xí)的直覺(jué)來(lái)思考。有時(shí)候,看似不合理的訓(xùn)練策略可能會(huì)產(chǎn)生意想不到的積極效果,但這些效果的機(jī)制可能與我們的初始假設(shè)完全不同。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究最重要的意義在于提醒我們,AI系統(tǒng)的行為往往比我們想象的更加復(fù)雜和微妙。當(dāng)我們聽(tīng)到某種AI訓(xùn)練方法"有效"時(shí),應(yīng)該保持審慎的態(tài)度,深入了解其真實(shí)的工作機(jī)制,而不是匆忙下結(jié)論或盲目應(yīng)用。

從實(shí)際應(yīng)用角度看,這項(xiàng)研究為AI模型訓(xùn)練提供了新的思路。訓(xùn)練者可以根據(jù)模型的能力水平和任務(wù)難度,選擇合適的訓(xùn)練策略組合。對(duì)于能力較強(qiáng)的模型,適度的隨機(jī)性甚至可能是有益的;對(duì)于能力較弱的模型,則需要更加仔細(xì)地設(shè)計(jì)訓(xùn)練信號(hào)。

更進(jìn)一步思考,這項(xiàng)研究也提醒我們注意AI研究中的"表面現(xiàn)象"與"深層機(jī)制"的區(qū)別。許多看起來(lái)神奇的AI現(xiàn)象可能有著出人意料的簡(jiǎn)單解釋?zhuān)恍┛此坪?jiǎn)單的現(xiàn)象背后可能隱藏著復(fù)雜的機(jī)制。這種認(rèn)識(shí)對(duì)于推進(jìn)AI技術(shù)的健康發(fā)展具有重要價(jià)值。

最終,這項(xiàng)研究展示了科學(xué)研究的魅力:通過(guò)質(zhì)疑常識(shí),挑戰(zhàn)假設(shè),我們能夠發(fā)現(xiàn)事物運(yùn)作的真正規(guī)律,從而為技術(shù)進(jìn)步開(kāi)辟新的道路。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2512.16912v1查閱完整的論文內(nèi)容。

Q&A

Q1:什么是可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)?

A:可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)是一種專(zhuān)門(mén)用于訓(xùn)練AI模型的方法,特別適用于數(shù)學(xué)推理等有明確對(duì)錯(cuò)標(biāo)準(zhǔn)的任務(wù)。系統(tǒng)會(huì)在模型完成整個(gè)解題過(guò)程后驗(yàn)證答案是否正確,就像老師批改作業(yè)一樣給出明確的對(duì)錯(cuò)反饋,這種方法已經(jīng)被用于訓(xùn)練OpenAI的o1和DeepSeek的R1等先進(jìn)AI模型。

Q2:為什么隨機(jī)獎(jiǎng)勵(lì)反而能提升AI模型性能?

A:研究發(fā)現(xiàn)這主要與模型的基礎(chǔ)能力有關(guān)。對(duì)于能力較強(qiáng)的模型,即使接受完全隨機(jī)的獎(jiǎng)勵(lì),正確答案仍然有更大概率獲得更多凈優(yōu)勢(shì)。同時(shí),隨機(jī)獎(jiǎng)勵(lì)會(huì)通過(guò)裁剪機(jī)制降低模型輸出的隨機(jī)性,讓模型變得更加自信確定,這種變化有時(shí)反而有利于推理表現(xiàn)。

Q3:這項(xiàng)研究對(duì)AI技術(shù)發(fā)展有什么實(shí)際意義?

A:這項(xiàng)研究揭示了AI模型訓(xùn)練中的一個(gè)重要原則:訓(xùn)練策略的效果高度依賴(lài)于模型能力和任務(wù)難度的匹配。它為AI訓(xùn)練提供了新思路,提醒我們不能簡(jiǎn)單按照人類(lèi)學(xué)習(xí)的直覺(jué)來(lái)設(shè)計(jì)AI訓(xùn)練方法,需要深入理解不同訓(xùn)練策略的真實(shí)工作機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四藍(lán)委落敗原因曝光,鄭麗文拋“一對(duì)一”重磅!黃國(guó)昌直指侯友宜

四藍(lán)委落敗原因曝光,鄭麗文拋“一對(duì)一”重磅!黃國(guó)昌直指侯友宜

陳博世財(cái)經(jīng)
2025-12-28 17:07:40
泰柬停火生效后首日,雙方通報(bào)最新局勢(shì)

泰柬;鹕Ш笫兹,雙方通報(bào)最新局勢(shì)

界面新聞
2025-12-28 14:10:32
中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話極其無(wú)恥

中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話極其無(wú)恥

云上烏托邦
2025-12-27 19:04:16
一套房,跌掉511萬(wàn)。 北京,海淀,北三環(huán)。 就上個(gè)月的事兒。

一套房,跌掉511萬(wàn)。 北京,海淀,北三環(huán)。 就上個(gè)月的事兒。

歲月有情1314
2025-12-26 16:49:55
「乒乓賽訊」乒超總決賽12月28日賽果:深圳大學(xué)女團(tuán)獲得冠軍

「乒乓賽訊」乒超總決賽12月28日賽果:深圳大學(xué)女團(tuán)獲得冠軍

小軻搞笑解說(shuō)
2025-12-28 17:15:56
退伍前參加射擊比武,觀摩的軍長(zhǎng)開(kāi)口:比賽暫停,那個(gè)兵我要了

退伍前參加射擊比武,觀摩的軍長(zhǎng)開(kāi)口:比賽暫停,那個(gè)兵我要了

卡西莫多的故事
2025-12-25 10:44:54
1977 年李敏見(jiàn)親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見(jiàn)親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說(shuō)歷史
2025-12-24 09:40:23
三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

歷史有些冷
2025-12-04 20:20:06
溫莎新力量!夏洛特公主親切與黑人母女合影,削弱梅根相關(guān)指控

溫莎新力量!夏洛特公主親切與黑人母女合影,削弱梅根相關(guān)指控

歲暮的歸南山
2025-12-28 11:40:41
以色列這招太狠,帶頭承認(rèn)索馬里蘭,這步棋其實(shí)是沖中國(guó)來(lái)的

以色列這招太狠,帶頭承認(rèn)索馬里蘭,這步棋其實(shí)是沖中國(guó)來(lái)的

策前論
2025-12-27 17:06:53
雅魯藏布江水電站有多牛?印度網(wǎng)友看完集體沉默,真相太震撼

雅魯藏布江水電站有多牛?印度網(wǎng)友看完集體沉默,真相太震撼

老特有話說(shuō)
2025-12-27 14:41:57
AI已經(jīng)能暢玩幾乎所有游戲了,那還要我干啥?

AI已經(jīng)能暢玩幾乎所有游戲了,那還要我干啥?

差評(píng)XPIN
2025-12-27 00:11:52
比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
1月最強(qiáng)運(yùn)勢(shì)的3生肖:正緣敲門(mén),橫財(cái)天降,翻身就在上半年!

1月最強(qiáng)運(yùn)勢(shì)的3生肖:正緣敲門(mén),橫財(cái)天降,翻身就在上半年!

毅談生肖
2025-12-28 11:31:14
李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
外媒披露泰柬;鹇暶髟敿(xì)內(nèi)容

外媒披露泰柬;鹇暶髟敿(xì)內(nèi)容

參考消息
2025-12-27 19:17:36
【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

環(huán)球網(wǎng)資訊
2025-12-26 22:56:11
馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

犀利辣椒
2025-12-27 06:42:38
6000萬(wàn)主力客群“消失”:困在商場(chǎng)里的餐飲店,正迎來(lái)一場(chǎng)大“清洗”

6000萬(wàn)主力客群“消失”:困在商場(chǎng)里的餐飲店,正迎來(lái)一場(chǎng)大“清洗”

職業(yè)餐飲網(wǎng)
2025-12-18 21:06:32
鄧小平視察二汽,得知王兆國(guó)38歲就當(dāng)副廠長(zhǎng)后大喜:要好好培養(yǎng)他

鄧小平視察二汽,得知王兆國(guó)38歲就當(dāng)副廠長(zhǎng)后大喜:要好好培養(yǎng)他

帝哥說(shuō)史
2025-12-23 06:30:03
2025-12-28 20:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

教育要聞

出錯(cuò)率特別高的題,這道題有很多種不同的答案

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
數(shù)碼
房產(chǎn)
旅游
軍事航空

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

數(shù)碼要聞

被人民日?qǐng)?bào)“點(diǎn)名”,這款筆記本電腦適合你嗎?

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

旅游要聞

自貢地區(qū)現(xiàn)存有多少座南華宮,你了解嗎?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版