国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

強(qiáng)化學(xué)習(xí)遠(yuǎn)不是最優(yōu),CMU剛剛提出最大似然強(qiáng)化學(xué)習(xí)

0
分享至


來源:機(jī)器之心

在大模型時代,從代碼生成到數(shù)學(xué)推理,再到自主規(guī)劃的 Agent 系統(tǒng),強(qiáng)化學(xué)習(xí)幾乎成了「最后一公里」的標(biāo)準(zhǔn)配置。

直覺上,開發(fā)者真正想要的其實(shí)很簡單:讓模型更有可能生成「正確軌跡」。從概率角度看,這等價于最大化正確輸出的概率,也就是經(jīng)典的最大似然(Maximum Likelihood)目標(biāo)。

然而,一項(xiàng)來自 CMU、清華大學(xué)、浙江大學(xué)等研究機(jī)構(gòu)的最新工作指出了一個頗具顛覆性的事實(shí):

現(xiàn)實(shí)中廣泛使用的強(qiáng)化學(xué)習(xí),并沒有真正在做最大似然優(yōu)化。嚴(yán)格的理論分析顯示,強(qiáng)化學(xué)習(xí)只是在優(yōu)化最大似然目標(biāo)的一階近似—— 距離我們以為的最優(yōu)訓(xùn)練目標(biāo),其實(shí)還差得很遠(yuǎn)。

正是基于這一觀察,研究團(tuán)隊(duì)對強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)進(jìn)行了重新審視,提出了最大似然強(qiáng)化學(xué)習(xí)(Maximum Likelihood Reinforcement Learning):將基于正確性的強(qiáng)化學(xué)習(xí)重新刻畫為一個潛變量生成的最大似然問題,進(jìn)一步引入一族以計算量為索引的目標(biāo)函數(shù),使訓(xùn)練目標(biāo)能夠逐步逼近真正的最大似然優(yōu)化。


  • 論文標(biāo)題:Maximum Likelihood Reinforcement Learning

  • 論文鏈接:https://arxiv.org/abs/2602.02710

  • 項(xiàng)目地址:https://zanette-labs.github.io/MaxRL/

  • Github 地址:https://github.com/tajwarfahim/maxrl

傳統(tǒng)強(qiáng)化學(xué)習(xí)的「卡脖子」問題

在代碼生成、數(shù)學(xué)推理、多步?jīng)Q策這些任務(wù)中,我們已經(jīng)形成了一種幾乎默認(rèn)的共識:只要反饋是二值的、過程是不可微的,就用強(qiáng)化學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)這套范式,支撐了從 AlphaGo 到大語言模型推理能力提升的一系列關(guān)鍵進(jìn)展。

從端到端的角度看,強(qiáng)化學(xué)習(xí)就是給定一個輸入,模型隱式地誘導(dǎo)出一個「成功概率」. 如果不考慮可微性約束,最自然、也最原則性的目標(biāo),就是最大似然

但論文研究團(tuán)隊(duì)發(fā)現(xiàn):基于期望獎勵的強(qiáng)化學(xué)習(xí),其實(shí)只是在優(yōu)化最大似然目標(biāo)的一階近似。更具體地說,最大似然目標(biāo)在總體層面可以展開為一系列以 pass@k 事件為基的項(xiàng),而標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)只優(yōu)化了其中的一階項(xiàng)。

簡單來說,強(qiáng)化學(xué)習(xí)并沒有真正最大化「模型生成正確答案的概率」,而是在優(yōu)化一個與真實(shí)似然存在系統(tǒng)性偏差的替代目標(biāo)。

這也解釋了一個廣泛存在卻難以言說的現(xiàn)象:強(qiáng)化學(xué)習(xí)早期進(jìn)展迅速,但越到后期,性能提升越困難。

研究團(tuán)隊(duì)針對這一新發(fā)現(xiàn),對「基于正確性反饋的強(qiáng)化學(xué)習(xí)」進(jìn)行了重新刻畫,論文的主要貢獻(xiàn)如下:

  • 將基于正確性的強(qiáng)化學(xué)習(xí)形式化為一個潛變量生成的最大似然問題,并證明標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)僅優(yōu)化了最大似然目標(biāo)的一階近似。

  • 提出了一族以計算量為索引的目標(biāo)函數(shù),通過對 pass@k 事件進(jìn)行 Maclaurin 展開,在期望回報與精確最大似然之間實(shí)現(xiàn)連續(xù)插值。

  • 推導(dǎo)出一種簡單的on-policy 估計器,其期望梯度與該計算量索引的似然近似目標(biāo)完全一致,這意味著增加采樣真正改善了被優(yōu)化的目標(biāo)本身。

最大似然:真正改進(jìn)優(yōu)化目標(biāo)

研究團(tuán)隊(duì)認(rèn)為,最大似然估計在有監(jiān)督學(xué)習(xí)中表現(xiàn)卓越,為什么不直接在強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)它?

上一節(jié)中的觀察啟示我們:可以構(gòu)造一個隨計算量變化的目標(biāo)函數(shù)族,逐步引入更高階項(xiàng);隨著可用計算資源的增加,該目標(biāo)函數(shù)族將逐漸收斂到完整的最大似然目標(biāo)。

論文通過一系列推導(dǎo),將最大似然目標(biāo)在失敗事件方面進(jìn)行麥克勞林展開:


展開式中的最大似然梯度很難用有限樣本進(jìn)行估計。

特別是,估計大 k 值的 pass@k 梯度需要越來越多的樣本,尤其是在通過率 p 很小的情況下。這種有限樣本的困難正是提出最大似然強(qiáng)化學(xué)習(xí)(MaxRL)的動機(jī)所在。

研究團(tuán)隊(duì)將 MaxRL 定義為一類強(qiáng)化學(xué)習(xí)方法,它們顯式地以最大似然為目標(biāo),而不是以通過率為目標(biāo),同時在有限采樣和不可微生成的條件下仍然可實(shí)現(xiàn)。下面我們考慮一種實(shí)現(xiàn)該目標(biāo)的原則性方法。

考慮通過將麥克勞林展開式截斷為有限階來近似最大似然目標(biāo),然后估計該目標(biāo)。對于截斷級別 T ∈N,我們將固定輸入 x 的截斷最大似然目標(biāo)定義為:


對其求導(dǎo)得到截斷的總體梯度:


這定義了一族目標(biāo)函數(shù):T = 1 還原為強(qiáng)化學(xué)習(xí),T → ∞ 還原為最大似然,中間的 T 值則在兩者之間插值。因此,截斷級別 T 直接控制了有助于學(xué)習(xí)的正確性事件的階數(shù)。隨著在 rollout 方面消耗更多的計算量,對更高階梯度的估計變得可行。

換句話說: MaxRL 提供了一個原則性框架,用于通過增加計算量來換取對最大似然目標(biāo)更高保真度的近似。

上述公式已經(jīng)給出了一種可行的無偏估計思路:利用pass@k 梯度估計器,對有限級數(shù)中的每一項(xiàng)分別進(jìn)行近似。在這一策略下,任何對 pass@k 估計器的改進(jìn),都會直接轉(zhuǎn)化為對截斷最大似然目標(biāo)的更優(yōu)梯度估計。

不過,在本篇論文中,研究者采取了一條不同的路徑,將帶來更為簡潔的估計器形式,同時也提供了一個新的理解視角

最大似然目標(biāo)的梯度可以寫成如下的條件期望形式:

該定理表明,最大似然梯度等價于僅對成功軌跡的梯度進(jìn)行平均。這一解釋為構(gòu)造具體的梯度估計器提供了直接途徑:只需用采樣得到的成功軌跡,對上述條件期望進(jìn)行樣本平均即可。

其核心洞見在于:最大似然目標(biāo)的梯度可以表示為在「成功條件分布」下的期望。

因此,本文采用了一種簡單的策略:從非條件化的策略分布進(jìn)行采樣,但只對成功軌跡進(jìn)行平均,得到了強(qiáng)化學(xué)習(xí)風(fēng)格的估計器,其具備隨著 rollout 數(shù)的增加,對最大似然梯度的近似將不斷改善的特性。

換言之,在 MaxRL 框架下,額外的計算資源不僅改善了估計質(zhì)量,更直接改進(jìn)了被優(yōu)化的目標(biāo)本身。

令人驚訝的效率進(jìn)步

在實(shí)驗(yàn)中,這一改變帶來了遠(yuǎn)超預(yù)期的收益。研究團(tuán)隊(duì)在多個模型規(guī)模和多類任務(wù)上,對 MaxRL 進(jìn)行了系統(tǒng)評估,結(jié)果顯示:MaxRL 在性能與計算效率的權(quán)衡上均穩(wěn)定地優(yōu)于現(xiàn)有強(qiáng)化學(xué)習(xí)方法。


實(shí)驗(yàn)結(jié)果直觀展示了 MaxRL 在訓(xùn)練效率上的優(yōu)勢。在相同訓(xùn)練步數(shù)下,MaxRL 性能提升明顯更快,并且隨著 rollout 數(shù)的增加,MaxRL 持續(xù)受益。

這種優(yōu)勢并不只體現(xiàn)在訓(xùn)練階段,相較于使用 GRPO 訓(xùn)練的模型,MaxRL 測試時的 scaling 效率最高可提升20 倍。


在迷宮任務(wù)上,無論測試時的采樣預(yù)算 k 取何值,隨著訓(xùn)練 rollouts 的增加,MaxRL 都能持續(xù)降低 ?log (Pass@k),而 GRPO 與 RLOO 的改進(jìn)幅度則明顯更早趨于平緩。這一結(jié)果直觀地展示了 MaxRL 在訓(xùn)練階段更優(yōu)的性能–效率權(quán)衡。


比較在不同 pass@k 設(shè)置下各方法隨訓(xùn)練中采樣計算增加時的優(yōu)化趨勢,可以看到,對于 GRPO 與 RLOO,曲線在早期下降后迅速變平,說明額外采樣主要用于降低噪聲;而 MaxRL 在不同 k 值下均保持持續(xù)下降,推動模型不斷逼近一個更接近最大似然的優(yōu)化目標(biāo)。


在更大規(guī)模設(shè)置下,MaxRL 的優(yōu)勢依然保持穩(wěn)定。這表明,MaxRL 所帶來的改進(jìn)并非依賴于特定規(guī);虺瑓(shù)設(shè)置,當(dāng)訓(xùn)練規(guī)模擴(kuò)大時,MaxRL 并未出現(xiàn)收益遞減過快或優(yōu)勢消失的現(xiàn)象。


進(jìn)一步的實(shí)驗(yàn)結(jié)果表明,MaxRL 的優(yōu)勢并不依賴于過于理想化的實(shí)驗(yàn)條件,即使在反饋存在噪聲或驗(yàn)證信號并非完全可靠的設(shè)置下,MaxRL 仍然能夠保持相對穩(wěn)定的性能優(yōu)勢。

總體來看,MaxRL 為不可微、基于采樣的學(xué)習(xí)問題提供了一種更為深入的解法。它通過一個隨計算量自然擴(kuò)展的目標(biāo)框架,系統(tǒng)性地逼近真正的似然優(yōu)化。

當(dāng)優(yōu)化目標(biāo)本身可以隨算力演進(jìn)、逐步逼近最大似然,強(qiáng)化學(xué)習(xí)究竟會成為通往通用智能的長期答案,還是只是通往下一個訓(xùn)練范式的過渡方案?

更多信息,請參閱原論文。

閱讀最新前沿科技趨勢報告,請?jiān)L問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普稱對英國首相的立場“非常失望”

特朗普稱對英國首相的立場“非常失望”

新華社
2026-03-02 22:06:40
哈梅內(nèi)伊的繼任者們沒有顯示任何投降跡象,甚至可能更激進(jìn)

哈梅內(nèi)伊的繼任者們沒有顯示任何投降跡象,甚至可能更激進(jìn)

Nee看
2026-03-02 18:16:41
伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準(zhǔn)備

伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準(zhǔn)備

財聯(lián)社
2026-03-02 20:44:25
伊朗再對美以基地發(fā)動大規(guī)模襲擊

伊朗再對美以基地發(fā)動大規(guī)模襲擊

財聯(lián)社
2026-03-01 12:32:05
1勝9負(fù),奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

1勝9負(fù),奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

老梁體育漫談
2026-03-02 23:30:56
中國與伊朗接近達(dá)成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實(shí)!

中國與伊朗接近達(dá)成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實(shí)!

澎湃新聞
2026-03-02 15:36:40
民政部門正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

民政部門正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

南方健哥
2026-03-02 12:42:15
西班牙拒絕美方使用其基地打擊伊朗

西班牙拒絕美方使用其基地打擊伊朗

新華社
2026-03-02 23:40:05
3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

阿龍美食記
2026-03-01 16:17:49
中東局勢緊張!多位網(wǎng)球名將被困,前世界第一恐無緣第五大滿貫

中東局勢緊張!多位網(wǎng)球名將被困,前世界第一恐無緣第五大滿貫

全景體育V
2026-03-02 18:51:55
A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

另子維愛讀史
2026-03-02 19:31:01
金正恩一句話讓全球震驚,韓國顫抖,中方第二天就出面發(fā)聲

金正恩一句話讓全球震驚,韓國顫抖,中方第二天就出面發(fā)聲

青煙小先生
2026-03-02 10:19:13
中歐航線票價暴漲 上海飛巴黎飆升5倍

中歐航線票價暴漲 上海飛巴黎飆升5倍

財聯(lián)社
2026-03-02 17:34:14
現(xiàn)貨白銀快速跳水 跌幅擴(kuò)大至近6%

現(xiàn)貨白銀快速跳水 跌幅擴(kuò)大至近6%

財聯(lián)社
2026-03-02 22:30:10
全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

兵國大事
2026-03-02 00:00:35
張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

動物奇奇怪怪
2026-03-03 00:15:26
梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

百態(tài)人間
2026-03-02 15:16:23
美將領(lǐng):2月27日15時38分收到特朗普最終對伊軍事行動指令

美將領(lǐng):2月27日15時38分收到特朗普最終對伊軍事行動指令

國際在線
2026-03-02 22:38:02
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

補(bǔ)壹刀
2026-03-02 16:08:19
2026-03-03 02:24:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時尚
教育
旅游
健康
軍事航空

今年春天一定要擁有的4件衣服,太好看了!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版