国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

后訓練中的RL已死?MIT新算法挑戰(zhàn)傳統(tǒng)后訓練思維,謝賽寧轉(zhuǎn)發(fā)

0
分享至



機器之心編輯部

在當前的 LLM 開發(fā)中,后訓練階段通常被視為賦予模型特定能力的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的觀點認為,模型必須通過強化學習(如 PPO、GRPO 或 RLHF)和進化策略(ES)等算法,在反復的迭代和梯度優(yōu)化過程中調(diào)整權(quán)重,才能在特定任務(wù)上達到理想的性能。

然而,MIT CSAIL 的研究人員 Yulu Gan 和 Phillip Isola 在他們最新發(fā)布的論文中對這一傳統(tǒng)認知發(fā)起了挑戰(zhàn)。他們提出了一種名為RandOpt的新方法,通過簡單的隨機擾動和集成來突破傳統(tǒng)后訓練的限制。



  • 論文標題:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
  • 論文地址:https://arxiv.org/pdf/2603.12228

這一發(fā)現(xiàn)對大模型參數(shù)空間的理解具有顛覆性意義。早在 2001 年,Schmidhuber 等人提出「隨機猜測」不能算作一種有效的學習算法,認為「優(yōu)秀的解決方案在權(quán)重空間中的分布必須極其稀疏」。然而,Gan 和 Isola 的研究揭示了一個反直覺的現(xiàn)象:在完成預訓練后,LLM 模型的權(quán)重空間實際上形成了一個密集的「神經(jīng)叢林」(Neural Thickets),這一狀態(tài)促使簡單的隨機采樣就能發(fā)現(xiàn)有效的解決方案。



論文指出,預訓練模型不僅僅是后訓練的「起點」,其權(quán)重空間內(nèi)已潛藏著大量任務(wù)專家。隨著模型規(guī)模的增大,這些專家在權(quán)重空間中的分布密度急劇增加,足以讓隨機擾動和集成方法有效捕捉優(yōu)越的解決方案。

基于這一理論,RandOpt 算法的操作方式非常簡單:只需向預訓練模型添加單步的高斯噪聲(無需任何迭代、學習率或梯度計算),并對多個擾動后的模型副本進行集成。實驗結(jié)果表明,僅憑這一極簡的操作,模型就能夠在數(shù)學推理、代碼生成等復雜任務(wù)中達到,甚至超越 PPO 或 GRPO 等傳統(tǒng)后訓練方法的性能。

通過這一創(chuàng)新方法,RandOpt 為后訓練的簡化提供了新的可能,展示了預訓練模型本身已隱含了豐富的任務(wù)專家,后訓練過程更多是選擇和集成這些專家,而非從零開始訓練新能力。

這篇論文一經(jīng)發(fā)布便在 AI 社區(qū)引發(fā)了轟動,不僅迅速登上 alphaXiv 榜單第二,其作者在 X 上的宣傳帖子也獲得了近 50 萬的瀏覽量和極高的互動,謝賽寧也轉(zhuǎn)發(fā)了該工作。







許多從業(yè)者和研究人員驚呼:「強化學習在后訓練就死了?」「強化學習泡沫破裂?」。





盡管有人對其在細粒度對齊任務(wù)上的泛化能力持保留態(tài)度,但這種極簡算法背后所揭示的參數(shù)空間現(xiàn)象,無疑迫使我們重新思考預訓練與后訓練的本質(zhì)關(guān)系。

預訓練權(quán)重的「叢林效應(yīng)」

論文指出,模型規(guī)模決定了這些專家在參數(shù)空間中的分布形態(tài):

  • 小模型(大海撈針機制):未經(jīng)過充分訓練或規(guī)模較小的模型,在其初始權(quán)重附近的優(yōu)秀解決方案密度極低。它們處于「大海撈針」的狀態(tài),發(fā)現(xiàn)有效解必須依賴梯度下降等結(jié)構(gòu)化的多步搜索算法。
  • 大模型(神經(jīng)叢林機制):大型且經(jīng)過充分預訓練的模型,其預訓練權(quán)重周圍密集地分布著大量能提升特定任務(wù)性能的專家。在這種狀態(tài)下,僅靠隨機采樣就足以快速找到有潛力的適應(yīng)性模型。



小模型(左)的大海撈針機制與大模型(右)的神經(jīng)叢林機制示意圖。大模型周圍充滿了代碼專家、數(shù)學專家等特定任務(wù)的解決方案集。

為了量化這一現(xiàn)象,研究測量了兩個核心指標:

  • 解決方案密度:隨機擾動能使基礎(chǔ)模型性能提升特定幅度的概率。實驗表明,這種密度呈現(xiàn)出明顯的縮放定律:模型參數(shù)規(guī)模越大,其性能越好,周圍高質(zhì)量解決方案的密度就越高。
  • 解決方案多樣性:這些隨機采樣出的好模型是「專才」而不是「通才」。一個擾動如果在一個特定任務(wù)上大幅提升了性能,往往會降低在其他任務(wù)上的性能。論文引入了「光譜不一致性」指標來衡量,發(fā)現(xiàn)隨著模型規(guī)模增加,解決方案的多樣性也單調(diào)增加,這意味著大模型周圍的專家在能力上越來越互補且互不重疊。

為了直觀展示神經(jīng)叢林的存在,研究團隊對參數(shù)量從 0.5B 到 32B 的 Qwen2.5 預訓練模型注入了 1000 個隨機權(quán)重擾動,并通過隨機投影技術(shù)將其準確率景觀可視化到了二維平面上。



實驗清晰地呈現(xiàn)了 Scaling Law:隨著模型規(guī)模的擴大,景觀中代表更高準確率的「紅色區(qū)域」(即任務(wù)改善區(qū)域)顯著增多并變得更加密集。

簡而言之,大模型所處的參數(shù)空間不僅是一個寬闊的平原,其周圍更是一個布滿不同任務(wù)局部最優(yōu)解的「盆地」。

那么,究竟是什么導致了這種奇特的「神經(jīng)叢林」的涌現(xiàn)?

1D 信號預測實驗揭示了這一現(xiàn)象的根本原因。研究者使用多層感知機(MLP)對混合的一維信號(如正弦波、方波等)進行自回歸預測的預訓練。通過對比不同預訓練策略,實驗揭示了三個階段:

  • 無預訓練(大海撈針期):在隨機初始化下,微小的權(quán)重擾動對模型功能幾乎沒有影響,好的解決方案距離極遠,隨機采樣完全失效。
  • 單一任務(wù)預訓練(高原期):如果只在單一信號(如僅線性函數(shù))上預訓練,模型在測試該任務(wù)時已經(jīng)達到性能天花板(處于平緩的極小值處),但周圍的權(quán)重沒有展現(xiàn)出任何功能多樣性,隨機猜測無法帶來額外收益。
  • 混合多任務(wù)預訓練(叢林誕生期):只有當模型在多種不同的信號類型上進行過混合預訓練后,參數(shù)空間才會孕育出能在不同方向上擬合不同信號的「專家叢林」。



1D 信號預測實驗展示了三種機制。只有在「混合信號預訓練」下(圖 b),權(quán)重擾動才會炸開成形態(tài)各異的函數(shù)預測,形成神經(jīng)叢林。

這也解釋了為什么在海量混合數(shù)據(jù)上預訓練的大語言模型,會天然自帶一片生機勃勃的「專家叢林」。

RandOpt 算法:單步、無梯度、極致并行

基于「密度高」且「多樣性強」的神經(jīng)叢林現(xiàn)象,作者探索了一種極其簡單且完全并行的后訓練算法RandOpt。作者將其定義為:單步、無梯度、無學習率、無迭代、完全并行。



RandOpt 的操作避開了所有序列化的梯度更新,主要分為兩個階段:

  • 訓練(隨機猜測與檢查):算法從標準高斯分布中采樣出 N 個隨機種子和對應(yīng)的噪聲尺度,將其直接加到基礎(chǔ)模型的權(quán)重上,生成 N 個擾動后的模型副本。隨后,讓這些模型在一個小的訓練集(或驗證集)上運行,并根據(jù)得分選出表現(xiàn)最好的 Top-K 個模型。
  • 推理(預測集成):在面對測試輸入時,算法利用篩選出的 K 個模型分別生成預測,最終通過多數(shù)投票機制聚合這些預測,得出最終答案。



RandOpt 性能與基礎(chǔ)模型規(guī)模的關(guān)系。圖表顯示,如果從頭開始使用 RandOpt(不進行預訓練),性能幾乎為零;而對于經(jīng)過預訓練的模型,在參數(shù)量達到約 1.5B 時,RandOpt 的性能提升開始迎來爆發(fā)。

這種機制的一個關(guān)鍵特性是它完全不需要計算梯度,也不涉及任何序列化的優(yōu)化步驟,所有的模型生成和評估都可以完全并行處理。

RandOpt 與傳統(tǒng)方法的對比

這種看似「簡單粗暴」的方法,在實際基準測試中展現(xiàn)出了驚人的戰(zhàn)斗力。研究團隊在跨越 0.5B 到 8B 參數(shù)規(guī)模的多個模型(Qwen、Llama、OLMo3)上,對數(shù)學推理(Countdown、GSM8K 等)、代碼生成(MBPP)、創(chuàng)意寫作(ROCStories)以及化學(USPTO)任務(wù)進行了全面測試。

在消耗相同訓練 FLOPs(浮點運算次數(shù))的前提下,RandOpt(通常設(shè)置 K=50)在絕大多數(shù)設(shè)定中不僅追平,甚至超越了 PPO、GRPO 和 ES 等標準后訓練方法。

此外,RandOpt 在訓練時間(Wall-clock time)上具有顛覆性的優(yōu)勢。傳統(tǒng)基準方法需要運行數(shù)百個序列化更新步驟(時間復雜度為 O(T)),而 RandOpt 的訓練步驟是 O(1)。論文指出,在一組包含 200 個 GH200 GPU 的集群上使用 RandOpt 訓練 OLMo-3-7B-Instruct 模型,設(shè)定 N=2000 和 K=50,僅需 3.2 分鐘即可完成,并在 Countdown 任務(wù)上達到 70% 的準確率。

不僅是語言模型,RandOpt 同樣適用于視覺語言模型(VLM)。在凍結(jié)視覺編碼器、僅擾動語言模型權(quán)重的情況下,RandOpt 將 3B 參數(shù)的 Qwen2.5-VL-Instruct 模型在 GQA 視覺推理數(shù)據(jù)集上的準確率提升了 12.4%。



提升究竟來自哪里?代價又是什么?

為了驗證模型能力的真實來源,作者在 GSM8K 數(shù)據(jù)集上對性能提升進行了細致的錯誤歸因分解。

數(shù)據(jù)表明,對于集成后達到 86.7% 準確率的 RandOpt(K=50),其提升中有19.0% 來源于「格式叢林」(Format Thicket)(即基礎(chǔ)模型算對了,但輸出格式不符合嚴苛的評估要求,擾動模型修正了格式);更重要的是,有12.3% 來源于真實的「推理叢林」(Reasoning Thicket)(即基礎(chǔ)模型原本算錯,而擾動后的模型真正學會了正確的推理并得出正確答案)。這一結(jié)果有力地證明了,神經(jīng)叢林中確實存在著掌握不同實質(zhì)性技能的專家,而不僅僅是表面的格式微調(diào)。

不僅如此,這種叢林現(xiàn)象在文本到圖像生成領(lǐng)域(如 Stable Diffusion XL 模型)中表現(xiàn)為「色彩叢林」(Color Thickets)。某些參數(shù)空間的局部區(qū)域會優(yōu)先生成具有特定調(diào)色板(如藍色或黃色主導)或視覺風格的圖像,展現(xiàn)出了極高的生成多樣性。



RandOpt 在推理時需要進行 K 次前向傳播,這對實際部署是不利的。為了解決這一問題,研究者提出了一種蒸餾方案:他們利用 RandOpt 篩選出的 Top-50 模型生成數(shù)萬條包含推理軌跡的響應(yīng),然后從中挑選出基礎(chǔ)模型容易出錯的「困難樣本」。接著,只對基礎(chǔ)模型進行兩輪監(jiān)督微調(diào)。

實驗結(jié)果令人振奮:在 GSM8K 上,蒸餾后的單一模型性能(84.3%)與龐大的集成模型(87.1%)極為接近,而這個蒸餾過程的計算成本僅占 RandOpt 訓練成本的約 2%。

更多細節(jié)請參見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
香港新規(guī):3年監(jiān)禁換你手機密碼,2026年3月生效

香港新規(guī):3年監(jiān)禁換你手機密碼,2026年3月生效

薛定諤的BUG
2026-03-28 11:40:26
張雪峰家族信托沒完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

張雪峰家族信托沒完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

壹月情感
2026-03-28 11:33:24
員工曝張雪峰公司現(xiàn)狀!群龍無首,家長學生怕卷錢跑路,好友停工

員工曝張雪峰公司現(xiàn)狀!群龍無首,家長學生怕卷錢跑路,好友停工

青橘罐頭
2026-03-28 07:31:42
跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

中國能源網(wǎng)
2026-03-26 14:13:04
終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

小舟談歷史
2026-03-08 08:00:04
女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識貨,別說話

女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識貨,別說話

三農(nóng)老歷
2026-03-27 11:32:51
湖北37歲女子想結(jié)婚:零彩禮、不要車不要房,擇偶條件看哭網(wǎng)友!

湖北37歲女子想結(jié)婚:零彩禮、不要車不要房,擇偶條件看哭網(wǎng)友!

少點意思
2026-03-28 17:41:49
美以伊沖突持續(xù),美國社會多層面遭受沖擊

美以伊沖突持續(xù),美國社會多層面遭受沖擊

極目新聞
2026-03-28 15:28:24
10億播放的“玉芬”神曲,憑什么火遍全網(wǎng)

10億播放的“玉芬”神曲,憑什么火遍全網(wǎng)

情感大頭說說
2026-03-28 11:59:18
中業(yè)島或朝不保夕!菲律賓戰(zhàn)艦瘋狂沖擊中國054A戰(zhàn)艦是真逼急了!

中業(yè)島或朝不保夕!菲律賓戰(zhàn)艦瘋狂沖擊中國054A戰(zhàn)艦是真逼急了!

阿龍聊軍事
2026-03-28 22:32:08
李現(xiàn)曬圖直呼 “快折磨死我了”!不少人已中招

李現(xiàn)曬圖直呼 “快折磨死我了”!不少人已中招

日照日報
2026-03-28 20:46:57
張凌赫事件持續(xù)升級!官方點名怒批,粉絲正面硬剛,這下恐要涼涼

張凌赫事件持續(xù)升級!官方點名怒批,粉絲正面硬剛,這下恐要涼涼

阿晪美食
2026-03-28 15:03:17
國際觀察|胡塞武裝“扣動扳機”,伊朗攤牌了嗎

國際觀察|胡塞武裝“扣動扳機”,伊朗攤牌了嗎

新華社
2026-03-28 22:57:03
“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

觀威海
2026-03-28 18:47:03
“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

娛樂故事
2026-03-26 17:11:11
劉昊然郭麒麟商K風波升級!被質(zhì)疑參加拖鞋場,畫面細節(jié)對上了

劉昊然郭麒麟商K風波升級!被質(zhì)疑參加拖鞋場,畫面細節(jié)對上了

萌神木木
2026-03-28 15:34:37
2005年《神話》重慶宣傳,為爭奪金喜善,文強與山西首富大打出手

2005年《神話》重慶宣傳,為爭奪金喜善,文強與山西首富大打出手

干史人
2026-03-27 10:00:07
上海月租7000的“廢土風”房火了!房東花了10萬裝修,網(wǎng)友:看著像一分沒花!

上海月租7000的“廢土風”房火了!房東花了10萬裝修,網(wǎng)友:看著像一分沒花!

新民晚報
2026-03-26 15:10:34
恩比德29分6板76人險勝黃蜂,馬克西復出26+7+8鮑爾失扳平球

恩比德29分6板76人險勝黃蜂,馬克西復出26+7+8鮑爾失扳平球

湖人崛起
2026-03-29 08:36:28
2026-03-29 08:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負責人王云鶴確認離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓:化工調(diào)味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

親子
藝術(shù)
時尚
數(shù)碼
公開課

親子要聞

全國學前教育專家齊聚深圳,共探美育與體育深度融合落地路徑

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國拍賣會,滿紙崢嶸往事......

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

數(shù)碼要聞

小心假冒偽劣硬盤:山寨版三星990 Pro SSD已能偽造讀寫速度

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版