后訓練中的RL已死？MIT新算法挑戰(zhàn)傳統(tǒng)后訓練思維，謝賽寧轉(zhuǎn)發(fā)

2026-03-16 14:15:20　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

在當前的 LLM 開發(fā)中，后訓練階段通常被視為賦予模型特定能力的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的觀點認為，模型必須通過強化學習（如 PPO、GRPO 或 RLHF）和進化策略（ES）等算法，在反復的迭代和梯度優(yōu)化過程中調(diào)整權(quán)重，才能在特定任務(wù)上達到理想的性能。

然而，MIT CSAIL 的研究人員 Yulu Gan 和 Phillip Isola 在他們最新發(fā)布的論文中對這一傳統(tǒng)認知發(fā)起了挑戰(zhàn)。他們提出了一種名為RandOpt的新方法，通過簡單的隨機擾動和集成來突破傳統(tǒng)后訓練的限制。

論文標題：Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
論文地址：https://arxiv.org/pdf/2603.12228

這一發(fā)現(xiàn)對大模型參數(shù)空間的理解具有顛覆性意義。早在 2001 年，Schmidhuber 等人提出「隨機猜測」不能算作一種有效的學習算法，認為「優(yōu)秀的解決方案在權(quán)重空間中的分布必須極其稀疏」。然而，Gan 和 Isola 的研究揭示了一個反直覺的現(xiàn)象：在完成預訓練后，LLM 模型的權(quán)重空間實際上形成了一個密集的「神經(jīng)叢林」（Neural Thickets），這一狀態(tài)促使簡單的隨機采樣就能發(fā)現(xiàn)有效的解決方案。

論文指出，預訓練模型不僅僅是后訓練的「起點」，其權(quán)重空間內(nèi)已潛藏著大量任務(wù)專家。隨著模型規(guī)模的增大，這些專家在權(quán)重空間中的分布密度急劇增加，足以讓隨機擾動和集成方法有效捕捉優(yōu)越的解決方案。

基于這一理論，RandOpt 算法的操作方式非常簡單：只需向預訓練模型添加單步的高斯噪聲（無需任何迭代、學習率或梯度計算），并對多個擾動后的模型副本進行集成。實驗結(jié)果表明，僅憑這一極簡的操作，模型就能夠在數(shù)學推理、代碼生成等復雜任務(wù)中達到，甚至超越 PPO 或 GRPO 等傳統(tǒng)后訓練方法的性能。

通過這一創(chuàng)新方法，RandOpt 為后訓練的簡化提供了新的可能，展示了預訓練模型本身已隱含了豐富的任務(wù)專家，后訓練過程更多是選擇和集成這些專家，而非從零開始訓練新能力。

這篇論文一經(jīng)發(fā)布便在 AI 社區(qū)引發(fā)了轟動，不僅迅速登上 alphaXiv 榜單第二，其作者在 X 上的宣傳帖子也獲得了近 50 萬的瀏覽量和極高的互動，謝賽寧也轉(zhuǎn)發(fā)了該工作。

許多從業(yè)者和研究人員驚呼：「強化學習在后訓練就死了？」「強化學習泡沫破裂？」。

盡管有人對其在細粒度對齊任務(wù)上的泛化能力持保留態(tài)度，但這種極簡算法背后所揭示的參數(shù)空間現(xiàn)象，無疑迫使我們重新思考預訓練與后訓練的本質(zhì)關(guān)系。

預訓練權(quán)重的「叢林效應(yīng)」

論文指出，模型規(guī)模決定了這些專家在參數(shù)空間中的分布形態(tài)：

小模型（大海撈針機制）：未經(jīng)過充分訓練或規(guī)模較小的模型，在其初始權(quán)重附近的優(yōu)秀解決方案密度極低。它們處于「大海撈針」的狀態(tài)，發(fā)現(xiàn)有效解必須依賴梯度下降等結(jié)構(gòu)化的多步搜索算法。
大模型（神經(jīng)叢林機制）：大型且經(jīng)過充分預訓練的模型，其預訓練權(quán)重周圍密集地分布著大量能提升特定任務(wù)性能的專家。在這種狀態(tài)下，僅靠隨機采樣就足以快速找到有潛力的適應(yīng)性模型。

小模型（左）的大海撈針機制與大模型（右）的神經(jīng)叢林機制示意圖。大模型周圍充滿了代碼專家、數(shù)學專家等特定任務(wù)的解決方案集。

為了量化這一現(xiàn)象，研究測量了兩個核心指標：

解決方案密度：隨機擾動能使基礎(chǔ)模型性能提升特定幅度的概率。實驗表明，這種密度呈現(xiàn)出明顯的縮放定律：模型參數(shù)規(guī)模越大，其性能越好，周圍高質(zhì)量解決方案的密度就越高。
解決方案多樣性：這些隨機采樣出的好模型是「專才」而不是「通才」。一個擾動如果在一個特定任務(wù)上大幅提升了性能，往往會降低在其他任務(wù)上的性能。論文引入了「光譜不一致性」指標來衡量，發(fā)現(xiàn)隨著模型規(guī)模增加，解決方案的多樣性也單調(diào)增加，這意味著大模型周圍的專家在能力上越來越互補且互不重疊。

為了直觀展示神經(jīng)叢林的存在，研究團隊對參數(shù)量從 0.5B 到 32B 的 Qwen2.5 預訓練模型注入了 1000 個隨機權(quán)重擾動，并通過隨機投影技術(shù)將其準確率景觀可視化到了二維平面上。

實驗清晰地呈現(xiàn)了 Scaling Law：隨著模型規(guī)模的擴大，景觀中代表更高準確率的「紅色區(qū)域」（即任務(wù)改善區(qū)域）顯著增多并變得更加密集。

簡而言之，大模型所處的參數(shù)空間不僅是一個寬闊的平原，其周圍更是一個布滿不同任務(wù)局部最優(yōu)解的「盆地」。

那么，究竟是什么導致了這種奇特的「神經(jīng)叢林」的涌現(xiàn)？

1D 信號預測實驗揭示了這一現(xiàn)象的根本原因。研究者使用多層感知機（MLP）對混合的一維信號（如正弦波、方波等）進行自回歸預測的預訓練。通過對比不同預訓練策略，實驗揭示了三個階段：

無預訓練（大海撈針期）：在隨機初始化下，微小的權(quán)重擾動對模型功能幾乎沒有影響，好的解決方案距離極遠，隨機采樣完全失效。
單一任務(wù)預訓練（高原期）：如果只在單一信號（如僅線性函數(shù)）上預訓練，模型在測試該任務(wù)時已經(jīng)達到性能天花板（處于平緩的極小值處），但周圍的權(quán)重沒有展現(xiàn)出任何功能多樣性，隨機猜測無法帶來額外收益。
混合多任務(wù)預訓練（叢林誕生期）：只有當模型在多種不同的信號類型上進行過混合預訓練后，參數(shù)空間才會孕育出能在不同方向上擬合不同信號的「專家叢林」。

1D 信號預測實驗展示了三種機制。只有在「混合信號預訓練」下（圖 b），權(quán)重擾動才會炸開成形態(tài)各異的函數(shù)預測，形成神經(jīng)叢林。

這也解釋了為什么在海量混合數(shù)據(jù)上預訓練的大語言模型，會天然自帶一片生機勃勃的「專家叢林」。

RandOpt 算法：單步、無梯度、極致并行

基于「密度高」且「多樣性強」的神經(jīng)叢林現(xiàn)象，作者探索了一種極其簡單且完全并行的后訓練算法RandOpt。作者將其定義為：單步、無梯度、無學習率、無迭代、完全并行。

RandOpt 的操作避開了所有序列化的梯度更新，主要分為兩個階段：

訓練（隨機猜測與檢查）：算法從標準高斯分布中采樣出 N 個隨機種子和對應(yīng)的噪聲尺度，將其直接加到基礎(chǔ)模型的權(quán)重上，生成 N 個擾動后的模型副本。隨后，讓這些模型在一個小的訓練集（或驗證集）上運行，并根據(jù)得分選出表現(xiàn)最好的 Top-K 個模型。
推理（預測集成）：在面對測試輸入時，算法利用篩選出的 K 個模型分別生成預測，最終通過多數(shù)投票機制聚合這些預測，得出最終答案。

RandOpt 性能與基礎(chǔ)模型規(guī)模的關(guān)系。圖表顯示，如果從頭開始使用 RandOpt（不進行預訓練），性能幾乎為零；而對于經(jīng)過預訓練的模型，在參數(shù)量達到約 1.5B 時，RandOpt 的性能提升開始迎來爆發(fā)。

這種機制的一個關(guān)鍵特性是它完全不需要計算梯度，也不涉及任何序列化的優(yōu)化步驟，所有的模型生成和評估都可以完全并行處理。

RandOpt 與傳統(tǒng)方法的對比

這種看似「簡單粗暴」的方法，在實際基準測試中展現(xiàn)出了驚人的戰(zhàn)斗力。研究團隊在跨越 0.5B 到 8B 參數(shù)規(guī)模的多個模型（Qwen、Llama、OLMo3）上，對數(shù)學推理（Countdown、GSM8K 等）、代碼生成（MBPP）、創(chuàng)意寫作（ROCStories）以及化學（USPTO）任務(wù)進行了全面測試。

在消耗相同訓練 FLOPs（浮點運算次數(shù)）的前提下，RandOpt（通常設(shè)置 K=50）在絕大多數(shù)設(shè)定中不僅追平，甚至超越了 PPO、GRPO 和 ES 等標準后訓練方法。

此外，RandOpt 在訓練時間（Wall-clock time）上具有顛覆性的優(yōu)勢。傳統(tǒng)基準方法需要運行數(shù)百個序列化更新步驟（時間復雜度為 O(T)），而 RandOpt 的訓練步驟是 O(1)。論文指出，在一組包含 200 個 GH200 GPU 的集群上使用 RandOpt 訓練 OLMo-3-7B-Instruct 模型，設(shè)定 N=2000 和 K=50，僅需 3.2 分鐘即可完成，并在 Countdown 任務(wù)上達到 70% 的準確率。

不僅是語言模型，RandOpt 同樣適用于視覺語言模型（VLM）。在凍結(jié)視覺編碼器、僅擾動語言模型權(quán)重的情況下，RandOpt 將 3B 參數(shù)的 Qwen2.5-VL-Instruct 模型在 GQA 視覺推理數(shù)據(jù)集上的準確率提升了 12.4%。

提升究竟來自哪里？代價又是什么？

為了驗證模型能力的真實來源，作者在 GSM8K 數(shù)據(jù)集上對性能提升進行了細致的錯誤歸因分解。

數(shù)據(jù)表明，對于集成后達到 86.7% 準確率的 RandOpt（K=50），其提升中有19.0% 來源于「格式叢林」（Format Thicket）（即基礎(chǔ)模型算對了，但輸出格式不符合嚴苛的評估要求，擾動模型修正了格式）；更重要的是，有12.3% 來源于真實的「推理叢林」（Reasoning Thicket）（即基礎(chǔ)模型原本算錯，而擾動后的模型真正學會了正確的推理并得出正確答案）。這一結(jié)果有力地證明了，神經(jīng)叢林中確實存在著掌握不同實質(zhì)性技能的專家，而不僅僅是表面的格式微調(diào)。

不僅如此，這種叢林現(xiàn)象在文本到圖像生成領(lǐng)域（如 Stable Diffusion XL 模型）中表現(xiàn)為「色彩叢林」（Color Thickets）。某些參數(shù)空間的局部區(qū)域會優(yōu)先生成具有特定調(diào)色板（如藍色或黃色主導）或視覺風格的圖像，展現(xiàn)出了極高的生成多樣性。

RandOpt 在推理時需要進行 K 次前向傳播，這對實際部署是不利的。為了解決這一問題，研究者提出了一種蒸餾方案：他們利用 RandOpt 篩選出的 Top-50 模型生成數(shù)萬條包含推理軌跡的響應(yīng)，然后從中挑選出基礎(chǔ)模型容易出錯的「困難樣本」。接著，只對基礎(chǔ)模型進行兩輪監(jiān)督微調(diào)。

實驗結(jié)果令人振奮：在 GSM8K 上，蒸餾后的單一模型性能（84.3%）與龐大的集成模型（87.1%）極為接近，而這個蒸餾過程的計算成本僅占 RandOpt 訓練成本的約 2%。

更多細節(jié)請參見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.