網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ReLaX從隱空間動(dòng)力學(xué)出發(fā)重新解讀大模型RL的探索-利用平衡

2026-04-03 18:25:40　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

強(qiáng)化學(xué)習(xí)正逐漸成為大模型能力躍遷的核心驅(qū)動(dòng)力。從 OpenAI o3、DeepSeek-R1 到 Gemini 3，一系列前沿模型通過(guò)強(qiáng)化微調(diào)不斷突破復(fù)雜推理任務(wù)的性能上限。然而，在這些進(jìn)展背后，一個(gè)隱性的問(wèn)題正逐漸顯現(xiàn)：隨著訓(xùn)練推進(jìn)，策略分布持續(xù)收縮，探索能力在模式坍塌中不斷衰減，最終陷入優(yōu)化的欠收斂與性能瓶頸。

這一現(xiàn)象本質(zhì)上源于強(qiáng)化學(xué)習(xí)中的探索–利用（exploration-exploitation）失衡，而在 RLVR（可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)）范式下，稀疏獎(jiǎng)勵(lì)進(jìn)一步放大了這一問(wèn)題。

過(guò)去一年，大量工作試圖從表層 token 入手，通過(guò)提升輸出分布的熵來(lái)維持多樣性。但這一思路忽略了一個(gè)更根本的事實(shí)：Token 只是模型內(nèi)部隱層狀態(tài)在解碼過(guò)程中的壓縮表達(dá)，不可避免地丟失了部分計(jì)算信息，而非推理本身。當(dāng)調(diào)控停留在輸出層時(shí)，真正承載推理過(guò)程的這一 “計(jì)算空間” 幾乎未被觸及。與此同時(shí)，在當(dāng)前主流多模態(tài)模型（如 Qwen-VL）中，盡管 CoT 以文本形式呈現(xiàn)，其跨模態(tài)推理過(guò)程卻發(fā)生在隱空間之中，進(jìn)一步放大了這種 “表達(dá)–計(jì)算” 的錯(cuò)位。

于是，一個(gè)更關(guān)鍵的問(wèn)題浮現(xiàn)出來(lái)：僅通過(guò)提升 token 多樣性，真的能夠從本質(zhì)上改善模型的探索能力嗎？抑或，探索–利用的本質(zhì)，其實(shí)蘊(yùn)含在模型的內(nèi)部計(jì)算過(guò)程之中？

港理工&上海 AI Lab 的研究人員進(jìn)一步將問(wèn)題 “向內(nèi)推進(jìn)”，把目光從輸出層轉(zhuǎn)向模型的內(nèi)部計(jì)算。他們發(fā)現(xiàn)，大模型的推理過(guò)程并不是簡(jiǎn)單的序列生成，而可以從動(dòng)力學(xué)的視角來(lái)理解：其本質(zhì)是隱層狀態(tài)在高維空間中的連續(xù)演化，這一過(guò)程承載了模型內(nèi)部的計(jì)算邏輯。

基于這一洞察，研究團(tuán)隊(duì)提出了ReLaX（Reasoning with Latent eXploration）框架：不再直接干預(yù) token 生成的多樣性，而是在策略優(yōu)化過(guò)程中顯式調(diào)控模型的隱空間動(dòng)力學(xué)結(jié)構(gòu)，從而在更底層實(shí)現(xiàn)對(duì)探索與利用的平衡。

論文鏈接：https://arxiv.org/abs/2512.07558
開(kāi)源權(quán)重：https://huggingface.co/collections/SteveZ25/relax-checkpoints
Github: https://github.com/ZhangShimin1/ReLaX

ReLaX 核心方法解讀

1?? 隱空間探索：從隨機(jī)擾動(dòng)到真實(shí)探索

大模型的推理，并不是單純的 token 輸出，而是隱層狀態(tài)在高維空間里的連續(xù)演化。ReLaX 將這套隱層演化看作一個(gè) “隨機(jī)動(dòng)力學(xué)系統(tǒng)”：模型內(nèi)部狀態(tài)會(huì)隨著推理逐步變化，而采樣溫度、top-p、top-k 等隨機(jī)擾動(dòng)則像水流中掀起的漣漪，推動(dòng)隱層狀態(tài)偏離原軌跡。

僅僅在輸出層制造、放大 token 生成的隨機(jī)性，往往無(wú)法真正解鎖模型內(nèi)部探索潛力，關(guān)鍵是：只有當(dāng)模型的內(nèi)部動(dòng)力學(xué)模式足夠豐富，這些微小擾動(dòng)才能被放大成多樣的 latent 軌跡，從而產(chǎn)生有效探索。

2?? 動(dòng)態(tài)譜散度（DSD）：量化隱空間動(dòng)力學(xué)模式的多樣性

然而，核心難題在于：如何捕捉大模型內(nèi)部高維、復(fù)雜的非線性動(dòng)力學(xué)？傳統(tǒng)控制理論提供了一把利器 ——Koopman 算子（Koopman Operator），它允許我們?cè)谔囟ê瘮?shù)空間中，用線性的視角去觀測(cè)和分析非線性系統(tǒng)的演化。

在這一框架下，ReLaX 引入前沿方法ResKoopNet，通過(guò) MLP 學(xué)習(xí)出一個(gè)理想的Koopman dictionary，將大模型最后一層隱藏狀態(tài)的復(fù)雜演化映射到一個(gè)可解析的線性空間中。換句話說(shuō)，它將大模型隱層中如 “黑盒” 般混沌的推理軌跡，化繁為簡(jiǎn)，轉(zhuǎn)化為可分析的譜特征?；谠撟V空間，研究者提出了動(dòng)態(tài)譜散度（DSD）指標(biāo)。它通過(guò)計(jì)算單條軌跡內(nèi)部動(dòng)態(tài)譜模長(zhǎng)的方差，精準(zhǔn)量化了模型隱空間動(dòng)力學(xué)結(jié)構(gòu)的 “異質(zhì)性”。這些模長(zhǎng)深度揭示了增長(zhǎng)（growth）、衰減（decay）與振蕩（oscillation）等動(dòng)力學(xué)模式的核心特質(zhì)。DSD 越高，意味著大模型在推理過(guò)程中內(nèi)部動(dòng)力學(xué)模式越豐富，從而在 latent 空間中更有潛力探索多樣化、創(chuàng)新性的解題路徑。

簡(jiǎn)而言之，DSD 是對(duì)大模型內(nèi)部 “思維多樣性” 的量化：它不僅反映了內(nèi)部計(jì)算的復(fù)雜性，也為探索-利用的策略優(yōu)化提供了明確方向。

3?? DSD 引導(dǎo)下的策略優(yōu)化：讓探索更有方向

有了 DSD，我們終于有了量化大模型隱空間探索能力的 “羅盤(pán)”。ReLaX 將基于這一指標(biāo)設(shè)計(jì)的序列級(jí)正則化項(xiàng)融入經(jīng)典算法GRPO，不僅告訴模型哪些軌跡值得關(guān)注，還指導(dǎo)它如何在探索與利用之間取得平衡。

具體來(lái)說(shuō)，ReLaX 設(shè)計(jì)了兩條關(guān)鍵機(jī)制：

優(yōu)勢(shì)塑形（Advantage Shaping）：正則項(xiàng)與正向優(yōu)勢(shì)值綁定，只在帶來(lái)正向收益的軌跡上提升隱空間的靈活度。這意味著模型不會(huì)盲目探索無(wú)用路徑，而是把計(jì)算能力集中在高潛力軌跡上，避免無(wú)意義的模式漂移（semantic drift）。
自適應(yīng) KL 正則（Adaptive KL Regularization）：對(duì) DSD 超閾值的軌跡施加懲罰，以約束過(guò)度發(fā)散的動(dòng)態(tài)譜，保證訓(xùn)練穩(wěn)定性；同時(shí)對(duì)有潛質(zhì)的軌跡保留充足探索空間，讓模型在安全范圍內(nèi)大膽嘗試。

最終，ReLaX 不只是簡(jiǎn)單增加探索，它通過(guò)對(duì)隱空間動(dòng)力學(xué)進(jìn)行調(diào)控，形成一個(gè)動(dòng)態(tài)平衡的優(yōu)化目標(biāo)：在保證訓(xùn)練穩(wěn)定的前提下，讓大模型的隱層計(jì)算自由伸展，持續(xù)發(fā)掘更豐富的內(nèi)在推理路徑。

實(shí)驗(yàn)結(jié)果：打破 RLVR 性能瓶頸，持續(xù)激發(fā)大模型推理潛能

告別多樣性束縛下的 “次優(yōu)收斂”

作者在純文本大模型（LLM）和多模態(tài)視覺(jué)-語(yǔ)言大模型（VLM）上驗(yàn)證了 ReLaX 的效果，并與 GRPO 在 3B/7B 規(guī)模下的訓(xùn)練進(jìn)行了對(duì)比。通過(guò)訓(xùn)練過(guò)程中模型性能與 token 熵的關(guān)系圖，可以直觀觀察到模型是否陷入多樣性不足導(dǎo)致的性能瓶頸。

ReLaX（紅）對(duì)比 GRPO（灰）：3B/7B 規(guī)模 (a) 純文本大模型（LLMs）與 (b) 多模態(tài)視覺(jué)-語(yǔ)言大模型（VLMs）在訓(xùn)練過(guò)程中性能與 token 熵的關(guān)系，散點(diǎn)表示各訓(xùn)練步驟。

在 GRPO（灰色曲線）下，訓(xùn)練初期模型探索充分，性能穩(wěn)步提升；但隨著訓(xùn)練推進(jìn)，策略熵迅速下降，模型很快陷入次優(yōu)收斂 —— 就像學(xué)生過(guò)早認(rèn)定唯一解題思路，從此不再嘗試其他可能性。

相比之下，ReLaX（紅色曲線）在整個(gè)訓(xùn)練過(guò)程中不僅保持性能持續(xù)上升，同時(shí)策略熵穩(wěn)定在合理區(qū)間，避免模式坍塌。這意味著 ReLaX 能在促進(jìn)探索的同時(shí)，也順應(yīng) RL 對(duì)模型分布銳化以利用高價(jià)值信號(hào)的天然趨勢(shì)。

刷新多模態(tài)推理基準(zhǔn)新 SOTA

以 Qwen2.5-VL-Instruct 系列為基礎(chǔ)模型，ReLaX 在多模態(tài)推理任務(wù)上展現(xiàn)出顯著優(yōu)勢(shì)：其 7B 規(guī)模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 與 EMMA 七大基準(zhǔn)上取得53.2% 的 mean@1 平均準(zhǔn)確率，刷新同尺度模型性能上限。與此同時(shí)，3B 規(guī)模的 ReLaX-VL-3B 也展現(xiàn)出強(qiáng)勁競(jìng)爭(zhēng)力，其性能已可比甚至超越部分已有的 7B 級(jí)推理模型。

從 Token 到 Latent：推理與泛化能力的雙重提升

純文本數(shù)學(xué)推理：作為 RLVR 的核心應(yīng)用場(chǎng)景，數(shù)學(xué)推理一直是檢驗(yàn)方法有效性的 “主戰(zhàn)場(chǎng)”。作者以 Qwen2.5-base 與 Qwen2.5-Math 為基礎(chǔ)模型，將 ReLax 與多種基于 token 多樣性的方法進(jìn)行了系統(tǒng)對(duì)比。

實(shí)驗(yàn)結(jié)果顯示，在 Math500、Minerva、AMC22/23、AIME24/25 等六大數(shù)學(xué)推理基準(zhǔn)上，ReLaX 在相同訓(xùn)練設(shè)置下的平均性能穩(wěn)定超越基于 token 多樣性的方法。這一結(jié)果表明，相比直接干預(yù)輸出層多樣性，從 latent 動(dòng)力學(xué)出發(fā)調(diào)控模型探索與利用，能夠更高效地提升模型的推理能力。

進(jìn)一步地，作者將 ReLaX 擴(kuò)展至 Llama3.2-Instruct 與 Qwen3-base 等不同模型架構(gòu)上，依然取得一致性能提升，驗(yàn)證了該方法良好的可擴(kuò)展性與跨模型泛化能力。

多模態(tài)推理泛化：研究團(tuán)隊(duì)進(jìn)一步在多模態(tài)視覺(jué)-語(yǔ)言大模型上驗(yàn)證了 latent 層面探索相對(duì) token 層面探索的優(yōu)勢(shì)。具體而言，以 Qwen2.5-VL-3B 為基礎(chǔ)模型，在多個(gè)多模態(tài)推理基準(zhǔn)上，將 ReLaX與兩類代表性的 token-level 方法進(jìn)行對(duì)比：一類是直接將提升熵引入策略優(yōu)化目標(biāo)的 Entropy-Reg，另一類是通過(guò)協(xié)方差約束間接調(diào)控 token 熵的 KL-Cov。

實(shí)驗(yàn)結(jié)果給出了一個(gè)清晰的結(jié)論：ReLaX 在多模態(tài)推理任務(wù)上穩(wěn)定優(yōu)于兩類 token-level 方法。

具體來(lái)看，Entropy-Reg 并未帶來(lái)多模態(tài)推理能力的提升。相反，由于其在 token 層面顯式鼓勵(lì)不確定性，這種 “無(wú)約束” 的探索容易引入語(yǔ)義漂移，在多個(gè)基準(zhǔn)上甚至劣于原始 GRPO，表現(xiàn)出明顯的副作用。

相比之下，KL-Cov雖然帶來(lái)一定增益，但其效果具有明顯局限性：在 MathVista 等偏數(shù)學(xué)、幾何的任務(wù)上表現(xiàn)相對(duì)更好 —— 這些任務(wù)對(duì)視覺(jué)信息依賴較弱；而在更依賴視覺(jué)理解的任務(wù)（如 EMMA-Physics）中，ReLaX 的優(yōu)勢(shì)顯著擴(kuò)大（+7.7）。

這一現(xiàn)象揭示了關(guān)鍵問(wèn)題：僅在輸出層面促進(jìn)探索，難以有效影響多模態(tài)模型內(nèi)部的跨模態(tài)計(jì)算過(guò)程。 token-level 方法對(duì) latent 空間的作用有限，因此在需要深度視覺(jué)-文本融合的任務(wù)中難以泛化。

相比之下，ReLaX 直接作用于隱空間動(dòng)力學(xué)，通過(guò)調(diào)控模型內(nèi)部計(jì)算的靈活性，更有效地激活跨模態(tài)信息交互，從而顯著提升對(duì)多模態(tài)輸入的理解能力。論文中的 qualitative case study 也進(jìn)一步驗(yàn)證了這一點(diǎn)。

未來(lái)展望：走向大模型內(nèi)在機(jī)制的 “深水區(qū)”

ReLaX 的意義并不止于性能提升，它更重要的價(jià)值在于提供了一種全新的視角去理解大模型推理過(guò)程中的計(jì)算本質(zhì)。

相比直接 “擾動(dòng)” token 空間的概率，引導(dǎo)模型在隱空間中的動(dòng)態(tài)演化，是解決 “探索–利用” 權(quán)衡的一種更具原則性的路徑。未來(lái)，我們對(duì)模型探索能力的理解，將不再局限于輸出層的不確定性。
大模型的隱空間作為一片尚未被充分探索的 “藍(lán)?！?，正逐漸顯現(xiàn)出其作為研究前沿的核心價(jià)值。其中高維狀態(tài)所承載的豐富信息，刻畫(huà)了隱藏在表層文本輸出下的內(nèi)在計(jì)算過(guò)程，為我們理解模型行為并提升其能力提供了新的切入點(diǎn)。

ReLaX 只是一個(gè)起點(diǎn)。隨著我們不斷深入這一 “隱空間”，大模型或許將不再只是概率預(yù)測(cè)的工具，而是能夠在其豐富的內(nèi)部表征中進(jìn)行持續(xù)探索、自我修正，逐步演化出更接近 “認(rèn)知過(guò)程” 的推理能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.