国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ReLaX從隱空間動(dòng)力學(xué)出發(fā)重新解讀大模型RL的探索-利用平衡

0
分享至



強(qiáng)化學(xué)習(xí)正逐漸成為大模型能力躍遷的核心驅(qū)動(dòng)力。從 OpenAI o3、DeepSeek-R1 到 Gemini 3,一系列前沿模型通過(guò)強(qiáng)化微調(diào)不斷突破復(fù)雜推理任務(wù)的性能上限。然而,在這些進(jìn)展背后,一個(gè)隱性的問(wèn)題正逐漸顯現(xiàn):隨著訓(xùn)練推進(jìn),策略分布持續(xù)收縮,探索能力在模式坍塌中不斷衰減,最終陷入優(yōu)化的欠收斂與性能瓶頸。

這一現(xiàn)象本質(zhì)上源于強(qiáng)化學(xué)習(xí)中的探索–利用(exploration-exploitation)失衡,而在 RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí))范式下,稀疏獎(jiǎng)勵(lì)進(jìn)一步放大了這一問(wèn)題。

過(guò)去一年,大量工作試圖從表層 token 入手,通過(guò)提升輸出分布的熵來(lái)維持多樣性。但這一思路忽略了一個(gè)更根本的事實(shí):Token 只是模型內(nèi)部隱層狀態(tài)在解碼過(guò)程中的壓縮表達(dá),不可避免地丟失了部分計(jì)算信息,而非推理本身。當(dāng)調(diào)控停留在輸出層時(shí),真正承載推理過(guò)程的這一 “計(jì)算空間” 幾乎未被觸及。與此同時(shí),在當(dāng)前主流多模態(tài)模型(如 Qwen-VL)中,盡管 CoT 以文本形式呈現(xiàn),其跨模態(tài)推理過(guò)程卻發(fā)生在隱空間之中,進(jìn)一步放大了這種 “表達(dá)–計(jì)算” 的錯(cuò)位。

于是,一個(gè)更關(guān)鍵的問(wèn)題浮現(xiàn)出來(lái):僅通過(guò)提升 token 多樣性,真的能夠從本質(zhì)上改善模型的探索能力嗎?抑或,探索–利用的本質(zhì),其實(shí)蘊(yùn)含在模型的內(nèi)部計(jì)算過(guò)程之中?

港理工&上海 AI Lab 的研究人員進(jìn)一步將問(wèn)題 “向內(nèi)推進(jìn)”,把目光從輸出層轉(zhuǎn)向模型的內(nèi)部計(jì)算。他們發(fā)現(xiàn),大模型的推理過(guò)程并不是簡(jiǎn)單的序列生成,而可以從動(dòng)力學(xué)的視角來(lái)理解:其本質(zhì)是隱層狀態(tài)在高維空間中的連續(xù)演化,這一過(guò)程承載了模型內(nèi)部的計(jì)算邏輯。

基于這一洞察,研究團(tuán)隊(duì)提出了ReLaX(Reasoning with Latent eXploration)框架:不再直接干預(yù) token 生成的多樣性,而是在策略優(yōu)化過(guò)程中顯式調(diào)控模型的隱空間動(dòng)力學(xué)結(jié)構(gòu),從而在更底層實(shí)現(xiàn)對(duì)探索與利用的平衡。



  • 論文鏈接:https://arxiv.org/abs/2512.07558
  • 開(kāi)源權(quán)重:https://huggingface.co/collections/SteveZ25/relax-checkpoints
  • Github: https://github.com/ZhangShimin1/ReLaX

ReLaX 核心方法解讀



1?? 隱空間探索:從隨機(jī)擾動(dòng)到真實(shí)探索

大模型的推理,并不是單純的 token 輸出,而是隱層狀態(tài)在高維空間里的連續(xù)演化。ReLaX 將這套隱層演化看作一個(gè) “隨機(jī)動(dòng)力學(xué)系統(tǒng)”:模型內(nèi)部狀態(tài)會(huì)隨著推理逐步變化,而采樣溫度、top-p、top-k 等隨機(jī)擾動(dòng)則像水流中掀起的漣漪,推動(dòng)隱層狀態(tài)偏離原軌跡。

僅僅在輸出層制造、放大 token 生成的隨機(jī)性,往往無(wú)法真正解鎖模型內(nèi)部探索潛力,關(guān)鍵是:只有當(dāng)模型的內(nèi)部動(dòng)力學(xué)模式足夠豐富,這些微小擾動(dòng)才能被放大成多樣的 latent 軌跡,從而產(chǎn)生有效探索。

2?? 動(dòng)態(tài)譜散度(DSD):量化隱空間動(dòng)力學(xué)模式的多樣性

然而,核心難題在于:如何捕捉大模型內(nèi)部高維、復(fù)雜的非線性動(dòng)力學(xué)?傳統(tǒng)控制理論提供了一把利器 ——Koopman 算子(Koopman Operator),它允許我們?cè)谔囟ê瘮?shù)空間中,用線性的視角去觀測(cè)和分析非線性系統(tǒng)的演化。

在這一框架下,ReLaX 引入前沿方法ResKoopNet,通過(guò) MLP 學(xué)習(xí)出一個(gè)理想的Koopman dictionary,將大模型最后一層隱藏狀態(tài)的復(fù)雜演化映射到一個(gè)可解析的線性空間中。換句話說(shuō),它將大模型隱層中如 “黑盒” 般混沌的推理軌跡,化繁為簡(jiǎn),轉(zhuǎn)化為可分析的譜特征?;谠撟V空間,研究者提出了動(dòng)態(tài)譜散度(DSD)指標(biāo)。它通過(guò)計(jì)算單條軌跡內(nèi)部動(dòng)態(tài)譜模長(zhǎng)的方差,精準(zhǔn)量化了模型隱空間動(dòng)力學(xué)結(jié)構(gòu)的 “異質(zhì)性”。這些模長(zhǎng)深度揭示了增長(zhǎng)(growth)、衰減(decay)與振蕩(oscillation)等動(dòng)力學(xué)模式的核心特質(zhì)。DSD 越高,意味著大模型在推理過(guò)程中內(nèi)部動(dòng)力學(xué)模式越豐富,從而在 latent 空間中更有潛力探索多樣化、創(chuàng)新性的解題路徑。

簡(jiǎn)而言之,DSD 是對(duì)大模型內(nèi)部 “思維多樣性” 的量化:它不僅反映了內(nèi)部計(jì)算的復(fù)雜性,也為探索-利用的策略優(yōu)化提供了明確方向。

3?? DSD 引導(dǎo)下的策略優(yōu)化:讓探索更有方向

有了 DSD,我們終于有了量化大模型隱空間探索能力的 “羅盤(pán)”。ReLaX 將基于這一指標(biāo)設(shè)計(jì)的序列級(jí)正則化項(xiàng)融入經(jīng)典算法GRPO,不僅告訴模型哪些軌跡值得關(guān)注,還指導(dǎo)它如何在探索與利用之間取得平衡。

具體來(lái)說(shuō),ReLaX 設(shè)計(jì)了兩條關(guān)鍵機(jī)制:

  • 優(yōu)勢(shì)塑形(Advantage Shaping):正則項(xiàng)與正向優(yōu)勢(shì)值綁定,只在帶來(lái)正向收益的軌跡上提升隱空間的靈活度。這意味著模型不會(huì)盲目探索無(wú)用路徑,而是把計(jì)算能力集中在高潛力軌跡上,避免無(wú)意義的模式漂移(semantic drift)。
  • 自適應(yīng) KL 正則(Adaptive KL Regularization): 對(duì) DSD 超閾值的軌跡施加懲罰,以約束過(guò)度發(fā)散的動(dòng)態(tài)譜,保證訓(xùn)練穩(wěn)定性;同時(shí)對(duì)有潛質(zhì)的軌跡保留充足探索空間,讓模型在安全范圍內(nèi)大膽嘗試。

最終,ReLaX 不只是簡(jiǎn)單增加探索,它通過(guò)對(duì)隱空間動(dòng)力學(xué)進(jìn)行調(diào)控,形成一個(gè)動(dòng)態(tài)平衡的優(yōu)化目標(biāo):在保證訓(xùn)練穩(wěn)定的前提下,讓大模型的隱層計(jì)算自由伸展,持續(xù)發(fā)掘更豐富的內(nèi)在推理路徑。

實(shí)驗(yàn)結(jié)果:打破 RLVR 性能瓶頸,持續(xù)激發(fā)大模型推理潛能

告別多樣性束縛下的 “次優(yōu)收斂”

作者在純文本大模型(LLM)和多模態(tài)視覺(jué)-語(yǔ)言大模型(VLM)上驗(yàn)證了 ReLaX 的效果,并與 GRPO 在 3B/7B 規(guī)模下的訓(xùn)練進(jìn)行了對(duì)比。通過(guò)訓(xùn)練過(guò)程中模型性能與 token 熵的關(guān)系圖,可以直觀觀察到模型是否陷入多樣性不足導(dǎo)致的性能瓶頸。



ReLaX(紅)對(duì)比 GRPO(灰):3B/7B 規(guī)模 (a) 純文本大模型(LLMs)與 (b) 多模態(tài)視覺(jué)-語(yǔ)言大模型(VLMs)在訓(xùn)練過(guò)程中性能與 token 熵的關(guān)系,散點(diǎn)表示各訓(xùn)練步驟。

在 GRPO(灰色曲線)下,訓(xùn)練初期模型探索充分,性能穩(wěn)步提升;但隨著訓(xùn)練推進(jìn),策略熵迅速下降,模型很快陷入次優(yōu)收斂 —— 就像學(xué)生過(guò)早認(rèn)定唯一解題思路,從此不再嘗試其他可能性。

相比之下,ReLaX(紅色曲線)在整個(gè)訓(xùn)練過(guò)程中不僅保持性能持續(xù)上升,同時(shí)策略熵穩(wěn)定在合理區(qū)間,避免模式坍塌。這意味著 ReLaX 能在促進(jìn)探索的同時(shí),也順應(yīng) RL 對(duì)模型分布銳化以利用高價(jià)值信號(hào)的天然趨勢(shì)。

刷新多模態(tài)推理基準(zhǔn)新 SOTA

以 Qwen2.5-VL-Instruct 系列為基礎(chǔ)模型,ReLaX 在多模態(tài)推理任務(wù)上展現(xiàn)出顯著優(yōu)勢(shì):其 7B 規(guī)模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 與 EMMA 七大基準(zhǔn)上取得53.2% 的 mean@1 平均準(zhǔn)確率,刷新同尺度模型性能上限。與此同時(shí),3B 規(guī)模的 ReLaX-VL-3B 也展現(xiàn)出強(qiáng)勁競(jìng)爭(zhēng)力,其性能已可比甚至超越部分已有的 7B 級(jí)推理模型。



從 Token 到 Latent:推理與泛化能力的雙重提升

純文本數(shù)學(xué)推理:作為 RLVR 的核心應(yīng)用場(chǎng)景,數(shù)學(xué)推理一直是檢驗(yàn)方法有效性的 “主戰(zhàn)場(chǎng)”。作者以 Qwen2.5-base 與 Qwen2.5-Math 為基礎(chǔ)模型,將 ReLax 與多種基于 token 多樣性的方法進(jìn)行了系統(tǒng)對(duì)比。



實(shí)驗(yàn)結(jié)果顯示,在 Math500、Minerva、AMC22/23、AIME24/25 等六大數(shù)學(xué)推理基準(zhǔn)上,ReLaX 在相同訓(xùn)練設(shè)置下的平均性能穩(wěn)定超越基于 token 多樣性的方法。這一結(jié)果表明,相比直接干預(yù)輸出層多樣性,從 latent 動(dòng)力學(xué)出發(fā)調(diào)控模型探索與利用,能夠更高效地提升模型的推理能力。



進(jìn)一步地,作者將 ReLaX 擴(kuò)展至 Llama3.2-Instruct 與 Qwen3-base 等不同模型架構(gòu)上,依然取得一致性能提升,驗(yàn)證了該方法良好的可擴(kuò)展性與跨模型泛化能力。

多模態(tài)推理泛化:研究團(tuán)隊(duì)進(jìn)一步在多模態(tài)視覺(jué)-語(yǔ)言大模型上驗(yàn)證了 latent 層面探索相對(duì) token 層面探索的優(yōu)勢(shì)。具體而言,以 Qwen2.5-VL-3B 為基礎(chǔ)模型,在多個(gè)多模態(tài)推理基準(zhǔn)上,將 ReLaX與兩類代表性的 token-level 方法進(jìn)行對(duì)比:一類是直接將提升熵引入策略優(yōu)化目標(biāo)的 Entropy-Reg,另一類是通過(guò)協(xié)方差約束間接調(diào)控 token 熵的 KL-Cov。



實(shí)驗(yàn)結(jié)果給出了一個(gè)清晰的結(jié)論:ReLaX 在多模態(tài)推理任務(wù)上穩(wěn)定優(yōu)于兩類 token-level 方法。

具體來(lái)看,Entropy-Reg 并未帶來(lái)多模態(tài)推理能力的提升。相反,由于其在 token 層面顯式鼓勵(lì)不確定性,這種 “無(wú)約束” 的探索容易引入語(yǔ)義漂移,在多個(gè)基準(zhǔn)上甚至劣于原始 GRPO,表現(xiàn)出明顯的副作用。

相比之下,KL-Cov雖然帶來(lái)一定增益,但其效果具有明顯局限性:在 MathVista 等偏數(shù)學(xué)、幾何的任務(wù)上表現(xiàn)相對(duì)更好 —— 這些任務(wù)對(duì)視覺(jué)信息依賴較弱;而在更依賴視覺(jué)理解的任務(wù)(如 EMMA-Physics)中,ReLaX 的優(yōu)勢(shì)顯著擴(kuò)大(+7.7)。

這一現(xiàn)象揭示了關(guān)鍵問(wèn)題:僅在輸出層面促進(jìn)探索,難以有效影響多模態(tài)模型內(nèi)部的跨模態(tài)計(jì)算過(guò)程。 token-level 方法對(duì) latent 空間的作用有限,因此在需要深度視覺(jué)-文本融合的任務(wù)中難以泛化。

相比之下,ReLaX 直接作用于隱空間動(dòng)力學(xué),通過(guò)調(diào)控模型內(nèi)部計(jì)算的靈活性,更有效地激活跨模態(tài)信息交互,從而顯著提升對(duì)多模態(tài)輸入的理解能力。論文中的 qualitative case study 也進(jìn)一步驗(yàn)證了這一點(diǎn)。

未來(lái)展望:走向大模型內(nèi)在機(jī)制的 “深水區(qū)”

ReLaX 的意義并不止于性能提升,它更重要的價(jià)值在于提供了一種全新的視角去理解大模型推理過(guò)程中的計(jì)算本質(zhì)。

  • 相比直接 “擾動(dòng)” token 空間的概率,引導(dǎo)模型在隱空間中的動(dòng)態(tài)演化,是解決 “探索–利用” 權(quán)衡的一種更具原則性的路徑。未來(lái),我們對(duì)模型探索能力的理解,將不再局限于輸出層的不確定性。
  • 大模型的隱空間作為一片尚未被充分探索的 “藍(lán)?!?,正逐漸顯現(xiàn)出其作為研究前沿的核心價(jià)值。其中高維狀態(tài)所承載的豐富信息,刻畫(huà)了隱藏在表層文本輸出下的內(nèi)在計(jì)算過(guò)程,為我們理解模型行為并提升其能力提供了新的切入點(diǎn)。

ReLaX 只是一個(gè)起點(diǎn)。隨著我們不斷深入這一 “隱空間”,大模型或許將不再只是概率預(yù)測(cè)的工具,而是能夠在其豐富的內(nèi)部表征中進(jìn)行持續(xù)探索、自我修正,逐步演化出更接近 “認(rèn)知過(guò)程” 的推理能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國(guó)

三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國(guó)

面包夾知識(shí)
2026-04-11 17:27:37
美11艘航母全部出動(dòng),俄專家:僅一國(guó)可抗衡

美11艘航母全部出動(dòng),俄專家:僅一國(guó)可抗衡

春之寞陌
2026-04-10 06:22:02
李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

鞭牛士
2026-04-11 16:34:04
抵達(dá)北京!乒協(xié)出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發(fā)聲

抵達(dá)北京!乒協(xié)出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發(fā)聲

萌蘭聊個(gè)球
2026-04-12 13:00:43
歷史性突破!美國(guó)伊朗高層47年來(lái)第一次握手,革命衛(wèi)隊(duì)卻坐不住了

歷史性突破!美國(guó)伊朗高層47年來(lái)第一次握手,革命衛(wèi)隊(duì)卻坐不住了

三石記
2026-04-12 15:33:07
陶漢林頂薪即將到期!回應(yīng)今夏選擇:要么續(xù)約山東 要么退役

陶漢林頂薪即將到期!回應(yīng)今夏選擇:要么續(xù)約山東 要么退役

醉臥浮生
2026-04-12 11:10:48
臺(tái)灣前參謀總長(zhǎng)李喜明一席話,讓?shí)u內(nèi)炸鍋!

臺(tái)灣前參謀總長(zhǎng)李喜明一席話,讓?shí)u內(nèi)炸鍋!

安安說(shuō)
2026-04-12 10:42:11
網(wǎng)民反映路燈不亮、自來(lái)水發(fā)黃等問(wèn)題被威脅恐嚇?湖南桂東縣通報(bào)

網(wǎng)民反映路燈不亮、自來(lái)水發(fā)黃等問(wèn)題被威脅恐嚇?湖南桂東縣通報(bào)

新京報(bào)
2026-04-12 13:04:31
多家央企密集出售新能源資產(chǎn)!

多家央企密集出售新能源資產(chǎn)!

能見(jiàn)
2026-04-12 08:51:27
伊朗最高領(lǐng)袖被曝已經(jīng)毀容?或失去一條腿!已成以色列最害怕的人

伊朗最高領(lǐng)袖被曝已經(jīng)毀容?或失去一條腿!已成以色列最害怕的人

小祁談歷史
2026-04-12 16:46:21
超一億元!珠峰南坡發(fā)生騙保大案

超一億元!珠峰南坡發(fā)生騙保大案

中國(guó)新聞周刊
2026-04-12 11:28:09
巴基斯坦被激怒!出動(dòng)大量中械裝備,以色列若膽敢妄動(dòng),一律擊落

巴基斯坦被激怒!出動(dòng)大量中械裝備,以色列若膽敢妄動(dòng),一律擊落

小小科普員
2026-04-11 17:28:02
遲重瑞靈堂哭到崩潰,繼子很冷漠不戴白花,陳麗華葬禮藏何隱情?

遲重瑞靈堂哭到崩潰,繼子很冷漠不戴白花,陳麗華葬禮藏何隱情?

日落于西
2026-04-11 19:49:45
女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

特約前排觀眾
2026-02-09 00:05:05
停火簽了也白搭!85名議員聯(lián)手逼宮,要罷免特朗普,警告絕不姑息

?;鸷灹艘舶状?!85名議員聯(lián)手逼宮,要罷免特朗普,警告絕不姑息

說(shuō)歷史的老牢
2026-04-11 15:10:50
拒絕爆冷!溫瑞博3-1逆轉(zhuǎn)日本名將,太原賽這波贏得太提氣

拒絕爆冷!溫瑞博3-1逆轉(zhuǎn)日本名將,太原賽這波贏得太提氣

林子說(shuō)事
2026-04-11 18:11:48
人均600萬(wàn)到欠400億,毀掉"天下第一村"的不是別人,是他們自己

人均600萬(wàn)到欠400億,毀掉"天下第一村"的不是別人,是他們自己

聞香閣
2026-04-11 08:40:49
今年的蘇超,沒(méi)按劇本來(lái)

今年的蘇超,沒(méi)按劇本來(lái)

燕梳樓頻道
2026-04-12 14:18:31
跟伊朗?;鸷?,美國(guó)態(tài)度變了,提到特朗普訪華,直言要全力避戰(zhàn)

跟伊朗?;鸷?,美國(guó)態(tài)度變了,提到特朗普訪華,直言要全力避戰(zhàn)

大光觀察
2026-04-12 09:00:12
錢天一:幸福嘍!國(guó)乒最好命女神!嫁給羽壇貴公子王昶還考上博士

錢天一:幸福嘍!國(guó)乒最好命女神!嫁給羽壇貴公子王昶還考上博士

空樽對(duì)月花獨(dú)瘦
2026-04-12 13:57:57
2026-04-12 17:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯(cuò)

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯(cuò)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂(lè)要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
親子
本地
手機(jī)

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

藝術(shù)要聞

書(shū)法“初學(xué)者”如何選帖?這3大重點(diǎn)一定要牢牢記?。?/h3>

親子要聞

“孩子都8歲了 一定要分床睡”,醫(yī)生分享:如果孩子長(zhǎng)期不和家人分床,“會(huì)影響性格發(fā)育、情商發(fā)育 很難培養(yǎng)獨(dú)立性”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

蘋(píng)果贏麻了!iPhone 17國(guó)內(nèi)銷量突破2721萬(wàn)臺(tái):Pro Max成最大功臣

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版