国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

又一推理新范式:將LLM自身視作改進(jìn)操作符,突破長(zhǎng)思維鏈極限

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

推理訓(xùn)練促使大語(yǔ)言模型(LLM)生成長(zhǎng)思維鏈(long CoT),這在某些方面有助于它們探索解決策略并進(jìn)行自我檢查。雖然這種方式提高了準(zhǔn)確性,但也增加了上下文長(zhǎng)度、token / 計(jì)算成本和答案延遲。

因此,問(wèn)題來(lái)了:當(dāng)前的模型能否利用其元認(rèn)知能力,在這一帕累托前沿上提供其他組合策略,例如在降低上下文長(zhǎng)度和 / 或延遲的情況下提高準(zhǔn)確性?

帶著這一問(wèn)題,Meta 超級(jí)智能實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院、Mila、Anthropic 等機(jī)構(gòu)的研究者進(jìn)行了探索。從抽象層面來(lái)看,他們將 LLM 視為其「思維」的改進(jìn)操作符,實(shí)現(xiàn)一系列可能的策略。



  • 論文標(biāo)題:Rethinking Thinking Tokens: LLMs as Improvement Operators
  • 論文地址:https://arxiv.org/pdf/2510.01123

研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉(Parallel-Distill-Refine, PDR),該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個(gè)有限的文本工作區(qū);(iii) 在此工作區(qū)的基礎(chǔ)上進(jìn)行精煉,生成的輸出將作為下一輪的種子。重要的是,通過(guò)調(diào)整并行度,PDR 能夠控制上下文長(zhǎng)度(從而控制計(jì)算成本),并且上下文長(zhǎng)度不再與生成 token 的總數(shù)混淆。

根據(jù)當(dāng)前模型在 PDR 實(shí)例中的應(yīng)用,它們?cè)跍?zhǔn)確性上優(yōu)于長(zhǎng)思維鏈,同時(shí)延遲更低。當(dāng)將并行度設(shè)置為 1 時(shí),得到一個(gè)特例 ——順序精煉(Sequential Refinement, SR)(即迭代改進(jìn)單一候選答案),其表現(xiàn)優(yōu)于長(zhǎng)思維鏈(代價(jià)是更高的延遲)。

這種模型組織的成功引申了一個(gè)問(wèn)題:進(jìn)一步的訓(xùn)練是否能夠改變帕累托前沿?為此,研究者訓(xùn)練了一個(gè) 8B 規(guī)模的思考模型,使用強(qiáng)化學(xué)習(xí)(RL)使其與 PDR 推理方法保持一致。

在具有可驗(yàn)證答案的數(shù)學(xué)任務(wù)中,迭代 pipeline 在匹配的順序預(yù)算下超越了單次推理基準(zhǔn),并且 PDR 方法帶來(lái)了最大的提升,在 AIME 2024 和 AIME 2025 數(shù)學(xué)任務(wù)中,準(zhǔn)確率分別提高了 11% 和 9%。

LLM 作為改進(jìn)操作符

研究者考慮任務(wù) x(例如數(shù)學(xué)問(wèn)題),目標(biāo)是在給定的 token 預(yù)算下生成高質(zhì)量的最終成果 s_final(解答、證明或程序)。設(shè) M_θ 為一個(gè)(可以凍結(jié)或訓(xùn)練的)大語(yǔ)言模型(LLM),并作為改進(jìn)操作符。給定當(dāng)前的成果 s_t(單次生成或一組生成結(jié)果)和緊湊的文本工作區(qū) C_t,模型會(huì)提出一個(gè)改進(jìn)方案:



讀寫壓縮循環(huán)。每個(gè)步驟:(i) 讀取當(dāng)前工作區(qū) C_t,(ii) 通過(guò) M_θ 寫出改進(jìn)后的成果 s_t+1,(iii) 使用綜合操作符 D 將成果壓縮回一個(gè)有限的工作區(qū),為下一個(gè)步驟做準(zhǔn)備。



token 預(yù)算。研究者在以下兩個(gè)預(yù)算下評(píng)估每種方法:



操作符實(shí)例化

研究者探究了以下兩種短上下文的迭代精煉流程。

一是順序精煉(SR,單一候選的深度改進(jìn))。

對(duì)于所有 t,設(shè)置 C_t ≡ ? ,并且迭代改進(jìn)單一成果進(jìn)行 R 輪:



順序精煉與緊湊工作區(qū)。在 SR 中,不提供顯式的工作區(qū)。研究者還評(píng)估了一種變體,在每一輪之間插入錯(cuò)誤分析步驟:模型不會(huì)直接改進(jìn)之前的答案,而是首先識(shí)別并解釋當(dāng)前解答中的缺陷,然后生成修訂后的解答。這些筆記在每一輪中充當(dāng)一個(gè)暫時(shí)的、局部的工作區(qū)。

二是并行 - 蒸餾 - 精煉(PDR,每輪工作區(qū))。

研究者不保持持久的記憶。相反,對(duì)于每一輪 r = 1, . . . , R,基于當(dāng)前的有限摘要采樣 M_r 個(gè)草稿(并行),然后重新綜合(蒸餾)出一個(gè)新的有限摘要供下一輪使用:



在最后一輪強(qiáng)制執(zhí)行單次生成 M_R = 1,此生成結(jié)果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的,早期文本不會(huì)被重播,防止了每次調(diào)用時(shí)上下文的增長(zhǎng)。

另外,研究者考慮了蒸餾操作符 D 的幾種實(shí)際實(shí)例化方式:

  • 全局摘要
  • 提取性 top-k 證據(jù)(共享)
  • random-k / 自舉工作區(qū)

最后是操作符一致性訓(xùn)練。前文將 M_θ 視為凍結(jié),并純粹依賴于提示 / 調(diào)度?,F(xiàn)在,研究者通過(guò)在與測(cè)試時(shí)相同的短上下文迭代接口下優(yōu)化模型,確保訓(xùn)練與部署 / 推理的一致性。

基礎(chǔ)算法。對(duì)于基準(zhǔn)強(qiáng)化學(xué)習(xí)(RL),研究者使用來(lái)自 Minimax-M1 的 CISPO 目標(biāo)。對(duì)于給定的提示 x,生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個(gè)回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動(dòng)化檢查器被用來(lái)為每個(gè)回合分配標(biāo)量獎(jiǎng)勵(lì) r_i(±1)。CISPO 將 GRPO 的組歸一化優(yōu)勢(shì)與 REINFORCE 結(jié)合起來(lái),達(dá)到以下目標(biāo)。



為什么 PDR 訓(xùn)練時(shí)只進(jìn)行一輪?研究者表示,進(jìn)行單一的 PDR 回合(包括 M 個(gè)早期草稿,蒸餾為 C,以及單次精煉)可以捕捉到關(guān)鍵的接口,同時(shí)控制 B_total 并穩(wěn)定強(qiáng)化學(xué)習(xí)。在推理時(shí),則可以使用相同的操作符運(yùn)行多個(gè)回合(R > 1)。

本文的數(shù)據(jù)混合方法在保留長(zhǎng)軌跡能力的同時(shí),教會(huì)模型在短迭代中進(jìn)行推理。PDR 被模擬為一次并行→蒸餾→精煉回合,在該過(guò)程中,模型觀察 (x, C),并對(duì)最終解答軌跡進(jìn)行可驗(yàn)證獎(jiǎng)勵(lì)優(yōu)化。

實(shí)驗(yàn)結(jié)果

在預(yù)算感知協(xié)議下,研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長(zhǎng)思維鏈(CoT)基準(zhǔn)進(jìn)行了比較。他們使用符號(hào)驗(yàn)證器(如 sympy 和 math-verify) 來(lái)測(cè)量準(zhǔn)確性,還將結(jié)果報(bào)告為順序預(yù)算 B_seq(沿著接受路徑的延遲代理)和總預(yù)算 B_total(所有調(diào)用的 token 數(shù))的函數(shù)。

研究者對(duì) SR 和 PDR 作為推理時(shí)操作符應(yīng)用于數(shù)學(xué)問(wèn)題進(jìn)行了評(píng)估。給定一個(gè)提示 x,模型生成一個(gè)思維軌跡和最終解答。思維跨度由 「...」限定,去除后僅使用自包含的解答作為后續(xù)回合輸入的構(gòu)建。他們?cè)?AIME 2024 和 AIME 2025(AoPS,2025)上進(jìn)行評(píng)估,并報(bào)告在 16 次獨(dú)立生成中的準(zhǔn)確率 - mean@16。

通過(guò)實(shí)驗(yàn),研究者試圖回答以下四個(gè)研究問(wèn)題:

  • RQ1:短上下文迭代是否能通過(guò)比較 {SR, PDR} 與長(zhǎng)軌跡 CoT,在匹配的 B_seq 和 B_total 下超越長(zhǎng)軌跡?
  • RQ2:通過(guò)比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉,找出生成 C^(r) 的最佳蒸餾策略。
  • RQ3:識(shí)別給定模型的驗(yàn)證能力對(duì)最終性能的影響。
  • RQ4:操作符一致性訓(xùn)練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)與標(biāo)準(zhǔn)單軌跡強(qiáng)化學(xué)習(xí)。

RQ1:短上下文迭代是否在匹配延遲的情況下超越長(zhǎng)軌跡?

圖 3 和圖 9 報(bào)告了在相同有效 token 預(yù)算 Bseq 下,AIME 2024 和 AIME 2025 上的準(zhǔn)確性。研究者觀察到,從長(zhǎng)思維鏈(Long CoT)轉(zhuǎn)到順序精煉(SR)時(shí),準(zhǔn)確性穩(wěn)定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時(shí),這一提升繼續(xù)。

對(duì)于 o3-mini,在有效預(yù)算為 49k token、每次調(diào)用思維預(yù)算為 16k token 時(shí),準(zhǔn)確性從 76.9(長(zhǎng)鏈推理)提升至 81.5(SR)和 86.7(PDR),相較長(zhǎng)思維鏈,絕對(duì)值提升了 +9.8 個(gè)百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini,表明 gemini-2.5-flash 在自我驗(yàn)證方面更強(qiáng)。





RQ2:哪種蒸餾(即摘要)策略效果最佳?

表 2 研究了在固定輪次(每輪生成次數(shù)為 g = [16, 8, 4])和每輪 k = 2 個(gè)候選的設(shè)置下,PDR 中的蒸餾操作符 D。

在不同數(shù)據(jù)集和基礎(chǔ)模型上,樣本級(jí)的 top-k 和全局摘要選擇一致性優(yōu)于共享 top-k 和 random-k,并且隨著思維預(yù)算 B 的增加,差距逐漸擴(kuò)大。

主要的例外是 AIME 2025 與 o3-mini 的情況,其中全局摘要優(yōu)于其他方法。研究者推測(cè),o3-mini 的摘要特別擅長(zhǎng)從正確和錯(cuò)誤的草稿中捕捉線索,而這些線索在蒸餾后會(huì)促使更強(qiáng)的后續(xù)精煉。



RQ3:驗(yàn)證能力如何影響推理時(shí)間性能?

從圖 6 和圖 8 中,研究者觀察到注入錯(cuò)誤候選(Oracle (Incorrect))會(huì)導(dǎo)致所有模型的性能大幅下降。對(duì)于 o3-mini,性能下降顯著大于 gemini-2.5-flash,這表明后者具有更強(qiáng)的自我驗(yàn)證和恢復(fù)能力。這一趨勢(shì)在 AIME 2024 和 AIME 2025 中都得到了體現(xiàn)。





RQ4:操作符一致性訓(xùn)練是否推動(dòng)了帕累托前沿的移動(dòng)?

表 3 總結(jié)了主要結(jié)果。從每個(gè)強(qiáng)化學(xué)習(xí)(RL)目標(biāo)得到的模型分別在長(zhǎng)思維鏈(Long CoT)生成和 PDR 上進(jìn)行了評(píng)估。PDR 強(qiáng)化學(xué)習(xí)相比基準(zhǔn)方法在 AIME 2024 上提升了 +3.34 個(gè)百分點(diǎn),在 AIME 2025 上提升了 +1.67 個(gè)百分點(diǎn)。

從基準(zhǔn) RL 檢查點(diǎn)開(kāi)始的持續(xù)更新,使得額外的 PDR 強(qiáng)化學(xué)習(xí)帶來(lái)了更大的提升,分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個(gè)百分點(diǎn)。此外,研究者還觀察到,在 PDR RL 訓(xùn)練下,長(zhǎng)思維鏈生成也有一定的增益。

這些結(jié)果表明,使用操作符一致性的強(qiáng)化學(xué)習(xí)目標(biāo)進(jìn)行訓(xùn)練減少了訓(xùn)練與部署之間的不匹配,將額外的計(jì)算轉(zhuǎn)化為準(zhǔn)確性,而不會(huì)增加每次調(diào)用的順序預(yù)算。



更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗最大的內(nèi)鬼浮出水面!

伊朗最大的內(nèi)鬼浮出水面!

仰望星空的一粒沙子
2026-03-01 22:29:18
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬(wàn)噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬(wàn)噸燃油被點(diǎn)燃

書(shū)紀(jì)文譚
2026-03-01 23:26:27
美以空襲伊朗,阿拉伯國(guó)家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級(jí)為全面地區(qū)戰(zhàn)爭(zhēng)的時(shí)刻”

美以空襲伊朗,阿拉伯國(guó)家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級(jí)為全面地區(qū)戰(zhàn)爭(zhēng)的時(shí)刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財(cái)聯(lián)社
2026-03-02 01:29:13
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
“反詐老陳”賬號(hào)被封,本人回應(yīng):?jiǎn)栃臒o(wú)愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號(hào)被封,本人回應(yīng):?jiǎn)栃臒o(wú)愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

都市快報(bào)橙柿互動(dòng)
2026-03-01 07:15:47
20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場(chǎng)

20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場(chǎng)

眼界縱橫
2026-03-01 21:50:28
網(wǎng)友預(yù)測(cè)明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒(méi)給英偉達(dá)權(quán)限,選擇與華為合作

網(wǎng)友預(yù)測(cè)明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒(méi)給英偉達(dá)權(quán)限,選擇與華為合作

風(fēng)向觀察
2026-03-01 17:11:32
女單頒獎(jiǎng)!王曼昱領(lǐng)獎(jiǎng)杯開(kāi)心,孫穎莎獲全程歡呼,展可愛(ài)一幕!

女單頒獎(jiǎng)!王曼昱領(lǐng)獎(jiǎng)杯開(kāi)心,孫穎莎獲全程歡呼,展可愛(ài)一幕!

籃球資訊達(dá)人
2026-03-01 20:51:07
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩(shī)話
2026-03-01 18:08:52
美國(guó)2個(gè)月內(nèi)悍然對(duì)兩國(guó)領(lǐng)導(dǎo)人發(fā)動(dòng)襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個(gè)會(huì)是誰(shuí)?專家:有可能是古巴

美國(guó)2個(gè)月內(nèi)悍然對(duì)兩國(guó)領(lǐng)導(dǎo)人發(fā)動(dòng)襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個(gè)會(huì)是誰(shuí)?專家:有可能是古巴

極目新聞
2026-03-01 15:07:54
中國(guó)演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

中國(guó)演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

上觀新聞
2026-03-01 17:25:04
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
近期,一名中國(guó)男子去泰國(guó)玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國(guó)男子去泰國(guó)玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長(zhǎng)
2026-03-01 14:38:25
外媒稱哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒(méi)躲避?為何能精準(zhǔn)定位?

外媒稱哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒(méi)躲避?為何能精準(zhǔn)定位?

之乎者也小魚(yú)兒
2026-03-01 11:44:00
暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

界面新聞
2026-03-01 10:11:27
A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

夜深愛(ài)雜談
2026-03-01 19:34:36
哈梅內(nèi)伊:舊時(shí)代的最后一個(gè)獨(dú)裁者

哈梅內(nèi)伊:舊時(shí)代的最后一個(gè)獨(dú)裁者

黔有虎
2026-03-01 19:08:14
全線拉升!剛剛,超10萬(wàn)人爆倉(cāng)!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

全線拉升!剛剛,超10萬(wàn)人爆倉(cāng)!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

每日經(jīng)濟(jì)新聞
2026-03-01 19:40:50
2026-03-02 06:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
親子
旅游
公開(kāi)課
軍事航空

本地新聞

津南好·四時(shí)總相宜

親子要聞

帶娃看醫(yī)生,聽(tīng)懂這幾句話少走90%彎路!

旅游要聞

春雨落瘦西湖,梅花一開(kāi),才是江南真春天!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版