別再讓大模型“想太多”！最新研究揭示 LLM 推理效率的關(guān)鍵瓶頸

2026-03-10 19:10:08　來源: 機(jī)器之心Pro

河北舉報

分享至

一、前言：LLM 推理很強，

但 “想多想少” 一直是個問題

近年來，大語言模型在數(shù)學(xué)推理、指令跟隨、智能規(guī)劃等任務(wù)上取得了驚人的進(jìn)展，展現(xiàn)出 “會思考” 的強大能力。然而，當(dāng)這些模型真正走向落地部署時，一個越來越現(xiàn)實的問題逐漸浮出水面：推理的計算成本正在失控。

在很多看似簡單的問題上，模型常常 “想太多”—— 生成冗長、發(fā)散的推理鏈條，反復(fù)兜圈，卻并沒有帶來更好的答案。這種現(xiàn)象被我們稱為過度思考（Overthinking）

而在真正復(fù)雜、需要精細(xì)推理的問題上，模型又可能因為推理預(yù)算受限而匆忙作答，關(guān)鍵步驟一帶而過，導(dǎo)致答案錯誤，這正是思考不足（Underthinking）

現(xiàn)有的主流做法，往往是通過統(tǒng)一縮短推理 token 上限來 “節(jié)省算力”。這種方法雖然簡單直接，卻相當(dāng)于在不知道題目難度的情況下強行縮短考試時間：確實能防止模型無限 “胡思亂想”，但代價是 —— 在真正需要深度思考的問題上，準(zhǔn)確率明顯下降，尤其是在復(fù)雜推理任務(wù)中表現(xiàn)得尤為突出。

問題的本質(zhì)并不在于算力多少，而在于算力用在了哪里。

論文標(biāo)題：Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models
論文鏈接：https://arxiv.org/abs/2505.16122
代碼鏈接：https://github.com/junhongmit/P-and-B

二、核心洞察：

推理失衡（Reasoning Miscalibration）才是根源

為弄清楚問題究竟出在哪里，研究團(tuán)隊系統(tǒng)分析了多種主流推理模型（DeepSeek R1, QwQ, OpenAI o4-mini 等）在不同推理任務(wù)中的行為模式，并提出了一個統(tǒng)一而關(guān)鍵的觀察：

大語言模型在推理階段普遍存在一種 “推理失衡（Reasoning Miscalibration）” 現(xiàn)象 —— 模型投入的計算資源，往往與問題在不同推理階段的真實難度并不匹配。

具體來說，模型常常在不那么關(guān)鍵的步驟上反復(fù)思考，而在真正決定成敗的關(guān)鍵步驟上卻一帶而過。這種 “該多想的地方?jīng)]多想、不該多想的地方反而想太久” 的現(xiàn)象，正是導(dǎo)致過度思考與思考不足并存的根本原因。

進(jìn)一步分析發(fā)現(xiàn)，這種推理失衡與模型在推理過程中不確定性的動態(tài)變化密切相關(guān)：

在推理的早期階段，模型往往面臨更高的認(rèn)知不確定性（例如需要判斷整體思路、選擇解題路徑），這些步驟對最終答案影響巨大，值得投入更多計算資源；
而隨著推理逐步展開，許多后續(xù)步驟其實已經(jīng)較為確定，此時繼續(xù)生成冗長的推理文本，往往邊際收益迅速下降，甚至可能引入新的錯誤。

這一發(fā)現(xiàn)揭示了一個重要事實：

推理效率的關(guān)鍵，不在于總共用了多少 token，而在于這些 token 被用在了哪一步。

也正是在這一洞察之上，論文進(jìn)一步提出了如何 “按需分配” 推理計算的理論模型與算法框架。

三、理論突破：

BAM—— 不確定性驅(qū)動的計算分配模型

既然問題出在推理階段的算力分配失衡，一個自然的想法是：

我們能不能像考試一樣，更合理地分配 “思考時間”？

1）一個直觀的考試類比

想象你在做一道綜合大題。在一開始，你往往會花不少時間去：

理解題目在問什么
分析條件之間的關(guān)系
構(gòu)思整體解題思路

這個階段充滿不確定性，如果沒想清楚，后面算得再快也可能全錯。但一旦

每一步都很確定
再花太多時間，收益其實不大

這正是推理過程中不確定性變化的真實寫照。

2）BAM 的核心思想：用 “不確定性” 指導(dǎo)算力分配

基于這一觀察，論文提出了BAM（Budget Allocation Model），將一次 LLM 推理看成由多個子問題（sub-questions）組成的過程，并用一個關(guān)鍵概念來指導(dǎo)預(yù)算分配 ——認(rèn)知不確定性（epistemic uncertainty）。認(rèn)知不確定性刻畫的是：

“在這一步，多想一點，是否真的能讓模型理解得更清楚？”

在理論上，我們借鑒了神經(jīng)網(wǎng)絡(luò)縮放定律的思想，用一個簡潔的模型來描述token 數(shù)量與不確定性降低之間的關(guān)系

這個公式可以直觀地理解為：

bij 表示分配給某個子問題的推理 token（也就是思考時間）
分配的 token 越多，不確定性確實會下降
但下降速度會越來越慢，存在明顯的邊際收益遞減

也就是說，前幾個 token 非常 “值錢”，而后面的 token 往往越來越 “劃不來”。這正是為什么簡單地拉長推理鏈條，并不能無限提升推理效果。

3）在總預(yù)算有限的情況下，token 應(yīng)該怎么分？

有了上述建模，BAM 進(jìn)一步提出了一個明確的問題：在總推理預(yù)算有限的前提下，如何把 token 分配給不同的子問題，才能讓整體推理最有效？

通過優(yōu)化整體不確定性，論文推導(dǎo)出了一個最優(yōu)預(yù)算分配原則：

這條公式背后的含義，其實非常 “人性化”：推理預(yù)算應(yīng)該更多分配給那些一開始不確定性高、但又確實能通過思考被有效消除的步驟。

回到考試的類比：

分值高、靠想能拿分的題 —— 值得多花時間
已經(jīng)很確定的計算步驟 —— 快速完成即可
怎么想也想不明白的題 —— 及時止損，避免浪費時間

BAM 的核心思想可以用一句話概括：

像考試分配答題時間一樣，把推理算力用在 “想明白思路” 的階段，而不是平均或盲目地拉長整個推理過程。

四、Plan-and-Budget：

讓理論真正落地的推理框架

基于 BAM 的理論原則，研究團(tuán)隊進(jìn)一步提出了Plan-and-Budget—— 一個完全在推理階段運行、無需任何訓(xùn)練或微調(diào)的通用推理框架。它的目標(biāo)很明確：在不改變模型本身的前提下，讓推理算力用在最關(guān)鍵的地方。

整個框架可以概括為兩個步驟：先規(guī)劃，再分配。

① Plan：先把 “大題” 拆清楚

在推理開始前，Plan-and-Budget 會先對原始問題進(jìn)行一次高層次的規(guī)劃（planning），將復(fù)雜問題拆解為一系列結(jié)構(gòu)化的子問題。

這一步的作用并不是讓模型 “想得更長”，而是想得更有方向

明確每一步在整體推理中的角色
避免在無關(guān)分支上反復(fù)探索
把 “思考路徑” 從一開始就理順

直觀來說，這相當(dāng)于考試時先寫草稿、定解題思路，而不是一上來就開始亂算。

② Budget：把 token 用在 “最值錢” 的步驟上

在完成規(guī)劃之后，Plan-and-Budget并不會給每個子問題平均分配推理 token，而是采用一種前置衰減（decay-based）的預(yù)算分配策略（當(dāng)然，也支持按照問題類型靈活采用其他預(yù)算分配策略）。

這種策略的核心思想是：

推理早期步驟不確定性更高，對最終答案影響更大
推理后期步驟往往更確定，繼續(xù)長篇推理的邊際收益較低

因此，框架會：

在前幾個關(guān)鍵子問題上分配更多 token
隨著推理推進(jìn)，逐步減少每一步的推理預(yù)算

這正是在實踐中對 BAM 最優(yōu)分配原則的一種近似實現(xiàn)。

五、實驗結(jié)果：

不僅更準(zhǔn)，還更 “算得值”

前面的理論和算法，最終都要回到一個現(xiàn)實問題：

Plan-and-Budget 到底有沒有在 “省算力” 的同時，真正提升推理質(zhì)量？

1）先看一個直觀對比：不同難度題目的表現(xiàn)

下圖展示了在 TravelPlanner 任務(wù)中，不同方法在簡單 / 中等 / 困難三種問題難度下的通過率（Pass Rate）對比：

這張圖里有一個非常值得注意的現(xiàn)象：

Global Budget（全局限制 token）在所有難度上都明顯降低了通過率 —— 尤其是在中等和困難問題上，性能下降最為明顯
這說明：單純縮短推理過程，確實會 “省 token”，但往往是以犧牲正確性為代價的

相比之下，Plan-and-Budget 在三個難度級別上都取得了最高的通過率

簡單問題：避免了無意義的 “過度思考”
中等問題：在關(guān)鍵步驟上給足思考空間
困難問題：顯著優(yōu)于全局 budget 方法，體現(xiàn)出結(jié)構(gòu)化推理的優(yōu)勢

2）關(guān)鍵不只在 “對不對”，還在 “花了多少 token”

更重要的是，Plan-and-Budget 的提升并不是靠 “多用算力” 換來的。從圖例中可以看到：

在通過率更高的同時，Plan-and-Budget 的平均 token 使用量反而更低
這說明：結(jié)構(gòu)化規(guī)劃 + 局部預(yù)算分配，真的把算力用在了最關(guān)鍵的地方

也正是因為這個原因，論文認(rèn)為：僅用準(zhǔn)確率或 token 數(shù)量來評價推理方法，都是不夠全面的。

3）E3 指標(biāo)：把 “準(zhǔn)確” 和 “高效” 統(tǒng)一到一個量里

為更客觀地衡量推理方法在真實部署中的價值，論文提出了E3（Efficiency-aware Effectiveness Score）指標(biāo)。E3 的設(shè)計初衷非常簡單：獎勵 “用更少的 token，得到同樣甚至更好答案” 的方法，懲罰 “靠犧牲準(zhǔn)確率或盲目堆算力” 的策略。

在 E3 指標(biāo)下，一些 “強行限制推理長度、但正確率明顯下降” 的方法會自然處于劣勢；而像 Plan-and-Budget 這樣，在保持甚至提升準(zhǔn)確率的同時降低計算成本的方法，則會被清晰地凸顯出來。

4）結(jié)果總結(jié)：為什么這些數(shù)字很重要？

綜合多種推理任務(wù)（數(shù)學(xué)推理 Mathematical Reasoning，指令理解與執(zhí)行 Instruction Following，以及規(guī)劃與決策推理 Agentic Planning）和模型規(guī)模，Plan-and-Budget 帶來了非常穩(wěn)定的收益：

最高+70%的準(zhǔn)確率提升
最高?39%的 token 使用量減少
E3 指標(biāo)最高提升193.8%

這些結(jié)果共同表明：Plan-and-Budget 并不是 “算得少一點”，而是 “算得更聰明”。

六、意義與展望：

推理不該是 “算力堆出來的”

隨著大語言模型規(guī)模不斷擴(kuò)大，推理能力的提升似乎越來越依賴于 “多用一點算力”。然而，這項工作傳遞了一個不同的信號：推理效果的關(guān)鍵，并不只在于算力多少，而在于算力是否被合理使用。

Plan-and-Budget 從 “推理失衡” 這一普遍但長期被忽視的問題出發(fā)，通過不確定性視角建立理論模型，并進(jìn)一步將其落地為一個無需訓(xùn)練、僅在推理階段運行的通用框架。實驗結(jié)果表明，合理的推理規(guī)劃與預(yù)算分配，能夠在多種任務(wù)和模型上同時提升準(zhǔn)確率與計算效率，甚至讓中等規(guī)模模型在效率上逼近更大模型。

更重要的是，這項研究提出了一種新的推理范式：從 “推理長度” 轉(zhuǎn)向 “推理價值”，從 “算得更多” 轉(zhuǎn)向 “算得更聰明”。

在未來，隨著 LLM 被部署到越來越多對成本、時延和穩(wěn)定性要求嚴(yán)格的真實場景中，這種 “按需推理” 的思想，或?qū)⒊蔀楦咝?、可控智能系統(tǒng)的重要基礎(chǔ)。

當(dāng)模型學(xué)會 “什么時候該多想，什么時候該收手”，

推理，才真正開始變得成熟。

作者信息：

Junhong Lin（林俊宏），麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室（MIT CSAIL）博士研究生，研究方向包括大語言模型推理、圖神經(jīng)網(wǎng)絡(luò)與知識圖譜。其成果發(fā)表于 ICLR、ICML、NeurIPS、KDD、ICAIF 等國際頂級會議，并獲得 ACM KDD Best Paper Award 與 ICAIF Best Paper Honorary Mention。研究聚焦于提升大模型在推理效率與可靠性方面的理論建模與系統(tǒng)實踐。

Xinyue Zeng (曾欣悅), Virginia Tech VLOG lab 二年級 PhD，研究方向包括大語言模型推理穩(wěn)定性和可靠性，相關(guān)成果發(fā)表于 ICML，ICLR，ICDM 等等國際頂級會議。目前致力于構(gòu)建可解釋、可部署的 LLM 評估與推理方法。將于今年暑假以研究實習(xí)生的身份加入微軟研究院實習(xí)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.