国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別再讓大模型“想太多”!最新研究揭示 LLM 推理效率的關(guān)鍵瓶頸

0
分享至



一、前言:LLM 推理很強,

但 “想多想少” 一直是個問題

近年來,大語言模型在數(shù)學(xué)推理、指令跟隨、智能規(guī)劃等任務(wù)上取得了驚人的進(jìn)展,展現(xiàn)出 “會思考” 的強大能力。然而,當(dāng)這些模型真正走向落地部署時,一個越來越現(xiàn)實的問題逐漸浮出水面:推理的計算成本正在失控。

在很多看似簡單的問題上,模型常常 “想太多”—— 生成冗長、發(fā)散的推理鏈條,反復(fù)兜圈,卻并沒有帶來更好的答案。這種現(xiàn)象被我們稱為過度思考(Overthinking)

而在真正復(fù)雜、需要精細(xì)推理的問題上,模型又可能因為推理預(yù)算受限而匆忙作答,關(guān)鍵步驟一帶而過,導(dǎo)致答案錯誤,這正是思考不足(Underthinking)

現(xiàn)有的主流做法,往往是通過統(tǒng)一縮短推理 token 上限來 “節(jié)省算力”。這種方法雖然簡單直接,卻相當(dāng)于在不知道題目難度的情況下強行縮短考試時間:確實能防止模型無限 “胡思亂想”,但代價是 —— 在真正需要深度思考的問題上,準(zhǔn)確率明顯下降,尤其是在復(fù)雜推理任務(wù)中表現(xiàn)得尤為突出。

問題的本質(zhì)并不在于算力多少,而在于算力用在了哪里。





  • 論文標(biāo)題:Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models
  • 論文鏈接:https://arxiv.org/abs/2505.16122
  • 代碼鏈接:https://github.com/junhongmit/P-and-B

二、核心洞察:

推理失衡(Reasoning Miscalibration)才是根源

為弄清楚問題究竟出在哪里,研究團(tuán)隊系統(tǒng)分析了多種主流推理模型(DeepSeek R1, QwQ, OpenAI o4-mini 等)在不同推理任務(wù)中的行為模式,并提出了一個統(tǒng)一而關(guān)鍵的觀察:

大語言模型在推理階段普遍存在一種 “推理失衡(Reasoning Miscalibration)” 現(xiàn)象 —— 模型投入的計算資源,往往與問題在不同推理階段的真實難度并不匹配。

具體來說,模型常常在不那么關(guān)鍵的步驟上反復(fù)思考,而在真正決定成敗的關(guān)鍵步驟上卻一帶而過。這種 “該多想的地方?jīng)]多想、不該多想的地方反而想太久” 的現(xiàn)象,正是導(dǎo)致過度思考與思考不足并存的根本原因。

進(jìn)一步分析發(fā)現(xiàn),這種推理失衡與模型在推理過程中不確定性的動態(tài)變化密切相關(guān):

  • 在推理的早期階段,模型往往面臨更高的認(rèn)知不確定性(例如需要判斷整體思路、選擇解題路徑),這些步驟對最終答案影響巨大,值得投入更多計算資源;
  • 而隨著推理逐步展開,許多后續(xù)步驟其實已經(jīng)較為確定,此時繼續(xù)生成冗長的推理文本,往往邊際收益迅速下降,甚至可能引入新的錯誤。

這一發(fā)現(xiàn)揭示了一個重要事實:

推理效率的關(guān)鍵,不在于總共用了多少 token,而在于這些 token 被用在了哪一步。

也正是在這一洞察之上,論文進(jìn)一步提出了如何 “按需分配” 推理計算的理論模型與算法框架。

三、理論突破:

BAM—— 不確定性驅(qū)動的計算分配模型

既然問題出在推理階段的算力分配失衡,一個自然的想法是:

我們能不能像考試一樣,更合理地分配 “思考時間”?

1)一個直觀的考試類比

想象你在做一道綜合大題。在一開始,你往往會花不少時間去:

  • 理解題目在問什么
  • 分析條件之間的關(guān)系
  • 構(gòu)思整體解題思路

這個階段充滿不確定性,如果沒想清楚,后面算得再快也可能全錯。但一旦

  • 每一步都很確定
  • 再花太多時間,收益其實不大

這正是推理過程中不確定性變化的真實寫照。

2)BAM 的核心思想:用 “不確定性” 指導(dǎo)算力分配

基于這一觀察,論文提出了BAM(Budget Allocation Model),將一次 LLM 推理看成由多個子問題(sub-questions)組成的過程,并用一個關(guān)鍵概念來指導(dǎo)預(yù)算分配 ——認(rèn)知不確定性(epistemic uncertainty)。認(rèn)知不確定性刻畫的是:

“在這一步,多想一點,是否真的能讓模型理解得更清楚?”

在理論上,我們借鑒了神經(jīng)網(wǎng)絡(luò)縮放定律的思想,用一個簡潔的模型來描述token 數(shù)量與不確定性降低之間的關(guān)系



這個公式可以直觀地理解為:

  • bij 表示分配給某個子問題的推理 token(也就是思考時間)
  • 分配的 token 越多,不確定性確實會下降
  • 但下降速度會越來越慢,存在明顯的邊際收益遞減

也就是說,前幾個 token 非常 “值錢”,而后面的 token 往往越來越 “劃不來”。這正是為什么簡單地拉長推理鏈條,并不能無限提升推理效果。

3)在總預(yù)算有限的情況下,token 應(yīng)該怎么分?

有了上述建模,BAM 進(jìn)一步提出了一個明確的問題: 在總推理預(yù)算有限的前提下,如何把 token 分配給不同的子問題,才能讓整體推理最有效?

通過優(yōu)化整體不確定性,論文推導(dǎo)出了一個最優(yōu)預(yù)算分配原則:

這條公式背后的含義,其實非常 “人性化”:推理預(yù)算應(yīng)該更多分配給那些一開始不確定性高、但又確實能通過思考被有效消除的步驟。

回到考試的類比:

  • 分值高、靠想能拿分的題 —— 值得多花時間
  • 已經(jīng)很確定的計算步驟 —— 快速完成即可
  • 怎么想也想不明白的題 —— 及時止損,避免浪費時間

BAM 的核心思想可以用一句話概括:

像考試分配答題時間一樣,把推理算力用在 “想明白思路” 的階段,而不是平均或盲目地拉長整個推理過程。

四、Plan-and-Budget:

讓理論真正落地的推理框架

基于 BAM 的理論原則,研究團(tuán)隊進(jìn)一步提出了Plan-and-Budget—— 一個完全在推理階段運行、無需任何訓(xùn)練或微調(diào)的通用推理框架。它的目標(biāo)很明確:在不改變模型本身的前提下,讓推理算力用在最關(guān)鍵的地方。

整個框架可以概括為兩個步驟:先規(guī)劃,再分配。

① Plan:先把 “大題” 拆清楚

在推理開始前,Plan-and-Budget 會先對原始問題進(jìn)行一次高層次的規(guī)劃(planning),將復(fù)雜問題拆解為一系列結(jié)構(gòu)化的子問題。

這一步的作用并不是讓模型 “想得更長”,而是想得更有方向

  • 明確每一步在整體推理中的角色
  • 避免在無關(guān)分支上反復(fù)探索
  • 把 “思考路徑” 從一開始就理順

直觀來說,這相當(dāng)于考試時先寫草稿、定解題思路,而不是一上來就開始亂算。

② Budget:把 token 用在 “最值錢” 的步驟上

在完成規(guī)劃之后,Plan-and-Budget并不會給每個子問題平均分配推理 token,而是采用一種前置衰減(decay-based)的預(yù)算分配策略(當(dāng)然,也支持按照問題類型靈活采用其他預(yù)算分配策略)。

這種策略的核心思想是:

  • 推理早期步驟不確定性更高,對最終答案影響更大
  • 推理后期步驟往往更確定,繼續(xù)長篇推理的邊際收益較低

因此,框架會:

  • 在前幾個關(guān)鍵子問題上分配更多 token
  • 隨著推理推進(jìn),逐步減少每一步的推理預(yù)算

這正是在實踐中對 BAM 最優(yōu)分配原則的一種近似實現(xiàn)。



五、實驗結(jié)果:

不僅更準(zhǔn),還更 “算得值”

前面的理論和算法,最終都要回到一個現(xiàn)實問題:

Plan-and-Budget 到底有沒有在 “省算力” 的同時,真正提升推理質(zhì)量?

1)先看一個直觀對比:不同難度題目的表現(xiàn)

下圖展示了在 TravelPlanner 任務(wù)中,不同方法在 簡單 / 中等 / 困難 三種問題難度下的通過率(Pass Rate)對比:



這張圖里有一個非常值得注意的現(xiàn)象:

  • Global Budget(全局限制 token)在所有難度上都明顯降低了通過率 —— 尤其是在中等和困難問題上,性能下降最為明顯
  • 這說明:單純縮短推理過程,確實會 “省 token”,但往往是以犧牲正確性為代價的

相比之下,Plan-and-Budget 在三個難度級別上都取得了最高的通過率

  • 簡單問題:避免了無意義的 “過度思考”
  • 中等問題:在關(guān)鍵步驟上給足思考空間
  • 困難問題:顯著優(yōu)于全局 budget 方法,體現(xiàn)出結(jié)構(gòu)化推理的優(yōu)勢

2)關(guān)鍵不只在 “對不對”,還在 “花了多少 token”

更重要的是,Plan-and-Budget 的提升并不是靠 “多用算力” 換來的。從圖例中可以看到:

  • 在通過率更高的同時,Plan-and-Budget 的平均 token 使用量反而更低
  • 這說明:結(jié)構(gòu)化規(guī)劃 + 局部預(yù)算分配,真的把算力用在了最關(guān)鍵的地方

也正是因為這個原因,論文認(rèn)為: 僅用準(zhǔn)確率或 token 數(shù)量來評價推理方法,都是不夠全面的。

3)E3 指標(biāo):把 “準(zhǔn)確” 和 “高效” 統(tǒng)一到一個量里

為更客觀地衡量推理方法在真實部署中的價值,論文提出了E3(Efficiency-aware Effectiveness Score)指標(biāo)。E3 的設(shè)計初衷非常簡單:獎勵 “用更少的 token,得到同樣甚至更好答案” 的方法, 懲罰 “靠犧牲準(zhǔn)確率或盲目堆算力” 的策略。



在 E3 指標(biāo)下,一些 “強行限制推理長度、但正確率明顯下降” 的方法會自然處于劣勢; 而像 Plan-and-Budget 這樣,在保持甚至提升準(zhǔn)確率的同時降低計算成本的方法,則會被清晰地凸顯出來。

4)結(jié)果總結(jié):為什么這些數(shù)字很重要?

綜合多種推理任務(wù)(數(shù)學(xué)推理 Mathematical Reasoning,指令理解與執(zhí)行 Instruction Following,以及規(guī)劃與決策推理 Agentic Planning)和模型規(guī)模,Plan-and-Budget 帶來了非常穩(wěn)定的收益:

  • 最高+70%的準(zhǔn)確率提升
  • 最高?39%的 token 使用量減少
  • E3 指標(biāo)最高提升193.8%

這些結(jié)果共同表明:Plan-and-Budget 并不是 “算得少一點”, 而是 “算得更聰明”。



六、意義與展望:

推理不該是 “算力堆出來的”

隨著大語言模型規(guī)模不斷擴(kuò)大,推理能力的提升似乎越來越依賴于 “多用一點算力”。然而,這項工作傳遞了一個不同的信號:推理效果的關(guān)鍵,并不只在于算力多少,而在于算力是否被合理使用。

Plan-and-Budget 從 “推理失衡” 這一普遍但長期被忽視的問題出發(fā),通過不確定性視角建立理論模型,并進(jìn)一步將其落地為一個無需訓(xùn)練、僅在推理階段運行的通用框架。實驗結(jié)果表明,合理的推理規(guī)劃與預(yù)算分配,能夠在多種任務(wù)和模型上同時提升準(zhǔn)確率與計算效率,甚至讓中等規(guī)模模型在效率上逼近更大模型。

更重要的是,這項研究提出了一種新的推理范式:從 “推理長度” 轉(zhuǎn)向 “推理價值”, 從 “算得更多” 轉(zhuǎn)向 “算得更聰明”。

在未來,隨著 LLM 被部署到越來越多對成本、時延和穩(wěn)定性要求嚴(yán)格的真實場景中,這種 “按需推理” 的思想,或?qū)⒊蔀楦咝?、可控智能系統(tǒng)的重要基礎(chǔ)。

當(dāng)模型學(xué)會 “什么時候該多想,什么時候該收手”,

推理,才真正開始變得成熟。

作者信息:

Junhong Lin(林俊宏),麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室(MIT CSAIL)博士研究生,研究方向包括大語言模型推理、圖神經(jīng)網(wǎng)絡(luò)與知識圖譜。其成果發(fā)表于 ICLR、ICML、NeurIPS、KDD、ICAIF 等國際頂級會議,并獲得 ACM KDD Best Paper Award 與 ICAIF Best Paper Honorary Mention。研究聚焦于提升大模型在推理效率與可靠性方面的理論建模與系統(tǒng)實踐。

Xinyue Zeng (曾欣悅), Virginia Tech VLOG lab 二年級 PhD,研究方向包括大語言模型推理穩(wěn)定性和可靠性,相關(guān)成果發(fā)表于 ICML,ICLR,ICDM 等等國際頂級會議。目前致力于構(gòu)建可解釋、可部署的 LLM 評估與推理方法。將于今年暑假以研究實習(xí)生的身份加入微軟研究院實習(xí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
代表建議:每輛私家車每年給2000公里或1000元高速路免費額度

代表建議:每輛私家車每年給2000公里或1000元高速路免費額度

快科技
2026-03-10 11:09:59
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
白玉蘭獎投票排名:《生萬物》第5,《生命樹》僅第2,第一憑啥?

白玉蘭獎投票排名:《生萬物》第5,《生命樹》僅第2,第一憑啥?

林輕吟
2026-03-10 19:28:26
又打出了災(zāi)難級的表現(xiàn)!掘金鋒線大將近期的狀態(tài)真是太糟糕了?

又打出了災(zāi)難級的表現(xiàn)!掘金鋒線大將近期的狀態(tài)真是太糟糕了?

稻谷與小麥
2026-03-10 23:23:02
中國近20年新生兒數(shù)量

中國近20年新生兒數(shù)量

超級數(shù)學(xué)建模
2026-03-10 14:30:23
江湖護(hù)短8:夫妻并肩,血戰(zhàn)醫(yī)院

江湖護(hù)短8:夫妻并肩,血戰(zhàn)醫(yī)院

金昔說故事
2026-03-10 22:42:31
63年的紀(jì)錄!不說罰球了吧!MVP沒懸念了!

63年的紀(jì)錄!不說罰球了吧!MVP沒懸念了!

籃球大圖
2026-03-10 11:08:31
美油主力合約跌破87美元/桶

美油主力合約跌破87美元/桶

每日經(jīng)濟(jì)新聞
2026-03-10 06:15:04
人不會平白無故患帶狀皰疹!醫(yī)生強調(diào):得帶狀皰疹,多半有4共性

人不會平白無故患帶狀皰疹!醫(yī)生強調(diào):得帶狀皰疹,多半有4共性

39健康網(wǎng)
2026-03-02 19:50:47
大齡演員別裝嫩!39歲毛林林給28歲張凌赫演媽,打臉多少扮嫩女星

大齡演員別裝嫩!39歲毛林林給28歲張凌赫演媽,打臉多少扮嫩女星

八斗小先生
2026-03-10 09:59:27
來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

銘記歷史呀
2026-03-09 15:28:19
鄭強:別光盯人工智能多牛逼,先想想咱們那快8億靠力氣吃飯的人

鄭強:別光盯人工智能多牛逼,先想想咱們那快8億靠力氣吃飯的人

南權(quán)先生
2026-03-10 15:22:06
中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

Ck的蜜糖
2026-03-06 19:21:36
20只整容駱駝參加選美被抓包:嘴唇打肉毒桿菌 駝峰硬得像石頭

20只整容駱駝參加選美被抓包:嘴唇打肉毒桿菌 駝峰硬得像石頭

快科技
2026-03-10 16:19:31
大實話!皮爾斯:沒有詹姆斯湖人會更好,他和東契奇完全不搭配!

大實話!皮爾斯:沒有詹姆斯湖人會更好,他和東契奇完全不搭配!

愛體育
2026-03-10 22:30:36
“白宮所有男士都有一雙”:特朗普癡迷于一款145美元的皮鞋,不送人一雙就不讓走

“白宮所有男士都有一雙”:特朗普癡迷于一款145美元的皮鞋,不送人一雙就不讓走

娛樂小可愛蛙
2026-03-10 08:43:46
旺達(dá)與尤文主帥斯帕萊蒂秘密約會被狗仔抓包,隨后社媒主動曬照

旺達(dá)與尤文主帥斯帕萊蒂秘密約會被狗仔抓包,隨后社媒主動曬照

狗哥是一名內(nèi)拉
2026-03-10 14:38:46
被禁16年還有人用?家里有這個的,趕緊扔!用久了真的會著火!

被禁16年還有人用?家里有這個的,趕緊扔!用久了真的會著火!

小紅花測評
2026-03-06 18:04:52
200斤大碼天后打針暴瘦50斤遭狂罵?“靠胖圈錢,現(xiàn)在憑啥瘦!”

200斤大碼天后打針暴瘦50斤遭狂罵?“靠胖圈錢,現(xiàn)在憑啥瘦!”

英國報姐
2026-03-10 21:44:48
全國人大代表鐘寶申:建議將8小時工作制縮短為7小時,建立加班報酬“5年追溯機(jī)制”

全國人大代表鐘寶申:建議將8小時工作制縮短為7小時,建立加班報酬“5年追溯機(jī)制”

大象新聞
2026-03-09 11:49:06
2026-03-11 00:39:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12467文章數(shù) 142581關(guān)注度
往期回顧 全部

教育要聞

祝賀!劉硙教授,當(dāng)選院士

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
公開課
軍事航空

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

數(shù)碼要聞

3月31日!RTX 50系玩家可體驗英偉達(dá)DLSS 4.5新特性

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

無障礙瀏覽 進(jìn)入關(guān)懷版