国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型高效推理新答案:ICLR 2026提出Balanced Thinking

0
分享至



在過去一年中,大模型推理中的「過度思考」問題引發(fā)了廣泛關(guān)注。然而,真正的挑戰(zhàn)并非簡單地縮短思維鏈。面對簡單問題,模型往往在得出正確答案后仍持續(xù)進行冗余驗證;而許多旨在抑制過度思考的方法雖能壓縮輸出長度,卻常常將必要的推理探索一并剔除,導(dǎo)致模型從「想太多」直接滑向「想太少」。高效推理的核心目標(biāo)并非一刀切地削減推理步驟,而是使模型在不同任務(wù)中實現(xiàn)恰到好處的思考深度。

針對這一問題,哈爾濱工業(yè)大學(xué)(深圳)等機構(gòu)的研究者提出了 ReBalance 方法,并首次系統(tǒng)性引入Balanced Thinking這一新視角。該工作的核心觀點明確:高效推理的關(guān)鍵并非盲目壓縮推理長度,而是在過度思考與思考不足之間維持動態(tài)平衡。

基于此,ReBalance 利用模型自身的置信度信號,在思考過程中實時調(diào)控其內(nèi)部狀態(tài),無需額外訓(xùn)練即可實現(xiàn)推理行為的動態(tài)引導(dǎo)。實驗表明,在參數(shù)規(guī)模從 0.5B 至 32B 的四個主流模型上,以及涵蓋數(shù)學(xué)推理、通用問答和編程任務(wù)的九個基準(zhǔn)測試中,ReBalance 在精度提升 10.0 的同時,推理長度直降 35.4%。



  • 論文標(biāo)題:Efficient Reasoning with Balanced Thinking
  • 項目主頁:https://rebalance-ai.github.io
  • 會議:ICLR 2026
  • 方法名稱:ReBalance
  • 作者機構(gòu):哈爾濱工業(yè)大學(xué)(深圳)等

真正的問題,不是「過度思考」,而是「思考失衡」

慢思考模型已展現(xiàn)出強大的推理能力,但「會推理」不等于「高效推理」。在簡單題目上,模型經(jīng)常在答案收斂后持續(xù)分叉、回看、復(fù)核,帶來更高的延遲和 token 成本,甚至可能引入額外幻覺。現(xiàn)有方法主要通過抑制反思關(guān)鍵詞的生成或直接施加推理長度懲罰來緩解這一問題,但它們往往隱含了一個過于簡化的假設(shè),即推理「越短越好」。

然而,過度思考與思考不足本質(zhì)不同。前者指在正確推理路徑已然顯現(xiàn)后仍無謂延展,后者則是在探索尚未充分時便倉促得出結(jié)論。若將這兩種失衡模式混為一談,許多標(biāo)榜「高效」的方法實則以犧牲準(zhǔn)確率為代價換取推理長度縮減。

ReBalance 的核心貢獻在于將高效推理重新定義為一種「平衡」問題:模型不應(yīng)一味追求縮短推理,而應(yīng)在恰當(dāng)?shù)臅r機停止冗余思考,在必要時繼續(xù)深入探索,從而實現(xiàn)簡潔性與充分性的統(tǒng)一。



圖 1:在同一問題上,慢思考模型在得出正確答案后仍進行冗余反思;現(xiàn)有抑制方法則過度壓縮有效推理,導(dǎo)致思考不足;而 ReBalance 能夠生成既簡潔又充分的推理過程。

關(guān)鍵發(fā)現(xiàn):置信度是推理狀態(tài)的可靠連續(xù)信號

論文中提供了一個具有啟發(fā)性的見解。作者通過分析 step-level confidence 及局部 confidence variance 發(fā)現(xiàn),不同推理失衡狀態(tài)呈現(xiàn)出顯著差異的置信度軌跡。在過度思考情形下,模型置信度在多個推理步驟中表現(xiàn)出明顯波動,反映出其在不同推理路徑之間反復(fù)搖擺,難以收斂。相比之下,思考不足通常表現(xiàn)為持續(xù)偏高的置信度與較低的波動性,表明模型并非缺乏推理能力,而是因過度自信而過早鎖定于錯誤的推理路徑。

這一發(fā)現(xiàn)具有重要意義。它將高效推理的調(diào)控機制從依賴經(jīng)驗性關(guān)鍵詞抑制,推進至基于模型原生信號的動態(tài)狀態(tài)建模。置信度并非靜態(tài)評分,而是一種可在線觀測、連續(xù)演化且與推理行為緊密耦合的狀態(tài)指標(biāo)。一旦識別出該連續(xù)信號,便為實現(xiàn)細(xì)粒度的動態(tài)推理控制提供了可能。



圖 2:現(xiàn)有過度思考抑制方法在縮短正確樣本推理長度的同時,也壓縮了錯誤樣本的推理過程,表明其在緩解過度思考的同時引入了思考不足的問題。相比之下,ReBalance 能夠更有效地維持推理平衡。

ReBalance:將模型實時引導(dǎo)至推理平衡區(qū)


基于上述洞察,ReBalance 提出了一種無需訓(xùn)練的兩階段推理調(diào)控框架。第一階段為離線數(shù)據(jù)采集:在小規(guī)模已知數(shù)據(jù)集上執(zhí)行單次前向推理,依據(jù)置信度及其波動程度識別具有過度思考或思考不足傾向的推理步驟,并從深層 hidden states 中分別提取兩類原型表示。兩類原型之差構(gòu)成一個引導(dǎo)向量(steering vector),用以刻畫模型在兩種失衡狀態(tài)之間的內(nèi)部遷移方向。

第二階段為在線動態(tài)引導(dǎo):在實際思考過程中,ReBalance 持續(xù)監(jiān)測當(dāng)前推理步驟的置信度與波動幅度,并通過一個基于模型行為擬合的動態(tài)控制函數(shù),實時確定引導(dǎo)的方向與強度。當(dāng)模型處于低置信度、高波動狀態(tài)時,方法增強其收斂傾向,抑制冗余反思;當(dāng)模型處于高置信度、低波動狀態(tài)時,則施加反向引導(dǎo),鼓勵進一步探索,防止過早終止。該方法全程無需重新訓(xùn)練、不依賴輔助模型,亦不引入額外推理階段。



圖 3:ReBalance 框架示意圖

實驗驗證:兼顧效率與性能的精準(zhǔn)壓縮


實驗結(jié)果充分驗證了 Balanced Thinking 的有效性與魯棒性。論文在四個參數(shù)規(guī)模從 0.5B 至 32B 的慢思考模型上開展了系統(tǒng)性評估,涵蓋數(shù)學(xué)推理、通用問答和代碼生成任務(wù)等九項基準(zhǔn)測試。結(jié)果表明,ReBalance 并非以犧牲性能換取輸出長度的縮減,而是在提升推理效率的同時顯著增強模型表現(xiàn)。

在數(shù)學(xué)推理任務(wù)中,該方法最高實現(xiàn) 10.0 個百分點的 Pass@1 準(zhǔn)確率提升,并將生成長度最多壓縮 35.4%。在非數(shù)學(xué)任務(wù)如 GPQA-D、StrategyQA 和 LiveCodeBench 上,ReBalance 同樣展現(xiàn)出穩(wěn)定的跨領(lǐng)域泛化能力,其中 GPQA-D 準(zhǔn)確率最高提升 6.6 個百分點,同時 token 消耗最多降低 29.9%。

尤為關(guān)鍵的是,ReBalance 并非對所有輸出進行無差別截斷。論文分析表明,現(xiàn)有方法往往同步縮短正確與錯誤樣本的推理鏈,導(dǎo)致在緩解過度思考的同時誘發(fā)思考不足。相比之下,ReBalance 能夠動態(tài)調(diào)節(jié)推理深度:當(dāng)模型已步入正確推理路徑時,有效削減冗余內(nèi)容;當(dāng)模型仍需深入探索時,則保留必要推理步驟。這種自適應(yīng)機制正是 Balanced Thinking 的核心優(yōu)勢。

此外,作者在 Ascend 910B NPU 平臺的 openPangu slow-thinking 模式中驗證了該方法的部署兼容性。在 AIME 2025 基準(zhǔn)上,ReBalance 在準(zhǔn)確率提升 3.4 個百分點的同時,輸出長度減少 35.3%,進一步凸顯其在實際應(yīng)用中的潛力。



·表 1:數(shù)學(xué)推理任務(wù)驗證

結(jié)語


ReBalance 的價值不僅在于提出了一種新的高效推理方法,更在于系統(tǒng)引入了Balanced Thinking這一全新視角。高效推理本質(zhì)上并非單純的序列壓縮問題,而應(yīng)是一個動態(tài)控制過程。當(dāng)目標(biāo)從「縮短推理鏈」轉(zhuǎn)變?yōu)椤妇S持推理過程的平衡」時,置信度自然成為連續(xù)可靠的控制信號,而潛空間引導(dǎo)(Latent Steering)則成為輕量且高效的干預(yù)機制,從而重構(gòu)了整個問題的求解范式。

對于面向?qū)嶋H部署的推理模型,這一視角尤為重要。在延遲敏感、算力受限的應(yīng)用場景中,模型所需并非無限制延長推理時間,而是以更優(yōu)的方式思考,并恰當(dāng)?shù)乜刂仆评黹L度。ReBalance 為此提供了一個簡潔、輕量且具有良好泛化能力的解決方案。目前,該項目已開源,并配套提供了交互式演示及多個模型的引導(dǎo)向量,降低了復(fù)現(xiàn)與應(yīng)用門檻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一組宣傳照被指辱華,其宣傳照中長辮、長衫、剪刀的搭配引發(fā)網(wǎng)友強烈不滿,LEMAIRE致歉:未能充分考慮文化差異與敏感性

一組宣傳照被指辱華,其宣傳照中長辮、長衫、剪刀的搭配引發(fā)網(wǎng)友強烈不滿,LEMAIRE致歉:未能充分考慮文化差異與敏感性

大象新聞
2026-04-26 21:49:04
再見貝林厄姆!皇馬天才回歸!顏值高實力強,高層醞釀變革

再見貝林厄姆!皇馬天才回歸!顏值高實力強,高層醞釀變革

阿泰希特
2026-04-26 15:25:32
5月1日反腐新規(guī)落地!10類行為全面嚴(yán)查,退休人員再也不能免責(zé)

5月1日反腐新規(guī)落地!10類行為全面嚴(yán)查,退休人員再也不能免責(zé)

芳姐侃社會
2026-04-26 21:34:03
別克正式確認(rèn):7座MPV,明天上市!

別克正式確認(rèn):7座MPV,明天上市!

手機評測室
2026-04-27 12:00:54
我48歲守寡,妹夫出差暫住我家,一個月后,我徹底帕破防

我48歲守寡,妹夫出差暫住我家,一個月后,我徹底帕破防

藝鑒在線
2026-04-27 01:18:21
一醫(yī)院原院長:我就像一個吸血鬼

一醫(yī)院原院長:我就像一個吸血鬼

南方都市報
2026-04-26 23:49:54
陳康堤與黃澤林戀愛,爸爸陳奕迅當(dāng)紅娘,7年4段情完全是放養(yǎng)狀態(tài)

陳康堤與黃澤林戀愛,爸爸陳奕迅當(dāng)紅娘,7年4段情完全是放養(yǎng)狀態(tài)

TVB的四小花
2026-04-26 15:18:02
中美兩軍在黃巖島激烈斗法,解放軍的龐大艦隊,與美菲“肩并肩”

中美兩軍在黃巖島激烈斗法,解放軍的龐大艦隊,與美菲“肩并肩”

顧蔡衛(wèi)
2026-04-27 11:52:21
蔚來推出輔助駕駛指示燈后裝升級:提供黃、藍雙色,998元

蔚來推出輔助駕駛指示燈后裝升級:提供黃、藍雙色,998元

IT之家
2026-04-27 11:00:20
最大的鐵飯碗要碎了嗎:轉(zhuǎn)崗、超編、過剩......

最大的鐵飯碗要碎了嗎:轉(zhuǎn)崗、超編、過剩......

燈錦年
2026-04-26 20:25:53
“我要找人教訓(xùn)他!” 巴克利猛批森林狼球星:公然破壞潛規(guī)則

“我要找人教訓(xùn)他!” 巴克利猛批森林狼球星:公然破壞潛規(guī)則

夜白侃球
2026-04-27 10:28:42
廣東佛山一餐館廚師向鍋里吐口水后繼續(xù)出餐,還將掃把放進鍋內(nèi)涮洗,涉事門店:油濺嘴里本能反應(yīng),將全面整改衛(wèi)生問題,若屢教不改將辭退

廣東佛山一餐館廚師向鍋里吐口水后繼續(xù)出餐,還將掃把放進鍋內(nèi)涮洗,涉事門店:油濺嘴里本能反應(yīng),將全面整改衛(wèi)生問題,若屢教不改將辭退

芒果都市
2026-04-26 17:45:32
陸毅50歲體重飆至176斤,血壓偏高嘴唇發(fā)紫入院

陸毅50歲體重飆至176斤,血壓偏高嘴唇發(fā)紫入院

日不西沉
2026-04-26 23:00:12
草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

好賢觀史記
2026-04-27 13:30:23
騎士2-2猛龍!米切爾承認(rèn)一事實,阿特金森對哈登表態(tài)成重中之重

騎士2-2猛龍!米切爾承認(rèn)一事實,阿特金森對哈登表態(tài)成重中之重

魚崖大話籃球
2026-04-27 07:26:47
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
女演員自曝:曾流產(chǎn)5次失去7個寶寶,如今43歲仍努力拼二胎!

女演員自曝:曾流產(chǎn)5次失去7個寶寶,如今43歲仍努力拼二胎!

豬小艷吖
2026-04-24 13:49:15
冰箱里的凍肉,超過這個時間直接扔!(附冰箱內(nèi)各類食物保存期)

冰箱里的凍肉,超過這個時間直接扔?。ǜ奖鋬?nèi)各類食物保存期)

齊魯壹點
2026-04-02 23:14:06
余華:要學(xué)會精神離職,董宇輝笑了,石明主動辭職虧大了

余華:要學(xué)會精神離職,董宇輝笑了,石明主動辭職虧大了

青杉依舊啊啊
2026-04-27 10:05:21
尚界汽車法務(wù)部:北京國際車展現(xiàn)場有觀眾蓄意破壞展車內(nèi)飾,造成車輛損傷,已做好取證

尚界汽車法務(wù)部:北京國際車展現(xiàn)場有觀眾蓄意破壞展車內(nèi)飾,造成車輛損傷,已做好取證

都市快報橙柿互動
2026-04-25 12:33:09
2026-04-27 14:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12866文章數(shù) 142636關(guān)注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經(jīng)要聞

DeepSeek融資、字節(jié)加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態(tài)度原創(chuàng)

親子
本地
房產(chǎn)
旅游
數(shù)碼

親子要聞

你聽懂這3句話,躺平的孩子很快就能好起來了!

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!???,開始瘋狂建學(xué)校!

旅游要聞

“五一”假期,延慶千家店鎮(zhèn)推澗畔放松游等7條特色旅游線路

數(shù)碼要聞

高管親口承認(rèn)!英特爾Arc G3掌機芯片蓄勢待發(fā):搭配Xe3核顯 微星掌機率先上車

無障礙瀏覽 進入關(guān)懷版