国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026|隱式思考模型LRT:「隱式思維鏈」推理,更快更強(qiáng)!

0
分享至



近日,哈爾濱工業(yè)大學(xué)(深圳)聯(lián)合深圳河套學(xué)院、Independent Researcher提出了隱式思考模型 LRT(Latent Reasoning Tuning),通過一個(gè)輕量級的推理網(wǎng)絡(luò),將大模型冗長的「思維鏈」壓縮為緊湊的隱式向量表征,一次前向計(jì)算即可完成推理,無需逐 token 生成數(shù)千字的中間推理過程。

LRT 不僅實(shí)現(xiàn)了高效思考,還能作為一種全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。



  • 論文地址: https://openreview.net/forum?id=CbK7lYbmv8
  • 代碼開源: https://github.com/MobiusDai/LRT

出發(fā)點(diǎn):大模型「自言自語」的推理過程真的全都有用嗎?

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 為代表的慢思考推理模型,通過生成詳盡的逐步推理鏈來解決復(fù)雜問題,展現(xiàn)了強(qiáng)大的推理能力。然而,這些模型存在一個(gè)顯著痛點(diǎn) ——過度思考(Overthinking):

  • 即使是簡單的數(shù)學(xué)題,模型也可能生成數(shù)千個(gè) token 的推理過程,其中包含大量回溯、自我驗(yàn)證和冗余步驟;
  • 推理軌跡的長度往往遠(yuǎn)超最終答案,導(dǎo)致推理延遲高、計(jì)算開銷大,嚴(yán)重制約了實(shí)時(shí)應(yīng)用。

Question:這些冗長的推理鏈真的全部必要嗎?

關(guān)鍵發(fā)現(xiàn):推理軌跡存在大量冗余

為了回答上述問題,團(tuán)隊(duì)設(shè)計(jì)了一組實(shí)驗(yàn):在 DeepSeek-R1-Distill-Qwen-7B 模型上,將推理軌跡進(jìn)行不同粒度的刪減 —— 隨機(jī)跳過一定比例的 token 或推理步驟,然后觀察模型能否僅憑殘缺的推理鏈給出正確答案。



核心洞察: 即使隨機(jī)丟棄 50% 的推理軌跡,模型準(zhǔn)確率僅下降約 2 個(gè)百分點(diǎn)。這可以得出兩個(gè)結(jié)論:

  1. 當(dāng)前的推理軌跡中存在大量冗余信息,遠(yuǎn)超正確推理所需的信息;
  2. 推理模型具有強(qiáng)大的信息過濾能力,即使面對殘缺、高困惑度的推理鏈,依然能從中提取關(guān)鍵信息并總結(jié)得出正確答案。

這一發(fā)現(xiàn)直接啟發(fā)了團(tuán)隊(duì)的核心思路:既然完整的逐步推理鏈并非必要,能否用一種更緊湊的隱式表征來替代它?

方法:隱式思考模型 LRT

基于上述洞察,團(tuán)隊(duì)提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括為:用一個(gè)輕量級推理網(wǎng)絡(luò),將顯式的推理鏈「編碼」為固定長度的隱式向量,直接注入大模型即可生成最終答案。

技術(shù)架構(gòu)



如上圖所示,傳統(tǒng)推理模型需要逐 token 自回歸生成整條推理鏈(Decode → Decode → ... → Decode),而 LRT 的流程為:



具體方法





模型的推理生成過程可分為兩個(gè)階段:

  • Prefill 階段:模型一次性處理輸入提示 X 中的全部 token,初始化注意力狀態(tài)(KV 緩存)。這一階段是并行的,計(jì)算效率較高;
  • Decode 階段:模型逐 token 自回歸地生成輸出,每一步僅基于前序 token 與緩存狀態(tài)進(jìn)行推理。這一階段是串行的,也是推理延遲的主要瓶頸。

在 Decode 階段,思維鏈的生成過程可以形式化為:









既然推理軌跡是輸入的函數(shù),而已經(jīng)證明了它存在大量冗余,那么一個(gè)自然的想法是:使用一個(gè)更高效的函數(shù)來替代它?











實(shí)驗(yàn)結(jié)果

1. 高效思考 —— 在不同 Token Budget 下表現(xiàn)最優(yōu)



在 DeepSeek-R1-Distill-Qwen-1.5B 上,與多種高效推理方法進(jìn)行對比:

  • 在不同的 Token 預(yù)算下,LRT 在域內(nèi)和域外任務(wù)上全面領(lǐng)先。在 512-Token 下,其平均準(zhǔn)確率比 NoThinking 高 2.66%,比 RL 類方法 ShorterBetter、LC-R1 分別高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式



LRT 的模塊化設(shè)計(jì)天然適合作為混合推理的新范式:面對簡單問題使用隱式思考快速作答,面對困難問題切換回顯式慢思考深入推理。在 Qwen3 系列模型上驗(yàn)證了這一能力:

  • 在 Qwen3-4B 上,LRT 的 pass@4 平均準(zhǔn)確率達(dá)到 71.60%,比 Qwen3 原生非思考模式高出 5.82 個(gè)百分點(diǎn)!在 GSM8K 上提升近 7%,在 LSAT 上提升超過 14%。這表明隱式推理向量能有效引導(dǎo)模型產(chǎn)生更多樣、更高質(zhì)量的解題路徑。

3. 推理效率對比



  • LRT 的推理延遲顯著低于 Qwen3 的混合思考模式,甚至比非思考模式還快 —— 因?yàn)殡[式推理向量引導(dǎo)模型生成更簡潔的答案,減少了解碼步數(shù)。

4. 消融實(shí)驗(yàn)分析



隱式推理 token 數(shù)量的影響:隨著隱式 token 數(shù)從 64 增加到 256,性能穩(wěn)步提升(42.53% → 48.42%)。



兩階段訓(xùn)練:加入 RL 階段后,域內(nèi)任務(wù)平均提升約 9%,域外任務(wù)平均提升約 4.3%,驗(yàn)證了強(qiáng)化學(xué)習(xí)對隱式推理優(yōu)化的關(guān)鍵作用。



更大的基礎(chǔ)模型(如 Qwen3-8B)則能充分利用更多的隱式 token(使用 512 個(gè)隱式 token 時(shí)結(jié)果仍能提高),說明隱式推理的「容量」與基礎(chǔ)模型能力正相關(guān)。

總結(jié)

隱式思考模型 LRT 開辟了一條全新的高效推理路徑:

  • 理論洞察:系統(tǒng)性地揭示了推理軌跡的高度冗余性,證明完整的逐步推理鏈并非正確推理的前提;
  • 高效思考:通過將顯式推理鏈壓縮為隱式向量表征,用單次前向計(jì)算替代數(shù)千步自回歸解碼,大幅降低推理成本;
  • 混合思考:模塊化的即插即用設(shè)計(jì),無需修改大模型參數(shù),可在隱式推理與顯式推理之間無縫切換,為混合推理系統(tǒng)提供了更優(yōu)的替代方案;
  • 效果優(yōu)異:在數(shù)學(xué)、邏輯、科學(xué)等多類基準(zhǔn)上全面超越現(xiàn)有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聰,哈爾濱工業(yè)大學(xué)(深圳)博士生,研究方向?yàn)楦咝伎寂c推理模型。通訊作者張正,哈爾濱工業(yè)大學(xué)(深圳)教授、博士生導(dǎo)師,教育部青年長江學(xué)者,主要從事高效能多模態(tài)人工智能的研究,近年專注于高效與可信多模態(tài)大模型。

主要完成單位為哈爾濱工業(yè)大學(xué)(深圳)& 深圳河套學(xué)院。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
真膈應(yīng)??!一老人走了,鄰居發(fā)帖稱家門被貼了塊紅布,又懵又火大

真膈應(yīng)??!一老人走了,鄰居發(fā)帖稱家門被貼了塊紅布,又懵又火大

火山詩話
2026-04-13 10:40:34
隨著深圳13連勝,遼寧80-75山東,CBA最新排名出爐!山東下滑第8

隨著深圳13連勝,遼寧80-75山東,CBA最新排名出爐!山東下滑第8

薇說體育
2026-04-13 22:17:58
中印糖尿病患者數(shù)量對比:印度有超2億糖尿病人,中國多少呢?

中印糖尿病患者數(shù)量對比:印度有超2億糖尿病人,中國多少呢?

悠悠說世界
2026-04-13 23:00:15
又一起吃他汀猝死!醫(yī)生再三提醒:春季吃他汀的人,要警惕這4點(diǎn)

又一起吃他汀猝死!醫(yī)生再三提醒:春季吃他汀的人,要警惕這4點(diǎn)

岐黃傳人孫大夫
2026-04-13 14:10:03
索賠2億!被捧為迅雷救世主的清華高材生,帶情婦卷1.7億跑路5年

索賠2億!被捧為迅雷救世主的清華高材生,帶情婦卷1.7億跑路5年

毒sir財(cái)經(jīng)
2026-04-03 23:02:02
70架軍機(jī)抵達(dá)以色列,又上當(dāng)了,巴鐵大軍出動(dòng),戰(zhàn)爭隨時(shí)爆發(fā)

70架軍機(jī)抵達(dá)以色列,又上當(dāng)了,巴鐵大軍出動(dòng),戰(zhàn)爭隨時(shí)爆發(fā)

咸魚金腦袋
2026-04-13 20:32:35
中蒙俄管道生變?托卡耶夫強(qiáng)勢插隊(duì),蒙古國:不能讓哈國半路截胡

中蒙俄管道生變?托卡耶夫強(qiáng)勢插隊(duì),蒙古國:不能讓哈國半路截胡

你笑的好甜美
2026-04-13 12:50:47
媽耶!《冰湖重生》評論區(qū)笑麻了哈哈哈哈,可惜了李昀銳

媽耶!《冰湖重生》評論區(qū)笑麻了哈哈哈哈,可惜了李昀銳

老吳教育課堂
2026-04-13 16:46:03
沒換過隊(duì)還能榜首!NBA官方公布本賽季球衣銷量榜,庫1詹5

沒換過隊(duì)還能榜首!NBA官方公布本賽季球衣銷量榜,庫1詹5

懂球帝
2026-04-13 22:48:15
央行:3月末廣義貨幣(M2)余額353.86萬億元 同比增長8.5%

央行:3月末廣義貨幣(M2)余額353.86萬億元 同比增長8.5%

財(cái)聯(lián)社
2026-04-13 17:04:12
知名時(shí)政記者爆料王石被抓,本人回應(yīng)了

知名時(shí)政記者爆料王石被抓,本人回應(yīng)了

財(cái)通社
2026-04-12 19:53:51
隨著穆帥率隊(duì)2-0,布拉加1-0,艾華卡3-1,葡超最新積分榜出爐

隨著穆帥率隊(duì)2-0,布拉加1-0,艾華卡3-1,葡超最新積分榜出爐

側(cè)身凌空斬
2026-04-13 03:34:18
iPhone 17 突然降價(jià),4月12日,現(xiàn)貨開賣!

iPhone 17 突然降價(jià),4月12日,現(xiàn)貨開賣!

科技堡壘
2026-04-12 11:43:16
中國肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
在迪拜工作華人感慨:不要信媒體吹牛,迪拜相當(dāng)于我國二線城市

在迪拜工作華人感慨:不要信媒體吹牛,迪拜相當(dāng)于我國二線城市

福建睿平
2026-04-13 11:06:38
王珞丹現(xiàn)狀:搬進(jìn)深山生活,母親不再催婚,41歲和兩只狗相依為命

王珞丹現(xiàn)狀:搬進(jìn)深山生活,母親不再催婚,41歲和兩只狗相依為命

冷紫葉
2026-04-11 16:48:00
比亞迪財(cái)務(wù)總監(jiān)周亞琳,年薪1013.5萬元!比王傳福高近200萬元,成A股首位年薪破千萬的財(cái)務(wù)掌門人

比亞迪財(cái)務(wù)總監(jiān)周亞琳,年薪1013.5萬元!比王傳福高近200萬元,成A股首位年薪破千萬的財(cái)務(wù)掌門人

新浪財(cái)經(jīng)
2026-04-13 13:51:13
全紅嬋風(fēng)波大結(jié)局!事件涉多位運(yùn)動(dòng)員,一人已被抓,處罰結(jié)果曝光

全紅嬋風(fēng)波大結(jié)局!事件涉多位運(yùn)動(dòng)員,一人已被抓,處罰結(jié)果曝光

青杉依舊啊啊
2026-04-11 23:50:24
巴基斯坦國防部長:新一輪美伊談判將很快開始

巴基斯坦國防部長:新一輪美伊談判將很快開始

界面新聞
2026-04-13 21:21:31
特朗普封鎖霍爾木茲!想掐斷伊朗和中國的生命線?中國如何應(yīng)對?

特朗普封鎖霍爾木茲!想掐斷伊朗和中國的生命線?中國如何應(yīng)對?

老嘪科普
2026-04-13 20:58:57
2026-04-13 23:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12751文章數(shù) 142624關(guān)注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

媒體:歐爾班敗選不僅是一國之事 牽扯到與中國的關(guān)系

頭條要聞

媒體:歐爾班敗選不僅是一國之事 牽扯到與中國的關(guān)系

體育要聞

一支球隊(duì)不夠爛,也是一種悲哀

娛樂要聞

初代“跑男團(tuán)”合體,鄧超、鹿晗缺席

財(cái)經(jīng)要聞

談判未完全關(guān)閉?3國力促美伊重啟談判

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

健康
數(shù)碼
房產(chǎn)
游戲
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

中興逍遙20 AI平板發(fā)布:支持5G蜂窩網(wǎng)絡(luò)、可切換云電腦模式

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

《地鐵2039》4月17日正式公開 中文預(yù)熱預(yù)告發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版