国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型如何「在思考中使用工具」|Interleaved Thinking

0
分享至

DeepSeek V3.2 提到了一個(gè)東西,屬于核心迭代
在思考中,使用工具
技術(shù)報(bào)告里,把這個(gè)叫Thinking in Tool Use

在這里與大家說道,這東西的由來、演進(jìn)和現(xiàn)狀,方便吹牛逼用

這里還有份報(bào)告解讀:

所謂「Thinking in Tool-Use
顧名思義,就是大模型一邊調(diào)用工具,一邊推理,多次循環(huán)后,最后輸出答案

行業(yè)里,常把這個(gè)叫做 Interleaved Thinking,本文沿用這個(gè)說法

類似的東西,最早是 Anthropic 提出的
今年初發(fā)布的,叫 Extended Thinking。額外說明:o1 不算,那個(gè)沒工具調(diào)用


相關(guān)內(nèi)容,發(fā)表于 25年2月24日:《Claude’s extended thinking》

在開源模型里,最早是 OpenAI 開源的 oss 最先支持的
說法是 interleaving tool calls within the CoT


相關(guān)內(nèi)容,發(fā)表于 25年8月5日:gpt-oss Model Card

之后,國(guó)內(nèi)的幾家模型廠,也給到了類似說法:

  • ? MiniMax M2 叫它「交錯(cuò)思維鏈」

  • ? Kimi K2 叫它「邊思考邊使用工具」

  • ? DeepSeek v3.2 叫它「思考模式下的工具調(diào)用」

各家說法不同,本質(zhì)是一件事
大模型,如何在保留推理狀態(tài)的同時(shí),進(jìn)行多次工具調(diào)用

有關(guān)交錯(cuò)思維鏈,MiniMax 前段時(shí)間還寫了篇文章,強(qiáng)調(diào)這東西的重要性,具體后面細(xì)說

技術(shù)原理

先說下推理模型是怎么使用工具的

舉個(gè)例子,你問模型一個(gè)問題:
一臺(tái)最新蘋果手機(jī),和兩臺(tái)最新的豆包手機(jī),誰(shuí)更貴?

以最開始的 o1 模型為例,o1 這個(gè)模型并不能進(jìn)行工具調(diào)用,只能回答
對(duì)不起,我無法訪問網(wǎng)絡(luò),并不知道誰(shuí)更貴

再之后,一些朋友對(duì) o1 類的模型進(jìn)行了工程優(yōu)化(比如具有聯(lián)網(wǎng)能力的 DeepSeek R1),讓他能夠在回答前,先搜索一些問題,然后多次調(diào)用模型,流程就變成了這樣:
先搜最新的蘋果手機(jī)讀結(jié)果決定下一步搜什么再搜索再讀結(jié)果 → ... → 整理答案


標(biāo)準(zhǔn)的工具調(diào)用流程

但實(shí)際上...在處理先搜最新的蘋果手機(jī)這一步中,就會(huì)發(fā)現(xiàn)蘋果有多款機(jī)型
如果只拿最新的 iPhone 17 比較,肯定不妥,畢竟還有 air 和 pro

作為人的話,可能會(huì)中間留個(gè)心眼:最新的蘋果手機(jī),需要考慮系列嗎?
那么,如果是大模型,會(huì)記住這些東西嗎?

早期做法:丟掉
具體來說:忘掉所有的中間思考,只保留結(jié)果和部分總結(jié)
這部分的具體描述,可以參加 OpenAI 的 o1 文檔:思維鏈?zhǔn)请[藏的


早期做法:每輪丟棄推理狀態(tài)

所以,在進(jìn)行最終判斷的時(shí)候,大模型的上文可能只有:

  • ? iPhone 17 的標(biāo)準(zhǔn)定價(jià)為 5999

  • ? 豆包手機(jī)(努比亞)的標(biāo)準(zhǔn)定價(jià)為 3499

然后得出結(jié)論:

iPhone 17,不如兩臺(tái)豆包手機(jī)貴

但....

作為人的話,我們會(huì)保留個(gè)心眼,思考過程也記著:

  • ? iPhone 17 的標(biāo)準(zhǔn)定價(jià)為 5999(同期發(fā)售的還有 iPhone Air:7999;Pro:8999)

  • ? 豆包手機(jī)(努比亞代工)的標(biāo)準(zhǔn)定價(jià)為 3499(目前無貨,閑魚 4499)

然后出結(jié)論:

iPhone 17,不如兩臺(tái)豆包手機(jī)貴 Air 和 Pro 則貴于兩臺(tái)豆包

這種「留心眼」的做法,就是 Interleaved Thinking
模型調(diào)用工具拿到結(jié)果繼續(xù)思考(帶著之前的推理)再調(diào)用工具繼續(xù)思考...

在這里,計(jì)劃、假設(shè)、中間結(jié)論都會(huì)被帶到下一輪


Interleaved Thinking:保留推理狀態(tài)

當(dāng)然,這里為了方便表達(dá),我對(duì)原理進(jìn)行了極大的刪減
實(shí)際的做法和流程都會(huì)更為復(fù)雜
比如...這些推理內(nèi)容,在何時(shí)才會(huì)舍棄?

以DeepSeek v3.2為例,論文里是這么描述的:
只有新用戶消息到來時(shí),才丟棄推理內(nèi)容,工具返回結(jié)果不觸發(fā)丟棄

...這樣的細(xì)節(jié)還有許多,還是挺有工程實(shí)踐&復(fù)雜度的

效果差距

對(duì)于「保留推理狀態(tài) vs 丟棄推理狀態(tài)」,會(huì)有多少差距呢?
對(duì)于長(zhǎng)鏈路 Agent 任務(wù),最高能有 +35%+40%
數(shù)據(jù)來自于 MiniMax 的對(duì)比測(cè)試數(shù)據(jù)


對(duì)比數(shù)據(jù)


  • ? SWE-Bench Verified:69.4 vs. 67.2, +3.3%

  • ? 2:87 vs. 64, +35.9%

  • ? BrowseComp:44.0 vs. 31.4, +40.1%

  • ? GAIA:75.7 vs. 67.9, +11.5%

  • ? xBench:72.0 vs. 66.0, +9.1%

至于為什么差距這么大?

可以這么理解:
一旦丟棄了之前的推理狀態(tài),模型的累積理解能力會(huì)下降,自我修正能力會(huì)減弱

這東西,在長(zhǎng)程工具調(diào)用和「運(yùn)行–修復(fù)」循環(huán)中尤其明顯

世界是個(gè)草臺(tái)班子

這里有個(gè)現(xiàn)實(shí)問題:
很多項(xiàng)目使用了 thinking 模型,但工具的連續(xù)調(diào)用總是出問題
而且...可能...甚至還沒發(fā)現(xiàn)

這個(gè)其實(shí)是 OpenAI 的鍋

OpenAI 有多套 API 調(diào)用方法:

  • ? Completions (不再建議使用)

  • ? Chat Completions

  • ? Assistants API (壓根沒人用)

  • ? Responses API

目前用的最廣泛的的,是 Chat Completions api
但... 這玩意兒壓根沒有 thinking 相關(guān)的字段
于是大家只能在 assistant message 里假裝 thinking


Chat Completions API 的 assistant message 結(jié)構(gòu),沒有 thinking 相關(guān)字段

新的 Responses API 確實(shí)支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理內(nèi)容
推理過程?更不存在的


Responses API 的 reasoning 配置,注意那個(gè) encrypted_content

能用于多輪對(duì)話狀態(tài)保持,但你看不到原始推理過程

你說 OpenAI 開源的那個(gè) oss 支持?
哈哈哈哈哈哈哈哈哈哈
那套鬼東西,根本沒定義接口,怎么實(shí)現(xiàn)你就自己看著來吧


OpenAI 的 oss

按照慣性,大家都照著 OpenAI 的 API 規(guī)范寫代碼
但由于 OpenAI 在這個(gè)方面過于不干人事兒
各家廠商在這個(gè)不完整的規(guī)范上各自魔改

仔細(xì)看,你會(huì)發(fā)現(xiàn).... DeepSeek R1 的 Thinking 結(jié)構(gòu),和 OpenAI 的也都不一樣
然后同樣的模型,在硅基流動(dòng)、火山、官方 api 上,響應(yīng)結(jié)構(gòu)甚至也都不一樣


OpenAI API vs DeepSeek API

于是...調(diào)用 API 的時(shí)候,thinking 壓根沒放在上下文
哈哈哈哈哈哈哈哈哈哈

MiniMax 的貢獻(xiàn)

事情的另一個(gè)角度,MiniMax 反倒是 Thinking 模型的標(biāo)準(zhǔn)化,做了許多生態(tài)上的工作,比如與OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推進(jìn)并實(shí)現(xiàn)這一功能的跨平臺(tái)支持。

具體的可以參見,希望通過推動(dòng)統(tǒng)一標(biāo)準(zhǔn),在應(yīng)用、OpenAI 兼容API、Anthropic 兼容 API 中,來推動(dòng) Interleaved Thinking 的廣泛支持


相關(guān)背景

11 月在紐約 AI.Engineer Summit,MiniMax 研究員 Olive 講了 Interleaved Thinking


Olive 在 AI.Engineer Summit 上的分享,圖中的 ppt 和 ds3.2 頗有相似

然后挨個(gè)給生態(tài)里的工具提 PR:

  • ? Cline、RooCode : 讓 VS Code 插件支持 Interleaved Thinking

  • ? Kilo Code : 優(yōu)化多輪對(duì)話的狀態(tài)保持邏輯

  • ? OpenRouter、Ollama : 推動(dòng)平臺(tái)層面跟進(jìn)支持

MiniMax 給 Kilo Code 提的 PR

Cline 和 Kilo Code 官方都發(fā)推確認(rèn)了


Cline 官方的確認(rèn)推文 Kilo Code 官方的確認(rèn)推文

現(xiàn)在這些平臺(tái)上,MiniMax M2 是第一個(gè)正確支持 Interleaved Thinking 的開源模型

對(duì)于其他支持這個(gè)機(jī)制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是給這個(gè)這種 thinking,造了個(gè)朋友圈

MiniMax 還開源了 Mini-Agent,一個(gè)支持 Interleaved Thinking 的 Coding CLI,700+ Star


Mini-Agent 項(xiàng)目

,開發(fā)者容易踩坑 MiniMax 還專門寫了篇文章,講怎么在不同 API 格式下正確實(shí)現(xiàn) Interleaved Thinking 算是手把手教學(xué)了

最后

Interleaved Thinking 的核心就一句話:
保留推理狀態(tài),讓模型在多輪工具調(diào)用中持續(xù)累積理解

最開始的時(shí)候,我們對(duì)于 Agent 的期待,是它能不能使用工具
然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的嚴(yán)格模式下,做到 100% 的成功調(diào)用


OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

而現(xiàn)在,我們的思考變成了「調(diào)用工具時(shí),如何保持連貫思考」,剛剛結(jié)束的 AWS re:invent 大會(huì)上,主題也便是 Agentic AI


轉(zhuǎn)眼三年,有點(diǎn)恍惚...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
東契奇空砍38+10+10:湖人輸西部第二之爭(zhēng) 狂送7失誤成瑕疵

東契奇空砍38+10+10:湖人輸西部第二之爭(zhēng) 狂送7失誤成瑕疵

醉臥浮生
2026-01-08 13:02:52
美國(guó)官員稱:主宰這個(gè)世界的是實(shí)力 武力與權(quán)力

美國(guó)官員稱:主宰這個(gè)世界的是實(shí)力 武力與權(quán)力

看看新聞Knews
2026-01-08 11:01:03
“剛買的新車,就要拆發(fā)動(dòng)機(jī)大修!”知名大牌汽車,引發(fā)滬上消費(fèi)者“集體維權(quán)”

“剛買的新車,就要拆發(fā)動(dòng)機(jī)大修!”知名大牌汽車,引發(fā)滬上消費(fèi)者“集體維權(quán)”

新民晚報(bào)
2026-01-07 20:30:39
《尋秦記》片酬曝光,古天樂零收入,林峯第二,最高的你想不到

《尋秦記》片酬曝光,古天樂零收入,林峯第二,最高的你想不到

電影票房預(yù)告片
2026-01-08 00:02:54
雷軍全面回應(yīng)“營(yíng)銷大師”標(biāo)簽:娛樂節(jié)目中劉強(qiáng)東團(tuán)隊(duì)開個(gè)玩笑,被人放大利用,現(xiàn)在聽到營(yíng)銷兩個(gè)字都有點(diǎn)惡心

雷軍全面回應(yīng)“營(yíng)銷大師”標(biāo)簽:娛樂節(jié)目中劉強(qiáng)東團(tuán)隊(duì)開個(gè)玩笑,被人放大利用,現(xiàn)在聽到營(yíng)銷兩個(gè)字都有點(diǎn)惡心

每日經(jīng)濟(jì)新聞
2026-01-08 00:48:20
庫(kù)明加交易接近達(dá)成,爆勇士籃網(wǎng)6換3交易方案,庫(kù)里第5冠有戲了

庫(kù)明加交易接近達(dá)成,爆勇士籃網(wǎng)6換3交易方案,庫(kù)里第5冠有戲了

籃球看比賽
2026-01-08 12:19:00
王石田樸珺婚變風(fēng)波升級(jí),女方整容前舊照被扒,曾為王石跪式服務(wù)

王石田樸珺婚變風(fēng)波升級(jí),女方整容前舊照被扒,曾為王石跪式服務(wù)

瓜汁橘長(zhǎng)Dr
2026-01-05 16:48:07
澤連斯基引發(fā)的鏈?zhǔn)椒磻?yīng):俄羅斯的盟友接連倒下

澤連斯基引發(fā)的鏈?zhǔn)椒磻?yīng):俄羅斯的盟友接連倒下

高博新視野
2026-01-07 18:42:18
75比93狂輸18分!女籃爭(zhēng)冠大熱被掀翻:張子宇7分1板被鎖死了?

75比93狂輸18分!女籃爭(zhēng)冠大熱被掀翻:張子宇7分1板被鎖死了?

籃球快餐車
2026-01-08 01:23:41
19年,一個(gè)父親倒在尋找失蹤女兒的路上|在場(chǎng)

19年,一個(gè)父親倒在尋找失蹤女兒的路上|在場(chǎng)

紅星新聞
2026-01-08 00:09:17
她憑一己之力干倒了整個(gè)霸王茶姬

她憑一己之力干倒了整個(gè)霸王茶姬

太急張三瘋
2026-01-08 05:51:16
湖南一男子在高速上開車使用輔助駕駛,酣睡20公里后撞上護(hù)欄

湖南一男子在高速上開車使用輔助駕駛,酣睡20公里后撞上護(hù)欄

環(huán)球網(wǎng)資訊
2026-01-07 19:35:13
吹楊被交易至奇才!掏出手機(jī)起身離場(chǎng) 落寞背影預(yù)示老鷹時(shí)代落幕

吹楊被交易至奇才!掏出手機(jī)起身離場(chǎng) 落寞背影預(yù)示老鷹時(shí)代落幕

顏小白的籃球夢(mèng)
2026-01-08 10:44:54
特雷楊怒了!賽中慘遭交易直接爆發(fā),苦笑返場(chǎng)握手,原來詹皇沒錯(cuò)

特雷楊怒了!賽中慘遭交易直接爆發(fā),苦笑返場(chǎng)握手,原來詹皇沒錯(cuò)

嘴炮體壇
2026-01-08 11:17:26
科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
首屆柬埔寨精釀啤酒節(jié)將于1月31日舉行

首屆柬埔寨精釀啤酒節(jié)將于1月31日舉行

啤酒日?qǐng)?bào)
2026-01-07 18:48:30
俄羅斯赤道特遣隊(duì)撤回國(guó)內(nèi),美國(guó)捕馬撕去莫斯科最后一塊遮羞布

俄羅斯赤道特遣隊(duì)撤回國(guó)內(nèi),美國(guó)捕馬撕去莫斯科最后一塊遮羞布

史政先鋒
2026-01-07 19:38:07
女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

鋭娛之樂
2026-01-08 08:34:40
發(fā)現(xiàn)未婚妻有曖昧對(duì)象,南充一男子散布其不雅視頻后墜亡,其父母向公安局索賠60萬(wàn),法院:駁回所有訴求

發(fā)現(xiàn)未婚妻有曖昧對(duì)象,南充一男子散布其不雅視頻后墜亡,其父母向公安局索賠60萬(wàn),法院:駁回所有訴求

臺(tái)州交通廣播
2026-01-08 01:05:48
這就是NBA,特雷-楊被交易時(shí)還坐在替補(bǔ)席,隨后被叫回更衣室

這就是NBA,特雷-楊被交易時(shí)還坐在替補(bǔ)席,隨后被叫回更衣室

懂球帝
2026-01-08 10:53:12
2026-01-08 13:12:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
241文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營(yíng)銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

不談?lì)嵏才c奇跡,智駕企業(yè)還能聊點(diǎn)什么?

態(tài)度原創(chuàng)

教育
健康
房產(chǎn)
藝術(shù)
軍事航空

教育要聞

孩子的科技教育怎么跟上時(shí)代?

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

三亞新房,又全國(guó)第一了!

藝術(shù)要聞

頤和園金光穿洞

軍事要聞

特朗普提出將美國(guó)軍費(fèi)提升至1.5萬(wàn)億美元

無障礙瀏覽 進(jìn)入關(guān)懷版