AI記住失敗經(jīng)驗(yàn)：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

2026-02-25 17:33:51　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

想象一下，你讓 AI 助手結(jié)合搜索工具探索一個(gè)復(fù)雜問題。它第一次探索時(shí)走錯(cuò)了方向，但第二次、第三次，它依然重復(fù)同樣的錯(cuò)誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個(gè)勉強(qiáng)滿意的答案，但是這既低效，也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無法「記住」之前的探索經(jīng)驗(yàn)，每次都是從頭開始，導(dǎo)致大量冗余搜索和資源浪費(fèi)。

現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建，采用線性推理方式：「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計(jì)在簡單任務(wù)上表現(xiàn)良好，但在需要多輪探索的深度搜索任務(wù)中，往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

來自東南大學(xué)、微軟亞洲研究院等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的解決方案——Re-TRAC（REcursive TRAjectory Compression），這個(gè)框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗(yàn)，在多個(gè)探索軌跡之間傳遞經(jīng)驗(yàn)，實(shí)現(xiàn)漸進(jìn)式的智能搜索。

論文標(biāo)題：RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
論文鏈接：
https://arxiv.org/abs/2602.02486
項(xiàng)目鏈接：
https://github.com/microsoft/InfoAgent

讓探索變成「漸進(jìn)式學(xué)習(xí)」過程

為什么 ReAct 會失??？

ReAct 框架的核心問題在于其線性設(shè)計(jì)。每個(gè)探索軌跡都是獨(dú)立的，模型無法回顧先前嘗試的狀態(tài)。在長上下文場景下，早期制定的計(jì)劃逐漸被遺忘，關(guān)鍵線索被埋沒。

研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn)，現(xiàn)有深度搜索模型即使經(jīng)過大量強(qiáng)化學(xué)習(xí)訓(xùn)練，其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能，問題在于受限于上下文長度限制，單次探索難以生成足夠多樣的探索路徑，無法覆蓋足夠?qū)拸V的搜索空間。

Re-TRAC：遞歸式軌跡壓縮

Re-TRAC 的核心思想是將探索從一系列獨(dú)立嘗試轉(zhuǎn)變?yōu)闈u進(jìn)式學(xué)習(xí)過程。具體而言，在每個(gè)探索軌跡結(jié)束時(shí)生成一個(gè)結(jié)構(gòu)化的狀態(tài)表示，針對深度搜索任務(wù)，記錄以下三個(gè)維度的信息：

答案與分析結(jié)論：當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點(diǎn)。

證據(jù)庫與來源驗(yàn)證：已搜集到的證據(jù)及其來源，并標(biāo)記哪些已被查閱、已被驗(yàn)證——避免冗余的工具調(diào)用和重復(fù)檢查。

不確定項(xiàng)與待探索方向：現(xiàn)階段需要繼續(xù)探索驗(yàn)證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向；幫助模型在下一輪中補(bǔ)全未探索的搜索空間。

這個(gè)結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中，確保智能體在每輪新嘗試開始時(shí)，都能清楚地了解什么已被驗(yàn)證、什么仍未解決，以及應(yīng)該將探索重點(diǎn)放在哪里。

小模型也能「以小博大」

研究團(tuán)隊(duì)在五個(gè)具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評估了 Re-TRAC：BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。

4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳：

BrowseComp上達(dá)到 30.0% 的準(zhǔn)確率；
BrowseComp-ZH上達(dá)到 36.1%；
GAIA上達(dá)到 70.4%；
XBench上達(dá)到 76.6%；
HLE上達(dá)到 22.2%。

更令人驚訝的是，這個(gè)僅 4B 參數(shù)的模型在多個(gè)基準(zhǔn)上超越了更大規(guī)模的模型。

XBench基準(zhǔn)上，RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%（提升了近 90%），也超過了 NestBrowse-4B 的 74.0%。

GAIA基準(zhǔn)上，RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的進(jìn)一步突破

RE-TRAC-30B 同樣表現(xiàn)出色，在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

BrowseComp上，其準(zhǔn)確率達(dá)到 53%，甚至超過了 GLM-4.7-358B 的 52%。

GAIA上，RE-TRAC-30B 擊敗了所有閉源模型，在 BrowseComp 和 BrowseComp-ZH 上排名第二。

這些結(jié)果說明，通過軌跡壓縮與跨輪次信息傳遞，小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不僅可以通過訓(xùn)練提升小模型性能，還可以作為無需訓(xùn)練的測試擴(kuò)展直接應(yīng)用于前沿模型。

研究團(tuán)隊(duì)在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實(shí)現(xiàn)了 Re-TRAC 框架，并與多數(shù)投票（Majority Voting）、加權(quán)投票（Weighted Voting）和最佳選擇（Best-of-N）等方法進(jìn)行了對比。

結(jié)果顯示，Re-TRAC 在所有模型上都達(dá)到了最佳或具有競爭力的性能。在 BrowseComp300 子集上：

o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%；
o3從 54.9% 提升到 69.8%；
GPT-5-medium從 48.3% 提升到 66.6%；
DeepSeek-V3.2從 45.3% 提升到 60.8%；
GLM-4.7從 37.7% 提升到 60.7%。

在傳統(tǒng)框架中，由于軌跡相互獨(dú)立，資源使用量通常隨擴(kuò)展近似線性增長。Re-TRAC 會繼承之前輪次的狀態(tài)，使搜索空間逐步收斂，從而減少冗余工具調(diào)用與重復(fù)探索，提升探索的效率。

技術(shù)細(xì)節(jié)：

如何訓(xùn)練 Re-TRAC 模型

研究團(tuán)隊(duì)開發(fā)了一種后訓(xùn)練方法，構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)（SFT）數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過實(shí)體樹方法構(gòu)建：從維基百科收集大量實(shí)體作為樹根，然后遞歸搜索相關(guān)實(shí)體作為子節(jié)點(diǎn)，直到樹達(dá)到預(yù)定義深度。

通過選擇從根到葉節(jié)點(diǎn)的路徑并將邊轉(zhuǎn)換為子問題，團(tuán)隊(duì)合成了 33K 個(gè)問答對。然后，收集 GLM-4.7 在這些合成問題上的 Re-TRAC（4 輪）軌跡，經(jīng)過過濾后得到 104k 個(gè)訓(xùn)練樣本，用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實(shí)驗(yàn)結(jié)果顯示，經(jīng)過 SFT 訓(xùn)練后，Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%，在 BrowseComp-ZH 上從 6.9% 提升到 36.1%，在 GAIA 上從 24.4% 提升到 70.4%，在 XBench 上從 45.0% 提升到 76.6%。

這表明通過簡單的 SFT 訓(xùn)練，配合 Re-TRAC 框架，可以產(chǎn)生強(qiáng)大的搜索智能體，實(shí)現(xiàn)與通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

總結(jié)：

優(yōu)化 ReAct 的搜索框架，

讓小模型跑出大模型表現(xiàn)

Re-TRAC 可以看作是針對深度搜索任務(wù)優(yōu)化過的 ReAct 框架：在原有「思考→調(diào)用工具→觀察→再思考」的范式上，引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示，讓智能體在開放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場景中不再「從零開始」，而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來方向。

更重要的是，這種有針對性的框架設(shè)計(jì)讓小模型也能跑出大模型級別的效果，為資源受限場景（如邊緣設(shè)備、本地部署）提供了一條「用小模型做大事」的現(xiàn)實(shí)路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.