国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI記住失敗經(jīng)驗:微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

0
分享至



想象一下,你讓 AI 助手結(jié)合搜索工具探索一個復(fù)雜問題。它第一次探索時走錯了方向,但第二次、第三次,它依然重復(fù)同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個勉強滿意的答案,但是這既低效,也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無法「記住」之前的探索經(jīng)驗,每次都是從頭開始,導(dǎo)致大量冗余搜索和資源浪費。

現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建,采用線性推理方式:「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計在簡單任務(wù)上表現(xiàn)良好,但在需要多輪探索的深度搜索任務(wù)中,往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

來自東南大學(xué)、微軟亞洲研究院等機構(gòu)的研究團隊提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗,在多個探索軌跡之間傳遞經(jīng)驗,實現(xiàn)漸進式的智能搜索。



  • 論文標(biāo)題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2602.02486
  • 項目鏈接:
  • https://github.com/microsoft/InfoAgent

讓探索變成「漸進式學(xué)習(xí)」過程

為什么 ReAct 會失敗?

ReAct 框架的核心問題在于其線性設(shè)計。每個探索軌跡都是獨立的,模型無法回顧先前嘗試的狀態(tài)。在長上下文場景下,早期制定的計劃逐漸被遺忘,關(guān)鍵線索被埋沒。

研究團隊通過深入分析發(fā)現(xiàn),現(xiàn)有深度搜索模型即使經(jīng)過大量強化學(xué)習(xí)訓(xùn)練,其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能,問題在于受限于上下文長度限制,單次探索難以生成足夠多樣的探索路徑,無法覆蓋足夠?qū)拸V的搜索空間。

Re-TRAC:遞歸式軌跡壓縮

Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉(zhuǎn)變?yōu)闈u進式學(xué)習(xí)過程。具體而言,在每個探索軌跡結(jié)束時生成一個結(jié)構(gòu)化的狀態(tài)表示,針對深度搜索任務(wù),記錄以下三個維度的信息:

  • 答案與分析結(jié)論:當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點。

  • 證據(jù)庫與來源驗證:已搜集到的證據(jù)及其來源,并標(biāo)記哪些已被查閱、已被驗證——避免冗余的工具調(diào)用和重復(fù)檢查。

  • 不確定項與待探索方向:現(xiàn)階段需要繼續(xù)探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補全未探索的搜索空間。

這個結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開始時,都能清楚地了解什么已被驗證、什么仍未解決,以及應(yīng)該將探索重點放在哪里。



小模型也能「以小博大」

研究團隊在五個具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳:

  • BrowseComp上達(dá)到 30.0% 的準(zhǔn)確率;
  • BrowseComp-ZH上達(dá)到 36.1%;
  • GAIA上達(dá)到 70.4%;
  • XBench上達(dá)到 76.6%;
  • HLE上達(dá)到 22.2%。

更令人驚訝的是,這個僅 4B 參數(shù)的模型在多個基準(zhǔn)上超越了更大規(guī)模的模型。

  • XBench基準(zhǔn)上,RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過了 NestBrowse-4B 的 74.0%。

  • GAIA基準(zhǔn)上,RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的進一步突破

RE-TRAC-30B 同樣表現(xiàn)出色,在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

  • BrowseComp上,其準(zhǔn)確率達(dá)到 53%,甚至超過了 GLM-4.7-358B 的 52%。

  • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

這些結(jié)果說明,通過軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不僅可以通過訓(xùn)練提升小模型性能,還可以作為無需訓(xùn)練的測試擴展直接應(yīng)用于前沿模型。

研究團隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現(xiàn)了 Re-TRAC 框架,并與多數(shù)投票(Majority Voting)、加權(quán)投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進行了對比。



結(jié)果顯示,Re-TRAC 在所有模型上都達(dá)到了最佳或具有競爭力的性能。在 BrowseComp300 子集上:

  • o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%;
  • o3從 54.9% 提升到 69.8%;
  • GPT-5-medium從 48.3% 提升到 66.6%;
  • DeepSeek-V3.2從 45.3% 提升到 60.8%;
  • GLM-4.7從 37.7% 提升到 60.7%。

在傳統(tǒng)框架中,由于軌跡相互獨立,資源使用量通常隨擴展近似線性增長。Re-TRAC 會繼承之前輪次的狀態(tài),使搜索空間逐步收斂,從而減少冗余工具調(diào)用與重復(fù)探索,提升探索的效率。

技術(shù)細(xì)節(jié):

如何訓(xùn)練 Re-TRAC 模型

研究團隊開發(fā)了一種后訓(xùn)練方法,構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過實體樹方法構(gòu)建:從維基百科收集大量實體作為樹根,然后遞歸搜索相關(guān)實體作為子節(jié)點,直到樹達(dá)到預(yù)定義深度。

通過選擇從根到葉節(jié)點的路徑并將邊轉(zhuǎn)換為子問題,團隊合成了 33K 個問答對。然后,收集 GLM-4.7 在這些合成問題上的 Re-TRAC(4 輪)軌跡,經(jīng)過過濾后得到 104k 個訓(xùn)練樣本,用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實驗結(jié)果顯示,經(jīng)過 SFT 訓(xùn)練后,Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

這表明通過簡單的 SFT 訓(xùn)練,配合 Re-TRAC 框架,可以產(chǎn)生強大的搜索智能體,實現(xiàn)與通過大規(guī)模強化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

總結(jié):

優(yōu)化 ReAct 的搜索框架,

讓小模型跑出大模型表現(xiàn)

Re-TRAC 可以看作是針對深度搜索任務(wù)優(yōu)化過的 ReAct 框架:在原有「思考→調(diào)用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示,讓智能體在開放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場景中不再「從零開始」,而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來方向。

更重要的是,這種有針對性的框架設(shè)計讓小模型也能跑出大模型級別的效果,為資源受限場景(如邊緣設(shè)備、本地部署)提供了一條「用小模型做大事」的現(xiàn)實路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普瘋了?并沒有。杰利亞金贊同格拉濟耶夫,并預(yù)測了后續(xù)走向

特朗普瘋了?并沒有。杰利亞金贊同格拉濟耶夫,并預(yù)測了后續(xù)走向

生活魔術(shù)專家
2026-03-03 00:17:46
揭秘蕩寇志中梁山108好漢下場:36人被凌遲,66人陣亡,3人被虐殺

揭秘蕩寇志中梁山108好漢下場:36人被凌遲,66人陣亡,3人被虐殺

談史論天地
2026-02-28 09:14:10
都被史記騙了!春秋戰(zhàn)國打仗有50萬大軍,明清湊15萬兵力都費勁?

都被史記騙了!春秋戰(zhàn)國打仗有50萬大軍,明清湊15萬兵力都費勁?

老達(dá)子
2026-03-02 06:40:03
該出大招了!小學(xué)生,加速減少了

該出大招了!小學(xué)生,加速減少了

城市財經(jīng)
2026-03-02 11:38:06
美媒:中日空戰(zhàn)將一邊倒!不僅靠最強4.5代殲-15,解放軍還有殺招

美媒:中日空戰(zhàn)將一邊倒!不僅靠最強4.5代殲-15,解放軍還有殺招

起喜電影
2026-03-02 16:59:17
迪拜人設(shè)崩了

迪拜人設(shè)崩了

睡前馬戲團
2026-03-02 16:21:05
越南人民軍軍銜詳解

越南人民軍軍銜詳解

擦菠蘿的海綿寶寶
2026-03-02 09:39:33
江蘇一光伏企業(yè)宣布裁員!

江蘇一光伏企業(yè)宣布裁員!

新浪財經(jīng)
2026-03-02 18:11:34
成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

星星沒有你亮
2026-02-28 20:40:21
9金4銀!中國隊跳水世界杯加拿大站完美收官

9金4銀!中國隊跳水世界杯加拿大站完美收官

北青網(wǎng)-北京青年報
2026-03-02 10:45:02
你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

夢在深巷aqa
2026-02-25 00:15:06
伊朗被漏透成篩子了

伊朗被漏透成篩子了

老鷹哥
2026-03-03 00:06:21
伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動第十波攻勢

伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動第十波攻勢

每日經(jīng)濟新聞
2026-03-02 16:58:03
中國還會不會出現(xiàn)第2個毛澤東?外國專家:天才的出現(xiàn)具有偶然性

中國還會不會出現(xiàn)第2個毛澤東?外國專家:天才的出現(xiàn)具有偶然性

沈言論
2025-08-05 22:20:03
伊朗最高領(lǐng)袖哈梅內(nèi)伊的妻子因傷勢過重去世

伊朗最高領(lǐng)袖哈梅內(nèi)伊的妻子因傷勢過重去世

每日經(jīng)濟新聞
2026-03-03 00:32:43
伊朗人民等到了改變國運的機會,古巴人民也快了

伊朗人民等到了改變國運的機會,古巴人民也快了

基本常識
2026-03-01 22:14:59
伊朗媒體公布反擊美軍軍事行動結(jié)果

伊朗媒體公布反擊美軍軍事行動結(jié)果

新華社
2026-03-01 00:03:30
來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

懂球帝
2026-03-02 22:29:12
中核集團的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個身份

中核集團的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個身份

南權(quán)先生
2026-02-02 16:05:36
2026-03-03 01:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
藝術(shù)
親子
公開課
軍事航空

今年春天一定要擁有的4件衣服,太好看了!

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關(guān)懷版