国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI記住失敗經(jīng)驗:微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

0
分享至



想象一下,你讓 AI 助手結(jié)合搜索工具探索一個復(fù)雜問題。它第一次探索時走錯了方向,但第二次、第三次,它依然重復(fù)同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個勉強滿意的答案,但是這既低效,也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無法「記住」之前的探索經(jīng)驗,每次都是從頭開始,導(dǎo)致大量冗余搜索和資源浪費。

現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建,采用線性推理方式:「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計在簡單任務(wù)上表現(xiàn)良好,但在需要多輪探索的深度搜索任務(wù)中,往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

來自東南大學(xué)、微軟亞洲研究院等機構(gòu)的研究團隊提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗,在多個探索軌跡之間傳遞經(jīng)驗,實現(xiàn)漸進式的智能搜索。



  • 論文標(biāo)題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2602.02486
  • 項目鏈接:
  • https://github.com/microsoft/InfoAgent

讓探索變成「漸進式學(xué)習(xí)」過程

為什么 ReAct 會失???

ReAct 框架的核心問題在于其線性設(shè)計。每個探索軌跡都是獨立的,模型無法回顧先前嘗試的狀態(tài)。在長上下文場景下,早期制定的計劃逐漸被遺忘,關(guān)鍵線索被埋沒。

研究團隊通過深入分析發(fā)現(xiàn),現(xiàn)有深度搜索模型即使經(jīng)過大量強化學(xué)習(xí)訓(xùn)練,其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能,問題在于受限于上下文長度限制,單次探索難以生成足夠多樣的探索路徑,無法覆蓋足夠?qū)拸V的搜索空間。

Re-TRAC:遞歸式軌跡壓縮

Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉(zhuǎn)變?yōu)闈u進式學(xué)習(xí)過程。具體而言,在每個探索軌跡結(jié)束時生成一個結(jié)構(gòu)化的狀態(tài)表示,針對深度搜索任務(wù),記錄以下三個維度的信息:

  • 答案與分析結(jié)論:當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點。

  • 證據(jù)庫與來源驗證:已搜集到的證據(jù)及其來源,并標(biāo)記哪些已被查閱、已被驗證——避免冗余的工具調(diào)用和重復(fù)檢查。

  • 不確定項與待探索方向:現(xiàn)階段需要繼續(xù)探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補全未探索的搜索空間。

這個結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開始時,都能清楚地了解什么已被驗證、什么仍未解決,以及應(yīng)該將探索重點放在哪里。



小模型也能「以小博大」

研究團隊在五個具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳:

  • BrowseComp上達到 30.0% 的準(zhǔn)確率;
  • BrowseComp-ZH上達到 36.1%;
  • GAIA上達到 70.4%;
  • XBench上達到 76.6%;
  • HLE上達到 22.2%。

更令人驚訝的是,這個僅 4B 參數(shù)的模型在多個基準(zhǔn)上超越了更大規(guī)模的模型。

  • XBench基準(zhǔn)上,RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過了 NestBrowse-4B 的 74.0%。

  • GAIA基準(zhǔn)上,RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的進一步突破

RE-TRAC-30B 同樣表現(xiàn)出色,在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

  • BrowseComp上,其準(zhǔn)確率達到 53%,甚至超過了 GLM-4.7-358B 的 52%。

  • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

這些結(jié)果說明,通過軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不僅可以通過訓(xùn)練提升小模型性能,還可以作為無需訓(xùn)練的測試擴展直接應(yīng)用于前沿模型。

研究團隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現(xiàn)了 Re-TRAC 框架,并與多數(shù)投票(Majority Voting)、加權(quán)投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進行了對比。



結(jié)果顯示,Re-TRAC 在所有模型上都達到了最佳或具有競爭力的性能。在 BrowseComp300 子集上:

  • o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%;
  • o3從 54.9% 提升到 69.8%;
  • GPT-5-medium從 48.3% 提升到 66.6%;
  • DeepSeek-V3.2從 45.3% 提升到 60.8%;
  • GLM-4.7從 37.7% 提升到 60.7%。

在傳統(tǒng)框架中,由于軌跡相互獨立,資源使用量通常隨擴展近似線性增長。Re-TRAC 會繼承之前輪次的狀態(tài),使搜索空間逐步收斂,從而減少冗余工具調(diào)用與重復(fù)探索,提升探索的效率。

技術(shù)細(xì)節(jié):

如何訓(xùn)練 Re-TRAC 模型

研究團隊開發(fā)了一種后訓(xùn)練方法,構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過實體樹方法構(gòu)建:從維基百科收集大量實體作為樹根,然后遞歸搜索相關(guān)實體作為子節(jié)點,直到樹達到預(yù)定義深度。

通過選擇從根到葉節(jié)點的路徑并將邊轉(zhuǎn)換為子問題,團隊合成了 33K 個問答對。然后,收集 GLM-4.7 在這些合成問題上的 Re-TRAC(4 輪)軌跡,經(jīng)過過濾后得到 104k 個訓(xùn)練樣本,用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實驗結(jié)果顯示,經(jīng)過 SFT 訓(xùn)練后,Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

這表明通過簡單的 SFT 訓(xùn)練,配合 Re-TRAC 框架,可以產(chǎn)生強大的搜索智能體,實現(xiàn)與通過大規(guī)模強化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

總結(jié):

優(yōu)化 ReAct 的搜索框架,

讓小模型跑出大模型表現(xiàn)

Re-TRAC 可以看作是針對深度搜索任務(wù)優(yōu)化過的 ReAct 框架:在原有「思考→調(diào)用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示,讓智能體在開放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場景中不再「從零開始」,而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來方向。

更重要的是,這種有針對性的框架設(shè)計讓小模型也能跑出大模型級別的效果,為資源受限場景(如邊緣設(shè)備、本地部署)提供了一條「用小模型做大事」的現(xiàn)實路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王一博盜號風(fēng)波升級!鞋碼衣服相機細(xì)節(jié)全對上,連杜華名字都對應(yīng)

王一博盜號風(fēng)波升級!鞋碼衣服相機細(xì)節(jié)全對上,連杜華名字都對應(yīng)

萌神木木
2026-02-28 12:49:52
特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

每日經(jīng)濟新聞
2026-03-01 06:45:13
伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

財聯(lián)社
2026-02-28 21:40:35
特朗普聲稱伊朗最高領(lǐng)袖哈梅內(nèi)伊身亡,此前曾遭遇多次暗殺,去年6月已布局完整繼承體系,1989年曾以總統(tǒng)身份訪華

特朗普聲稱伊朗最高領(lǐng)袖哈梅內(nèi)伊身亡,此前曾遭遇多次暗殺,去年6月已布局完整繼承體系,1989年曾以總統(tǒng)身份訪華

極目新聞
2026-03-01 07:51:03
成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

星星沒有你亮
2026-02-28 20:40:21
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

離離言幾許
2026-02-27 21:13:58
伊朗別慌,三招反擊美以聯(lián)軍,實用管用

伊朗別慌,三招反擊美以聯(lián)軍,實用管用

今日馬說
2026-02-28 20:01:39
伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊按規(guī)將遞補,國足無緣

伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊按規(guī)將遞補,國足無緣

我愛英超
2026-03-01 06:49:59
以色列特拉維夫傳出巨大爆炸聲

以色列特拉維夫傳出巨大爆炸聲

澎湃新聞
2026-03-01 05:25:03
年銷7900輛,巨虧223億歐:意大利的汽車工業(yè)已然輸?shù)袅巳课磥?>
    </a>
        <h3>
      <a href=電科技網(wǎng)
2026-02-28 19:48:45
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟新聞
2026-02-28 14:37:58
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小熊回收站
2026-03-01 04:55:33
從國宴到夜宵攤:國產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

從國宴到夜宵攤:國產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

富貴說
2026-02-27 16:40:22
伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
讓領(lǐng)導(dǎo)先走?以色列徹底改變了戰(zhàn)爭習(xí)慣,自此食肉者得三思而后行

讓領(lǐng)導(dǎo)先走?以色列徹底改變了戰(zhàn)爭習(xí)慣,自此食肉者得三思而后行

尋途
2025-08-22 20:22:00
樊振東落選!世界杯名單公布,王勵勤說到做到,溫瑞博成最大黑馬

樊振東落選!世界杯名單公布,王勵勤說到做到,溫瑞博成最大黑馬

冷紫葉
2026-02-28 19:07:29
隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

側(cè)身凌空斬
2026-03-01 05:16:08
迪拜國際機場遭襲

迪拜國際機場遭襲

財聯(lián)社
2026-03-01 05:34:14
1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

流蘇晚晴
2026-02-26 18:18:15
丑聞曝光!前中國奧運冠軍爆料,恩師是披著人皮的狼,逼學(xué)員吃藥

丑聞曝光!前中國奧運冠軍爆料,恩師是披著人皮的狼,逼學(xué)員吃藥

北緯的咖啡豆
2026-02-27 00:06:22
2026-03-01 09:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

數(shù)碼
旅游
房產(chǎn)
健康
公開課

數(shù)碼要聞

英特爾Bartlett Lake-S旗艦現(xiàn)身 無法在消費級主板上啟動

旅游要聞

西寧探索“全氧旅游”暖心服務(wù)模式

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版