国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人大&通義:IterResearch用40K上下文輕松實(shí)現(xiàn)2048輪交互不退化

0
分享至



以 40K 上下文,讓 Agent 搜索 2048 輪,性能還能一路漲?這幾乎是不可想象的。

當(dāng)前主流的 Search Agent 都面臨同一個(gè)尷尬:Agent 需要反復(fù)搜索網(wǎng)頁、比對(duì)線索、驗(yàn)證假設(shè)、回溯修正,交互輪次動(dòng)輒數(shù)十上百輪。但以 ReAct 為代表的傳統(tǒng)范式,把每一輪的思考和工具返回結(jié)果不斷追加到同一個(gè)上下文窗口中 —— 做得越多,上下文越臃腫,留給推理的空間越少,早期的噪聲和錯(cuò)誤路徑還被永久「焊死」在記憶里。

結(jié)果就是:Agent 搜得越深入,反而「想」得越糊涂。

能不能讓 Agent 在探索過程中不斷「清理工作臺(tái)」,始終在一個(gè)干凈的空間里思考?

來自中國(guó)人民大學(xué)與阿里巴巴通義實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了 IterResearch,一種全新的迭代式深度研究范式。

通過馬爾可夫式的工作空間重構(gòu),IterResearch 讓 Agent 在僅 40K 上下文長(zhǎng)度下完成了 2048 次工具交互且性能不衰減,在 BrowseComp 上從 3.5% 一路攀升至 42.5%。

目前,該論文已被 ICLR 2026 接收。



  • 論文鏈接:https://arxiv.org/pdf/2511.07327
  • 代碼鏈接:https://github.com/Chen-GX/IterResearch

「堆上下文」為什么難以實(shí)現(xiàn) Interaction Scaling?

在 Search Agent 場(chǎng)景下,Agent 的工作本質(zhì)上是一個(gè)與外部環(huán)境不斷交互的循環(huán)。傳統(tǒng) ReAct 范式將這一過程建模為「單上下文堆疊」:每一輪的推理和工具返回被持續(xù)追加到同一個(gè)上下文窗口中,形成線性增長(zhǎng)的記憶鏈。

這種看似自然的設(shè)計(jì),在長(zhǎng)程任務(wù)中會(huì)引發(fā)兩個(gè)結(jié)構(gòu)性問題:

  • 其一是上下文窒息(context suffocation):上下文窗口的總?cè)萘渴怯邢薜模瑲v史信息不斷堆積意味著留給后續(xù)推理的「生成預(yù)算」被持續(xù)壓縮。Agent 被迫給出更短、更淺的回答,最終滑向草率的結(jié)論;
  • 其二是噪聲污染(noise contamination):搜索過程中產(chǎn)生的大量網(wǎng)頁摘要、早期的錯(cuò)誤路徑和無關(guān)線索被永久寫入上下文,對(duì)后續(xù)推理產(chǎn)生級(jí)聯(lián)干擾,信噪比持續(xù)走低。

社區(qū)已經(jīng)意識(shí)到了這些問題,陸續(xù)提出了 context folding、summary 等緩解策略,試圖為搖搖欲墜的上下文「續(xù)命」。但這些方法本質(zhì)上是在補(bǔ)救,并未從根本上改變上下文線性增長(zhǎng)的結(jié)構(gòu) —— 給 Agent 256K 甚至更長(zhǎng)的窗口,也只是推遲崩潰,而非避免崩潰。

不再「堆疊」,而是「重構(gòu)」:IterResearch 的核心思路

IterResearch 對(duì)這一問題的回應(yīng)不是修修補(bǔ)補(bǔ),而是從范式層面重新思考:與其不斷往上下文里塞東西,不如讓 Agent 學(xué)會(huì)「邊做邊清理」。



研究團(tuán)隊(duì)將長(zhǎng)程研究過程形式化為一個(gè)馬爾可夫決策過程(MDP)。核心思想是:Agent 不再維護(hù)一個(gè)不斷膨脹的完整歷史,而是通過一個(gè)持續(xù)進(jìn)化的「演進(jìn)式報(bào)告」(evolving report)來綜合已有成果、壓縮無關(guān)信息、更新推理狀態(tài)。每一輪推理都在一個(gè)被重構(gòu)過的、恒定復(fù)雜度的工作空間中展開。

具體來說,Agent 的每一步包含兩個(gè)核心動(dòng)作:

  • 決策階段:Agent 基于當(dāng)前狀態(tài),輸出三部分 —— 思考過程(Think)、更新后的演進(jìn)報(bào)告(Report)和本輪工具調(diào)用請(qǐng)求(Action)。報(bào)告在這里扮演了「壓縮記憶」的角色,Agent 需要在每一輪主動(dòng)決定哪些信息值得保留,哪些應(yīng)該被丟棄。
  • 狀態(tài)轉(zhuǎn)移階段:進(jìn)入下一輪時(shí),完整的歷史軌跡被有意丟棄,Agent 僅保留更新后的報(bào)告、上一輪的工具調(diào)用及其返回結(jié)果,三者共同構(gòu)成新的推理起點(diǎn)。

從上下文管理的視角看,傳統(tǒng) ReAct 的狀態(tài)空間隨交互輪次 t 線性增長(zhǎng)(O (t)),而 IterResearch 的工作空間始終保持恒定(O (1))。

研究團(tuán)隊(duì)指出,這種機(jī)制與 RNN/LSTM 中的隱狀態(tài)更新有結(jié)構(gòu)上的相似性 —— 都通過一個(gè)隱狀態(tài)來承載記憶并逐步更新。不同之處在于,IterResearch 的「隱狀態(tài)」是一份顯式、可解釋的研究報(bào)告,既能濃縮歷史,又能為下一步推理提供清晰的起點(diǎn)。



40K 上下文,2048 輪交互不退化:Interaction Scaling 的威力

這項(xiàng)工作中最核心的發(fā)現(xiàn),就是 Interaction Scaling 特性 ——給 Agent 更多的交互預(yù)算,性能就能持續(xù)提升,而不會(huì)像傳統(tǒng)方法那樣因?yàn)樯舷挛囊绯龆罎ⅰ?/p>



在 BrowseComp 基準(zhǔn)上,研究團(tuán)隊(duì)將 Agent 的最大交互輪次從 2 逐步放寬到 2048。結(jié)果顯示,IterResearch 的準(zhǔn)確率從 3.5% 一路攀升到 42.5%,且在 2048 輪時(shí)依然沒有出現(xiàn)明顯的退化跡象。而傳統(tǒng)單上下文方法在幾十輪后就已經(jīng)不堪重負(fù)。

值得強(qiáng)調(diào)的是,2048 并非 IterResearch 的交互上限,而僅是實(shí)驗(yàn)評(píng)測(cè)范圍的終點(diǎn)。模型在 2048 輪時(shí)性能曲線仍保持上升趨勢(shì),表明該范式在理論上具備進(jìn)一步擴(kuò)展的潛力。

這一結(jié)果傳遞了一個(gè)重要信號(hào):長(zhǎng)程任務(wù)的「難」,可能并非完全來自模型推理能力不足,更有可能是探索深度受限。當(dāng) Agent 擁有一個(gè)干凈的思維空間并被允許充分探索時(shí),它確實(shí)有能力在超長(zhǎng)任務(wù)中持續(xù)進(jìn)步。

另一個(gè)有意思的發(fā)現(xiàn)是:盡管最大輪次被設(shè)置為 2048,Agent 實(shí)際上平均只用了約 80 輪。它學(xué)會(huì)了在獲取足夠信息后主動(dòng)終止,而非機(jī)械地耗盡預(yù)算 —— 這說明Agent 不僅學(xué)會(huì)了「走得遠(yuǎn)」,還學(xué)會(huì)了「知道何時(shí)?!?。

「即插即用」的推理范式:不訓(xùn)練也能提升閉源模型

如果僅把 IterResearch 的迭代邏輯作為提示策略(prompting strategy),直接應(yīng)用于閉源模型而不做任何訓(xùn)練,效果會(huì)怎樣?

研究團(tuán)隊(duì)在 o3 和 DeepSeek-V3.1 上做了驗(yàn)證。在完全相同的任務(wù)設(shè)定下,相比傳統(tǒng)的 ReAct 提示范式,IterResearch 在最具挑戰(zhàn)性的 BrowseComp 上分別為 o3 帶來了 12.7 個(gè)百分點(diǎn)、為 DeepSeek-V3.1 帶來了 19.2 個(gè)百分點(diǎn)的提升。



這說明IterResearch 的核心優(yōu)勢(shì)在于結(jié)構(gòu)性的認(rèn)知機(jī)制,而非依賴特定數(shù)據(jù)或微調(diào)技巧。無論底層模型是什么架構(gòu),它觸及的都是長(zhǎng)程推理中的共性瓶頸。

總結(jié)

IterResearch 提出了一個(gè)簡(jiǎn)潔而有效的范式轉(zhuǎn)換:與其不斷修補(bǔ)一個(gè)注定會(huì)崩潰的線性上下文,不如從結(jié)構(gòu)上讓 Agent 學(xué)會(huì)「邊做邊重構(gòu)思維」。

這一思路在訓(xùn)練框架、提示策略和跨范式遷移三個(gè)層面都展現(xiàn)了一致的有效性,而其揭示的 Interaction Scaling 特性更是為長(zhǎng)程 Agent 的能力邊界打開了新的想象空間。在 Agent 走向真正長(zhǎng)期、持續(xù)運(yùn)行的未來,IterResearch 提供了一個(gè)值得關(guān)注的方向。

作者介紹

第一作者陳國(guó)鑫,中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士生,導(dǎo)師為趙鑫教授和宋睿華教授,研究方向?yàn)?LLM 推理與 Agent,聚焦搜索智能體與代碼智能體。曾在阿里巴巴通義實(shí)驗(yàn)室等機(jī)構(gòu)實(shí)習(xí),在 ICLR、ICML、NeurIPS、ACL 等頂級(jí)會(huì)議發(fā)表多篇論文。本工作由中國(guó)人民大學(xué)與阿里巴巴通義實(shí)驗(yàn)室合作完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
開始投放!2026版1000元發(fā)行,哪些新版紙幣別亂花?

開始投放!2026版1000元發(fā)行,哪些新版紙幣別亂花?

天天紀(jì)念幣
2026-03-02 10:23:23
美“福特”號(hào)航母駛離希臘克里特島

美“福特”號(hào)航母駛離希臘克里特島

財(cái)聯(lián)社
2026-02-26 16:57:07
突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

證券時(shí)報(bào)e公司
2026-03-02 23:05:14
哈梅內(nèi)伊早就死了,根本沒躲進(jìn)地堡,商量怎么讓步時(shí)被一鍋端

哈梅內(nèi)伊早就死了,根本沒躲進(jìn)地堡,商量怎么讓步時(shí)被一鍋端

遁走的兩輪
2026-03-01 20:54:39
王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

深度解析熱點(diǎn)
2026-03-02 18:41:27
1.76億獨(dú)生子女,迎來一個(gè)壞消息,以后可能真的沒親戚了

1.76億獨(dú)生子女,迎來一個(gè)壞消息,以后可能真的沒親戚了

老特有話說
2026-03-01 21:57:03
西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

籃球大視野
2026-03-02 15:45:08
爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

通信頭條
2026-03-02 21:06:39
幫助中國(guó)人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

幫助中國(guó)人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

南方都市報(bào)
2026-03-02 18:51:01
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
蘋果中國(guó)官網(wǎng)上線新款iPhone 17e,起售價(jià)4499元

蘋果中國(guó)官網(wǎng)上線新款iPhone 17e,起售價(jià)4499元

界面新聞
2026-03-02 22:21:17
寧波一旅游團(tuán)所乘郵輪滯留迪拜,船上有約200名中國(guó)游客

寧波一旅游團(tuán)所乘郵輪滯留迪拜,船上有約200名中國(guó)游客

上觀新聞
2026-03-02 16:27:07
特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
終于反噬!網(wǎng)約車大量低價(jià)單沒人接,司機(jī):報(bào)應(yīng)來了。

終于反噬!網(wǎng)約車大量低價(jià)單沒人接,司機(jī):報(bào)應(yīng)來了。

我不叫阿哏
2026-03-02 17:00:41
難以置信!網(wǎng)傳深圳一數(shù)學(xué)名師一年靠補(bǔ)課能掙500萬,一節(jié)課900元

難以置信!網(wǎng)傳深圳一數(shù)學(xué)名師一年靠補(bǔ)課能掙500萬,一節(jié)課900元

火山詩話
2026-03-02 09:07:10
43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長(zhǎng),疑好事將近

43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長(zhǎng),疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

首席品牌觀察
2026-03-02 11:09:54
受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

Vista氫商業(yè)
2026-03-02 14:01:11
伊朗稱正在開展“真實(shí)承諾-4”第11輪導(dǎo)彈襲擊

伊朗稱正在開展“真實(shí)承諾-4”第11輪導(dǎo)彈襲擊

財(cái)聯(lián)社
2026-03-02 20:18:25
再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

我不叫阿哏
2026-03-02 10:02:54
2026-03-02 23:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
健康
藝術(shù)
親子
本地

《寶可夢(mèng)》新作M站90分!近年最新鮮的寶可夢(mèng)體驗(yàn)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

簡(jiǎn)約的風(fēng)景畫,美國(guó)畫家Ben Bauer作品

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

本地新聞

津南好·四時(shí)總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版