国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

30B參數(shù)超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴展

0
分享至



「2018 到 2023 年間在 EMNLP 會議上發(fā)表的那篇論文中,第一作者本科就讀于達特茅斯學院、第四作者本科就讀于賓夕法尼亞大學的那篇科學論文,題目是什么?」

這并不是一道靠記憶就能解答的題。Agent 必須在多輪環(huán)境交互中,不斷假設、驗證并修正路徑,始終保持推理一致性,才能將零散證據(jù)整合成自洽鏈條。

2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長程任務中像人類專家一樣維持目標、驗證信息并動態(tài)調(diào)整策略。然而,訓練這樣的 Agent 面臨三大瓶頸:

  • 數(shù)據(jù)稀缺:高難度長程問答任務極度依賴人工標注,成本高昂。因此,我們需要一條能夠自動化合成高難度問題的鏈路。
  • 能力鴻溝:預訓練模型雖知識儲備豐富,卻缺乏與真實環(huán)境進行長程交互的能力。這需要通過低成本的中訓練階段來彌補鴻溝。
  • 環(huán)境缺失:在真實環(huán)境中訓練成本高且不可控。一個功能等價的模擬環(huán)境,可以在本地復現(xiàn)搜索過程,從而支持算法的快速迭代。

為突破瓶頸,REDSearcher 團隊設計了一套低成本、可擴展的訓練框架,最終使用 30B 規(guī)格模型在深度搜索任務上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



  • 論文標題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
  • 項目主頁:https://github.com/RedSearchAgent/REDSearcher
  • 論文鏈接:https://arxiv.org/abs/2602.14234
  • Collections:https://huggingface.co/collections/Zchu/redsearcher



一、什么是「足夠難」的深度搜索題目?

什么是困難的搜索題目?推理跳數(shù)往往只是表象,應該追求的是問題的結(jié)構性困難。

1. 拓撲復雜度:用樹寬衡量「結(jié)構性困難」

復雜任務中,信息分叉交織形成回環(huán)。Agent 需同時記憶多路推論,時刻驗證一致性,并隨時準備整體回溯,這便是深度搜索的核心挑戰(zhàn)。為此,團隊引入圖論中的TreeWidth(樹寬)概念來刻畫這種「結(jié)構性困難」。以下通過三種結(jié)構問題進行對比:



  • 線性/樹狀(樹寬=1):典型鏈式推理,只需按部就班檢索便可解答。
  • 菱形/回環(huán)(樹寬=2):出現(xiàn)分叉與重匯合,要求 Agent 維持多路假設的一致性,并在矛盾時進行回溯。
  • 強耦合子圖(樹寬≥3):形成網(wǎng)狀約束,需要將零散證據(jù)拼合成一致的整體,迫使模型進行全局驗證和回溯。

2. 信息分散度:杜絕搜索「捷徑」

即使問題的拓撲結(jié)構很復雜,如果存在一個網(wǎng)頁恰好包含所有關鍵事實,模型一次檢索就能抄走答案。為此,團隊引入「信息分散度」,即覆蓋全部關鍵證據(jù)所需的最小來源數(shù)。信息分散度越大,表明問題相關的證據(jù)片段(注:原文為“爭取片段”,疑為筆誤,此處已作修正)在互聯(lián)網(wǎng)上的分布就更加零散,這迫使 Agent 與外部環(huán)境進行更多輪次的交互從而獲取更加充分的信息。

二、大規(guī)?!缸詣踊购铣?/strong>

「高難度」的深度搜索問題

基于雙約束復雜度標準,我們采用 graph-to-text 流程合成數(shù)據(jù):先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語言問題,并經(jīng)過多層校驗確?!父唠y度、可解且答案唯一」。同時,我們設計了基于「結(jié)構化信息」與「網(wǎng)絡瀏覽」兩套圖構造流程,以覆蓋不同搜索環(huán)境。在合成問題中,我們采?。?/p>

  • 拓撲結(jié)構增強:直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對初始依賴圖進行「拓撲加密」,通過添加環(huán)狀與交錯約束,顯著提升結(jié)構復雜度,迭代地提高問題難度。
  • 工具增強的問題合成:在問題構造階段,我們主動植入工具調(diào)用需求。通過將關鍵實體替換為隱含工具依賴的表達(如地名→地圖服務、文章→谷歌學術),使工具調(diào)用成為解題前置條件。



三、多模態(tài)擴展:從「文本圖」到「多模態(tài)圖」

在文本合成基礎上,REDSearcher 通過模態(tài)注入將純文本推理圖轉(zhuǎn)化為跨模態(tài)推理,使部分約束錨定在圖像中。

  • 視覺屬性錨定:用圖像描述替換節(jié)點的文本屬性,迫使模型先識別圖像再關聯(lián)知識。
  • 跨模態(tài)依賴:設置視覺不可替代約束,使圖像搜索成為推理必經(jīng)之路,而非冗余信息。
  • 視覺語義抽象:使用抽象指代替代直接命名,迫使模型識別圖像內(nèi)容后再進行搜索。
  • 模態(tài)靈活插入:視覺證據(jù)可插入推理鏈任意位置,既可早期設置瓶頸增加難度,也可后期引入驗證,實現(xiàn)難度精細控制。

通過這套輕量級擴展,REDSearcher 可高效遷移至多模態(tài)搜索領域,合成高質(zhì)量的圖文深度搜索問題。

四、「成本可控」Mid-Training 強化智能體能力

預訓練模型缺乏多輪交互訓練,在長程搜索中易出現(xiàn)目標漂移、重復搜索等問題。為此,REDSearcher 采用可擴展的兩階段 Mid-Training 框架,依次強化模型的「原子能力」與「組合能力」,實現(xiàn)從語言建模到智能體的過渡。



原子能力建設

針對深度搜索重要的兩個基礎能力優(yōu)化:

  • 意圖錨定:從含噪的觀測中精準抓取關鍵證據(jù),過濾噪聲,減少幻覺與推理漂移。
  • 層次化規(guī)劃:將復雜目標拆解為可立即求解的具體目標與需逐步消解的不確定目標,確保規(guī)劃可落地。

組合能力建設

通過環(huán)境交互強化長程任務中的狀態(tài)維持與目標一致性,全程以成本為約束:

  • 工具調(diào)用能力:通過合成工具協(xié)議與本地模擬環(huán)境交互,使模型在 ReACT 范式下掌握基礎與外界環(huán)境交互能力。
  • 長程交互能力:在「功能一致」模擬環(huán)境中,讓 Agent 進行長程的環(huán)境交互,強化規(guī)劃能力與目標一致性。

五、后訓練持續(xù)進化:

不只是「搜得多」,更要「搜得準」

后訓練采取 SFT + Agentic RL 雙階段增強:

  • 在真實環(huán)境中交互,通過多重過濾獲取長程高質(zhì)量軌跡,教會模型深度搜索行為。
  • 在真實搜索環(huán)境中進一步優(yōu)化策略,關鍵設計包括:
  • 低成本驗證:構建「功能等價」的本地模擬環(huán)境,保持 API 一致、證據(jù)完備且含噪聲,加速實驗迭代。
  • 數(shù)據(jù)質(zhì)量保障:針對合成問題中存在的答案錯誤、一題多解現(xiàn)象,采用 Agent-as-Verifier 對強化學習問題集進行校驗,避免數(shù)據(jù)污染影響訓練穩(wěn)定性。

團隊觀察到了效率與性能同步提升的現(xiàn)象:隨著訓練進行,模型的平均交互輪次不斷下降,但準確率持續(xù)提升。這表明 REDSearcher 并非簡單的「暴力搜索」,而是學會了更精準的信息獲取策略,主動減少無效調(diào)用,形成「越訓越聰明」的良性循環(huán)。

六、實驗結(jié)果

在多項深度搜索權威基準上,REDSearcher 在開源模型中取得了優(yōu)異的表現(xiàn):

  • REDSearcher 在同規(guī)模開源模型中取得了 SoTA 水平,并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型(*為帶有上下文管理的性能)。
  • REDSearcher-MM 在多模態(tài)搜索基準中相比同規(guī)格模型取得了 SoTA 水平,并且性能超過 Gemini-2.5-pro,在部分基準上取得了接近 Gemini-3-pro 的性能。





結(jié)語

REDSearcher 的核心在于系統(tǒng)性設計:從圖論角度定義深度搜索任務復雜度,以雙約束優(yōu)化可擴展合成數(shù)據(jù),以兩階段中間訓練降低能力遷移成本,以高質(zhì)量軌跡合成結(jié)合強化學習實現(xiàn)持續(xù)迭代。它提供了一條可復現(xiàn)、低成本的深度搜索智能體訓練路徑,使 AI 系統(tǒng)從靜態(tài)知識查詢走向開放環(huán)境下的自主探索、驗證與信息整合。

作者簡介

初征,哈工大社會計算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導,研究方向是智能體、大語言模型、復雜推理、深度搜索。

王梟,就職于小紅書 Hi Lab,負責Search Agent,主要關注長程推理、智能體、數(shù)據(jù)合成、強化學習。

Jack Hong,小紅書 Hi Lab 團隊算法實習生,主要研究方向是多模態(tài)大模型、Agent、計算機視覺等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:收盤后,傳來一個消息,明天,周二或要這樣走了!

A股:收盤后,傳來一個消息,明天,周二或要這樣走了!

明心
2026-03-09 16:36:34
拿10枚奧運獎牌,27歲張雨霏正式上任,職務不一般,級別年薪如何

拿10枚奧運獎牌,27歲張雨霏正式上任,職務不一般,級別年薪如何

查爾菲的筆記
2026-03-09 13:28:14
國家發(fā)改委:中石油、中石化、中海油三大公司及其他原油加工企業(yè)要組織好成品油生產(chǎn)和調(diào)運 確保市場穩(wěn)定供應

國家發(fā)改委:中石油、中石化、中海油三大公司及其他原油加工企業(yè)要組織好成品油生產(chǎn)和調(diào)運 確保市場穩(wěn)定供應

財聯(lián)社
2026-03-09 17:06:23
下一個消失的,不是行業(yè),是人

下一個消失的,不是行業(yè),是人

青蘋果sht
2026-02-25 05:59:43
央視主持李靜:事業(yè)遭滑鐵盧,55歲對男人失去興趣,原因令人唏噓

央視主持李靜:事業(yè)遭滑鐵盧,55歲對男人失去興趣,原因令人唏噓

白面書誏
2026-03-09 13:28:02
王毅宣布:中方將于5月1日全面實施對非洲100%稅目產(chǎn)品的零關稅

王毅宣布:中方將于5月1日全面實施對非洲100%稅目產(chǎn)品的零關稅

臺州交通廣播
2026-03-08 12:34:13
昨日因果昨日了!這次潘粵明和董潔聯(lián)手,給離異夫妻上了生動一課

昨日因果昨日了!這次潘粵明和董潔聯(lián)手,給離異夫妻上了生動一課

八斗小先生
2026-03-09 11:51:27
再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

美家指南
2026-02-24 15:48:11
三年多來首次突破每桶100美元!特朗普回應國際油價暴漲:這只是一個“非常小的代價”

三年多來首次突破每桶100美元!特朗普回應國際油價暴漲:這只是一個“非常小的代價”

大象新聞
2026-03-09 16:02:20
890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

墨蘭史書
2026-03-09 12:40:03
【特稿】美軍死亡人數(shù)上升 預計會有更大傷亡 

【特稿】美軍死亡人數(shù)上升 預計會有更大傷亡 

新華社
2026-03-09 14:08:03
長度27萬公里,厚度卻只有10米,土星環(huán)究竟是個什么怪物?

長度27萬公里,厚度卻只有10米,土星環(huán)究竟是個什么怪物?

觀察宇宙
2026-03-08 18:19:50
高速服務區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

高速服務區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

愛下廚的阿釃
2026-03-08 16:21:08
交通運輸部部長劉偉:今年著力破解節(jié)假日交通難點堵點問題

交通運輸部部長劉偉:今年著力破解節(jié)假日交通難點堵點問題

中國青年報
2026-03-09 11:36:05
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

老特有話說
2026-03-08 15:30:41
就在今晚!3月9日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

就在今晚!3月9日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-09 04:17:40
俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認哈梅內(nèi)伊位置,會沒開完就溜了

俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認哈梅內(nèi)伊位置,會沒開完就溜了

蕭鑟科普解說
2026-03-07 00:30:38
中計了!幾千萬戰(zhàn)機變廢鐵,美在伊幾十年底牌也將燒光,這波血虧

中計了!幾千萬戰(zhàn)機變廢鐵,美在伊幾十年底牌也將燒光,這波血虧

紀中百大事
2026-03-08 09:45:03
美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

深度解析熱點
2026-03-07 19:10:18
伊朗選出新領袖,戰(zhàn)事還要打多久:“凱恩預言”或成真,特朗普打“退堂鼓”?

伊朗選出新領袖,戰(zhàn)事還要打多久:“凱恩預言”或成真,特朗普打“退堂鼓”?

紅星新聞
2026-03-09 10:05:03
2026-03-09 19:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭推入第二階段欲"強拆伊朗"

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭推入第二階段欲"強拆伊朗"

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

亞太股市黑色星期一 這次A股有點不一樣

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

手機
健康
旅游
游戲
數(shù)碼

手機要聞

消息稱追覓手機定位高端影像旗艦:1英寸主攝+磁吸鏡頭模塊

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

@所有旅游企業(yè):讓真正有價值的創(chuàng)新,被全行業(yè)看見!

林俊杰也在玩PS5引熱議:還是30周年限定款!

數(shù)碼要聞

黑鯊多款新配件官宣:含冰封液冷背夾、筆記本散熱器等,本月發(fā)布

無障礙瀏覽 進入關懷版