国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華、無問芯穹發(fā)布多智能體WideSeek-R1,4B模型比肩671B模型!

0
分享至



DeepSeek-R1 的成功證明了「深度擴展(Depth Scaling)」在解決復(fù)雜邏輯推理上的巨大潛力。AI 社區(qū)開始思考另一個維度的可能性:當(dāng)任務(wù)不僅需要深度的推理,更需要極寬廣度的信息搜集時,單一的大模型還是最優(yōu)解嗎?

設(shè)想這樣一個場景:你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發(fā)投入對比表”。這是一個典型的廣度信息搜索任務(wù)。對于單個大模型而言,哪怕它是擁有 671B 參數(shù)的超大模型,面對這種需要數(shù)十次檢索,往往會陷入上下文信息干擾和串行效率低的問題,而顯得力不從心。

近日,來自清華大學(xué)與無問芯穹的 RLinf 團(tuán)隊提出了一種全新的互補維度 ——「廣度擴展(Width Scaling)」,并以此發(fā)布了多智能體系統(tǒng)WideSeek-R1。不同于以往依賴人工設(shè)計工作流的多智能體系統(tǒng),該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架 ,并通過多智能體強化學(xué)習(xí)(MARL)進(jìn)行端到端訓(xùn)練,展現(xiàn)出靈活的規(guī)?;{(diào)度高效的并發(fā)處理能力。

實驗結(jié)果顯示,4B 參數(shù)的 WideSeek-R1 在廣度搜索任務(wù)上的表現(xiàn)達(dá)到了40%的 Item F1指標(biāo),不僅看齊 671B 參數(shù)的 DeepSeek-R1 單智能體,更大幅超越了同參數(shù)規(guī)模的基線模型。



  • 論文標(biāo)題:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2602.04634
  • 項目主頁:https://wideseek-r1.github.io
  • 代碼文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
  • Hugging Face 模型和數(shù)據(jù):https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」還不夠,

搜索需要「廣度」

過去一年,大模型的進(jìn)步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型,通過增加推理步數(shù)來解決復(fù)雜難題。

然而,隨著任務(wù)廣度的增加,瓶頸從 “個體能力” 轉(zhuǎn)移到了 “組織能力”。

在廣度信息搜索任務(wù)中,單智能體面臨兩大痛點:

1.上下文干擾:隨著檢索信息的堆積,無關(guān)信息會干擾模型對后續(xù)子任務(wù)的判斷。

2.串行效率低:依次處理數(shù)十個獨立的子任務(wù)不僅慢,而且容易因序列過長而遺忘有用信息,導(dǎo)致任務(wù)失敗。

對此,WideSeek-R1 給出的答案是:用多智能體系統(tǒng) + MARL 實現(xiàn)廣度擴展。



圖1:深度擴展與廣度擴展的對比

當(dāng)傳統(tǒng)的深度擴展(藍(lán)色曲線)依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時,廣度擴展(粉色曲線)通過增加智能體個數(shù),通過多智能體并行執(zhí)行開辟了新的增長路徑;而我們提出的WideSeek-R1(紅色星號),通過多智能體強化學(xué)習(xí)(MARL)進(jìn)一步實現(xiàn)了調(diào)度與執(zhí)行的協(xié)同優(yōu)化,證明了在廣度信息搜索任務(wù)中,協(xié)同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

2. WideSeek-R1:采用端到端 MARL

訓(xùn)練 “編排” 和 “執(zhí)行” 能力

現(xiàn)有的多智能體系統(tǒng)大多依賴手動設(shè)計的工作流(Hand-crafted workflows)或簡單的輪流對話,難以實現(xiàn)真正的并行高效協(xié)作。

WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架,并用多智能體強化學(xué)習(xí)(MARL)端到端訓(xùn)練:

  • Lead-agent:負(fù)責(zé)將一個寬泛的復(fù)雜問題分解為獨立的子任務(wù),可調(diào)度多個 Subagents 并行執(zhí)行。同時也需要對 Subagent 返回的結(jié)果進(jìn)行總結(jié)歸納,判斷應(yīng)該直接返回最終答案,還是進(jìn)行下一回合的任務(wù)分解。
  • Subagent:在隔離的上下文中并行工作,利用搜索和瀏覽等工具獲取特定信息。

為了訓(xùn)練這個系統(tǒng),研究團(tuán)隊在 GRPO 算法基礎(chǔ)上,針對多智能體、多回合場景進(jìn)行了兩項關(guān)鍵改進(jìn):

  • 多智能體優(yōu)勢分配(Multi-Agent Advantage Assignment):多智能體協(xié)作中,最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent,確立 “榮辱與共” 的協(xié)作目標(biāo),避免復(fù)雜的信用分配導(dǎo)致的 Reward Hacking 。
  • 優(yōu)勢雙重加權(quán)歸一(Dual-Level Advantage Reweighting):
  • Token 級加權(quán)歸一: 類似于 DAPO,確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權(quán)重;
  • Agent 級加權(quán)歸一: 確保增加 Agent 數(shù)量是為了真正提高質(zhì)量,而非僅僅為了 “湊人頭”。



圖2:WideSeek-R1 推理與訓(xùn)練流程概述

3. 構(gòu)造廣度信息搜索任務(wù)訓(xùn)練數(shù)據(jù):

彌補開源社區(qū)領(lǐng)域空白

當(dāng)前開源數(shù)據(jù)集通常關(guān)注深度搜索任務(wù),盡管已有一些廣度搜索訓(xùn)練集,但是數(shù)據(jù)量較小,無法滿足大規(guī)模 RL 訓(xùn)練。研究團(tuán)隊填補了社區(qū)空白,開發(fā)了一套全自動的數(shù)據(jù)構(gòu)建流水線,基于 HybridQA 數(shù)據(jù)集,合成了20,000 條高質(zhì)量的廣度信息搜索任務(wù)。

這一流水線包含三個階段 :

1.問題生成:提取用戶意圖并轉(zhuǎn)化為具有特定約束的廣度信息搜索問題;

2.答案生成:利用 Gemini-3-Pro 獨立生成兩個答案及唯一標(biāo)識列;

3.QA 對過濾:通過對兩個答案的一致性校驗和難度過濾,得到最終高質(zhì)量數(shù)據(jù)集。



圖3: 三階段自動化數(shù)據(jù)構(gòu)建流程概述

4. 實驗結(jié)果

(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型



表1: WideSearch 主實驗結(jié)果

研究團(tuán)隊在公開的廣度信息搜索測評任務(wù) WideSearch 上,對現(xiàn)有單智能體、多智能體 baseline 進(jìn)行測試,實驗數(shù)據(jù)顯示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分?jǐn)?shù)

  • 相比未訓(xùn)練的 Qwen3-4B 多智能體基線提升了 8.8% 。
  • 相比同參數(shù)的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
  • 最重要的是,這一成績與單智能體 DeepSeek-R1-671B 幾乎持平,而參數(shù)量僅為后者的 1/170 。

(2) 驗證「廣度擴展」定律



圖4: 面向測試時計算資源的深度與廣度擴展性能對比

文章最核心的發(fā)現(xiàn)之一在于 Scaling 行為的對比:

  • 深度擴展(Depth Scaling):隨著推理步數(shù)增加,單智能體性能很快飽和,甚至因上下文過長而下降。
  • 廣度擴展(Width Scaling):在單智能體性能飽和情況下,增加并行 Subagent 的數(shù)量(從 1 到 10)展現(xiàn)了持續(xù)的性能增長潛力。在此基礎(chǔ)上,MARL 訓(xùn)練通過優(yōu)化協(xié)作機制,進(jìn)一步顯著提升了系統(tǒng)的性能上限。

(3) 在標(biāo)準(zhǔn) QA 上保持性能



表2: 在傳統(tǒng)單跳與多跳QA任務(wù)上的實驗結(jié)果

在 NQ、HotpotQA 等 7 個標(biāo)準(zhǔn)問答數(shù)據(jù)集上,WideSeek-R1-4B 同樣表現(xiàn)出色,平均分達(dá)到 59.0%,優(yōu)于部分 7B/8B 的多智能體基線(如 AgentFlow, OWL 等),證明了模型并未因?qū)W⒂趶V度搜索而犧牲通用搜索能力。

(4) 消融實驗



圖5: 智能體模型的消融實驗(左圖),訓(xùn)練數(shù)據(jù)的消融實驗(右圖)

左圖:我們發(fā)現(xiàn)只有當(dāng) Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達(dá)到最佳性能,這驗證了端到端多智能體強化學(xué)習(xí)訓(xùn)練的重要性。

右圖:在相同數(shù)據(jù)集規(guī)模的前提下,在混合數(shù)據(jù)集(廣度 + 深度)上訓(xùn)練的模型表現(xiàn)始終優(yōu)于僅在單一類型數(shù)據(jù)集上訓(xùn)練的模型,表明廣度數(shù)據(jù)與深度數(shù)據(jù)提供了互補的增益。

5. 算法背后的工程哲學(xué):

RLinf 的關(guān)鍵支撐



圖6: RLinf 多智能體強化學(xué)習(xí)訓(xùn)練架構(gòu)圖

WideSeek-R1 傳達(dá)的核心結(jié)論是:在廣度信息搜索場景里,Width Scaling + MARL確實能帶來進(jìn)一步收益。這一結(jié)論除了需要“算法層面”的創(chuàng)新,更需要“系統(tǒng)層面”的強力支撐。例如:多智能體的調(diào)度、多工具的統(tǒng)一接入與管理、多會話的調(diào)度與隔離、動態(tài)會話與長尾問題的緩解,以及訓(xùn)練與推理間的高效切換與資源分配等。

為應(yīng)對上述系統(tǒng)挑戰(zhàn),團(tuán)隊將自研單智能體強化學(xué)習(xí)框架 RLinf 進(jìn)一步擴展至多智能體強化學(xué)習(xí)場景。系統(tǒng)結(jié)構(gòu)如圖6所示,包含三個粒度:MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓(xùn)練庫等服務(wù)化組件。 MARL 邏輯流包含 Rollout 、訓(xùn)練與權(quán)重同步,由 RLinf Runner 實現(xiàn)。相較單智能體,多智能體強化學(xué)習(xí)的復(fù)雜邏輯主要體現(xiàn)在 Rollout 部分, RLinf 新增 AgentLoop 模塊負(fù)責(zé)執(zhí)行多智能體核心推理邏輯,即各智能體基于大模型進(jìn)行交替的推理與工具調(diào)用。最細(xì)粒度的服務(wù)組件均繼承自 RLinf Worker ,從而可以靈活調(diào)用 RLinf 提供的通信接口,極大降低了開發(fā)復(fù)雜度。在多智能體場景中,如 lead-agent 與多個 Subagent ,可通過多個 SGLang 實例進(jìn)行推理,僅需簡單配置即可拉起整套多組件交互流程。

在訓(xùn)練效率方面,框架引入了多項優(yōu)化:

  • 樣本打包(Sample Packing):將不同長度的樣本動態(tài)打包,使訓(xùn)練 token 更集中于有效計算,減少 padding 開銷,提升 GPU 利用率;在長序列、多輪 Agent 軌跡訓(xùn)練中,可顯著減少無效算力消耗并縮短單步時間。
  • 多輪前綴合并(Multi-Turn Prefix Merging):針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應(yīng)的結(jié)構(gòu)特點,RLinf 可合并可復(fù)用前綴,避免重復(fù)前向與反向計算,在多輪工具調(diào)用場景中尤為有效。
  • 面向Session的親和性請求分發(fā):在通信層實現(xiàn)基于親和性的請求分發(fā),保障多會話的合理調(diào)度。
  • 高效權(quán)重同步:支持訓(xùn)練并行配置到推理并行配置的就地轉(zhuǎn)換,結(jié)合 NCCL / CUDAIPC 高帶寬同步路徑,降低頻繁同步的開銷,同時減少冗余權(quán)重拼接與中間態(tài)內(nèi)存占用,緩解同步階段的性能瓶頸與 OOM 風(fēng)險。
  • 組件自動擴縮容:支持各組件的自動擴縮容,有效應(yīng)對動態(tài)性與長尾問題。

系統(tǒng)性能效果:WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍,而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數(shù)據(jù)可見,通過高效的系統(tǒng)實現(xiàn)與并發(fā)優(yōu)化,拓展一倍的subagents的數(shù)量并沒有帶來明顯的eval時間的增加,充分說明系統(tǒng)在scaling上的有效性。



圖7: Agent scaling性能對比

6. 結(jié)語

WideSeek-R1 表明搜索不僅要Deep,還要Wide,同時也表明新一代科研的形態(tài)需要“算法創(chuàng)新 + 系統(tǒng)支撐”雙管齊下。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

阿胡
2025-02-13 12:47:19
程瀟不愧是“奶瀟”

程瀟不愧是“奶瀟”

情感大頭說說
2026-03-16 00:19:50
知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

體壇風(fēng)之子
2026-03-29 07:00:06
誰是重慶市規(guī)模最大的醫(yī)院?

誰是重慶市規(guī)模最大的醫(yī)院?

普陀動物世界
2026-03-29 00:51:31
福州三坊七巷萬元級奢牌酒店倒閉,砸億投入,終究沒熬過市場

福州三坊七巷萬元級奢牌酒店倒閉,砸億投入,終究沒熬過市場

新浪財經(jīng)
2026-03-29 08:53:19
吳佳尼自曝花十幾萬去妊娠紋

吳佳尼自曝花十幾萬去妊娠紋

蕭狡科普解說
2026-03-27 06:40:15
杜鋒卸任?廣東隊四大熱門新帥曝光,一人自帶王朝血脈,完美適配

杜鋒卸任?廣東隊四大熱門新帥曝光,一人自帶王朝血脈,完美適配

體育見習(xí)官
2026-03-29 12:52:26
58歲大媽怒罵相親男老不正經(jīng),61歲大爺:你太不要臉了

58歲大媽怒罵相親男老不正經(jīng),61歲大爺:你太不要臉了

熱心柚子姐姐
2026-03-28 11:03:48
壓哨反超!文班亞馬打瘋了!雷霆記者徹底急了...

壓哨反超!文班亞馬打瘋了!雷霆記者徹底急了...

左右為籃
2026-03-29 12:34:25
陳賡追悼會上,林彪主祭羅瑞卿致悼詞,十大元帥到場九位,誰沒來?

陳賡追悼會上,林彪主祭羅瑞卿致悼詞,十大元帥到場九位,誰沒來?

文史明鑒
2026-03-24 18:38:12
網(wǎng)傳湖北一女子身后夾紙條提醒抽煙者,因用詞不當(dāng)引網(wǎng)友熱議

網(wǎng)傳湖北一女子身后夾紙條提醒抽煙者,因用詞不當(dāng)引網(wǎng)友熱議

丫頭舫
2026-03-28 21:48:57
為什么“回遷房”突然沒人買了?老住戶坦言:越住越鬧心!

為什么“回遷房”突然沒人買了?老住戶坦言:越住越鬧心!

Home范
2026-03-27 13:17:26
多家公司大手筆分紅!600563,擬10派23元!

多家公司大手筆分紅!600563,擬10派23元!

證券時報e公司
2026-03-29 07:53:46
瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

阿鳧愛吐槽
2026-03-24 00:54:18
笑麻了!新手爸爸們的離譜行為,老婆要生了,結(jié)果人還在家

笑麻了!新手爸爸們的離譜行為,老婆要生了,結(jié)果人還在家

夜深愛雜談
2026-03-28 20:00:23
日本警視廳對強闖我駐日使館不法之徒所屬部隊駐地等展開搜查

日本警視廳對強闖我駐日使館不法之徒所屬部隊駐地等展開搜查

財聯(lián)社
2026-03-29 07:42:06
湖南女孩嫁內(nèi)蒙礦老板,從出租屋到深圳豪宅開奔馳大G

湖南女孩嫁內(nèi)蒙礦老板,從出租屋到深圳豪宅開奔馳大G

看盡落塵花q
2026-03-29 09:54:06
粵北珠三角中北部將有大雨疊加大風(fēng)冰雹!廣州周二或迎暴雨

粵北珠三角中北部將有大雨疊加大風(fēng)冰雹!廣州周二或迎暴雨

南方都市報
2026-03-29 11:22:09
全票通過!委內(nèi)瑞拉歷史性大赦:27年政治恩怨,一朝和解

全票通過!委內(nèi)瑞拉歷史性大赦:27年政治恩怨,一朝和解

老馬拉車莫少裝
2026-02-20 15:13:49
4天3場大三雙!79+53+48,這數(shù)據(jù)找不出第二個了.....

4天3場大三雙!79+53+48,這數(shù)據(jù)找不出第二個了.....

柚子說球
2026-03-28 21:17:59
2026-03-29 13:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

旅游
藝術(shù)
時尚
親子
公開課

旅游要聞

艷染浦東!櫻花、杜鵑齊綻放,繁花激活文旅“春日經(jīng)濟”

藝術(shù)要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

大牌專場|| 愛了8年沒換過,這次100+拿下

親子要聞

睡著的兩個姐妹,不安分的小樣,媽媽在旁邊心被萌化!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版