国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind:智能體越多越亂,Agent天花板出現(xiàn)了?

0
分享至

機器之心編輯部

在最近 AI 領(lǐng)域內(nèi),智能體(Agent)的研究和應(yīng)用越來越多,原生多智能體工作的基礎(chǔ)模型也已開始出現(xiàn)。

作為一個能夠推理、規(guī)劃和行動的系統(tǒng),智能體正逐漸成為現(xiàn)實世界人工智能應(yīng)用的常見范式。從編程助手到私人健康教練,AI 應(yīng)用正從單次問答轉(zhuǎn)向持續(xù)的多步驟交互。盡管研究人員長期以來一直利用既定指標來優(yōu)化傳統(tǒng)機器學習模型的準確性,但 AI 智能體引入了新的復(fù)雜性。

與孤立的預(yù)測不同,AI 智能體必須應(yīng)對持續(xù)的多步驟交互,其中單個錯誤可能會在整個工作流程中引發(fā)連鎖反應(yīng)。這種轉(zhuǎn)變促使我們超越標準的準確性進行思考:究竟該如何設(shè)計這些系統(tǒng)才能實現(xiàn)最佳性能?

在實踐上,我們常常依賴啟發(fā)式方法,例如「智能體越多越好」的假設(shè),認為增加專業(yè)智能體就能持續(xù)提升結(jié)果。論文《More Agents Is All You Need》指出,大語言模型(LLM)的性能會隨著智能體數(shù)量的增加而提升,而《Scaling Large Language Model-based Multi-Agent Collaboration》發(fā)現(xiàn),多智能體協(xié)作「…… 通常通過集體推理超越單個智能體的性能」。

在 Google DeepMind 的新論文中,研究人員對這一假設(shè)提出了挑戰(zhàn)。通過對 180 種智能體配置進行大規(guī)模受控評估,DeepMind 推導(dǎo)出了智能體系統(tǒng)的首個定量規(guī)模化原則,揭示了「增加智能體數(shù)量」的方法往往會遇到瓶頸,如果與任務(wù)的具體屬性不匹配,甚至會降低性能。



  • 論文:Towards a Science of Scaling Agent Systems
  • 鏈接:https://arxiv.org/abs/2512.08296

定義「智能體」評估

為了理解智能體如何擴展,研究人員首先定義了「智能體任務(wù)」的構(gòu)成要素。傳統(tǒng)的靜態(tài)基準測試衡量模型的知識水平,但無法捕捉部署的復(fù)雜性。其認為智能體任務(wù)需要具備三個特定屬性:

1. 與外部環(huán)境持續(xù)進行多步驟互動;

2. 在部分可觀測性條件下進行迭代信息收集;

3. 基于環(huán)境反饋的自適應(yīng)策略改進。

研究人員評估了五種典型架構(gòu):一種單智能體系統(tǒng) (SAS) 和四種多智能體變體(獨立式、集中式、分散式和混合式),并在四個不同的基準測試中進行了測試,包括 Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)頁導(dǎo)航)、PlanCraft(規(guī)劃)和 Workbench(工具使用)。智能體架構(gòu)定義如下:

  • 單智能體(SAS):一個獨立的智能體,使用統(tǒng)一的記憶流按順序執(zhí)行所有推理和行動步驟;
  • 獨立:多個智能體并行處理子任務(wù),彼此不進行通信,僅在最后匯總結(jié)果;
  • 集中式:一種「中心輻射式」模型,有中央?yún)f(xié)調(diào)者將任務(wù)委派給作業(yè)者并綜合他們的輸出;
  • 去中心化:一種點對點網(wǎng)絡(luò),其中的智能體直接相互通信,共享信息并達成共識;
  • 混合型:結(jié)合層級監(jiān)督和點對點協(xié)調(diào),以平衡中央控制和靈活執(zhí)行。



本研究評估了五種典型的智能體架構(gòu),并總結(jié)了它們的計算復(fù)雜度、通信開銷和協(xié)調(diào)機制。k = 每個智能體的最大迭代次數(shù), n = 智能體數(shù)量, r = 協(xié)調(diào)器輪數(shù), d = 辯論輪數(shù), p = 對等通信輪數(shù), m = 每輪平均對等請求數(shù)。通信開銷統(tǒng)計智能體間的消息交換次數(shù)。獨立架構(gòu)以最小的協(xié)調(diào)實現(xiàn)最大程度的并行化。去中心化架構(gòu)采用順序辯論輪次?;旌霞軜?gòu)結(jié)合了協(xié)調(diào)器控制和定向?qū)Φ韧ㄐ拧?/p>

結(jié)果:「增加智能體」只是神話

為了量化模型能力對智能體性能的影響,DeepMind 評估了這些架構(gòu)在三大主流模型系列(OpenAI GPT、Google Gemini 和 Anthropic Claude)上的表現(xiàn)。結(jié)果揭示了模型能力與協(xié)調(diào)策略之間復(fù)雜的關(guān)聯(lián)。

如下圖所示,雖然性能通常會隨著模型能力的提升而提高,但多智能體系統(tǒng)并非萬能解決方案 —— 根據(jù)具體配置的不同,它們既可能顯著提升性能,也可能意外地降低性能。



對三大主要模型系列(OpenAI GPT、Google Gemini、Anthropic Claude)的性能比較,展示了不同的智能體架構(gòu)如何隨著模型智能的提升而擴展,其中多智能體系統(tǒng)可能會根據(jù)配置的不同而提升或降低性能。

以下結(jié)果比較了五種架構(gòu)在不同領(lǐng)域(例如網(wǎng)頁瀏覽和金融分析)的性能。箱線圖表示每種方法的準確率分布,而百分比則表示多智能體團隊相對于單智能體基線的相對改進(或下降)。這些數(shù)據(jù)表明,雖然增加智能體可以顯著提升并行任務(wù)的性能,但在順序性更強的流程中,往往會導(dǎo)致收益遞減,甚至性能下降。



特定任務(wù)的性能表明,多智能體協(xié)調(diào)在可并行化的任務(wù)(如 Finance-Agent)上取得了顯著的收益(+81%),但在順序任務(wù)(如 PlanCraft)上的性能卻有所下降(-70%)。

對齊原則

對于像金融推理這樣可并行化的任務(wù)(例如,不同的智能體可以同時分析收入趨勢、成本結(jié)構(gòu)和市場對比),集中式協(xié)調(diào)比單個智能體的性能提升了 80.9%。將復(fù)雜問題分解為子任務(wù)的能力使得智能體能夠更高效地工作。

順序處罰

相反,在需要嚴格順序推理的任務(wù)(例如 PlanCraft 中的規(guī)劃)中,研究人員測試的每個多智能體變體的性能都下降了 39% 到 70%。在這些情況下,通信開銷會打斷推理過程,導(dǎo)致實際任務(wù)所需的「認知預(yù)算」不足。

工具使用瓶頸

DeepMind 研究人員發(fā)現(xiàn)了一個「工具協(xié)調(diào)權(quán)衡」。隨著任務(wù)需要更多工具(例如一個編碼代理需要訪問 16 種以上的工具),協(xié)調(diào)多個智能體的「成本」會不成比例地增加。

安全特性

或許對實際部署而言最重要的是,該工作發(fā)現(xiàn)了架構(gòu)與可靠性之間的關(guān)系。DeepMind 測量了誤差放大率,即一個智能體的錯誤傳播到最終結(jié)果的速率。



跨架構(gòu)的綜合指標顯示,集中式系統(tǒng)在成功率和錯誤控制之間實現(xiàn)了最佳平衡,而獨立的多智能體系統(tǒng)將錯誤放大了高達 17.2 倍。

研究發(fā)現(xiàn),獨立的多智能體系統(tǒng)(智能體并行工作但不進行通信)會將錯誤放大 17.2 倍。由于缺乏相互檢查機制,錯誤會不受控制地級聯(lián)傳播。集中式系統(tǒng)(帶有協(xié)調(diào)器)則將這種放大倍數(shù)控制在 4.4 倍。協(xié)調(diào)器有效地充當了「驗證瓶頸」,在錯誤傳播之前將其捕獲。

智能體設(shè)計的預(yù)測模型

最后,作者不再局限于回顧性分析,而是開發(fā)了一個預(yù)測模型(R2 = 0.513),該模型利用工具數(shù)量和可分解性等可測量的任務(wù)屬性來預(yù)測哪種架構(gòu)性能最佳。該模型能夠正確識別 87% 未見過的任務(wù)配置的最佳協(xié)調(diào)策略。

這表明我們正在邁向智能體擴展的新科學。開發(fā)者不再需要猜測是使用智能體集群還是單個強大的模型,而是可以根據(jù)任務(wù)的特性,特別是其順序依賴關(guān)系和工具密度,做出基于原則的工程決策。

結(jié)論

隨著 Gemini 等基礎(chǔ)模型的不斷發(fā)展,Google DeepMind 的研究表明,更智能的模型并不能取代多智能體系統(tǒng),而是加速了其發(fā)展,但這只有在架構(gòu)正確的情況下才能實現(xiàn)。通過從啟發(fā)式方法轉(zhuǎn)向定量原則,我們可以構(gòu)建下一代 AI 智能體,它們不僅數(shù)量更多,而且更智能、更安全、更高效。

參考內(nèi)容:

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上海地鐵曝出大消息…

上海地鐵曝出大消息…

新浪財經(jīng)
2026-02-27 17:35:27
日本真覺得中國會服軟

日本真覺得中國會服軟

智先生
2026-02-27 21:07:30
超越馬英九,蓋過洪秀柱,他才是臺灣藍營內(nèi)最堅定的統(tǒng)派人物

超越馬英九,蓋過洪秀柱,他才是臺灣藍營內(nèi)最堅定的統(tǒng)派人物

墨蘭史書
2026-02-07 18:25:03
炸裂!西班牙國王被曝和前總統(tǒng)夫人熱戀,萊蒂齊亞 21 年婚姻成笑話?

炸裂!西班牙國王被曝和前總統(tǒng)夫人熱戀,萊蒂齊亞 21 年婚姻成笑話?

小魚愛魚樂
2026-02-27 22:02:54
繼美國之后,巴基斯坦向阿富汗宣戰(zhàn)了!巴基斯坦這么膨脹了?

繼美國之后,巴基斯坦向阿富汗宣戰(zhàn)了!巴基斯坦這么膨脹了?

青青子衿
2026-02-27 16:54:21
等了四天,中方終于回應(yīng)特朗普訪華,信號很明確

等了四天,中方終于回應(yīng)特朗普訪華,信號很明確

阿天愛旅行
2026-02-27 10:26:27
因承受不住酷刑,女地下黨大聲說:“我全招!”日軍卻后悔不已

因承受不住酷刑,女地下黨大聲說:“我全招!”日軍卻后悔不已

史韻流轉(zhuǎn)
2026-02-27 09:20:13
剛剛 | 以色列宣布:襲擊伊朗!

剛剛 | 以色列宣布:襲擊伊朗!

天津廣播
2026-02-28 14:29:00
徹底亂了!隨著中國男籃掀翻日本,世預(yù)賽晉級形勢出爐:日韓扭轉(zhuǎn)

徹底亂了!隨著中國男籃掀翻日本,世預(yù)賽晉級形勢出爐:日韓扭轉(zhuǎn)

寶哥精彩賽事
2026-02-27 20:49:19
巴基斯坦軍方稱打死274名阿富汗人員

巴基斯坦軍方稱打死274名阿富汗人員

財聯(lián)社
2026-02-27 20:04:16
痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

阿兵科普
2026-02-28 09:33:48
林彪想不打錦州打長春,是因為有一個秘密他不知道而中央軍委知道

林彪想不打錦州打長春,是因為有一個秘密他不知道而中央軍委知道

半壺老酒半支煙
2026-02-27 20:12:09
澳門世界杯中國隊參賽名單公布:梁靖崑、周啟豪、溫瑞博在列

澳門世界杯中國隊參賽名單公布:梁靖崑、周啟豪、溫瑞博在列

懂球帝
2026-02-28 10:58:13
外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

大國之翼
2026-02-28 06:30:03
Seedance2.0一鍵直出大片級PPT,設(shè)計師:真要下崗了?

Seedance2.0一鍵直出大片級PPT,設(shè)計師:真要下崗了?

秋葉PPT
2026-02-28 08:20:51
亞歷山大36+9比肩哈登神跡,約基奇三雙難救主,殘陣雷霆險勝掘金

亞歷山大36+9比肩哈登神跡,約基奇三雙難救主,殘陣雷霆險勝掘金

釘釘陌上花開
2026-02-28 13:41:42
5.5億元索賠“砍”至6400萬元,實地探訪東莞大面積停運純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機稱顯示能跑近400公里實際只跑160公里

5.5億元索賠“砍”至6400萬元,實地探訪東莞大面積停運純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機稱顯示能跑近400公里實際只跑160公里

每日經(jīng)濟新聞
2026-02-26 22:31:30
20萬億砸向城市更新!自然資源部、住建部定調(diào),建筑業(yè)的春天真的來了!

20萬億砸向城市更新!自然資源部、住建部定調(diào),建筑業(yè)的春天真的來了!

新浪財經(jīng)
2026-02-27 00:36:25
愛潑斯坦與朋友打趣,若霍金與未成年女孩發(fā)生性關(guān)系,他應(yīng)獲諾獎

愛潑斯坦與朋友打趣,若霍金與未成年女孩發(fā)生性關(guān)系,他應(yīng)獲諾獎

流史歲月
2026-02-28 10:00:49
2026-02-28 14:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12380文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以色列防長:以色列已對伊朗發(fā)起預(yù)防性攻擊

頭條要聞

以色列防長:以色列已對伊朗發(fā)起預(yù)防性攻擊

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
藝術(shù)
健康
房產(chǎn)
公開課

教育要聞

中考真題,計算-3×5×(-7)

藝術(shù)要聞

2025第十四屆中國藝術(shù)節(jié)全國優(yōu)秀美術(shù)作品展 | 入選油畫選刊

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版