DeepMind：智能體越多越亂，Agent天花板出現(xiàn)了？

2026-02-24 14:40:45　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

在最近 AI 領(lǐng)域內(nèi)，智能體（Agent）的研究和應(yīng)用越來越多，原生多智能體工作的基礎(chǔ)模型也已開始出現(xiàn)。

作為一個(gè)能夠推理、規(guī)劃和行動(dòng)的系統(tǒng)，智能體正逐漸成為現(xiàn)實(shí)世界人工智能應(yīng)用的常見范式。從編程助手到私人健康教練，AI 應(yīng)用正從單次問答轉(zhuǎn)向持續(xù)的多步驟交互。盡管研究人員長期以來一直利用既定指標(biāo)來優(yōu)化傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性，但 AI 智能體引入了新的復(fù)雜性。

與孤立的預(yù)測不同，AI 智能體必須應(yīng)對持續(xù)的多步驟交互，其中單個(gè)錯(cuò)誤可能會(huì)在整個(gè)工作流程中引發(fā)連鎖反應(yīng)。這種轉(zhuǎn)變促使我們超越標(biāo)準(zhǔn)的準(zhǔn)確性進(jìn)行思考：究竟該如何設(shè)計(jì)這些系統(tǒng)才能實(shí)現(xiàn)最佳性能？

在實(shí)踐上，我們常常依賴啟發(fā)式方法，例如「智能體越多越好」的假設(shè)，認(rèn)為增加專業(yè)智能體就能持續(xù)提升結(jié)果。論文《More Agents Is All You Need》指出，大語言模型（LLM）的性能會(huì)隨著智能體數(shù)量的增加而提升，而《Scaling Large Language Model-based Multi-Agent Collaboration》發(fā)現(xiàn)，多智能體協(xié)作「…… 通常通過集體推理超越單個(gè)智能體的性能」。

在 Google DeepMind 的新論文中，研究人員對這一假設(shè)提出了挑戰(zhàn)。通過對 180 種智能體配置進(jìn)行大規(guī)模受控評估，DeepMind 推導(dǎo)出了智能體系統(tǒng)的首個(gè)定量規(guī)?；瓌t，揭示了「增加智能體數(shù)量」的方法往往會(huì)遇到瓶頸，如果與任務(wù)的具體屬性不匹配，甚至?xí)档托阅堋?/p>

論文：Towards a Science of Scaling Agent Systems
鏈接：https://arxiv.org/abs/2512.08296

定義「智能體」評估

為了理解智能體如何擴(kuò)展，研究人員首先定義了「智能體任務(wù)」的構(gòu)成要素。傳統(tǒng)的靜態(tài)基準(zhǔn)測試衡量模型的知識水平，但無法捕捉部署的復(fù)雜性。其認(rèn)為智能體任務(wù)需要具備三個(gè)特定屬性：

1. 與外部環(huán)境持續(xù)進(jìn)行多步驟互動(dòng)；

2. 在部分可觀測性條件下進(jìn)行迭代信息收集；

3. 基于環(huán)境反饋的自適應(yīng)策略改進(jìn)。

研究人員評估了五種典型架構(gòu)：一種單智能體系統(tǒng) (SAS) 和四種多智能體變體（獨(dú)立式、集中式、分散式和混合式），并在四個(gè)不同的基準(zhǔn)測試中進(jìn)行了測試，包括 Finance-Agent（金融推理）、BrowseComp-Plus（網(wǎng)頁導(dǎo)航）、PlanCraft（規(guī)劃）和 Workbench（工具使用）。智能體架構(gòu)定義如下：

單智能體（SAS）：一個(gè)獨(dú)立的智能體，使用統(tǒng)一的記憶流按順序執(zhí)行所有推理和行動(dòng)步驟；
獨(dú)立：多個(gè)智能體并行處理子任務(wù)，彼此不進(jìn)行通信，僅在最后匯總結(jié)果；
集中式：一種「中心輻射式」模型，有中央?yún)f(xié)調(diào)者將任務(wù)委派給作業(yè)者并綜合他們的輸出；
去中心化：一種點(diǎn)對點(diǎn)網(wǎng)絡(luò)，其中的智能體直接相互通信，共享信息并達(dá)成共識；
混合型：結(jié)合層級監(jiān)督和點(diǎn)對點(diǎn)協(xié)調(diào)，以平衡中央控制和靈活執(zhí)行。

本研究評估了五種典型的智能體架構(gòu)，并總結(jié)了它們的計(jì)算復(fù)雜度、通信開銷和協(xié)調(diào)機(jī)制。k = 每個(gè)智能體的最大迭代次數(shù)， n = 智能體數(shù)量， r = 協(xié)調(diào)器輪數(shù)， d = 辯論輪數(shù)， p = 對等通信輪數(shù)， m = 每輪平均對等請求數(shù)。通信開銷統(tǒng)計(jì)智能體間的消息交換次數(shù)。獨(dú)立架構(gòu)以最小的協(xié)調(diào)實(shí)現(xiàn)最大程度的并行化。去中心化架構(gòu)采用順序辯論輪次?；旌霞軜?gòu)結(jié)合了協(xié)調(diào)器控制和定向?qū)Φ韧ㄐ拧?/p>

結(jié)果：「增加智能體」只是神話

為了量化模型能力對智能體性能的影響，DeepMind 評估了這些架構(gòu)在三大主流模型系列（OpenAI GPT、Google Gemini 和 Anthropic Claude）上的表現(xiàn)。結(jié)果揭示了模型能力與協(xié)調(diào)策略之間復(fù)雜的關(guān)聯(lián)。

如下圖所示，雖然性能通常會(huì)隨著模型能力的提升而提高，但多智能體系統(tǒng)并非萬能解決方案 —— 根據(jù)具體配置的不同，它們既可能顯著提升性能，也可能意外地降低性能。

對三大主要模型系列（OpenAI GPT、Google Gemini、Anthropic Claude）的性能比較，展示了不同的智能體架構(gòu)如何隨著模型智能的提升而擴(kuò)展，其中多智能體系統(tǒng)可能會(huì)根據(jù)配置的不同而提升或降低性能。

以下結(jié)果比較了五種架構(gòu)在不同領(lǐng)域（例如網(wǎng)頁瀏覽和金融分析）的性能。箱線圖表示每種方法的準(zhǔn)確率分布，而百分比則表示多智能體團(tuán)隊(duì)相對于單智能體基線的相對改進(jìn)（或下降）。這些數(shù)據(jù)表明，雖然增加智能體可以顯著提升并行任務(wù)的性能，但在順序性更強(qiáng)的流程中，往往會(huì)導(dǎo)致收益遞減，甚至性能下降。

特定任務(wù)的性能表明，多智能體協(xié)調(diào)在可并行化的任務(wù)（如 Finance-Agent）上取得了顯著的收益（+81%），但在順序任務(wù)（如 PlanCraft）上的性能卻有所下降（-70%）。

對齊原則

對于像金融推理這樣可并行化的任務(wù)（例如，不同的智能體可以同時(shí)分析收入趨勢、成本結(jié)構(gòu)和市場對比），集中式協(xié)調(diào)比單個(gè)智能體的性能提升了 80.9%。將復(fù)雜問題分解為子任務(wù)的能力使得智能體能夠更高效地工作。

順序處罰

相反，在需要嚴(yán)格順序推理的任務(wù)（例如 PlanCraft 中的規(guī)劃）中，研究人員測試的每個(gè)多智能體變體的性能都下降了 39% 到 70%。在這些情況下，通信開銷會(huì)打斷推理過程，導(dǎo)致實(shí)際任務(wù)所需的「認(rèn)知預(yù)算」不足。

工具使用瓶頸

DeepMind 研究人員發(fā)現(xiàn)了一個(gè)「工具協(xié)調(diào)權(quán)衡」。隨著任務(wù)需要更多工具（例如一個(gè)編碼代理需要訪問 16 種以上的工具），協(xié)調(diào)多個(gè)智能體的「成本」會(huì)不成比例地增加。

安全特性

或許對實(shí)際部署而言最重要的是，該工作發(fā)現(xiàn)了架構(gòu)與可靠性之間的關(guān)系。DeepMind 測量了誤差放大率，即一個(gè)智能體的錯(cuò)誤傳播到最終結(jié)果的速率。

跨架構(gòu)的綜合指標(biāo)顯示，集中式系統(tǒng)在成功率和錯(cuò)誤控制之間實(shí)現(xiàn)了最佳平衡，而獨(dú)立的多智能體系統(tǒng)將錯(cuò)誤放大了高達(dá) 17.2 倍。

研究發(fā)現(xiàn)，獨(dú)立的多智能體系統(tǒng)（智能體并行工作但不進(jìn)行通信）會(huì)將錯(cuò)誤放大 17.2 倍。由于缺乏相互檢查機(jī)制，錯(cuò)誤會(huì)不受控制地級聯(lián)傳播。集中式系統(tǒng)（帶有協(xié)調(diào)器）則將這種放大倍數(shù)控制在 4.4 倍。協(xié)調(diào)器有效地充當(dāng)了「驗(yàn)證瓶頸」，在錯(cuò)誤傳播之前將其捕獲。

智能體設(shè)計(jì)的預(yù)測模型

最后，作者不再局限于回顧性分析，而是開發(fā)了一個(gè)預(yù)測模型（R2 = 0.513），該模型利用工具數(shù)量和可分解性等可測量的任務(wù)屬性來預(yù)測哪種架構(gòu)性能最佳。該模型能夠正確識別 87% 未見過的任務(wù)配置的最佳協(xié)調(diào)策略。

這表明我們正在邁向智能體擴(kuò)展的新科學(xué)。開發(fā)者不再需要猜測是使用智能體集群還是單個(gè)強(qiáng)大的模型，而是可以根據(jù)任務(wù)的特性，特別是其順序依賴關(guān)系和工具密度，做出基于原則的工程決策。

結(jié)論

隨著 Gemini 等基礎(chǔ)模型的不斷發(fā)展，Google DeepMind 的研究表明，更智能的模型并不能取代多智能體系統(tǒng)，而是加速了其發(fā)展，但這只有在架構(gòu)正確的情況下才能實(shí)現(xiàn)。通過從啟發(fā)式方法轉(zhuǎn)向定量原則，我們可以構(gòu)建下一代 AI 智能體，它們不僅數(shù)量更多，而且更智能、更安全、更高效。

參考內(nèi)容：

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.