国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind:智能體越多越亂,Agent天花板出現(xiàn)了?

0
分享至

機(jī)器之心編輯部

在最近 AI 領(lǐng)域內(nèi),智能體(Agent)的研究和應(yīng)用越來越多,原生多智能體工作的基礎(chǔ)模型也已開始出現(xiàn)。

作為一個(gè)能夠推理、規(guī)劃和行動(dòng)的系統(tǒng),智能體正逐漸成為現(xiàn)實(shí)世界人工智能應(yīng)用的常見范式。從編程助手到私人健康教練,AI 應(yīng)用正從單次問答轉(zhuǎn)向持續(xù)的多步驟交互。盡管研究人員長期以來一直利用既定指標(biāo)來優(yōu)化傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性,但 AI 智能體引入了新的復(fù)雜性。

與孤立的預(yù)測不同,AI 智能體必須應(yīng)對持續(xù)的多步驟交互,其中單個(gè)錯(cuò)誤可能會(huì)在整個(gè)工作流程中引發(fā)連鎖反應(yīng)。這種轉(zhuǎn)變促使我們超越標(biāo)準(zhǔn)的準(zhǔn)確性進(jìn)行思考:究竟該如何設(shè)計(jì)這些系統(tǒng)才能實(shí)現(xiàn)最佳性能?

在實(shí)踐上,我們常常依賴啟發(fā)式方法,例如「智能體越多越好」的假設(shè),認(rèn)為增加專業(yè)智能體就能持續(xù)提升結(jié)果。論文《More Agents Is All You Need》指出,大語言模型(LLM)的性能會(huì)隨著智能體數(shù)量的增加而提升,而《Scaling Large Language Model-based Multi-Agent Collaboration》發(fā)現(xiàn),多智能體協(xié)作「…… 通常通過集體推理超越單個(gè)智能體的性能」。

在 Google DeepMind 的新論文中,研究人員對這一假設(shè)提出了挑戰(zhàn)。通過對 180 種智能體配置進(jìn)行大規(guī)模受控評估,DeepMind 推導(dǎo)出了智能體系統(tǒng)的首個(gè)定量規(guī)?;瓌t,揭示了「增加智能體數(shù)量」的方法往往會(huì)遇到瓶頸,如果與任務(wù)的具體屬性不匹配,甚至?xí)档托阅堋?/p>



  • 論文:Towards a Science of Scaling Agent Systems
  • 鏈接:https://arxiv.org/abs/2512.08296

定義「智能體」評估

為了理解智能體如何擴(kuò)展,研究人員首先定義了「智能體任務(wù)」的構(gòu)成要素。傳統(tǒng)的靜態(tài)基準(zhǔn)測試衡量模型的知識水平,但無法捕捉部署的復(fù)雜性。其認(rèn)為智能體任務(wù)需要具備三個(gè)特定屬性:

1. 與外部環(huán)境持續(xù)進(jìn)行多步驟互動(dòng);

2. 在部分可觀測性條件下進(jìn)行迭代信息收集;

3. 基于環(huán)境反饋的自適應(yīng)策略改進(jìn)。

研究人員評估了五種典型架構(gòu):一種單智能體系統(tǒng) (SAS) 和四種多智能體變體(獨(dú)立式、集中式、分散式和混合式),并在四個(gè)不同的基準(zhǔn)測試中進(jìn)行了測試,包括 Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)頁導(dǎo)航)、PlanCraft(規(guī)劃)和 Workbench(工具使用)。智能體架構(gòu)定義如下:

  • 單智能體(SAS):一個(gè)獨(dú)立的智能體,使用統(tǒng)一的記憶流按順序執(zhí)行所有推理和行動(dòng)步驟;
  • 獨(dú)立:多個(gè)智能體并行處理子任務(wù),彼此不進(jìn)行通信,僅在最后匯總結(jié)果;
  • 集中式:一種「中心輻射式」模型,有中央?yún)f(xié)調(diào)者將任務(wù)委派給作業(yè)者并綜合他們的輸出;
  • 去中心化:一種點(diǎn)對點(diǎn)網(wǎng)絡(luò),其中的智能體直接相互通信,共享信息并達(dá)成共識;
  • 混合型:結(jié)合層級監(jiān)督和點(diǎn)對點(diǎn)協(xié)調(diào),以平衡中央控制和靈活執(zhí)行。



本研究評估了五種典型的智能體架構(gòu),并總結(jié)了它們的計(jì)算復(fù)雜度、通信開銷和協(xié)調(diào)機(jī)制。k = 每個(gè)智能體的最大迭代次數(shù), n = 智能體數(shù)量, r = 協(xié)調(diào)器輪數(shù), d = 辯論輪數(shù), p = 對等通信輪數(shù), m = 每輪平均對等請求數(shù)。通信開銷統(tǒng)計(jì)智能體間的消息交換次數(shù)。獨(dú)立架構(gòu)以最小的協(xié)調(diào)實(shí)現(xiàn)最大程度的并行化。去中心化架構(gòu)采用順序辯論輪次?;旌霞軜?gòu)結(jié)合了協(xié)調(diào)器控制和定向?qū)Φ韧ㄐ拧?/p>

結(jié)果:「增加智能體」只是神話

為了量化模型能力對智能體性能的影響,DeepMind 評估了這些架構(gòu)在三大主流模型系列(OpenAI GPT、Google Gemini 和 Anthropic Claude)上的表現(xiàn)。結(jié)果揭示了模型能力與協(xié)調(diào)策略之間復(fù)雜的關(guān)聯(lián)。

如下圖所示,雖然性能通常會(huì)隨著模型能力的提升而提高,但多智能體系統(tǒng)并非萬能解決方案 —— 根據(jù)具體配置的不同,它們既可能顯著提升性能,也可能意外地降低性能。



對三大主要模型系列(OpenAI GPT、Google Gemini、Anthropic Claude)的性能比較,展示了不同的智能體架構(gòu)如何隨著模型智能的提升而擴(kuò)展,其中多智能體系統(tǒng)可能會(huì)根據(jù)配置的不同而提升或降低性能。

以下結(jié)果比較了五種架構(gòu)在不同領(lǐng)域(例如網(wǎng)頁瀏覽和金融分析)的性能。箱線圖表示每種方法的準(zhǔn)確率分布,而百分比則表示多智能體團(tuán)隊(duì)相對于單智能體基線的相對改進(jìn)(或下降)。這些數(shù)據(jù)表明,雖然增加智能體可以顯著提升并行任務(wù)的性能,但在順序性更強(qiáng)的流程中,往往會(huì)導(dǎo)致收益遞減,甚至性能下降。



特定任務(wù)的性能表明,多智能體協(xié)調(diào)在可并行化的任務(wù)(如 Finance-Agent)上取得了顯著的收益(+81%),但在順序任務(wù)(如 PlanCraft)上的性能卻有所下降(-70%)。

對齊原則

對于像金融推理這樣可并行化的任務(wù)(例如,不同的智能體可以同時(shí)分析收入趨勢、成本結(jié)構(gòu)和市場對比),集中式協(xié)調(diào)比單個(gè)智能體的性能提升了 80.9%。將復(fù)雜問題分解為子任務(wù)的能力使得智能體能夠更高效地工作。

順序處罰

相反,在需要嚴(yán)格順序推理的任務(wù)(例如 PlanCraft 中的規(guī)劃)中,研究人員測試的每個(gè)多智能體變體的性能都下降了 39% 到 70%。在這些情況下,通信開銷會(huì)打斷推理過程,導(dǎo)致實(shí)際任務(wù)所需的「認(rèn)知預(yù)算」不足。

工具使用瓶頸

DeepMind 研究人員發(fā)現(xiàn)了一個(gè)「工具協(xié)調(diào)權(quán)衡」。隨著任務(wù)需要更多工具(例如一個(gè)編碼代理需要訪問 16 種以上的工具),協(xié)調(diào)多個(gè)智能體的「成本」會(huì)不成比例地增加。

安全特性

或許對實(shí)際部署而言最重要的是,該工作發(fā)現(xiàn)了架構(gòu)與可靠性之間的關(guān)系。DeepMind 測量了誤差放大率,即一個(gè)智能體的錯(cuò)誤傳播到最終結(jié)果的速率。



跨架構(gòu)的綜合指標(biāo)顯示,集中式系統(tǒng)在成功率和錯(cuò)誤控制之間實(shí)現(xiàn)了最佳平衡,而獨(dú)立的多智能體系統(tǒng)將錯(cuò)誤放大了高達(dá) 17.2 倍。

研究發(fā)現(xiàn),獨(dú)立的多智能體系統(tǒng)(智能體并行工作但不進(jìn)行通信)會(huì)將錯(cuò)誤放大 17.2 倍。由于缺乏相互檢查機(jī)制,錯(cuò)誤會(huì)不受控制地級聯(lián)傳播。集中式系統(tǒng)(帶有協(xié)調(diào)器)則將這種放大倍數(shù)控制在 4.4 倍。協(xié)調(diào)器有效地充當(dāng)了「驗(yàn)證瓶頸」,在錯(cuò)誤傳播之前將其捕獲。

智能體設(shè)計(jì)的預(yù)測模型

最后,作者不再局限于回顧性分析,而是開發(fā)了一個(gè)預(yù)測模型(R2 = 0.513),該模型利用工具數(shù)量和可分解性等可測量的任務(wù)屬性來預(yù)測哪種架構(gòu)性能最佳。該模型能夠正確識別 87% 未見過的任務(wù)配置的最佳協(xié)調(diào)策略。

這表明我們正在邁向智能體擴(kuò)展的新科學(xué)。開發(fā)者不再需要猜測是使用智能體集群還是單個(gè)強(qiáng)大的模型,而是可以根據(jù)任務(wù)的特性,特別是其順序依賴關(guān)系和工具密度,做出基于原則的工程決策。

結(jié)論

隨著 Gemini 等基礎(chǔ)模型的不斷發(fā)展,Google DeepMind 的研究表明,更智能的模型并不能取代多智能體系統(tǒng),而是加速了其發(fā)展,但這只有在架構(gòu)正確的情況下才能實(shí)現(xiàn)。通過從啟發(fā)式方法轉(zhuǎn)向定量原則,我們可以構(gòu)建下一代 AI 智能體,它們不僅數(shù)量更多,而且更智能、更安全、更高效。

參考內(nèi)容:

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

蜉蝣說
2025-10-31 10:56:39
風(fēng)向真的變了!各國媒體紛紛承認(rèn),中國已無需再向世界證明其實(shí)力

風(fēng)向真的變了!各國媒體紛紛承認(rèn),中國已無需再向世界證明其實(shí)力

除夕煙火燦爛
2026-01-05 09:46:29
一人睡遍整個(gè)娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個(gè)娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
蒙古國的人,為啥如此仇視中國人?

蒙古國的人,為啥如此仇視中國人?

賤議你讀史
2026-02-27 15:12:56
重拳出擊?中方主動(dòng)罕見“出招”:向全球釋放4大重要信號了

重拳出擊?中方主動(dòng)罕見“出招”:向全球釋放4大重要信號了

瘋狂小菠蘿
2026-03-02 22:22:21
卡塔爾能源公司宣布暫停液化天然氣生產(chǎn)

卡塔爾能源公司宣布暫停液化天然氣生產(chǎn)

環(huán)球網(wǎng)資訊
2026-03-02 20:31:00
一個(gè)U盤裝走180億,200萬人的血汗錢48小時(shí)人間蒸發(fā)

一個(gè)U盤裝走180億,200萬人的血汗錢48小時(shí)人間蒸發(fā)

流蘇晚晴
2026-03-01 16:54:18
集體爆發(fā)!中國隊(duì)狂攬4金,女子項(xiàng)目全部奪冠,僅男單無緣獎(jiǎng)牌

集體爆發(fā)!中國隊(duì)狂攬4金,女子項(xiàng)目全部奪冠,僅男單無緣獎(jiǎng)牌

羅掌柜體育
2026-03-02 10:09:37
曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

全球風(fēng)情大揭秘
2026-01-11 23:10:48
中東多地遭伊朗報(bào)復(fù)性打擊,迪拜帆船酒店遭襲起火

中東多地遭伊朗報(bào)復(fù)性打擊,迪拜帆船酒店遭襲起火

觀察者網(wǎng)
2026-03-01 12:13:04
老板都是怎么把自己生意干黃的?網(wǎng)友:29.7收30,三個(gè)月不到就黃了

老板都是怎么把自己生意干黃的?網(wǎng)友:29.7收30,三個(gè)月不到就黃了

另子維愛讀史
2026-02-02 21:22:54
有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

夜深愛雜談
2026-03-02 22:37:17
難怪伊朗如此瘋狂反擊,真相大白:原來哈梅內(nèi)伊一開始就被炸死了

難怪伊朗如此瘋狂反擊,真相大白:原來哈梅內(nèi)伊一開始就被炸死了

林子說事
2026-03-02 13:01:11
隨著38歲梅西飆2記世界波+造3球+率隊(duì)4-2,美職聯(lián)最新積分榜出爐

隨著38歲梅西飆2記世界波+造3球+率隊(duì)4-2,美職聯(lián)最新積分榜出爐

側(cè)身凌空斬
2026-03-02 10:24:59
美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實(shí)在強(qiáng)得可怕

美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實(shí)在強(qiáng)得可怕

卷史
2026-02-27 19:40:42
Beats蘋果iPhone 17e專用手機(jī)殼首發(fā)399元 內(nèi)置磁體 超細(xì)纖維內(nèi)襯

Beats蘋果iPhone 17e專用手機(jī)殼首發(fā)399元 內(nèi)置磁體 超細(xì)纖維內(nèi)襯

快科技
2026-03-03 00:03:05
真正生理性的喜歡,根本藏不?。〔皇墙游呛蛽肀?,而是……

真正生理性的喜歡,根本藏不?。〔皇墙游呛蛽肀?,而是……

青蘋果sht
2026-02-22 06:58:00
500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

情感大頭說說
2026-03-01 13:41:53
59歲的糖尿病專家李洪梅因糖尿病離世??磥磲t(yī)生也治不了自己的病

59歲的糖尿病專家李洪梅因糖尿病離世??磥磲t(yī)生也治不了自己的病

新時(shí)代的兩性情感
2026-03-02 20:17:01
法德就是否參戰(zhàn)表明立場!

法德就是否參戰(zhàn)表明立場!

占豪
2026-03-03 00:47:08
2026-03-03 01:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

旅游
本地
數(shù)碼
藝術(shù)
公開課

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

高通MWC 2026發(fā)布多項(xiàng)通信技術(shù),定檔2029年開啟6G商用

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版