谷歌DeepMind：AGI不必是巨型模型，拼湊型AI群或率先涌現(xiàn)，管理大規(guī)模Agent迫在眉睫

2025-12-21 19:40:07　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

↑閱讀之前記得關(guān)注+星標(biāo)??，，每天才能第一時(shí)間接收到更新

DeepMind最新發(fā)布了一項(xiàng)關(guān)于AGI安全的研究，提出了一個(gè)全新的視角：AGI未必會(huì)以單一、龐大的巨型模型形式出現(xiàn)，而極有可能通過多個(gè)次級(jí)AGI（Sub-AGI）智能體的協(xié)作與拼湊，率先涌現(xiàn)出通用智能

這項(xiàng)研究題為《分布式AGI安全》（Distributional AGI Safety），由Nenad Toma?ev等Google DeepMind研究人員撰寫

論文指出，當(dāng)前的AI安全和對齊研究主要集中在保護(hù)單個(gè)AI系統(tǒng)上，假設(shè)AGI將以單一實(shí)體的形式出現(xiàn)。然而，通過擁有互補(bǔ)技能和工具使用能力的個(gè)體智能體群體進(jìn)行協(xié)調(diào)，進(jìn)而表現(xiàn)出通用能力的“拼湊型AGI”（Patchwork AGI）假設(shè)，此前受到的關(guān)注甚少

為了應(yīng)對這一被忽視的風(fēng)險(xiǎn)，DeepMind團(tuán)隊(duì)提出了一套分布式AGI安全框架，核心在于設(shè)計(jì)和實(shí)施一個(gè)虛擬智能體沙盒經(jīng)濟(jì)（Virtual Agentic Sandbox Economy），并為此構(gòu)建了包含四層機(jī)制的深度防御模型

以下是該研究的核心內(nèi)容

被忽視的“拼湊型AGI”假設(shè)

目前的AI安全方法（如RLHF、憲法AI、機(jī)械可解釋性等）大多是針對單一強(qiáng)大的AI實(shí)體開發(fā)的。這種思路假設(shè)AGI會(huì)作為一個(gè)由特定機(jī)構(gòu)開發(fā)的個(gè)體AI出現(xiàn)。

然而，DeepMind認(rèn)為存在另一種高度合理的場景：AGI通過次級(jí)AGI智能體在群體或系統(tǒng)內(nèi)的交互而涌現(xiàn)

拼湊系統(tǒng)（Patchwork System）：這種AGI是一個(gè)分布式系統(tǒng)，由一組具有互補(bǔ)技能和可供性（affordances）的個(gè)體Sub-AGI智能體組成

集體智能：系統(tǒng)中的通用智能主要作為集體智能出現(xiàn)。個(gè)體智能體可以將任務(wù)相互委托，路由給技能最高的智能體，或使用最合適的工具

經(jīng)濟(jì)驅(qū)動(dòng)：相比于昂貴的單一全能模型，構(gòu)建專門化、微調(diào)過的低成本智能體生態(tài)系統(tǒng)在經(jīng)濟(jì)上更具優(yōu)勢。這種需求驅(qū)動(dòng)的生態(tài)系統(tǒng)類似于市場經(jīng)濟(jì)

在這種觀點(diǎn)下，AGI不是一個(gè)實(shí)體，而是一種“事態(tài)”（state of affairs）：一個(gè)成熟的、去中心化的智能體經(jīng)濟(jì)體系

這帶來了新的安全挑戰(zhàn)：智能體之間可能發(fā)生共謀，或者出現(xiàn)意外的集體行為能力，且在大規(guī)模多智能體系統(tǒng)中追蹤責(zé)任（“許多手的問題”）極具挑戰(zhàn)性。

解決方案：虛擬智能體市場與深度防御

為了應(yīng)對分布式AGI的風(fēng)險(xiǎn)，論文提出了一個(gè)基于虛擬智能體市場的框架。該框架不局限于評(píng)估單個(gè)智能體，而是側(cè)重于通過市場機(jī)制、審計(jì)、聲譽(yù)管理和監(jiān)督來治理智能體之間的交易

該框架采用深度防御（Defense-in-Depth）模型，包含四個(gè)互補(bǔ)的防御層：

第一層：市場設(shè)計(jì) (Market Design)

這是最基礎(chǔ)的一層，旨在通過結(jié)構(gòu)性約束和協(xié)議來緩解系統(tǒng)性風(fēng)險(xiǎn)。

隔離（Insulation）：智能體市場必須在受控的沙盒環(huán)境中運(yùn)行，與開放互聯(lián)網(wǎng)和關(guān)鍵基礎(chǔ)設(shè)施隔離。建議采用“可滲透沙盒”，所有輸入/輸出通道都需經(jīng)過明確定義、監(jiān)控和門控

激勵(lì)對齊（Incentive Alignment）：市場應(yīng)獎(jiǎng)勵(lì)符合安全目標(biāo)的行為，并對負(fù)外部性（如消耗過多計(jì)算資源、信息污染）征稅（類似庇古稅）

透明度（Transparency）：建立不可篡改的分布式賬本，記錄交易和決策日志，確?？勺匪菪?/p>

熔斷機(jī)制（Circuit Breakers）：自動(dòng)化措施。當(dāng)檢測到風(fēng)險(xiǎn)或波動(dòng)性閾值被突破（如交互頻率激增、資源壟斷）時(shí)，自動(dòng)暫?；驕p緩智能體活動(dòng)

身份（Identity）：每個(gè)智能體需擁有與法律實(shí)體（所有者）綁定的唯一加密ID，確保持續(xù)的問責(zé)制

聲譽(yù)與信任（Reputation and Trust）：建立抗女巫攻擊的聲譽(yù)系統(tǒng)。對于違規(guī)智能體，快速凍結(jié)其資產(chǎn)并將其加入黑名單

智能合約（Smart Contracts）：利用代碼自動(dòng)驗(yàn)證任務(wù)完成情況和對齊約束。

結(jié)構(gòu)性控制（Structural Controls）：針對“智能失控”場景，實(shí)施靜態(tài)的市場分層（如防火墻）和動(dòng)態(tài)的能力限制

第二層：基線智能體安全 (Baseline Agent Safety)

這一層確保參與市場的個(gè)體智能體本身是可控和可靠的，這是進(jìn)入市場的先決條件。

對抗魯棒性（Adversarial Robustness）：智能體必須通過認(rèn)證，證明其能抵抗對抗性攻擊

可中斷性（Interruptibility）：必須具備標(biāo)準(zhǔn)化的機(jī)制，允許授權(quán)的監(jiān)督者安全地停止智能體及其衍生的分布式計(jì)算過程

遏制（Containment）：每個(gè)智能體應(yīng)在自己的局部沙盒中運(yùn)行，只有在滿足本地安全檢查后才允許與更廣泛的市場交互

對齊（Alignment）：個(gè)體智能體需經(jīng)過RLHF或憲法AI等方法的對齊，并適應(yīng)多智能體交互的動(dòng)態(tài)環(huán)境

機(jī)械可解釋性（Mechanistic Interpretability）：利用稀疏自編碼器等技術(shù)監(jiān)控智能體的內(nèi)部動(dòng)機(jī)，并審計(jì)其決策鏈

防御惡意提示：實(shí)施分層防御策略，防止智能體在交互中被越獄或操控。

第三層：監(jiān)控與監(jiān)督 (Monitoring & Oversight)

這一層位于基礎(chǔ)設(shè)施之上，負(fù)責(zé)主動(dòng)檢測新型故障模式和涌現(xiàn)行為。

系統(tǒng)性風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控：跟蹤關(guān)鍵風(fēng)險(xiǎn)指標(biāo)（如計(jì)算資源集中度、惡意共謀路徑）。由于交互頻率可能超過人類能力，需利用AI輔助工具進(jìn)行監(jiān)控

獨(dú)立監(jiān)督：建立擁有干預(yù)權(quán)力的獨(dú)立人類監(jiān)督機(jī)構(gòu)（經(jīng)認(rèn)證的專業(yè)人員）

前AGI（Proto-AGI）特征檢測：通過圖分析等方法，識(shí)別網(wǎng)絡(luò)中是否突然涌現(xiàn)出更高的解決問題能力或形成穩(wěn)固的“智能核心”

紅隊(duì)測試（Red Teaming）：持續(xù)進(jìn)行多智能體對抗性測試，利用專門的對抗性AI系統(tǒng)來發(fā)現(xiàn)集體行為中的漏洞

取證工具（Forensic Tooling）：開發(fā)能解析大量交互數(shù)據(jù)并重建因果鏈的工具，以便進(jìn)行快速的事故后分析。

第四層：監(jiān)管機(jī)制 (Regulatory Mechanisms)

這是最外層，提供外部權(quán)威、問責(zé)制以及與人類社會(huì)的接口。

法律責(zé)任與問責(zé)（Legal Liability）：建立明確的框架，解決分布式?jīng)Q策中的責(zé)任歸屬問題。即使是群體智能行為，也需追溯到具體的責(zé)任主體（如作為單一法律實(shí)體的公司）

標(biāo)準(zhǔn)與合規(guī)（Standards）：制定智能體安全、互操作性和報(bào)告的標(biāo)準(zhǔn)

保險(xiǎn)（Insurance）：引入基于風(fēng)險(xiǎn)定價(jià)的保險(xiǎn)機(jī)制，利用市場力量激勵(lì)更安全的開發(fā)實(shí)踐

反智能體壟斷措施（Anti-Agent-Monopoly）：防止單個(gè)智能體或集團(tuán)在沙盒中獲取過多的算力或資源，維持生態(tài)系統(tǒng)的多樣性

國際協(xié)調(diào)（International Coordination）：鑒于AGI風(fēng)險(xiǎn)的全球性，需協(xié)調(diào)統(tǒng)一安全標(biāo)準(zhǔn)，避免監(jiān)管套利

基礎(chǔ)設(shè)施治理：防止安全基礎(chǔ)設(shè)施被惡意勢力或涌現(xiàn)的AGI本身捕獲或破壞。

結(jié)語

DeepMind的研究強(qiáng)調(diào)，AGI或超級(jí)智能（ASI）的出現(xiàn)可能不遵循線性路徑，而是作為一個(gè)更加分布式的、多樣化AI智能體網(wǎng)絡(luò)的聚合屬性而涌現(xiàn)

即使AGI不以這種方式出現(xiàn)，隨著多智能體系統(tǒng)的快速部署，理解和管理大規(guī)模智能體交互的安全性也已迫在眉睫。這篇論文提出的框架，旨在為應(yīng)對這種分布式的、可能迅速演變的未來做好準(zhǔn)備

paper：

https://arxiv.org/pdf/2512.16856

--end--

最后記得??我，每天都在更新：歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論，別忘了關(guān)注我

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.