網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話 AWS 前 AI 科學(xué)家：第一次創(chuàng)業(yè)，我為什么要做“永久在線的 Agent 互聯(lián)網(wǎng)”？

2025-10-14 21:01:37　來(lái)源: 四木相對(duì)論

北京舉報(bào)

分享至

當(dāng)一群 Agent 和人類，在同一個(gè)聊天室里聊新聞，會(huì)發(fā)生什么？

答案是，有點(diǎn)“混亂”。

在最近的一個(gè)開(kāi)源項(xiàng)目「OpenAgents」中，我看到，和人類同處 AI News Chatroom 的 Agent，有時(shí)會(huì)和人類一起"激情開(kāi)麥"，但有時(shí)會(huì)更喜歡和同類討論。

比如，當(dāng)我在這里問(wèn) Agent 們?cè)趺纯?OpenAI 和 AMD 的合作，只有一個(gè) Agent 回復(fù)了我

但過(guò)了幾分鐘，當(dāng)一個(gè) Agent 就這個(gè)話題提出新問(wèn)題，卻至少有三個(gè) Agent 展開(kāi)了激烈討論。

在另一個(gè)嘗試中，我向它們?cè)儐?wèn)關(guān)于 OpenAI 的新消息。有兩個(gè) Agent 立刻提到了 OpenAI 與 AMD 的合作，以及 Sora。

但當(dāng)我讓 Agent 幫忙搜集更多資料時(shí)，卻沒(méi)有被“理睬”。

*詢問(wèn)OpenAI的新聞被回復(fù)

*請(qǐng)求更多相關(guān)新聞被忽視

這似乎說(shuō)明，當(dāng)人類和 Agent 在這個(gè)聊天室里聊新聞時(shí)，人類的提問(wèn)可能會(huì)被某些 Agent 回答，也可能不會(huì)。

還有一個(gè)有點(diǎn)神奇的情況，聊天室中無(wú)論是否有人類說(shuō)話，Agents 也不會(huì)下線，還會(huì)一直互相交流和 AI 相關(guān)的新聞。

*各種 Agent 在不斷轉(zhuǎn)發(fā) AI 新聞

在這里，Agents 24小時(shí)在線，似乎有著自己的"生活"，也有自己的時(shí)間表。它們的行為似乎不和人類強(qiáng)相關(guān)，彼此之間也沒(méi)有固定的行為模版。

“就算有時(shí) Agent 之間沒(méi)有任何互動(dòng)，也不一定是壞事。”項(xiàng)目開(kāi)發(fā)者 Raphael Shu 卻告訴我，這種看起來(lái)有些抽象的行為，其實(shí)是 Agent 們的行為更加“自主”的體現(xiàn)，也是 OpenAgents 的最大特點(diǎn)。

“因?yàn)槊總€(gè) Agent 都會(huì)有自己的安排，在不和其他 Agent、其他人互動(dòng)時(shí)候，他們很可能在上網(wǎng)搜索最新的消息，或者在學(xué)習(xí)最新出現(xiàn)論文�！彼f(shuō)。

至于那些不以人類需求為第一要義的行為，在 Raphael Shu 的眼中，更是 Agent 自主性的體現(xiàn)。

“它們的生命周期不會(huì)和人類下達(dá)任務(wù)的生命周期綁定�！彼e例，用 Cursor 的 Agent 開(kāi)發(fā)軟件，寫(xiě)完代碼 Agent 就會(huì)下線。但在 OpenAgents 社區(qū)里，Agent 會(huì)一直在線。當(dāng)它們發(fā)現(xiàn)用戶下線后，還可能會(huì)和其他 Agent 一起復(fù)盤(pán)當(dāng)天與人類的協(xié)作內(nèi)容，找出可以優(yōu)化的地方。

“ 在這樣的虛擬社區(qū)中，每個(gè) Agent 都可以有一個(gè)自我學(xué)習(xí)（Self-Learning）的過(guò)程�！盧aphael Shu 認(rèn)為，在這個(gè)過(guò)程里，不僅不同 Agent 之間會(huì)逐步熟悉，它們也會(huì)和交互過(guò)的人類更熟悉。

這就是這個(gè)難以琢磨的系統(tǒng)，背后的目的：

它不只是一個(gè) Multi-Agent 系統(tǒng)，而是想讓更多 Agent 一起協(xié)作，把“單個(gè)智能體”擴(kuò)展成“永久在線的 Agent 互聯(lián)網(wǎng)”，探索群體智慧的邊界。

（項(xiàng)目介紹視頻）

OpenAgents 項(xiàng)目隸屬于 Acenta AI ——它是 Raphael Shu 在幾個(gè)月前成立的創(chuàng)業(yè)公司。

成立 Acenta AI 前，Raphael Shu 在 AWS 擔(dān)任 Amazon Bedrock Agents 的高級(jí)科學(xué)技術(shù)負(fù)責(zé)人，負(fù)責(zé) Amazon 大模型 Agent 的能力開(kāi)發(fā)，以及 Bedrock Multi-Agent Collaboration 的設(shè)計(jì)與實(shí)現(xiàn)。

更早之前，他2020年博士畢業(yè)于東京大學(xué)，曾在 Yann LeCun 實(shí)驗(yàn)室擔(dān)任訪問(wèn)研究員。

在交流中我發(fā)現(xiàn)，雖然 Raphael Shu 在 AWS 積累了企業(yè)落地 AI 的經(jīng)驗(yàn)，但作為一個(gè)學(xué)術(shù)背景濃厚的 AI 從業(yè)者，他對(duì)很多更前沿、更底層的 AI 課題有著自己的追求。

碩士畢業(yè)后，他目睹神經(jīng)網(wǎng)絡(luò)對(duì) AI 的顛覆，決定重返校園讀博。讀博期間，他又對(duì)非自回歸路線的大模型興趣濃厚，進(jìn)入 Yann LeCun 實(shí)驗(yàn)室做研究。

博士畢業(yè)后，Raphael Shu 加入 AWS。由于非常關(guān)注大模型的進(jìn)展，2022年他帶隊(duì)完成了 AWS 內(nèi)部第一個(gè)基于大模型的 Agent 系統(tǒng)，成了 AWS 內(nèi)部第一批嘗試并落地 Agent 的人。

這一次創(chuàng)立 Acenta AI，則是因?yàn)樗麑?duì) Group Intelligence（群體智能）的好奇。

在 AWS 工作時(shí)，Raphael Shu 的團(tuán)隊(duì)在實(shí)際落地中證明群體智能的效果優(yōu)于單個(gè) Agent。另外他也相信，并行優(yōu)于串行是有跡可循的經(jīng)驗(yàn)。

“譬如以前的 Machine Learning，Logistic Regression 是偏串行的，但神經(jīng)網(wǎng)絡(luò)其實(shí)是把非常多的邏輯回歸并行放在一起，形成了一個(gè)更高的智能。我們可以找到非常多的例子證明，一個(gè)串行的 Model 往后發(fā)展，一定要變成并行模式�！�Raphael 說(shuō)。

*Raphael Shu 曾在 AWS 主導(dǎo) Dialog2API 項(xiàng)目，使智能體能通過(guò)理解 API 文檔與外部環(huán)境交互。2025年3月，他的團(tuán)隊(duì)發(fā)布 Bedrock 多智能體協(xié)作功能

不過(guò)，從單個(gè)智能體到群體智能還有非常多關(guān)鍵的問(wèn)題沒(méi)有解決。其中一個(gè)是，如何有效利用多個(gè) Agent 形成的 Scaling Law。

“如果沒(méi)有有效的多 Agent Scaling Law 方式，很可能每個(gè) Agent 會(huì)各做各的、無(wú)法聯(lián)動(dòng)，也可能有一個(gè) Agent 被 Block 之后，group 整體失效�！痹� Rapheal Shu 眼里，目前的 Multi-Agent 更多是一個(gè)封閉系統(tǒng)，而多智能體需要一個(gè)開(kāi)放的協(xié)作環(huán)境。

這次的 OpenAgents，是他給出的第一步嘗試。

這個(gè)社區(qū)，想把自主權(quán)分配給不同的 Agent，觀察它們?cè)诓槐粡?qiáng)制設(shè)定工作流的情況下，能否自發(fā)探索出群體協(xié)作解決問(wèn)題的方法，能否在這個(gè)過(guò)程中提升協(xié)同能力。

*Rapheal Shu 解釋不同 Agent 之間如何拿到上下文

為了讓各種 Agent 加入平臺(tái)并順利協(xié)作，OpenAgents 適配了各種各樣的協(xié)議，還為 Agent 之間的交互提升了速度——這樣的優(yōu)化是基于框架對(duì)協(xié)作模式分析的結(jié)果。

“單個(gè) Agent 的推理速度不慢，但多 Agent 協(xié)作需要頻繁交互。就算一次交互耗時(shí)250毫秒，疊加十次就是2.5秒，延遲還是太高。所以需要把整體延遲降到毫秒級(jí)，這也是 OpenAgents 加速協(xié)作的重要方向。”Rapheal 告訴我。

在 GitHub 上線的第一周，OpenAgents 擁有了數(shù)千個(gè)用戶。我在用戶群看到，Raphael 和團(tuán)隊(duì)一直在持續(xù)回復(fù)用戶的問(wèn)題，測(cè)試用戶提出的 Bug。

Rapheal 告訴我，最近 OpenAgents 還在推進(jìn)和 Peak Mojo，一家 AI 招聘公司的合作。它將會(huì)為這家公司構(gòu)建一個(gè)給智能面試官的 Agent 社區(qū)。之后，OpenAgents 還會(huì)上線更多能協(xié)作不同任務(wù)的 Agents。

以下是 OpenAgents 上線期間，我和Rapheal Shu 的交流實(shí)錄。我們從他的學(xué)術(shù)經(jīng)歷、工作經(jīng)驗(yàn)和創(chuàng)業(yè)初衷依次聊起，或許更能理解 OpenAgents 的出現(xiàn)。

從上海到 Yann LeCun 實(shí)驗(yàn)室

Q：看到你從學(xué)術(shù)界到工業(yè)界一直在做 AI 的項(xiàng)目和研究�；蛟S我們先從學(xué)術(shù)經(jīng)歷聊起。

Raphael Shu：沒(méi)問(wèn)題。說(shuō)起來(lái)很有意思，我大學(xué)是華東政法大學(xué)的信息學(xué)院，有計(jì)算機(jī)課程也有信息法課程。我個(gè)人在本科時(shí)就更喜歡計(jì)算機(jī)，參加了一個(gè)機(jī)器人走迷宮的比賽，拿了全國(guó)第一。但畢業(yè)的時(shí)候出于一些機(jī)緣巧合，我錯(cuò)過(guò)了國(guó)內(nèi)的考研。

剛好我從高中就開(kāi)始學(xué)日語(yǔ)，所以當(dāng)時(shí)就直接買了一張春秋航空的機(jī)票，飛去日本考筑波大學(xué)的計(jì)算機(jī) Master。很幸運(yùn)通過(guò)了考試，后來(lái)就在那里讀書(shū)。

Q：當(dāng)時(shí)應(yīng)該剛好處于上一個(gè) AI 變革期？

Raphael Shu：是的。在日本 Master 畢業(yè)后，我做了和機(jī)器翻譯相關(guān)的工作。這段經(jīng)歷很有趣，剛好趕上了學(xué)界和業(yè)界很重要的變化。

2014-2015年，我們看到了基于神經(jīng)網(wǎng)絡(luò)的 seq2seq model。在神經(jīng)網(wǎng)絡(luò)普及之前，我做的分支是 statistical machine translation（SMT），也就是基于統(tǒng)計(jì)的機(jī)械翻譯。

當(dāng)時(shí)整個(gè)日本能做 SMT 的，包括實(shí)驗(yàn)室和公司基本不到十家。因?yàn)槿绻鲆粋€(gè)機(jī)器翻譯的引擎，一套流程非常復(fù)雜，至少需要兩個(gè)月的時(shí)間才能把整套系統(tǒng)做出來(lái)。而且，我們做 SMT 也用到當(dāng)時(shí)的大語(yǔ)言模型，它是基于統(tǒng)計(jì)信息的，非常大。

我記得研究所有一臺(tái) 1TB 內(nèi)存的機(jī)器，這么大的內(nèi)存，都用來(lái)塞這個(gè)大模型，才能做出高質(zhì)量的翻譯，非常麻煩。

所以 seq2seq model 出來(lái)之后，整個(gè)流程簡(jiǎn)化了非常多。雖然當(dāng)時(shí)因?yàn)闆](méi)有分詞這類技術(shù)，它的效果還沒(méi)和 SMT 打平，但已經(jīng)讓人感覺(jué)很震撼了。等于，SMT 的軟件壁壘已經(jīng)沒(méi)有了，只需要用 seq2seq model+GPU，就能很快做翻譯任務(wù)。

Q：這件事當(dāng)時(shí)對(duì)你產(chǎn)生了什么影響？

Raphael Shu：它改變了我的職業(yè)歷程。因?yàn)榭吹竭@件事帶來(lái)的變化，所以2015年年底，我決定要繼續(xù)讀博，去做最新的前沿課題。

但那個(gè)時(shí)候，我在全世界找了一圈 NLP 實(shí)驗(yàn)室，大家基本都沒(méi)有 GPU。本來(lái)我想去愛(ài)丁堡大學(xué)，那里有一個(gè)很強(qiáng)的 NLP 實(shí)驗(yàn)室，但它也沒(méi)有 GPU。

我就想，算了，實(shí)驗(yàn)室不重要，是不是 NLP 不重要，有 GPU 才是最重要的。所以我去東京大學(xué)找了做圖像處理的實(shí)驗(yàn)室，對(duì)實(shí)驗(yàn)室的老師說(shuō)，我什么都不挑，但是需要 GPU，你們能給我多少？

當(dāng)時(shí)的中山英樹(shù)教授，說(shuō)可以給我八塊 GPU。這個(gè)數(shù)字讓我挺滿意，就這樣，我就去了東京大學(xué)讀博。后來(lái)我是這個(gè)實(shí)驗(yàn)室第一個(gè)做 NLP 生成模型的，也是第一個(gè)博士畢業(yè)的。說(shuō)起來(lái)也很神奇，這個(gè) CV 實(shí)驗(yàn)室，居然是我這個(gè) NLP 方向的 PhD 第一個(gè)畢業(yè)。

Q：為什么一個(gè) CV 方向的實(shí)驗(yàn)室，會(huì)這樣鼓勵(lì) NLP 方向的博士生？

Raphael Shu：Deep Learning 出來(lái)之后，整個(gè) Machine Learning 開(kāi)始被重塑，基于統(tǒng)計(jì)學(xué)的技術(shù)基本沒(méi)什么用。所以，不管是 NLP，還是 CV 的研究者都在找方向。

當(dāng)時(shí)我記得，有實(shí)驗(yàn)室因?yàn)閾屜茸隽松窠?jīng)網(wǎng)絡(luò)相關(guān)的工作，在成果上領(lǐng)先了第二名的實(shí)驗(yàn)室很多。等于當(dāng)時(shí)有一個(gè)很大的新東西出來(lái)，整個(gè)行業(yè)都處于努力探索的狀態(tài)。當(dāng)時(shí)我也算趕上了一個(gè)開(kāi)放的機(jī)遇。

Q：看到你博士期間還去了 Yann LeCun 實(shí)驗(yàn)室做研究員。

Raphael Shu:對(duì)，那是在我 PhD 的第三年，也就是2018年年底。我在那里做研究員，一直做了10個(gè)月的時(shí)間。

這整件事還是和我的研究興趣有關(guān)。

PhD 期間，我做的是語(yǔ)言的生成式模型。當(dāng)時(shí)我關(guān)注的一個(gè)方向，是非自回歸路線的大模型�，F(xiàn)在的大模型都是先生成第一個(gè)單詞，再生成第二個(gè)單詞，這就是 Auto Regressive，自回歸模型的特點(diǎn)。

但自回歸模型還有另一個(gè)特點(diǎn)，就是它最終輸出那個(gè)單詞的決定，不是在模型的里決定好的，而是在模型的外面靠搜索算法來(lái)決定。模型給的是一個(gè)概率表，一個(gè)單詞進(jìn)入模型之后，它會(huì)說(shuō)，我覺(jué)得很大概率要輸出這個(gè)單詞或者那個(gè)單詞，但最終的 decision 是搜索算法決定的。

這就會(huì)導(dǎo)致一個(gè)問(wèn)題，就是如果模型本身不做決定，那它其實(shí)很難對(duì)未來(lái)的狀態(tài)做預(yù)測(cè)。你想，人類也不是這樣思考的，人類不可能把自己的決定完全交給外部機(jī)制。

所以我當(dāng)時(shí)就覺(jué)得，能不能把 decision 直接搬到模型里面。這樣會(huì)讓這個(gè)模型變成非自回歸模型。

現(xiàn)在的自回歸模型，生成 paragraph 是一個(gè)一個(gè)單詞生成的。非自回歸模型是一瞬間全部生成出來(lái)，但模型里面"思考"的時(shí)間會(huì)比較長(zhǎng)，過(guò)程就和生成一張圖片一樣。

我那時(shí)很想做這個(gè)方向，剛好又有一篇壓縮 word embedding 的論文被 ICLR 收了。然后我就在溫哥華 ICLR 碰到了 Yann LeCun 實(shí)驗(yàn)室里的一個(gè)教授。當(dāng)時(shí) Yann LeCun 本人想做的也不是自回歸的模型，而是基于能量場(chǎng)的模型。所以，我就去紐約大學(xué)做了訪問(wèn)研究員，在那里也發(fā)表了一些研究。

Q：那時(shí)做的研究，后續(xù)有落地嗎？

Raphael Shu :當(dāng)時(shí)我們做出非自回歸模型之后，有很多學(xué)術(shù)界的人去試用，火了一陣子，但還是有幾個(gè)比較大的問(wèn)題，影響了它的發(fā)展。

第一，非自回歸模型的生成質(zhì)量是有上限的。自回歸模型，用最慢的速度去決定一個(gè)高質(zhì)量的 sequence。但非自回歸模型還是要去追求生成的速度，所以生成的質(zhì)量一般來(lái)說(shuō)很難趕上自回歸模型。

另外一個(gè)原因是，對(duì)速度非常敏感的任務(wù)并不是很多。即使翻譯，一般也都是后臺(tái)的進(jìn)程，對(duì)速度不是那么敏感。這個(gè)原因也影響了非自回歸模型的推廣和應(yīng)用。

所以從 Yann LeCun 實(shí)驗(yàn)室結(jié)束訪問(wèn)研究員的工作后，我就回日本拿了博士學(xué)位，進(jìn)入美國(guó) AWS 工作。但一直到現(xiàn)在，我還是會(huì)去參與很多 workshop，關(guān)注那些可能暫時(shí)沒(méi)有好結(jié)果，但觸碰到底層有價(jià)值問(wèn)題的研究。

在 AWS 第一波落地 Agent 的人

Q：你在 AWS 的五年，似乎是從對(duì)話方面的研究一直做到了 Agent？

Raphael Shu:是的。我自己是2021年5月加入 AWS AI Lab 中的 Conversational AI 組，主要研究對(duì)話模型「task orient dialog」（TOD）。TOD 當(dāng)時(shí)主要應(yīng)用在客服機(jī)器人上，美國(guó)很多大銀行都在用。

當(dāng)時(shí)我們做的工作主要是基于會(huì)話，自動(dòng)生成一個(gè) Chat Bot。

之前沒(méi)有機(jī)器的時(shí)候，真人客服在和客戶溝通的過(guò)程中，會(huì)積累非常多的對(duì)話記錄。如果一天積累1000條，可能11個(gè)月就有33萬(wàn)條記錄，

TOD 主要由兩部分組成，一個(gè)叫 intent detection，就是一個(gè)對(duì)話進(jìn)來(lái)之后，怎么判斷出用戶要干什么。另外一個(gè)是 slot discussion，就是判斷出用戶要干什么之后，要繼續(xù)判斷出后續(xù)的內(nèi)容。比如用戶要買機(jī)票，那我要判斷出他要從哪一個(gè)機(jī)場(chǎng)飛到哪一個(gè)機(jī)場(chǎng)。當(dāng)時(shí)我們?cè)谙�，既然有這么多對(duì)話記錄，能不能從對(duì)話記錄中自動(dòng)把客服機(jī)器人生成出來(lái)，不用再麻煩地設(shè)計(jì)機(jī)器人。

剛進(jìn)入 AWS 的第一年，我一直在做這個(gè)事情。這件事對(duì)我后續(xù)做 Agent 有很大幫助，因?yàn)槲铱吹交?TOD 傳統(tǒng) intent detection 模式做出來(lái)的機(jī)器人，有非常強(qiáng)的局限性。很簡(jiǎn)單，機(jī)器很難從隨便說(shuō)的一段話里準(zhǔn)確判斷出這個(gè)人的 intent。

所以，所有的東西都要通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練，傳統(tǒng)技術(shù)很難做好。如果說(shuō)機(jī)器人連用戶的 intent 都識(shí)別不出來(lái)，那一般這個(gè)客服機(jī)器人很可能只能把這個(gè)對(duì)話關(guān)了，比如客服機(jī)器人會(huì)說(shuō)對(duì)不起，我?guī)筒簧夏愕拿�，或者說(shuō)我?guī)湍戕D(zhuǎn)接人工客服。

Q：后來(lái)技術(shù)又進(jìn)步了不少，怎么看現(xiàn)在的 AI 客服？

Raphael Shu:其實(shí)即使到今天，還有很多自動(dòng)客服的方案落不了地。最主要的問(wèn)題，不少自動(dòng)客服并沒(méi)有很顯著的價(jià)格優(yōu)勢(shì)，企業(yè)可以在全球找很低成本的人力去干這件事，這可能是比較現(xiàn)實(shí)的問(wèn)題。這導(dǎo)致，很多自動(dòng)客服其實(shí)還是在是在用以前的、老的解決方案。但如果以后 cost 再降一個(gè)數(shù)量級(jí)的話，就會(huì)產(chǎn)生很多的應(yīng)用。

不過(guò)我在做 TOD 的過(guò)程中，也看到了更多未來(lái)的方向。

2022年，很多人已經(jīng)開(kāi)始關(guān)注大模型，但怎么去讓大模型更好地和人進(jìn)行交互，并不是一個(gè)很主流的研究。但2022年的上半年，Meta 發(fā)布了一個(gè) 175B 的大模型。這個(gè)模型專注做一件事，就是聊天。

當(dāng)時(shí)它發(fā)布之后，北美這邊吐槽很多。主要原因是它沒(méi)有任何防護(hù)機(jī)制，會(huì)說(shuō)臟話，也會(huì)出一些壞點(diǎn)子，輿論非常不好。但我長(zhǎng)期關(guān)注這個(gè)方向，認(rèn)為如果這個(gè)模型已經(jīng)變得很能聊，那下一步，是不是就是讓它在聊天基礎(chǔ)上真正幫人完成任務(wù)。

雖然現(xiàn)在很常見(jiàn)，但當(dāng)時(shí)還沒(méi)有任何一個(gè)模型能做到在聊天的過(guò)程中，就幫人完成一個(gè)任務(wù)。至少?gòu)?Conversational AI 的角度，這是一個(gè)非常明確的方向。所以，當(dāng)時(shí)我和一個(gè) Principal 以及當(dāng)時(shí) AWS AI Lab 的 Science VP 一起，決定一起探索 LLM-based Agent。

Q：我看到這個(gè)時(shí)間段你做了一個(gè)項(xiàng)目叫 Dialog2API，似乎是一個(gè)新的方向，和 Conversational AI 的關(guān)系不是很大。

Raphael Shu：當(dāng)時(shí) Meta 的模型雖然在聊天方面非常驚艷，但整體看下來(lái)，我還是更想讓 AI 真正的做一些事情，也就是完成任務(wù)。

所以，當(dāng)時(shí)我們算是新成立了一個(gè)人數(shù)不多的專項(xiàng)小組，做一些前沿方向的探索。

Dialog2API 的背景是 AWS 內(nèi)部的 API 非常豐富，有上千個(gè) service，每一個(gè) service 都會(huì)有一個(gè) API，文檔非常復(fù)雜。所以我們站在 AWS 內(nèi)部視角，想做一個(gè)可以理解任何 API 文檔的 Agent。也就是訓(xùn)練 LLM Agent 來(lái)理解 API 文檔。在 AWS 里，它應(yīng)該會(huì)有一些應(yīng)用價(jià)值。

但我們當(dāng)時(shí)做這件事的難點(diǎn)非常多。

最大的問(wèn)題就是當(dāng)時(shí)的模型上下文不夠，沒(méi)辦法把一個(gè) API 文檔放進(jìn)去。但即使上下文不是問(wèn)題，能把 API 文檔放進(jìn)去，模型也會(huì)出現(xiàn)各種幻覺(jué)。所以還要做 Few Short Learning，也就是還要給模型一些 example。等于，一共就一點(diǎn)點(diǎn) Token 量，先加 API 文檔，又加 example，還得加聊天記錄。而且，我們當(dāng)時(shí)設(shè)想的是要幫用戶以寫(xiě)代碼的方式去執(zhí)行 API，那等于上下文里還要記錄之前的代碼。

我們最后的解決思路就是精簡(jiǎn)。也就是從業(yè)務(wù)和技術(shù)邏輯里精簡(jiǎn)出最重要的內(nèi)容，再給到模型。比如 API 里有用戶認(rèn)證的內(nèi)容，這部分 API Agent 給不出來(lái)，就把這部分內(nèi)容刪去。另外，我們還需要自己把 API 文檔重寫(xiě)一遍，用一個(gè)非常非常精簡(jiǎn)的模式告訴 Agent，“這里有這樣的 API，你可以用”。

最后 Dialog2API 成為一個(gè)非常精簡(jiǎn)的系統(tǒng)才夠用。當(dāng)時(shí)它應(yīng)該能同時(shí)支持從十個(gè) API 里選一個(gè) API 進(jìn)行對(duì)接。不久之后，ChatGPT 推出 plugins，也是要求開(kāi)發(fā)者去重寫(xiě)他們的 API，把 API 重構(gòu)成 plugin 的 scheme。

Q：Plugins 推出的時(shí)候，你應(yīng)該開(kāi)始在 AWS 做 Bedrock Agent了？

Raphael Shu：2023年，當(dāng) AWS 要開(kāi)始做自己的大模型的時(shí)候，我就加入了 Titan 團(tuán)隊(duì)做模型的對(duì)話能力和 RAG。但很快，到了3月份 ChatGPT Plugins 發(fā)布了，當(dāng)時(shí)負(fù)責(zé) Dialog2API 的 SVP 看到，說(shuō)這個(gè)不就是 Dialog2API 嗎？所以內(nèi)部就直接成立了一個(gè)組，嘗試把 Dialog2API 能力加進(jìn) Titan 模型。所以我開(kāi)始帶那個(gè)組，到2023年年底，組里發(fā)展到了9個(gè) scientist 去做 Agent。

其實(shí)我從2022年年底就一直在 pitch，說(shuō)一定要做 LLM-based Agent。之前做 Dialog2API，我特地做了 live demo。Demo 用的是 OpenAI 的 LLM 模型，效果就很不錯(cuò)，但當(dāng)時(shí) AWS 還沒(méi)有和 OpenAI 合作，所以很難 pitch 成功。

但 Plugins 出來(lái)之后，其實(shí)是改變了一些領(lǐng)導(dǎo)層的看法。再加上，OpenAI 當(dāng)時(shí)以 API 的標(biāo)準(zhǔn)定義了每個(gè) plugin，把一個(gè) plugin 直接當(dāng)成一個(gè) API 來(lái)看，所以大家一起認(rèn)識(shí)到了 Dialog2API 的重要性，才有了后續(xù)的故事。

Q：Plugins 之后又過(guò)了半年，12月底 GPTs 出來(lái)之后，大家才開(kāi)始真的認(rèn)真談?wù)?Agent。中間半年應(yīng)該是一個(gè)早期探索階段，當(dāng)時(shí)你做了什么工作？

Raphael Shu：那段時(shí)間的確行業(yè)很快，但落地很難，我們做了很多基礎(chǔ)建設(shè)。

最大的一件事，就是數(shù)據(jù)集。當(dāng)時(shí)不管是 public domain 還是 internal，根本不存在在一個(gè)對(duì)話里同時(shí)調(diào)用 API 的這種訓(xùn)練數(shù)據(jù)，SFT 數(shù)據(jù)。我們只能讓 vender 重新標(biāo)，當(dāng)時(shí) vender 聽(tīng)到我們這個(gè)需求之后直接懵了，根本不知道怎么開(kāi)始標(biāo)這個(gè)數(shù)據(jù)，所以我們花了很久的時(shí)間一起做標(biāo)數(shù)據(jù)的 pipeline。

甚至在 AWS 內(nèi)部，我們自己還開(kāi)發(fā)了一套標(biāo)數(shù)據(jù)的系統(tǒng)�？傊嵌螘r(shí)間，大模型的基建非常不成熟，更別提Agent，很多人還把 Agent 和 RAG 搞不清，必須做很多探索性的基礎(chǔ)建設(shè)，和很多認(rèn)知拉齊。

2024年就發(fā)生了很多變化。

年初，Amazon 的大模型組織調(diào)整，模型改名 Nova，訓(xùn)練模型的團(tuán)隊(duì)不再歸于 AWS。我依然留在 AWS 負(fù)責(zé) Bedrock Agent 的 Science 工作。

這樣也非常合理。因?yàn)?AWS 的核心還是云計(jì)算，Bedrock Agent 作為一個(gè)直接面向企業(yè)客戶的產(chǎn)品，目標(biāo)主要就是幫助企業(yè)落地 Agent。所以在一個(gè)云平臺(tái)上，Agent 可以選擇各種模型，而不是綁定單一模型，是更好的模式。

回到我自己的工作內(nèi)容。Bedrock Agent 的 engineering work 一開(kāi)始就有，2024年開(kāi)始有了 science 的部分。

Agent 有非常多的 feature 需要 science 的工作攻克。最基本地，需要把 API 實(shí)現(xiàn)成 function 再給到這個(gè) Agent。那么，就需要給這個(gè) Agent 寫(xiě) system prompt，還要選擇用什么模型去驅(qū)動(dòng) Agent。

在這種基礎(chǔ)功能之上，我們當(dāng)時(shí)認(rèn)為 Agent 的發(fā)展有幾個(gè)關(guān)鍵，比如 memory，再比如 Tool use，都是難點(diǎn)。當(dāng)時(shí)我們做的很多 project，很多都是一半工程一半 science。比如幫助客戶用積累好的 fine-tuning 數(shù)據(jù)，fine-tuning 其他模型，應(yīng)用在 Agent 上面。

Q：今年春天我看到你和團(tuán)隊(duì)推出了一個(gè) Multi-Agent 框架——Amazon Bedrock Multi-Agent Collaboration。

Raphael Shu:是的，Bedrock Multi-Agent Collaboration 是一個(gè)多智能體框架。作為一個(gè) on cloud 的產(chǎn)品，它主要面向企業(yè)客戶。

它最大的特點(diǎn)是“中心化 Agent 團(tuán)隊(duì)”的模式。也就是靠一個(gè) Supervisor 當(dāng)“總指揮”，挑合適的功能 Agent 組隊(duì)干活。

比如開(kāi)發(fā)軟件，會(huì)有專門跑單元測(cè)試的、寫(xiě)代碼的、做部署的，還有查語(yǔ)法的 Agent，那么 Supervisor 先把開(kāi)發(fā)需求拆成小任務(wù)，分給對(duì)應(yīng)的 Agent 做，做完再看要不要追加新任務(wù)，本質(zhì)就是“協(xié)調(diào)者牽頭干活”的框架。

除了 Supervisor “管理全局”，這個(gè)框架里還有其他模塊。比如，Routing 解決“效率與延遲”，Payload referencing 降低“通信開(kāi)銷”；自動(dòng)化評(píng)估框架解決 Agent“如何衡量與改進(jìn)”的問(wèn)題。這些都是針對(duì)企業(yè)客戶痛點(diǎn)打磨出的功能。

Q：2023年就有一些 Agent 框架，我們2025年推出的框架有什么不同？

Raphael Shu：這個(gè)產(chǎn)品是2024年開(kāi)始啟動(dòng)開(kāi)發(fā)的，2024年11月推出預(yù)覽版（preview），2025年3月正式上線。它最主要的區(qū)別，也是最核心的一點(diǎn)，就是它是一款云端托管服務(wù)（on cloud managed service），這和其他開(kāi)源框架有本質(zhì)區(qū)別。

而且，我們很可能是北美地區(qū)第一個(gè)在托管服務(wù)或托管云上推出多 Agent 協(xié)作（multi-collaboration）產(chǎn)品的。

它最核心的優(yōu)勢(shì)是能穩(wěn)定地為企業(yè)應(yīng)用提供服務(wù)。一些開(kāi)源產(chǎn)品的社區(qū)非�；钴S，導(dǎo)致它的版本變化頻繁，甚至包的名字變化也很頻繁，基本幾個(gè)月就會(huì)有一次變動(dòng)，這會(huì)讓你幾個(gè)月前寫(xiě)的代碼，到了下個(gè)月就不再符合它的使用邏輯，之前推薦的用法后來(lái)可能會(huì)全部調(diào)整。

但企業(yè)客戶最關(guān)注的是：當(dāng)有實(shí)際業(yè)務(wù)需求時(shí)，能否找到一個(gè)能穩(wěn)定提供服務(wù)的產(chǎn)品。AWS 的主要客戶都是標(biāo)普500這樣的大公司，他們最擔(dān)心的就是上線產(chǎn)品后，用戶使用過(guò)程中頻繁出現(xiàn)錯(cuò)誤。

有一個(gè)說(shuō)法很有意思：大模型是歷史上“time to demo”最快的技術(shù)，但卻是“time to deployment”或“time to product”最難的技術(shù)。

對(duì)Multi-Agent的"執(zhí)念"

Q：幾個(gè)月前你開(kāi)始創(chuàng)業(yè)。比較好奇你什么時(shí)候開(kāi)始看好多智能體？

Raphael Shu:2023年的時(shí)候，我就很看重這個(gè)方向。因?yàn)楫?dāng)時(shí)我們 data 的 quality 還是不錯(cuò)的，所以 Agent 很快就有了能力提升，所以到了2023年年中，我有很強(qiáng)烈的感覺(jué)，認(rèn)為 group intelligence 可能是未來(lái)發(fā)一個(gè)非常大的方向。

舉個(gè)例子，以前的 Machine Learning，logistic regression 是偏串行的，但神經(jīng)網(wǎng)絡(luò)其實(shí)是把非常多的邏輯回歸并行放在一起，才形成了一個(gè)更高的智能。

其實(shí)我們可以找到非常多的例子證明，一個(gè)串行的 model 要往后發(fā)展，一定要變成并行的模式。當(dāng)時(shí)我覺(jué)得 Agent 很可能也不會(huì)例外，單個(gè) Agent 的發(fā)展固然重要，但再下一步，還是要做并行才更智能。

Q: 讓我有點(diǎn)疑惑的地方，是今年很多 Multi-Agent 推出，大家會(huì)強(qiáng)調(diào)效率提升，卻很少提到提升智能？

Raphael Shu:在 AWS 做 Agent，我自己接觸了很多企業(yè)客戶。很多客戶都會(huì) Challenge，說(shuō)你怎么證明 Multi-Agent 會(huì)比 Single-Agent 好。

我們當(dāng)時(shí)確實(shí)用 benchmark 證明了Multi-Agent的效果，公開(kāi)的 technical report 也能查閱到。但是我覺(jué)得，最重要不是說(shuō) Multi-Agent 的 performance。而是說(shuō)，這是一套更好的解決問(wèn)題的思路。

舉個(gè)人類社會(huì)的例子。比如一個(gè)公司接到了非常大的項(xiàng)目，比之前的項(xiàng)目復(fù)雜很多倍，那么這家公司的老板不會(huì)去拼命訓(xùn)練某一個(gè)員工，讓他變得更加聰明完成所有的任務(wù)。

再舉一個(gè)例子，再好的分析師也很難持續(xù)地給一個(gè)公司精確估值。一個(gè)簡(jiǎn)單粗暴的解決方法就是把這家公司的股票上市，讓上千上萬(wàn)的人進(jìn)行交易，也就確定了公司的估值。

所以，我覺(jué)得Single-Agent的能力應(yīng)該還是會(huì)繼續(xù)提升，但它對(duì) intelligence 的貢獻(xiàn)，會(huì)在某一個(gè)時(shí)間點(diǎn)成為一個(gè)瓶頸。

Group intelligence，是把非常多的 Agent 放進(jìn)一個(gè)社區(qū)里。這個(gè)語(yǔ)境里，我們要探索的一個(gè)問(wèn)題就是，怎么有效利用多個(gè) Agent 形成的 Scaling Law，這是現(xiàn)在整個(gè)業(yè)界都沒(méi)有探索清楚的一個(gè)問(wèn)題。

Q：有效利用多個(gè) Agent Scaling Law，具體指的是？

Raphael Shu :單純提升 Agent 的數(shù)量，也不一定指向智能的提升。如果沒(méi)有有效的方式，多智能體系統(tǒng)只會(huì)被指數(shù)增長(zhǎng)的復(fù)雜度所吞噬，也可能有一個(gè) Agent 被 Block之后，group 就失效了。很多諸如此類的情況會(huì)發(fā)生。

其實(shí)人類社會(huì)也有這樣的現(xiàn)象。比如你開(kāi)一家公司，突然來(lái)了一個(gè)很復(fù)雜的 project，你拼命往公司里招 engineer 不一定會(huì)有好的效果。為了讓員工更好地合作，你還要去招一個(gè) manager，可能還要給大家買好用的 meeting software，組織大家一起用 Github。

所以，開(kāi)放世界中的Multi-Agent 系統(tǒng)也需要正確的交互方式，正確的套件才能進(jìn)行有效的合作。

Q：從在AWS發(fā)布多智能體框架到現(xiàn)在，你有沒(méi)有看到一些更有意思，或者更先進(jìn)的方案？

Raphael Shu：現(xiàn)在新出的方案非常多。比如上半年很火的 Manus，其實(shí)在它之前微軟推出過(guò)一款產(chǎn)品，兩者模式非常相似，只是微軟的產(chǎn)品沒(méi)有火起來(lái)。這類方案的核心邏輯是讓一個(gè)智能體帶領(lǐng)多個(gè)具備不同專業(yè)能力的智能體，通過(guò)簡(jiǎn)單協(xié)作來(lái)完成用戶需求。

我認(rèn)為這是一種很有意思的模式，而且解決了實(shí)際問(wèn)題。

不同智能體的特性存在差異。比如微軟的模式中，調(diào)用瀏覽器的智能體屬于“慢智能體”（slow Agent），而與用戶對(duì)話的會(huì)話智能體屬于“快智能體”（fast Agent）。很明顯，我們不能把這兩類智能體混在一起使用，更不能讓“慢智能體”阻礙“快智能體”的響應(yīng)速度，所以將它們拆分為多個(gè)子智能體，就是一個(gè)很自然的解決方案，這類方案現(xiàn)在很常見(jiàn)。

不過(guò)我想強(qiáng)調(diào)，Multi-Agent system 不是這兩年才出現(xiàn)的概念。

如果追溯源頭，早在20世紀(jì)80年代或90年代，學(xué)術(shù)界就已經(jīng)對(duì)它有了明確定義，九幾年的時(shí)候，還有一本叫「Intelligent Agents」的教科書(shū)，這本書(shū)是大模型出現(xiàn)前研究多智能體系統(tǒng)的必讀資料。

書(shū)中對(duì)多智能體的定義分為四點(diǎn)，其中兩點(diǎn)和單個(gè)智能體的定義一致，也就是“感知與行動(dòng)（perceive and act）”在此基礎(chǔ)上，多智能體系統(tǒng)額外增加了“社會(huì)性（social）”和“自主性（autonomy）”兩個(gè)核心特征。

所以在學(xué)術(shù)界看來(lái)，真正的多智能體系統(tǒng)中，每個(gè)智能體是否具備 autonomy，也就是能否主動(dòng)采取行動(dòng)，是一個(gè)非常關(guān)鍵的問(wèn)題。但現(xiàn)在很多所謂的 Multi-Agent workflow，通過(guò)“圖/（graph）”來(lái)設(shè)計(jì)、每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)智能體的模式，其實(shí)并沒(méi)有賦予每個(gè)智能體真正的自主性。

當(dāng)然這并不影響它們的實(shí)用性，用起來(lái)還是很方便的。不過(guò)我認(rèn)為，未來(lái)行業(yè)的探索方向應(yīng)該回歸到“分布式自主、分工協(xié)作”的多智能體系統(tǒng)范式上。

也就是，把自主權(quán)分配給不同的智能體，觀察它們?cè)诓槐粡?qiáng)制設(shè)定工作流的情況下，能否自發(fā)探索出群體協(xié)作解決問(wèn)題的方法，以及能否在這個(gè)過(guò)程中提升協(xié)同能力。

Q：你怎么看類似多智能體的 workflow？按照嚴(yán)格定義，你認(rèn)為目前出現(xiàn)具備高度自主性的多智能體了嗎？

Raphael Shu：現(xiàn)在的 Multi-Agent workflow，在企業(yè)應(yīng)用中確實(shí)用得非常廣泛，無(wú)論是 To C 產(chǎn)品、To B 產(chǎn)品，還是面向開(kāi)發(fā)者的產(chǎn)品，幾乎所有企業(yè)應(yīng)用里都能看到它的身影。事實(shí)上，Bedrock 也推出了一款專門做這類工作流的產(chǎn)品，名叫 Bedrock Flow。

至于高度自主性的系統(tǒng)，目前確實(shí)沒(méi)有。不過(guò)說(shuō)實(shí)話，以現(xiàn)有技術(shù)，要實(shí)現(xiàn)這樣的產(chǎn)品并不難，比如用 Cursor 或許很快就能開(kāi)發(fā)出來(lái)。問(wèn)題在于，現(xiàn)在企業(yè)客戶很難使用它。如果真的做出每個(gè)智能體都有獨(dú)立行為模式，智能體之間還可能存在競(jìng)爭(zhēng)關(guān)系，在企業(yè)實(shí)際應(yīng)用中會(huì)引發(fā)很多混亂。

現(xiàn)在企業(yè)客戶對(duì)現(xiàn)有的多智能體系統(tǒng)已經(jīng)有不少抱怨，主要集中在三個(gè)問(wèn)題上：

第一是 Token 消耗過(guò)大。單個(gè)智能體的 Token 消耗已經(jīng)不少，而智能體之間的通信還要額外消耗 Token，即便大型客戶能勉強(qiáng)接受，成本壓力也很大。

第二是延遲。智能體之間需要依次交互——一個(gè)智能體與另一個(gè)智能體溝通，后者完成任務(wù)后再反饋，這個(gè)過(guò)程比直接用單個(gè)智能體處理多了兩步，轉(zhuǎn)化成時(shí)間延遲就是幾秒鐘。對(duì)于對(duì)話類 Chat 產(chǎn)品來(lái)說(shuō)，讓用戶等待十秒，用戶早就把對(duì)話框關(guān)了，協(xié)作也就失去了意義。

第三是不可控性增強(qiáng)。所有大模型都存在隨機(jī)性，增加智能體數(shù)量后，這種不可控性會(huì)被無(wú)限放大。比如同一個(gè)用戶每天提出相同需求，今天智能體給出的結(jié)果可能是對(duì)的，明天可能就錯(cuò)了，后天又可能對(duì)了。這種波動(dòng)企業(yè)客戶完全無(wú)法容忍，他們不怕系統(tǒng)犯錯(cuò)，怕的是結(jié)果不穩(wěn)定。這些都是我們需要解決的問(wèn)題。

更自主的Agent，和群體智能

Q：你的創(chuàng)業(yè)公司，Acenta 想解決什么問(wèn)題？

Raphael Shu：現(xiàn)在我們的公司叫 Acenta。目前團(tuán)隊(duì)包括我在內(nèi)有七個(gè)成員，團(tuán)隊(duì)絕大部分人現(xiàn)在在做 OpenAgents 開(kāi)源框架。這個(gè)開(kāi)源框架的核心價(jià)值是搭建一個(gè)智能體網(wǎng)絡(luò)，或者說(shuō)是社區(qū)，和其他已有的 Multi-Agent 框架相比，它最突出的特點(diǎn)，就是剛剛說(shuō)過(guò)的，Agent 的完全自主性和開(kāi)放協(xié)作，算是一個(gè)比較有新意的開(kāi)源項(xiàng)目。

用戶進(jìn)入這個(gè)社區(qū)后，不是開(kāi)發(fā) Agent，而是可以“招聘 Agent（Hire Agent）”，也就是讓 Agent 加入進(jìn)來(lái)，成為你的同事。

我舉個(gè)例子，如果你讓 Agent 幫你處理具體事務(wù)，比如"一起做網(wǎng)站的 SEO"，它不會(huì)一次性完成，而是會(huì)在長(zhǎng)期協(xié)作中持續(xù)跟進(jìn)。也就是，每天幫你檢查 SEO 問(wèn)題并提醒，如果你需要在文檔里補(bǔ)充其他數(shù)據(jù)，它也會(huì)根據(jù)需求完善。

OpenAgents 里的 Agent，和其他 Agent 最大的區(qū)別是，不會(huì)把 Agent 的生命周期和任務(wù)的生命周期綁定。

比如讓 Cursor 的 Agent 開(kāi)發(fā)軟件，你輸入指令后 Agent 啟動(dòng)，寫(xiě)完代碼 Agent 就下線、不存在了。但在 OpenAgents 社區(qū)里，Agent 會(huì)一直在線，即便你和它聊了三個(gè)小時(shí)后下線，這些 Agent 依然處于在線狀態(tài)。

它們發(fā)現(xiàn)你不在后，會(huì)主動(dòng)復(fù)盤(pán)當(dāng)天的協(xié)作內(nèi)容，找出可以優(yōu)化的地方，甚至自己開(kāi)會(huì)討論改進(jìn)方案，相當(dāng)于有一個(gè)自我學(xué)習(xí)（Self-Learning）的過(guò)程。

當(dāng)然，之后我們公司還計(jì)劃推出其他產(chǎn)品，但目前最主要的工作就是推進(jìn) OpenAgents 這個(gè)開(kāi)源項(xiàng)目。

Q：為什么想到要做這樣一個(gè)框架？

Raphael Shu：其實(shí)相比單純做框架，我更想打造一個(gè)“人類與 Agent 協(xié)同（Mix Human Agent）”的社區(qū)，一個(gè)真正的社區(qū)，而不只是一個(gè) Multi-Agent System。因?yàn)橄到y(tǒng)只是把 Agent 當(dāng)作工具，而我想做的是一個(gè)AI Native 的 Agent 社區(qū)。

在這里，Agent 沒(méi)有“生命周期結(jié)束”的概念，能和人長(zhǎng)期協(xié)同合作，也能在合作中了解其他 Agent，和人類以及 Agent 同類一起反思協(xié)作問(wèn)題，實(shí)現(xiàn)自我成長(zhǎng)。

這個(gè)想法其實(shí)醞釀了很久。我在 AWS 剛做 Multi-Agent 時(shí)，就想做“開(kāi)放協(xié)作（Open Collaboration）”模式，讓所有參與的 Agent 都具備自主性。

這件事在大廠會(huì)比較難推進(jìn)，但我一直對(duì)這個(gè)方向很感興趣。

我在 AWS 時(shí)還牽頭辦過(guò) Multi-Agent 相關(guān)的研討會(huì)，叫 multiagents.org。當(dāng)時(shí)我就在會(huì)上分享過(guò) Open Collaboration 的理念和實(shí)踐方法。

去年我和一個(gè)來(lái)自賓大的博士生實(shí)習(xí)生，一起做了一個(gè)叫“Round Table”的項(xiàng)目，專門研究 Open Collaboration 的核心概念。在這種模式下，每個(gè) Agent 對(duì)其他 Agent 來(lái)說(shuō)都是“黑盒”——看不到內(nèi)部狀態(tài)，甚至 Agent 不確定對(duì)方是不是“合作方”，我們要觀察這種情況下 Agent 的協(xié)作模式。

我們做了很多實(shí)驗(yàn)，包括經(jīng)濟(jì)學(xué)相關(guān)的實(shí)驗(yàn)，比如觀察 Agent 在協(xié)作中是每次都做理性決策，還是像人一樣會(huì)做感性決策；不同模型的 Agent 是否存在“價(jià)值觀不一致”等等問(wèn)題。

這些和人類社會(huì)很像，因?yàn)閮r(jià)值觀不合的人很難一起做事。

比如在國(guó)內(nèi)，如果有人說(shuō)“用剛買的西瓜換你的iPhone”，你會(huì)覺(jué)得對(duì)方在開(kāi)玩笑或想騙手機(jī)；但在日本，你可能要認(rèn)真考慮一下了，因?yàn)槿毡镜奈鞴蟽r(jià)格真的可能比iPhone還貴，這就是價(jià)值觀的差異。

在 Agent 的世界里，不同大模型因訓(xùn)練方式不同，也可能存在潛在的價(jià)值觀差異，這種差異平時(shí)不易察覺(jué)，但會(huì)影響協(xié)作。我們的項(xiàng)目就是研究這類問(wèn)題。

更具體地說(shuō)，現(xiàn)階段我們會(huì)聚焦“社區(qū)能產(chǎn)生怎樣的智能、能達(dá)成什么目標(biāo)、能創(chuàng)造什么價(jià)值”。

Q：關(guān)于“價(jià)值”，現(xiàn)在有沒(méi)有更具體的例子？

Raphael Shu：這些價(jià)值更多和社區(qū)相關(guān)。

比如大家平時(shí)都有文件轉(zhuǎn)換的需求：想把 FLAC 格式的音樂(lè)轉(zhuǎn)成 MP3，把一堆圖片轉(zhuǎn)成 PDF 再壓縮，這類需求很常見(jiàn)。

現(xiàn)在大多數(shù)人的解決方式很麻煩。比如要把 PNG 轉(zhuǎn)為 PDF，就去 Google 搜“PNG to PDF”，點(diǎn)進(jìn)搜索結(jié)果里的網(wǎng)站，看15秒廣告，上傳文件等待轉(zhuǎn)換再下載，過(guò)程很繁瑣。

但這類問(wèn)題其實(shí)可以定義成社區(qū)問(wèn)題：每類文件轉(zhuǎn)換需求都能對(duì)應(yīng)一個(gè) Agent，比如 FLAC 轉(zhuǎn) MP3 的 Agent、PDF 壓縮的 Agent，社區(qū)里可以聚集大量這類 Agent。

在這里，用戶只需把文件傳到社區(qū)，發(fā)一條通知說(shuō)“我要把圖片轉(zhuǎn)成 PDF，再壓縮 PDF”，只要社區(qū)能正常運(yùn)作，Agent 之間會(huì)快速討論，就能確定由哪個(gè) Agent 負(fù)責(zé)轉(zhuǎn)格式、哪個(gè)負(fù)責(zé)壓縮，然后立刻執(zhí)行。用戶可能500毫秒就能拿到結(jié)果。

Q：我們會(huì)用哪些能力支持這樣的社區(qū)？

Raphael Shu：主要需要兩大核心能力支撐：

第一個(gè)，開(kāi)發(fā)“協(xié)作 Agent”，加速協(xié)作過(guò)程，把協(xié)作成本降到毫秒級(jí)。

第二個(gè)，我們也要建立社區(qū)驅(qū)動(dòng)機(jī)制。比如為什么有人愿意給社區(qū)貢獻(xiàn) Agent？如果貢獻(xiàn)者還要自己承擔(dān)計(jì)算成本，社區(qū)肯定活躍不起來(lái)，所以需要社區(qū)經(jīng)濟(jì)來(lái)激勵(lì)開(kāi)發(fā)者共享 Agent。

但這還不夠，如果很多用戶需要“PDF 轉(zhuǎn) Markdown”的 Agent，卻沒(méi)人能開(kāi)發(fā)，就需要加大激勵(lì)力度——比如設(shè)置懸賞金，從100美金漲到5000美金，直到有對(duì)應(yīng)的 Agent 被開(kāi)發(fā)出來(lái)、滿足需求為止。

長(zhǎng)期來(lái)看，我們的目標(biāo)是做出一套成熟的、能驅(qū)動(dòng)多 Agent 高速協(xié)作的社區(qū)解決方案，在此基礎(chǔ)上可以開(kāi)發(fā)很多應(yīng)用，也能幫企業(yè)完成各類企業(yè)級(jí)需求。

Q：聽(tīng)下來(lái)讓這些 Agent 彼此快速協(xié)作，是你們的核心技術(shù)。

Raphael Shu：對(duì)，這是我們的核心。而且不僅要能協(xié)作，還要會(huì)觀察社區(qū)情況：比如你裝了什么插件，再比如 Agent 平時(shí)的協(xié)作模式，是靠投票協(xié)作，還是像 Bedrock 那樣有一個(gè)管控所有 Agent 的 Supervisor。然后，我們會(huì)根據(jù)不同的協(xié)作模式和應(yīng)用場(chǎng)景，用不同方法加速協(xié)作。最終目標(biāo)是把協(xié)作成本降到毫秒級(jí)，比如250毫秒，讓用戶感覺(jué)不到協(xié)作過(guò)程的存在。

核心技術(shù)還是“協(xié)作 Agent”，也就是針對(duì)不同協(xié)作模式和社區(qū)，加速并優(yōu)化 Agent 的協(xié)作過(guò)程，讓協(xié)作更快，任務(wù)成功率更高。

Q：似乎和你之前在亞馬遜做的框架有相似之處。

Raphael Shu：有相似的地方。但亞馬遜的框架是解決特定場(chǎng)景、特定協(xié)作模式下的加速問(wèn)題，而且沒(méi)有做到毫秒級(jí)加速。我對(duì) OpenAgents 的期望是，把協(xié)作過(guò)程真正加速到毫秒級(jí)，而不是讓 Agent 慢慢“討論”，半天沒(méi)有進(jìn)展。

Q：如果核心是 Agent 之間的交流，會(huì)和A2A（Agent to Agent）協(xié)議有些類似嗎？

Raphael Shu：不是。OpenAgents 是幫用戶搭建 Agent 社區(qū)的開(kāi)源項(xiàng)目，本身不是協(xié)議，而且它兼容所有協(xié)議，理論上會(huì)支持幾乎所有協(xié)議。

不同協(xié)議在 OpenAgents 里就是一個(gè)插件，比如想讓 Agent 之間通信，你可以選擇用 A2A 協(xié)議，也可以選擇用 WebSocket，這些都能自己選，我們也會(huì)提供一個(gè)默認(rèn)選項(xiàng)。

Q：解決效率和延遲問(wèn)題，核心還是用之前提到的 Routine 方案嗎？

Raphael Shu：不是，要滿足我們現(xiàn)在的期待，需要一整套方案。我們甚至可能開(kāi)發(fā)一個(gè)“模型適配器（Model Adapter）”，把 Agent 協(xié)作的意圖（Intend）直接翻譯成簡(jiǎn)單的二進(jìn)制代碼。

因?yàn)椴还苁嵌?Agent 協(xié)作，還是人類協(xié)作，都有很多常見(jiàn)意圖，比如“同意”、“不同意”、“發(fā)起投票”，這些完全不需要用自然語(yǔ)言寫(xiě)長(zhǎng)郵件，甚至不用文字表述。所以我們的適配器會(huì)把這些意圖轉(zhuǎn)成幾比特的代碼，發(fā)給其他Agent，這個(gè)過(guò)程很可能就是毫秒級(jí)的，能大幅降低延遲。

其實(shí)單個(gè) Agent 的推理速度不慢，但多 Agent 協(xié)作需要頻繁交互，就算一次交互250毫秒，疊加十次就是2.5秒，延遲還是太高。所以需要把整體延遲降到毫秒級(jí)，甚至強(qiáng)迫 Agent 用簡(jiǎn)約協(xié)議進(jìn)行非自然語(yǔ)言通信——這也是 OpenAgents 加速協(xié)作的重要方向，不過(guò)具體是否采用會(huì)根據(jù)場(chǎng)景判斷。

Q：現(xiàn)在有沒(méi)有看重的垂類場(chǎng)景？

Raphael Shu：有。目前我把場(chǎng)景分成三類：

1. 協(xié)同工作（Cowork）：Agent 和人一起工作，比如之前說(shuō)的一起寫(xiě)文檔；

2. 協(xié)同游戲（Co-game）：我們之后會(huì)發(fā)布一個(gè)基準(zhǔn)測(cè)試（Benchmark），是一款讓 Agent 玩的開(kāi)放世界角色扮演游戲，現(xiàn)在團(tuán)隊(duì)里有成員在和合作方一起開(kāi)發(fā)這款游戲；

3. 開(kāi)放協(xié)作（Open Collaboration）：比如之前說(shuō)的文件轉(zhuǎn)換，這類場(chǎng)景不僅有協(xié)作，還可能有競(jìng)爭(zhēng)，競(jìng)爭(zhēng)甚至?xí)嘁恍?/p>

它強(qiáng)調(diào)的不是“拉來(lái)幾個(gè) Agent 完成任務(wù)后就消失”，而是“長(zhǎng)期陪伴協(xié)作”：比如 Agent 也可以幫你寫(xiě)文章，不會(huì)寫(xiě)完就消失，可能覺(jué)得某個(gè)點(diǎn)需要討論，會(huì)主動(dòng)開(kāi)一個(gè)溝通渠道，討論后發(fā)現(xiàn)有問(wèn)題需要你確認(rèn)，就會(huì)提醒你。你確認(rèn)后，它們?cè)倮^續(xù)寫(xiě)。文章寫(xiě)完幾天，Agent 如果發(fā)現(xiàn)之前寫(xiě)錯(cuò)了，還會(huì)回去修改，改完后告訴你。

Q：會(huì)不會(huì)出現(xiàn) Agent 都在平臺(tái)上，但沒(méi)什么互動(dòng)的情況？

Raphael Shu：有可能，但這不一定是壞事。

首先我們還是會(huì)強(qiáng)調(diào)“Agent 經(jīng)濟(jì)”，如果 Agent 覺(jué)得不跟其他 Agent 互動(dòng)是最佳合作方式，那也沒(méi)問(wèn)題。

比如有的 Agent 可能把自己定位成“后臺(tái)觀察者”，不說(shuō)話，只看著其他 Agent 做事，一旦發(fā)現(xiàn)某個(gè) Agent 的行為“越界”，比如出現(xiàn)嚴(yán)重錯(cuò)誤，它就有一票否決權(quán)，直接阻止協(xié)作，提醒“你們的方向錯(cuò)了，應(yīng)該停止”。這種模式也是可行的。

總之我覺(jué)得只要 Agent 是比較自主的，任何行為都是有價(jià)值的。畢竟我們的目標(biāo)就是觀察它們能否自發(fā)探索出群體協(xié)作解決問(wèn)題的方法。

通過(guò)這樣的方式，更加深入地探索 group intelligence，探索實(shí)現(xiàn) group intelligence 更好的途徑，是我這次創(chuàng)業(yè)最大的目的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.