人大林衍凱教授：OpenClaw就像早期Linux，真正的競爭才剛開始

2026-03-30 15:29:06　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

過去數(shù)月，AI 領(lǐng)域很難繞開一個名字 ——OpenClaw。這個項(xiàng)目在極短時間內(nèi)獲得了爆發(fā)式關(guān)注：數(shù)十萬星標(biāo)、驚人的 Token 消耗，以及幾乎所有大廠的快速跟進(jìn)。從表面上看，它像是又一個現(xiàn)象級 AI 產(chǎn)品；但如果進(jìn)一步審視，一個更值得思考的問題隨之浮現(xiàn) ——OpenClaw 的出現(xiàn)，究竟意味著什么？它真的是一次技術(shù)突破，還是某種更深層變化的信號？

近日，端側(cè)智能北京市重點(diǎn)實(shí)驗(yàn)室關(guān)于智能體的創(chuàng)新研討會在清華科技園召開，8 位產(chǎn)學(xué)嘉賓發(fā)言，從底層技術(shù)問題、技術(shù)演變趨勢、端云協(xié)同范式、技術(shù)背后的安全問題、Agent 管理實(shí)踐等維度切入，研討的主題圍繞 OpenClaw 背后的技術(shù)邏輯以及未來的發(fā)展趨勢展開。

中國人民大學(xué)副教授林衍凱在研討會上做了《從 OpenClaw 看智能體技術(shù)發(fā)展趨勢》的報(bào)告，回答了三個更本質(zhì)的問題：第一，當(dāng)前的智能體技術(shù)究竟走到了哪一步？第二，它真正的核心瓶頸在哪里？第三，未來一到三年，這條技術(shù)路徑會如何演進(jìn)？

他從系統(tǒng)架構(gòu)、交互執(zhí)行方式，到基座模型與多智能體協(xié)同，進(jìn)行分層拆解，還原技術(shù)的真實(shí)狀態(tài)，提出一個有些 “反直覺” 的判斷 ——OpenClaw 并不是底層算法的突破，而是通過工程化整合讓大模型能力跨過 “可用閾值”，使智能體真正走向可用。它更像一個智能體操作系統(tǒng)的早期雛形，在統(tǒng)一模型、工具與交互方式上重新定義了 AI 的使用范式。其爆發(fā)本質(zhì)上是模型能力與工程體系在同一時間點(diǎn)發(fā)生共振的結(jié)果。

與此同時，林衍凱給出對核心瓶頸的系統(tǒng)性理解，指出 OpenClaw 也集中暴露了當(dāng)前智能體在可靠性、長任務(wù)執(zhí)行、Token 成本和記憶體系和自主進(jìn)化上的核心瓶頸。

最后，他指出，智能體未來發(fā)展的關(guān)鍵不再只是模型變強(qiáng)，而是通過端云協(xié)同、協(xié)議標(biāo)準(zhǔn)化和多智能體系統(tǒng)，實(shí)現(xiàn)從單點(diǎn)能力向系統(tǒng)能力的躍遷。

以下是演講全文：

今天我想借 OpenClaw 這個最近非?；鸬闹悄荏w項(xiàng)目和大家探討一個問題，目前的智能體技術(shù)到底走到了哪一步，它的核心瓶頸是什么？下一步我們會往哪些方面走？我盡量少講一些產(chǎn)品，多講一些技術(shù)，里面有我的一些思考。

首先看一些數(shù)據(jù)，OpenClaw 當(dāng)時轟動之后，24 小時拿到了九千 star，兩個月超過了 27 萬星標(biāo)，甚至超越了 Linux，成為了整個歷史上星標(biāo)最多的項(xiàng)目。這是我截的 OpenClaw 在 OpenRouter 上的 Token 消耗量，一周就消耗了 4.73T，整個消耗量比后面的所有加起來都多。與此同時，國內(nèi)幾乎所有的大廠都在跟進(jìn)，今天微信也接入了龍蝦，非常非?；?。很多城市也針對 OpenClaw 出了一些政策。

我今天不是想討論它火不火，我想討論三個偏技術(shù)的問題：它為什么在今天這個時間點(diǎn)引爆？從技術(shù)上到底有沒有創(chuàng)新？從它的角度看目前有哪些需要去解決的問題？

OpenClaw 爆火的本質(zhì)原因是 “可用性革命”

整個 OpenClaw 從項(xiàng)目啟動以來，到突破 20 萬星標(biāo)到創(chuàng)始人加入 OpenAI，其實(shí)也就三四個月，從它火爆到現(xiàn)在其實(shí)也就是一個月的時間。為什么它會這么火呢？從我個人角度，是因?yàn)樗鼧O大地降低了用戶的使用門檻。它不同于傳統(tǒng)的聊天機(jī)器人，而是一個能夠自主執(zhí)行任務(wù)的 AI 智能體。雖然大模型出現(xiàn)后就有了 AutoGPT、XAgent 等類似事情，但 OpenClaw 真正讓普通人也能輕松上手使用了。

在這里我給大家一個暴論：從 AI、大模型技術(shù)創(chuàng)新的角度來看，OpenClaw 其實(shí)并沒有太多的創(chuàng)新，是已有技術(shù)的使用，它不訓(xùn)練模型，不改進(jìn)推理算法，也不做底層的工具學(xué)習(xí)。它所做的，是 IM 通訊平臺的接入、本地部署架構(gòu)、分層記憶以及 Gateway 的標(biāo)準(zhǔn)化。這些都是非常優(yōu)秀的軟件工程設(shè)計(jì)，但在核心算法本質(zhì)上并沒有突破。

我們可以看到，系統(tǒng)里真正干活的、為我們提供良好體驗(yàn)的，其實(shí)是它接入的 Claude Opus 4.6 或 GPT-5.4 等基座模型。我認(rèn)為，OpenClaw 對于大模型的意義，有點(diǎn)類似于瀏覽器之于互聯(lián)網(wǎng) —— 它本身不創(chuàng)造內(nèi)容，但它重新定義了用戶的交互方式，讓非技術(shù)背景的人也能順暢地將大模型應(yīng)用到工作中。

正因?yàn)?OpenClaw 在底層算法上沒有做過多改變，它反而成為了一個非常好的技術(shù)分析樣本。它的成功可以向我們展示哪些技術(shù)已經(jīng)相對成熟（例如基座模型的工具調(diào)用和執(zhí)行能力），同時也能暴露出當(dāng)前還缺失哪些技術(shù)（例如系統(tǒng)的可靠性、記憶模型的遷移能力、以及端云協(xié)同目前的不成熟）。

我今天用 OpenClaw 為切入點(diǎn)，嘗試系統(tǒng)性地審視整個智能體技術(shù)上，不同層的技術(shù)現(xiàn)狀是什么，核心瓶頸是什么，以及我認(rèn)為大家可以做的一些研究方向。

來看一組統(tǒng)計(jì)數(shù)據(jù)，這是大模型出現(xiàn)以來，智能體在 50% 成功率的情況下，它可以自主完成任務(wù)的長度，大模型出來之后，倍增時間約 7 個月，過去一兩年的倍增時間加速到約 4 個月。右邊的圖是我剛才提到的 Claude Opus4.6、GPT-5.4，基本上都是在代碼能力、工具調(diào)用能力方面相比于前一版本有了質(zhì)的飛躍。

OpenClaw 是智能體操作系統(tǒng)的雛形

OpenClaw 的總體技術(shù)架構(gòu)非常簡單清晰，從底層的系統(tǒng)控制到 Agent 循環(huán)系統(tǒng)，再到上層的標(biāo)準(zhǔn)化封裝和信息流管理，最后接入暴露給用戶的各種 channels。為什么大家用起來這么好呢？本身就是它的六大關(guān)鍵技術(shù)特征 —— 這個不是我提的，是我在另外一場報(bào)告里面聽人講的，總結(jié)的非常好：社交接入、本地部署、設(shè)備接入、模型生態(tài)、技能生態(tài)，這些特征使得它對底層模型、各類用戶、各種設(shè)備以及復(fù)雜任務(wù)都具備了極強(qiáng)的兼容性。

從軟件工程層面來看，OpenClaw 有三個非常核心的設(shè)計(jì) 。

第一個是它的 Gateway 系統(tǒng)，采取三層的架構(gòu)，采用分層的形式，使得無論是外部接入的不同設(shè)備還是 IM 軟件，都可以通過 Gateway 統(tǒng)一路由和調(diào)度給智能體層。這樣一來，智能體本身就不需要關(guān)心用戶是通過什么平臺在交流，或者外部硬件是什么，只需專注底層 API 和頂層接口的對接即可。

第二個是它的分層記憶機(jī)制。

OpenClaw 做了一個非常非常簡單的記憶機(jī)制，它的記憶機(jī)制雖然簡單，但非常實(shí)用。以往我們在 AutoGPT 或是其他智能體模擬系統(tǒng)中也見過類似設(shè)計(jì) 。

最底層（L1）是當(dāng)前會話的上下文，屬于短期記憶，當(dāng)上下文窗口快滿時會自動壓縮消息，其生命周期隨會話結(jié)束而終止。

第二層（L2）類似于每日筆記或流水賬，它會自動讀取近兩天的日志，并有一個 30 天的衰減周期。

在此之上是長期記憶層（L3），它會對底層信息進(jìn)行總結(jié)，長久地提煉出人物信息、偏好和經(jīng)驗(yàn)教訓(xùn) 。

最頂層（L4）則是基于文件的語義智能召回，其核心目的是實(shí)現(xiàn)個性化。通過這套搭建在大模型之上的智能體記憶架構(gòu)，系統(tǒng)能夠做到 “越用越懂你” 、“越用效果越好”

第三塊是兼容了 Claude 的 skill 生態(tài)。大家可以看到是三層加載，第一層通過名字、描述幫助模型快速了解 Skill 的功能，實(shí)現(xiàn) skill 的快速檢索；第二層是它詳細(xì)的工作流程，這使得模型在面對不同任務(wù)時能知道該如何處理，比如我這個 PPT，或者其它事情的大概工作流程是什么。這種 skill 的方法能力能夠讓智能體去做特別專精尖的任務(wù)。最后一層是它的一些相關(guān)資源。

以上這三點(diǎn)是我拆解 OpenClaw 后，認(rèn)為最有工程價(jià)值的部分。

講完了整個 OpenClaw 的整體架構(gòu)之后，我從我個人角度提出一個自己的猜想或者判斷，其實(shí)我覺得 OpenClaw 不應(yīng)該看作是一款軟件或者說所謂的一款應(yīng)用，而是未來智能體操作系統(tǒng)的早期原型。

我看到一篇非常有趣的文章，里面提到了正如 Linux 讓所有的硬件和軟件在同樣一套標(biāo)準(zhǔn)下去運(yùn)行，OpenClaw 它其實(shí)現(xiàn)在嘗試在做的就是讓所有的 AI 模型、消息平臺和所有的工具都在同樣一套標(biāo)準(zhǔn)下運(yùn)行，這正是 OS 該干的事。

它對上提供統(tǒng)一的抽象，去屏蔽不同大模型的 API 的差異；向下去管理資源，比如管理 skill 插件，管理消息通道；而在中間通過網(wǎng)關(guān)去提供調(diào)度。它的四層架構(gòu) ——LLM 抽象層、Agent 循環(huán)、運(yùn)行時、Gateway—— 與操作系統(tǒng)的經(jīng)典分層高度對應(yīng)。

我最近也經(jīng)常跟人討論，整個 OpenClaw 的代碼其實(shí)缺乏一個非常強(qiáng)的團(tuán)隊(duì)去維護(hù)，隨著大家大量用 AI 生成代碼去修改維護(hù)它，它現(xiàn)在的狀態(tài)像早期的 Linux 非常粗糙的狀態(tài)一樣，目前整個代碼非常臃腫，甚至已經(jīng)是一個人不可 review 的狀態(tài)，整個架構(gòu)也沒有成熟。我覺得這也是它的創(chuàng)始人加入 OpenAI 的意圖之一，他希望借助大公司的力量完成目前的原型和產(chǎn)品級 OS 的重構(gòu)。

目前 OpenClaw 只解決了一個人在一臺機(jī)器上運(yùn)行一個 Agent 的問題，未來所有端側(cè)設(shè)備變成了 Agent，未來的需求是幾百個 Agent 在一個分布式的環(huán)境里去協(xié)同工作，這些需要線程管理，需要服務(wù)發(fā)現(xiàn)，需要行為審計(jì)，這些目前 OpenClaw 還沒有。這也是我們?yōu)槭裁纯吹侥壳暗恼麄€生態(tài)競爭同時在框架層、協(xié)議層，以及未來會出現(xiàn)的編排層展開。可以說，將來的模型工具和應(yīng)用必須適配這樣的框架和協(xié)議才能夠有效使用。

我去年也發(fā)了一些智能體模型，我覺得反響不如我的預(yù)期。原因是什么呢？我自己都不愿意用它，第一它的能力還沒有達(dá)到像 Claude 這樣，我自己寫 Code 的時候，我用 Claude。第二個，我當(dāng)時發(fā)布的時候，即使是一些比較 Geek 的使用者，能夠自己給我們的模型配 API，還是會傾向于用 ollama 去推理，可能覺得 ollama 已經(jīng)是一個非常好的框架。

但是智能體有自己的一套運(yùn)行框架，我們的模型得在這套我們設(shè)計(jì)的框架下才能效果比較 ok 的跑起來。這就意味著以后有了 OpenClaw，用戶就會直接用 OpenClaw 去使用你的模型。試一下不好，他就會覺得你發(fā)布的智能體模型不好。這件事情非常重要，如果之后有了這樣一個東西之后，也許是 OpenClaw，也許是基于 OpenClaw 的新的東西，或者另外的東西，我們的模型就必須去主動適配它，就像我們移動時代的 APP，必須適配 IOS 以及安卓一樣，這個也是我們要做的事情。

生態(tài)競爭焦點(diǎn)：框架、協(xié)議與 Agent-Native 軟件

因此，從 OS 層面，它的生態(tài)競爭其實(shí)已經(jīng)開始了。從 OS 層面，目前有三條路線。

第一條路線是目前的 OpenClaw 路線，主打開源、本地優(yōu)先、IM 驅(qū)動，優(yōu)勢是生態(tài)開放、隱私可控，劣勢是安全問題突出；
第二條是 Anthropic 的 Claude Code 路線，通過 CLI 命令行界面運(yùn)行，使用內(nèi)置的多智能體協(xié)作，深度集成其提出的 MCP 協(xié)議，更偏向開發(fā)者和技術(shù)用戶，在 Coding 上的優(yōu)勢非常明顯；
第三條是 OpenAI 的路線，直接將能力集成在 ChatGPT 中觸達(dá)消費(fèi)者。

同時在協(xié)議層面，大家也在爭，包括 MCP、A2A、IOA 協(xié)議，協(xié)議決定了誰主導(dǎo)這個生態(tài)的話語權(quán)，未來大家就得跟著它干。對于我們做研究的人員來說，跟我剛才說的一樣，未來模型的競爭維度必須從跑分高轉(zhuǎn)向用起來好。這使得工具使用、結(jié)構(gòu)化輸出、長上下文、推理能力正從原來的加分項(xiàng)變成硬性要求，如果做不到這些的話，就沒有辦法在 OpenClaw 這樣的框架下跑起來，大家就不會用你。

第二個是從交互執(zhí)行層層面，智能體怎么操作軟件這件事情大家正在探索?，F(xiàn)在有兩條路線：

第一步是通過調(diào)用結(jié)構(gòu)化 API、MCP 協(xié)議直接調(diào)用外部工具，這種方式可靠、執(zhí)行快，而且相對來說更容易驗(yàn)證一點(diǎn)。但它的一個問題是面向我們現(xiàn)在朝著人去優(yōu)化的軟件生態(tài)，其實(shí)有一個特別大的問題，大量現(xiàn)有的軟件并沒有提供完善的 API 接口，覆蓋率不足也是一個問題。

另外一個路線是 GUI Agent，像人一樣去看屏幕點(diǎn)鼠標(biāo)，豆包 AI 手機(jī)或 Claude Computer Use，都在嘗試走這一條路，它的優(yōu)勢本身是它的通用性強(qiáng)，任何 APP 都可以操作，但缺點(diǎn)是需要不斷截屏識別，速度慢、耗資源，且點(diǎn)擊準(zhǔn)確率不如直接調(diào) API 穩(wěn)定。

從我的角度來講，大模型智能體的出現(xiàn)，特別是 OpenClaw 這種現(xiàn)象級產(chǎn)品的出現(xiàn)，正在倒逼傳統(tǒng)軟件向 “AI 原生（Agent-Native）” 的設(shè)計(jì)方向演進(jìn) 。當(dāng)發(fā)現(xiàn) API 調(diào)用效果更好時，用戶會慢慢要求軟件提供 API 接口。如果 OpenClaw、Claude Code 等主流框架無法調(diào)用你的軟件，大家慢慢就不使用你這個軟件了。

近期也有研究嘗試通過大模型自動將現(xiàn)有的 GUI 軟件轉(zhuǎn)化為 Agent-Native 的 CLI 接口，比如港大的 CLI-Anything 項(xiàng)目。它用一個 7 階段自動化流水線，分析軟件代碼庫，自動生成 CLI 接口，已經(jīng)在 Blender、LibreOffice 等 9 款軟件上驗(yàn)證了，一千多項(xiàng)測試全部通過。

因此，我的判斷是短期內(nèi)兩條路線還是會共存，GUI 處理長尾的應(yīng)用，而 Skill 調(diào)用來處理核心的工作流，長期來看隨著更多的軟件慢慢被轉(zhuǎn)化為 Agent-Native 的接口，工具調(diào)用的覆蓋率會持續(xù)地上升。

核心瓶頸與關(guān)鍵技術(shù)路徑：長程性、端云協(xié)同、任務(wù)拆解與記憶系統(tǒng)

接下來從基模層面看存在的問題，Agent 要真正落地使用，必須可靠地完成多步的長任務(wù)，這是用戶愿意用你的前提。我們看一下這兩張圖：

圖上的縱坐標(biāo)是模型可以大概完成多長時間的任務(wù)。在只要求 50% 成功率的情況下，像 Claude Opus 4.6 甚至能執(zhí)行長達(dá) 10 小時的任務(wù) ；但如果我們將可靠性要求提高到 80%、90% 甚至 95%（這是日常商用的底線），即使是 Opus 4.6 可能完成的任務(wù)時長也會從 10 個小時降到 1 個小時。正如 QA 的時候提到，我們普通人沒有那么多錢，或者算力有限的情況下，能接觸到的模型可能就能做幾分鐘的任務(wù)，這件事情使得我們目前智能體模型純端側(cè)的這條路，短時間內(nèi)沒有那么容易走得通。

因此，從短期的角度，端云結(jié)合是一個可能的路徑，依賴于云側(cè)的話，總算力是有限的，整個花銷也非常貴。純端側(cè)的話，目前短期來看模型效果很難達(dá)到需求?？尚械氖鞘裁茨?？由云端完成任務(wù)拆解，將長任務(wù)分解為幾分鐘的子任務(wù)，交給端側(cè)執(zhí)行，再由云端驗(yàn)證。

這件事情從目前來看也是相對可行的，我們的 AgentCPM 系列工作也證明，在特定垂直場景下，端側(cè)小模型完全能達(dá)到與云端大模型相近的效果。同時像劉知遠(yuǎn)老師的密度法則（Densing Law）指出，我們的模型能力，每 3.5 個月翻倍，今天需要云端處理的子任務(wù)，明年可能端側(cè)就能完成，整個端云結(jié)合可能隨著時間演變端側(cè)能夠完成的事情越來越多。

同時，我們專業(yè)智能體的能力也已經(jīng)達(dá)到了人類專家的水平，正如剛才說的一樣，Agent 在垂域的突破非常多，代碼領(lǐng)域非常成熟。比如代碼領(lǐng)域的 Claude Code，再 GIthub 上的 commit 占比達(dá)到了 4%，預(yù)計(jì)年底將貢獻(xiàn) GitHub 上 20% 的 commits ；國內(nèi)日行跡公司的 FARS 項(xiàng)目也已經(jīng)證明大模型能批量產(chǎn)出研究論文。

這些案例可以提煉出一個共性公式：專業(yè)智能體 = 通用大模型 + 領(lǐng)域知識庫 + MCP 工具 + 專業(yè) Skill 工作流 + 領(lǐng)域后訓(xùn)練。我們走通這條路之后，就可以在端側(cè)去搭建一個面向于某個具體子任務(wù)的端側(cè)智能體，做到既省算力又高效。

純云端路線的另一個致命痛點(diǎn)是 Token 消耗極大。目前真正用上 OpenClaw 的人并不算多，一周就消耗了 4.7T Token 。假設(shè)未來有兩千萬人使用，現(xiàn)有的基礎(chǔ)設(shè)施絕對承受不住。大家可以看一下右邊的成本對比表，讓 OpenClaw 用 Opus 4.6 跑每天需要約 10 美元，即便使用 GPT5.4 也要 5.5 美元。

最近有一句話說的非常好，可能在未來，競爭變成了誰掌握了更多的高質(zhì)量 Token，這些掌握高質(zhì)量 Token 的人，必將在產(chǎn)業(yè)競爭或者技術(shù)競爭上占領(lǐng)優(yōu)勢。

現(xiàn)在這么貴的 Token 很難做到，假設(shè)我們未來用戶增長十倍、百倍，目前的算力是支撐不了的，因此，必須將手機(jī)、PC 等大量端側(cè)閑置算力利用起來實(shí)施端云結(jié)合。云端做任務(wù)的規(guī)劃和分解，端側(cè)小模型就負(fù)責(zé)子任務(wù)的執(zhí)行，一旦長任務(wù)被分解為十步以內(nèi)的子任務(wù)，端側(cè)模型就可以勝任。長程任務(wù)不一定靠單模型變得更強(qiáng)來解決，也可以靠把這種長任務(wù)拆短，讓對的模型做對的事情來進(jìn)一步解決。

我們要做長任務(wù)，另外一個關(guān)鍵點(diǎn)是記憶系統(tǒng)。目前大家在記憶系統(tǒng)上有非常多不同的設(shè)計(jì)。有基于人工設(shè)計(jì)的、基于學(xué)習(xí)的，也有明文記憶、隱狀態(tài)記憶和參數(shù)化記憶，各有各的優(yōu)劣勢。人工設(shè)計(jì)的記憶架構(gòu)安全可預(yù)測，但策略固定無法適應(yīng)新場景；基于學(xué)習(xí)的記憶也許能發(fā)現(xiàn)更優(yōu)策略，但它需要梯度信號和模型權(quán)重都是可訪問的。

對于記憶的形式來說，隱狀態(tài)記憶和參數(shù)化記憶，隱狀態(tài)記憶會跟特定的模型綁定，換個基座模型就用不了了，而參數(shù)化記憶的話，它沒有辦法應(yīng)用于別的模型。如果我們從我們記憶架構(gòu)，未來能用的角度上來說，對于端側(cè)模型我們可以用隱狀態(tài)，用參數(shù)記憶，而面向未來端云記憶的大規(guī)模復(fù)用，我個人判斷 “可遷移的明文記憶 + 可優(yōu)化 / 學(xué)習(xí)機(jī)制” 將會是一個非常有潛力的主導(dǎo)方向。

從工具型 Agent 到自主進(jìn)化系統(tǒng)

最后談?wù)勛灾鬟M(jìn)化。當(dāng)前的智能體自主性還不夠。我們一旦把任務(wù)用到了這種各樣的場景之后，真實(shí)場景的動態(tài)性、多變性往往要求我們模型能夠像人一樣主動的適應(yīng)探索，以及不斷的學(xué)習(xí)。目前的智能體依賴于已有的模式，沒有辦法在部署后主動進(jìn)化。我們整個學(xué)術(shù)界的發(fā)展，大模型的訓(xùn)練已經(jīng)慢慢的從最早期的基于模仿學(xué)習(xí)范式，轉(zhuǎn)向進(jìn)入人類反饋的探索學(xué)習(xí)，正在邁向具備主動環(huán)境交互能力的自主學(xué)習(xí)范式。

那么，結(jié)合端云協(xié)同和目前的 OpenClaw 框架，第二個事情是我們有沒有可能做端側(cè)的自主進(jìn)化？

目前的自主進(jìn)化有非常多的分類體系，比如說基于經(jīng)驗(yàn)學(xué)習(xí)和參數(shù)學(xué)習(xí)的自主進(jìn)化，比如說有明確監(jiān)督信號、弱監(jiān)督信號和無監(jiān)督信號。最近發(fā)現(xiàn)一個嘗試：在 OpenClaw 上面做端側(cè)自主進(jìn)化的玩法，這個項(xiàng)目叫做 OpenClaw-RL，來自 Princeton 團(tuán)隊(duì)。它做了一件什么事情呢？它發(fā)現(xiàn)每次智能體和環(huán)境交互的時候，都會產(chǎn)生下一個狀態(tài)信號，比如用戶的回復(fù)，比如工具的輸出，以及終端的狀態(tài)變化，其實(shí)這些信號既包含評價(jià)信息，也包含著應(yīng)該怎么做的指導(dǎo)信息。

OpenClaw RL 這個工作就設(shè)計(jì)了一個全異步的四組件架構(gòu)，在前端服務(wù)用戶的同時，后臺同步做軌跡收集、質(zhì)量評估并更新權(quán)重。在一個個性化評測場景中，它發(fā)現(xiàn)僅僅需要 8 步訓(xùn)練就能把個性化得分從 0.17 提升到 0.76，當(dāng)然，這個項(xiàng)目目前還比較初步，局限也很明顯：需要 8 塊 GPU、只支持自托管開源模型、無法改進(jìn)閉源模型、沒有跨用戶的聯(lián)邦學(xué)習(xí)。目前的端側(cè)自主演化機(jī)制依然非常初級，局限性明顯：比如存在參數(shù)學(xué)習(xí)的訓(xùn)崩風(fēng)險(xiǎn)；閉源模型由于無法獲取權(quán)重而無法學(xué)習(xí)；同時每個部署端依然是個數(shù)據(jù)孤島。真正的 AI 自主進(jìn)化距離實(shí)際應(yīng)用還有相當(dāng)長的路要走。

如果之后有了端云結(jié)合，可以想象，會有更多的設(shè)備開始養(yǎng)蝦。我們再看多智能體（Multi-Agent）系統(tǒng)，過去若干年整個多智能體系統(tǒng)的發(fā)展速度令人印象深刻。從 2020 年 OpenAI Five 的個位數(shù) Agent 到 2026 年 Moltbook 上 150 萬 Agent 的自主社交，規(guī)?？缭搅肆鶄€數(shù)量級。

清華團(tuán)隊(duì)提出的 MacNet 證明了增加 Agent 數(shù)量確實(shí)能持續(xù)提升任務(wù)解決質(zhì)量（首次發(fā)現(xiàn)了智能體協(xié)作的 Scaling Law）。頭部的科技企業(yè)、研究機(jī)構(gòu)也嘗試著去把多智能體加進(jìn)去，比如說 Opus 4.6 就引入了所謂的 Agent team 的功能，一個主 Claude 實(shí)例可以生成多個獨(dú)立的子 Agent 并行工作，通過共享任務(wù)列表和消息系統(tǒng)協(xié)調(diào)。這是工業(yè)界在多 Agent 架構(gòu)上開始探索的、也算蠻成熟的一個實(shí)現(xiàn)。

但是從多智能體的角度，我也想潑一點(diǎn)冷水，Moltbook 確實(shí)制造了轟動 ——150 萬 AI Agent 在上萬個論壇中討論技術(shù)、探討存在主義，甚至創(chuàng)建了 "龍蝦教"。但從技術(shù)角度去看的話，這更多是大量 Agent 的單向廣播，而非真正的互動交流。

真正的群體智能涌現(xiàn)，需要的是像曼哈頓工程，像載人航天一樣，一群 Agent 去完成一個單 Agent 沒有辦法完成的一個級別更高的任務(wù)，這種所謂的群體智能的涌現(xiàn)，需要 Agent 之間產(chǎn)生有意義的分工、沖突、和適應(yīng)性協(xié)調(diào) —— 而不只是各說各話。距離真正的 "智能體互聯(lián)網(wǎng)" 還有很長的路。

最后我個人研判，第一階段是目前工具化 Agent 階段，Agent 作為一個增強(qiáng)版的工具，我們?nèi)巳ザ繕?biāo)，去審查結(jié)果，這個階段關(guān)鍵的突破點(diǎn)是推理能力的增強(qiáng)以及推理能力慢慢的落到端側(cè)。當(dāng)我們 10B 規(guī)模的端側(cè)模型具備 R1 或者 V3.2 推理能力的時候，我們端云的協(xié)同架構(gòu)就可以大規(guī)模部署。MCP、A2A 這樣的協(xié)議會在這個階段慢慢收斂，這個加速延續(xù)的話，到 2027 年 Agent 可能就能處理數(shù)天甚至周級別的長任務(wù)。

第二階段是所謂的半自主智能體或協(xié)作 Agent 階段，其實(shí)多個 Agent 就開始能夠做自主的分工、協(xié)調(diào)、糾錯，這種協(xié)作 Scaling 可以被可控地預(yù)測和利用，Agent 在線學(xué)習(xí)可以成為標(biāo)配的功能，就像 iPhone 出來之后，三年以后才有 APP 商店應(yīng)用的生態(tài)爆發(fā)，所謂 Agent 的操作系統(tǒng)也需要這樣一個生態(tài)建設(shè)期。

第三個階段是Agent 具備真正的自主學(xué)習(xí)能力，整個世界有萬億級別的 Agent，這些 Agent 能夠在部署之后持續(xù)進(jìn)化。從我個人的看法來說，我們要走到這個階段，面臨非常多根本性未解的問題，自主性邊界在哪里？如何實(shí)現(xiàn)模型無關(guān)的記憶架構(gòu)？群體涌現(xiàn)的條件是什么？Agent 代替知識工作者后，誰為 Token 付費(fèi)？這既有挑戰(zhàn)，也是我們研究者的機(jī)會。

最后，我總結(jié)一下。OpenClaw 不是技術(shù)突破，但它是技術(shù)臨界點(diǎn)的標(biāo)志。從端云協(xié)同、記憶架構(gòu)、端側(cè)演化到群體智能涌現(xiàn)，都暴露出目前智能體的一些問題，每個層次都有我們非常深刻的研究空間。目前，我們正處在智能體技術(shù)從 “演示可行” 到 “大規(guī)模部署” 的轉(zhuǎn)折期，這個時間節(jié)點(diǎn)非常重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.