網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華人團(tuán)隊(duì)打造養(yǎng)蝦神器，開源OpenClaw-RL框架，讓AI邊用邊學(xué)

2026-03-16 17:43:48　來源: DeepTech深科技

北京舉報(bào)

分享至

過去一周全網(wǎng)都在養(yǎng)那只紅色卡通龍蝦 OpenClaw。作為能夠自己動(dòng)手干活的 AI 智能體，有人花幾千塊請(qǐng)它回家，幾天后賬號(hào)被盜、文件被刪，又花幾百塊請(qǐng)人卸載。從排隊(duì)安裝到扎堆卸載只隔了一周。

蝦到底該怎么養(yǎng)？北京大學(xué)博士、美國普林斯頓大學(xué)博士后研究員楊靈（合作導(dǎo)師為王夢(mèng)迪教授）和團(tuán)隊(duì)成員（王胤杰博士等人）給出一個(gè)讓蝦越養(yǎng)越好、越養(yǎng)越聰明的答案。

圖 | 楊靈（來源：受訪者）

幾天前，楊靈等人發(fā)布了一個(gè)名為 OpenClaw-RL 的開源框架，核心邏輯非常簡(jiǎn)單但頗具洞察，你和 AI 的每一次對(duì)話本身就是最好的訓(xùn)練數(shù)據(jù)。這套系統(tǒng)讓 AI 正常服務(wù)用戶的同時(shí)，后臺(tái)有四個(gè)完全解耦的模塊在異步運(yùn)轉(zhuǎn)：策略服務(wù)、軌跡收集、過程獎(jiǎng)勵(lì)評(píng)估與參數(shù)訓(xùn)練，彼此互不阻塞。

（來源：https://arxiv.org/pdf/2603.10165）

楊靈告訴 DeepTech：“我們這次聚焦的是個(gè)性化場(chǎng)景下的在線強(qiáng)化學(xué)習(xí)。這個(gè)方向之前很少有人系統(tǒng)性地研究，主要原因是缺少自然產(chǎn)生的交互數(shù)據(jù)，學(xué)術(shù)界很難構(gòu)造可復(fù)現(xiàn)的 benchmark，工業(yè)界也缺少端到端的訓(xùn)練閉環(huán)?！?/p>

“我們這次的工作相當(dāng)于為這個(gè)方向提供了第一套完整的基礎(chǔ)設(shè)施和方法論，從數(shù)據(jù)收集、信號(hào)提取到策略優(yōu)化，形成了一個(gè)可落地的閉環(huán)，同時(shí)也提出了一些新的研究視角。”其表示。

這套系統(tǒng)的核心洞察在于重新審視了一個(gè)被長(zhǎng)期忽視的資源：AI 每執(zhí)行一次動(dòng)作之后，都會(huì)收到一個(gè)"下一狀態(tài)"（next state），用戶的回復(fù)、工具的輸出、測(cè)試的結(jié)果、界面的變化，這些全部是信號(hào)?，F(xiàn)有系統(tǒng)只是把這些信號(hào)當(dāng)做下一輪對(duì)話的上下文輸入，但 OpenClaw-RL 的觀點(diǎn)是，它們本質(zhì)上是對(duì)上一步動(dòng)作質(zhì)量最直接、最豐富的反饋，完全可以在不需要任何人工標(biāo)注的情況下，轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的訓(xùn)練信號(hào)。

（來源：https://arxiv.org/pdf/2603.10165）

這些信號(hào)里藏著兩種截然不同的信息：

第一種是評(píng)估性信號(hào)。用戶滿意就給正分，不滿意就給負(fù)分；用戶重復(fù)提問往往意味著不滿，測(cè)試通過則意味著成功。這些信號(hào)被一個(gè)名為"過程獎(jiǎng)勵(lì)模型"（Process Reward Model, PRM）的裁判模塊捕捉。

為了提高判斷的魯棒性，系統(tǒng)對(duì)每一步動(dòng)作進(jìn)行多次獨(dú)立評(píng)估，然后通過多數(shù)表決機(jī)制，將結(jié)果轉(zhuǎn)換成+1（好）、-1（差）或 0（中性）的標(biāo)量獎(jiǎng)勵(lì)。與傳統(tǒng)強(qiáng)化學(xué)習(xí)只在任務(wù)結(jié)束時(shí)給出一個(gè)最終分?jǐn)?shù)不同，這種逐步評(píng)估的方式讓訓(xùn)練信號(hào)密集了一個(gè)數(shù)量級(jí)，策略模型可以精確知道是哪一步做對(duì)了、哪一步做錯(cuò)了。

第二種是指導(dǎo)性信號(hào)。當(dāng)用戶對(duì) AI 說"你應(yīng)該先檢查文件再編輯"，這不只是一個(gè)差評(píng)，它在告訴 AI 具體哪里做錯(cuò)了、應(yīng)該怎么改。然而，僅靠+1/-1 的標(biāo)量獎(jiǎng)勵(lì)根本無法傳遞這種細(xì)粒度的糾正信息：它只能說"你錯(cuò)了"，卻說不清"錯(cuò)在哪里、該怎么改"。

為此，楊靈和團(tuán)隊(duì)設(shè)計(jì)了一種名為“基于提示的在線策略蒸餾”（Hindsight-Guided On-Policy Distillation, OPD）的方法。其核心思路巧妙而直覺：當(dāng)下一條用戶回復(fù)到來時(shí)，系統(tǒng)中的裁判模塊會(huì)從中提煉一句可操作的"事后提示"（hindsight hint），例如“應(yīng)該先檢查文件是否存在再執(zhí)行編輯操作”。然后，系統(tǒng)把這條提示附加到原來的對(duì)話歷史中，構(gòu)造出一個(gè)"增強(qiáng)版提示"。

關(guān)鍵來了：系統(tǒng)并不讓模型重新生成一版回答，而是讓同一個(gè)模型在增強(qiáng)版提示下重新評(píng)估原始回答中每一個(gè)詞的生成概率。如果某個(gè)詞在"知道提示之后"的概率變高了，說明這個(gè)詞說對(duì)了，模型應(yīng)當(dāng)加強(qiáng)；反之如果概率降低了，說明這個(gè)詞不夠好，應(yīng)當(dāng)抑制。這種逐詞級(jí)別的方向性信號(hào)遠(yuǎn)比一個(gè)簡(jiǎn)單的“好/壞”分?jǐn)?shù)豐富得多，它不僅告訴模型"你錯(cuò)了"，還精確指出"哪個(gè)詞該多說、哪個(gè)詞該少說"。

這兩種方法互為補(bǔ)充：評(píng)估性信號(hào)覆蓋范圍廣，幾乎每一輪對(duì)話都能產(chǎn)生獎(jiǎng)勵(lì)信號(hào)，雖然粒度較粗但勝在無處不在；指導(dǎo)性信號(hào)則只有在用戶提供了具有糾正意義的反饋時(shí)才會(huì)觸發(fā)，出現(xiàn)頻率較低但信息密度極高。論文實(shí)驗(yàn)表明，將兩者結(jié)合使用時(shí)，效果顯著優(yōu)于單獨(dú)使用任何一種方法。

（來源：https://arxiv.org/pdf/2603.10165）

研究中，他們?cè)谝韵聝蓚€(gè)模擬場(chǎng)景里做了測(cè)試：

一個(gè)是讓學(xué)生使用 AI 寫作業(yè)，要求是別讓老師看出來是 AI 寫的（當(dāng)然現(xiàn)實(shí)生活中不鼓勵(lì)大家這樣使用）。另一個(gè)是讓老師用 AI 批改作業(yè)，要求評(píng)語要具體又友善。

在老師使用 AI 批改作業(yè)的那個(gè)例子里，一開始 AI 只會(huì)回答“正確，做得很好”。但在經(jīng)過 24 輪優(yōu)化之后它會(huì)寫下“你把 3 周轉(zhuǎn)成 21 天這一步很多同學(xué)會(huì)漏掉，但是你處理得很準(zhǔn)確”這樣的評(píng)語，同時(shí)還配上了表情符號(hào)，非常符合人類世界所倡導(dǎo)的夸獎(jiǎng)要具體而真實(shí)的做法。

OpenClaw-RL 在工程上的另一個(gè)突破是將 AI 訓(xùn)練從傳統(tǒng)的"停服更新"變成了"邊用邊學(xué)"。整個(gè)系統(tǒng)采用全異步架構(gòu)：策略服務(wù)器持續(xù)響應(yīng)新的用戶請(qǐng)求，軌跡收集器同步截取訓(xùn)練所需的數(shù)據(jù)，裁判模塊并發(fā)地給前一個(gè)回答打分，而訓(xùn)練器則在后臺(tái)持續(xù)更新參數(shù)。

當(dāng)參數(shù)更新完成時(shí)，系統(tǒng)會(huì)短暫暫停數(shù)據(jù)提交、加載新權(quán)重，然后無縫恢復(fù)服務(wù)。整個(gè)過程中沒有任何組件需要等待其他組件完成，用戶端感受到的是零中斷的連續(xù)服務(wù)。

他們還把 OpenClaw-RL 應(yīng)用到了更加復(fù)雜的通用智能體場(chǎng)景，涵蓋終端操作（128 個(gè)并行環(huán)境）、圖形界面操作（64 個(gè)）、代碼編寫（64 個(gè)）和工具調(diào)用（32 個(gè)）四大類任務(wù)。在工具調(diào)用任務(wù)上，同時(shí)使用過程獎(jiǎng)勵(lì)和結(jié)果獎(jiǎng)勵(lì)兩種信號(hào)，準(zhǔn)確率從基線的 17% 一路提升到 76%，這意味著同一個(gè)模型在持續(xù)交互中完成了超過 4 倍的性能躍升。

（來源：https://arxiv.org/pdf/2603.10165）

據(jù)楊靈介紹，這套訓(xùn)練框架的一個(gè)重要發(fā)現(xiàn)是：來自不同 Agent 場(chǎng)景（終端、GUI、代碼、工具調(diào)用）的交互數(shù)據(jù)可以放在同一個(gè)框架中聯(lián)合訓(xùn)練，并且模型在各個(gè)維度上都呈現(xiàn)出整體性的上升趨勢(shì)。"這意味著統(tǒng)一的 Agent 強(qiáng)化學(xué)習(xí)訓(xùn)練是可行的，"楊靈說，"如果這條路能走通，對(duì)于構(gòu)建真正通用的 AI 智能體會(huì)是一個(gè)非常關(guān)鍵的基礎(chǔ)。

因?yàn)橥ㄓ弥悄荏w最終要面對(duì)不同種類的任務(wù)、場(chǎng)景和用戶需求，一套統(tǒng)一且可擴(kuò)展的訓(xùn)練框架是必要條件。據(jù)我們所知，這種跨場(chǎng)景聯(lián)合訓(xùn)練 Agent 的視角之前還沒有被系統(tǒng)性地探索過。"

（來源：https://arxiv.org/pdf/2603.10165）

“事實(shí)上，這項(xiàng)研究從 idea 提出到開源，我們只花了三天。當(dāng)然必要的溝通不能少，但在現(xiàn)在這個(gè)時(shí)代，有些想法從出來到實(shí)現(xiàn)，真的可以很快?！睏铎`表示。

他補(bǔ)充稱："不過在這個(gè)大家都在拼速度的時(shí)代，我覺得對(duì)問題的判斷力和研究品味反而更重要。選擇做什么、不做什么，能不能識(shí)別出真正有長(zhǎng)期價(jià)值的問題，這些決定了一個(gè)研究方向最終能走多遠(yuǎn)。執(zhí)行力當(dāng)然也關(guān)鍵，不只是說模型能不能跑出好的數(shù)字，而是整套系統(tǒng)能不能真正落地、讓人用起來。"

在應(yīng)用前景上，楊靈認(rèn)為 OpenClaw-RL 有兩個(gè)最有價(jià)值的落地方向。

第一個(gè)是隱私敏感的本地化場(chǎng)景。例如政府部門、金融機(jī)構(gòu)和醫(yī)療機(jī)構(gòu)，這些場(chǎng)景不可能將數(shù)據(jù)傳輸給外部的大模型 API，但同樣有強(qiáng)烈的 AI 智能體需求。OpenClaw-RL 提供了一條可行路徑：在本地部署模型，通過日常使用中的自然交互持續(xù)優(yōu)化，數(shù)據(jù)全程不出本地。

"第二個(gè)方向是工業(yè)級(jí)的大規(guī)模 Agent 訓(xùn)練，"楊靈說，"目前開源的 Agent 訓(xùn)練框架很多只針對(duì)單一場(chǎng)景做優(yōu)化。我們的系統(tǒng)從設(shè)計(jì)之初就是跨場(chǎng)景的，終端、GUI、代碼、工具調(diào)用可以在同一套框架里聯(lián)合訓(xùn)練。這意味著它的架構(gòu)天然適合擴(kuò)展到工業(yè)規(guī)模的多場(chǎng)景 Agent 優(yōu)化。"

論文發(fā)布后，楊靈收到了來自學(xué)術(shù)界和工業(yè)界的諸多合作邀約。團(tuán)隊(duì)計(jì)劃沿兩條線并行推進(jìn)。研究方面，他們希望將 next-state learning 這一范式做深做透，不僅限于策略優(yōu)化，還將拓展到 Agent 的記憶系統(tǒng)和技能積累機(jī)制，最終目標(biāo)是構(gòu)建一套能在持續(xù)交互中自主進(jìn)化的完整 Agent 學(xué)習(xí)體系。工程與應(yīng)用方面，他們計(jì)劃在更大規(guī)模和更多真實(shí)場(chǎng)景上驗(yàn)證框架的可擴(kuò)展性，并與有實(shí)際 Agent 部署需求的企業(yè)展開合作。

談到下一步，楊靈表示："一方面我們希望大幅降低使用門檻，讓個(gè)性化 Agent 訓(xùn)練變成一個(gè)開箱即用的事情，現(xiàn)在很多人連 OpenClaw 都裝不明白，更別說跑強(qiáng)化學(xué)習(xí)了。我們會(huì)持續(xù)改善文檔和工具鏈，目標(biāo)是讓普通開發(fā)者也能用上這套技術(shù)。

另一方面是 next-state learning 這個(gè)范式本身的縱深推進(jìn)，目前我們只挖掘了其中的評(píng)估性信號(hào)和指導(dǎo)性信號(hào)，但 next-state 里其實(shí)還蘊(yùn)含著預(yù)測(cè)性信號(hào)，也就是 Agent 能不能學(xué)會(huì)預(yù)判自己的動(dòng)作會(huì)導(dǎo)致什么后果。如果這一層也能打通，Agent 就不再是被動(dòng)等反饋，而是主動(dòng)規(guī)避已知的失敗模式。

而且這套范式天然是跨場(chǎng)景的，對(duì)話、工具調(diào)用、代碼編寫、圖形界面操作這四類任務(wù)產(chǎn)生的 next-state 雖然形態(tài)各異，但都可以納入同一個(gè)學(xué)習(xí)框架。這是一個(gè)非常有潛力的方向，我們正在積極推進(jìn)。"

參考資料：

相關(guān)論文 https://arxiv.org/pdf/2603.10165

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.