国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華人團(tuán)隊(duì)打造養(yǎng)蝦神器,開源OpenClaw-RL框架,讓AI邊用邊學(xué)

0
分享至

過去一周全網(wǎng)都在養(yǎng)那只紅色卡通龍蝦 OpenClaw。作為能夠自己動(dòng)手干活的 AI 智能體,有人花幾千塊請(qǐng)它回家,幾天后賬號(hào)被盜、文件被刪,又花幾百塊請(qǐng)人卸載。從排隊(duì)安裝到扎堆卸載只隔了一周。

蝦到底該怎么養(yǎng)?北京大學(xué)博士、美國普林斯頓大學(xué)博士后研究員楊靈(合作導(dǎo)師為王夢(mèng)迪教授)和團(tuán)隊(duì)成員(王胤杰博士等人)給出一個(gè)讓蝦越養(yǎng)越好、越養(yǎng)越聰明的答案。


圖 | 楊靈(來源:受訪者)

幾天前,楊靈等人發(fā)布了一個(gè)名為 OpenClaw-RL 的開源框架,核心邏輯非常簡(jiǎn)單但頗具洞察,你和 AI 的每一次對(duì)話本身就是最好的訓(xùn)練數(shù)據(jù)。這套系統(tǒng)讓 AI 正常服務(wù)用戶的同時(shí),后臺(tái)有四個(gè)完全解耦的模塊在異步運(yùn)轉(zhuǎn):策略服務(wù)、軌跡收集、過程獎(jiǎng)勵(lì)評(píng)估與參數(shù)訓(xùn)練,彼此互不阻塞。


(來源:https://arxiv.org/pdf/2603.10165)

楊靈告訴 DeepTech:“我們這次聚焦的是個(gè)性化場(chǎng)景下的在線強(qiáng)化學(xué)習(xí)。這個(gè)方向之前很少有人系統(tǒng)性地研究,主要原因是缺少自然產(chǎn)生的交互數(shù)據(jù),學(xué)術(shù)界很難構(gòu)造可復(fù)現(xiàn)的 benchmark,工業(yè)界也缺少端到端的訓(xùn)練閉環(huán)?!?/p>

“我們這次的工作相當(dāng)于為這個(gè)方向提供了第一套完整的基礎(chǔ)設(shè)施和方法論,從數(shù)據(jù)收集、信號(hào)提取到策略優(yōu)化,形成了一個(gè)可落地的閉環(huán),同時(shí)也提出了一些新的研究視角。”其表示。

這套系統(tǒng)的核心洞察在于重新審視了一個(gè)被長(zhǎng)期忽視的資源:AI 每執(zhí)行一次動(dòng)作之后,都會(huì)收到一個(gè)"下一狀態(tài)"(next state),用戶的回復(fù)、工具的輸出、測(cè)試的結(jié)果、界面的變化,這些全部是信號(hào)?,F(xiàn)有系統(tǒng)只是把這些信號(hào)當(dāng)做下一輪對(duì)話的上下文輸入,但 OpenClaw-RL 的觀點(diǎn)是,它們本質(zhì)上是對(duì)上一步動(dòng)作質(zhì)量最直接、最豐富的反饋,完全可以在不需要任何人工標(biāo)注的情況下,轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的訓(xùn)練信號(hào)。


(來源:https://arxiv.org/pdf/2603.10165)

這些信號(hào)里藏著兩種截然不同的信息:

第一種是評(píng)估性信號(hào)。用戶滿意就給正分,不滿意就給負(fù)分;用戶重復(fù)提問往往意味著不滿,測(cè)試通過則意味著成功。這些信號(hào)被一個(gè)名為"過程獎(jiǎng)勵(lì)模型"(Process Reward Model, PRM)的裁判模塊捕捉。

為了提高判斷的魯棒性,系統(tǒng)對(duì)每一步動(dòng)作進(jìn)行多次獨(dú)立評(píng)估,然后通過多數(shù)表決機(jī)制,將結(jié)果轉(zhuǎn)換成+1(好)、-1(差)或 0(中性)的標(biāo)量獎(jiǎng)勵(lì)。與傳統(tǒng)強(qiáng)化學(xué)習(xí)只在任務(wù)結(jié)束時(shí)給出一個(gè)最終分?jǐn)?shù)不同,這種逐步評(píng)估的方式讓訓(xùn)練信號(hào)密集了一個(gè)數(shù)量級(jí),策略模型可以精確知道是哪一步做對(duì)了、哪一步做錯(cuò)了。

第二種是指導(dǎo)性信號(hào)。當(dāng)用戶對(duì) AI 說"你應(yīng)該先檢查文件再編輯",這不只是一個(gè)差評(píng),它在告訴 AI 具體哪里做錯(cuò)了、應(yīng)該怎么改。然而,僅靠+1/-1 的標(biāo)量獎(jiǎng)勵(lì)根本無法傳遞這種細(xì)粒度的糾正信息:它只能說"你錯(cuò)了",卻說不清"錯(cuò)在哪里、該怎么改"。

為此,楊靈和團(tuán)隊(duì)設(shè)計(jì)了一種名為“基于提示的在線策略蒸餾”(Hindsight-Guided On-Policy Distillation, OPD)的方法。其核心思路巧妙而直覺:當(dāng)下一條用戶回復(fù)到來時(shí),系統(tǒng)中的裁判模塊會(huì)從中提煉一句可操作的"事后提示"(hindsight hint),例如“應(yīng)該先檢查文件是否存在再執(zhí)行編輯操作”。然后,系統(tǒng)把這條提示附加到原來的對(duì)話歷史中,構(gòu)造出一個(gè)"增強(qiáng)版提示"。

關(guān)鍵來了:系統(tǒng)并不讓模型重新生成一版回答,而是讓同一個(gè)模型在增強(qiáng)版提示下重新評(píng)估原始回答中每一個(gè)詞的生成概率。如果某個(gè)詞在"知道提示之后"的概率變高了,說明這個(gè)詞說對(duì)了,模型應(yīng)當(dāng)加強(qiáng);反之如果概率降低了,說明這個(gè)詞不夠好,應(yīng)當(dāng)抑制。這種逐詞級(jí)別的方向性信號(hào)遠(yuǎn)比一個(gè)簡(jiǎn)單的“好/壞”分?jǐn)?shù)豐富得多,它不僅告訴模型"你錯(cuò)了",還精確指出"哪個(gè)詞該多說、哪個(gè)詞該少說"。

這兩種方法互為補(bǔ)充:評(píng)估性信號(hào)覆蓋范圍廣,幾乎每一輪對(duì)話都能產(chǎn)生獎(jiǎng)勵(lì)信號(hào),雖然粒度較粗但勝在無處不在;指導(dǎo)性信號(hào)則只有在用戶提供了具有糾正意義的反饋時(shí)才會(huì)觸發(fā),出現(xiàn)頻率較低但信息密度極高。論文實(shí)驗(yàn)表明,將兩者結(jié)合使用時(shí),效果顯著優(yōu)于單獨(dú)使用任何一種方法。


(來源:https://arxiv.org/pdf/2603.10165)

研究中,他們?cè)谝韵聝蓚€(gè)模擬場(chǎng)景里做了測(cè)試:

一個(gè)是讓學(xué)生使用 AI 寫作業(yè),要求是別讓老師看出來是 AI 寫的(當(dāng)然現(xiàn)實(shí)生活中不鼓勵(lì)大家這樣使用)。另一個(gè)是讓老師用 AI 批改作業(yè),要求評(píng)語要具體又友善。

在老師使用 AI 批改作業(yè)的那個(gè)例子里,一開始 AI 只會(huì)回答“正確,做得很好”。但在經(jīng)過 24 輪優(yōu)化之后它會(huì)寫下“你把 3 周轉(zhuǎn)成 21 天這一步很多同學(xué)會(huì)漏掉,但是你處理得很準(zhǔn)確”這樣的評(píng)語,同時(shí)還配上了表情符號(hào),非常符合人類世界所倡導(dǎo)的夸獎(jiǎng)要具體而真實(shí)的做法。

OpenClaw-RL 在工程上的另一個(gè)突破是將 AI 訓(xùn)練從傳統(tǒng)的"停服更新"變成了"邊用邊學(xué)"。整個(gè)系統(tǒng)采用全異步架構(gòu):策略服務(wù)器持續(xù)響應(yīng)新的用戶請(qǐng)求,軌跡收集器同步截取訓(xùn)練所需的數(shù)據(jù),裁判模塊并發(fā)地給前一個(gè)回答打分,而訓(xùn)練器則在后臺(tái)持續(xù)更新參數(shù)。

當(dāng)參數(shù)更新完成時(shí),系統(tǒng)會(huì)短暫暫停數(shù)據(jù)提交、加載新權(quán)重,然后無縫恢復(fù)服務(wù)。整個(gè)過程中沒有任何組件需要等待其他組件完成,用戶端感受到的是零中斷的連續(xù)服務(wù)。

他們還把 OpenClaw-RL 應(yīng)用到了更加復(fù)雜的通用智能體場(chǎng)景,涵蓋終端操作(128 個(gè)并行環(huán)境)、圖形界面操作(64 個(gè))、代碼編寫(64 個(gè))和工具調(diào)用(32 個(gè))四大類任務(wù)。在工具調(diào)用任務(wù)上,同時(shí)使用過程獎(jiǎng)勵(lì)和結(jié)果獎(jiǎng)勵(lì)兩種信號(hào),準(zhǔn)確率從基線的 17% 一路提升到 76%,這意味著同一個(gè)模型在持續(xù)交互中完成了超過 4 倍的性能躍升。


(來源:https://arxiv.org/pdf/2603.10165)

據(jù)楊靈介紹,這套訓(xùn)練框架的一個(gè)重要發(fā)現(xiàn)是:來自不同 Agent 場(chǎng)景(終端、GUI、代碼、工具調(diào)用)的交互數(shù)據(jù)可以放在同一個(gè)框架中聯(lián)合訓(xùn)練,并且模型在各個(gè)維度上都呈現(xiàn)出整體性的上升趨勢(shì)。"這意味著統(tǒng)一的 Agent 強(qiáng)化學(xué)習(xí)訓(xùn)練是可行的,"楊靈說,"如果這條路能走通,對(duì)于構(gòu)建真正通用的 AI 智能體會(huì)是一個(gè)非常關(guān)鍵的基礎(chǔ)。

因?yàn)橥ㄓ弥悄荏w最終要面對(duì)不同種類的任務(wù)、場(chǎng)景和用戶需求,一套統(tǒng)一且可擴(kuò)展的訓(xùn)練框架是必要條件。據(jù)我們所知,這種跨場(chǎng)景聯(lián)合訓(xùn)練 Agent 的視角之前還沒有被系統(tǒng)性地探索過。"


(來源:https://arxiv.org/pdf/2603.10165)

“事實(shí)上,這項(xiàng)研究從 idea 提出到開源,我們只花了三天。當(dāng)然必要的溝通不能少,但在現(xiàn)在這個(gè)時(shí)代,有些想法從出來到實(shí)現(xiàn),真的可以很快?!睏铎`表示。

他補(bǔ)充稱:"不過在這個(gè)大家都在拼速度的時(shí)代,我覺得對(duì)問題的判斷力和研究品味反而更重要。選擇做什么、不做什么,能不能識(shí)別出真正有長(zhǎng)期價(jià)值的問題,這些決定了一個(gè)研究方向最終能走多遠(yuǎn)。執(zhí)行力當(dāng)然也關(guān)鍵,不只是說模型能不能跑出好的數(shù)字,而是整套系統(tǒng)能不能真正落地、讓人用起來。"

在應(yīng)用前景上,楊靈認(rèn)為 OpenClaw-RL 有兩個(gè)最有價(jià)值的落地方向。

第一個(gè)是隱私敏感的本地化場(chǎng)景。例如政府部門、金融機(jī)構(gòu)和醫(yī)療機(jī)構(gòu),這些場(chǎng)景不可能將數(shù)據(jù)傳輸給外部的大模型 API,但同樣有強(qiáng)烈的 AI 智能體需求。OpenClaw-RL 提供了一條可行路徑:在本地部署模型,通過日常使用中的自然交互持續(xù)優(yōu)化,數(shù)據(jù)全程不出本地。

"第二個(gè)方向是工業(yè)級(jí)的大規(guī)模 Agent 訓(xùn)練,"楊靈說,"目前開源的 Agent 訓(xùn)練框架很多只針對(duì)單一場(chǎng)景做優(yōu)化。我們的系統(tǒng)從設(shè)計(jì)之初就是跨場(chǎng)景的,終端、GUI、代碼、工具調(diào)用可以在同一套框架里聯(lián)合訓(xùn)練。這意味著它的架構(gòu)天然適合擴(kuò)展到工業(yè)規(guī)模的多場(chǎng)景 Agent 優(yōu)化。"

論文發(fā)布后,楊靈收到了來自學(xué)術(shù)界和工業(yè)界的諸多合作邀約。團(tuán)隊(duì)計(jì)劃沿兩條線并行推進(jìn)。研究方面,他們希望將 next-state learning 這一范式做深做透,不僅限于策略優(yōu)化,還將拓展到 Agent 的記憶系統(tǒng)和技能積累機(jī)制,最終目標(biāo)是構(gòu)建一套能在持續(xù)交互中自主進(jìn)化的完整 Agent 學(xué)習(xí)體系。工程與應(yīng)用方面,他們計(jì)劃在更大規(guī)模和更多真實(shí)場(chǎng)景上驗(yàn)證框架的可擴(kuò)展性,并與有實(shí)際 Agent 部署需求的企業(yè)展開合作。

談到下一步,楊靈表示:"一方面我們希望大幅降低使用門檻,讓個(gè)性化 Agent 訓(xùn)練變成一個(gè)開箱即用的事情,現(xiàn)在很多人連 OpenClaw 都裝不明白,更別說跑強(qiáng)化學(xué)習(xí)了。我們會(huì)持續(xù)改善文檔和工具鏈,目標(biāo)是讓普通開發(fā)者也能用上這套技術(shù)。

另一方面是 next-state learning 這個(gè)范式本身的縱深推進(jìn),目前我們只挖掘了其中的評(píng)估性信號(hào)和指導(dǎo)性信號(hào),但 next-state 里其實(shí)還蘊(yùn)含著預(yù)測(cè)性信號(hào),也就是 Agent 能不能學(xué)會(huì)預(yù)判自己的動(dòng)作會(huì)導(dǎo)致什么后果。如果這一層也能打通,Agent 就不再是被動(dòng)等反饋,而是主動(dòng)規(guī)避已知的失敗模式。

而且這套范式天然是跨場(chǎng)景的,對(duì)話、工具調(diào)用、代碼編寫、圖形界面操作這四類任務(wù)產(chǎn)生的 next-state 雖然形態(tài)各異,但都可以納入同一個(gè)學(xué)習(xí)框架。這是一個(gè)非常有潛力的方向,我們正在積極推進(jìn)。"

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2603.10165

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
柯文哲遭重判,民眾黨發(fā)全臺(tái)動(dòng)員令:3月29日上凱道討公道!

柯文哲遭重判,民眾黨發(fā)全臺(tái)動(dòng)員令:3月29日上凱道討公道!

海峽導(dǎo)報(bào)社
2026-03-27 09:53:13
快訊!特朗普,重大宣布

快訊!特朗普,重大宣布

安安說
2026-03-27 12:07:48
開國少將重傷入院,女護(hù)士越看越熟悉:這不是我拜了堂的丈夫嗎?

開國少將重傷入院,女護(hù)士越看越熟悉:這不是我拜了堂的丈夫嗎?

何氽簡(jiǎn)史
2026-02-24 16:53:06
16點(diǎn)30!CCTV5+直播,江蘇女排沖冠,吳夢(mèng)潔戰(zhàn)雙外援,一傳是關(guān)鍵

16點(diǎn)30!CCTV5+直播,江蘇女排沖冠,吳夢(mèng)潔戰(zhàn)雙外援,一傳是關(guān)鍵

跑者排球視角
2026-03-27 07:09:49
上海一商圈景觀水池被誤認(rèn)作長(zhǎng)凳,商圈回應(yīng):夜晚不排除可能讓人誤認(rèn)的情況

上海一商圈景觀水池被誤認(rèn)作長(zhǎng)凳,商圈回應(yīng):夜晚不排除可能讓人誤認(rèn)的情況

新浪財(cái)經(jīng)
2026-03-27 10:53:12
姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

新民周刊
2026-03-26 19:12:17
廣東91歲老人讓兒子保管900多萬養(yǎng)老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈(zèng)與,全額返還

廣東91歲老人讓兒子保管900多萬養(yǎng)老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈(zèng)與,全額返還

觀威海
2026-03-18 22:11:07
微信聊天反復(fù)出現(xiàn)“對(duì)方正在輸入”,說明對(duì)方在干什么?

微信聊天反復(fù)出現(xiàn)“對(duì)方正在輸入”,說明對(duì)方在干什么?

學(xué)申論的談妹
2026-03-26 16:15:26
香港城大副教授行賄港幣1000元被判監(jiān)4.5月,自稱因受內(nèi)地文化影響而犯案,讓我們羞愧難當(dāng)

香港城大副教授行賄港幣1000元被判監(jiān)4.5月,自稱因受內(nèi)地文化影響而犯案,讓我們羞愧難當(dāng)

法律學(xué)堂
2026-03-27 00:07:33
事情鬧大了,日本內(nèi)閣連發(fā)公告,中國的態(tài)度,告訴了世界一個(gè)事實(shí)

事情鬧大了,日本內(nèi)閣連發(fā)公告,中國的態(tài)度,告訴了世界一個(gè)事實(shí)

霽寒飄雪
2026-03-27 11:35:18
索馬里海盜搶了艘俄羅斯油輪,打開一看全是中國石油,俄方處理方式讓人叫絕

索馬里海盜搶了艘俄羅斯油輪,打開一看全是中國石油,俄方處理方式讓人叫絕

寄史言志
2026-03-23 22:06:19
從去年春天開始,我家再也沒買過廁紙,全靠媳婦這一招勤儉小竅門

從去年春天開始,我家再也沒買過廁紙,全靠媳婦這一招勤儉小竅門

眼底星碎
2026-03-27 03:09:12
美國懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國兩座城市聯(lián)手廢了

美國懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國兩座城市聯(lián)手廢了

瑛派兒老黃
2026-03-25 23:46:07
Claude一夜爆更自修bug,PR自己綠了!全球程序員:「摸魚」正式合法

Claude一夜爆更自修bug,PR自己綠了!全球程序員:「摸魚」正式合法

新智元
2026-03-27 10:37:24
蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
火燒靖國神社的劉強(qiáng),回國后被單位開除,妻子離婚,后來怎樣了?

火燒靖國神社的劉強(qiáng),回國后被單位開除,妻子離婚,后來怎樣了?

大魚簡(jiǎn)科
2026-03-21 09:46:38
驚呆了!原來被我嫌棄3年的微波爐,才是廚房里的“隱形王者”

驚呆了!原來被我嫌棄3年的微波爐,才是廚房里的“隱形王者”

家居設(shè)計(jì)師宅哥
2026-03-26 23:17:31
抗戰(zhàn)功勛堪比元帥,55年授銜少將,主席破例

抗戰(zhàn)功勛堪比元帥,55年授銜少將,主席破例

古來者說
2026-03-26 20:40:00
伊朗用導(dǎo)彈拼出尊嚴(yán),中國導(dǎo)彈實(shí)力藏不住了,俄專家給出硬核定論

伊朗用導(dǎo)彈拼出尊嚴(yán),中國導(dǎo)彈實(shí)力藏不住了,俄專家給出硬核定論

探源歷史
2026-03-25 13:22:35
譚詠麟32歲兒子近況:智性戀天菜,才貌雙全,今在加拿大做工程師

譚詠麟32歲兒子近況:智性戀天菜,才貌雙全,今在加拿大做工程師

白面書誏
2026-03-24 14:41:16
2026-03-27 13:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16491文章數(shù) 514800關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

藝術(shù)
親子
游戲
數(shù)碼
公開課

藝術(shù)要聞

2025“殊相”——中國油畫學(xué)會(huì)創(chuàng)作研修作品展 | 作品選刊(一)

親子要聞

我柜子動(dòng)了!這兒童樂園里有臟東西

《殺戮尖塔2》beta版更新 雞煲削弱獵人與亡靈契約師回調(diào)!

數(shù)碼要聞

達(dá)音科“卯”頭戴式耳機(jī)發(fā)售=,2680元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版