国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Generalist之后,羅劍嵐團(tuán)隊推出LWD,也要變革具身智能訓(xùn)練范式

0
分享至



編輯|澤南

這一次,具身智能的范式算是徹底升級了。

智元機器人的辦公室里,最近員工們一上班就能看到機器人熟練地切著水果:



有梨有黃瓜,一通操作完了之后裝進(jìn)破壁機,打成了健康飲料端上來:



同樣一套設(shè)備也能玩轉(zhuǎn)調(diào)酒的全套流程:



或是做工夫茶、整理商品貨架、打包鞋盒等各種任務(wù):



之前每臺機器人只能完成一個任務(wù),現(xiàn)在基于同一個模型的機器人可以承接大量不同任務(wù)。而且,在真實世界中持續(xù)部署的過程中,它們的性能還會持續(xù)不斷地提升。



文中視頻鏈接:https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw

這么全面的能力是如何做到的?答案是直接在真實環(huán)境中搞大規(guī)模分布式強化學(xué)習(xí)訓(xùn)練。它們使用的是全新的具身智能訓(xùn)練范式:面向通用機器人策略的分布式多機強化學(xué)習(xí)(LWD)。這一套技術(shù)捅破了當(dāng)前VLA的「天花板」。

LWD

啟動物理世界的飛輪

最近一段時間,VLA(視覺 - 語言 - 動作)大模型出現(xiàn),通過端到端的訓(xùn)練范式讓機器人具備了通用泛化能力:只需要收集圖像數(shù)據(jù),讀取人類自然語言指令,大模型就能將視覺和語言轉(zhuǎn)化為空間特征,直接輸出機械臂各個關(guān)節(jié)的角度和速度,進(jìn)而完成任務(wù)。

但在物理世界里,VLA 具身智能的表現(xiàn)仍然算不上可靠。在長程任務(wù)和復(fù)雜條件上,機器人頻頻翻車。工程師往往只能將失敗的案例(Corner Case)記錄下來,讓操作員針對特定情況再進(jìn)行幾十次遙操作演示,重新微調(diào)模型。

這就形成了一個折磨人的「打地鼠」模式:物理世界的不可控因素是無窮無盡的,只要遇到?jīng)]見過的「地鼠」,機器人就會停擺,只能等待人類工程師來打補丁。

研究人員認(rèn)為,改變這一現(xiàn)狀的核心點在于把外部提供的人工監(jiān)督,改為機器人自身的交互經(jīng)驗。

LWD(Learning While Deploying,部署中學(xué)習(xí))是一套讓通才 VLA 策略在真實世界部署中持續(xù)自主改進(jìn)的可擴(kuò)展強化學(xué)習(xí)系統(tǒng),在業(yè)內(nèi)首次實現(xiàn)了具身 VLA 的大規(guī)模 RL 預(yù)訓(xùn)練 + 后訓(xùn)練。該工作由上海創(chuàng)智學(xué)院和智元機器人聯(lián)合發(fā)布,創(chuàng)智學(xué)院導(dǎo)師,智元首席科學(xué)家羅劍嵐老師團(tuán)隊完成。



  • 技術(shù)報告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
  • 鏈接:https://finch-static.agibot.com/LWD/lwd-paper.pdf
  • 項目頁面:https://finch.agibot.com/research/lwd

這是對具身智能訓(xùn)練邏輯的一次重構(gòu),把機器人從執(zhí)行工具變成了一個「動態(tài)的智能網(wǎng)絡(luò)」。此前的 AI 從出廠那一刻起就是產(chǎn)品智力的巔峰,面對物理世界的無盡變化時經(jīng)常無所適從。LWD 打破了這種靜態(tài),構(gòu)建了一個由真實世界強化學(xué)習(xí)(RL)驅(qū)動的數(shù)據(jù)飛輪。

想象一下特斯拉的影子模式(Shadow Mode),但 LWD 走得更深,后者是一個完全閉環(huán)的行動系統(tǒng):



LWD 被定義為集群級(fleet-scale)的離線到在線(offline-to-online)強化學(xué)習(xí)框架,用于通用 VLA(視覺 - 語言 - 動作)策略的閉環(huán)持續(xù)訓(xùn)練。

它從一個預(yù)訓(xùn)練好的 VLA 模型開始,利用收集到的機器人數(shù)據(jù),包括專家演示、歷史成功與失敗的 rollout 數(shù)據(jù)、以及人類探索邊界的「把玩」數(shù)據(jù)來進(jìn)行離線強化學(xué)習(xí)預(yù)訓(xùn)練。這些策略會被部署到機器人集群中,機器人在自主執(zhí)行任務(wù)或由人類接管時,生成的數(shù)據(jù)會實時混合之前的離線數(shù)據(jù),在云端持續(xù)更新策略,將進(jìn)化后的更強「大腦」下發(fā)給物理集群。

這使得每一個被部署的機器人既在執(zhí)行任務(wù),也是提供學(xué)習(xí)信號的數(shù)據(jù)源。



LWD pipeline 與算法架構(gòu)概覽。

在羅劍嵐團(tuán)隊的具身智能訓(xùn)練過程中,機器人集群被投放到真實環(huán)境中執(zhí)行理貨、搬運等任務(wù)。在執(zhí)行過程中,機器人身上的傳感器會記錄下每一次觸碰、每一次抓取、以及物體滑落的力覺變化。這些第一手資料被不斷傳回云端,強化學(xué)習(xí)算法開始對策略進(jìn)行迭代。

數(shù)據(jù)飛輪的轉(zhuǎn)速直接由集群自身的運行規(guī)模決定,部署的機器人越多、在真實世界里運行得越久,模型吸取經(jīng)驗的速度就越快

不僅是實際部署的訓(xùn)練方式,LWD 的真正靈魂在于從失敗中學(xué)習(xí)的機制。在傳統(tǒng)的模仿學(xué)習(xí)眼里,只有人類專家的完美演示才是有效數(shù)據(jù),這意味著 AI 只是在「背答案」。LWD 試圖賦予機器人糾偏重試的本能,在其框架下,物理世界里所有類型的交互都能被提取出學(xué)習(xí)價值,那些搞砸的失敗軌跡也會被全盤吸收。

這些都能教會它如何更好地在復(fù)雜的物理世界中維持穩(wěn)態(tài)。

四大維度創(chuàng)新

為了讓 VLA 能夠在現(xiàn)實世界中持續(xù)訓(xùn)練,更好地消化大規(guī)模部署的機器人集群數(shù)據(jù),攻克超長任務(wù)的誤差累積,研究人員在 LWD 的底層架構(gòu)上實現(xiàn)了四個維度的創(chuàng)新。

首先,LWD 的核心算法組件將價值評估與策略提取分離,這對于將離線到在線強化學(xué)習(xí)應(yīng)用于基于流的 VLA 策略至關(guān)重要。在價值評估方面,LWD 引入了 DIVL(分布型隱式價值學(xué)習(xí))。傳統(tǒng)的強化學(xué)習(xí)需要去預(yù)測一個確切的標(biāo)量分?jǐn)?shù),而 DIVL 則是用類似分類的方式擬合出一個「價值分布」,并能根據(jù)不確定性自適應(yīng)調(diào)整策略。

這種方法不僅保留了評估的準(zhǔn)確性,也很大程度上適應(yīng)了物理世界中獎勵稀疏、異構(gòu)的集群經(jīng)驗回放(Fleet Replay)以及離線到在線的分布偏移場景,確保了即使在任務(wù)獎勵極其稀疏、執(zhí)行序列長達(dá) 3-5 分鐘的情況下,系統(tǒng)依然能精準(zhǔn)識別出到底是哪一秒的動作決定了最終的成敗。

其次,針對目前先進(jìn) VLA 模型普遍采用的復(fù)雜流匹配(Flow-matching)架構(gòu),LWD 引入QAM(伴隨匹配 Q 學(xué)習(xí))來進(jìn)行策略提取。它將價值網(wǎng)絡(luò)引導(dǎo)的動作改進(jìn)轉(zhuǎn)化為沿著流軌跡的局部回歸目標(biāo),巧妙地繞過了生成模型難以直接反向傳播的阻礙,讓動作模型能高效地聽懂優(yōu)化指令,無需依賴顯式的動作似然函數(shù),還大幅降低了算力開銷,保障了策略更新的穩(wěn)定性。

第三項關(guān)鍵技術(shù),是專為攻克「長程操作」難題設(shè)計的動態(tài)多步 TD 策略(Dynamic n-step TD Strategy)。在現(xiàn)實物理任務(wù)中,強化學(xué)習(xí)關(guān)注的獎勵極度稀疏。該策略會根據(jù)任務(wù)長度和訓(xùn)練階段,智能調(diào)整預(yù)判未來的「步長(n)」。

例如在離線訓(xùn)練長程任務(wù)時,它會將步長拉大到 n=10,讓成功信號迅速反向傳導(dǎo)穿透整個動作周期;而在實機在線部署時,又會切回到 n=1。

這就完美兼顧了信號回傳的效率,同時極大地降低了模型在線更新時的方差,確保了實機迭代的穩(wěn)定。

最后,要讓 LWD 整個數(shù)據(jù)飛輪轉(zhuǎn)動起來,還需要有一個基礎(chǔ)設(shè)施底座。研究人員提出了分段異步 Actor-Learner 架構(gòu)。在訓(xùn)練的過程中,現(xiàn)實世界中負(fù)責(zé)執(zhí)行和采集數(shù)據(jù)的「機器人集群(Actor)」與云端集中算力更新策略的「學(xué)習(xí)器(Learner)」徹底解耦。兩邊的規(guī)模可以獨立擴(kuò)容,互不干擾。前端機器人「隨緣」地異步上傳殘次或成功的軌跡數(shù)據(jù),而后端云端通過引入中央?yún)f(xié)調(diào)器打上「快照」截斷,把前端異步的亂流,變成了同步的、全局一致的數(shù)據(jù)集進(jìn)行訓(xùn)練。

這套基礎(chǔ)設(shè)施為整套訓(xùn)練機制帶來了穩(wěn)定性,前端產(chǎn)生的數(shù)據(jù)化為云端學(xué)習(xí)的經(jīng)驗僅需 41 秒,而云端更新模型后通過發(fā)布 - 訂閱頻道推送到機器人端,中位數(shù)延遲僅需 38 秒。

真實世界大考

5 分鐘長程操作,超 90% 成功率

為了驗證 LWD 的能力,這套新方法部署到了 16 臺 Agibot G1 雙臂機器人上,并在真實環(huán)境中進(jìn)行了 8 項操作任務(wù)測試。

其中最能驗出系統(tǒng)成色的是 4 項分鐘級長程連貫操作任務(wù):泡功夫茶、榨果汁、調(diào)雞尾酒以及打包鞋盒。



LWD 進(jìn)行的評估任務(wù)。

在目前大多數(shù)機器人的演示視頻中,我們看到的往往是「抓起蘋果放到籃子里」這種持續(xù)十幾秒的單一動作,對于商業(yè)落地來說,這還遠(yuǎn)遠(yuǎn)不夠。

真實世界中的具身智能任務(wù)通常需要持續(xù) 3 到 5 分鐘,包含幾十個連續(xù)的物理交互子步驟。在這個漫長的過程中,誤差會像滾雪球一樣累積。泡茶的第一步抓取時偏了 1 厘米,可能導(dǎo)致第三步倒水時灑出,最終導(dǎo)致第五步完全崩潰。

這就要求機器人不僅要動作精準(zhǔn),更需要擁有從中間錯誤狀態(tài)中恢復(fù)的能力,以及跨越長周期的貢獻(xiàn)度分配(Credit Assignment)能力。

在長任務(wù)壓力測試下, LWD 的優(yōu)勢逐漸凸顯了出來。在所有 8 項任務(wù)的綜合評分中,經(jīng)過在線訓(xùn)練強化的 LWD (Online) 平均成功率達(dá)到了 0.95。作為對比,傳統(tǒng)的純行為克?。⊿FT)只有 0.76,引入了人類干預(yù)糾偏的 HG-DAgger 方案為 0.85,而業(yè)內(nèi)先進(jìn)的離線后訓(xùn)練方案 RECAP 也止步于 0.85。



各項任務(wù)的成功率實驗結(jié)果??梢?LWD 實現(xiàn)了卓越的性能,在獲得更高成功率的同時,顯著縮短了周期時間。



八項真實世界操作任務(wù)的主要結(jié)果,涵蓋了四項雜貨補貨任務(wù)和四項長周期任務(wù)。LWD (Online) 方法取得了最佳的總平均分(0.95),在全部四項長周期任務(wù)中均獲最高分。

在最困難的長程任務(wù)組,LWD (Online) 取得了 0.91 的平均得分,甩開了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有優(yōu)勢,其平均循環(huán)時間比純行為克隆短了 23.75 秒。

值得一提的是,在這項研究 652.5 小時的離線數(shù)據(jù)池中,人類專家的完美演示占 51.6%,有多達(dá) 34.8% 的內(nèi)容是完全失敗的交互軌跡,包括歷史策略搞砸的 Rollout,以及人類為了幫助價值函數(shù)區(qū)分成功與失敗行為而制造的失敗數(shù)據(jù)。

LWD 賦予了機器人在復(fù)雜物理交互中極強的穩(wěn)定性與從容感,完美印證了飛輪效應(yīng)的設(shè)想。

具身智能也進(jìn)入「下半場」了?

在人工智能的大語言模型領(lǐng)域,整個行業(yè)正在經(jīng)歷一次重要的共識轉(zhuǎn)變:算力與資源的重心,正從預(yù)訓(xùn)練(Pre-train)向后訓(xùn)練(Post-training)傾斜。

去年,AI 研究領(lǐng)域興起了對于大模型「下半場」的討論:為什么現(xiàn)在的 AI 已經(jīng)能在各種人類考試中超越人類,甚至拿奧賽金牌,但現(xiàn)實世界、經(jīng)濟(jì)和 GDP 卻似乎沒有發(fā)生翻天覆地的變化?

人們認(rèn)為問題在于評估(Evaluation),我們要把真實世界的效用作為新的評估標(biāo)準(zhǔn),設(shè)計出貼近現(xiàn)實世界的新任務(wù)和新范式,而不是簡單地設(shè)計更難的考卷?;谶@個思路,后訓(xùn)練正在得到前所未有的重視,近期的一系列基礎(chǔ)大模型也獲得了性能上的突破。

后訓(xùn)練正在變得越來越重要,這種思考現(xiàn)在也得到了真實物理世界的驗證。LWD 的出現(xiàn),或許會如同大模型領(lǐng)域的 RLHF 一樣成為轉(zhuǎn)折點,推動新一輪的 Scale Up。

未來的通用機器人,比拼的不再僅僅是出廠時喂了多少數(shù)據(jù),而是在千行百業(yè)中部署后主動學(xué)習(xí)的速度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本“一天一頓飯”!求助無門,開始呼叫中國?

日本“一天一頓飯”!求助無門,開始呼叫中國?

混沌錄
2026-04-29 19:36:05
1954年我國正籌備核彈,猶太人好心送來濃縮鈾,周總理:查明真?zhèn)?>
    </a>
        <h3>
      <a href=房產(chǎn)衫哥
2026-04-29 05:02:52
伊朗突發(fā)暗殺事件

伊朗突發(fā)暗殺事件

第一財經(jīng)資訊
2026-04-29 19:09:32
斯基,制裁以色列!

斯基,制裁以色列!

牛牛說金融
2026-04-30 13:49:07
看完鐘漢良《蜜語紀(jì)》,再看唐嫣新劇,我想說沒有比較就沒有傷害

看完鐘漢良《蜜語紀(jì)》,再看唐嫣新劇,我想說沒有比較就沒有傷害

秋姐居
2026-04-28 22:06:22
被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

有品設(shè)計
2026-04-28 16:50:06
緬北電詐分子找到新?lián)c:帶水上樂園、人造沙灘的高端樓盤

緬北電詐分子找到新?lián)c:帶水上樂園、人造沙灘的高端樓盤

紅星新聞
2026-04-29 18:19:15
5月1日起煙花新國標(biāo)落地!行業(yè)大洗牌,普通人過年放煙花變了

5月1日起煙花新國標(biāo)落地!行業(yè)大洗牌,普通人過年放煙花變了

老特有話說
2026-04-30 13:19:55
蔣萬安發(fā)出強硬警告,"中國臺灣?。⒆呦驀H,10國選擇明智應(yīng)對

蔣萬安發(fā)出強硬警告,"中國臺灣省"走向國際,10國選擇明智應(yīng)對

混沌錄
2026-04-29 20:17:16
逼近1700元,登頂A股“股王”!寒武紀(jì)再創(chuàng)歷史新高,市值突破7100億元

逼近1700元,登頂A股“股王”!寒武紀(jì)再創(chuàng)歷史新高,市值突破7100億元

和訊網(wǎng)
2026-04-30 14:35:05
A股:剛剛,證監(jiān)會發(fā)布,新任官員到位,周四,將迎來更大的變化

A股:剛剛,證監(jiān)會發(fā)布,新任官員到位,周四,將迎來更大的變化

云鵬敘事
2026-04-30 00:00:08
大比分2-3!湖人次節(jié) 被轟30-19 火箭客場續(xù)命成功 能4-3翻盤嗎?

大比分2-3!湖人次節(jié) 被轟30-19 火箭客場續(xù)命成功 能4-3翻盤嗎?

Emily說個球
2026-04-30 12:47:41
這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當(dāng)代女星

這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當(dāng)代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
珍寶島戰(zhàn)敗后蘇聯(lián)計劃4路侵中國,一周到北京,為何最終不敢打?

珍寶島戰(zhàn)敗后蘇聯(lián)計劃4路侵中國,一周到北京,為何最終不敢打?

鶴羽說個事
2026-04-27 22:57:54
網(wǎng)傳古天樂隱婚10年育有一子,女方身份曝光,更多戀愛細(xì)節(jié)被扒出

網(wǎng)傳古天樂隱婚10年育有一子,女方身份曝光,更多戀愛細(xì)節(jié)被扒出

叨嘮
2026-04-29 22:45:51
Shams:若火箭追至搶七KD有望復(fù)出;東契奇或缺席次輪初期

Shams:若火箭追至搶七KD有望復(fù)出;東契奇或缺席次輪初期

懂球帝
2026-04-30 10:43:08
卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

落夜足球
2026-04-29 21:49:36
鞏俐巴黎街頭與丈夫爭執(zhí)摔花,77歲老公一個摸頭殺,全網(wǎng)破防

鞏俐巴黎街頭與丈夫爭執(zhí)摔花,77歲老公一個摸頭殺,全網(wǎng)破防

茶余飯好
2026-04-27 20:20:50
1951年,戴笠獨子被處決的消息傳到臺灣,蔣介石給毛人鳳下了一條命令

1951年,戴笠獨子被處決的消息傳到臺灣,蔣介石給毛人鳳下了一條命令

曉張說
2026-04-27 07:18:18
誰說印度能取代中國?美國人一句“以后或許”,捅破印度大國夢

誰說印度能取代中國?美國人一句“以后或許”,捅破印度大國夢

好賢觀史記
2026-04-30 14:06:58
2026-04-30 15:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12894文章數(shù) 142640關(guān)注度
往期回顧 全部

科技要聞

四巨頭財報齊發(fā):AI已經(jīng)不只是風(fēng)口

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊媽媽被曝!過往言行被扒大開眼界

財經(jīng)要聞

醫(yī)美偷稅手法曝光 借免稅優(yōu)惠來避稅被封堵

汽車要聞

上汽一季報出爐 在低增長周期里守住基本盤

態(tài)度原創(chuàng)

教育
本地
時尚
公開課
軍事航空

教育要聞

成都鹽外發(fā)出倡議:每個家庭設(shè)立“家庭情緒日”

本地新聞

用青花瓷的方式,打開西溪濕地

春季穿衣千萬別太暗沉!試試藍(lán)白配色、選基礎(chǔ)款褲子,大方得體

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

意大利議會批準(zhǔn):捐贈航母給印度尼西亞

無障礙瀏覽 進(jìn)入關(guān)懷版