国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拒絕“出廠即巔峰”!具身訓(xùn)練系統(tǒng)再進(jìn)化:LWD讓機(jī)器人自主開啟“打怪練級”

0
分享至


智東西
作者 江宇
編輯 漠影

當(dāng)前具身智能的發(fā)展,正卡在一個(gè)越來越明確的瓶頸上:數(shù)據(jù)規(guī)模與真實(shí)世界經(jīng)驗(yàn)的不足。

過去幾年,VLA等大模型讓機(jī)器人在“預(yù)訓(xùn)練階段”取得了顯著進(jìn)展,但一旦進(jìn)入真實(shí)部署環(huán)境,問題隨之暴露——面對復(fù)雜、多變的物理世界,模型能力很難持續(xù)提升,依然高度依賴人工標(biāo)注數(shù)據(jù)和重復(fù)訓(xùn)練

這也意味著,具身智能尚未真正進(jìn)入“規(guī)?;鲩L”的階段。

僅依賴實(shí)驗(yàn)室數(shù)據(jù)或仿真環(huán)境,很難支撐機(jī)器人能力的持續(xù)演進(jìn);真正能夠帶來躍遷的,仍然是來自真實(shí)世界、持續(xù)積累的高質(zhì)量交互數(shù)據(jù)。但問題在于:這些數(shù)據(jù)從哪里來?

現(xiàn)階段,大量訓(xùn)練數(shù)據(jù)仍依賴人工示教或遙操作采集,規(guī)模有限、成本高昂,且難以覆蓋開放環(huán)境中的復(fù)雜長尾場景。

要讓數(shù)據(jù)規(guī)模真正“滾動(dòng)起來”,唯一可行的路徑,是讓機(jī)器人走出實(shí)驗(yàn)室,在真實(shí)場景中長期運(yùn)行,并將交互經(jīng)驗(yàn)持續(xù)回流。

也正是在這一背景下,上海創(chuàng)智學(xué)院和智元具身研究中心聯(lián)合發(fā)布了最新成果羅劍嵐團(tuán)隊(duì)提出LWD(Learning While Deploying)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)。該工作由創(chuàng)智學(xué)院導(dǎo)師,智元首席科學(xué)家羅劍嵐團(tuán)隊(duì)完成。嘗試將“部署”本身轉(zhuǎn)化為學(xué)習(xí)過程的一部分。


這項(xiàng)工作并不聚焦單一算法突破,更給出了一種更具工程可行性的方案——通過在真實(shí)世界中持續(xù)運(yùn)行機(jī)器人,并將其行為數(shù)據(jù)統(tǒng)一回流與更新,讓每一臺機(jī)器人既是任務(wù)執(zhí)行者,也是持續(xù)產(chǎn)生學(xué)習(xí)信號的數(shù)據(jù)源,從而推動(dòng)通用策略在部署過程中不斷進(jìn)化。

一、讓數(shù)據(jù)飛輪在物理世界自主狂奔

傳統(tǒng)模仿學(xué)習(xí)范式下,非完美的運(yùn)行軌跡往往被視為“廢數(shù)據(jù)”直接丟棄,機(jī)器人只能從成功的人類演示中刻板地模仿。

LWD的核心顛覆在于,它構(gòu)建了一個(gè)由真實(shí)世界強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的閉環(huán)數(shù)據(jù)飛輪

在這個(gè)飛輪中,機(jī)器人集群在真實(shí)任務(wù)中自主執(zhí)行并積累異構(gòu)的交互經(jīng)驗(yàn),無論是完美的成功軌跡、試錯(cuò)后的自我恢復(fù)、還是人類為了覆蓋邊界情況而引導(dǎo)的失敗案例,都會(huì)被統(tǒng)一輸送至云端的共享重放緩沖區(qū)。

強(qiáng)化學(xué)習(xí)機(jī)制使得這些在傳統(tǒng)視角下的“失敗”或“意外”數(shù)據(jù),全部轉(zhuǎn)化為了指導(dǎo)模型規(guī)避錯(cuò)誤、優(yōu)化價(jià)值評估的寶貴經(jīng)驗(yàn)。

隨著集群部署規(guī)模的擴(kuò)大和運(yùn)行時(shí)間的累積,數(shù)據(jù)飛輪的轉(zhuǎn)速不斷提升,云端持續(xù)更新的強(qiáng)策略又會(huì)定期下發(fā)給機(jī)器人,形成真正的自主造血閉環(huán)。

二、強(qiáng)化學(xué)習(xí)算法深層進(jìn)化:在嘈雜數(shù)據(jù)中,精準(zhǔn)捕捉“進(jìn)步”信號

將強(qiáng)化學(xué)習(xí)應(yīng)用于真實(shí)世界部署的大規(guī)模機(jī)器人集群,面臨著極端的算法挑戰(zhàn)。

不同機(jī)器人在不同任務(wù)中產(chǎn)生的數(shù)據(jù)極其龐雜,包含著完全不同的指令、長短不一的操作過程,以及非常稀疏的獎(jiǎng)勵(lì)反饋。

為了在這些充滿噪聲的“異質(zhì)數(shù)據(jù)”中穩(wěn)定提取有用的學(xué)習(xí)信號,LWD創(chuàng)新性地引入了分布隱式價(jià)值學(xué)習(xí)(DIVL)算法。

簡單來說,以往的算法像是在給機(jī)器人的表現(xiàn)打一個(gè)固定的“平均分”,但在復(fù)雜環(huán)境中這種打分極不準(zhǔn)確;而DIVL則讓機(jī)器人學(xué)會(huì)去理解表現(xiàn)的“概率分布”,它不再只看一個(gè)點(diǎn),而是觀察整個(gè)可能性的區(qū)間。

這讓機(jī)器人在很少得到明確獎(jiǎng)勵(lì)的情況下,也能精準(zhǔn)判斷哪些動(dòng)作風(fēng)險(xiǎn)更高、哪些動(dòng)作更值得嘗試,從而有效解決了評價(jià)不準(zhǔn)、容易過度樂觀的老大難問題。

與此同時(shí),針對VLA模型通過多步去噪產(chǎn)生動(dòng)作的特點(diǎn),傳統(tǒng)的更新方式計(jì)算量大且容易跑偏。

LWD結(jié)合了Q-learning with Adjoint Matching(QAM),為模型找到了一條數(shù)學(xué)上的“進(jìn)化捷徑”,讓復(fù)雜的策略更新不再需要推倒重來,而是通過局部調(diào)整就能實(shí)現(xiàn)快速迭代,保證了機(jī)器人在大規(guī)模部署時(shí)的學(xué)習(xí)效率。


三、煉就“通才策略”:挑戰(zhàn)5分鐘長程復(fù)雜操作的極限成功率

為了驗(yàn)證這套訓(xùn)練框架的實(shí)戰(zhàn)表現(xiàn),研究團(tuán)隊(duì)在智元G1雙臂機(jī)器人集群上進(jìn)行了大規(guī)模的真實(shí)世界部署測試。

測試涵蓋了八項(xiàng)極具挑戰(zhàn)性的多模態(tài)操作任務(wù),包括四類考驗(yàn)語義識別與泛化的商超貨架動(dòng)態(tài)補(bǔ)貨任務(wù),以及泡功夫茶、榨果汁、調(diào)酒、裝鞋入盒等四類長程連貫操作任務(wù)。


▲評測任務(wù)示意圖。(A)調(diào)制雞尾酒;(B)沖泡功夫茶;(C)制作果汁;(D)裝鞋入盒;(E)商超補(bǔ)貨。

在這些持續(xù)時(shí)間長達(dá)5到8分鐘、包含數(shù)十個(gè)接觸豐富且存在長程依賴的物理交互任務(wù)中,LWD展現(xiàn)出了壓倒性的優(yōu)勢。


▲各任務(wù)逐步成功率的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過在線真實(shí)經(jīng)驗(yàn)積累后,LWD訓(xùn)練出的單一通用策略在所有任務(wù)上的平均成功率達(dá)到了驚人的0.95,遠(yuǎn)超純行為克?。?.76)以及先進(jìn)的離線強(qiáng)化學(xué)習(xí)基線如RECAP(0.86)和 Dagger-SOP(0.82)。


▲八項(xiàng)真實(shí)世界操作任務(wù)的主要結(jié)果,涵蓋四類商超補(bǔ)貨任務(wù)和四類長程任務(wù)。結(jié)果顯示,LWD(在線)取得了最高的整體平均成績,并在四項(xiàng)長程任務(wù)中全部獲得最高分,同時(shí)在商超補(bǔ)貨任務(wù)中也保持在最優(yōu)或接近最優(yōu)水平。


▲調(diào)制雞尾酒

尤其在最考驗(yàn)中間錯(cuò)誤恢復(fù)與長期信用分配的長程任務(wù)中,LWD在線更新后的成功率實(shí)現(xiàn)了極大幅度的躍升,證明了基于物理世界經(jīng)驗(yàn)的持續(xù)學(xué)習(xí)是突破復(fù)雜操作天花板的有效路徑。


▲圖中展示了功夫茶任務(wù)中一次成功執(zhí)行(左)和一次失敗執(zhí)行(右)的價(jià)值曲線。結(jié)果表明,所學(xué)習(xí)到的價(jià)值能夠?qū)θ蝿?wù)完成進(jìn)度提供有意義的表征。

結(jié)語:把“部署”變成能力增長起點(diǎn),讓機(jī)器人在真實(shí)世界持續(xù)進(jìn)化

在具身智能的產(chǎn)業(yè)化進(jìn)程中,LWD推動(dòng)的不僅是算法框架的升級,更是機(jī)器人能力迭代方式的一次重要轉(zhuǎn)向。

長久以來,業(yè)界習(xí)慣將“部署”視為模型訓(xùn)練的終點(diǎn),而LWD的提出證明了,自主改進(jìn)應(yīng)當(dāng)成為通用機(jī)器人策略的基本屬性。

學(xué)習(xí)不應(yīng)是“出廠即封存的靜態(tài)能力”,而必須成為部署之后在真實(shí)世界里一直延續(xù)的進(jìn)化過程。

只有賦予機(jī)器人從海量無序的真實(shí)物理交互中自主提取“養(yǎng)分”、持續(xù)自我進(jìn)化的能力,其才能真正打破被人工標(biāo)注數(shù)據(jù)框定的舒適區(qū),在千行百業(yè)的復(fù)雜、開放場景中長久地釋放商業(yè)價(jià)值。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強(qiáng)3D就是他

誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強(qiáng)3D就是他

球毛鬼胎
2026-05-06 19:53:11
賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實(shí)是AI生成

賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實(shí)是AI生成

紅星新聞
2026-05-06 15:47:36
毛主席的壓力,到底有多大?放眼全球,無人能比!

毛主席的壓力,到底有多大?放眼全球,無人能比!

溫讀史
2026-05-05 15:56:05
她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機(jī)車愛好者

她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機(jī)車愛好者

以茶帶書
2026-05-05 16:57:12
52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

一盅情懷
2026-05-06 10:52:19
國乒女團(tuán)變陣沖8強(qiáng)!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

國乒女團(tuán)變陣沖8強(qiáng)!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

劉姚堯的文字城堡
2026-05-06 19:00:40
男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

蝴蝶花雨話教育
2026-05-06 00:20:05
合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

國籃會(huì)自強(qiáng)
2026-05-06 19:41:11
終身不讓吸,史上最嚴(yán)禁煙來了

終身不讓吸,史上最嚴(yán)禁煙來了

南風(fēng)窗
2026-05-06 15:24:30
段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因?yàn)楹蜕兄懒恕?>
    </a>
        <h3>
      <a href=呆子的故事
2026-02-10 14:44:11
次輪8支球隊(duì)全部亮相,具備奪冠實(shí)力的只有2隊(duì),騎士馬刺希望不大

次輪8支球隊(duì)全部亮相,具備奪冠實(shí)力的只有2隊(duì),騎士馬刺希望不大

毒舌NBA
2026-05-06 14:06:31
002731、688121,被證監(jiān)會(huì)立案!

002731、688121,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-05-06 19:57:07
筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

觀察者海風(fēng)
2026-05-06 18:00:11
斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

懂球帝
2026-05-06 08:13:34
波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

體壇周報(bào)
2026-05-06 10:36:14
威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

齊魯壹點(diǎn)
2026-05-06 18:07:39
秦昊真坦誠?。汉鸵聊莒o結(jié)婚時(shí),她卡里有6000萬,我就20萬

秦昊真坦誠啊:和伊能靜結(jié)婚時(shí),她卡里有6000萬,我就20萬

阿廢冷眼觀察所
2026-05-06 15:16:12
倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強(qiáng),王楚欽拿2分,梁靖崑輸球

倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強(qiáng),王楚欽拿2分,梁靖崑輸球

國乒二三事
2026-05-06 19:10:53
50萬鎊獎(jiǎng)金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學(xué)習(xí)

50萬鎊獎(jiǎng)金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學(xué)習(xí)

侃球熊弟
2026-05-06 01:24:34
上千噸香蕉爛在手里,菲律賓香蕉協(xié)會(huì):中國斷了30萬蕉農(nóng)的生計(jì)!

上千噸香蕉爛在手里,菲律賓香蕉協(xié)會(huì):中國斷了30萬蕉農(nóng)的生計(jì)!

據(jù)說說娛樂
2026-05-06 14:56:48
2026-05-06 20:32:50
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

最新GDP!全國30強(qiáng)城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
時(shí)尚
軍事航空

教育要聞

點(diǎn)贊!這些北京學(xué)子登上《人民日報(bào)》

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

數(shù)碼要聞

消息稱三星蘇州家電生產(chǎn)繼續(xù),傳聞此前未能與塞夫就國行銷售談妥

夏天的白裙,可以像赫本那樣穿

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無障礙瀏覽 進(jìn)入關(guān)懷版