国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)新機(jī)器人亮相,學(xué)會(huì)穿鞋帶了!

0
分享至


機(jī)器人前瞻(公眾號(hào):robot_pro)
作者 江宇
編輯 漠影

機(jī)器人前瞻12月2日?qǐng)?bào)道,今日,字節(jié)跳動(dòng)Seed具身智能團(tuán)隊(duì)發(fā)布最新成果強(qiáng)化訓(xùn)練模型GR-RL,首次在真機(jī)條件下完成“整只鞋連續(xù)穿鞋帶”任務(wù),并在這一精細(xì)操控場(chǎng)景中將成功率從45.7%提升至83.3%,減少了近70%的失敗情況。


▲ByteMini-v2完成“穿鞋帶”任務(wù)

與此前主要依靠模仿學(xué)習(xí)的路線不同,該成果采用了真機(jī)強(qiáng)化學(xué)習(xí)(Real-world Reinforcement Learning)的方式,通過多階段訓(xùn)練框架提升機(jī)器人在長程任務(wù)中的穩(wěn)定表現(xiàn)。


值得注意的是,今年7月22日,Seed團(tuán)隊(duì)曾發(fā)布了通用機(jī)器人模型GR-3及雙臂移動(dòng)機(jī)器人ByteMini,展示了其在泛化、新環(huán)境適應(yīng)及柔性物體操作方面的能力。

本次研究則在長時(shí)程精細(xì)靈巧操作方向進(jìn)一步推進(jìn),新一代雙臂輪式機(jī)器人ByteMini-v2也同步亮相。


▲上為ByteMini,下為ByteMini-v2

論文鏈接:https://arxiv.org/abs/2512.01801
項(xiàng)目主頁:https://seed.bytedance.com/gr_rl

一、從“看得懂”到“做得準(zhǔn)”,穿鞋帶是通用模型失效的典型場(chǎng)景

Seed團(tuán)隊(duì)將穿鞋帶設(shè)為驗(yàn)證任務(wù),是因?yàn)樗畜w現(xiàn)了真實(shí)環(huán)境中的三類難點(diǎn):柔性物體的不確定性、毫米級(jí)的穿孔精度、以及多步驟連續(xù)執(zhí)行的穩(wěn)定性。

鞋帶會(huì)隨牽引和摩擦即時(shí)改變狀態(tài),孔徑較小,對(duì)抓取角度要求嚴(yán)格,機(jī)器人需要在持續(xù)的視覺反饋中調(diào)整動(dòng)作。而整個(gè)過程可能持續(xù)數(shù)分鐘,每一次滑落、偏移或姿態(tài)變化,都可能影響后續(xù)動(dòng)作。

Seed團(tuán)隊(duì)發(fā)現(xiàn),基于模仿學(xué)習(xí)、具有較強(qiáng)泛化能力的通用模型GR-3在這一任務(wù)上的表現(xiàn)也不穩(wěn)定,他們將這種情況歸因于模仿學(xué)習(xí)的結(jié)構(gòu)性限制。

一是人類演示數(shù)據(jù)存在“次優(yōu)片段”,人類演示包含放慢、猶豫、嘗試與回退等片段,模型在學(xué)習(xí)過程中會(huì)一并吸收,從而產(chǎn)生“動(dòng)作保守”“執(zhí)行停頓”等行為;

二是訓(xùn)練與推理存在“執(zhí)行錯(cuò)位”,訓(xùn)練階段學(xué)到的是預(yù)測(cè)動(dòng)作,而部署時(shí)執(zhí)行的動(dòng)作經(jīng)過推理平滑、軌跡整形等處理,這種訓(xùn)練與執(zhí)行之間的偏移,在毫米級(jí)任務(wù)中會(huì)被放大。

這將導(dǎo)致:模型即使“理解”人類動(dòng)作,而是在關(guān)鍵節(jié)點(diǎn)上缺乏連續(xù)性與決斷性,難以把任務(wù)高效完成。

二、GR-RL的核心思路:從篩掉“壞動(dòng)作”開始,再讓機(jī)器人自己積累經(jīng)驗(yàn)

GR-RL并非簡單增加數(shù)據(jù)量或延長訓(xùn)練時(shí)間,而是在結(jié)構(gòu)上引入了一個(gè)額外的判別器網(wǎng)絡(luò)(Critic Transformer),用于判斷每一個(gè)動(dòng)作片段的價(jià)值,對(duì)動(dòng)作序列中每個(gè)時(shí)刻的動(dòng)作都進(jìn)行一次打分。


▲GR-RL的模型架構(gòu)

Seed團(tuán)隊(duì)在離線數(shù)據(jù)中標(biāo)記出“演示重新開始”的關(guān)鍵幀,將其之前的片段視為負(fù)樣本,用于補(bǔ)足失敗數(shù)據(jù)來源。這樣做的目的,是讓模型在監(jiān)督學(xué)習(xí)前先學(xué)會(huì)辨別哪些行為在后續(xù)執(zhí)行中會(huì)導(dǎo)致失敗。

在此基礎(chǔ)上,Seed團(tuán)隊(duì)使用時(shí)序差分方法訓(xùn)練評(píng)估網(wǎng)絡(luò),以動(dòng)作后果作為回報(bào)信號(hào),過濾掉質(zhì)量較低的軌跡片段,保留較穩(wěn)定的演示數(shù)據(jù)作為基礎(chǔ)策略。


▲評(píng)估模型評(píng)判采集軌跡片段的好壞

由于穿鞋帶涉及空間關(guān)系和左右協(xié)同動(dòng)作,Seed團(tuán)隊(duì)對(duì)圖像、機(jī)器人狀態(tài)及動(dòng)作軌跡進(jìn)行鏡像增強(qiáng),使模型在雙臂協(xié)作中獲得對(duì)稱性理解,從而減少對(duì)單一演示路徑的依賴。

GR-RL訓(xùn)練的第二階段發(fā)生在真實(shí)機(jī)器人上。Seed團(tuán)隊(duì)采用導(dǎo)向強(qiáng)化學(xué)習(xí)方法,通過調(diào)整模型生成動(dòng)作的隱空間噪聲,使其在實(shí)際探索中逐漸靠近更高回報(bào)的策略,而不是在關(guān)節(jié)層面隨機(jī)擾動(dòng)。


▲ByteMini-v2機(jī)器人

為了防止模型“遺忘先前策略”或短期偏移,他們引入“雙緩沖池”策略,將歷史軌跡與最新軌跡分開存儲(chǔ),訓(xùn)練時(shí)按固定比例抽取,保證探索與穩(wěn)定并行。

這種訓(xùn)練方式的核心是在“允許模型犯錯(cuò)”的前提下,讓它逐步形成適應(yīng)真實(shí)環(huán)境的動(dòng)作序列。

三、ByteMini-v2真機(jī)完成驗(yàn)證,成功率階梯式提升

GR-RL的驗(yàn)證是在雙臂輪式機(jī)器人ByteMini-v2上完成的。與初代相比,該機(jī)型保留了多自由度結(jié)構(gòu),并通過球形腕部關(guān)節(jié)獲得更靈活的局部動(dòng)作空間,適合在狹窄區(qū)域完成旋轉(zhuǎn)與穿孔操作。

實(shí)驗(yàn)使用稀疏獎(jiǎng)勵(lì)策略,即任務(wù)完全完成才計(jì)分,其余情況均為0。這一設(shè)定避免了模型對(duì)局部中間狀態(tài)的過度依賴,也提高了對(duì)整體策略的約束。

實(shí)驗(yàn)中,基線模型GR-3的成功率為45.7%。在離線數(shù)據(jù)過濾后,成功率提升至61.6%,加入鏡像增強(qiáng)后達(dá)到72.7%。

在此基礎(chǔ)上進(jìn)行約150條真機(jī)探索后,最終成功率提升至83.3%。這種結(jié)果呈現(xiàn)出明顯的“階梯式”變化,與訓(xùn)練流程中每一階段的作用對(duì)應(yīng)。


▲左圖:多階段訓(xùn)練實(shí)現(xiàn)階梯式成功率提升;右圖:在線強(qiáng)化學(xué)習(xí)的成功率變化曲線

在多輪實(shí)驗(yàn)中,Seed團(tuán)隊(duì)還觀察到任務(wù)執(zhí)行過程中的行為變化。當(dāng)鞋帶在穿孔過程中滑落時(shí),模型會(huì)重新進(jìn)行抓取或調(diào)整角度。當(dāng)初始擺放夾帶阻礙時(shí),模型會(huì)改變狀態(tài)再繼續(xù)執(zhí)行任務(wù)。




▲面對(duì)失誤情況能自發(fā)重試,擺放位置別扭時(shí)會(huì)主動(dòng)調(diào)整。

這些行為并非額外編碼,而是強(qiáng)化階段逐漸形成的策略表現(xiàn)。它們呈現(xiàn)為一種連續(xù)執(zhí)行能力,而非記憶某一條“正確答案”。

結(jié)語:從實(shí)驗(yàn)室到人類家庭,精細(xì)操作依然是具身智能的“門檻”

在數(shù)據(jù)驅(qū)動(dòng)和模型擴(kuò)大的推動(dòng)下,具身智能已經(jīng)能完成越來越多看得懂、能上手的任務(wù)。

但當(dāng)機(jī)器人離開實(shí)驗(yàn)室,走進(jìn)真實(shí)家庭,面對(duì)穿鞋帶這種看似普通、卻涉及柔性物體、連續(xù)動(dòng)作和高精度控制的任務(wù)時(shí),通用模型的能力邊界就會(huì)暴露出來。

機(jī)器人不僅要看得清,還要在不斷的反饋中穩(wěn)定執(zhí)行任務(wù),這一環(huán)節(jié)目前仍是最難被可靠解決的部分。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
冬天不必再“南北兩重天”:靠“搬熱量”,讓不同地區(qū)都更好過冬

冬天不必再“南北兩重天”:靠“搬熱量”,讓不同地區(qū)都更好過冬

城市研究室
2025-12-27 20:01:54
財(cái)政部:明年財(cái)政將促進(jìn)居民就業(yè)增收

財(cái)政部:明年財(cái)政將促進(jìn)居民就業(yè)增收

極目新聞
2025-12-28 12:14:55
河北:各村口、路口,開始大范圍排查!

河北:各村口、路口,開始大范圍排查!

新牛城
2025-12-28 12:08:06
銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬,事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬,事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

觀世記
2025-12-27 15:02:35
馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

新京報(bào)政事兒
2025-12-27 21:39:39
明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

云鵬敘事
2025-12-28 13:55:45
1.1!中國生育率正式跌破“陷阱線”,免費(fèi)生娃能救嗎?

1.1!中國生育率正式跌破“陷阱線”,免費(fèi)生娃能救嗎?

經(jīng)濟(jì)學(xué)教授V
2025-12-28 18:03:34
商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲(chǔ)戶賠償難,銀行不擔(dān)責(zé)

商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲(chǔ)戶賠償難,銀行不擔(dān)責(zé)

奇思妙想草葉君
2025-12-28 01:45:36
曾為扮演賈寶玉整容!演員歐陽奮強(qiáng)自曝:后來想取出假體,但已經(jīng)沒辦法

曾為扮演賈寶玉整容!演員歐陽奮強(qiáng)自曝:后來想取出假體,但已經(jīng)沒辦法

都市快報(bào)橙柿互動(dòng)
2025-12-28 19:27:27
最新!上海一區(qū)迎來新“80”后副區(qū)長

最新!上海一區(qū)迎來新“80”后副區(qū)長

新民晚報(bào)
2025-12-28 17:05:34
中國11月工業(yè)企業(yè)利潤同比降13.1%?,創(chuàng)下一年來的最大跌幅

中國11月工業(yè)企業(yè)利潤同比降13.1%?,創(chuàng)下一年來的最大跌幅

黑噪音
2025-12-28 12:37:21
全線暴漲、斷貨限購!有人一覺醒來賺18萬,有人后悔搶少了!史詩級(jí)行情來了?

全線暴漲、斷貨限購!有人一覺醒來賺18萬,有人后悔搶少了!史詩級(jí)行情來了?

新民晚報(bào)
2025-12-27 21:53:15
美媒一定程度上承認(rèn)了“斬殺線”存在

美媒一定程度上承認(rèn)了“斬殺線”存在

環(huán)球時(shí)報(bào)國際
2025-12-28 15:40:48
消息稱中國銀行某省分行行長被查

消息稱中國銀行某省分行行長被查

摩登財(cái)經(jīng)
2025-12-28 11:10:38
5艘航母逼近中國近海,特朗普直接打明牌,逼著中國接招!

5艘航母逼近中國近海,特朗普直接打明牌,逼著中國接招!

奉壹數(shù)碼
2025-12-26 22:02:25
當(dāng)你隔壁是個(gè)超級(jí)大國:東南亞人眼中的中國,到底是什么樣的?

當(dāng)你隔壁是個(gè)超級(jí)大國:東南亞人眼中的中國,到底是什么樣的?

遠(yuǎn)方風(fēng)林
2025-12-28 08:15:06
徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

葉公子
2025-12-27 19:19:28
小米副董事長擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

小米副董事長擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

證券時(shí)報(bào)e公司
2025-12-28 20:27:50
姜昆助理辟謠不到一天,被狠狠“打臉”,姜昆女兒被扒,果不簡單

姜昆助理辟謠不到一天,被狠狠“打臉”,姜昆女兒被扒,果不簡單

阿纂看事
2025-12-27 21:44:07
紅薯立大功!研究發(fā)現(xiàn):堅(jiān)持吃紅薯一段時(shí)間,或迎來5個(gè)好轉(zhuǎn)信號(hào)

紅薯立大功!研究發(fā)現(xiàn):堅(jiān)持吃紅薯一段時(shí)間,或迎來5個(gè)好轉(zhuǎn)信號(hào)

全球軍事記
2025-12-27 17:23:45
2025-12-28 21:39:00
機(jī)器人前瞻
機(jī)器人前瞻
專注于機(jī)器人報(bào)道的媒體
278文章數(shù) 5關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

數(shù)碼
本地
親子
時(shí)尚
房產(chǎn)

數(shù)碼要聞

LG電子2026款OLED電視獲英偉達(dá)G-SYNC認(rèn)證,至高165Hz

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

親子要聞

爸爸非常自責(zé)呢

2026年了,最好看還是這件大衣!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

無障礙瀏覽 進(jìn)入關(guān)懷版