国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機(jī)器人看人類第一人稱視頻自學(xué),5種工具8種異構(gòu)靈巧手上手就會

0
分享至

未來,機(jī)器人有望通過刷視頻就能學(xué)會干活了?并非下載程序,也不是工程師編代碼,而是通過觀察人類操作物體的過程就能自己上手。

最近,清華大學(xué)許華哲助理教授、趙昊助理教授與上海期智研究院等團(tuán)隊合作,實現(xiàn)了讓機(jī)器人“看人干活”來學(xué)習(xí)技能。他們避開了成本高昂且難以擴(kuò)展的遙操作數(shù)據(jù)采集進(jìn)行預(yù)訓(xùn)練,構(gòu)建了一套機(jī)器人數(shù)據(jù)-模型-采集裝置基礎(chǔ)平臺 UniDex。

該平臺提供了將海量人類第一人稱視頻轉(zhuǎn)化成機(jī)器人訓(xùn)練數(shù)據(jù)的全流程(注:第一人稱視頻是指,人類自身佩戴相機(jī)拍自己如何完成動作的視頻,例如沖咖啡、掃地、按噴壺等)。并且,不同型號的靈巧機(jī)械手學(xué)會了使用日常工具,例如剪刀、噴壺、鼠標(biāo)等,在真實環(huán)境下平均任務(wù)完成進(jìn)度超過 80%。

以機(jī)器人學(xué)習(xí)切菜為例,可以這樣來理解這項研究:傳統(tǒng)的遙操作數(shù)據(jù)采集訓(xùn)練方法就像請私教一對一教切菜,不僅成本高而且換個機(jī)器人可能就不適用了。

而 UniDex 方法就像讓機(jī)器人先觀察上千個美食博主第一視角錄制的視頻自學(xué)切菜,然后人類再用幾分鐘糾正一下握刀姿勢,結(jié)果不僅成本更低,機(jī)器人切得比私教效果更好,即便換不同的刀具(不同類型的機(jī)械手),也無需重新訓(xùn)練照樣可以穩(wěn)定操作。

這意味著,工廠中的機(jī)械臂換成靈巧手可能不需要重新編程;家庭服務(wù)機(jī)器人看到主人如何開抽屜,自己就能基于觀察學(xué)習(xí)并掌握新技能;甚至未來機(jī)器人看過 TikTok 上的維修教程的視頻后,有望直接上手修東西。


(來源:arXiv)

相關(guān)論文題目為《UniDex:基于第一人稱人類視頻的通用靈巧手控制機(jī)器人基礎(chǔ)套件》(UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos)[1],目前已被 CVPR 接收,相關(guān)代碼、模型均已開源。


圖丨相關(guān)論文(來源:arXiv)

重塑動作空間:如何讓靈巧手像人手一樣“本能”協(xié)作?

當(dāng)前大部分范式本質(zhì)上都是教機(jī)器人干活。例如 VLA 和世界模型等都可歸為模仿學(xué)習(xí),核心在于高質(zhì)量數(shù)據(jù)。

盡管遙操作數(shù)據(jù)包含執(zhí)行-觀察-反饋的閉環(huán),但存在一種本體分離,即執(zhí)行主體是機(jī)器人,感官決策則依賴于人類。而在人類數(shù)據(jù)中,執(zhí)行、觀察、反饋均來自同一本體,動作更自然、更快,也能完成更復(fù)雜操作。

以 System 類比來說,遙操作像 System 2,而人類自身數(shù)據(jù)則像 System 1,有更本能的快速反應(yīng)。因此,用人類數(shù)據(jù)學(xué)習(xí)能獲得更自然的動作。

研究團(tuán)隊開啟這項研究,來自一個想法:既然靈巧手的設(shè)計源自人手,那人類直接“教”機(jī)器人做事是否可行呢?

他們的做法是:先將人類視頻和動作轉(zhuǎn)換為機(jī)器人數(shù)據(jù)從中學(xué)習(xí)預(yù)訓(xùn)練動作空間,再針對不同任務(wù)通過簡單后訓(xùn)練對齊,讓策略變得可用。

研究團(tuán)隊從四個公開的 RGB-D 人類操作數(shù)據(jù)集中篩選出涵蓋多樣場景的第一人稱視角的日常任務(wù)視頻,包括使用手機(jī)、開牛奶盒、用鏟子翻炒、解魔方等。

但一個不容忽視的現(xiàn)實問題是,無論從運(yùn)動學(xué),還是從形態(tài)方面,人手和靈巧手之間均存在顯著差距:人手五指可能比靈巧手長、關(guān)節(jié)分布也不相同,并且人手的靈活性更高,能夠完成復(fù)雜的動作,例如使用剪刀、噴壺、點(diǎn)鼠標(biāo)等。


圖丨完整的人機(jī)轉(zhuǎn)換流程(來源:arXiv)

為此,研究人員提出了人機(jī)協(xié)同重定向程序(human-in-the-loop retargeting procedure),優(yōu)先讓人手與機(jī)械手的指尖軌跡對齊,手掌等部位則通過引入優(yōu)化讓其在空間中自主調(diào)整,形成更符合真實操作習(xí)慣的運(yùn)動軌跡。

目前多數(shù)方法使用靈巧手重定向庫中的向量重定向,這類基于優(yōu)化的方式更適合遙操作。但在離線數(shù)據(jù)編輯場景下,對齊指尖的方法比向量方法在操作軌跡的真實性方面提供更強(qiáng)的保障。


(來源:arXiv)

該方法一次整體校準(zhǔn)每類數(shù)據(jù)集和每種機(jī)械手,然后對剩余數(shù)據(jù)進(jìn)行微調(diào)處理。在此基礎(chǔ)上,研究團(tuán)隊構(gòu)建了 UniDex-Dataset,該數(shù)據(jù)集涵蓋了 5 萬條以上完整操作軌跡、900 萬幀圖像-點(diǎn)云-動作配對數(shù)據(jù),并覆蓋 8 種不同型號的靈巧手(主動自由度從 6 維到 24 維不等)。

該論文第一作者、清華大學(xué)博士生張谷對 DeepTech 解釋道:“我們之所以選用帶有三維信息的視頻數(shù)據(jù)集,是因為現(xiàn)在大部分操作,比如 VLA、二指夾爪都依賴于兩個腕部以及頭部攝像頭,只用二維輸入在涉及空間距離感知的情況下,容易識別不準(zhǔn)?!?/p>

因此,帶有三維深度信息的視頻數(shù)據(jù)僅通過第一人稱視角即可完成大量操作。同時,三維信息在 human-in-the-loop retargeting 時可輔助更精準(zhǔn)的空間位置判斷,從而提高轉(zhuǎn)換數(shù)據(jù)的質(zhì)量。


圖丨張谷(來源:張谷)

經(jīng)過基本標(biāo)定后,整個機(jī)械手的數(shù)據(jù)相對合理。但考慮到數(shù)據(jù)質(zhì)量,研究人員對涉及到物體和手交互較多的片段進(jìn)行二次檢查和人工調(diào)整,從而讓整體數(shù)據(jù)更加合理。

一套策略搞定 8 種機(jī)械手,任務(wù)進(jìn)度達(dá) 81%

數(shù)據(jù)構(gòu)建完成,接下來研究人員解決的問題是訓(xùn)練模型。他們提出了一套統(tǒng)一動作空間 FAAS(Function-Actuator-Aligned Space)策略,核心思路是:將功能相同的關(guān)節(jié)映射到動作空間的同一維度,從而能夠讓不同靈巧手的控制具有一定的功能語義性,以在不同的靈巧手之間更好地進(jìn)行策略遷移和統(tǒng)一。

例如,將不同手型中功能一致的指根彎曲自由度,映射到動作空間的同一維度上。這樣,低自由度靈巧手學(xué)會抓握動作后,可以直接將訓(xùn)練策略遷移到高自由度靈巧手,避免了為不同類型靈巧手重復(fù)訓(xùn)練的工作。


(來源:arXiv)

借助 FAAS 作為動作參數(shù)化方式,研究人員在 UniDex 數(shù)據(jù)集上預(yù)訓(xùn)練了一種三維 VLA 策略 UniDex-VLA,并通過任務(wù)演示進(jìn)行微調(diào)。在預(yù)訓(xùn)練階段,研究人員已在整個數(shù)據(jù)集摻雜了各種不同類型的機(jī)械手?jǐn)?shù)據(jù)。

在 FAAS 策略加持下,可實現(xiàn)零樣本跨數(shù)據(jù)遷移,有利于機(jī)械手迭代后快速保留原有訓(xùn)練,并將不同類型機(jī)械手訓(xùn)練的策略遷移到目標(biāo)機(jī)械手。

在真實機(jī)器人實驗中,研究團(tuán)隊還搭建了一套硬件平臺,涵蓋了 Franka 機(jī)械臂、Inspire 手、Wuji 手和 Oymotion 手,并設(shè)計了 5 項具有挑戰(zhàn)性的日常工具任務(wù),包括沖咖啡、掃地、澆花、剪袋子、用鼠標(biāo),每項任務(wù)的微調(diào)數(shù)據(jù)僅采集 50 條真實操作軌跡。


(來源:arXiv)

結(jié)果顯示,相較于擴(kuò)散策略、3D 擴(kuò)散策略等基線方法,UniDex-VLA 在所有任務(wù)中均取得了優(yōu)異的平均任務(wù)完成進(jìn)度,最高實現(xiàn) 81%。即便與當(dāng)前業(yè)界具有代表性的 VLA 模型 π0 的 38% 相比,也具有明顯的優(yōu)勢。在最難的任務(wù)“用剪刀剪袋子”方面,該方法比此前最好的方法提升了 84.6%。

模型泛化能力的表現(xiàn)同樣值得關(guān)注。研究團(tuán)隊將原本在 Inspire 手上訓(xùn)練好的“沖咖啡”策略,直接部署到 Wuji 手和 Oymotion 手上,在未經(jīng)微調(diào)的條件下,成功率實現(xiàn)了 40% 到 60%;同樣實驗條件下,基線方法幾乎全部失效。

“我們的實驗結(jié)果證明,通過結(jié)合 FAAS 動作空間和大規(guī)模預(yù)訓(xùn)練,能夠讓模型學(xué)會更通用的手部控制邏輯?!睆埞缺硎尽?/p>


(來源:arXiv)

除了數(shù)據(jù)集和模型,研究團(tuán)隊還設(shè)計了一套便攜式數(shù)據(jù)采集系統(tǒng) UniDex-Cap。這個系統(tǒng)將 Apple Vision Pro 和 Intel RealSense L515 深度相機(jī)固定在同一支架上,提供了采集裝置和轉(zhuǎn)換的腳本。

相比傳統(tǒng)遙操作方式,UniDex-Cap 采集人類演示的速度提升約 5 倍。在實驗中,該團(tuán)隊通過人機(jī)數(shù)據(jù)訓(xùn)練中等難度任務(wù),發(fā)現(xiàn)人類演示數(shù)據(jù)與真實機(jī)器人數(shù)據(jù)比例大概在 2:1 左右,即兩條人類演示數(shù)據(jù)可替代一條真實機(jī)器人數(shù)據(jù),顯著降低了后訓(xùn)練階段的數(shù)據(jù)采集和微調(diào)的成本。

機(jī)器人學(xué)習(xí)的“數(shù)據(jù)金字塔”已經(jīng)堆好了

從人類數(shù)據(jù)學(xué)習(xí)的策略,已成為當(dāng)下越來越多人的共識方向之一。研究團(tuán)隊認(rèn)為,未來人類數(shù)據(jù)可能會呈現(xiàn)一種金字塔的形式:最底層是無標(biāo)簽的人類視頻,中間層是帶有動作標(biāo)注的人類視頻,最上層是精細(xì)的動作標(biāo)簽,包括帶反饋的人類數(shù)據(jù)。

隨著金字塔層數(shù)上升,成本和精度越高,同時獲得的外界信息也越多。如文章開頭中提到的刷視頻學(xué)習(xí)技能,便位于人類數(shù)據(jù)金字塔最底層,即沒有任何動作標(biāo)注的純視頻信息。

張谷指出,隨著 3D 視覺和算法方面的進(jìn)步,通過視頻信息能夠了解整個空間以及機(jī)械手在空間中的動作軌跡,再結(jié)合本次研究中的數(shù)據(jù)轉(zhuǎn)換 pipeline,有望通過純視頻形式讓機(jī)器人直接學(xué)會高層次的語義理解和低層次的動作執(zhí)行。

未來,在 UniDex 方法中引入觸覺等模態(tài)對齊,有望讓從人類學(xué)習(xí)的方法呈現(xiàn)一套覆蓋更多的場景、更多任務(wù)類型以及泛化性更好的策略,從而促進(jìn)向更大規(guī)模和更通用的方向發(fā)展。此外,該方法也適用于靈巧手專屬的工具使用場景。

接下來,研究團(tuán)隊將進(jìn)一步提高人類數(shù)據(jù)到機(jī)械手?jǐn)?shù)據(jù)的轉(zhuǎn)換效率。另一方面,盡管模型在手型遷移方面已獲得初步驗證,但研究人員還將深入探索,面對更多未曾見過的機(jī)械結(jié)構(gòu),是否可以繼續(xù)保持穩(wěn)定。

這項研究相當(dāng)于給靈巧手領(lǐng)域構(gòu)建了一套完整的基礎(chǔ)設(shè)施,未來研究者不用再從零開始攢數(shù)據(jù)、調(diào)模型,而是基于 UniDex 直接進(jìn)行二次開發(fā)。長遠(yuǎn)來看,有望加速靈巧手更快走向日常生活的應(yīng)用場景。如果這一方向成立,那么未來最強(qiáng)的機(jī)器人訓(xùn)練集,可能來自大量的人類視頻數(shù)據(jù)。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2603.22264

2.項目地址:https://github.com/unidex-ai/UniDex

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿森納給阿爾特塔下最后通牒:0冠=下課,法布雷加斯已在候場

阿森納給阿爾特塔下最后通牒:0冠=下課,法布雷加斯已在候場

體育硬核說
2026-04-13 15:30:14
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

基斯默默
2026-04-11 11:19:29
王石被抓?最新回應(yīng)

王石被抓?最新回應(yīng)

江南晚報
2026-04-13 09:40:37
張柏芝電梯照流出,身材太性感了!

張柏芝電梯照流出,身材太性感了!

動物奇奇怪怪
2026-04-12 17:38:06
曝猛龍慶祝首輪打騎士!NBA官網(wǎng)預(yù)測:哈登米切爾帶隊4-1淘汰猛龍

曝猛龍慶祝首輪打騎士!NBA官網(wǎng)預(yù)測:哈登米切爾帶隊4-1淘汰猛龍

蘭亭墨未干
2026-04-13 12:40:43
為什么那么多酒店都倒閉了?網(wǎng)友:酒店很多需要被高鐵替代了

為什么那么多酒店都倒閉了?網(wǎng)友:酒店很多需要被高鐵替代了

另子維愛讀史
2026-04-12 13:01:06
某車起火文章被投訴下架!

某車起火文章被投訴下架!

電動知家
2026-04-12 19:53:03
終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

一盅情懷
2026-04-10 15:41:48
他是導(dǎo)致臺灣難以收復(fù)的關(guān)鍵人物,若不是他,臺灣或許早就解放了

他是導(dǎo)致臺灣難以收復(fù)的關(guān)鍵人物,若不是他,臺灣或許早就解放了

興史興談
2026-04-10 17:14:54
伊朗第一美女:馬赫拉哈·賈貝里,不僅五官精致身材也一級棒

伊朗第一美女:馬赫拉哈·賈貝里,不僅五官精致身材也一級棒

喜歡歷史的阿繁
2026-04-13 05:52:27
忍無可忍!25萬捷克人上街怒吼:我們拒絕成為下一個匈牙利

忍無可忍!25萬捷克人上街怒吼:我們拒絕成為下一個匈牙利

阿鳧愛吐槽
2026-03-24 17:59:04
匈牙利新任總理因油氣的原因很難對俄羅斯說“不”

匈牙利新任總理因油氣的原因很難對俄羅斯說“不”

清濱酒客
2026-04-13 13:11:43
芒果臺踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽都忌憚

芒果臺踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽都忌憚

小徐講八卦
2026-04-12 06:23:01
曲樂恒現(xiàn)狀:出行靠輪椅,父母照顧他的生活,49歲無人敢嫁給他

曲樂恒現(xiàn)狀:出行靠輪椅,父母照顧他的生活,49歲無人敢嫁給他

哄動一時啊
2026-04-12 14:29:33
剛從日本回來,說點(diǎn)不中聽的:日本的真實面目,可能讓你很意外

剛從日本回來,說點(diǎn)不中聽的:日本的真實面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-01 09:17:19
剛對伊朗下封鎖令,特朗普就緊急對華喊話:生怕中國“忍無可忍”

剛對伊朗下封鎖令,特朗普就緊急對華喊話:生怕中國“忍無可忍”

老輪侃世界
2026-04-13 13:39:33
跳樓身亡、家里現(xiàn)金“堆成山”,偷養(yǎng)私生子,大衣哥的謠言太離譜

跳樓身亡、家里現(xiàn)金“堆成山”,偷養(yǎng)私生子,大衣哥的謠言太離譜

米果說識
2026-04-12 10:20:30
“跟安洗瑩比賽太累了”,韓媒認(rèn)為,亞錦賽王祉怡被安洗瑩鋼鐵體能拖垮

“跟安洗瑩比賽太累了”,韓媒認(rèn)為,亞錦賽王祉怡被安洗瑩鋼鐵體能拖垮

硯底沉香
2026-04-13 13:40:53
52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

胡一舸南游y
2026-04-13 15:25:53
2026-04-13 16:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16572文章數(shù) 514868關(guān)注度
往期回顧 全部

科技要聞

傳榮耀與字節(jié)跳動接洽“豆包手機(jī)”合作

頭條要聞

女子名下多出一套上海房產(chǎn)很苦惱:丈夫去世 房子沒了

頭條要聞

女子名下多出一套上海房產(chǎn)很苦惱:丈夫去世 房子沒了

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財經(jīng)要聞

起底AI"造黃"灰產(chǎn):19.9元"一鍵脫衣"

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

時尚
房產(chǎn)
游戲
健康
公開課

這些才是普通人借鑒的穿搭!上短下長、上窄下寬,顯瘦又舒適

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

《生化9》里昂雕像引熱議:半裸舔腋下 玩家吵翻天!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版