国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖靈獎得主Yann LeCun離開Meta后首篇論文?使用了宇樹機(jī)器人做研究

0
分享至


來源:機(jī)器之心

還記得《黑客帝國》里 Neo 通過腦機(jī)接口瞬間學(xué)會功夫的場景嗎?


現(xiàn)在,機(jī)器人離這一天也不遠(yuǎn)了。想象一下,你只需在電腦上輸入一句提示詞:「一個人在打太極」,AI 視頻模型(比如 Wan2.1 或 Sora)立刻生成一段視頻,而旁邊的機(jī)器人看完這段視頻,竟然就能零樣本(Zero-shot)地把這套動作在物理世界中完美復(fù)現(xiàn)出來!

沒錯,這就是來自伯克利、紐約大學(xué)和約翰?開普勒林茨大學(xué)的一項(xiàng)最新論文想要實(shí)現(xiàn)的未來。

研究人員提出了一種名為GenMimic的新方法,讓機(jī)器人擁有了「模仿大師」的技能,甚至即便 AI 生成的視頻里人物動作有些變形、甚至出現(xiàn)「鬼畜」般的噪聲,機(jī)器人也能去偽存真,提取出核心動作邏輯,穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)卦诂F(xiàn)實(shí)中動起來。


  • 論文標(biāo)題:From Generated Human Videos to Physically Plausible Robot Trajectories

  • 論文地址:https://arxiv.org/abs/2512.05094v1

  • 項(xiàng)目地址:https://genmimic.github.io/

已經(jīng)離開 Meta、的圖靈獎得主 Yann LeCun 也是該研究的四位共同導(dǎo)師之一。有趣的是,在這篇論文中,Yann LeCun 的所屬機(jī)構(gòu)已經(jīng)沒有了 Meta。這應(yīng)該是他離開 Meta 后發(fā)布的第一篇論文?不過,其所屬機(jī)構(gòu)也尚未標(biāo)注其新創(chuàng)業(yè)公司,僅有紐約大學(xué)。

該論文有四位共一作者:James Ni、Zekai Wang、Wei Lin、Amir Bar。其研究的核心問題是機(jī)器人領(lǐng)域一個關(guān)鍵問題:人形機(jī)器人如何能夠零樣本(zero-shot)地執(zhí)行生成視頻中的人類動作?

這項(xiàng)研究有四大貢獻(xiàn):

  • 提出了首個使人形機(jī)器人能夠執(zhí)行由視頻生成模型生成的動作的通用框架。

  • 提出了 GenMimic,這是一種新的強(qiáng)化學(xué)習(xí)策略,使用對稱正則化和選擇性加權(quán)的 3D 關(guān)鍵點(diǎn)獎勵進(jìn)行訓(xùn)練,盡管僅在現(xiàn)有的動作捕捉數(shù)據(jù)上訓(xùn)練,卻能泛化到充滿噪聲的合成視頻。

  • 利用 Wan2.1 和 Cosmos-Predict2 整理了合成人類動作數(shù)據(jù)集 GenMimicBench,建立了評估零樣本泛化和策略魯棒性的可擴(kuò)展基準(zhǔn)。

  • 在仿真和真實(shí)世界實(shí)驗(yàn)中廣泛驗(yàn)證了新提出的方法。在仿真中,該團(tuán)隊(duì)提供了詳細(xì)的消融實(shí)驗(yàn),并展示了相比強(qiáng)基線模型的顯著改進(jìn)。他們還進(jìn)一步在宇樹 G1 機(jī)器人上確認(rèn)了新方法的可行性,展示了連貫且物理穩(wěn)定的動作。


下面我們更詳細(xì)地了解一下這項(xiàng)研究成果。

GenMimicBench 數(shù)據(jù)集

為了評估人形機(jī)器人控制策略在不同視覺和動作分布下的零樣本泛化能力,該團(tuán)隊(duì)引入了GenMimicBench,這是一個包含 428 個生成視頻的合成人類動作數(shù)據(jù)集。

該數(shù)據(jù)集是使用兩個最先進(jìn)的視頻生成模型 Wan2.1-VACE-14B 和 Cosmos-Predict2-14BSample-GR00T-Dreams-GR1 創(chuàng)建的。

如圖 2 所示,每個序列都是從初始幀和指定預(yù)期動作的文本提示生成的,從而實(shí)現(xiàn)了主體身份、視角和動作的系統(tǒng)性變化。


總體而言,GenMimicBench 涵蓋了廣泛的主體、環(huán)境和動作類型,從簡單的手勢到多步驟組合動作及物體交互行為。

  • Wan2.1 視頻受控室內(nèi)場景。 GenMimicBench 的很大一部分是使用 Wan2.1 從 NTU RGB+D 幀生成的。這些片段提供了清晰、結(jié)構(gòu)化的室內(nèi)環(huán)境,并具有同步的前視、左視和右視攝像機(jī)視角。該團(tuán)隊(duì)包括了五名具有不同人口統(tǒng)計(jì)學(xué)特征、身體比例和著裝風(fēng)格的主體,確保外觀的多樣性,同時(shí)保持場景幾何的一致性。動作涵蓋四個結(jié)構(gòu)化類別。這產(chǎn)生了 217 個多視角室內(nèi)視頻,捕捉了形態(tài)、視角和動作組合的細(xì)微變化。

  • Cosmos-Predict2 視頻:網(wǎng)絡(luò)風(fēng)格場景。 為了以更大的多樣性補(bǔ)充這些受控場景,該團(tuán)隊(duì)還使用 Cosmos-Predict2 生成了以 PennAction 幀為條件的視頻。這些片段反映了自然場景下 YouTube 視頻的特征:雜亂的場景、多變的攝像機(jī)運(yùn)動、不均勻的光照和現(xiàn)實(shí)世界的物體布局。該子集包括 211 個視頻,主要由八個不同的主體執(zhí)行簡單的手勢(例如,摸頭、豎大拇指)以及一系列物體交互行為,如開門、舉書或啞鈴,以及操作日常家居用品。這一部分使策略暴露于受控?cái)?shù)據(jù)集中所缺乏的現(xiàn)實(shí)復(fù)雜性,為評估在自然環(huán)境中的魯棒性提供了一個具有挑戰(zhàn)性的測試平臺。

總計(jì),GenMimicBench 提供了一個包含 428 個高方差合成動作序列的統(tǒng)一集合,涵蓋了結(jié)構(gòu)化的室內(nèi)場景和多樣化的現(xiàn)實(shí)世界視頻語境。

通過將受控動作與多樣化的自然人類動作相結(jié)合,GenMimicBench 建立了一個全面的基準(zhǔn),可用于評估在視覺、形態(tài)和動作分布偏移下的人形機(jī)器人策略性能。該數(shù)據(jù)集專門設(shè)計(jì)用于壓力測試魯棒性,使其非常適合評估依賴于從生成視頻中獲取的噪聲或不完美動作重建的策略。

從生成的視頻到人形機(jī)器人動作

為了解決從生成視頻中執(zhí)行人形機(jī)器人動作的挑戰(zhàn),該團(tuán)隊(duì)提出了一個基于 4D 重建的兩階段流程,并提出了一個新的 GenMimic 跟蹤策略。圖 3 展示了方法概況。


兩階段流程

第一階段:從像素到 4D 人形機(jī)器人重建。

給定一個生成的輸入 RGB 視頻,該團(tuán)隊(duì)使用最先進(jìn)的人類重建模型來檢測和提取逐幀的全局姿態(tài)和 SMPL 參數(shù)。由于形態(tài)不匹配,生成的 SMPL 軌跡無法直接用于人形機(jī)器人。因此,該團(tuán)隊(duì)選擇將 SMPL 軌跡重定向到機(jī)器人的關(guān)節(jié)空間,該空間結(jié)合逐幀的全局姿態(tài)可恢復(fù)機(jī)器人空間中的全局 3D 關(guān)鍵點(diǎn)。

第二階段:從 4D 人形機(jī)器人到動作。

為了正確地泛化到未見過的人類動作,該團(tuán)隊(duì)的策略必須對輸入中的變化和噪聲具有魯棒性。

為了實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)特意選擇 3D 關(guān)鍵點(diǎn)而非關(guān)節(jié)角度,因?yàn)殛P(guān)鍵點(diǎn)對變化更具魯棒性,且噪聲在這種表征中更容易被觀察到。

給定這些關(guān)鍵點(diǎn)和本體感知信息,該團(tuán)隊(duì)的跟蹤策略輸出物理上可實(shí)現(xiàn)的期望關(guān)節(jié)角度。這些期望關(guān)節(jié)角度被比例-微分 (PD) 控制器使用,輸出可執(zhí)行的力矩給機(jī)器人。

GenMimic 策略

如圖 3 所示,從視頻生成的人類動作包含噪聲和形態(tài)不匹配,這使得它們偏離了訓(xùn)練數(shù)據(jù)的分布。

該團(tuán)隊(duì)表明,添加加權(quán)關(guān)鍵點(diǎn)跟蹤獎勵和對稱增強(qiáng)提供了足夠的魯棒性來解決這些挑戰(zhàn)。

加權(quán)跟蹤 (Weighted Tracking)

某些關(guān)鍵點(diǎn)(例如對應(yīng)于末端執(zhí)行器的關(guān)鍵點(diǎn))在任務(wù)執(zhí)行和物理穩(wěn)定性方面本質(zhì)上比軀干或非接觸關(guān)鍵點(diǎn)更為關(guān)鍵。因此,該團(tuán)隊(duì)將跟蹤獎勵設(shè)計(jì)為使用逐關(guān)鍵點(diǎn)誤差的加權(quán)組合:


這個公式使得策略能夠選擇性地關(guān)注目標(biāo)中最可靠和與任務(wù)最相關(guān)的方面。對于生成視頻,偏向末端執(zhí)行器并遠(yuǎn)離不準(zhǔn)確的下半身會產(chǎn)生穩(wěn)定的模仿效果。

對稱損失 (Symmetry Loss)

人體表現(xiàn)出固有的雙側(cè)對稱性,其中左側(cè)和右側(cè)近似為鏡像。

該團(tuán)隊(duì)假設(shè),由于這種對稱性作為一種強(qiáng)大的物理歸納偏置,一個顯式學(xué)習(xí)并利用左右關(guān)鍵點(diǎn)之間對稱相關(guān)性的策略,可以對生成視頻中的逐關(guān)鍵點(diǎn)噪聲實(shí)現(xiàn)更強(qiáng)的魯棒性。

為了實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)在標(biāo)準(zhǔn) PPO 訓(xùn)練目標(biāo)中加入了一個輔助對稱損失 L_SYM,并帶有權(quán)重系數(shù) λ_SYM:

策略學(xué)習(xí)的細(xì)節(jié)(包括訓(xùn)練數(shù)據(jù)、獎勵和域隨機(jī)化)請參閱原論文。



實(shí)驗(yàn)表現(xiàn)

該團(tuán)隊(duì)在 GenMimicBench 和真實(shí)的 23-DoF 宇樹 G1 人形機(jī)器人上進(jìn)行了實(shí)驗(yàn)。實(shí)現(xiàn)細(xì)節(jié)方面,訓(xùn)練在 IsaacGym 中進(jìn)行,樣本量超過 15 億,使用了四個 NVIDIA RTX 4090 GPU。部署使用單個 NVIDIA 4060 移動版 GPU。更多細(xì)節(jié)請?jiān)L問原論文。

仿真實(shí)驗(yàn)

該團(tuán)隊(duì)在 GenMimicBench 數(shù)據(jù)集上對比了該團(tuán)隊(duì)的方法與強(qiáng)基線模型。結(jié)果見表 1。


如表 1 所示,GenMimic 優(yōu)于現(xiàn)有基線。GenMimic 學(xué)生模型獲得了比 GMT 和 TWIST 更高的 SR 和 MPKPE-NT,而 GenMimic 教師模型獲得了比 BeyondMimic 和 TWIST 更高的 SR、MPKPE 和 MPKPE-NT。所有 unprivileged 策略都表現(xiàn)出較高的全局誤差,突顯了從生成視頻中進(jìn)行零樣本模仿的挑戰(zhàn)。

真實(shí)世界實(shí)驗(yàn)

該團(tuán)隊(duì)成功地將策略部署在 23-DoF 的 G1 人形機(jī)器人上,展示了對生成視頻中人類動作的物理復(fù)現(xiàn)。

該團(tuán)隊(duì)總共推演了 43 個動作,并在表 2 中報(bào)告了視覺成功率 (VSR)。與僅衡量偏離基準(zhǔn)真值的定量仿真指標(biāo)不同,VSR 評估執(zhí)行的動作在視覺上是否與生成視頻相似。該團(tuán)隊(duì)將任何過度的跌跌撞撞或無法在視覺上跟隨關(guān)鍵關(guān)鍵點(diǎn)(如手或腳)的情況視為失敗。


該團(tuán)隊(duì)的策略成功復(fù)現(xiàn)了廣泛的上半身動作,包括揮手、指向、伸展及其序列組合。將這些動作與下半身運(yùn)動組合會顯著增加難度。對于步進(jìn)組合,策略能可靠地跟隨上半身動作,但無法一致地完成邁步或抬腿。對于轉(zhuǎn)身組合,策略能可靠地達(dá)到期望的方向,但經(jīng)常會跌跌撞撞。

該團(tuán)隊(duì)猜想,這些挑戰(zhàn)源于不準(zhǔn)確或物理上不可行的動作線索,這個問題或可通過向 3D 目標(biāo)關(guān)鍵點(diǎn)引入加權(quán)噪聲來解決。

下面展示了一些模仿示例。


該團(tuán)隊(duì)也執(zhí)行了消融實(shí)驗(yàn),詳見原論文。

閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這下真相大白了!難怪王金平不邀鄭麗文赴宴!

這下真相大白了!難怪王金平不邀鄭麗文赴宴!

達(dá)文西看世界
2025-12-26 21:55:38
A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

云鵬敘事
2025-12-28 00:00:03
任正非沒想到,孟晚舟卸任華為董事后,姚安娜竟開始給他爭光了

任正非沒想到,孟晚舟卸任華為董事后,姚安娜竟開始給他爭光了

小欣欣聊體育
2025-12-21 18:21:32
突發(fā)!差3天合同到期被裁,三進(jìn)三出啊,25歲榜眼真要廢,太難了

突發(fā)!差3天合同到期被裁,三進(jìn)三出啊,25歲榜眼真要廢,太難了

球童無忌
2025-12-27 20:29:00
俄稱已控制扎波羅熱第二大城市

俄稱已控制扎波羅熱第二大城市

財(cái)聯(lián)社
2025-12-28 02:06:06
中國臺灣地區(qū)附近發(fā)生6.5級左右地震

中國臺灣地區(qū)附近發(fā)生6.5級左右地震

新京報(bào)
2025-12-27 23:28:07
泰山隊(duì)近況:瓦科降薪100萬歐留隊(duì),宿茂臻或取代韓鵬成為主帥

泰山隊(duì)近況:瓦科降薪100萬歐留隊(duì),宿茂臻或取代韓鵬成為主帥

姜大叔侃球
2025-12-26 20:54:42
槍聲響起,南亞這個國家徹底亂了,一個不該倒下的人率先出局

槍聲響起,南亞這個國家徹底亂了,一個不該倒下的人率先出局

粉紅小碎花
2025-12-26 21:29:57
梅州馬拉松7條賽事免費(fèi)接駁專線全攻略,跑友快收藏!

梅州馬拉松7條賽事免費(fèi)接駁專線全攻略,跑友快收藏!

梅州同城網(wǎng)
2025-12-28 00:06:25
警惕!小心這些藥正在“溶解”你的肌肉

警惕!小心這些藥正在“溶解”你的肌肉

PSM藥盾公益
2025-11-21 16:59:45
廣州公安發(fā)布重要提醒

廣州公安發(fā)布重要提醒

廣州交通電臺
2025-12-27 13:50:19
麥當(dāng)勞楓糖厚松餅堡將首次限時(shí)登陸中國內(nèi)地

麥當(dāng)勞楓糖厚松餅堡將首次限時(shí)登陸中國內(nèi)地

新浪財(cái)經(jīng)
2025-12-27 12:21:01
瘋了?切爾西棄將 7 個月無球踢,名宿怒催曼聯(lián):不簽他傻!

瘋了?切爾西棄將 7 個月無球踢,名宿怒催曼聯(lián):不簽他傻!

瀾歸序
2025-12-28 01:41:52
創(chuàng)刊32年的《電腦愛好者》注銷了,我們的青春也落幕了

創(chuàng)刊32年的《電腦愛好者》注銷了,我們的青春也落幕了

街機(jī)時(shí)代
2025-12-27 15:00:03
膽大包天!徐湖平剛被帶走,就曝篡改民國史:給冒牌貨鋪路

膽大包天!徐湖平剛被帶走,就曝篡改民國史:給冒牌貨鋪路

遠(yuǎn)山行客
2025-12-27 16:11:09
河北省教育廳最新通知

河北省教育廳最新通知

東天文化
2025-12-27 11:40:03
曼城豪取八連勝!暫登頂英超,1分領(lǐng)先阿森納,瓜帥追平弗格森

曼城豪取八連勝!暫登頂英超,1分領(lǐng)先阿森納,瓜帥追平弗格森

奧拜爾
2025-12-27 22:26:30
放牛老漢在山上發(fā)現(xiàn)一個女子,不顧女子的反抗,將女子拖回了家

放牛老漢在山上發(fā)現(xiàn)一個女子,不顧女子的反抗,將女子拖回了家

喬生桂
2025-12-05 10:47:42
帶走82歲南博原院長徐湖平 法律很尷尬

帶走82歲南博原院長徐湖平 法律很尷尬

經(jīng)濟(jì)那道理
2025-12-26 17:09:10
大會剛開完,救樓市第一個掀桌子的就出現(xiàn)了

大會剛開完,救樓市第一個掀桌子的就出現(xiàn)了

墜入二次元的海洋
2025-12-26 13:01:25
2025-12-28 03:39:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

游戲
手機(jī)
房產(chǎn)
公開課
軍事航空

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

手機(jī)要聞

榮耀第二款“萬級”電池曝光,下月發(fā)

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄稱已控制庫皮揚(yáng)斯克 正清繳烏軍

無障礙瀏覽 進(jìn)入關(guān)懷版