国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《現(xiàn)代電影技術(shù)》|吳振等:基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架研究

0
分享至


本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第11期

專家點(diǎn)評

具身智能人形機(jī)器人研究是當(dāng)前人工智能的前沿領(lǐng)域,旨在打造適配人類環(huán)境、能替代體力勞動的通用具身智能體,具有重要的理論意義和實(shí)際應(yīng)用價值。其核心技術(shù)涵蓋雙足動態(tài)運(yùn)動、全身協(xié)調(diào)控制、多模態(tài)感知融合以及高密度能源系統(tǒng)等,但動態(tài)穩(wěn)定性與動作協(xié)調(diào)性仍極具挑戰(zhàn)。近年來,舞蹈人形機(jī)器人逐漸進(jìn)入人們的視野,比如宇樹科技的舞蹈人形機(jī)器人Unitree H1在春節(jié)聯(lián)歡晚會完成了令人印象深刻的扭秧歌表演。與通用人形機(jī)器人相比,舞蹈人形機(jī)器人面臨更多的技術(shù)挑戰(zhàn),比如音樂與動作的精準(zhǔn)同步;藝術(shù)性、表現(xiàn)力、情感傳達(dá)等。具身智能是人工智能領(lǐng)域非常活躍的一個重要分支,通過物理實(shí)體與環(huán)境實(shí)時交互,實(shí)現(xiàn)感知、認(rèn)知、決策和行動一體化?!痘诰呱碇悄艿奈璧溉诵螜C(jī)器人系統(tǒng)框架研究》一文提出一種基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架,通過多步運(yùn)動處理和自適應(yīng)運(yùn)動追蹤,增加對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機(jī)制訓(xùn)練人形機(jī)器人掌握復(fù)雜的英歌舞。該框架提升了機(jī)器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力,而且在舞蹈動作的穩(wěn)定性與自然性方面有一定的突破,為影視創(chuàng)作、藝術(shù)展演與人機(jī)交互等領(lǐng)域提供了新的技術(shù)手段。

—— 劉世光

教授

天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院博士生導(dǎo)師

【項(xiàng)目信息】2024年北京高等教育本科教學(xué)改革創(chuàng)新項(xiàng)目“人工智能編舞及其舞臺視覺設(shè)計方法研究”(0625013)。

作 者 簡 介


吳 振

王文強(qiáng)

北京舞蹈學(xué)院副教授,主要研究方向:藝術(shù)與科技。

松延動力(北京)科技有限公司算法副總裁,主要研究方向:機(jī)器人運(yùn)動控制。

崔文昊

覃幫羽

王文強(qiáng)

松延動力(北京)科技有限公司算法工程師,主要研究方向:機(jī)器人運(yùn)動控制。

北京舞蹈學(xué)院教授,主要研究方向:舞臺藝術(shù)設(shè)計。

周立新

基于具身智能的舞蹈人形機(jī)器人通過模仿人類動作掌握舞蹈技能,但即使經(jīng)過獎勵和課程設(shè)計,現(xiàn)有算法也僅能追蹤平滑、低速的人類運(yùn)動。本文提出一種舞蹈人形機(jī)器人系統(tǒng)框架,在基于物理的人形運(yùn)動控制(PBHC)方法基礎(chǔ)上,通過多步運(yùn)動處理和自適應(yīng)運(yùn)動追蹤,增加對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器(Estimator)和探索性好奇心獎勵(Curiosity Reward)機(jī)制,訓(xùn)練人形機(jī)器人掌握復(fù)雜的英歌舞。實(shí)驗(yàn)成功將動作數(shù)據(jù)部署到松延動力N2人形機(jī)器人上,N2在現(xiàn)實(shí)場景中展示的步態(tài)和舞蹈動作與模擬器中的圖像保持了高度一致性。研究表明,該框架不僅提升了機(jī)器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力,還在舞蹈動作的穩(wěn)定性與自然性方面取得了突破,為舞蹈機(jī)器人在影視創(chuàng)作、藝術(shù)展演與人機(jī)交互領(lǐng)域的應(yīng)用提供了新的技術(shù)路徑。

關(guān)鍵詞

具身智能;舞蹈;人形機(jī)器人;人形運(yùn)動控制

1引言

具身(Embodiment) 最初的概念是“身體對心靈有意義”,指支持感覺和運(yùn)動的物理身體[1]。具身智能(Embodied Intelligence, EI) 是人工智能(AI)的一個子領(lǐng)域,指專注于與物理環(huán)境交互的智能體,其通過物理實(shí)體與環(huán)境實(shí)時交互,實(shí)現(xiàn)感知、認(rèn)知、決策和行動一體化,即感覺運(yùn)動耦合和情境智能。與單純的被動觀察不同,EI智能體對其環(huán)境采取行動并從反應(yīng)中學(xué)習(xí)[2]。人形機(jī)器人通常被定義為具有人類外觀或擬人化特征的機(jī)器人[3]。憑借其類人的形態(tài)結(jié)構(gòu),人形機(jī)器人被視為具身智能體的理想載體。然而,相較于四足機(jī)器人,人形機(jī)器人因重心較高、自由度更大以及體型更為龐大,在運(yùn)動技能學(xué)習(xí)與控制方面面臨更大挑戰(zhàn)[4]。本文所研究的人形機(jī)器人屬于智能型機(jī)器人,具備具身智能,能夠復(fù)制人類的形態(tài)與功能,并在執(zhí)行不同任務(wù)時模仿多樣化的人類行為[5]。隨著技術(shù)的進(jìn)步,機(jī)器人開始逐漸涉足如舞蹈表演這類更復(fù)雜和藝術(shù)化的任務(wù),并有望作為“演員”參與電影表演,承擔(dān)部分特技動作,舞蹈人形機(jī)器人研究應(yīng)運(yùn)而生。

本文借鑒基于物理的人形運(yùn)動控制(Physics?Based Humanoid motion Control,PBHC)[6]方法,在該方法基礎(chǔ)上,加入機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器(Estimator),可有效解決人形機(jī)器人在舞蹈動作執(zhí)行過程中無法完成抬腿和劇烈抖動的技術(shù)難題;同時,通過在獎勵機(jī)制中引入探索性好奇心獎勵(Curiosity Reward),促進(jìn)人形機(jī)器人在訓(xùn)練過程中加速策略的探索,從而有效提升其對專家數(shù)據(jù)動作的學(xué)習(xí)能力。該框架應(yīng)用于松延動力(北京)科技有限公司(以下簡稱“松延動力”)N2人形機(jī)器人的訓(xùn)練與部署,使其通過模仿專業(yè)演員的表演動作具備了穩(wěn)定且富有表現(xiàn)力的舞蹈表演效果。

2研究背景

當(dāng)前,舞蹈人形機(jī)器人正逐漸成為展演領(lǐng)域的重要技術(shù)形態(tài)。2024年春節(jié)聯(lián)歡晚會上,宇樹 H1 機(jī)器人完成了扭秧歌表演;2025年8月于北京舉辦的2025世界人形機(jī)器人運(yùn)動會亦將機(jī)器人單機(jī)舞蹈與群舞項(xiàng)目納入正式賽事。追溯其歷史淵源,早在1952年,華特迪士尼公司即設(shè)立幻想工程(Imagineering)研發(fā)部門,并通過自動機(jī)(Automatronics)等系列計劃推動智能表演機(jī)器人研究,其中包括能夠替代人類完成高難度空中特技表演的“超級英雄特技”(Stuntronics)機(jī)器人[7]。此外,雙足機(jī)器人 Blue 已在游樂園環(huán)境中實(shí)現(xiàn)連續(xù) 10 小時無跌倒運(yùn)行,其兼具表現(xiàn)力動作與穩(wěn)定動態(tài)移動的技術(shù)特征,使其能夠與觀眾進(jìn)行有效交互[8]。

機(jī)器人學(xué)界普遍認(rèn)為,使機(jī)器人掌握更多動作能力對于推動該領(lǐng)域的發(fā)展具有重要意義[9]。自20世紀(jì)90年代以來,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)與模仿學(xué)習(xí)(Imitation Learning, IL)已成為機(jī)器人研究中取得顯著成果的兩類主要機(jī)器學(xué)習(xí)(ML)方法[10]。其中,強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境交互來學(xué)習(xí)最優(yōu)決策策略的機(jī)器學(xué)習(xí)范式[11],在以最少先驗(yàn)知識教授人形機(jī)器人基本運(yùn)動技能方面表現(xiàn)出突出的效果。然而,當(dāng)獎勵信號較弱時,探索過程往往會導(dǎo)致不自然的步態(tài),從而引發(fā)高能耗與機(jī)械磨損,進(jìn)而對實(shí)際部署造成限制。模仿學(xué)習(xí)是一類通過模仿專家行為來訓(xùn)練智能體的機(jī)器學(xué)習(xí)方法[12]。其側(cè)重于從專家行為數(shù)據(jù)中提取有價值的信息〔本文利用動作捕捉(Motion Capture)技術(shù)獲取專家行為數(shù)據(jù)〕,并結(jié)合分類或回歸等機(jī)器學(xué)習(xí)技術(shù)對模型進(jìn)行訓(xùn)練,使其再現(xiàn)專家行為。模仿學(xué)習(xí)的主要優(yōu)勢在于數(shù)據(jù)效率較高,可充分利用已有專家行為數(shù)據(jù),在有限樣本條件下快速獲得具備基本行為能力的模型,從而使機(jī)器人能夠較快掌握復(fù)雜動作。然而,其局限性在于高度依賴專家演示,且所學(xué)技能往往難以泛化至未包含于演示中的新情境。

與在游戲或動畫影像純數(shù)據(jù)虛擬環(huán)境中的模擬相比,機(jī)器人在物理世界中需要同時處理感知與行動問題,從而使任務(wù)復(fù)雜性顯著增加,并面臨具有本質(zhì)差異的挑戰(zhàn)。

強(qiáng)化學(xué)習(xí)在位移運(yùn)動(Locomotion)任務(wù)中,仿真訓(xùn)練和真實(shí)世界部署的最大差異主要體現(xiàn)在環(huán)境、硬件和訓(xùn)練部署3方面。在環(huán)境方面,仿真環(huán)境的物理屬性和干擾因素相對簡化且穩(wěn)定,而真實(shí)世界中物理參數(shù)復(fù)雜多變且存在大量不可預(yù)測的干擾。硬件方面,每臺真實(shí)機(jī)器人都存在制造誤差、零部件磨損以及傳感器精度受限等問題;而仿真環(huán)境中,每個零部件執(zhí)行期都是精密、準(zhǔn)確、零公差的,二者存在較大差異。在訓(xùn)練與部署上,仿真訓(xùn)練樣本效率高、試錯成本低,但策略直接遷移到真實(shí)世界時,由于環(huán)境和硬件差異,常面臨性能下降和仿真到現(xiàn)實(shí)差距(Sim?to?Real Gap)的挑戰(zhàn)。因此,在舞蹈人形機(jī)器人動作訓(xùn)練中,通常采用模仿學(xué)習(xí)的方法,并探索利用少量真實(shí)數(shù)據(jù)對仿真訓(xùn)練進(jìn)行校準(zhǔn),以提升物理逼真度,縮小機(jī)器人在仿真與現(xiàn)實(shí)間的性能差距[13]。

近年來,動作捕捉系統(tǒng)與動作生成方法取得進(jìn)展, AIST++ 等涵蓋人類舞蹈并附帶文本描述的大規(guī)模舞蹈動作數(shù)據(jù)集的發(fā)布,使人形機(jī)器人在全身控制與復(fù)雜舞蹈模仿方面展現(xiàn)出廣闊的發(fā)展前景[14]。然而,該領(lǐng)域仍面臨多重挑戰(zhàn):其一,傳統(tǒng)人形機(jī)器人訓(xùn)練方法雖能支持走路、揮手等低速、平滑動作的模仿,但在復(fù)雜高速舞蹈動作中效率較低,通常一次僅能穩(wěn)定訓(xùn)練約10 s甚至更短的動作片段;其二,人類演員的動作序列往往與人形機(jī)器人在關(guān)節(jié)約束、自由度(DoF)分布及動力學(xué)特性上存在差異,易出現(xiàn)違反關(guān)節(jié)或穩(wěn)定性約束的情況,導(dǎo)致物理維度的不可行,從而產(chǎn)生較大誤差、動作失敗乃至跌倒。此外,現(xiàn)有方法普遍缺乏自適應(yīng)的誤差容忍機(jī)制,進(jìn)一步限制了其在真實(shí)舞蹈表演場景中的應(yīng)用。

3基于具身智能的舞蹈人形機(jī)器人系統(tǒng)

3.1系統(tǒng)框架

在2025世界人形機(jī)器人運(yùn)動會上,北京舞蹈學(xué)院與松延動力組成聯(lián)合代表隊參加了單機(jī)舞蹈表演賽事,選用松延動力N2人形機(jī)器人[15],其身高1.2 m,體重30 kg,外形相對小巧,具18個自由度用于控制,每條手臂具4個自由度,每條腿具5個自由度,最大關(guān)節(jié)輸出扭矩可達(dá) 200 N·m。

為提升人形機(jī)器人在高動態(tài)、復(fù)雜全身舞蹈動作模仿與表演中的穩(wěn)定性,研究團(tuán)隊在對N2的英歌舞訓(xùn)練任務(wù)中引入PBHC方法,以彌合仿真到現(xiàn)實(shí)的差距。在此基礎(chǔ)上,研究團(tuán)隊提出的改進(jìn)框架(圖1)包含3個核心模塊:(1)使用動作捕捉提取和處理動作;(2)基于最佳追蹤因子的自適應(yīng)運(yùn)動追蹤;(3)強(qiáng)化學(xué)習(xí)訓(xùn)練框架和仿真到現(xiàn)實(shí)的部署。


圖1 總體框架圖

研究團(tuán)隊通過兩階段框架來應(yīng)對英歌舞中快速大幅運(yùn)動帶來的挑戰(zhàn)。(1)在運(yùn)動處理階段使用光學(xué)動作捕捉技術(shù)從演員舞蹈表演中提取動作,建立基于物理的指標(biāo)來評估人體模型的物理量,從而過濾超出人形機(jī)器人物理極限的運(yùn)動。之后,計算運(yùn)動的接觸掩碼(Contact Masks)進(jìn)行運(yùn)動校正,使用逆向運(yùn)動學(xué)(Inverse Kinematics, IK)將處理后的運(yùn)動重映射到人形機(jī)器人上。(2)在運(yùn)動模仿階段借鑒自適應(yīng)運(yùn)動追蹤機(jī)制通過追蹤因子調(diào)整追蹤獎勵,根據(jù)追蹤誤差調(diào)整追蹤因子以適應(yīng)不同的運(yùn)動。隨后,制定雙層優(yōu)化(Bi?level Optimization, BLO) [16]來推導(dǎo)最優(yōu)因子,并設(shè)計了一種自適應(yīng)更新規(guī)則,該規(guī)則在線估計追蹤誤差,在訓(xùn)練過程中動態(tài)優(yōu)化追蹤因子。

基于以上框架,研究團(tuán)隊設(shè)計了一種用于策略優(yōu)化的非對稱演員-評論家(Actor?Critic)架構(gòu)。演員(Actor)完全依賴于局部觀測,即決策時只使用人形機(jī)器人能實(shí)時感知到的局部傳感數(shù)據(jù),而不依賴于全局或額外信息,從而保證策略能在真實(shí)環(huán)境中落地;評論家(Critic)則采用了獎勵向量化技術(shù),利用特權(quán)信息來改進(jìn)值估計。另外,我們在此基礎(chǔ)上增加了對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機(jī)制。

3.2 驗(yàn)證實(shí)驗(yàn)

基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架驗(yàn)證實(shí)驗(yàn)選取廣東汕頭、潮州、揭陽、汕尾及福建漳州等地區(qū)的英歌舞作為研究對象,并對舞蹈動作進(jìn)行適當(dāng)改編。為保證動作數(shù)據(jù)的準(zhǔn)確性,邀請與人形機(jī)器人身高相近的演員完成表演,并利用光學(xué)動作捕捉技術(shù)采集相關(guān)數(shù)據(jù)(圖2)。隨后,對采集數(shù)據(jù)進(jìn)行濾波處理,并重定向至 N2骨架進(jìn)行可視化,以檢驗(yàn)其是否符合預(yù)期動作表現(xiàn);若結(jié)果不符合要求,則對動作進(jìn)行修正;若符合要求,則進(jìn)入強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)節(jié),并通過仿真模擬進(jìn)一步驗(yàn)證動作效果。若仿真結(jié)果仍未達(dá)到預(yù)期,則再次調(diào)整動作;若符合標(biāo)準(zhǔn),則開展人形機(jī)器人實(shí)機(jī)適配與驗(yàn)證。最終,經(jīng)多輪確認(rèn)與優(yōu)化,人形機(jī)器人能實(shí)現(xiàn)穩(wěn)定且富有表現(xiàn)力的舞蹈表演。


圖2 研究團(tuán)隊對英歌舞動作進(jìn)行簡化,通過光學(xué)動作捕捉技術(shù)進(jìn)行數(shù)據(jù)采集

具體訓(xùn)練流程(圖3)可概括為以下4個階段:(1)準(zhǔn)備階段,研究團(tuán)隊對英歌舞動作進(jìn)行簡化,并對人形機(jī)器人無法完成的部分進(jìn)行修改,最終設(shè)計出一段時長約 1 分 30 秒的動作序列;(2)仿真階段,在強(qiáng)化學(xué)習(xí)的物理仿真環(huán)境中對舞蹈動作及獎勵機(jī)制進(jìn)行建模,使人形機(jī)器人能在虛擬環(huán)境中逐步掌握英歌舞動作模式;(3)實(shí)機(jī)階段,將訓(xùn)練結(jié)果遷移至人形機(jī)器人進(jìn)行適配與驗(yàn)證;(4)優(yōu)化階段,在動作確認(rèn)無誤后,對整體動作序列進(jìn)行集中優(yōu)化。


圖3 人形機(jī)器人英歌舞訓(xùn)練流程

3.3 訓(xùn)練方法

(1)創(chuàng)建公式。研究團(tuán)隊將運(yùn)動模仿問題公式化為一個目標(biāo)條件強(qiáng)化學(xué)習(xí)問題,其數(shù)學(xué)建模為馬爾可夫決策過程,即:


M=(S, A, S
ref
,γ, r, P

式(1)中,

S
S
ref
分別表示人形機(jī)器人和參考運(yùn)動的狀態(tài)空間;
A
為人形機(jī)器人的動作空間;
為折扣因子(Discount Factor),用于控制未來獎勵的重要性,取值范圍為0<
r
是由運(yùn)動追蹤和正則化獎勵組成的混合獎勵函數(shù);
P
表示依賴于人形機(jī)器人形態(tài)和物理約束的狀態(tài)轉(zhuǎn)移函數(shù)。



(2)參考運(yùn)動處理。SMPL(Skinned Multi?Person Linear)模型[18]為人體運(yùn)動提供了一種通用表示形式。研究團(tuán)隊首先利用動作捕捉技術(shù)提取并處理動作數(shù)據(jù),并將其轉(zhuǎn)換為SMPL格式的運(yùn)動序列。隨后,通過逆向運(yùn)動學(xué)方法將該序列重新映射至N2,從而生成可用于運(yùn)動追蹤的參考動作。

(3)改進(jìn)PBHC方法。首先,生成的運(yùn)動序列通過基于物理的指標(biāo)進(jìn)行篩選;隨后,將精煉后的動作序列重映射至N2。在訓(xùn)練期間,利用接觸掩碼進(jìn)行落腳點(diǎn)的獎勵設(shè)計,幫助人形機(jī)器人學(xué)會在應(yīng)該落地的時刻落地,在應(yīng)該騰空的時刻保持騰空;最終得到的動作軌跡作為強(qiáng)化學(xué)習(xí)訓(xùn)練的參考,并部署于真實(shí)N2。在此過程中,額外引入了機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵,以提升表演的流暢性與穩(wěn)定性,并有效消除動作抖動、站立不穩(wěn)等不良狀態(tài)。

(4) 好奇心獎勵機(jī)制。為鼓勵人形機(jī)器人探索,多樣化技能的獲取需要人形機(jī)器人在不同關(guān)節(jié)角度空間中進(jìn)行充分試探。然而,簡單的預(yù)定義獎勵函數(shù)難以全面刻畫這種多樣性。因此,研究團(tuán)隊引入探索性好奇心獎勵,引導(dǎo)人形機(jī)器人自主探索未見的狀態(tài)-動作空間。具體而言,除了任務(wù)獎勵

r
,還將好奇心獎勵
r
c
融入價值函數(shù),以促進(jìn)更高效的探索與學(xué)習(xí)。



3.3.1 運(yùn)動處理路徑

在訓(xùn)練人形機(jī)器人表演英歌舞的過程中,研究團(tuán)隊提出了一條運(yùn)動處理路徑,用于提取和轉(zhuǎn)換舞蹈動作,以實(shí)現(xiàn)人形機(jī)器人的運(yùn)動追蹤。該路徑包括以下4個步驟,以確保生成的動作在物理上合理且能有效遷移至人形機(jī)器人平臺。

(1)采用光學(xué)動作捕捉技術(shù)采集舞蹈數(shù)據(jù)并轉(zhuǎn)換為SMPL格式

使用光學(xué)動作捕捉系統(tǒng)(Optical Motion Capture System)對舞者進(jìn)行全身三維動作數(shù)據(jù)采集。該系統(tǒng)通過在舞者身體關(guān)鍵部位布設(shè)反光標(biāo)記點(diǎn),并利用多臺高速相機(jī)同步追蹤這些標(biāo)記點(diǎn)的空間位置,獲得高精度的關(guān)節(jié)運(yùn)動軌跡。隨后,采用人體參數(shù)化模型 SMPL對捕捉到的動作數(shù)據(jù)進(jìn)行擬合與優(yōu)化,將離散的標(biāo)記點(diǎn)坐標(biāo)轉(zhuǎn)化為具有骨骼與表面網(wǎng)格結(jié)構(gòu)的統(tǒng)一運(yùn)動表示,最終得到 SMPL 格式的動作估計序列,為后續(xù)的物理過濾與人形機(jī)器人映射奠定基礎(chǔ)。

(2)基于物理學(xué)的運(yùn)動過濾

基于物理學(xué)的運(yùn)動過濾是指結(jié)合人形機(jī)器人自身的物理特性對動作捕捉數(shù)據(jù)進(jìn)行約束與調(diào)整,使其在物理上可執(zhí)行。該過程旨在消除不符合動力學(xué)規(guī)律的動作,如滑步、穿透、關(guān)節(jié)超限及力矩超限等。具體包括兩個環(huán)節(jié):其一,物理過濾,即通過檢測質(zhì)心(Center of Mass, CoM)與壓力中心(Center of Pressure, CoP)的距離,判斷并剔除不穩(wěn)定或不可實(shí)現(xiàn)的動作;其二,接觸修正,即識別腳部與地面的接觸點(diǎn),對漂浮或腳滑等不合理現(xiàn)象進(jìn)行校正,從而獲得物理上合理且可遷移的運(yùn)動數(shù)據(jù)。

(3)基于接觸感知的運(yùn)動校正


(4)運(yùn)動重定向

采用基于逆向運(yùn)動學(xué)的重定向方法,將處理后的 SMPL 格式動作映射至 N2的骨架結(jié)構(gòu)。該方法通過構(gòu)建一個可微分的優(yōu)化問題,在保證關(guān)節(jié)限制的前提下,使末端執(zhí)行器的運(yùn)動軌跡盡可能與參考動作對齊。具體流程(圖4)包括:首先,利用動作捕捉系統(tǒng)采集人類舞者的運(yùn)動數(shù)據(jù),并將其作為N2的參考運(yùn)動;其次,識別膝關(guān)節(jié)、肘關(guān)節(jié)等關(guān)鍵點(diǎn),并對源運(yùn)動進(jìn)行尺度變換以匹配人形機(jī)器人的體型比例;隨后,應(yīng)用逆向運(yùn)動學(xué)求解關(guān)節(jié)角度位置,實(shí)現(xiàn)動作的合理映射;最后,在仿真環(huán)境中播放生成的動作文件,以驗(yàn)證身體運(yùn)動的對稱性和執(zhí)行效果。


圖 4 從專家數(shù)據(jù)(左)運(yùn)動重定向到N2(右)

3.3.2 自適應(yīng)運(yùn)動追蹤

在PBHC中,獎勵函數(shù)采用指數(shù)形式的追蹤獎勵,由兩部分組成:(1)任務(wù)特定獎勵,用于強(qiáng)制追蹤參考運(yùn)動;(2)正則化獎勵,用于促進(jìn)整體動作的穩(wěn)定性和平滑性。其中,對齊關(guān)節(jié)狀態(tài)與剛體狀態(tài)的追蹤均采用指數(shù)形式,其獎勵函數(shù)定義為:


r(x
=exp(-x/σ
(6)

式(6)中,

表示追蹤誤差,
為追蹤因子,用于控制誤差容忍度。當(dāng)
遠(yuǎn)大于
的典型范圍時,獎勵接近1,且對誤差變化不敏感;當(dāng)
遠(yuǎn)小于
的典型范圍時,獎勵趨近于0,導(dǎo)致訓(xùn)練過于苛刻。合理選擇
可增強(qiáng)追蹤效果并提高精度。為確定最佳
,本文基于簡化的運(yùn)動追蹤模型展開分析。





圖5 自適應(yīng)機(jī)制中追蹤因子的閉環(huán)調(diào)整



3.3.3 非對稱演員-評論家RL訓(xùn)練框架


3.4 效果測試

人形機(jī)器人在現(xiàn)實(shí)環(huán)境中展現(xiàn)出的一系列高動態(tài)技能,驗(yàn)證了其在運(yùn)動控制與模仿學(xué)習(xí)方面的先進(jìn)能力。圖6中,人形機(jī)器人在現(xiàn)實(shí)場景中實(shí)現(xiàn)的步態(tài)與舞蹈動作,與模擬器中的圖像保持了高度一致性。例如,在英歌舞的代表性動作“轉(zhuǎn)槌花”的起勢環(huán)節(jié)中,由于N2的手腕結(jié)構(gòu)未配置電機(jī),無法完成槌棒在手中的內(nèi)旋動作,因此對該動作進(jìn)行了適當(dāng)簡化。具體而言,人形機(jī)器人雙手緊握英歌棒,由彎腰姿態(tài)過渡至直立:首先屈膝,下肢動作表現(xiàn)為左腳向上蹬、右腳向后抬,上肢同時完成右臂上舉;隨后動作交替進(jìn)行,即右腳向上蹬、左腳向后抬,同時左臂上舉。


圖6 N2在真實(shí)世界中穩(wěn)定地跳英歌舞(上),動作與模擬器中的圖像(下)高度一致

這一過程表明,人形機(jī)器人能夠?qū)W習(xí)包括英歌舞在內(nèi)的高動態(tài)、全身協(xié)調(diào)技能,而不僅局限于簡單的動作模仿。在訓(xùn)練與測試過程中,我們不斷對控制策略進(jìn)行優(yōu)化。例如,早期實(shí)驗(yàn)發(fā)現(xiàn)N2在執(zhí)行彎腰后退動作時無法抬腳,而表現(xiàn)為原地靜止。通過在訓(xùn)練框架中引入接觸掩碼,該問題得以解決。同時,我們還觀察到人形機(jī)器人在舞蹈表演中出現(xiàn)頻繁抖動。為此在訓(xùn)練框架中加入狀態(tài)估計器,顯著減少了抖動現(xiàn)象。

為進(jìn)一步評估所提出策略的追蹤性能,我們對英歌舞動作進(jìn)行了10次重復(fù)實(shí)驗(yàn),并基于機(jī)載傳感器數(shù)據(jù)計算相應(yīng)的性能指標(biāo)(機(jī)身位姿以及各關(guān)節(jié)的角度和速度)。實(shí)驗(yàn)結(jié)果顯示,現(xiàn)實(shí)環(huán)境中的評估指標(biāo)與在仿真平臺Isaac Gym中獲得的指標(biāo)高度一致,驗(yàn)證了訓(xùn)練框架在跨虛擬與現(xiàn)實(shí)場景中的有效性與穩(wěn)定性。

4總結(jié)與思考

研究團(tuán)隊在借鑒 PBHC 方法的基礎(chǔ)上,對舞蹈動作進(jìn)行了過濾與修正,并采用自適應(yīng)追蹤機(jī)制以動態(tài)調(diào)整誤差容忍度,從而改進(jìn)強(qiáng)化學(xué)習(xí)架構(gòu),以提升訓(xùn)練穩(wěn)定性并縮小從仿真到現(xiàn)實(shí)的差距。然而,在人形機(jī)器人舞蹈創(chuàng)作過程中,仍會遇到超出訓(xùn)練數(shù)據(jù)能力范圍以及從仿真到現(xiàn)實(shí)不一致等問題。例如,首次舞蹈數(shù)據(jù)采集的舞者為身高約 1.8 m的男性,其舞蹈動作在映射到身高僅 1.2 m的人形機(jī)器人時,由于結(jié)構(gòu)差異,導(dǎo)致其動作幅度與運(yùn)動方式與人類存在顯著偏差。當(dāng)演員動作幅度超出人形機(jī)器人可實(shí)現(xiàn)的運(yùn)動極限時,人形機(jī)器人容易出現(xiàn)抽搐、抖動等異常。為應(yīng)對這一問題,團(tuán)隊在第二次采集過程中選擇了身高約 1.4 m、與人形機(jī)器人尺寸更為接近的女性舞者,并針對人形機(jī)器人的機(jī)械結(jié)構(gòu)特性對動作進(jìn)行了適配性修改,從而取得了更為理想的效果。

這一實(shí)踐過程表明,舞蹈創(chuàng)作需要舞蹈編導(dǎo)與算法工程師的深度協(xié)同:舞蹈編導(dǎo)需深入理解人形機(jī)器人的機(jī)械構(gòu)造,以判斷動作的可被實(shí)現(xiàn)程度;算法工程師則需掌握舞蹈動作的細(xì)節(jié)特征。例如,英歌舞在最終實(shí)現(xiàn)過程中被拆分為三個片段,并在軟件中進(jìn)行編排與優(yōu)化,以確保舞蹈表演既符合技術(shù)可行性,又保持藝術(shù)感染力。與此同時,創(chuàng)作者還需進(jìn)一步思考,當(dāng)人類舞蹈動作被遷移到人形機(jī)器人時,哪些特質(zhì)會喪失,哪些意想不到的表現(xiàn)效果可能出現(xiàn),以及人形機(jī)器人是否具備發(fā)展出不完全依賴于模仿人類的獨(dú)特運(yùn)動風(fēng)格的潛力。

5結(jié)語

本文提出了一個人形機(jī)器人舞蹈動作學(xué)習(xí)框架,該框架參考了 PBHC方法,并在此基礎(chǔ)上引入了機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵。依托這一新型全身運(yùn)動控制強(qiáng)化學(xué)習(xí)框架,人形機(jī)器人在實(shí)際部署中展現(xiàn)出兼具運(yùn)動與藝術(shù)表現(xiàn)力的魯棒行為。在英歌舞實(shí)踐中,其動作精度得到了充分驗(yàn)證,并最終獲得2025世界人形機(jī)器人運(yùn)動會單機(jī)舞蹈類銀牌。這一成果推動了人形機(jī)器人運(yùn)動控制技術(shù)的邊界擴(kuò)展,為實(shí)現(xiàn)更敏捷、穩(wěn)定,強(qiáng)魯棒性的實(shí)際應(yīng)用奠定了基礎(chǔ)。然而,該方法當(dāng)前仍存在局限:首先,缺乏對環(huán)境的感知能力(如地形感知與避障),從而限制了其在非結(jié)構(gòu)化場景中的應(yīng)用;其次,每個策略均針對單一動作進(jìn)行訓(xùn)練,需要針對不同舞蹈創(chuàng)作進(jìn)行人類動作數(shù)據(jù)采集,并開展人類數(shù)據(jù)在人形機(jī)器人上的重定向,人形機(jī)器人訓(xùn)練、獎勵函數(shù)參數(shù)微調(diào)、部署這一系列冗雜繁瑣的流程。

目前,人形機(jī)器人舞蹈仍需大量人工編舞與編程才能實(shí)現(xiàn)。未來的研究方向應(yīng)聚焦于革新人機(jī)協(xié)作模式,即通過領(lǐng)域?qū)<姨峁┥倭?、直觀且精準(zhǔn)的指導(dǎo),結(jié)合人形機(jī)器人自身的先驗(yàn)知識,使其能夠快速習(xí)得新任務(wù),從而降低部署門檻。理想狀態(tài)下,人形機(jī)器人應(yīng)如同生物體一般,在整個生命周期中持續(xù)學(xué)習(xí)與適應(yīng),而非依賴一次性訓(xùn)練。此外,如何實(shí)現(xiàn)跨任務(wù)、跨環(huán)境甚至跨人形機(jī)器人平臺的高效技能遷移,以及如何賦予人形機(jī)器人即興舞蹈創(chuàng)作能力,仍是亟待解決的挑戰(zhàn)。可以預(yù)見,在不久的將來,圍繞人形機(jī)器人訓(xùn)練的安全、倫理、高效性與可持續(xù)性等問題也將逐步獲得有效應(yīng)對。隨著具身智能和機(jī)器人技術(shù)在運(yùn)動控制、環(huán)境感知和自主決策等方面的發(fā)展,人形機(jī)器人或?qū)⒊袚?dān)電影特技表演任務(wù),并擴(kuò)展電影拍攝的可能性。其不僅能在電影中完成人類演員難以勝任的高難度動作,還能在動態(tài)環(huán)境中保持穩(wěn)定性和安全性,或是在危險環(huán)境中進(jìn)行拍攝。此外,人形機(jī)器人與影視行業(yè)的深度融合還將催生新的商業(yè)模式和內(nèi)容創(chuàng)作生產(chǎn)方式。

參考文獻(xiàn)

(向下滑動閱讀)

[1] BERGEN B. 1. Embodiment[M]//DABROWSKA E, DIVJAK D. Handbook of Cognitive Linguistics. Berlin, München, Boston: De Gruyter Mouton, 2015: 10?30.

[2] PAOLO G, GONZALEZ-BILLANDON J, KéGL B. A call for embodied AI [EB/OL]. (2024?02?06)[2025?09?12]. https://arxiv.org/abs/2402.03824v4.

[3] GOSWAMI A, VADAKKEPAT P. Humanoid robotics: a reference[M]. Dordrecht: Springer, 2019.

[4] HUANG H, CUI W, ZHANG T, et al. Think on Your Feet: Seamless Transition Between Human?Like Locomotion in Response to Changing Commands[C]//2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025: 15965?15971. DOI:10.1109/icra55743.2025.11127948.

[5] GU Z, LI J, SHEN W, et al. Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning[EB/OL]. (2025?01?03)[2025?09?12]. https://arxiv.org/abs/2501.02116v2.

[6] XIE W, HAN J, ZHENG J, et al. KungfuBot: Physics?Based Humanoid Whole?Body Control for Learning Highly?Dynamic Skills[EB/OL]. (2025?06?15)[2025?09?12]. https://arxiv.org/abs/2506.12851v1.

[7] BARNES B. Are You Ready for Sentient Disney Robots? [EB/OL]. (2021?08?19) [2025?09?12] .https://www.nytimes.com/2021/08/19/business/media/disney-parks-robots.html.

[8] GRANDIA R, KNOOP E, HOPKINS M, et al. Design and Control of a Bipedal Robotic Character[C]//Robotics: Science and Systems XX. Robotics: Science and Systems Foundation, 2024.

[9] 搜狐. 王興興回應(yīng)爭議:格斗、跳舞的意義,具身智能并非“非人形不可”?[EB/OL].(2025?06?07) [2025?09?12] .https://www.sohu.com/a/902166736_476872.

[10] 李孟陽,武兵,李利娜,等.機(jī)器人模仿學(xué)習(xí)優(yōu)化方法研究[J/OL].機(jī)械設(shè)計與制造,1?5[2025?09?05].https://doi.org/10.19356/j.cnki.1001-3997.20250808.007.

[11] 苗中華,朱子煜,張偉,等.具身智能農(nóng)業(yè)機(jī)器人關(guān)鍵技術(shù)與發(fā)展趨勢[J].農(nóng)業(yè)機(jī)械學(xué)報,2025,56(09):212?239.

[12] 張超,白文松,杜歆,等.模仿學(xué)習(xí)綜述:傳統(tǒng)與新進(jìn)展[J].中國圖象圖形學(xué)報,2023,28(06):1585?1607.

[13] DE F A, MILANO M. Robotic Choreography Creation Through Symbolic AI Techniques[M]//Lecture Notes in Computer Science. Springer Nature Singapore, 2023: 346?351.

[14] LI R, YANG S, ROSS A D, et al. AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ [EB/OL]. (2021?01?21)[2025?09?12]. https://arxiv.org/abs/2101.08779v3.

[15] Noetix Robotics. 從N2的矯健身姿到E1的溫暖雙臂,松延動力雙子星以硬核科技重新定義“機(jī)器人伙伴”![EB/OL]. (2025?05?28) [2025?09?12]. https://noetixrobotics.com/newsInfo-46.html.

[16] ZHANG Y, KHANDURI P, TSAKNAKIS I, et al. An Introduction to Bilevel Optimization: Foundations and applications in signal processing and machine learning[J]. IEEE Signal Processing Magazine, 2024, 41(1): 38?59. DOI:10.1109/msp.2024.3358284.

[17] SCHULMAN J, WOLSKI F, DHARIWA P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017?07?20)[2025?09?12]. https://arxiv.org/abs/1707.06347v2.

[18] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: a skinned multi?person linear model [J]. ACM Transactions on Graphics, 2015, 34(6): 1?16. DOI:10.1145/2816795.2818013.

[19] TANG H, HOUTHOOFT R, FOOTE D, et al. : A Study of Count?Based Exploration for Deep Reinforcement Learning[EB/OL]. (2016?11?15)[2025?09?12]. https://arxiv.org/abs/1611.04717v3.

[20] XIE W, BAI C, SHI J, et al. Humanoid Whole?Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning[EB/OL]. (2025?02?24)[2025?09?12]. https://arxiv.org/abs/2502.17219v2.

[21] PENG B X, ABBEEL P, LEVINE S, et al. DeepMimic: Example?Guided Deep Reinforcement Learning of Physics?Based Character Skills[EB/OL]. (2018?04?08)[2025?09?12]. https://arxiv.org/abs/1804.02717v3.


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
愛因斯坦晚年為何研究神學(xué)?他發(fā)現(xiàn)了什么,讓他恐懼了 30 年?

愛因斯坦晚年為何研究神學(xué)?他發(fā)現(xiàn)了什么,讓他恐懼了 30 年?

Thurman在昆明
2026-03-08 22:30:48
“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

火山詩話
2026-02-26 09:41:57
中國古代歷史上“最?!钡牡胤礁顡?jù)勢力,傳承29世,割據(jù)724年!

中國古代歷史上“最?!钡牡胤礁顡?jù)勢力,傳承29世,割據(jù)724年!

小豫講故事
2026-03-07 06:00:06
勇士球迷叫你滾蛋?追夢怒懟:在我來勇士前 你們就是萬年輸家!

勇士球迷叫你滾蛋?追夢怒懟:在我來勇士前 你們就是萬年輸家!

818體育
2026-03-10 10:55:23
公婆搬我萬元年貨給小姑,除夕我只煮白粥,婆婆摔筷全家9口沉默

公婆搬我萬元年貨給小姑,除夕我只煮白粥,婆婆摔筷全家9口沉默

荷蘭豆愛健康
2026-03-10 10:48:25
滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

快看張同學(xué)
2026-03-10 10:38:25
住15樓總聽見樓上有搖椅響,物業(yè)一查:16樓根本沒賣出去!

住15樓總聽見樓上有搖椅響,物業(yè)一查:16樓根本沒賣出去!

王二哥老搞笑
2026-03-09 19:26:46
老好人主持被閏土記恨了

老好人主持被閏土記恨了

毒舌扒姨太
2026-03-09 22:58:07
上海主持人朱楨現(xiàn)狀:二婚和日語老師妻子生倆娃,47歲創(chuàng)業(yè)當(dāng)老板

上海主持人朱楨現(xiàn)狀:二婚和日語老師妻子生倆娃,47歲創(chuàng)業(yè)當(dāng)老板

白面書誏
2026-02-11 13:26:11
奉勸所有40到50歲后的中年人,只要不被開除,干到退休就是成功

奉勸所有40到50歲后的中年人,只要不被開除,干到退休就是成功

歲月有情1314
2026-03-03 14:49:44
隨著24歲小馬爾蒂尼發(fā)威+拉齊奧2-1,意甲最新積分榜出爐

隨著24歲小馬爾蒂尼發(fā)威+拉齊奧2-1,意甲最新積分榜出爐

側(cè)身凌空斬
2026-03-10 05:54:30
手機(jī)有沒有被監(jiān)聽?看一眼頂部狀態(tài)欄就清楚

手機(jī)有沒有被監(jiān)聽?看一眼頂部狀態(tài)欄就清楚

小柱解說游戲
2026-03-08 05:10:17
Ella西安演唱會“真空腹”火上熱搜,網(wǎng)友吵翻:自律or畸形審美?

Ella西安演唱會“真空腹”火上熱搜,網(wǎng)友吵翻:自律or畸形審美?

東方不敗然多多
2026-03-09 03:24:21
恭喜!中國斯諾克新銳獲世錦賽外卡,2將重返WST,1人曾輸白雨露

恭喜!中國斯諾克新銳獲世錦賽外卡,2將重返WST,1人曾輸白雨露

劉姚堯的文字城堡
2026-03-10 07:10:08
王俊杰發(fā)布長文:回首整個賽季感覺心酸;還沒思考好未來的路

王俊杰發(fā)布長文:回首整個賽季感覺心酸;還沒思考好未來的路

懂球帝
2026-03-10 00:50:13
你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛讀史
2026-01-22 18:21:09
我家每月水費(fèi)2900,我氣得直接關(guān)掉總閥門,第6天消防找上門

我家每月水費(fèi)2900,我氣得直接關(guān)掉總閥門,第6天消防找上門

小秋情感說
2026-03-10 09:08:20
首戰(zhàn)打贏日軍后,粟裕卻盯上一個細(xì)節(jié):鬼子的槍法為什么這么準(zhǔn)?

首戰(zhàn)打贏日軍后,粟裕卻盯上一個細(xì)節(jié):鬼子的槍法為什么這么準(zhǔn)?

歷史的煙火
2026-03-10 05:36:46
去過香港我才知道:大家不愛背斜挎包、雙肩包,滿大街都背這3個

去過香港我才知道:大家不愛背斜挎包、雙肩包,滿大街都背這3個

冒泡泡的魚兒
2026-03-09 12:07:09
德國人日常三餐曝光!6個習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

德國人日常三餐曝光!6個習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

路醫(yī)生健康科普
2026-03-04 12:30:03
2026-03-10 12:08:49
電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
647文章數(shù) 209關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

業(yè)主舉報違建次日接"鄰居"電話:連我媽在哪打拳都知道

頭條要聞

業(yè)主舉報違建次日接"鄰居"電話:連我媽在哪打拳都知道

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

時尚
本地
手機(jī)
健康
公開課

愛馬仕的暮色時分有多美?

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

手機(jī)要聞

知情人士:蘋果公司去年將印度的iPhone產(chǎn)量提高了約53% 印度產(chǎn)量的全球占比達(dá)到25%

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版