《現(xiàn)代電影技術(shù)》｜吳振等：基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架研究

2025-12-05 11:59:02　來源: 電影技術(shù)微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第11期

專家點(diǎn)評

具身智能人形機(jī)器人研究是當(dāng)前人工智能的前沿領(lǐng)域，旨在打造適配人類環(huán)境、能替代體力勞動的通用具身智能體，具有重要的理論意義和實(shí)際應(yīng)用價值。其核心技術(shù)涵蓋雙足動態(tài)運(yùn)動、全身協(xié)調(diào)控制、多模態(tài)感知融合以及高密度能源系統(tǒng)等，但動態(tài)穩(wěn)定性與動作協(xié)調(diào)性仍極具挑戰(zhàn)。近年來，舞蹈人形機(jī)器人逐漸進(jìn)入人們的視野，比如宇樹科技的舞蹈人形機(jī)器人Unitree H1在春節(jié)聯(lián)歡晚會完成了令人印象深刻的扭秧歌表演。與通用人形機(jī)器人相比，舞蹈人形機(jī)器人面臨更多的技術(shù)挑戰(zhàn)，比如音樂與動作的精準(zhǔn)同步；藝術(shù)性、表現(xiàn)力、情感傳達(dá)等。具身智能是人工智能領(lǐng)域非常活躍的一個重要分支，通過物理實(shí)體與環(huán)境實(shí)時交互，實(shí)現(xiàn)感知、認(rèn)知、決策和行動一體化?！痘诰呱碇悄艿奈璧溉诵螜C(jī)器人系統(tǒng)框架研究》一文提出一種基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架，通過多步運(yùn)動處理和自適應(yīng)運(yùn)動追蹤，增加對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機(jī)制訓(xùn)練人形機(jī)器人掌握復(fù)雜的英歌舞。該框架提升了機(jī)器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力，而且在舞蹈動作的穩(wěn)定性與自然性方面有一定的突破，為影視創(chuàng)作、藝術(shù)展演與人機(jī)交互等領(lǐng)域提供了新的技術(shù)手段。

—— 劉世光

教授

天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院博士生導(dǎo)師

【項(xiàng)目信息】2024年北京高等教育本科教學(xué)改革創(chuàng)新項(xiàng)目“人工智能編舞及其舞臺視覺設(shè)計方法研究”（0625013）。

作者簡介

吳振

王文強(qiáng)

北京舞蹈學(xué)院副教授，主要研究方向：藝術(shù)與科技。

松延動力（北京）科技有限公司算法副總裁，主要研究方向：機(jī)器人運(yùn)動控制。

崔文昊

覃幫羽

王文強(qiáng)

松延動力（北京）科技有限公司算法工程師，主要研究方向：機(jī)器人運(yùn)動控制。

北京舞蹈學(xué)院教授，主要研究方向：舞臺藝術(shù)設(shè)計。

周立新

摘要

基于具身智能的舞蹈人形機(jī)器人通過模仿人類動作掌握舞蹈技能，但即使經(jīng)過獎勵和課程設(shè)計，現(xiàn)有算法也僅能追蹤平滑、低速的人類運(yùn)動。本文提出一種舞蹈人形機(jī)器人系統(tǒng)框架，在基于物理的人形運(yùn)動控制（PBHC）方法基礎(chǔ)上，通過多步運(yùn)動處理和自適應(yīng)運(yùn)動追蹤，增加對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器（Estimator）和探索性好奇心獎勵（Curiosity Reward）機(jī)制，訓(xùn)練人形機(jī)器人掌握復(fù)雜的英歌舞。實(shí)驗(yàn)成功將動作數(shù)據(jù)部署到松延動力N2人形機(jī)器人上，N2在現(xiàn)實(shí)場景中展示的步態(tài)和舞蹈動作與模擬器中的圖像保持了高度一致性。研究表明，該框架不僅提升了機(jī)器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力，還在舞蹈動作的穩(wěn)定性與自然性方面取得了突破，為舞蹈機(jī)器人在影視創(chuàng)作、藝術(shù)展演與人機(jī)交互領(lǐng)域的應(yīng)用提供了新的技術(shù)路徑。

關(guān)鍵詞

具身智能；舞蹈；人形機(jī)器人；人形運(yùn)動控制

1引言

具身（Embodiment) 最初的概念是“身體對心靈有意義”，指支持感覺和運(yùn)動的物理身體[1]。具身智能(Embodied Intelligence, EI) 是人工智能（AI）的一個子領(lǐng)域，指專注于與物理環(huán)境交互的智能體，其通過物理實(shí)體與環(huán)境實(shí)時交互，實(shí)現(xiàn)感知、認(rèn)知、決策和行動一體化，即感覺運(yùn)動耦合和情境智能。與單純的被動觀察不同，EI智能體對其環(huán)境采取行動并從反應(yīng)中學(xué)習(xí)[2]。人形機(jī)器人通常被定義為具有人類外觀或擬人化特征的機(jī)器人[3]。憑借其類人的形態(tài)結(jié)構(gòu)，人形機(jī)器人被視為具身智能體的理想載體。然而，相較于四足機(jī)器人，人形機(jī)器人因重心較高、自由度更大以及體型更為龐大，在運(yùn)動技能學(xué)習(xí)與控制方面面臨更大挑戰(zhàn)[4]。本文所研究的人形機(jī)器人屬于智能型機(jī)器人，具備具身智能，能夠復(fù)制人類的形態(tài)與功能，并在執(zhí)行不同任務(wù)時模仿多樣化的人類行為[5]。隨著技術(shù)的進(jìn)步，機(jī)器人開始逐漸涉足如舞蹈表演這類更復(fù)雜和藝術(shù)化的任務(wù)，并有望作為“演員”參與電影表演，承擔(dān)部分特技動作，舞蹈人形機(jī)器人研究應(yīng)運(yùn)而生。

本文借鑒基于物理的人形運(yùn)動控制（Physics?Based Humanoid motion Control，PBHC）[6]方法，在該方法基礎(chǔ)上，加入機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器（Estimator），可有效解決人形機(jī)器人在舞蹈動作執(zhí)行過程中無法完成抬腿和劇烈抖動的技術(shù)難題；同時，通過在獎勵機(jī)制中引入探索性好奇心獎勵（Curiosity Reward），促進(jìn)人形機(jī)器人在訓(xùn)練過程中加速策略的探索，從而有效提升其對專家數(shù)據(jù)動作的學(xué)習(xí)能力。該框架應(yīng)用于松延動力（北京）科技有限公司（以下簡稱“松延動力”）N2人形機(jī)器人的訓(xùn)練與部署，使其通過模仿專業(yè)演員的表演動作具備了穩(wěn)定且富有表現(xiàn)力的舞蹈表演效果。

2研究背景

當(dāng)前，舞蹈人形機(jī)器人正逐漸成為展演領(lǐng)域的重要技術(shù)形態(tài)。2024年春節(jié)聯(lián)歡晚會上，宇樹 H1 機(jī)器人完成了扭秧歌表演；2025年8月于北京舉辦的2025世界人形機(jī)器人運(yùn)動會亦將機(jī)器人單機(jī)舞蹈與群舞項(xiàng)目納入正式賽事。追溯其歷史淵源，早在1952年，華特迪士尼公司即設(shè)立幻想工程（Imagineering）研發(fā)部門，并通過自動機(jī)（Automatronics）等系列計劃推動智能表演機(jī)器人研究，其中包括能夠替代人類完成高難度空中特技表演的“超級英雄特技”（Stuntronics）機(jī)器人[7]。此外，雙足機(jī)器人 Blue 已在游樂園環(huán)境中實(shí)現(xiàn)連續(xù) 10 小時無跌倒運(yùn)行，其兼具表現(xiàn)力動作與穩(wěn)定動態(tài)移動的技術(shù)特征，使其能夠與觀眾進(jìn)行有效交互[8]。

機(jī)器人學(xué)界普遍認(rèn)為，使機(jī)器人掌握更多動作能力對于推動該領(lǐng)域的發(fā)展具有重要意義[9]。自20世紀(jì)90年代以來，強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）與模仿學(xué)習(xí)（Imitation Learning, IL）已成為機(jī)器人研究中取得顯著成果的兩類主要機(jī)器學(xué)習(xí)（ML）方法[10]。其中，強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境交互來學(xué)習(xí)最優(yōu)決策策略的機(jī)器學(xué)習(xí)范式[11]，在以最少先驗(yàn)知識教授人形機(jī)器人基本運(yùn)動技能方面表現(xiàn)出突出的效果。然而，當(dāng)獎勵信號較弱時，探索過程往往會導(dǎo)致不自然的步態(tài)，從而引發(fā)高能耗與機(jī)械磨損，進(jìn)而對實(shí)際部署造成限制。模仿學(xué)習(xí)是一類通過模仿專家行為來訓(xùn)練智能體的機(jī)器學(xué)習(xí)方法[12]。其側(cè)重于從專家行為數(shù)據(jù)中提取有價值的信息〔本文利用動作捕捉（Motion Capture）技術(shù)獲取專家行為數(shù)據(jù)〕，并結(jié)合分類或回歸等機(jī)器學(xué)習(xí)技術(shù)對模型進(jìn)行訓(xùn)練，使其再現(xiàn)專家行為。模仿學(xué)習(xí)的主要優(yōu)勢在于數(shù)據(jù)效率較高，可充分利用已有專家行為數(shù)據(jù)，在有限樣本條件下快速獲得具備基本行為能力的模型，從而使機(jī)器人能夠較快掌握復(fù)雜動作。然而，其局限性在于高度依賴專家演示，且所學(xué)技能往往難以泛化至未包含于演示中的新情境。

與在游戲或動畫影像純數(shù)據(jù)虛擬環(huán)境中的模擬相比，機(jī)器人在物理世界中需要同時處理感知與行動問題，從而使任務(wù)復(fù)雜性顯著增加，并面臨具有本質(zhì)差異的挑戰(zhàn)。

強(qiáng)化學(xué)習(xí)在位移運(yùn)動（Locomotion）任務(wù)中，仿真訓(xùn)練和真實(shí)世界部署的最大差異主要體現(xiàn)在環(huán)境、硬件和訓(xùn)練部署3方面。在環(huán)境方面，仿真環(huán)境的物理屬性和干擾因素相對簡化且穩(wěn)定，而真實(shí)世界中物理參數(shù)復(fù)雜多變且存在大量不可預(yù)測的干擾。硬件方面，每臺真實(shí)機(jī)器人都存在制造誤差、零部件磨損以及傳感器精度受限等問題；而仿真環(huán)境中，每個零部件執(zhí)行期都是精密、準(zhǔn)確、零公差的，二者存在較大差異。在訓(xùn)練與部署上，仿真訓(xùn)練樣本效率高、試錯成本低，但策略直接遷移到真實(shí)世界時，由于環(huán)境和硬件差異，常面臨性能下降和仿真到現(xiàn)實(shí)差距（Sim?to?Real Gap）的挑戰(zhàn)。因此，在舞蹈人形機(jī)器人動作訓(xùn)練中，通常采用模仿學(xué)習(xí)的方法，并探索利用少量真實(shí)數(shù)據(jù)對仿真訓(xùn)練進(jìn)行校準(zhǔn)，以提升物理逼真度，縮小機(jī)器人在仿真與現(xiàn)實(shí)間的性能差距[13]。

近年來，動作捕捉系統(tǒng)與動作生成方法取得進(jìn)展， AIST++ 等涵蓋人類舞蹈并附帶文本描述的大規(guī)模舞蹈動作數(shù)據(jù)集的發(fā)布，使人形機(jī)器人在全身控制與復(fù)雜舞蹈模仿方面展現(xiàn)出廣闊的發(fā)展前景[14]。然而，該領(lǐng)域仍面臨多重挑戰(zhàn)：其一，傳統(tǒng)人形機(jī)器人訓(xùn)練方法雖能支持走路、揮手等低速、平滑動作的模仿，但在復(fù)雜高速舞蹈動作中效率較低，通常一次僅能穩(wěn)定訓(xùn)練約10 s甚至更短的動作片段；其二，人類演員的動作序列往往與人形機(jī)器人在關(guān)節(jié)約束、自由度（DoF）分布及動力學(xué)特性上存在差異，易出現(xiàn)違反關(guān)節(jié)或穩(wěn)定性約束的情況，導(dǎo)致物理維度的不可行，從而產(chǎn)生較大誤差、動作失敗乃至跌倒。此外，現(xiàn)有方法普遍缺乏自適應(yīng)的誤差容忍機(jī)制，進(jìn)一步限制了其在真實(shí)舞蹈表演場景中的應(yīng)用。

3基于具身智能的舞蹈人形機(jī)器人系統(tǒng)

3.1系統(tǒng)框架

在2025世界人形機(jī)器人運(yùn)動會上，北京舞蹈學(xué)院與松延動力組成聯(lián)合代表隊參加了單機(jī)舞蹈表演賽事，選用松延動力N2人形機(jī)器人[15]，其身高1.2 m，體重30 kg，外形相對小巧，具18個自由度用于控制，每條手臂具4個自由度，每條腿具5個自由度，最大關(guān)節(jié)輸出扭矩可達(dá) 200 N·m。

為提升人形機(jī)器人在高動態(tài)、復(fù)雜全身舞蹈動作模仿與表演中的穩(wěn)定性，研究團(tuán)隊在對N2的英歌舞訓(xùn)練任務(wù)中引入PBHC方法，以彌合仿真到現(xiàn)實(shí)的差距。在此基礎(chǔ)上，研究團(tuán)隊提出的改進(jìn)框架（圖1）包含3個核心模塊：（1）使用動作捕捉提取和處理動作；（2）基于最佳追蹤因子的自適應(yīng)運(yùn)動追蹤；（3）強(qiáng)化學(xué)習(xí)訓(xùn)練框架和仿真到現(xiàn)實(shí)的部署。

圖1　總體框架圖

研究團(tuán)隊通過兩階段框架來應(yīng)對英歌舞中快速大幅運(yùn)動帶來的挑戰(zhàn)。（1）在運(yùn)動處理階段使用光學(xué)動作捕捉技術(shù)從演員舞蹈表演中提取動作，建立基于物理的指標(biāo)來評估人體模型的物理量，從而過濾超出人形機(jī)器人物理極限的運(yùn)動。之后，計算運(yùn)動的接觸掩碼（Contact Masks）進(jìn)行運(yùn)動校正，使用逆向運(yùn)動學(xué)（Inverse Kinematics, IK）將處理后的運(yùn)動重映射到人形機(jī)器人上。（2）在運(yùn)動模仿階段借鑒自適應(yīng)運(yùn)動追蹤機(jī)制通過追蹤因子調(diào)整追蹤獎勵，根據(jù)追蹤誤差調(diào)整追蹤因子以適應(yīng)不同的運(yùn)動。隨后，制定雙層優(yōu)化(Bi?level Optimization, BLO) [16]來推導(dǎo)最優(yōu)因子，并設(shè)計了一種自適應(yīng)更新規(guī)則，該規(guī)則在線估計追蹤誤差，在訓(xùn)練過程中動態(tài)優(yōu)化追蹤因子。

基于以上框架，研究團(tuán)隊設(shè)計了一種用于策略優(yōu)化的非對稱演員-評論家（Actor?Critic）架構(gòu)。演員（Actor）完全依賴于局部觀測，即決策時只使用人形機(jī)器人能實(shí)時感知到的局部傳感數(shù)據(jù)，而不依賴于全局或額外信息，從而保證策略能在真實(shí)環(huán)境中落地；評論家（Critic）則采用了獎勵向量化技術(shù)，利用特權(quán)信息來改進(jìn)值估計。另外，我們在此基礎(chǔ)上增加了對機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機(jī)制。

3.2 驗(yàn)證實(shí)驗(yàn)

基于具身智能的舞蹈人形機(jī)器人系統(tǒng)框架驗(yàn)證實(shí)驗(yàn)選取廣東汕頭、潮州、揭陽、汕尾及福建漳州等地區(qū)的英歌舞作為研究對象，并對舞蹈動作進(jìn)行適當(dāng)改編。為保證動作數(shù)據(jù)的準(zhǔn)確性，邀請與人形機(jī)器人身高相近的演員完成表演，并利用光學(xué)動作捕捉技術(shù)采集相關(guān)數(shù)據(jù)（圖2）。隨后，對采集數(shù)據(jù)進(jìn)行濾波處理，并重定向至 N2骨架進(jìn)行可視化，以檢驗(yàn)其是否符合預(yù)期動作表現(xiàn)；若結(jié)果不符合要求，則對動作進(jìn)行修正；若符合要求，則進(jìn)入強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)節(jié)，并通過仿真模擬進(jìn)一步驗(yàn)證動作效果。若仿真結(jié)果仍未達(dá)到預(yù)期，則再次調(diào)整動作；若符合標(biāo)準(zhǔn)，則開展人形機(jī)器人實(shí)機(jī)適配與驗(yàn)證。最終，經(jīng)多輪確認(rèn)與優(yōu)化，人形機(jī)器人能實(shí)現(xiàn)穩(wěn)定且富有表現(xiàn)力的舞蹈表演。

圖2　研究團(tuán)隊對英歌舞動作進(jìn)行簡化，通過光學(xué)動作捕捉技術(shù)進(jìn)行數(shù)據(jù)采集

具體訓(xùn)練流程（圖3）可概括為以下4個階段：（1）準(zhǔn)備階段，研究團(tuán)隊對英歌舞動作進(jìn)行簡化，并對人形機(jī)器人無法完成的部分進(jìn)行修改，最終設(shè)計出一段時長約 1 分 30 秒的動作序列；（2）仿真階段，在強(qiáng)化學(xué)習(xí)的物理仿真環(huán)境中對舞蹈動作及獎勵機(jī)制進(jìn)行建模，使人形機(jī)器人能在虛擬環(huán)境中逐步掌握英歌舞動作模式；（3）實(shí)機(jī)階段，將訓(xùn)練結(jié)果遷移至人形機(jī)器人進(jìn)行適配與驗(yàn)證；（4）優(yōu)化階段，在動作確認(rèn)無誤后，對整體動作序列進(jìn)行集中優(yōu)化。

圖3　人形機(jī)器人英歌舞訓(xùn)練流程

3.3 訓(xùn)練方法

（1）創(chuàng)建公式。研究團(tuán)隊將運(yùn)動模仿問題公式化為一個目標(biāo)條件強(qiáng)化學(xué)習(xí)問題，其數(shù)學(xué)建模為馬爾可夫決策過程，即：

M=（S, A, S

ref

,γ, r, P

式（1）中，

S

ref

分別表示人形機(jī)器人和參考運(yùn)動的狀態(tài)空間；

A

為人形機(jī)器人的動作空間；

為折扣因子（Discount Factor），用于控制未來獎勵的重要性，取值范圍為0<

r

是由運(yùn)動追蹤和正則化獎勵組成的混合獎勵函數(shù)；

P

表示依賴于人形機(jī)器人形態(tài)和物理約束的狀態(tài)轉(zhuǎn)移函數(shù)。

（2）參考運(yùn)動處理。SMPL（Skinned Multi?Person Linear）模型[18]為人體運(yùn)動提供了一種通用表示形式。研究團(tuán)隊首先利用動作捕捉技術(shù)提取并處理動作數(shù)據(jù)，并將其轉(zhuǎn)換為SMPL格式的運(yùn)動序列。隨后，通過逆向運(yùn)動學(xué)方法將該序列重新映射至N2，從而生成可用于運(yùn)動追蹤的參考動作。

（3）改進(jìn)PBHC方法。首先，生成的運(yùn)動序列通過基于物理的指標(biāo)進(jìn)行篩選；隨后，將精煉后的動作序列重映射至N2。在訓(xùn)練期間，利用接觸掩碼進(jìn)行落腳點(diǎn)的獎勵設(shè)計，幫助人形機(jī)器人學(xué)會在應(yīng)該落地的時刻落地，在應(yīng)該騰空的時刻保持騰空；最終得到的動作軌跡作為強(qiáng)化學(xué)習(xí)訓(xùn)練的參考，并部署于真實(shí)N2。在此過程中，額外引入了機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵，以提升表演的流暢性與穩(wěn)定性，并有效消除動作抖動、站立不穩(wěn)等不良狀態(tài)。

（4）好奇心獎勵機(jī)制。為鼓勵人形機(jī)器人探索，多樣化技能的獲取需要人形機(jī)器人在不同關(guān)節(jié)角度空間中進(jìn)行充分試探。然而，簡單的預(yù)定義獎勵函數(shù)難以全面刻畫這種多樣性。因此，研究團(tuán)隊引入探索性好奇心獎勵，引導(dǎo)人形機(jī)器人自主探索未見的狀態(tài)-動作空間。具體而言，除了任務(wù)獎勵

r

，還將好奇心獎勵

r

c

融入價值函數(shù)，以促進(jìn)更高效的探索與學(xué)習(xí)。

3.3.1 運(yùn)動處理路徑

在訓(xùn)練人形機(jī)器人表演英歌舞的過程中，研究團(tuán)隊提出了一條運(yùn)動處理路徑，用于提取和轉(zhuǎn)換舞蹈動作，以實(shí)現(xiàn)人形機(jī)器人的運(yùn)動追蹤。該路徑包括以下4個步驟，以確保生成的動作在物理上合理且能有效遷移至人形機(jī)器人平臺。

（1）采用光學(xué)動作捕捉技術(shù)采集舞蹈數(shù)據(jù)并轉(zhuǎn)換為SMPL格式

使用光學(xué)動作捕捉系統(tǒng)（Optical Motion Capture System）對舞者進(jìn)行全身三維動作數(shù)據(jù)采集。該系統(tǒng)通過在舞者身體關(guān)鍵部位布設(shè)反光標(biāo)記點(diǎn)，并利用多臺高速相機(jī)同步追蹤這些標(biāo)記點(diǎn)的空間位置，獲得高精度的關(guān)節(jié)運(yùn)動軌跡。隨后，采用人體參數(shù)化模型 SMPL對捕捉到的動作數(shù)據(jù)進(jìn)行擬合與優(yōu)化，將離散的標(biāo)記點(diǎn)坐標(biāo)轉(zhuǎn)化為具有骨骼與表面網(wǎng)格結(jié)構(gòu)的統(tǒng)一運(yùn)動表示，最終得到 SMPL 格式的動作估計序列，為后續(xù)的物理過濾與人形機(jī)器人映射奠定基礎(chǔ)。

（2）基于物理學(xué)的運(yùn)動過濾

基于物理學(xué)的運(yùn)動過濾是指結(jié)合人形機(jī)器人自身的物理特性對動作捕捉數(shù)據(jù)進(jìn)行約束與調(diào)整，使其在物理上可執(zhí)行。該過程旨在消除不符合動力學(xué)規(guī)律的動作，如滑步、穿透、關(guān)節(jié)超限及力矩超限等。具體包括兩個環(huán)節(jié)：其一，物理過濾，即通過檢測質(zhì)心（Center of Mass, CoM）與壓力中心（Center of Pressure, CoP）的距離，判斷并剔除不穩(wěn)定或不可實(shí)現(xiàn)的動作；其二，接觸修正，即識別腳部與地面的接觸點(diǎn)，對漂浮或腳滑等不合理現(xiàn)象進(jìn)行校正，從而獲得物理上合理且可遷移的運(yùn)動數(shù)據(jù)。

（3）基于接觸感知的運(yùn)動校正

（4）運(yùn)動重定向

采用基于逆向運(yùn)動學(xué)的重定向方法，將處理后的 SMPL 格式動作映射至 N2的骨架結(jié)構(gòu)。該方法通過構(gòu)建一個可微分的優(yōu)化問題，在保證關(guān)節(jié)限制的前提下，使末端執(zhí)行器的運(yùn)動軌跡盡可能與參考動作對齊。具體流程（圖4）包括：首先，利用動作捕捉系統(tǒng)采集人類舞者的運(yùn)動數(shù)據(jù)，并將其作為N2的參考運(yùn)動；其次，識別膝關(guān)節(jié)、肘關(guān)節(jié)等關(guān)鍵點(diǎn)，并對源運(yùn)動進(jìn)行尺度變換以匹配人形機(jī)器人的體型比例；隨后，應(yīng)用逆向運(yùn)動學(xué)求解關(guān)節(jié)角度位置，實(shí)現(xiàn)動作的合理映射；最后，在仿真環(huán)境中播放生成的動作文件，以驗(yàn)證身體運(yùn)動的對稱性和執(zhí)行效果。

圖 4　從專家數(shù)據(jù)（左）運(yùn)動重定向到N2（右）

3.3.2 自適應(yīng)運(yùn)動追蹤

在PBHC中，獎勵函數(shù)采用指數(shù)形式的追蹤獎勵，由兩部分組成：（1）任務(wù)特定獎勵，用于強(qiáng)制追蹤參考運(yùn)動；（2）正則化獎勵，用于促進(jìn)整體動作的穩(wěn)定性和平滑性。其中，對齊關(guān)節(jié)狀態(tài)與剛體狀態(tài)的追蹤均采用指數(shù)形式，其獎勵函數(shù)定義為：

r（x

=exp（-x/σ

（6）

式（6）中，

表示追蹤誤差，

為追蹤因子，用于控制誤差容忍度。當(dāng)

遠(yuǎn)大于

的典型范圍時，獎勵接近1，且對誤差變化不敏感；當(dāng)

遠(yuǎn)小于

的典型范圍時，獎勵趨近于0，導(dǎo)致訓(xùn)練過于苛刻。合理選擇

可增強(qiáng)追蹤效果并提高精度。為確定最佳

，本文基于簡化的運(yùn)動追蹤模型展開分析。

圖5　自適應(yīng)機(jī)制中追蹤因子的閉環(huán)調(diào)整

3.3.3 非對稱演員-評論家RL訓(xùn)練框架

3.4 效果測試

人形機(jī)器人在現(xiàn)實(shí)環(huán)境中展現(xiàn)出的一系列高動態(tài)技能，驗(yàn)證了其在運(yùn)動控制與模仿學(xué)習(xí)方面的先進(jìn)能力。圖6中，人形機(jī)器人在現(xiàn)實(shí)場景中實(shí)現(xiàn)的步態(tài)與舞蹈動作，與模擬器中的圖像保持了高度一致性。例如，在英歌舞的代表性動作“轉(zhuǎn)槌花”的起勢環(huán)節(jié)中，由于N2的手腕結(jié)構(gòu)未配置電機(jī)，無法完成槌棒在手中的內(nèi)旋動作，因此對該動作進(jìn)行了適當(dāng)簡化。具體而言，人形機(jī)器人雙手緊握英歌棒，由彎腰姿態(tài)過渡至直立：首先屈膝，下肢動作表現(xiàn)為左腳向上蹬、右腳向后抬，上肢同時完成右臂上舉；隨后動作交替進(jìn)行，即右腳向上蹬、左腳向后抬，同時左臂上舉。

圖6　N2在真實(shí)世界中穩(wěn)定地跳英歌舞（上），動作與模擬器中的圖像（下）高度一致

這一過程表明，人形機(jī)器人能夠?qū)W習(xí)包括英歌舞在內(nèi)的高動態(tài)、全身協(xié)調(diào)技能，而不僅局限于簡單的動作模仿。在訓(xùn)練與測試過程中，我們不斷對控制策略進(jìn)行優(yōu)化。例如，早期實(shí)驗(yàn)發(fā)現(xiàn)N2在執(zhí)行彎腰后退動作時無法抬腳，而表現(xiàn)為原地靜止。通過在訓(xùn)練框架中引入接觸掩碼，該問題得以解決。同時，我們還觀察到人形機(jī)器人在舞蹈表演中出現(xiàn)頻繁抖動。為此在訓(xùn)練框架中加入狀態(tài)估計器，顯著減少了抖動現(xiàn)象。

為進(jìn)一步評估所提出策略的追蹤性能，我們對英歌舞動作進(jìn)行了10次重復(fù)實(shí)驗(yàn)，并基于機(jī)載傳感器數(shù)據(jù)計算相應(yīng)的性能指標(biāo)（機(jī)身位姿以及各關(guān)節(jié)的角度和速度）。實(shí)驗(yàn)結(jié)果顯示，現(xiàn)實(shí)環(huán)境中的評估指標(biāo)與在仿真平臺Isaac Gym中獲得的指標(biāo)高度一致，驗(yàn)證了訓(xùn)練框架在跨虛擬與現(xiàn)實(shí)場景中的有效性與穩(wěn)定性。

4總結(jié)與思考

研究團(tuán)隊在借鑒 PBHC 方法的基礎(chǔ)上，對舞蹈動作進(jìn)行了過濾與修正，并采用自適應(yīng)追蹤機(jī)制以動態(tài)調(diào)整誤差容忍度，從而改進(jìn)強(qiáng)化學(xué)習(xí)架構(gòu)，以提升訓(xùn)練穩(wěn)定性并縮小從仿真到現(xiàn)實(shí)的差距。然而，在人形機(jī)器人舞蹈創(chuàng)作過程中，仍會遇到超出訓(xùn)練數(shù)據(jù)能力范圍以及從仿真到現(xiàn)實(shí)不一致等問題。例如，首次舞蹈數(shù)據(jù)采集的舞者為身高約 1.8 m的男性，其舞蹈動作在映射到身高僅 1.2 m的人形機(jī)器人時，由于結(jié)構(gòu)差異，導(dǎo)致其動作幅度與運(yùn)動方式與人類存在顯著偏差。當(dāng)演員動作幅度超出人形機(jī)器人可實(shí)現(xiàn)的運(yùn)動極限時，人形機(jī)器人容易出現(xiàn)抽搐、抖動等異常。為應(yīng)對這一問題，團(tuán)隊在第二次采集過程中選擇了身高約 1.4 m、與人形機(jī)器人尺寸更為接近的女性舞者，并針對人形機(jī)器人的機(jī)械結(jié)構(gòu)特性對動作進(jìn)行了適配性修改，從而取得了更為理想的效果。

這一實(shí)踐過程表明，舞蹈創(chuàng)作需要舞蹈編導(dǎo)與算法工程師的深度協(xié)同：舞蹈編導(dǎo)需深入理解人形機(jī)器人的機(jī)械構(gòu)造，以判斷動作的可被實(shí)現(xiàn)程度；算法工程師則需掌握舞蹈動作的細(xì)節(jié)特征。例如，英歌舞在最終實(shí)現(xiàn)過程中被拆分為三個片段，并在軟件中進(jìn)行編排與優(yōu)化，以確保舞蹈表演既符合技術(shù)可行性，又保持藝術(shù)感染力。與此同時，創(chuàng)作者還需進(jìn)一步思考，當(dāng)人類舞蹈動作被遷移到人形機(jī)器人時，哪些特質(zhì)會喪失，哪些意想不到的表現(xiàn)效果可能出現(xiàn)，以及人形機(jī)器人是否具備發(fā)展出不完全依賴于模仿人類的獨(dú)特運(yùn)動風(fēng)格的潛力。

5結(jié)語

本文提出了一個人形機(jī)器人舞蹈動作學(xué)習(xí)框架，該框架參考了 PBHC方法，并在此基礎(chǔ)上引入了機(jī)身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵。依托這一新型全身運(yùn)動控制強(qiáng)化學(xué)習(xí)框架，人形機(jī)器人在實(shí)際部署中展現(xiàn)出兼具運(yùn)動與藝術(shù)表現(xiàn)力的魯棒行為。在英歌舞實(shí)踐中，其動作精度得到了充分驗(yàn)證，并最終獲得2025世界人形機(jī)器人運(yùn)動會單機(jī)舞蹈類銀牌。這一成果推動了人形機(jī)器人運(yùn)動控制技術(shù)的邊界擴(kuò)展，為實(shí)現(xiàn)更敏捷、穩(wěn)定，強(qiáng)魯棒性的實(shí)際應(yīng)用奠定了基礎(chǔ)。然而，該方法當(dāng)前仍存在局限：首先，缺乏對環(huán)境的感知能力（如地形感知與避障），從而限制了其在非結(jié)構(gòu)化場景中的應(yīng)用；其次，每個策略均針對單一動作進(jìn)行訓(xùn)練，需要針對不同舞蹈創(chuàng)作進(jìn)行人類動作數(shù)據(jù)采集，并開展人類數(shù)據(jù)在人形機(jī)器人上的重定向，人形機(jī)器人訓(xùn)練、獎勵函數(shù)參數(shù)微調(diào)、部署這一系列冗雜繁瑣的流程。

目前，人形機(jī)器人舞蹈仍需大量人工編舞與編程才能實(shí)現(xiàn)。未來的研究方向應(yīng)聚焦于革新人機(jī)協(xié)作模式，即通過領(lǐng)域?qū)＜姨峁┥倭?、直觀且精準(zhǔn)的指導(dǎo)，結(jié)合人形機(jī)器人自身的先驗(yàn)知識，使其能夠快速習(xí)得新任務(wù)，從而降低部署門檻。理想狀態(tài)下，人形機(jī)器人應(yīng)如同生物體一般，在整個生命周期中持續(xù)學(xué)習(xí)與適應(yīng)，而非依賴一次性訓(xùn)練。此外，如何實(shí)現(xiàn)跨任務(wù)、跨環(huán)境甚至跨人形機(jī)器人平臺的高效技能遷移，以及如何賦予人形機(jī)器人即興舞蹈創(chuàng)作能力，仍是亟待解決的挑戰(zhàn)。可以預(yù)見，在不久的將來，圍繞人形機(jī)器人訓(xùn)練的安全、倫理、高效性與可持續(xù)性等問題也將逐步獲得有效應(yīng)對。隨著具身智能和機(jī)器人技術(shù)在運(yùn)動控制、環(huán)境感知和自主決策等方面的發(fā)展，人形機(jī)器人或?qū)⒊袚?dān)電影特技表演任務(wù)，并擴(kuò)展電影拍攝的可能性。其不僅能在電影中完成人類演員難以勝任的高難度動作，還能在動態(tài)環(huán)境中保持穩(wěn)定性和安全性，或是在危險環(huán)境中進(jìn)行拍攝。此外，人形機(jī)器人與影視行業(yè)的深度融合還將催生新的商業(yè)模式和內(nèi)容創(chuàng)作生產(chǎn)方式。

參考文獻(xiàn)

（向下滑動閱讀）

[1] BERGEN B. 1. Embodiment[M]//DABROWSKA E, DIVJAK D. Handbook of Cognitive Linguistics. Berlin, München, Boston: De Gruyter Mouton, 2015: 10?30.

[2] PAOLO G, GONZALEZ-BILLANDON J, KéGL B. A call for embodied AI [EB/OL]. (2024?02?06)[2025?09?12]. https://arxiv.org/abs/2402.03824v4.

[3] GOSWAMI A, VADAKKEPAT P. Humanoid robotics: a reference[M]. Dordrecht: Springer, 2019.

[4] HUANG H, CUI W, ZHANG T, et al. Think on Your Feet: Seamless Transition Between Human?Like Locomotion in Response to Changing Commands[C]//2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025: 15965?15971. DOI:10.1109/icra55743.2025.11127948.

[5] GU Z, LI J, SHEN W, et al. Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning[EB/OL]. (2025?01?03)[2025?09?12]. https://arxiv.org/abs/2501.02116v2.

[6] XIE W, HAN J, ZHENG J, et al. KungfuBot: Physics?Based Humanoid Whole?Body Control for Learning Highly?Dynamic Skills[EB/OL]. (2025?06?15)[2025?09?12]. https://arxiv.org/abs/2506.12851v1.

[7] BARNES B. Are You Ready for Sentient Disney Robots? [EB/OL]. (2021?08?19) [2025?09?12] .https://www.nytimes.com/2021/08/19/business/media/disney-parks-robots.html.

[8] GRANDIA R, KNOOP E, HOPKINS M, et al. Design and Control of a Bipedal Robotic Character[C]//Robotics: Science and Systems XX. Robotics: Science and Systems Foundation, 2024.

[9] 搜狐. 王興興回應(yīng)爭議：格斗、跳舞的意義，具身智能并非“非人形不可”?[EB/OL].(2025?06?07) [2025?09?12] .https://www.sohu.com/a/902166736_476872.

[10] 李孟陽,武兵,李利娜,等.機(jī)器人模仿學(xué)習(xí)優(yōu)化方法研究[J/OL].機(jī)械設(shè)計與制造,1?5[2025?09?05].https://doi.org/10.19356/j.cnki.1001-3997.20250808.007.

[11] 苗中華,朱子煜,張偉,等.具身智能農(nóng)業(yè)機(jī)器人關(guān)鍵技術(shù)與發(fā)展趨勢[J].農(nóng)業(yè)機(jī)械學(xué)報,2025,56(09):212?239.

[12] 張超,白文松,杜歆,等.模仿學(xué)習(xí)綜述：傳統(tǒng)與新進(jìn)展[J].中國圖象圖形學(xué)報,2023,28(06):1585?1607.

[13] DE F A, MILANO M. Robotic Choreography Creation Through Symbolic AI Techniques[M]//Lecture Notes in Computer Science. Springer Nature Singapore, 2023: 346?351.

[14] LI R, YANG S, ROSS A D, et al. AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ [EB/OL]. (2021?01?21)[2025?09?12]. https://arxiv.org/abs/2101.08779v3.

[15] Noetix Robotics. 從N2的矯健身姿到E1的溫暖雙臂，松延動力雙子星以硬核科技重新定義“機(jī)器人伙伴”！[EB/OL]. (2025?05?28) [2025?09?12]. https://noetixrobotics.com/newsInfo-46.html.

[16] ZHANG Y, KHANDURI P, TSAKNAKIS I, et al. An Introduction to Bilevel Optimization: Foundations and applications in signal processing and machine learning[J]. IEEE Signal Processing Magazine, 2024, 41(1): 38?59. DOI:10.1109/msp.2024.3358284.

[17] SCHULMAN J, WOLSKI F, DHARIWA P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017?07?20)[2025?09?12]. https://arxiv.org/abs/1707.06347v2.

[18] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: a skinned multi?person linear model [J]. ACM Transactions on Graphics, 2015, 34(6): 1?16. DOI:10.1145/2816795.2818013.

[19] TANG H, HOUTHOOFT R, FOOTE D, et al. : A Study of Count?Based Exploration for Deep Reinforcement Learning[EB/OL]. (2016?11?15)[2025?09?12]. https://arxiv.org/abs/1611.04717v3.

[20] XIE W, BAI C, SHI J, et al. Humanoid Whole?Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning[EB/OL]. (2025?02?24)[2025?09?12]. https://arxiv.org/abs/2502.17219v2.

[21] PENG B X, ABBEEL P, LEVINE S, et al. DeepMimic: Example?Guided Deep Reinforcement Learning of Physics?Based Character Skills[EB/OL]. (2018?04?08)[2025?09?12]. https://arxiv.org/abs/1804.02717v3.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.