國地中心×北理工“龍馭”小腦模型發(fā)布：零樣本全身動態(tài)動作追蹤

2026-02-14 16:06:30　來源: 機器人大講堂

安徽舉報

分享至

國家地方共建人形機器人創(chuàng)新中心（以下簡稱“國地中心”）與北京理工大學聯(lián)合研發(fā)的人形機器人“身外化身”小腦模型——“龍馭”，目前已正式發(fā)布。

人形機器人“身外化身”通常是指，讓機器人實時復刻人體全身高動態(tài)動作。不同于傳統(tǒng)機器人的遙操作，僅在固定基座上復刻上肢準靜態(tài)動作，“身外化身”需要在控制全身更多自由度的基礎上兼顧本體的運動平衡，甚至包含騰空起跳等高動態(tài)運動與落地平衡，對機器人運控算法提出了極高的要求。

此次推出的“龍馭”小腦模型，僅需前期少量動作數(shù)據(jù)訓練，即可零樣本泛化至真實場景的實時動捕、視頻衍生動作及全身遙操作等多樣輸入，在實體人形機器人上成功跟蹤行走、奔跑、跳躍、舞蹈乃至武術等復雜技能，并包含抗擾動，摔倒自動恢復能力，具備可用、耐用、能用的業(yè)界領先身外化身系統(tǒng)技術特征和優(yōu)勢。

“龍馭”具備三大核心特點：

1. 胃口小——打破數(shù)據(jù)等于智能的傳統(tǒng)思維，利用模型設計精簡與訓練策略創(chuàng)新，僅需少量動作數(shù)據(jù)即可達到高泛化性能力；

2. 動作精——一絲不茍地復現(xiàn)人體快速、劇烈的運動，無論是奔跑、跳躍、武術招式，還是搬運物品，都能流暢跟隨；

3. 響應快——遇到碰撞或干擾時可自行調(diào)整恢復，即使摔倒，也能像人一樣迅速起身平衡。

基于“龍馭”小腦模型，我們致力于實現(xiàn)：

■ 遠程全身操控

不同于桌面遙操作，操作者可遠程操控機器人完成一系列需要全身協(xié)調(diào)的任務，例如工廠作業(yè)、遠程會議、養(yǎng)老看護、火災救援、危險排爆等，未來甚至可參與月球基地建設。

■ 機器人全身動作數(shù)據(jù)集

不同于現(xiàn)階段大部分專注上肢操作的數(shù)據(jù)集，結合真人全身操作與實機同步操作，“龍馭”可協(xié)助采集人體、機體同步的高質(zhì)量素材，幫助機器人智慧積累。

■ 打造全能“機器人小腦”

“龍馭”為機器人構建身體協(xié)調(diào)與控制的基礎能力，實時響應上層決策指令，為未來實現(xiàn)機器人高度自主行動奠定基礎。

01.

技術介紹

論文預印本：

https://arxiv.org/abs/2601.23080

網(wǎng)站：

https://zeonsunlightyu.github.io/RGMT.github.io/

02.

核心方法

“龍馭”小腦模型的核心方法由高質(zhì)量數(shù)據(jù)集構建與創(chuàng)新的策略架構兩部分組成，二者協(xié)同實現(xiàn)高效、魯棒的全身運動控制。

高質(zhì)量數(shù)據(jù)集構建

策略訓練基于一個約3.5小時的精煉運動數(shù)據(jù)集，其數(shù)據(jù)源選自LAFAN1與AMASS兩大動捕數(shù)據(jù)庫的精選子集，并利用通用運動重定向技術將全部動作序列適配至目標人形機器人模型。

針對原始動捕數(shù)據(jù)中普遍存在的冗余性、低質(zhì)量片段及接觸狀態(tài)不一致等問題，研究團隊實施了質(zhì)量控制流程，剔除了不可行與低質(zhì)量的運動序列。

這種以質(zhì)量為導向的構建策略至關重要，它避免了大規(guī)模原始數(shù)據(jù)中重復和低效片段對模型優(yōu)化的干擾，提供了更清晰、信息密度更高的監(jiān)督信號，從而提升了策略的泛化能力與閉環(huán)跟蹤精度。

控制框架創(chuàng)新

“龍馭”小腦模型采用了一種基于動態(tài)條件命令聚合的創(chuàng)新控制框架。該框架的核心是一個由因果歷史編碼器與多頭交叉注意力命令編碼器組成的策略網(wǎng)絡，通過注意力機制使策略能夠依據(jù)當前物理動態(tài)，有選擇地聚合并解讀上下文中的參考命令。

■ 觀察與動作空間

策略網(wǎng)絡的觀察輸入包含本體感覺（如機體坐標系下的重力投影、角速度、關節(jié)位置/速度偏差）和來自參考運動的命令（如基座線/角速度、重力方向、關節(jié)位置目標）。

策略網(wǎng)絡的輸出為殘差關節(jié)位置命令，該命令與參考關節(jié)位置相加后，通過PD控制器生成最終關節(jié)扭矩。這種殘差形式將探索錨定在參考姿態(tài)附近，提升了訓練效率與跟蹤精度。

■ 策略架構與訓練

歷史編碼器：輕量化的因果Transformer，用于處理近期的本體感覺序列，并通過逐元素最大池化聚合并提取出表征當前機器人動態(tài)的嵌入特征。

■ 命令編碼器

將歷史編碼器輸出的動態(tài)嵌入作為“查詢”，對上下文的參考命令窗口執(zhí)行多頭交叉注意力操作。這使得策略能夠根據(jù)當前物理狀態(tài)的可行性，以自適應的方式選擇出可靠的命令片段，并抑制存在的異常片段如噪聲、身體穿透或不一致接觸等。

得益于動態(tài)條件命令聚合機制對噪聲和異常命令的過濾能力，3.5小時的精煉數(shù)據(jù)集足以訓練出強大的策略網(wǎng)絡。該網(wǎng)絡不僅能在閉環(huán)執(zhí)行中保持穩(wěn)定，還能對全新的運動實現(xiàn)零樣本泛化。

性能評估

■ 基線對比

在基線對比實驗中，“龍馭”小腦模型采用的框架與當前的代表性框架Any2Track和GMT在相同數(shù)據(jù)集上進行了比較。評估涵蓋三種運動源：基于LAFAN1和AMASS的動捕數(shù)據(jù)、視頻衍生運動以及地面交互運動。

實驗結果表明，在所有數(shù)據(jù)子集上，該框架均取得了最高的任務成功率與最低的平均關節(jié)位置誤差。其中在視頻衍生運動上的性能提升尤為顯著，這證明了框架對參考運動分布偏移具備強大的適應能力。

■ 架構消融

策略架構消融實驗驗證了因果歷史編碼器與交叉注意力命令編碼器的關鍵作用。將因果歷史編碼器替換為CNN變體（Ours CNN HistEnc）會導致性能一致下降，而將交叉注意力命令編碼器改為自注意力變體（Ours SelfAttn CmdEnc）則引發(fā)更大幅度的性能劣化，特別是在視頻衍生與地面交互子集上。這凸顯了動態(tài)條件交叉注意力機制在分布偏移和命令噪聲下的核心價值。

03.

框架特性

■ 高動態(tài)運動泛化與跟蹤

實現(xiàn)高動態(tài)運動的精準、穩(wěn)定跟蹤，是人形機器人控制領域的一項核心挑戰(zhàn)。這類運動（如快速跑跳、武術踢打、Breaking舞蹈等）特點在于全身協(xié)調(diào)復雜、運動速度高，且伴隨著頻繁且劇烈的接觸狀態(tài)轉(zhuǎn)換。

傳統(tǒng)方法在此類場景下常面臨兩大難題：一是閉環(huán)執(zhí)行會放大參考動作中局部的缺陷或噪聲，導致機器人狀態(tài)漂移甚至失穩(wěn)；二是針對單一動作訓練的策略泛化能力差，無法適應多樣的、未經(jīng)事先訓練的運動模式。

本框架通過核心方法中所提到的動態(tài)條件命令聚合機制，為破解高動態(tài)運動跟蹤難題提供了通用解決方案。其核心在于，策略并非同等地選擇并執(zhí)行每一幀參考命令，而是依據(jù)機器人的實時本體感知，有選擇地參考與聚合上下文中的命令信息。

這種“條件化篩選”能力，使得框架在面對高動態(tài)、多接觸運動時，能顯著減少參考數(shù)據(jù)中噪聲和不一致性的影響，極大提升了閉環(huán)跟蹤的穩(wěn)定性。同時，正因為策略學會了依據(jù)物理可行性而非盲目跟隨參考信號，它獲得了強大的零樣本泛化能力——即使對于訓練數(shù)據(jù)中從未出現(xiàn)過的運動風格（如從網(wǎng)絡視頻中直接估計出的舞蹈動作），也能基于其內(nèi)在的動力學邏輯進行穩(wěn)健復現(xiàn)。

■ 集成倒地恢復

為實現(xiàn)人形機器人的可靠部署，研究團隊將自動倒地恢復能力集成至全身控制框架。該機制通過隨機恢復初始訓練環(huán)境與漸進式輔助力設計，使單一策略能夠自主應對失衡狀態(tài)，顯著提升系統(tǒng)在動態(tài)接觸場景下的安全性與連續(xù)性。

在訓練過程中，系統(tǒng)以15%的概率將并行環(huán)境設為恢復訓練環(huán)境，并在這些環(huán)境中將機器人重置至隨機生成的不穩(wěn)定姿態(tài)。這種隨機初始化使策略能夠廣泛接觸復雜環(huán)境與接觸條件，同時通過反復的“跌倒-站起”循環(huán)自然積累豐富的地面接觸經(jīng)驗，從而提升對復雜環(huán)境與過渡動作的跟蹤精度與泛化能力。

為提高訓練初期的探索效率，在恢復環(huán)境中施加幅度均勻采樣于[0, 200]范圍的向上牽引力，通過增加可恢復狀態(tài)的出現(xiàn)頻率加速策略學習。該輔助力隨訓練進程線性衰減至可忽略水平，確保最終策略僅依靠自身控制完成恢復動作。

在狀態(tài)終止機制方面，系統(tǒng)設定了基座姿態(tài)過度偏移、高度不足及關鍵身體鏈路高度異常等判據(jù)。特別針對恢復環(huán)境設置了3秒恢復窗口，在此時間內(nèi)暫停因不穩(wěn)定觸發(fā)的提前終止，允許策略在同一回合內(nèi)完成站起與重穩(wěn)定過程。若超時未恢復則終止回合，避免不可恢復狀態(tài)下的無效訓練，保障訓練效率。

這一設計使機器人能夠在發(fā)生跟蹤失敗或受外部擾動時，快速從倒地狀態(tài)自主恢復至穩(wěn)定站立姿態(tài)，為長期任務執(zhí)行提供了關鍵保障。

■ 多源輸入兼容性

本框架具備多源輸入的兼容性，能夠靈活處理從高精度動捕到便捷遙操作等多種類型的參考命令，展現(xiàn)出泛化與抗干擾能力。其支持的輸入模態(tài)、技術特點與性能表現(xiàn)如下表所示：

綜上所述，該框架能夠適應從離線高質(zhì)量數(shù)據(jù)到在線含噪聲輸入的多種信號源。無論是面對視頻估計的分布偏移、VR設備的傳感噪聲，還是運動合成產(chǎn)生的非連續(xù)命令，其動態(tài)條件命令聚合機制都能有效過濾異常，確保穩(wěn)定、精確的跟蹤。這種能力使其能夠無縫對接從專業(yè)動畫生成到便捷實時控制的各種上游系統(tǒng)，在實際部署中具有靈活性和魯棒性。

04.

實際應用

■ 數(shù)據(jù)采集

框架支持VR設備與專業(yè)動作捕捉服雙模式遙操作，這為采集多樣化、高質(zhì)量的機器人示范數(shù)據(jù)提供了靈活高效的解決方案。

VR設備：基于消費級硬件（如PICO），該系統(tǒng)部署便捷、成本相對較低。操作員通過頭顯與手柄進行直觀控制，能高效產(chǎn)生用于全身運動、交互任務的遙操作數(shù)據(jù)，適合快速構建大規(guī)?；A運動庫。

動作捕捉服：可提供更高精度、更專業(yè)的人體動作數(shù)據(jù)。它能精準捕捉操作員全身細微的運動姿態(tài)，適合采集高保真、高動態(tài)的復雜技能數(shù)據(jù)（如武術、舞蹈），為訓練高級別策略提供優(yōu)質(zhì)樣本。

這種雙模式設計使研究人員能根據(jù)數(shù)據(jù)精度、成本與場景需求，靈活選擇采集工具，高效構建用于訓練通用機器人策略的多模態(tài)數(shù)據(jù)集。

■ 集成全身VLA模型

該框架可作為底層運動模型，與上層的全身VLA模型集成，共同實現(xiàn)復雜的具身任務，如物流搬運等。

在此協(xié)作架構中：

全身VLA模型擔任“大腦”，負責解析“請將那個藍色箱子搬到門口”的自然語言指令，結合攝像頭視覺，理解任務目標、識別物體位置，并規(guī)劃出需要執(zhí)行的高級動作序列（如“走近箱子”、“蹲下”、“抓取”、“轉(zhuǎn)身”、“走向門口”、“放下”）。

本框架擔任“小腦”，接收VLA模型生成的抽象動作軌跡（如目標基座位移、末端執(zhí)行器位姿），并將其轉(zhuǎn)換為穩(wěn)定、魯棒、適應實際物理環(huán)境的全身關節(jié)運動。在搬運過程中，它能自主維持身體平衡，抵抗箱體重心變化帶來的擾動，在遇到地面不平時調(diào)整步態(tài)，甚至能在意外滑倒時自主恢復并繼續(xù)任務。

未來的“機器人小腦”已上線，全身操控玩到爽！歡迎圍觀，攜手搞事情！來解鎖專屬你的機器人小腦和海量動作數(shù)據(jù)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.