王興興署名，宇樹機器人春晚后又進化：單個策略就能學習極限動作

2026-03-03 15:29:45　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

春晚上，宇樹機器人的武術表演《武 BOT》給人留下了深刻印象。表演中，人形機器人 G1 和 H2 在快速奔跑中完成了穿插變陣和武術動作，展現(xiàn)出了高動態(tài)、高協(xié)同的全自主集群控制技術。

而現(xiàn)在，北京通用人工智能研究院（BIGAI）、宇樹、上海交通大學和中國科技大學等機構的一項新研究在這個方向上更推進了一步，提出了OmniXtreme第一個可以執(zhí)行各種極限動作的通用策略，包括連續(xù)翻轉(zhuǎn)、極限平衡，甚至可以通過快速接觸切換進行霹靂舞。

這種能力的實現(xiàn)過程首先是預訓練一個基于流的生成控制策略（flow-based generative control policy），然后針對復雜物理動力學進行「驅(qū)動感知殘差強化學習」（actuation-aware residual RL）的后訓練。其中后訓練這一步對于成功實現(xiàn)真實世界的遷移至關重要。

該項目的通訊作者之一、BIGAI 研究科學家 Siyuan Huang 在 X 上表示：「我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數(shù)十臺 G1 機器人之后，我們最終找到了學習和物理執(zhí)行能力方面的瓶頸�！�

值得注意的是，宇樹科技聯(lián)創(chuàng)和 CEO 王興興也在這篇論文的作者名單中。論文一作為 Yunshen Wang 和 Shaohang Zhu。

論文地址：https://arxiv.org/abs/2602.23843
項目地址：https://extreme-humanoid.github.io
代碼地址：https://github.com/Perkins729/OmniXtreme

方法：打破高動態(tài)控制的泛化壁壘

在人形機器人的運動控制領域，研究人員長期面臨一個被稱為「泛化壁壘（generality barrier）」的困境。

當動作庫的規(guī)模和多樣性增加時，傳統(tǒng)的統(tǒng)一強化學習策略往往會遭遇性能崩潰，這在高動態(tài)動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸：仿真環(huán)境中的學習瓶頸（多動作優(yōu)化的梯度干擾）以及物理執(zhí)行瓶頸（真實世界復雜的驅(qū)動約束）。

為了從根本上解決這一問題，該研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅(qū)動的微調(diào)進行了巧妙的解耦，分為「基于流的可擴展預訓練」與「驅(qū)動感知的殘差后訓練」兩個核心階段。

階段一：基于流的可擴展預訓練

在第一階段，研究團隊的目標是賦予模型極高的表示容量，使其能夠掌握大量異構的極限動作，同時避免傳統(tǒng)多動作強化學習中常見的保守化平均傾向。

研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個高質(zhì)量動作數(shù)據(jù)集，并將其重定向至宇樹 G1 人形機器人上。

針對這些參考動作，團隊利用 PPO 算法訓練了一系列專家策略。隨后，OmniXtreme 采用了基于數(shù)據(jù)集聚合 (DAgger) 的知識蒸餾技術，將這些專家策略的行為統(tǒng)一融合到一個基于流匹配的生成式策略中。

在數(shù)學表達上，基于流的模型通過優(yōu)化以下目標函數(shù)來學習從純噪聲中恢復專家動作的過程：

在上述公式中，a_t 表示在流時間步 t 下，專家動作 a_{expert} 與隨機噪聲 ε 之間的插值動作。該目標函數(shù)使得模型能夠?qū)W習到一個速度場 v_θ，從而在推理時通過正向歐拉積分生成高精度的連續(xù)控制動作。為了保證物理穩(wěn)定性，團隊在這一階段僅引入了適度的噪聲和域隨機化，確保策略能夠準確捕捉底層的物理動力學特征。

階段二：驅(qū)動感知的后訓練

預訓練得到的流匹配策略雖然在仿真中表現(xiàn)出了驚人的跟蹤精度，但現(xiàn)實世界中的電機非線性特性往往會導致這種高動態(tài)表現(xiàn)大打折扣。

為了實現(xiàn)平滑的「仿真到現(xiàn)實」遷移，團隊凍結了預訓練的基礎策略，并在其之上訓練了一個輕量級的 MLP 殘差策略。該殘差策略無需重新學習動作跟蹤，主要負責輸出修正動作以對抗真實的硬件約束。

為了讓殘差策略真正理解物理世界的殘酷，團隊在訓練環(huán)境中引入了三個層面的深度建模：

1. 激進的域隨機化

研究人員將初始姿態(tài)噪聲、外力干擾幅度、角速度等常見域隨機化參數(shù)的范圍大幅提升了最高 50%。更為關鍵的是，他們將終止閾值放寬了 1.5 倍（例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度）。這種設計給予了殘差策略充足的探索空間，使其能夠?qū)W會在大偏差狀態(tài)下進行極限挽救，極大地增強了系統(tǒng)的魯棒性。

2. 功率安全驅(qū)動正則化

執(zhí)行后空翻等高動態(tài)動作時，機器人會產(chǎn)生巨大的瞬態(tài)制動負載。常規(guī)的強化學習管線通常缺乏對此類負載的約束，從而極易在真實硬件上觸發(fā)過流保護或熱應力宕機。OmniXtreme 創(chuàng)新性地引入了針對機械功率的懲罰機制，其核心在于計算關節(jié)扭矩與角速度的乘積，即瞬時機械功率 P=τ?ω。

對于超出安全死區(qū)的高額負功率（再生制動），團隊應用了嚴格的二次懲罰函數(shù) ：

在實際應用中，該懲罰項被重點施加于膝關節(jié)，因為膝關節(jié)在沖擊與恢復階段最容易承受破壞性的制動負載。

3. 驅(qū)動感知的扭矩與速度約束

單純的扭矩截斷往往會忽略由反電動勢引起的與速度相關的物理限制。團隊將真實的電機運行包絡線直接集成到了仿真器中，定義了隨關節(jié)速度幅值單調(diào)遞減的容許扭矩函數(shù)。此外，系統(tǒng)還通過非線性摩擦項對執(zhí)行器級別的內(nèi)部損耗進行了建模：

該公式精確捕捉了從靜摩擦到動摩擦的平滑過渡，并計算了與速度相關的耗散阻尼。

純機載的實時部署

在硬件部署方面，OmniXtreme 展現(xiàn)出了極高的工程完成度。

整個推理管線（包括基于正向運動學的狀態(tài)估計、流匹配基礎策略以及殘差策略）均使用 TensorRT 進行了深度優(yōu)化。在宇樹 G1 人形機器人的機載 NVIDIA Jetson Orin NX 平臺上，系統(tǒng)實現(xiàn)了約 10 ms 的端到端推理延遲，完美支持 50 Hz 的高頻閉環(huán)控制。

實驗表現(xiàn)：全方位挑戰(zhàn)極限測試

為了全面評估 OmniXtreme 的可擴展性與魯棒性，研究團隊不僅使用了標準的 LAFAN1 動作庫，還精心挑選了約 60 個極具挑戰(zhàn)性的動作，構建了 XtremeMotion 評估集。這些動作包含了極高的角速度、頻繁的接觸切換以及嚴苛的時序約束。

可擴展的高保真跟蹤能力

在仿真環(huán)境中，OmniXtreme 與傳統(tǒng)的「從頭訓練多動作強化學習」基線模型以及「專家到統(tǒng)一 MLP 蒸餾」基線模型進行了直接對比。數(shù)據(jù)表明，OmniXtreme 在所有指標上均實現(xiàn)了碾壓。面對難度激增的 XtremeMotion 數(shù)據(jù)集，傳統(tǒng)方法的跟蹤誤差顯著增加，而 OmniXtreme 依舊維持了極低的運動學誤差和極高的成功率。

在現(xiàn)實世界的宇樹 G1 機器人上，團隊選取了 XtremeMotion 中的 24 個不同高動態(tài)動作進行了 157 次物理測試。測試涵蓋了后空翻、雜技、霹靂舞、武術等多個動作類別。

最終，OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中，后空翻類動作的成功率高達 96.36%，武術類動作達到 93.33%，霹靂舞類動作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現(xiàn)實鴻溝。

下面展示了一些示例：

托馬斯全旋、上旋、向前爬行和后空翻。

霹靂舞

武術

打破保真度與可擴展性的權衡

為了驗證系統(tǒng)是否打破了泛化壁壘，團隊設計了漸進式的壓力測試。他們將訓練動作集從 10 個逐步擴展到 20 個，最終擴展到 50 個，并使用固定的前 10 個動作進行統(tǒng)一評估。

實驗結果揭示了顯著的差異。隨著動作多樣性的增加，傳統(tǒng)從頭訓練的強化學習基線模型出現(xiàn)了嚴重的性能衰退，其成功率從 100% 暴跌至 83.3%，最終滑落至 73.9%。

相比之下，OmniXtreme 展現(xiàn)出了驚人的韌性，在 50 個動作的龐大訓練集下，其對核心動作的跟蹤成功率依然堅挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

模型規(guī)模的 Scaling Law

在人工智能的發(fā)展歷程中，增加模型參數(shù)量往往能帶來性能的飛躍，但這一規(guī)律在傳統(tǒng)的運動控制領域似乎失效了。團隊對比了不同參數(shù)規(guī)模（20M、50M、70M）的模型表現(xiàn)。

圖表數(shù)據(jù)清晰地顯示，傳統(tǒng)的 MLP 策略在擴大參數(shù)量后很快就陷入了性能飽和，跟蹤精度提升極其有限。

與之形成鮮明對比的是，基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數(shù)量向 70M 邁進，OmniXtreme 的跟蹤精度與魯棒性呈現(xiàn)出顯著且穩(wěn)定的線性增長。這說明生成式預訓練為人形機器人控制系統(tǒng)提供了一條切實可行的能力進化路徑。

現(xiàn)實世界執(zhí)行力的深度消融

究竟是哪些機制賦予了機器人如此強大的物理穩(wěn)健性？團隊通過消融實驗給出了答案。

對于具有強爆發(fā)力的翻騰動作（如后空翻），僅僅引入電機約束就足以保障穩(wěn)定執(zhí)行，因為這避免了底層硬件極限的瞬間崩潰。然而，對于包含高頻接觸轉(zhuǎn)換的霹靂舞動作，系統(tǒng)必須同時依賴電機約束與激進的域隨機化，才能在接觸擾動中維持時序敏感的平衡。

最嚴苛的挑戰(zhàn)來自于包含高速沖擊緩沖的雜技落地動作。團隊發(fā)現(xiàn)，如果沒有功率安全正則化機制，即使模型在姿態(tài)上維持了平衡，也會因為電機瞬態(tài)制動導致過流或電池欠壓而宣告失敗。

這充分說明，真實世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。

https://x.com/siyuanhuang95/status/2028506522633073132

文中視頻鏈接：https://mp.weixin.qq.com/s/sdPTqRDlbd-cDmPwHbED3A

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.