国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

王興興署名,宇樹機器人春晚后又進化:單個策略就能學習極限動作

0
分享至



編輯|Panda

春晚上,宇樹機器人的武術表演《武 BOT》給人留下了深刻印象。表演中,人形機器人 G1 和 H2 在快速奔跑中完成了穿插變陣和武術動作,展現(xiàn)出了高動態(tài)、高協(xié)同的全自主集群控制技術。



而現(xiàn)在,北京通用人工智能研究院(BIGAI)、宇樹、上海交通大學和中國科技大學等機構的一項新研究在這個方向上更推進了一步,提出了OmniXtreme第一個可以執(zhí)行各種極限動作的通用策略,包括連續(xù)翻轉(zhuǎn)、極限平衡,甚至可以通過快速接觸切換進行霹靂舞。



這種能力的實現(xiàn)過程首先是預訓練一個基于流的生成控制策略(flow-based generative control policy),然后針對復雜物理動力學進行「驅(qū)動感知殘差強化學習」(actuation-aware residual RL)的后訓練。其中后訓練這一步對于成功實現(xiàn)真實世界的遷移至關重要。

該項目的通訊作者之一、BIGAI 研究科學家 Siyuan Huang 在 X 上表示:「我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數(shù)十臺 G1 機器人之后,我們最終找到了學習和物理執(zhí)行能力方面的瓶頸!



值得注意的是,宇樹科技聯(lián)創(chuàng)和 CEO 王興興也在這篇論文的作者名單中。論文一作為 Yunshen Wang 和 Shaohang Zhu。



  • 論文地址:https://arxiv.org/abs/2602.23843
  • 項目地址:https://extreme-humanoid.github.io
  • 代碼地址:https://github.com/Perkins729/OmniXtreme

方法:打破高動態(tài)控制的泛化壁壘

在人形機器人的運動控制領域,研究人員長期面臨一個被稱為「泛化壁壘(generality barrier)」的困境。

當動作庫的規(guī)模和多樣性增加時,傳統(tǒng)的統(tǒng)一強化學習策略往往會遭遇性能崩潰,這在高動態(tài)動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸:仿真環(huán)境中的學習瓶頸(多動作優(yōu)化的梯度干擾)以及物理執(zhí)行瓶頸(真實世界復雜的驅(qū)動約束)。

為了從根本上解決這一問題,該研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅(qū)動的微調(diào)進行了巧妙的解耦,分為「基于流的可擴展預訓練」與「驅(qū)動感知的殘差后訓練」兩個核心階段。



階段一:基于流的可擴展預訓練

在第一階段,研究團隊的目標是賦予模型極高的表示容量,使其能夠掌握大量異構的極限動作,同時避免傳統(tǒng)多動作強化學習中常見的保守化平均傾向。

研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個高質(zhì)量動作數(shù)據(jù)集,并將其重定向至宇樹 G1 人形機器人上。

針對這些參考動作,團隊利用 PPO 算法訓練了一系列專家策略。隨后,OmniXtreme 采用了基于數(shù)據(jù)集聚合 (DAgger) 的知識蒸餾技術,將這些專家策略的行為統(tǒng)一融合到一個基于流匹配的生成式策略中。



在數(shù)學表達上,基于流的模型通過優(yōu)化以下目標函數(shù)來學習從純噪聲中恢復專家動作的過程 :



在上述公式中,a_t 表示在流時間步 t 下,專家動作 a_{expert} 與隨機噪聲 ε 之間的插值動作。該目標函數(shù)使得模型能夠?qū)W習到一個速度場 v_θ,從而在推理時通過正向歐拉積分生成高精度的連續(xù)控制動作。為了保證物理穩(wěn)定性,團隊在這一階段僅引入了適度的噪聲和域隨機化,確保策略能夠準確捕捉底層的物理動力學特征。

階段二:驅(qū)動感知的后訓練

預訓練得到的流匹配策略雖然在仿真中表現(xiàn)出了驚人的跟蹤精度,但現(xiàn)實世界中的電機非線性特性往往會導致這種高動態(tài)表現(xiàn)大打折扣。

為了實現(xiàn)平滑的「仿真到現(xiàn)實」遷移,團隊凍結了預訓練的基礎策略,并在其之上訓練了一個輕量級的 MLP 殘差策略。該殘差策略無需重新學習動作跟蹤,主要負責輸出修正動作以對抗真實的硬件約束。

為了讓殘差策略真正理解物理世界的殘酷,團隊在訓練環(huán)境中引入了三個層面的深度建模:

1. 激進的域隨機化

研究人員將初始姿態(tài)噪聲、外力干擾幅度、角速度等常見域隨機化參數(shù)的范圍大幅提升了最高 50%。更為關鍵的是,他們將終止閾值放寬了 1.5 倍(例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度)。這種設計給予了殘差策略充足的探索空間,使其能夠?qū)W會在大偏差狀態(tài)下進行極限挽救,極大地增強了系統(tǒng)的魯棒性。

2. 功率安全驅(qū)動正則化

執(zhí)行后空翻等高動態(tài)動作時,機器人會產(chǎn)生巨大的瞬態(tài)制動負載。常規(guī)的強化學習管線通常缺乏對此類負載的約束,從而極易在真實硬件上觸發(fā)過流保護或熱應力宕機。OmniXtreme 創(chuàng)新性地引入了針對機械功率的懲罰機制,其核心在于計算關節(jié)扭矩與角速度的乘積,即瞬時機械功率 P=τ?ω。

對于超出安全死區(qū)的高額負功率(再生制動),團隊應用了嚴格的二次懲罰函數(shù) :



在實際應用中,該懲罰項被重點施加于膝關節(jié),因為膝關節(jié)在沖擊與恢復階段最容易承受破壞性的制動負載。

3. 驅(qū)動感知的扭矩與速度約束

單純的扭矩截斷往往會忽略由反電動勢引起的與速度相關的物理限制。團隊將真實的電機運行包絡線直接集成到了仿真器中,定義了隨關節(jié)速度幅值單調(diào)遞減的容許扭矩函數(shù)。此外,系統(tǒng)還通過非線性摩擦項對執(zhí)行器級別的內(nèi)部損耗進行了建模 :



該公式精確捕捉了從靜摩擦到動摩擦的平滑過渡,并計算了與速度相關的耗散阻尼。

純機載的實時部署

在硬件部署方面,OmniXtreme 展現(xiàn)出了極高的工程完成度。

整個推理管線(包括基于正向運動學的狀態(tài)估計、流匹配基礎策略以及殘差策略)均使用 TensorRT 進行了深度優(yōu)化。在宇樹 G1 人形機器人的機載 NVIDIA Jetson Orin NX 平臺上,系統(tǒng)實現(xiàn)了約 10 ms 的端到端推理延遲,完美支持 50 Hz 的高頻閉環(huán)控制。

實驗表現(xiàn):全方位挑戰(zhàn)極限測試

為了全面評估 OmniXtreme 的可擴展性與魯棒性,研究團隊不僅使用了標準的 LAFAN1 動作庫,還精心挑選了約 60 個極具挑戰(zhàn)性的動作,構建了 XtremeMotion 評估集。這些動作包含了極高的角速度、頻繁的接觸切換以及嚴苛的時序約束。

可擴展的高保真跟蹤能力

在仿真環(huán)境中,OmniXtreme 與傳統(tǒng)的「從頭訓練多動作強化學習」基線模型以及「專家到統(tǒng)一 MLP 蒸餾」基線模型進行了直接對比。數(shù)據(jù)表明,OmniXtreme 在所有指標上均實現(xiàn)了碾壓。面對難度激增的 XtremeMotion 數(shù)據(jù)集,傳統(tǒng)方法的跟蹤誤差顯著增加,而 OmniXtreme 依舊維持了極低的運動學誤差和極高的成功率。



在現(xiàn)實世界的宇樹 G1 機器人上,團隊選取了 XtremeMotion 中的 24 個不同高動態(tài)動作進行了 157 次物理測試。測試涵蓋了后空翻、雜技、霹靂舞、武術等多個動作類別。



最終,OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中,后空翻類動作的成功率高達 96.36%,武術類動作達到 93.33%,霹靂舞類動作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現(xiàn)實鴻溝。

下面展示了一些示例:



托馬斯全旋、上旋、向前爬行和后空翻。



霹靂舞



武術

打破保真度與可擴展性的權衡

為了驗證系統(tǒng)是否打破了泛化壁壘,團隊設計了漸進式的壓力測試。他們將訓練動作集從 10 個逐步擴展到 20 個,最終擴展到 50 個,并使用固定的前 10 個動作進行統(tǒng)一評估。

實驗結果揭示了顯著的差異。隨著動作多樣性的增加,傳統(tǒng)從頭訓練的強化學習基線模型出現(xiàn)了嚴重的性能衰退,其成功率從 100% 暴跌至 83.3%,最終滑落至 73.9%。



相比之下,OmniXtreme 展現(xiàn)出了驚人的韌性,在 50 個動作的龐大訓練集下,其對核心動作的跟蹤成功率依然堅挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

模型規(guī)模的 Scaling Law

在人工智能的發(fā)展歷程中,增加模型參數(shù)量往往能帶來性能的飛躍,但這一規(guī)律在傳統(tǒng)的運動控制領域似乎失效了。團隊對比了不同參數(shù)規(guī)模(20M、50M、70M)的模型表現(xiàn)。



圖表數(shù)據(jù)清晰地顯示,傳統(tǒng)的 MLP 策略在擴大參數(shù)量后很快就陷入了性能飽和,跟蹤精度提升極其有限。

與之形成鮮明對比的是,基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數(shù)量向 70M 邁進,OmniXtreme 的跟蹤精度與魯棒性呈現(xiàn)出顯著且穩(wěn)定的線性增長。這說明生成式預訓練為人形機器人控制系統(tǒng)提供了一條切實可行的能力進化路徑。

現(xiàn)實世界執(zhí)行力的深度消融

究竟是哪些機制賦予了機器人如此強大的物理穩(wěn)健性?團隊通過消融實驗給出了答案。



對于具有強爆發(fā)力的翻騰動作(如后空翻),僅僅引入電機約束就足以保障穩(wěn)定執(zhí)行,因為這避免了底層硬件極限的瞬間崩潰。然而,對于包含高頻接觸轉(zhuǎn)換的霹靂舞動作,系統(tǒng)必須同時依賴電機約束與激進的域隨機化,才能在接觸擾動中維持時序敏感的平衡。

最嚴苛的挑戰(zhàn)來自于包含高速沖擊緩沖的雜技落地動作。團隊發(fā)現(xiàn),如果沒有功率安全正則化機制,即使模型在姿態(tài)上維持了平衡,也會因為電機瞬態(tài)制動導致過流或電池欠壓而宣告失敗。



這充分說明,真實世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。

https://x.com/siyuanhuang95/status/2028506522633073132

文中視頻鏈接:https://mp.weixin.qq.com/s/sdPTqRDlbd-cDmPwHbED3A

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬筱梅產(chǎn)后首露面!皮膚狀態(tài)好到發(fā)光,網(wǎng)友:這哪像剛生完娃!

馬筱梅產(chǎn)后首露面!皮膚狀態(tài)好到發(fā)光,網(wǎng)友:這哪像剛生完娃!

喜歡歷史的阿繁
2026-03-03 16:06:38
薛之謙好友曝張杰謝娜雙胞胎真相?孩子落戶上海是薛之謙幫忙搞定

薛之謙好友曝張杰謝娜雙胞胎真相?孩子落戶上海是薛之謙幫忙搞定

離離言幾許
2026-03-03 13:29:54
末節(jié)21罰對3罰。7倍差距。≮A的不好意思了.....

末節(jié)21罰對3罰!7倍差距!贏的不好意思了.....

柚子說球
2026-03-03 18:40:26
日本右翼嚇破膽,猛然驚醒:美以的開戰(zhàn)借口,中國完全能照搬!

日本右翼嚇破膽,猛然驚醒:美以的開戰(zhàn)借口,中國完全能照搬!

趣文說娛
2026-03-03 19:14:00
伊朗稱擊中了美空軍基地大樓

伊朗稱擊中了美空軍基地大樓

界面新聞
2026-03-03 12:13:18
北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

觀察鑒娛
2026-03-02 10:22:34
被炸死的內(nèi)賈德突然現(xiàn)身,特朗普放出了魔鬼

被炸死的內(nèi)賈德突然現(xiàn)身,特朗普放出了魔鬼

生活魔術專家
2026-03-03 01:37:43
這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時尚真看不懂

這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時尚真看不懂

洲洲影視娛評
2026-03-02 21:06:50
“不玩了”!3000萬!勇士這波要哭暈

“不玩了”!3000萬!勇士這波要哭暈

體育新角度
2026-03-03 16:05:41
票價漲9倍!脫衣舞和NBA結合!就是好使!

票價漲9倍!脫衣舞和NBA結合!就是好使!

柚子說球
2026-03-03 09:43:46
李莉評論區(qū)被沖,過往言論被反復吐槽,伊朗半小時滅以,回旋鏢!

李莉評論區(qū)被沖,過往言論被反復吐槽,伊朗半小時滅以,回旋鏢!

眼光很亮
2026-03-01 15:39:43
中東失控,世界把目光投向香港

中東失控,世界把目光投向香港

米宅海外
2026-03-03 08:05:09
貧窮限制了我的想象,中東戰(zhàn)火燃起,又炸出娛樂圈的一大波有錢人

貧窮限制了我的想象,中東戰(zhàn)火燃起,又炸出娛樂圈的一大波有錢人

魔都姐姐雜談
2026-03-03 10:25:53
遭受慘烈襲擊后,伊朗做了一件“史無前例”的事

遭受慘烈襲擊后,伊朗做了一件“史無前例”的事

環(huán)球時報國際
2026-03-02 23:59:38
問題很嚴重!男子把奧迪A6開進池塘,保險公司認定“故意”拒賠…

問題很嚴重!男子把奧迪A6開進池塘,保險公司認定“故意”拒賠…

火山詩話
2026-03-03 10:33:23
2026退稅正式開始!選對多退幾千元!

2026退稅正式開始!選對多退幾千元!

星哥說事
2026-03-02 19:13:22
飛天茅臺電商價重回1499元

飛天茅臺電商價重回1499元

大象新聞
2026-03-03 15:55:06
中緬互換領土,我國放棄2.7萬平方公里的江心坡,可抵百個香港島

中緬互換領土,我國放棄2.7萬平方公里的江心坡,可抵百個香港島

孔孔說體育
2026-03-03 13:09:26
才3月,今年最重頭的大戲就上演了

才3月,今年最重頭的大戲就上演了

獨立魚
2026-03-02 21:09:30
?什么叫特供?真是超出普通人的想象

?什么叫特供?真是超出普通人的想象

深度報
2026-02-28 22:23:31
2026-03-03 20:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12402文章數(shù) 142577關注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

有分析稱中方或采取更大膽行動宣示領土主張 中方回應

頭條要聞

有分析稱中方或采取更大膽行動宣示領土主張 中方回應

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

本地
手機
時尚
公開課
軍事航空

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

手機要聞

4499元買iPhone 17e到底值不值:屏幕刷新率仍用60Hz

普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:擊中美空軍基地大樓

無障礙瀏覽 進入關懷版