国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

王興興署名,宇樹(shù)機(jī)器人春晚之后又進(jìn)化了:?jiǎn)蝹€(gè)策略就能學(xué)習(xí)各種極限動(dòng)作

0
分享至

春晚上,《武 BOT》給人留下了深刻印象。表演中,人形機(jī)器人 G1 和 H2 在快速奔跑中完成了穿插變陣和武術(shù)動(dòng)作,展現(xiàn)出了高動(dòng)態(tài)、高協(xié)同的全自主集群控制技術(shù)。


而現(xiàn)在,北京通用人工智能研究院(BIGAI)、宇樹(shù)、上海交通大學(xué)和中國(guó)科技大學(xué)等機(jī)構(gòu)的一項(xiàng)新研究在這個(gè)方向上更推進(jìn)了一步,提出了OmniXtreme第一個(gè)可以執(zhí)行各種極限動(dòng)作的通用策略,包括連續(xù)翻轉(zhuǎn)、極限平衡,甚至可以通過(guò)快速接觸切換進(jìn)行霹靂舞。

這種能力的實(shí)現(xiàn)過(guò)程首先是預(yù)訓(xùn)練一個(gè)基于流的生成控制策略(flow-based generative control policy),然后針對(duì)復(fù)雜物理動(dòng)力學(xué)進(jìn)行「驅(qū)動(dòng)感知?dú)埐顝?qiáng)化學(xué)習(xí)」(actuation-aware residual RL)的后訓(xùn)練。其中后訓(xùn)練這一步對(duì)于成功實(shí)現(xiàn)真實(shí)世界的遷移至關(guān)重要。

該項(xiàng)目的通訊作者之一、BIGAI 研究科學(xué)家 Siyuan Huang 在 X 上表示:「我們花了一整年時(shí)間深入研究通用跟蹤和極端物理行為之間的障礙。在測(cè)試了數(shù)十臺(tái) G1 機(jī)器人之后,我們最終找到了學(xué)習(xí)和物理執(zhí)行能力方面的瓶頸?!?/p>


值得注意的是,宇樹(shù)科技聯(lián)創(chuàng)和 CEO 王興興也在這篇論文的作者名單中。論文一作為 Yunshen Wang 和 Shaohang Zhu。


論文地址:https://arxiv.org/abs/2602.23843

項(xiàng)目地址:https://extreme-humanoid.github.io

代碼地址:https://github.com/Perkins729/OmniXtreme

方法:打破高動(dòng)態(tài)控制的泛化壁壘

在人形機(jī)器人的運(yùn)動(dòng)控制領(lǐng)域,研究人員長(zhǎng)期面臨一個(gè)被稱為「泛化壁壘(generality barrier)」的困境。

當(dāng)動(dòng)作庫(kù)的規(guī)模和多樣性增加時(shí),傳統(tǒng)的統(tǒng)一強(qiáng)化學(xué)習(xí)策略往往會(huì)遭遇性能崩潰,這在高動(dòng)態(tài)動(dòng)作的物理部署中尤為明顯。這種崩潰源于兩個(gè)相互疊加的瓶頸:仿真環(huán)境中的學(xué)習(xí)瓶頸(多動(dòng)作優(yōu)化的梯度干擾)以及物理執(zhí)行瓶頸(真實(shí)世界復(fù)雜的驅(qū)動(dòng)約束)。

為了從根本上解決這一問(wèn)題,該研究團(tuán)隊(duì)提出了OmniXtreme框架。該框架將動(dòng)作技能的學(xué)習(xí)與物理驅(qū)動(dòng)的微調(diào)進(jìn)行了巧妙的解耦,分為「基于流的可擴(kuò)展預(yù)訓(xùn)練」與「驅(qū)動(dòng)感知的殘差后訓(xùn)練」兩個(gè)核心階段。



階段一:基于流的可擴(kuò)展預(yù)訓(xùn)練

在第一階段,研究團(tuán)隊(duì)的目標(biāo)是賦予模型極高的表示容量,使其能夠掌握大量異構(gòu)的極限動(dòng)作,同時(shí)避免傳統(tǒng)多動(dòng)作強(qiáng)化學(xué)習(xí)中常見(jiàn)的保守化平均傾向。

研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個(gè)高質(zhì)量動(dòng)作數(shù)據(jù)集,并將其重定向至宇樹(shù) G1 人形機(jī)器人上。

針對(duì)這些參考動(dòng)作,團(tuán)隊(duì)利用 PPO 算法訓(xùn)練了一系列專家策略。隨后,OmniXtreme 采用了基于數(shù)據(jù)集聚合 (DAgger) 的知識(shí)蒸餾技術(shù),將這些專家策略的行為統(tǒng)一融合到一個(gè)基于流匹配的生成式策略中。


在數(shù)學(xué)表達(dá)上,基于流的模型通過(guò)優(yōu)化以下目標(biāo)函數(shù)來(lái)學(xué)習(xí)從純?cè)肼曋谢謴?fù)專家動(dòng)作的過(guò)程 :

在上述公式中,a_t 表示在流時(shí)間步 t 下,專家動(dòng)作 a_{expert} 與隨機(jī)噪聲 ε 之間的插值動(dòng)作。該目標(biāo)函數(shù)使得模型能夠?qū)W習(xí)到一個(gè)速度場(chǎng) v_θ,從而在推理時(shí)通過(guò)正向歐拉積分生成高精度的連續(xù)控制動(dòng)作。為了保證物理穩(wěn)定性,團(tuán)隊(duì)在這一階段僅引入了適度的噪聲和域隨機(jī)化,確保策略能夠準(zhǔn)確捕捉底層的物理動(dòng)力學(xué)特征。

階段二:驅(qū)動(dòng)感知的后訓(xùn)練

預(yù)訓(xùn)練得到的流匹配策略雖然在仿真中表現(xiàn)出了驚人的跟蹤精度,但現(xiàn)實(shí)世界中的電機(jī)非線性特性往往會(huì)導(dǎo)致這種高動(dòng)態(tài)表現(xiàn)大打折扣。

為了實(shí)現(xiàn)平滑的「仿真到現(xiàn)實(shí)」遷移,團(tuán)隊(duì)凍結(jié)了預(yù)訓(xùn)練的基礎(chǔ)策略,并在其之上訓(xùn)練了一個(gè)輕量級(jí)的 MLP 殘差策略。該殘差策略無(wú)需重新學(xué)習(xí)動(dòng)作跟蹤,主要負(fù)責(zé)輸出修正動(dòng)作以對(duì)抗真實(shí)的硬件約束。

為了讓殘差策略真正理解物理世界的殘酷,團(tuán)隊(duì)在訓(xùn)練環(huán)境中引入了三個(gè)層面的深度建模:

1. 激進(jìn)的域隨機(jī)化

研究人員將初始姿態(tài)噪聲、外力干擾幅度、角速度等常見(jiàn)域隨機(jī)化參數(shù)的范圍大幅提升了最高 50%。更為關(guān)鍵的是,他們將終止閾值放寬了 1.5 倍(例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度)。這種設(shè)計(jì)給予了殘差策略充足的探索空間,使其能夠?qū)W會(huì)在大偏差狀態(tài)下進(jìn)行極限挽救,極大地增強(qiáng)了系統(tǒng)的魯棒性。

2. 功率安全驅(qū)動(dòng)正則化

執(zhí)行后空翻等高動(dòng)態(tài)動(dòng)作時(shí),機(jī)器人會(huì)產(chǎn)生巨大的瞬態(tài)制動(dòng)負(fù)載。常規(guī)的強(qiáng)化學(xué)習(xí)管線通常缺乏對(duì)此類負(fù)載的約束,從而極易在真實(shí)硬件上觸發(fā)過(guò)流保護(hù)或熱應(yīng)力宕機(jī)。OmniXtreme 創(chuàng)新性地引入了針對(duì)機(jī)械功率的懲罰機(jī)制,其核心在于計(jì)算關(guān)節(jié)扭矩與角速度的乘積,即瞬時(shí)機(jī)械功率 P=τ?ω。

對(duì)于超出安全死區(qū)的高額負(fù)功率(再生制動(dòng)),團(tuán)隊(duì)?wèi)?yīng)用了嚴(yán)格的二次懲罰函數(shù) :


在實(shí)際應(yīng)用中,該懲罰項(xiàng)被重點(diǎn)施加于膝關(guān)節(jié),因?yàn)橄リP(guān)節(jié)在沖擊與恢復(fù)階段最容易承受破壞性的制動(dòng)負(fù)載。

3. 驅(qū)動(dòng)感知的扭矩與速度約束

單純的扭矩截?cái)嗤鶗?huì)忽略由反電動(dòng)勢(shì)引起的與速度相關(guān)的物理限制。團(tuán)隊(duì)將真實(shí)的電機(jī)運(yùn)行包絡(luò)線直接集成到了仿真器中,定義了隨關(guān)節(jié)速度幅值單調(diào)遞減的容許扭矩函數(shù)。此外,系統(tǒng)還通過(guò)非線性摩擦項(xiàng)對(duì)執(zhí)行器級(jí)別的內(nèi)部損耗進(jìn)行了建模 :


該公式精確捕捉了從靜摩擦到動(dòng)摩擦的平滑過(guò)渡,并計(jì)算了與速度相關(guān)的耗散阻尼。

純機(jī)載的實(shí)時(shí)部署

在硬件部署方面,OmniXtreme 展現(xiàn)出了極高的工程完成度。

整個(gè)推理管線(包括基于正向運(yùn)動(dòng)學(xué)的狀態(tài)估計(jì)、流匹配基礎(chǔ)策略以及殘差策略)均使用 TensorRT 進(jìn)行了深度優(yōu)化。在宇樹(shù) G1 人形機(jī)器人的機(jī)載 NVIDIA Jetson Orin NX 平臺(tái)上,系統(tǒng)實(shí)現(xiàn)了約 10 ms 的端到端推理延遲,完美支持 50 Hz 的高頻閉環(huán)控制。

實(shí)驗(yàn)表現(xiàn):全方位挑戰(zhàn)極限測(cè)試

為了全面評(píng)估 OmniXtreme 的可擴(kuò)展性與魯棒性,研究團(tuán)隊(duì)不僅使用了標(biāo)準(zhǔn)的 LAFAN1 動(dòng)作庫(kù),還精心挑選了約 60 個(gè)極具挑戰(zhàn)性的動(dòng)作,構(gòu)建了 XtremeMotion 評(píng)估集。這些動(dòng)作包含了極高的角速度、頻繁的接觸切換以及嚴(yán)苛的時(shí)序約束。

可擴(kuò)展的高保真跟蹤能力

在仿真環(huán)境中,OmniXtreme 與傳統(tǒng)的「從頭訓(xùn)練多動(dòng)作強(qiáng)化學(xué)習(xí)」基線模型以及「專家到統(tǒng)一 MLP 蒸餾」基線模型進(jìn)行了直接對(duì)比。數(shù)據(jù)表明,OmniXtreme 在所有指標(biāo)上均實(shí)現(xiàn)了碾壓。面對(duì)難度激增的 XtremeMotion 數(shù)據(jù)集,傳統(tǒng)方法的跟蹤誤差顯著增加,而 OmniXtreme 依舊維持了極低的運(yùn)動(dòng)學(xué)誤差和極高的成功率。


在現(xiàn)實(shí)世界的宇樹(shù) G1 機(jī)器人上,團(tuán)隊(duì)選取了 XtremeMotion 中的 24 個(gè)不同高動(dòng)態(tài)動(dòng)作進(jìn)行了 157 次物理測(cè)試。測(cè)試涵蓋了后空翻、雜技、霹靂舞、武術(shù)等多個(gè)動(dòng)作類別。


最終,OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中,后空翻類動(dòng)作的成功率高達(dá) 96.36%,武術(shù)類動(dòng)作達(dá)到 93.33%,霹靂舞類動(dòng)作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現(xiàn)實(shí)鴻溝。

下面展示了一些示例:


托馬斯全旋、上旋、向前爬行和后空翻。

霹靂舞

武術(shù)

打破保真度與可擴(kuò)展性的權(quán)衡

為了驗(yàn)證系統(tǒng)是否打破了泛化壁壘,團(tuán)隊(duì)設(shè)計(jì)了漸進(jìn)式的壓力測(cè)試。他們將訓(xùn)練動(dòng)作集從 10 個(gè)逐步擴(kuò)展到 20 個(gè),最終擴(kuò)展到 50 個(gè),并使用固定的前 10 個(gè)動(dòng)作進(jìn)行統(tǒng)一評(píng)估。

實(shí)驗(yàn)結(jié)果揭示了顯著的差異。隨著動(dòng)作多樣性的增加,傳統(tǒng)從頭訓(xùn)練的強(qiáng)化學(xué)習(xí)基線模型出現(xiàn)了嚴(yán)重的性能衰退,其成功率從 100% 暴跌至 83.3%,最終滑落至 73.9%。


相比之下,OmniXtreme 展現(xiàn)出了驚人的韌性,在 50 個(gè)動(dòng)作的龐大訓(xùn)練集下,其對(duì)核心動(dòng)作的跟蹤成功率依然堅(jiān)挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認(rèn)知。

模型規(guī)模的 Scaling Law

在人工智能的發(fā)展歷程中,增加模型參數(shù)量往往能帶來(lái)性能的飛躍,但這一規(guī)律在傳統(tǒng)的運(yùn)動(dòng)控制領(lǐng)域似乎失效了。團(tuán)隊(duì)對(duì)比了不同參數(shù)規(guī)模(20M、50M、70M)的模型表現(xiàn)。


圖表數(shù)據(jù)清晰地顯示,傳統(tǒng)的 MLP 策略在擴(kuò)大參數(shù)量后很快就陷入了性能飽和,跟蹤精度提升極其有限。

與之形成鮮明對(duì)比的是,基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數(shù)量向 70M 邁進(jìn),OmniXtreme 的跟蹤精度與魯棒性呈現(xiàn)出顯著且穩(wěn)定的線性增長(zhǎng)。這說(shuō)明生成式預(yù)訓(xùn)練為人形機(jī)器人控制系統(tǒng)提供了一條切實(shí)可行的能力進(jìn)化路徑。

現(xiàn)實(shí)世界執(zhí)行力的深度消融

究竟是哪些機(jī)制賦予了機(jī)器人如此強(qiáng)大的物理穩(wěn)健性?團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)給出了答案。


對(duì)于具有強(qiáng)爆發(fā)力的翻騰動(dòng)作(如后空翻),僅僅引入電機(jī)約束就足以保障穩(wěn)定執(zhí)行,因?yàn)檫@避免了底層硬件極限的瞬間崩潰。然而,對(duì)于包含高頻接觸轉(zhuǎn)換的霹靂舞動(dòng)作,系統(tǒng)必須同時(shí)依賴電機(jī)約束與激進(jìn)的域隨機(jī)化,才能在接觸擾動(dòng)中維持時(shí)序敏感的平衡。

最嚴(yán)苛的挑戰(zhàn)來(lái)自于包含高速?zèng)_擊緩沖的雜技落地動(dòng)作。團(tuán)隊(duì)發(fā)現(xiàn),如果沒(méi)有功率安全正則化機(jī)制,即使模型在姿態(tài)上維持了平衡,也會(huì)因?yàn)殡姍C(jī)瞬態(tài)制動(dòng)導(dǎo)致過(guò)流或電池欠壓而宣告失敗。


這充分說(shuō)明,真實(shí)世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。


https://x.com/siyuanhuang95/status/2028506522633073132

文章來(lái)源:機(jī)器之心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陜西兩家銀行獲批解散

陜西兩家銀行獲批解散

影像渭南
2026-03-04 10:10:35
曾黎與男友王子鳴澳門祈福,50歲狀態(tài)驚艷,相處模式甜成老夫老妻

曾黎與男友王子鳴澳門祈福,50歲狀態(tài)驚艷,相處模式甜成老夫老妻

阿纂看事
2026-03-02 15:14:39
32年京味地標(biāo)謝幕,《還珠格格》取景地被拆,一代人的青春碎了!

32年京味地標(biāo)謝幕,《還珠格格》取景地被拆,一代人的青春碎了!

度看全球
2026-03-01 06:40:14
陳若琳也沒(méi)想到,全紅嬋會(huì)因元宵節(jié)的一特殊舉動(dòng),實(shí)現(xiàn)口碑暴漲

陳若琳也沒(méi)想到,全紅嬋會(huì)因元宵節(jié)的一特殊舉動(dòng),實(shí)現(xiàn)口碑暴漲

以茶帶書
2026-03-04 16:14:10
中央定調(diào),延遲退休繼續(xù)實(shí)施!公務(wù)員和事業(yè)單位員工不能向后延?

中央定調(diào),延遲退休繼續(xù)實(shí)施!公務(wù)員和事業(yè)單位員工不能向后延?

王五說(shuō)說(shuō)看
2026-01-18 08:23:52
難怪中國(guó)女足險(xiǎn)勝孟加拉,事實(shí)證明:主教練一開(kāi)始就選錯(cuò)人了

難怪中國(guó)女足險(xiǎn)勝孟加拉,事實(shí)證明:主教練一開(kāi)始就選錯(cuò)人了

現(xiàn)代小青青慕慕
2026-03-04 17:42:48
比亞迪王炸技術(shù)曝光:150度電、1300匹馬力、1000公里續(xù)航!

比亞迪王炸技術(shù)曝光:150度電、1300匹馬力、1000公里續(xù)航!

新浪財(cái)經(jīng)
2026-03-04 18:48:54
誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
48小時(shí)生死撤離迪拜!中國(guó)旅客買下5天機(jī)票,已登上飛機(jī)回國(guó)

48小時(shí)生死撤離迪拜!中國(guó)旅客買下5天機(jī)票,已登上飛機(jī)回國(guó)

今日搞笑分享
2026-03-04 17:34:52
戴旭:中美一旦發(fā)生戰(zhàn)爭(zhēng),美國(guó)有實(shí)力將中國(guó)沿海城市打得稀巴爛?

戴旭:中美一旦發(fā)生戰(zhàn)爭(zhēng),美國(guó)有實(shí)力將中國(guó)沿海城市打得稀巴爛?

二大爺觀世界
2026-01-16 03:04:40
伊朗稱完全控制霍爾木茲海峽 十多艘油輪被炮彈擊中

伊朗稱完全控制霍爾木茲海峽 十多艘油輪被炮彈擊中

新華社
2026-03-04 07:49:02
兩岸統(tǒng)一新方案浮出水面:國(guó)民黨若同意,解放軍或無(wú)需動(dòng)武

兩岸統(tǒng)一新方案浮出水面:國(guó)民黨若同意,解放軍或無(wú)需動(dòng)武

歷史小胡
2026-03-04 18:21:00
那方面最厲害的星座,沒(méi)有之一!

那方面最厲害的星座,沒(méi)有之一!

同道大叔
2026-03-04 22:03:50
50歲才懂,給子女選配偶,底層看家境,中層看人品,高層看這3樣

50歲才懂,給子女選配偶,底層看家境,中層看人品,高層看這3樣

藝鑒在線
2026-02-17 16:33:40
一旦戰(zhàn)爭(zhēng)爆發(fā),中國(guó)實(shí)力究竟有多強(qiáng)?美國(guó)專家的評(píng)價(jià)讓人出乎意料

一旦戰(zhàn)爭(zhēng)爆發(fā),中國(guó)實(shí)力究竟有多強(qiáng)?美國(guó)專家的評(píng)價(jià)讓人出乎意料

蹲坑看世界
2026-03-04 10:14:26
早上十點(diǎn)!徐杰宣布重要決定,薩林杰直接擺爛,杜潤(rùn)旺肚腩遭群嘲

早上十點(diǎn)!徐杰宣布重要決定,薩林杰直接擺爛,杜潤(rùn)旺肚腩遭群嘲

多特體育說(shuō)
2026-03-04 09:45:45
魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

顧史
2026-03-02 10:46:01
伊朗打紅了眼,美使館、美軍指揮部接連被炸,特朗普給出停戰(zhàn)方案

伊朗打紅了眼,美使館、美軍指揮部接連被炸,特朗普給出停戰(zhàn)方案

嘆知
2026-03-04 22:04:47
打的真準(zhǔn)!伊朗成功摧毀2套薩德+1座鋪路爪雷達(dá),怎么辦到的?

打的真準(zhǔn)!伊朗成功摧毀2套薩德+1座鋪路爪雷達(dá),怎么辦到的?

軍武次位面
2026-03-04 18:51:05
一趟火車1500人,為何連幾十份盒飯都賣不完?終于有人說(shuō)實(shí)話了!

一趟火車1500人,為何連幾十份盒飯都賣不完?終于有人說(shuō)實(shí)話了!

貓叔東山再起
2026-03-04 11:55:09
2026-03-05 00:43:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5391文章數(shù) 64616關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強(qiáng)AI天團(tuán)?

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂(lè)要聞

謝謝謝娜 貢獻(xiàn)出26年內(nèi)娛的第一個(gè)笑話

財(cái)經(jīng)要聞

人大代表建議:將農(nóng)民養(yǎng)老金提到500元

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

時(shí)尚
本地
旅游
藝術(shù)
軍事航空

女人不管多大年紀(jì),都要準(zhǔn)備一條黑裙子,百搭舒適又顯氣質(zhì)

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

旅游要聞

日照莒縣:浮來(lái)山廟會(huì)引來(lái)八方游客

藝術(shù)要聞

驚艷!她的雙眸與微笑讓人無(wú)法移開(kāi)視線!

軍事要聞

伊朗為遭到美以空襲小學(xué)遇難者舉行葬禮

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版