国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

BFM-Zero,讓人形機器人不再依賴高質量動捕數據

0
分享至



CMU×Meta 聯手,姚班李憶唐最新論文成果。

作者丨鄭佳美

編輯丨馬曉寧

讓人形機器人真正走出實驗室,一直是這個領域最難的挑戰(zhàn)。

仿真里的機器人往往動作流暢、執(zhí)行準確,但一旦來到現實世界,很多看似強大的方法都會因為環(huán)境差異而迅速失效。地面摩擦稍微變一下、身體負載多一點、傳感器噪聲大一些,甚至只是被人輕輕推一把,機器人就可能動作僵硬、站不穩(wěn)甚至直接倒下。能不能讓機器人做到不依賴精細規(guī)則、不依賴昂貴數據,也能在真實場景中保持穩(wěn)定、自然和可靠,這是近年來研究者們越來越關注的問題。

而最近 CMU 和 Meta 研究團隊共同提出,清華姚班李憶唐為第一作者一篇論文引起了廣泛關注。這個研究項目嘗試用一種更統(tǒng)一更樸素的方式來訓練機器人,讓模型在大規(guī)模仿真中通過無監(jiān)督交互自己積累經驗,再把獎勵、姿態(tài)、動作序列等不同形式的任務提示一并壓縮到同一個潛在空間中。

通過這種設計,機器人不需要針對每個任務反復訓練,只要生成合適的潛在向量,就能在現實環(huán)境中零樣本執(zhí)行動作,并能在面對擾動或條件變化時迅速恢復穩(wěn)定表現。

這項工作的亮點不在于某一個技巧,而在于它讓機器人在真實世界中的表現第一次呈現出一種自然的連貫性。例如它能像人一樣應對推搡,能從摔倒中順勢滾動再站起來,能在噪聲很大的動作序列下依然跟隨指令,還能在負載或摩擦突然變化時,僅通過潛在空間搜索就重新找回穩(wěn)定動作。相比傳統(tǒng)需要大量規(guī)則、腳本和專門訓練任務的做法,這種方式顯得更直接也更通用。


論文地址:https://arxiv.org/pdf/2511.04131

01
從仿真到現實的跨域能力

論文的實驗結果可以分成三大部分:在仿真環(huán)境里的零樣本測試、在真實機器人上的零樣本部署,以及在特殊情況下利用很少的數據進行快速適應。整體來看,這些實驗共同展示了 BFM Zero 的泛化能力、魯棒性和可擴展性。

在仿真階段,研究者主要使用 Isaac 和 Mujoco 兩種物理模擬環(huán)境對模型進行全面測試。這兩個環(huán)境的物理特性差異較大,因此能很好地檢驗策略是否依賴某一種特定物理設定。

實驗任務包括三類:動作跟蹤、目標姿態(tài)到達以及獎勵驅動的行為生成。在動作跟蹤方面,模型在 Isaac 環(huán)境中加入大量物理隨機化后,雖然不如理想情況下那樣精準,但誤差只略有上升,屬于能接受的小幅變化。

而當把模型直接放進物理規(guī)律明顯不同的 Mujoco 中時,它的表現依然保持在一個穩(wěn)定水平,性能下降控制在百分之七以內,這說明模型學到的不是某個環(huán)境的“技巧”,而是一種具有普適性的運動規(guī)律。


在獎勵優(yōu)化任務中,研究者讓模型根據不同獎勵定義,在沒有特定訓練的情況下自動推斷應該執(zhí)行的行為。這類任務的難點在于獎勵往往很稀疏,且目標多樣。

例如某些獎勵要求機器人以指定速度朝某方向移動,但由于物理隨機化導致狀態(tài)分布變得復雜,有些任務會出現明顯波動,甚至個別情況表現很差。

這并不是模型本身退化,而是推斷獎勵時依賴 replay buffer 的隨機采樣,加上物理擾動讓數據更加分散。這種現象恰恰證明模型確實在面對復雜多變的條件,而不是在一個“干凈環(huán)境”里取巧。


對于目標姿態(tài)到達任務,模型表現得更為穩(wěn)健。無論目標姿態(tài)是否在訓練數據中出現過,它都能平穩(wěn)地向目標靠攏,不會出現劇烈抖動或亂蹦亂跳的異常行為。更關鍵的是,即便從 AMASS 這類完全不同的動作庫中取姿態(tài),模型也能成功完成,這說明其潛在空間不僅能覆蓋訓練數據,還能擴展到數據之外。

研究者甚至直接取 AMASS 中的動作片段讓模型跟隨,這些動作的風格可能與訓練用的 LAFAN1 數據差得很遠,但模型照樣能執(zhí)行,說明潛在空間已經把這些動作映射到同一個“可控行為區(qū)域”中,風格差異已經不是障礙。

當模型被部署到真實的 Unitree G1 humanoid 上時,它的零樣本能力表現得更為直觀和令人印象深刻。在動作跟蹤任務中,機器人不僅能走路、轉身,還能做較復雜的舞蹈動作、運動動作甚至格斗姿態(tài)。

更重要的是當它失穩(wěn)時,不會像傳統(tǒng)機器人那樣僵硬或者直接倒下,而是像人一樣進行自然的調整,例如重心偏移、撐地、滾動緩沖等,然后重新站起來繼續(xù)任務。


這種自然的恢復動作完全來自策略本身的結構化潛在空間與風格約束,并不是單獨訓練“摔倒恢復”之類的技能。甚至在給它用于跟蹤的動作是從單目視頻估計出來的、質量很差的動作序列時,它依然能平穩(wěn)跟隨,說明模型對輸入質量有很強的容錯能力。

在目標姿態(tài)到達任務中,研究者隨機采樣了大量目標姿態(tài),要求機器人按照順序逐一到達。機器人在姿態(tài)之間切換時動作十分平滑,不需要人為添加插值或過渡動作,這說明其內部潛在空間具有天然的連續(xù)性。如果有些姿態(tài)本身不可能在現實中精確實現(例如關節(jié)角度超出極限),機器人會自動找到一個最接近同時又自然、安全的姿態(tài),而不是硬要模仿導致摔倒或抽搐。

在獎勵優(yōu)化任務中,研究者通過各種獎勵信號,讓機器人自動生成對應行為。例如讓它降低骨盆高度,它就會坐下或蹲起;獎勵手部高度,它就會舉手;獎勵速度,它就會移動或轉向。這些不同獎勵還能組合,例如讓它一邊倒退一邊抬手。

這種可組合性意味著未來可以通過語言描述需求,再把語言解析成獎勵,就能讓機器人自動“理解”要做什么。更有趣的是,在相同獎勵下,通過不同 replay buffer 子樣本生成的潛在表達會略有不同,從而得到不同風格的動作。這說明策略空間本身是多模態(tài)的,存在多個可行解,而不是一個死板的最優(yōu)動作。


在真實環(huán)境中面對巨大外力干擾時,機器人表現出極高的柔順性和穩(wěn)定性。當被推搡、踢擊、拉倒時,它不會簡單僵硬反抗,而會以柔和方式吸收沖擊,例如后退幾步緩沖重心、調整手臂姿勢保持平衡等。

即便被完全摔倒在地,它也能通過自然流暢的動作爬起,然后回到原本任務,比如繼續(xù)恢復站姿或目標姿態(tài)。這些恢復動作不是硬性編寫的,而是策略在潛在空間中自然表達出來的,這讓機器人顯得更“像人”。

最后,研究者展示了模型的快速適應能力。在適應過程中并不需要調整網絡權重,只需要針對新情況對潛在向量進行優(yōu)化就行。第一個適應案例是在機器人 torso 上增加四公斤負載。原本零樣本 latent 并不足以支撐單腿站立,但通過二十次交叉熵優(yōu)化迭代后即可找到一個新的潛在向量,使機器人能在帶載情況下穩(wěn)定站立十五秒以上,而且優(yōu)化結果直接遷移到真實機器人上也能成功。

第二個案例是摩擦變化導致跳躍軌跡不穩(wěn)定。研究者通過雙重退火和采樣方法優(yōu)化潛在向量序列,最終使軌跡誤差降低了近三成,整體動作更穩(wěn)定。這個過程不依賴重新訓練模型,而完全依賴潛在空間的靈活性。


02
通往通用行為模型的三步框架

總的來說這項研究的實驗流程可以分成三個階段,分別是無監(jiān)督預訓練、零樣本推理以及少量樣本適應。

研究者希望讓機器人在面對不同類型的任務時,不必依賴多套不同的訓練方式,而是通過同一個潛在空間表達就能理解任務、生成動作,并且在條件變化時仍能保持穩(wěn)定表現。這樣的設計不僅讓機器人在訓練階段更加統(tǒng)一,也使后續(xù)的實際部署更加靈活。

無監(jiān)督預訓練階段,模型需要在沒有明確任務獎勵的情況下,通過與大量仿真環(huán)境的互動積累經驗。為了讓機器人能夠應對多種類型的任務,研究者構建了一個統(tǒng)一的潛在空間,把獎勵、目標姿態(tài)和動作序列等信息全部映射到同一種潛在表示中。

這個潛在空間的構建依賴 forward-backward 方法,它能讓機器人通過觀察自身軌跡或任務提示,推斷出對應的潛在向量。為了讓模型擁有足夠廣的經驗基礎,訓練過程中使用了 1024 個并行的 Isaac 物理模擬環(huán)境。這些環(huán)境以高頻率運行,模擬了全身關節(jié)的動力學、地面接觸的摩擦特性以及重力的變化規(guī)律。整個訓練過程中,模型累計獲得超過五百萬條交互樣本,使其形成較為全面的行為經驗庫。

除了大量的環(huán)境經驗,訓練過程還引入了豐富的物理隨機化。研究者會在仿真過程中隨機改變機器人各個部位的質量分布、調整地面的摩擦系數、施加隨機外力、改變身體姿態(tài)初始狀態(tài),并加入傳感器噪聲。

這些隨機化設置逼近真實世界的不確定性,使得訓練出的策略在現實部署時不會因為環(huán)境與仿真略有差異就崩潰。同時,為了讓機器人動作更符合人體特征,研究者還引入了動作數據集作為風格參考,通過風格判別器讓策略在生成動作時保留自然動作的結構。例如手臂的擺動、身體的重心變化都會因為風格約束顯得更貼近人類動作。

為了避免策略學到潛在危險動作,訓練中還加入硬件相關的安全約束。例如限制關節(jié)角度范圍、防止與地面發(fā)生奇怪的碰撞、限制身體偏移過大等。這些輔助獎勵確保模型在龐大的訓練空間中不會偏向那些雖然有效但不安全的動作模式,也保證它在未來的真實實驗中不會損傷機器人硬件。


在零樣本推理階段,模型已經具備解釋不同任務提示的能力,因此不再需要繼續(xù)訓練其網絡結構。當它接收到新的任務時,只需要根據任務類型生成對應的潛在向量 z。這種向量能夠明確表達任務需求,策略網絡根據它就能生成相應動作。

如果任務是基于獎勵,那么潛在向量會從 replay buffer 的經驗中,通過獎勵信號與 backward embedding 的關系推斷出來。如果任務是姿態(tài)到達,那么研究者直接將目標狀態(tài)輸入 backward embedding 生成潛在向量。而在動作跟蹤任務中,模型會把未來幾個時間步的目標動作都嵌入潛在空間,生成一段連續(xù)的潛在向量序列,再逐步執(zhí)行。

從效果上看,這意味著機器人不需要針對每個任務重新訓練,只要能生成合適的潛在向量,它就能直接執(zhí)行動作、移動到目標位置或根據獎勵調整行為。

在少量樣本適應階段,模型面對的是訓練中沒有遇到的新條件,例如突然增加的負載、變化的地面摩擦系數預測不到的動力學變化等。為了讓機器人在現實中快速恢復性能,研究者不修改網絡本身,而是在潛在空間中搜索更適合新條件的向量。

由于潛在空間的表達能力足夠強,只要找到合適的向量,機器人就能重新恢復穩(wěn)定表現。在單一姿態(tài)任務中,研究者采用交叉熵優(yōu)化方法,通過不斷嘗試不同潛在向量并評估其表現,逐步找到最優(yōu)解。

在動態(tài)軌跡任務中,則使用采樣式的雙重退火策略,通過不斷擾動與收斂搜索潛在向量序列,使機器人的運動軌跡重新穩(wěn)定下來。因為這種適應過程不需要大量數據,成本低,收斂快,非常適合現實場景中的快速調整需求。

整體來看,這三個階段共同構成了模型訓練與部署的完整路徑:從在多樣化環(huán)境中學習通用動作結構,到在實際任務中無需訓練直接執(zhí)行,再到遇到特殊情況時利用少量數據進行微調,使機器人在復雜環(huán)境下表現出良好的泛化能力和適應能力。


03
通用化的關鍵一步

這項研究的意義體現在多個方面,對未來的人形機器人發(fā)展具有重要推動作用。

首先,它展示了無監(jiān)督強化學習也可以在真實的人形機器人上取得效果。過去成功讓人形機器人完成復雜動作的做法,大多依賴大量模仿數據或精心設計的任務獎勵,而這項工作證明,即使沒有明確獎勵,也沒有精細標注的動作軌跡,機器人仍然能在大規(guī)模仿真中通過探索和風格學習形成可泛化的行為能力。這讓人們看到,人形機器人不一定需要昂貴的數據成本,也能學會穩(wěn)定而豐富的運動技能。

其次,該方法生成的動作在自然性和柔順性上有明顯提升。傳統(tǒng)的人形機器人在面對外力時往往表現得非常僵硬,只能做出硬性的支撐動作,一旦外力方向稍有變化就可能失穩(wěn)。而本方法訓練出的策略在遇到擾動時會呈現更連貫、更平滑的反應,例如輕微調整重心、改變步伐節(jié)奏、自然地把身體穩(wěn)定下來。

即使受到較大推搡,機器人也能以柔和而不突兀的方式處理,這種表現更接近人類的動作穩(wěn)定機制。這說明模型在潛在空間中學到的運動規(guī)律具有內在的協調性,而不是簡單的機械式糾正。

再者,這一方法為未來構建能被提示控制、能理解泛化任務意圖的人形機器人打下基礎。由于所有行為都被統(tǒng)一映射到潛在空間,機器人可以依靠潛在向量組合和調整行為。

未來只需要給出高層的任務描述,例如目標姿態(tài)、整體意圖或者獎勵偏好,機器人就能自動組織出相應的動作,而不需要為每個任務重新訓練專用策略。這種設計向“行為級基礎模型”邁出了一步,讓機器人變得更容易擴展、更容易控制,也更加貼近通用智能的目標。

同時,該方法具備強大的現實適應能力。在訓練中加入大量隨機化,使策略在面對不同動力學條件時也能保持穩(wěn)定。在真實環(huán)境里,當負載改變、地面摩擦不同、動作需求突然變化時,機器人不需要重新訓練,只需要在潛在空間里稍作調整,就能迅速恢復到可靠的表現。這使得模型在現實環(huán)境中的可用性明顯提升,能夠更好地應對復雜多變的物理條件。

最后,這項研究擺脫了對高質量動作捕捉數據的依賴。過去想讓機器人動作看起來自然,需要使用專業(yè)設備收集大量高精度人體動作數據,成本極高。而這里使用的無標注動作序列就足以讓模型學到人體動作的整體風格,既減少數據采集難度,也讓訓練更加靈活。

綜合來看,這項工作不僅提供了一套在仿真與現實之間高度一致的訓練方法,還構建了一個具備泛化、自然性、穩(wěn)定性與適應性的潛在行為空間,為未來更智能、更通用的人形機器人奠定了基礎。

04
GAIR 2025,讓技術「走出」論文

2025年12月12-13日,第八屆 GAIR 全球人工智能與機器人大會,將在深圳南山·博林天瑞喜來登酒店舉辦。

世界模型是具身智能理解與改造世界的“認知核心”,在 GAIR 大會世界模型分論壇中,我們已經邀請到了國內外頂級高校與研究機構的多位知名學者,就世界模型與空間智能在具身機器人領域的探索突破,發(fā)布多篇主題報告,共同探討這一真實應用中的最新進展。

在論壇的圓桌對話環(huán)節(jié),學者們將圍繞“世界模型如何跨越仿真到現實的鴻溝”等關鍵議題展開深度研討。屆時,來自產業(yè)界的頂尖研發(fā)團隊也將分享其將世界模型前沿理論落地于機器人實體,解決復雜場景任務的成功實踐。

我們期待與您共同見證,世界模型如何為具身智能注入真正的“靈魂”,開啟機器人自主決策與行動的新篇章。


未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
徐湖平家中字畫的高清版,被網友們找到了!

徐湖平家中字畫的高清版,被網友們找到了!

麥杰遜
2025-12-24 12:06:49
3億多的榮耀OPPO被偷?京東倉庫遭洗劫,內部員工爆料:早有預謀

3億多的榮耀OPPO被偷?京東倉庫遭洗劫,內部員工爆料:早有預謀

烏娛子醬
2025-12-24 14:59:27
又一大佬想跑路?他花1元買下8.6億股權后,在機場被勸返

又一大佬想跑路?他花1元買下8.6億股權后,在機場被勸返

毒sir財經
2025-12-22 21:09:27
爭議!曝周琦腰反應大恐無緣客戰(zhàn)新疆 重返CBA后從未打過新疆客場

爭議!曝周琦腰反應大恐無緣客戰(zhàn)新疆 重返CBA后從未打過新疆客場

醉臥浮生
2025-12-24 19:24:05
起太高了!國產GPU雙雄股價下跌不止

起太高了!國產GPU雙雄股價下跌不止

C114
2025-12-24 11:31:29
36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

譯言
2025-12-24 08:58:48
園長開車送幼兒回家,汽車墜入池塘8人遇難

園長開車送幼兒回家,汽車墜入池塘8人遇難

新京報
2025-12-24 19:44:13
大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

科技處長
2025-12-24 14:51:42
徐湖平:官二代高中學歷,12年躥升至副院長,領導安慰父親別嚇著

徐湖平:官二代高中學歷,12年躥升至副院長,領導安慰父親別嚇著

雪中風車
2025-12-24 16:44:38
大狂歡!集體漲停!剛剛,央行,利好來了!

大狂歡!集體漲停!剛剛,央行,利好來了!

中國基金報
2025-12-24 16:22:14
20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

社會日日鮮
2025-12-24 05:45:22
堅守陣地130天,兩名烏軍終于撤了下來,還帶回個并肩作戰(zhàn)的俄軍

堅守陣地130天,兩名烏軍終于撤了下來,還帶回個并肩作戰(zhàn)的俄軍

鷹眼Defence
2025-12-24 16:23:37
越南股市以創(chuàng)紀錄的1791.46點開盤

越南股市以創(chuàng)紀錄的1791.46點開盤

每日經濟新聞
2025-12-24 10:46:15
泰軍突襲柬電詐園區(qū)!現場中文標語曝光,字字扎心引眾怒

泰軍突襲柬電詐園區(qū)!現場中文標語曝光,字字扎心引眾怒

胡嚴亂語
2025-12-23 19:13:59
利比亞總參謀長土耳其墜機身亡,其被認為是“結束國家分裂”的希望

利比亞總參謀長土耳其墜機身亡,其被認為是“結束國家分裂”的希望

紅星新聞
2025-12-24 15:22:18
陜西神木警方發(fā)布認領無主物品公告:黃金9塊,共計360克,每塊均刻有“老鳳祥銀樓”字樣,逾期無人認領將依法拍賣、變賣

陜西神木警方發(fā)布認領無主物品公告:黃金9塊,共計360克,每塊均刻有“老鳳祥銀樓”字樣,逾期無人認領將依法拍賣、變賣

環(huán)球網資訊
2025-12-24 17:13:38
葉劍英詢問許世友:南京軍區(qū)還聽你調遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

葉劍英詢問許世友:南京軍區(qū)還聽你調遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

清風鑒史
2025-12-24 15:02:13
重要知情人出現!《江南春》是97年陸挺花16萬買走,收據系偽造!

重要知情人出現!《江南春》是97年陸挺花16萬買走,收據系偽造!

一支破筆半支煙
2025-12-23 21:09:24
老字號餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個多月暴瘦近20斤未出院,多部門介入

老字號餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個多月暴瘦近20斤未出院,多部門介入

極目新聞
2025-12-24 13:21:57
超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

大白聊IT
2025-12-24 10:23:46
2025-12-24 21:20:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7022文章數 20717關注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

月薪3850元男子為漲薪給領導發(fā)紅包被開 案子打到高院

頭條要聞

月薪3850元男子為漲薪給領導發(fā)紅包被開 案子打到高院

體育要聞

26歲廣西球王,在質疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術
手機
親子
公開課
軍事航空

藝術要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

手機要聞

真我Neo8一月亮相 徐起:有點東西

親子要聞

用職場方式打開孕晚期會得到……

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個正步 每步75厘米

無障礙瀏覽 進入關懷版