国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打通視頻生成與機器人世界模型!BridgeV2W讓機器人學(xué)會預(yù)演未來

0
分享至




機器人如何 "腦補" 未來?

想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經(jīng)在 "腦補" 了整個過程:手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子…… 這種對未來場景的想象和預(yù)測能力,正是人類操控世界的核心認知基石。

那么,能否賦予機器人同樣的 “預(yù)演能力”,先在 “腦海” 中模擬動作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機器人在行動前,就能 “看見” 未來。近年來,借助大規(guī)模視頻生成模型(如 Sora、Wan 等)強大的視覺先驗,這一方向取得了令人矚目的進展。

然而,一個尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機器人的語言卻是關(guān)節(jié)角度與位姿坐標(biāo),它們使用完全不同的 “表征語言” 描述同一個物理世界。

為了解決上述問題,具身智能公司中科第五紀(jì)聯(lián)合中科院自動化所團隊推出BridgeV2W,它通過一個極為優(yōu)雅的設(shè)計,具身掩碼(Embodiment Mask),一種由機器人動作渲染出的 “動作剪影”,將坐標(biāo)空間的動作無縫映射到像素空間,從而真正打通預(yù)訓(xùn)練視頻生成模型與世界模型之間的橋梁,讓機器人學(xué)會可靠地 “預(yù)演未來”。



  • 論文標(biāo)題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
  • 論文鏈接:https://arxiv.org/pdf/2602.03793
  • 項目鏈接:https://bridgev2w.github.io/

困境:三座大山擋住了機器人的 "預(yù)演能力"

盡管前景廣闊,當(dāng)前的具身世界模型仍面臨三大核心挑戰(zhàn):

1.動作與畫面 “語言不通”。機器人動作是關(guān)節(jié)角、末端位姿等坐標(biāo)數(shù)值,而視頻生成模型只 “看” 像素。直接拼接動作向量效果有限,往往缺乏空間對齊的 “硬連接”,模型難以理解。

2.視角一變,世界就 “崩”。同一動作在不同視角下外觀迥異?,F(xiàn)有方法在訓(xùn)練視角上尚可,一旦換視角,預(yù)測質(zhì)量驟降,而真實場景中,相機位置幾乎不可能復(fù)現(xiàn)訓(xùn)練設(shè)置。

3.換一個機器人就得 “從零開始”。單臂、雙臂、移動底盤…… 結(jié)構(gòu)千差萬別?,F(xiàn)有方法往往需為每種機器人定制架構(gòu),難以構(gòu)建統(tǒng)一的世界模型。

核心創(chuàng)新:僅憑 "動作剪影",一舉破解三大難題

BridgeV2W的核心洞察極其直覺:既然鴻溝源于 “坐標(biāo) vs 像素”,那就把動作直接 “畫” 進畫面里!

它提出具身掩碼:利用機器人的 URDF 模型和相機參數(shù),將動作序列實時渲染為每幀圖像上的二值 “動作剪影”,精準(zhǔn)標(biāo)出機器人在畫面中的位置與姿態(tài)。

這一設(shè)計,一舉破解前述三大難題:

  • 動作 - 像素對齊:掩碼是天然的像素級信號,與視頻模型輸入空間完全匹配,無需模型 “猜” 坐標(biāo)的含義。
  • 視角自適應(yīng):掩碼隨當(dāng)前相機視角動態(tài)生成,動作與畫面始終對齊,模型因此天然泛化到任意新視角。
  • 跨具身通用:只要提供 URDF,單臂、雙臂機器人都能用同一套框架生成對應(yīng)掩碼,無需修改模型結(jié)構(gòu)。

技術(shù)上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號融入預(yù)訓(xùn)練視頻生成模型,在保留其強大視覺先驗的同時,賦予其理解機器人動作的能力。此外,為防止模型 “偷懶”(只復(fù)現(xiàn)靜態(tài)背景),還引入光流驅(qū)動的運動損失,引導(dǎo)其聚焦于任務(wù)相關(guān)的動態(tài)區(qū)域。

實驗結(jié)果:多場景、多機器人、多視角的全面驗證

研究團隊在多個設(shè)置下系統(tǒng)驗證了 BridgeV2W 的能力,涵蓋不同機器人平臺、不同操作場景、未見視角和下游任務(wù)應(yīng)用。

DROID 數(shù)據(jù)集:大規(guī)模單臂操作

DROID 是目前最大規(guī)模的真實世界機器人操作數(shù)據(jù)集之一,數(shù)據(jù)采集跨越多個實驗室和環(huán)境。BridgeV2W 在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標(biāo)上超越 SOTA 方法。

尤其在 “未見視角” 測試中,對比方法常出現(xiàn)畫面崩塌、肢體錯位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗證了其視角魯棒性。在 “未見場景”(全新桌面布局、背景)下,泛化能力同樣出色。





AgiBot-G1 數(shù)據(jù)集:雙臂人形機器人

AgiBot-G1 是一個完全不同的雙臂平臺,自由度與運動模式與 DROID 截然不同。

關(guān)鍵結(jié)果:無需修改模型架構(gòu),僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無縫適配,并取得媲美單臂的預(yù)測質(zhì)量,這是邁向通用具身世界模型的重要一步。





下游任務(wù)應(yīng)用:從 "想象" 到 "行動"

BridgeV2W 不僅僅是一個 "能生成好看視頻" 的模型,研究團隊進一步在真實世界的下游任務(wù)中驗證了其實用價值:

策略評估: 在世界模型中 “試跑” 不同策略,無需真實機器人反復(fù)試錯。實驗顯示,BridgeV2W 的評估結(jié)果與真實成功率高度相關(guān),大幅降低策略迭代成本。

目標(biāo)圖像操作規(guī)劃: 給定一張目標(biāo)圖像(如 “把杯子放到盤子上”),BridgeV2W 能在 “想象空間” 中搜索出可行動作序列,實現(xiàn)從視覺目標(biāo)到物理動作的閉環(huán)規(guī)劃。

關(guān)鍵亮點:海量無標(biāo)注人類視頻,全都能用!

你可能會問:具身掩碼不是需要 URDF 和相機參數(shù)嗎?沒有這些幾何信息的數(shù)據(jù)怎么辦?

BridgeV2W 的巧妙之處在于:

  • 推理時需輕量幾何信息(URDF + 相機參數(shù))渲染 “計算掩碼”,用于精準(zhǔn)控制;
  • 訓(xùn)練時卻無需任何標(biāo)定:只需分割模型(如 SAM)提取的 “分割掩碼”,即可提供有效監(jiān)督。

團隊將 AgiBot-G1 機器人數(shù)據(jù)與無標(biāo)定的 Ego4D FHO(第一人稱手部操作視頻)混合訓(xùn)練,僅用 SAM 提取的手部掩碼,就實現(xiàn)了驚人效果:

  • 僅用分割掩碼訓(xùn)練,模型仍能學(xué)到合理的運動規(guī)律;
  • 加入大量 Ego4D 視頻 + 少量機器人標(biāo)定數(shù)據(jù),性能幾乎媲美全量標(biāo)定訓(xùn)練。



這說明:人類視頻蘊含豐富的動作先驗,只需少量機器人數(shù)據(jù),就能完成 “具身對齊”。

一句話總結(jié):訓(xùn)練靠 “野生” 視頻擴規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴展性與準(zhǔn)確性。

BridgeV2W 揭示了一條極具前景的技術(shù)路線:

視頻生成模型 + 具身掩碼 = 可擴展的機器人世界模型

這條路線有三個關(guān)鍵優(yōu)勢值得深思:

1. 數(shù)據(jù)飛輪真正啟動:互聯(lián)網(wǎng)視頻規(guī)模遠超機器人數(shù)據(jù)數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗即可利用人類視頻,為構(gòu)建 “機器人數(shù)據(jù)飛輪” 邁出關(guān)鍵一步。

2. 技術(shù)紅利自動繼承:視頻生成領(lǐng)域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構(gòu)使其能自然受益于底座模型升級,底座越強,“預(yù)演” 越真。

3. 通用智能的堅實基石:從單臂到雙臂,從已知場景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

總結(jié)與展望

BridgeV2W 通過 “具身掩碼” 這一簡潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實用具身世界模型的橋梁。它不僅解決了動作 - 像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關(guān)鍵的是:訓(xùn)練無需 URDF 或相機標(biāo)定,可直接利用海量無標(biāo)注人類視頻,為世界模型的規(guī)模化訓(xùn)練開辟了全新路徑。

目前展現(xiàn)的能力,或許只是冰山一角。

試想未來:當(dāng)視頻生成底座從十億參數(shù)邁向千億,當(dāng)訓(xùn)練數(shù)據(jù)從數(shù)千小時機器人視頻擴展到百萬小時人類操作視頻,當(dāng)具身掩碼從機械臂延伸至全身人形、乃至多機協(xié)作,機器人的 “預(yù)演能力” 將迎來怎樣的飛躍?

正如 DreamZero 等工作預(yù)示的 “機器人 GPT 時刻”,BridgeV2W 從另一個維度證明:

讓機器人借助視頻生成模型 “預(yù)演” 自身行動的后果 —— 這條路,不僅走得通,而且可以走得很遠。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東36歲媽媽,生7個孩子,交幾百萬社會撫養(yǎng)費,拒一千萬生意

廣東36歲媽媽,生7個孩子,交幾百萬社會撫養(yǎng)費,拒一千萬生意

三農(nóng)老歷
2026-02-26 10:38:37
劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元

劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元

第一財經(jīng)資訊
2026-02-25 18:38:04
10億換一命!京東副總裁蔡磊對抗?jié)u凍癥4年后,終于贏得一線生機

10億換一命!京東副總裁蔡磊對抗?jié)u凍癥4年后,終于贏得一線生機

小莜讀史
2026-02-02 18:27:35
央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

冷紫葉
2026-02-25 15:28:41
頭號怨種出現(xiàn)了!僅僅晚5秒過出口,一浙C牌車繳納1384.9元高速費

頭號怨種出現(xiàn)了!僅僅晚5秒過出口,一浙C牌車繳納1384.9元高速費

火山詩話
2026-02-25 10:53:39
一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

足球狗說
2026-02-26 07:09:06
3巨傷缺阿倫絕平超時!無哈登2戰(zhàn)67+28如沙克 美媒:絕非他人產(chǎn)物

3巨傷缺阿倫絕平超時!無哈登2戰(zhàn)67+28如沙克 美媒:絕非他人產(chǎn)物

顏小白的籃球夢
2026-02-26 11:35:57
伊美第三輪談判今啟 美方硬性要求遭披露

伊美第三輪談判今啟 美方硬性要求遭披露

極目新聞
2026-02-26 06:34:28
歐冠16強出爐:英超6隊西甲3隊 意甲雙雄出局剩獨苗 明晚19點抽簽

歐冠16強出爐:英超6隊西甲3隊 意甲雙雄出局剩獨苗 明晚19點抽簽

念洲
2026-02-26 06:44:13
東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計,國家機密險被一鍋端!

東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計,國家機密險被一鍋端!

干史人
2026-02-24 09:48:19
輸球又丟人!張本智和傳壞消息,妹妹竟被打哭,羞恥面徹底揭穿

輸球又丟人!張本智和傳壞消息,妹妹竟被打哭,羞恥面徹底揭穿

體壇亦說
2026-02-26 14:05:28
上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴選的國泰民安臉

上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴選的國泰民安臉

大鐵貓娛樂
2026-02-08 00:10:03
表面是冬奧冠軍,實際是哈工大航天博士,不用擔(dān)心退役后的去處了

表面是冬奧冠軍,實際是哈工大航天博士,不用擔(dān)心退役后的去處了

妙知
2026-02-25 10:13:46
林園:不會賣出茅臺,一年分紅就回本,還沒發(fā)現(xiàn)更好的股票!

林園:不會賣出茅臺,一年分紅就回本,還沒發(fā)現(xiàn)更好的股票!

徐sir財經(jīng)
2026-02-26 08:54:41
威爾士公開賽16強出爐附賽程,張安達vs希金斯,8強中國有望占4席

威爾士公開賽16強出爐附賽程,張安達vs希金斯,8強中國有望占4席

小火箭愛體育
2026-02-26 09:05:55
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

影孖看世界
2026-02-25 23:01:51
小伙娶48歲大媽,新婚第二天大媽賴床不起,小伙掀開被子愣住了

小伙娶48歲大媽,新婚第二天大媽賴床不起,小伙掀開被子愣住了

一根香煙的少婦
2026-02-23 15:00:03
廣東英德初七家門口走失1歲男童,48小時后在附近魚塘發(fā)現(xiàn),集體看護的空白刺痛人心

廣東英德初七家門口走失1歲男童,48小時后在附近魚塘發(fā)現(xiàn),集體看護的空白刺痛人心

水泥土的搞笑
2026-02-26 06:46:14
春節(jié)假期才結(jié)束一天,57歲港星去世,死因和細節(jié)曝光,女兒還年幼

春節(jié)假期才結(jié)束一天,57歲港星去世,死因和細節(jié)曝光,女兒還年幼

叨嘮
2026-02-25 14:58:22
徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

生命中最美的奇跡
2026-02-26 09:51:00
2026-02-26 15:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12368文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

縣委書記抖音賬號成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

頭條要聞

縣委書記抖音賬號成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

人民幣升破6.85,創(chuàng)3年新高

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

時尚
教育
房產(chǎn)
家居
數(shù)碼

倫敦時裝周|2026秋冬流行趨勢早知道

教育要聞

湖北2026考研查分時間確定!

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

家居要聞

歸隱于都市 慢享自由

數(shù)碼要聞

安卓最強釘子戶:英偉達Shield TV推送9.2.4更新

無障礙瀏覽 進入關(guān)懷版