国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

打通視頻生成與機(jī)器人世界模型!BridgeV2W讓機(jī)器人學(xué)會(huì)預(yù)演未來

0
分享至




機(jī)器人如何 "腦補(bǔ)" 未來?

想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經(jīng)在 "腦補(bǔ)" 了整個(gè)過程:手臂將如何移動(dòng)、杯子會(huì)是什么觸感、抬起后桌面的樣子…… 這種對(duì)未來場(chǎng)景的想象和預(yù)測(cè)能力,正是人類操控世界的核心認(rèn)知基石。

那么,能否賦予機(jī)器人同樣的 “預(yù)演能力”,先在 “腦?!?中模擬動(dòng)作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機(jī)器人在行動(dòng)前,就能 “看見” 未來。近年來,借助大規(guī)模視頻生成模型(如 Sora、Wan 等)強(qiáng)大的視覺先驗(yàn),這一方向取得了令人矚目的進(jìn)展。

然而,一個(gè)尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機(jī)器人的語(yǔ)言卻是關(guān)節(jié)角度與位姿坐標(biāo),它們使用完全不同的 “表征語(yǔ)言” 描述同一個(gè)物理世界。

為了解決上述問題,具身智能公司中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)推出BridgeV2W,它通過一個(gè)極為優(yōu)雅的設(shè)計(jì),具身掩碼(Embodiment Mask),一種由機(jī)器人動(dòng)作渲染出的 “動(dòng)作剪影”,將坐標(biāo)空間的動(dòng)作無(wú)縫映射到像素空間,從而真正打通預(yù)訓(xùn)練視頻生成模型與世界模型之間的橋梁,讓機(jī)器人學(xué)會(huì)可靠地 “預(yù)演未來”。



  • 論文標(biāo)題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
  • 論文鏈接:https://arxiv.org/pdf/2602.03793
  • 項(xiàng)目鏈接:https://bridgev2w.github.io/

困境:三座大山擋住了機(jī)器人的 "預(yù)演能力"

盡管前景廣闊,當(dāng)前的具身世界模型仍面臨三大核心挑戰(zhàn):

1.動(dòng)作與畫面 “語(yǔ)言不通”。機(jī)器人動(dòng)作是關(guān)節(jié)角、末端位姿等坐標(biāo)數(shù)值,而視頻生成模型只 “看” 像素。直接拼接動(dòng)作向量效果有限,往往缺乏空間對(duì)齊的 “硬連接”,模型難以理解。

2.視角一變,世界就 “崩”。同一動(dòng)作在不同視角下外觀迥異?,F(xiàn)有方法在訓(xùn)練視角上尚可,一旦換視角,預(yù)測(cè)質(zhì)量驟降,而真實(shí)場(chǎng)景中,相機(jī)位置幾乎不可能復(fù)現(xiàn)訓(xùn)練設(shè)置。

3.換一個(gè)機(jī)器人就得 “從零開始”。單臂、雙臂、移動(dòng)底盤…… 結(jié)構(gòu)千差萬(wàn)別。現(xiàn)有方法往往需為每種機(jī)器人定制架構(gòu),難以構(gòu)建統(tǒng)一的世界模型。

核心創(chuàng)新:僅憑 "動(dòng)作剪影",一舉破解三大難題

BridgeV2W的核心洞察極其直覺:既然鴻溝源于 “坐標(biāo) vs 像素”,那就把動(dòng)作直接 “畫” 進(jìn)畫面里!

它提出具身掩碼:利用機(jī)器人的 URDF 模型和相機(jī)參數(shù),將動(dòng)作序列實(shí)時(shí)渲染為每幀圖像上的二值 “動(dòng)作剪影”,精準(zhǔn)標(biāo)出機(jī)器人在畫面中的位置與姿態(tài)。

這一設(shè)計(jì),一舉破解前述三大難題:

  • 動(dòng)作 - 像素對(duì)齊:掩碼是天然的像素級(jí)信號(hào),與視頻模型輸入空間完全匹配,無(wú)需模型 “猜” 坐標(biāo)的含義。
  • 視角自適應(yīng):掩碼隨當(dāng)前相機(jī)視角動(dòng)態(tài)生成,動(dòng)作與畫面始終對(duì)齊,模型因此天然泛化到任意新視角。
  • 跨具身通用:只要提供 URDF,單臂、雙臂機(jī)器人都能用同一套框架生成對(duì)應(yīng)掩碼,無(wú)需修改模型結(jié)構(gòu)。

技術(shù)上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號(hào)融入預(yù)訓(xùn)練視頻生成模型,在保留其強(qiáng)大視覺先驗(yàn)的同時(shí),賦予其理解機(jī)器人動(dòng)作的能力。此外,為防止模型 “偷懶”(只復(fù)現(xiàn)靜態(tài)背景),還引入光流驅(qū)動(dòng)的運(yùn)動(dòng)損失,引導(dǎo)其聚焦于任務(wù)相關(guān)的動(dòng)態(tài)區(qū)域。

實(shí)驗(yàn)結(jié)果:多場(chǎng)景、多機(jī)器人、多視角的全面驗(yàn)證

研究團(tuán)隊(duì)在多個(gè)設(shè)置下系統(tǒng)驗(yàn)證了 BridgeV2W 的能力,涵蓋不同機(jī)器人平臺(tái)、不同操作場(chǎng)景、未見視角和下游任務(wù)應(yīng)用。

DROID 數(shù)據(jù)集:大規(guī)模單臂操作

DROID 是目前最大規(guī)模的真實(shí)世界機(jī)器人操作數(shù)據(jù)集之一,數(shù)據(jù)采集跨越多個(gè)實(shí)驗(yàn)室和環(huán)境。BridgeV2W 在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標(biāo)上超越 SOTA 方法。

尤其在 “未見視角” 測(cè)試中,對(duì)比方法常出現(xiàn)畫面崩塌、肢體錯(cuò)位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗(yàn)證了其視角魯棒性。在 “未見場(chǎng)景”(全新桌面布局、背景)下,泛化能力同樣出色。





AgiBot-G1 數(shù)據(jù)集:雙臂人形機(jī)器人

AgiBot-G1 是一個(gè)完全不同的雙臂平臺(tái),自由度與運(yùn)動(dòng)模式與 DROID 截然不同。

關(guān)鍵結(jié)果:無(wú)需修改模型架構(gòu),僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無(wú)縫適配,并取得媲美單臂的預(yù)測(cè)質(zhì)量,這是邁向通用具身世界模型的重要一步。





下游任務(wù)應(yīng)用:從 "想象" 到 "行動(dòng)"

BridgeV2W 不僅僅是一個(gè) "能生成好看視頻" 的模型,研究團(tuán)隊(duì)進(jìn)一步在真實(shí)世界的下游任務(wù)中驗(yàn)證了其實(shí)用價(jià)值:

策略評(píng)估: 在世界模型中 “試跑” 不同策略,無(wú)需真實(shí)機(jī)器人反復(fù)試錯(cuò)。實(shí)驗(yàn)顯示,BridgeV2W 的評(píng)估結(jié)果與真實(shí)成功率高度相關(guān),大幅降低策略迭代成本。

目標(biāo)圖像操作規(guī)劃: 給定一張目標(biāo)圖像(如 “把杯子放到盤子上”),BridgeV2W 能在 “想象空間” 中搜索出可行動(dòng)作序列,實(shí)現(xiàn)從視覺目標(biāo)到物理動(dòng)作的閉環(huán)規(guī)劃。

關(guān)鍵亮點(diǎn):海量無(wú)標(biāo)注人類視頻,全都能用!

你可能會(huì)問:具身掩碼不是需要 URDF 和相機(jī)參數(shù)嗎?沒有這些幾何信息的數(shù)據(jù)怎么辦?

BridgeV2W 的巧妙之處在于:

  • 推理時(shí)需輕量幾何信息(URDF + 相機(jī)參數(shù))渲染 “計(jì)算掩碼”,用于精準(zhǔn)控制;
  • 訓(xùn)練時(shí)卻無(wú)需任何標(biāo)定:只需分割模型(如 SAM)提取的 “分割掩碼”,即可提供有效監(jiān)督。

團(tuán)隊(duì)將 AgiBot-G1 機(jī)器人數(shù)據(jù)與無(wú)標(biāo)定的 Ego4D FHO(第一人稱手部操作視頻)混合訓(xùn)練,僅用 SAM 提取的手部掩碼,就實(shí)現(xiàn)了驚人效果:

  • 僅用分割掩碼訓(xùn)練,模型仍能學(xué)到合理的運(yùn)動(dòng)規(guī)律;
  • 加入大量 Ego4D 視頻 + 少量機(jī)器人標(biāo)定數(shù)據(jù),性能幾乎媲美全量標(biāo)定訓(xùn)練。



這說明:人類視頻蘊(yùn)含豐富的動(dòng)作先驗(yàn),只需少量機(jī)器人數(shù)據(jù),就能完成 “具身對(duì)齊”。

一句話總結(jié):訓(xùn)練靠 “野生” 視頻擴(kuò)規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴(kuò)展性與準(zhǔn)確性。

BridgeV2W 揭示了一條極具前景的技術(shù)路線:

視頻生成模型 + 具身掩碼 = 可擴(kuò)展的機(jī)器人世界模型

這條路線有三個(gè)關(guān)鍵優(yōu)勢(shì)值得深思:

1. 數(shù)據(jù)飛輪真正啟動(dòng):互聯(lián)網(wǎng)視頻規(guī)模遠(yuǎn)超機(jī)器人數(shù)據(jù)數(shù)個(gè)數(shù)量級(jí)。BridgeV2W 無(wú)需幾何先驗(yàn)即可利用人類視頻,為構(gòu)建 “機(jī)器人數(shù)據(jù)飛輪” 邁出關(guān)鍵一步。

2. 技術(shù)紅利自動(dòng)繼承:視頻生成領(lǐng)域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構(gòu)使其能自然受益于底座模型升級(jí),底座越強(qiáng),“預(yù)演” 越真。

3. 通用智能的堅(jiān)實(shí)基石:從單臂到雙臂,從已知場(chǎng)景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺(tái)、跨場(chǎng)景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

總結(jié)與展望

BridgeV2W 通過 “具身掩碼” 這一簡(jiǎn)潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實(shí)用具身世界模型的橋梁。它不僅解決了動(dòng)作 - 像素對(duì)齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關(guān)鍵的是:訓(xùn)練無(wú)需 URDF 或相機(jī)標(biāo)定,可直接利用海量無(wú)標(biāo)注人類視頻,為世界模型的規(guī)?;?xùn)練開辟了全新路徑。

目前展現(xiàn)的能力,或許只是冰山一角。

試想未來:當(dāng)視頻生成底座從十億參數(shù)邁向千億,當(dāng)訓(xùn)練數(shù)據(jù)從數(shù)千小時(shí)機(jī)器人視頻擴(kuò)展到百萬(wàn)小時(shí)人類操作視頻,當(dāng)具身掩碼從機(jī)械臂延伸至全身人形、乃至多機(jī)協(xié)作,機(jī)器人的 “預(yù)演能力” 將迎來怎樣的飛躍?

正如 DreamZero 等工作預(yù)示的 “機(jī)器人 GPT 時(shí)刻”,BridgeV2W 從另一個(gè)維度證明:

讓機(jī)器人借助視頻生成模型 “預(yù)演” 自身行動(dòng)的后果 —— 這條路,不僅走得通,而且可以走得很遠(yuǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
從腳抽筋到去世,僅僅1晚!這起悲劇,給所有人敲響了警鐘

從腳抽筋到去世,僅僅1晚!這起悲劇,給所有人敲響了警鐘

看世界的人
2026-03-01 18:43:45
WTT世界乒聯(lián)“點(diǎn)名”孫穎莎,釋放三個(gè)強(qiáng)烈信號(hào),王曼昱真沒說錯(cuò)

WTT世界乒聯(lián)“點(diǎn)名”孫穎莎,釋放三個(gè)強(qiáng)烈信號(hào),王曼昱真沒說錯(cuò)

林雁飛
2026-02-28 23:18:10
27個(gè)美軍基地被炸穿!伊朗飽和打擊破防,美國(guó)防空神話徹底崩塌

27個(gè)美軍基地被炸穿!伊朗飽和打擊破防,美國(guó)防空神話徹底崩塌

時(shí)光流轉(zhuǎn)追夢(mèng)人
2026-03-02 02:18:43
哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

紅星新聞
2026-03-01 11:51:17
黑天鵝突襲!三家公司同日被查,17萬(wàn)投資者踩雷

黑天鵝突襲!三家公司同日被查,17萬(wàn)投資者踩雷

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-01 23:40:09
前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

阿諢體育
2026-02-13 04:28:34
間隔不到48小時(shí),前總統(tǒng)又身亡!伊朗暴怒之下,宣布一重磅命令

間隔不到48小時(shí),前總統(tǒng)又身亡!伊朗暴怒之下,宣布一重磅命令

愛意隨風(fēng)起呀
2026-03-02 01:38:01
蔡依林事件升級(jí)!官方強(qiáng)勢(shì)出手,《北京歡迎你》鏡頭全刪,信號(hào)明顯

蔡依林事件升級(jí)!官方強(qiáng)勢(shì)出手,《北京歡迎你》鏡頭全刪,信號(hào)明顯

八卦王者
2026-02-28 21:30:08
巴基斯坦宣戰(zhàn)!塔利班瘋狂報(bào)復(fù)?中國(guó)看在眼中,緊急下場(chǎng)表態(tài)!

巴基斯坦宣戰(zhàn)!塔利班瘋狂報(bào)復(fù)?中國(guó)看在眼中,緊急下場(chǎng)表態(tài)!

我是盲流
2026-03-02 02:53:40
佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

曉看說
2026-03-01 14:00:47
親人去世,先打120還是殯儀館?記住這個(gè)順序,少跑90%彎路

親人去世,先打120還是殯儀館?記住這個(gè)順序,少跑90%彎路

白淺娛樂聊
2026-02-25 19:00:57
強(qiáng)援參戰(zhàn),伊軍第6輪導(dǎo)彈雨來襲,黑色血旗升起,特朗普真上當(dāng)了

強(qiáng)援參戰(zhàn),伊軍第6輪導(dǎo)彈雨來襲,黑色血旗升起,特朗普真上當(dāng)了

影孖看世界
2026-03-02 01:41:31
中國(guó)95%的房子,其實(shí)已經(jīng)沒有任何投資價(jià)值

中國(guó)95%的房子,其實(shí)已經(jīng)沒有任何投資價(jià)值

流蘇晚晴
2026-03-01 16:56:00
比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
臨死之前,哈梅內(nèi)伊做對(duì)了此生最后一件事!讓特朗普無(wú)法如愿以償

臨死之前,哈梅內(nèi)伊做對(duì)了此生最后一件事!讓特朗普無(wú)法如愿以償

涼羽亭
2026-03-01 23:28:22
哈梅內(nèi)伊身亡,投資者關(guān)心“然后”呢?周末唯一開盤的市場(chǎng)已完成從"大跌"到"大漲"

哈梅內(nèi)伊身亡,投資者關(guān)心“然后”呢?周末唯一開盤的市場(chǎng)已完成從"大跌"到"大漲"

華爾街見聞官方
2026-03-01 14:19:22
謝賢前女友CoCo賬號(hào)被封禁

謝賢前女友CoCo賬號(hào)被封禁

娛小余
2026-03-01 20:27:30
2-1!全都是角球,且都是阿森納進(jìn)的!多賽1輪領(lǐng)先曼城5分

2-1!全都是角球,且都是阿森納進(jìn)的!多賽1輪領(lǐng)先曼城5分

體育世界
2026-03-02 02:58:22
逆轉(zhuǎn)臺(tái)北2連勝!男籃5人滿分 朱俊龍李弘權(quán)一戰(zhàn)封神 趙睿險(xiǎn)成罪人

逆轉(zhuǎn)臺(tái)北2連勝!男籃5人滿分 朱俊龍李弘權(quán)一戰(zhàn)封神 趙睿險(xiǎn)成罪人

后仰大風(fēng)車
2026-03-01 18:03:17
2026-03-02 03:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

教育
旅游
親子
手機(jī)
軍事航空

教育要聞

初中階段的分化,從習(xí)慣悄悄開始

旅游要聞

青州春雨刷屏,千年古城煙雨朦朧,藏著最動(dòng)人的東方浪漫!

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

手機(jī)要聞

現(xiàn)場(chǎng)直擊!榮耀Robot Phone機(jī)器人手機(jī)長(zhǎng)啥樣

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版