国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打通視頻生成與機器人世界模型,BridgeV2W 讓機器人學會"預演未來"

0
分享至

機器人如何"腦補"未來?

想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經(jīng)在"腦補"了整個過程:手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子……這種對未來場景的想象和預測能力,正是人類操控世界的核心認知基石。

那么,能否賦予機器人同樣的“預演能力”,先在“腦?!敝心M動作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機器人在行動前,就能“看見”未來。近年來,借助大規(guī)模視頻生成模型(如Sora、Wan等)強大的視覺先驗,這一方向取得了令人矚目的進展。

然而,一個尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機器人的語言卻是關節(jié)角度與位姿坐標,它們使用完全不同的“表征語言”描述同一個物理世界。

為了解決上述問題,具身智能公司中科第五紀聯(lián)合中科院自動化所團隊推出 BridgeV2W,它通過一個極為優(yōu)雅的設計,具身掩碼(Embodiment Mask),一種由機器人動作渲染出的“動作剪影”,將坐標空間的動作無縫映射到像素空間,從而真正打通預訓練視頻生成模型與世界模型之間的橋梁,讓機器人學會可靠地“預演未來”。


困境:三座大山擋住了機器人的"預演能力"

盡管前景廣闊,當前的具身世界模型仍面臨三大核心挑戰(zhàn):

1.動作與畫面“語言不通”。機器人動作是關節(jié)角、末端位姿等坐標數(shù)值,而視頻生成模型只“看”像素。直接拼接動作向量效果有限,往往缺乏空間對齊的“硬連接”,模型難以理解。

2.視角一變,世界就“崩”。同一動作在不同視角下外觀迥異?,F(xiàn)有方法在訓練視角上尚可,一旦換視角,預測質量驟降,而真實場景中,相機位置幾乎不可能復現(xiàn)訓練設置。

3.換一個機器人就得“從零開始”。單臂、雙臂、移動底盤……結構千差萬別?,F(xiàn)有方法往往需為每種機器人定制架構,難以構建統(tǒng)一的世界模型。

核心創(chuàng)新:僅憑"動作剪影",一舉破解三大難題

BridgeV2W 的核心洞察極其直覺:既然鴻溝源于“坐標 vs 像素”,那就把動作直接“畫”進畫面里!

它提出具身掩碼:利用機器人的 URDF 模型和相機參數(shù),將動作序列實時渲染為每幀圖像上的二值“動作剪影”,精準標出機器人在畫面中的位置與姿態(tài)。

這一設計,一舉破解前述三大難題:

  • 動作-像素對齊:掩碼是天然的像素級信號,與視頻模型輸入空間完全匹配,無需模型“猜”坐標的含義。

  • 視角自適應:掩碼隨當前相機視角動態(tài)生成,動作與畫面始終對齊,模型因此天然泛化到任意新視角。

  • 跨具身通用:只要提供 URDF,單臂、雙臂機器人都能用同一套框架生成對應掩碼,無需修改模型結構。

技術上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號融入預訓練視頻生成模型,在保留其強大視覺先驗的同時,賦予其理解機器人動作的能力。此外,為防止模型“偷懶”(只復現(xiàn)靜態(tài)背景),還引入光流驅動的運動損失,引導其聚焦于任務相關的動態(tài)區(qū)域。

實驗結果:多場景、多機器人、多視角的全面驗證

研究團隊在多個設置下系統(tǒng)驗證了BridgeV2W的能力,涵蓋不同機器人平臺、不同操作場景、未見視角和下游任務應用。

DROID數(shù)據(jù)集:大規(guī)模單臂操作

DROID是目前最大規(guī)模的真實世界機器人操作數(shù)據(jù)集之一,數(shù)據(jù)采集跨越多個實驗室和環(huán)境。BridgeV2W在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標上超越 SOTA 方法。

尤其在“未見視角”測試中,對比方法常出現(xiàn)畫面崩塌、肢體錯位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗證了其視角魯棒性。在“未見場景”(全新桌面布局、背景)下,泛化能力同樣出色。


AgiBot-G1數(shù)據(jù)集:雙臂人形機器人

AgiBot-G1 是一個完全不同的雙臂平臺,自由度與運動模式與 DROID 截然不同。

關鍵結果:無需修改模型架構,僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無縫適配,并取得媲美單臂的預測質量,這是邁向通用具身世界模型的重要一步。


下游任務應用:從"想象"到"行動"

BridgeV2W不僅僅是一個"能生成好看視頻"的模型,研究團隊進一步在真實世界的下游任務中驗證了其實用價值:

策略評估:在世界模型中“試跑”不同策略,無需真實機器人反復試錯。實驗顯示,BridgeV2W 的評估結果與真實成功率高度相關,大幅降低策略迭代成本。

目標圖像操作規(guī)劃:給定一張目標圖像(如“把杯子放到盤子上”),BridgeV2W 能在“想象空間”中搜索出可行動作序列,實現(xiàn)從視覺目標到物理動作的閉環(huán)規(guī)劃。

關鍵亮點:海量無標注人類視頻,全都能用!

你可能會問:具身掩碼不是需要 URDF 和相機參數(shù)嗎?沒有這些幾何信息的數(shù)據(jù)怎么辦?

BridgeV2W 的巧妙之處在于:

?推理時需輕量幾何信息(URDF + 相機參數(shù))渲染“計算掩碼”,用于精準控制;

?訓練時卻無需任何標定:只需分割模型(如 SAM)提取的“分割掩碼”,即可提供有效監(jiān)督。

團隊將 AgiBot-G1 機器人數(shù)據(jù)與無標定的 Ego4D FHO(第一人稱手部操作視頻)混合訓練,僅用 SAM 提取的手部掩碼,就實現(xiàn)了驚人效果:

?僅用分割掩碼訓練,模型仍能學到合理的運動規(guī)律;

?加入大量 Ego4D 視頻 + 少量機器人標定數(shù)據(jù),性能幾乎媲美全量標定訓練。


這說明:人類視頻蘊含豐富的動作先驗,只需少量機器人數(shù)據(jù),就能完成“具身對齊”。

一句話總結:訓練靠“野生”視頻擴規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴展性與準確性。

BridgeV2W揭示了一條極具前景的技術路線:

視頻生成模型 + 具身掩碼 = 可擴展的機器人世界模型

這條路線有三個關鍵優(yōu)勢值得深思:

  • 1、數(shù)據(jù)飛輪真正啟動:互聯(lián)網(wǎng)視頻規(guī)模遠超機器人數(shù)據(jù)數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗即可利用人類視頻,為構建“機器人數(shù)據(jù)飛輪”邁出關鍵一步。

  • 2、技術紅利自動繼承:視頻生成領域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構使其能自然受益于底座模型升級,底座越強,“預演”越真。

  • 3、通用智能的堅實基石:從單臂到雙臂,從已知場景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

總結與展望

BridgeV2W 通過“具身掩碼”這一簡潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實用具身世界模型的橋梁。它不僅解決了動作-像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關鍵的是:訓練無需 URDF 或相機標定,可直接利用海量無標注人類視頻,為世界模型的規(guī)?;柧氶_辟了全新路徑。

目前展現(xiàn)的能力,或許只是冰山一角。

試想未來:當視頻生成底座從十億參數(shù)邁向千億,當訓練數(shù)據(jù)從數(shù)千小時機器人視頻擴展到百萬小時人類操作視頻,當具身掩碼從機械臂延伸至全身人形、乃至多機協(xié)作,機器人的“預演能力”將迎來怎樣的飛躍?

正如 DreamZero 等工作預示的“機器人 GPT 時刻”,BridgeV2W 從另一個維度證明:

讓機器人借助視頻生成模型“預演”自身行動的后果——這條路,不僅走得通,而且可以走得很遠。

論文標題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

論文鏈接:https://arxiv.org/pdf/2602.03793

項目鏈接:https://bridgev2w.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3月1日起全國執(zhí)行!這些費用全取消,家家都能??!

3月1日起全國執(zhí)行!這些費用全取消,家家都能??!

達文西看世界
2026-03-02 15:40:41
伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

書紀文譚
2026-03-02 17:24:46
看完這三張底牌,你就知道伊朗“帶路黨”要“變天”有多難?

看完這三張底牌,你就知道伊朗“帶路黨”要“變天”有多難?

文昌每日談
2026-03-02 13:14:00
35年前,美國科學家進行實驗,4男4女共處一室2年,結果怎么樣?

35年前,美國科學家進行實驗,4男4女共處一室2年,結果怎么樣?

小豫講故事
2026-03-02 06:00:03
終于反噬!網(wǎng)約車大量低價單沒人接,司機:報應來了。

終于反噬!網(wǎng)約車大量低價單沒人接,司機:報應來了。

我不叫阿哏
2026-03-02 17:00:41
伊朗貨幣一夜貶值97%,對普通人來說這否是時代的塵埃落在肩上?

伊朗貨幣一夜貶值97%,對普通人來說這否是時代的塵埃落在肩上?

聞號說經(jīng)濟
2026-03-02 17:08:38
暴跌40%,關店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

暴跌40%,關店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

好賢觀史記
2026-03-02 20:17:10
既然給臉不要臉,那就徹底撕破臉!王毅外長已經(jīng)把話挑明了

既然給臉不要臉,那就徹底撕破臉!王毅外長已經(jīng)把話挑明了

安安說
2026-02-01 14:01:51
現(xiàn)實教訓!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

現(xiàn)實教訓!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

今朝牛馬
2026-03-02 21:27:47
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
“斬首”行動細節(jié)揭秘:美以戰(zhàn)機同地起飛,直撲哈梅內(nèi)伊

“斬首”行動細節(jié)揭秘:美以戰(zhàn)機同地起飛,直撲哈梅內(nèi)伊

中國新聞周刊
2026-03-02 10:32:04
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

財聯(lián)社
2026-03-02 20:44:25
上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

兵國大事
2026-03-02 00:00:35
哈梅內(nèi)伊的死都沒讓伊朗人一條心,還有人鼓掌慶祝:是偉大的一天

哈梅內(nèi)伊的死都沒讓伊朗人一條心,還有人鼓掌慶祝:是偉大的一天

社會醬
2026-03-02 17:20:28
王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

南權先生
2026-02-02 15:59:44
涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
民政部門正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

民政部門正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

南方健哥
2026-03-02 12:42:15
伊朗指揮中樞遭團滅,數(shù)千名軍官正排隊投降

伊朗指揮中樞遭團滅,數(shù)千名軍官正排隊投降

西樓飲月
2026-03-02 16:30:15
2026-03-03 02:40:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關注智能與未來!
68618文章數(shù) 656082關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

旅游
教育
房產(chǎn)
時尚
軍事航空

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

今年春天一定要擁有的4件衣服,太好看了!

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版