国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港中深-跨維智能提出EVA框架,強(qiáng)化學(xué)習(xí)讓視頻世界模型“動(dòng)”起來(lái)

0
分享至

機(jī)器之心發(fā)布

近期,利用視頻生成模型為機(jī)器人構(gòu)建 “世界模型”,已成為具身智能領(lǐng)域的熱門技術(shù)路線。給定當(dāng)前觀測(cè)和自然語(yǔ)言指令,這類模型能夠先 “想象” 出未來(lái)的視覺軌跡,再由逆動(dòng)力學(xué)模型(IDM)將生成畫面解碼為機(jī)器人動(dòng)作,從而形成 “先預(yù)測(cè)、后執(zhí)行” 的解耦式規(guī)劃范式。由于兼具較強(qiáng)的可解釋性與開放場(chǎng)景泛化潛力,這一路線正在受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

然而,這一看似理想的范式背后,卻隱藏著一個(gè)關(guān)鍵瓶頸:生成的視頻未必對(duì)應(yīng)真實(shí)可執(zhí)行的動(dòng)作序列,即所謂的 “可執(zhí)行性鴻溝”(Executability Gap)

針對(duì)這一問(wèn)題,香港中文大學(xué)(深圳)與跨維智能的研究團(tuán)隊(duì)提出了一種全新的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架 ——Executable Video Alignment (EVA)。該框架創(chuàng)新性地將逆動(dòng)力學(xué)模型轉(zhuǎn)化為獎(jiǎng)勵(lì)模型,通過(guò)強(qiáng)化學(xué)習(xí)直接優(yōu)化視頻生成過(guò)程,使生成結(jié)果不僅 “看起來(lái)真實(shí)”,更 “動(dòng)起來(lái)可行”

這也表明,真正服務(wù)于機(jī)器人的世界模型不能只停留在二維視覺預(yù)測(cè)層面,而應(yīng)進(jìn)一步融入對(duì)世界物理的建模;本工作正是跨維智能此前提出的GS-World及其開源工具EmbodiChain所提出的核心思想的一個(gè)具體算法創(chuàng)新



  • 論文標(biāo)題:EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
  • 論文鏈接:https://arxiv.org/abs/2603.17808
  • 項(xiàng)目頁(yè): https://eva-project-page.github.io/
  • 代碼鏈接:https://github.com/RobbinW/EVA

痛點(diǎn):中看不中用的 “可執(zhí)行性鴻溝”

近年來(lái),視頻生成模型在機(jī)器人任務(wù)規(guī)劃中展現(xiàn)出很強(qiáng)的潛力。相比直接從圖像和語(yǔ)言映射到動(dòng)作序列,這類方法先生成未來(lái)視覺過(guò)程,再?gòu)闹谢謴?fù)動(dòng)作,天然具備更強(qiáng)的中間表征能力,也讓 “規(guī)劃” 變得更加直觀。

然而,現(xiàn)有視頻模型主要優(yōu)化的是像素分布或感知一致性,它們擅長(zhǎng)生成 “視覺上真實(shí)” 的內(nèi)容,卻并不真正理解機(jī)器人本體結(jié)構(gòu)、關(guān)節(jié)約束和運(yùn)動(dòng)學(xué)規(guī)律



由此帶來(lái)一種典型現(xiàn)象:生成的視頻在細(xì)節(jié)上卻可能存在機(jī)械臂局部形變、關(guān)節(jié)連接模糊、運(yùn)動(dòng)突然跳變等不符合運(yùn)動(dòng)學(xué)規(guī)律的問(wèn)題。經(jīng)過(guò)逆動(dòng)力學(xué)模型翻譯成動(dòng)作信號(hào)之后,這些偏差會(huì)被迅速放大,最終演化為抖動(dòng)、越界甚至完全不可執(zhí)行的控制指令。



破局之道:EVA 框架

圍繞這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了Executable Video Alignment(EVA)

EVA 的核心思想很直接:既然機(jī)器人最終需要的是可執(zhí)行的動(dòng)作序列,那么視頻生成模型的訓(xùn)練目標(biāo)就不應(yīng)只由視覺質(zhì)量決定,而應(yīng)該進(jìn)一步引入來(lái)自動(dòng)作空間的約束

具體而言,EVA 首先訓(xùn)練一個(gè)逆動(dòng)力學(xué)模型(Inverse Dynamics Model, IDM),讓它能夠根據(jù)視頻中的局部時(shí)序變化恢復(fù)出機(jī)器人動(dòng)作;隨后,再將這個(gè) IDM 擴(kuò)展作為 “獎(jiǎng)勵(lì)模型”,用于評(píng)估視頻生成結(jié)果對(duì)應(yīng)的動(dòng)作序列是否平滑、合理、符合機(jī)器人本體約束。

換句話說(shuō),EVA 讓視頻世界模型在監(jiān)督微調(diào)階段首先回答:

  • 這段視頻看起來(lái)真實(shí)嗎?
  • 是否符合任務(wù)語(yǔ)義?

而在強(qiáng)化學(xué)習(xí)階段進(jìn)一步回答:

  • 這段視頻如果被翻譯成動(dòng)作,機(jī)器人到底能不能執(zhí)行?
  • 它對(duì)應(yīng)的動(dòng)作軌跡是否平滑?
  • 是否違反速度、加速度等本體約束?
  • 是否會(huì)產(chǎn)生突兀跳變或不穩(wěn)定控制?

基于這一思路,研究團(tuán)隊(duì)在獎(jiǎng)勵(lì)設(shè)計(jì)中顯式引入了多種機(jī)器人執(zhí)行層面的約束,包括動(dòng)作速度變化、加速度平滑性以及更高階的jerk正則項(xiàng),同時(shí)對(duì)超過(guò)機(jī)器人本體限制的異常動(dòng)作進(jìn)行懲罰。通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練,模型會(huì)逐漸傾向于生成那些不僅視覺自然,而且對(duì)應(yīng)動(dòng)作更穩(wěn)定、更符合物理規(guī)律的未來(lái)軌跡。從本質(zhì)上看,EVA 并不是簡(jiǎn)單地 “修補(bǔ)視頻中的瑕疵”,而是在將視頻生成分布主動(dòng)拉回到機(jī)器人可行運(yùn)動(dòng)流形之上。



實(shí)驗(yàn)表現(xiàn):從仿真到真實(shí)的提升

為了驗(yàn)證 EVA 的有效性,研究團(tuán)隊(duì)在仿真和真實(shí)機(jī)器人平臺(tái)上進(jìn)行了系統(tǒng)實(shí)驗(yàn)。

  • 視覺規(guī)劃質(zhì)量飛躍:在視覺質(zhì)量評(píng)估中,經(jīng)過(guò) RL 對(duì)齊的 EVA 模型在 “運(yùn)動(dòng)學(xué)合理性”(Kinematic plausibility)上相比未對(duì)齊的基線模型大幅提升了 20.9%。在更嚴(yán)格的整體標(biāo)準(zhǔn)下,模型的 Perfect Execution 達(dá)到了 83.8%。這說(shuō)明 EVA 優(yōu)化的不只是 “畫面是否自然”,而是在減少機(jī)械臂形變、關(guān)節(jié)歧義和時(shí)序跳變等對(duì)執(zhí)行極其重要的結(jié)構(gòu)性偽影。



  • 仿真任務(wù)成功率提高:研究團(tuán)隊(duì)在當(dāng)前具身操作領(lǐng)域具有代表性的 RoboTwin 2.0 基準(zhǔn)上進(jìn)行了仿真實(shí)驗(yàn)評(píng)測(cè)。之所以選擇 RoboTwin,一方面是因?yàn)樗嫦螂p臂操作任務(wù),任務(wù)類型豐富、場(chǎng)景隨機(jī)性強(qiáng),能夠更真實(shí)地反映機(jī)器人在復(fù)雜環(huán)境中的操作能力;另一方面,RoboTwin 已逐漸成為檢驗(yàn) VLA 方法 與 具身世界模型方法 泛化能力和真實(shí)執(zhí)行潛力的重要公開基準(zhǔn),因此在這一平臺(tái)上的結(jié)果具有較強(qiáng)的說(shuō)服力。

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)對(duì)21 個(gè)雙臂任務(wù)進(jìn)行了系統(tǒng)評(píng)測(cè)。評(píng)測(cè)方式并不是只比較生成視頻 “看起來(lái)好不好”,而是將生成視頻進(jìn)一步交給逆動(dòng)力學(xué)模型(IDM)解碼為動(dòng)作序列,再真正送入控制系統(tǒng)執(zhí)行,并統(tǒng)計(jì)每個(gè)任務(wù) 20 次試驗(yàn)中的成功次數(shù)。換句話說(shuō),這一指標(biāo)考察的是:視頻世界模型生成的未來(lái),究竟能不能被機(jī)器人真正做出來(lái)。從結(jié)果來(lái)看,EVA(with RL)將平均成功率進(jìn)一步提升到 52.6%,不僅明顯超過(guò)未對(duì)齊版本,也整體優(yōu)于多種代表性 VLA 方法和機(jī)器人基礎(chǔ)模型基線。例如,在 ClickBell 任務(wù)上,EVA(with RL)達(dá)到 20/20;在 PressStapler 上達(dá)到 20/20;在 TurnSwitch 上達(dá)到 13/20,相比未對(duì)齊版本的 8/20 有明顯提升。



  • 真實(shí)世界部署更穩(wěn)定:為了進(jìn)一步驗(yàn)證方法在真實(shí)場(chǎng)景中的落地價(jià)值,研究團(tuán)隊(duì)還在真實(shí)雙臂機(jī)器人平臺(tái)上進(jìn)行了部署測(cè)試。結(jié)果表明,EVA 的優(yōu)勢(shì)并不只停留在仿真環(huán)境中,而是穩(wěn)定延伸到了真實(shí)機(jī)器人部署階段。對(duì)于 Seen tasks,經(jīng)過(guò)可執(zhí)行性對(duì)齊后的 EVA(with RL)達(dá)到 64.0%,明顯高于 ACT、π?、Vidar 和 GE-Act 等代表性基線方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任務(wù)上,EVA(with RL)都取得了更優(yōu)表現(xiàn)。更值得關(guān)注的是,在5 個(gè)全新的 OOD 任務(wù)上,EVA 的優(yōu)勢(shì)更加明顯。相比于基線方法,EVA(with RL) 將平均成功率提升至60.0%,顯示出更強(qiáng)的新任務(wù)適應(yīng)能力和跨場(chǎng)景泛化能力。



如果把這三組結(jié)果放在一起解讀,EVA 的貢獻(xiàn)就會(huì)更清晰:

它并不是單純把視頻 “變好看” 了,也不是只在某個(gè)局部指標(biāo)上做了優(yōu)化;它展示的是一條更完整的提升鏈條 ——

從視覺規(guī)劃質(zhì)量改善,到仿真執(zhí)行成功率提升,再到真實(shí)機(jī)器人部署更穩(wěn)定。

這條鏈條背后對(duì)應(yīng)的,其實(shí)正是 EVA 的核心判斷:對(duì)于具身世界模型來(lái)說(shuō),真正決定落地價(jià)值的,不只是 “能不能生成未來(lái)”,而是 “生成出來(lái)的未來(lái),能不能被機(jī)器人可靠地執(zhí)行”。而 EVA 通過(guò)逆動(dòng)力學(xué)獎(jiǎng)勵(lì),把這一點(diǎn)第一次系統(tǒng)性地變成了訓(xùn)練目標(biāo)。

拓展?jié)摿Γ毫銟颖旧少x能數(shù)據(jù)合成

除了提升視頻世界模型的執(zhí)行可靠性,EVA 還展現(xiàn)出一個(gè)極具潛力的延伸方向:面向具身智能的數(shù)據(jù)合成與增強(qiáng)

眾所周知,具身智能系統(tǒng)的發(fā)展長(zhǎng)期受制于高質(zhì)量機(jī)器人數(shù)據(jù)的稀缺。真實(shí)機(jī)器人采集不僅成本高、周期長(zhǎng),而且對(duì)人力示教和平臺(tái)條件高度依賴。EVA 所彌合的 “可執(zhí)行性鴻溝”,則為構(gòu)建全合成具身數(shù)據(jù)流水線打開了新的可能。

研究團(tuán)隊(duì)展示了一種零樣本(Zero-Shot)的數(shù)據(jù)生成方案:首先利用先進(jìn)的文本到圖像基礎(chǔ)模型生成多樣化的初始場(chǎng)景觀測(cè),再將這些圖像輸入經(jīng)過(guò)對(duì)齊后的 EVA 視頻世界模型,從而自動(dòng)生成具備合理物理約束的動(dòng)態(tài)視頻軌跡。相比以往僅追求視覺多樣性的合成方式,這一流程更進(jìn)一步保證了生成結(jié)果在動(dòng)作層面的可用性。

這意味著,未來(lái)或許可以在不依賴人工遙操作的前提下,持續(xù)合成更豐富、更可信、更接近真實(shí)執(zhí)行分布的具身數(shù)據(jù),為機(jī)器人學(xué)習(xí)提供新的規(guī)模化路徑。



結(jié)語(yǔ):從 “會(huì)生成” 到 “會(huì)執(zhí)行”,EVA 補(bǔ)上關(guān)鍵一步

這項(xiàng)工作的一個(gè)重要意義在于,它提醒整個(gè)領(lǐng)域重新思考視頻世界模型的評(píng)價(jià)標(biāo)準(zhǔn)。

過(guò)去,許多研究更關(guān)注生成結(jié)果是否清晰、連貫、符合語(yǔ)義,但對(duì)于機(jī)器人而言,這些指標(biāo)遠(yuǎn)遠(yuǎn)不夠。因?yàn)闄C(jī)器人并不是在 “觀看” 世界模型生成的畫面,而是在 “執(zhí)行” 這些畫面背后所對(duì)應(yīng)的動(dòng)作與交互過(guò)程。

從這個(gè)意義上看,EVA 提供了一條重要的技術(shù)路徑:它讓視頻世界模型不再只是生成未來(lái)畫面,而是開始面向真實(shí)機(jī)器人執(zhí)行去優(yōu)化未來(lái)軌跡。EVA 所補(bǔ)上的,正是視覺合理性與動(dòng)作可執(zhí)行性之間長(zhǎng)期存在的關(guān)鍵缺口,推動(dòng)世界模型從 “看起來(lái)合理” 邁向 “真正能夠執(zhí)行”。

EVA 主要聚焦于運(yùn)動(dòng)學(xué)層面的對(duì)齊,其拓展可進(jìn)一步引入更豐富的動(dòng)力學(xué)約束,例如接觸力、摩擦、扭矩等真實(shí)物理因素。更進(jìn)一步說(shuō),要讓世界模型真正服務(wù)于具身智能,僅僅具備二維視覺生成能力仍然不夠。更 “好用” 的世界模型,需要進(jìn)一步走向?qū)θS空間結(jié)構(gòu)、真實(shí)物理規(guī)律和連續(xù)交互過(guò)程的統(tǒng)一理解。沿著這條路徑,世界模型才有可能真正成為支撐具身智能決策、執(zhí)行與泛化的基礎(chǔ)能力。這個(gè)方向,也正與跨維智能圍繞 GS-World(Generative Simulation World Model) 和其開源平臺(tái) EmbodiChain 所推進(jìn)的研究主線一脈相承:前者致力于以生成式仿真建模 3D 資產(chǎn)、環(huán)境和物理交互規(guī)則,后者則作為面向具身智能的 Real2Sim2Real 引擎,連接場(chǎng)景生成、數(shù)據(jù)合成、模型訓(xùn)練和 Sim2Real 部署。

通過(guò) EVA,跨維智能已經(jīng)給出了一個(gè)清晰的信號(hào):

機(jī)器人需要的,不只是會(huì) “想象未來(lái)” 的世界模型,更是能夠在真實(shí)三維物理世界中 “做得出來(lái)” 的世界模型

而這,或許正是世界模型邁向具身智能落地過(guò)程中,最關(guān)鍵的一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
安杰每次和江德福親熱完,第一件事不是溫存,而是光腳下床開窗

安杰每次和江德福親熱完,第一件事不是溫存,而是光腳下床開窗

西樓知趣雜談
2026-03-11 21:48:37
毒梟留下的河馬,成災(zāi)了

毒梟留下的河馬,成災(zāi)了

中國(guó)新聞周刊
2026-03-11 10:45:05
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

照見古今
2026-03-12 19:27:38
美國(guó)搶來(lái)的委油,竟把自家四大煉廠連環(huán)炸上天,比挨炸的伊朗還慘

美國(guó)搶來(lái)的委油,竟把自家四大煉廠連環(huán)炸上天,比挨炸的伊朗還慘

史行途
2026-03-28 02:36:00
活久見!奶奶從集市買回小雞,要先用火烤一烤,網(wǎng)友怒斥“兇狠”

活久見!奶奶從集市買回小雞,要先用火烤一烤,網(wǎng)友怒斥“兇狠”

火山詩(shī)話
2026-03-29 07:05:31
初中女孩因厭學(xué)情緒引發(fā)熱議,"她需要的是黃毛!"引發(fā)爭(zhēng)議。

初中女孩因厭學(xué)情緒引發(fā)熱議,"她需要的是黃毛!"引發(fā)爭(zhēng)議。

特約前排觀眾
2026-03-18 00:10:03
女孩考上清大父母不出錢,舅舅賣血供她,8年后給父母買房舅舅300

女孩考上清大父母不出錢,舅舅賣血供她,8年后給父母買房舅舅300

溫情郵局
2025-08-27 11:08:01
G7外長(zhǎng)會(huì)內(nèi)訌升級(jí),法德當(dāng)場(chǎng)沖突,日方直指聯(lián)合國(guó)

G7外長(zhǎng)會(huì)內(nèi)訌升級(jí),法德當(dāng)場(chǎng)沖突,日方直指聯(lián)合國(guó)

半身Naked
2026-03-28 13:39:21
足壇一夜動(dòng)態(tài):比利時(shí)5-2美國(guó) 日本1-0絕殺蘇格蘭 韓國(guó)0-4慘敗

足壇一夜動(dòng)態(tài):比利時(shí)5-2美國(guó) 日本1-0絕殺蘇格蘭 韓國(guó)0-4慘敗

念洲
2026-03-29 06:39:46
娛記揭郭嘉文李澤楷分手真相!非催婚惹怒男方,網(wǎng)友:好人家誰(shuí)娶她

娛記揭郭嘉文李澤楷分手真相!非催婚惹怒男方,網(wǎng)友:好人家誰(shuí)娶她

東方不敗然多多
2026-03-27 02:01:11
吳京回應(yīng)謝楠登上《乘風(fēng)2026》:我和兒子已經(jīng)搬好板凳準(zhǔn)備就緒

吳京回應(yīng)謝楠登上《乘風(fēng)2026》:我和兒子已經(jīng)搬好板凳準(zhǔn)備就緒

東方不敗然多多
2026-03-28 14:29:22
中國(guó)百億港口項(xiàng)目被踢開,歐洲撿漏,結(jié)果反而干成了?

中國(guó)百億港口項(xiàng)目被踢開,歐洲撿漏,結(jié)果反而干成了?

李子櫥
2026-03-28 08:25:06
想拿中國(guó)尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

想拿中國(guó)尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

鐵錘妹妹是只貓
2026-03-27 20:09:11
iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

快科技
2026-03-28 19:53:31
這次確定了!東契奇將被禁賽!三巨頭81分,魔鬼賽程要來(lái)了

這次確定了!東契奇將被禁賽!三巨頭81分,魔鬼賽程要來(lái)了

Haviven聊球
2026-03-28 22:34:06
我在西班牙呆了8年,說(shuō)句可能不太好聽的大實(shí)話,不要急著反駁我

我在西班牙呆了8年,說(shuō)句可能不太好聽的大實(shí)話,不要急著反駁我

世界圈
2026-03-19 13:02:46
閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個(gè)數(shù)字

閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個(gè)數(shù)字

磊子講史
2026-01-23 16:54:49
眾籌9.5億的游戲,庫(kù)存系統(tǒng)終于能用了

眾籌9.5億的游戲,庫(kù)存系統(tǒng)終于能用了

報(bào)錯(cuò)免疫體
2026-03-28 14:15:04
NBA分析師:詹姆斯2016年相當(dāng)于2庫(kù)里,比地球上任何人都出色得多

NBA分析師:詹姆斯2016年相當(dāng)于2庫(kù)里,比地球上任何人都出色得多

好火子
2026-03-29 05:40:30
形勢(shì)有多嚴(yán)峻?35歲失業(yè)男與年輕女人事激烈碰撞,評(píng)論區(qū)炸鍋…

形勢(shì)有多嚴(yán)峻?35歲失業(yè)男與年輕女人事激烈碰撞,評(píng)論區(qū)炸鍋…

慧翔百科
2026-03-27 12:17:09
2026-03-29 08:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

健康
親子
手機(jī)
時(shí)尚
旅游

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

全國(guó)學(xué)前教育專家齊聚深圳,共探美育與體育深度融合落地路徑

手機(jī)要聞

與直板機(jī)坐一桌 OPPO Find N6躋身暢銷機(jī)榜單

和田曦薇一樣嫩嘟嘟,這3個(gè)變美技巧你一定不能錯(cuò)過(guò)!

旅游要聞

跟著天氣游山東|東營(yíng)廣饒·孫子文化園探秘

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版