国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

港大俞益洲團隊發(fā)布首篇「高效視頻世界模型」全面綜述

0
分享至



本篇綜述工作由香港大學博士生何沐陽、郭瀚中、林俊雄(共同第一作者)及香港大學俞益洲教授完成。

還記得兩年前,AI 生視頻可謂是「鬼畜專區(qū)」—— 人物多一根手指算基操,走路自帶鬼步舞才是常態(tài)。結果轉眼間,從 OpenAI 的 Sora 到字節(jié)跳動的 Seedance,這些模型已經開始一本正經地「模擬世界」了:水會流、球會彈、光影能追蹤,儼然一副要當「物理引擎」的架勢。

研究人員也越來越相信,視頻生成模型不只是個「特效師」,更有潛力成為理解物理規(guī)律的世界模型(World Models)—— 一條通向通用人工智能(AGI)的硬核賽道。

然而,在這一廣闊前景之前,仍存在著一個極其嚴峻的挑戰(zhàn):計算成本與速度。

視頻生成模型要作為世界模擬器,需要維持長期的時空一致性、遵守物理約束,并支持高分辨率的交互式生成。但高維度的視頻數據和復雜的物理動態(tài)導致了海量的計算開銷,使得模型陷入了「長時一致性」「實時高可用」與「物理準確性」難以兼得的「不可能三角」。

現(xiàn)有文獻大多聚焦于視頻生成的一般性進展,卻鮮有工作系統(tǒng)性地探討「如何通過提升效率來成就真正的世界模型」。

在這篇最新的綜述中,港大俞益洲團隊首次聚焦于「高效性」(Efficiency)這一決定視頻生成器能否成功轉化為實用世界模型的關鍵先決條件,從理論潛力與龐大計算成本之間的鴻溝出發(fā),系統(tǒng)且全面地梳理了高效視頻世界模型的發(fā)展脈絡、關鍵技術與最新進展。



  • 論文地址:
  • https://arxiv.org/abs/2603.28489
  • 或https://huggingface.co/papers/2603.28489

具體來說,團隊從高效建模范式、高效模型架構和高效推理算法三個維度對現(xiàn)有工作進行了分類分析,并進一步探討了這些高效技術如何賦能下游的應用領域,包括自動駕駛、具身智能、游戲與交互等。



團隊詳盡地梳理了以下核心內容。

高效建模范式(Efficient Modeling)

該部分重點探討了從視頻生成問題最基本的建模范式出發(fā),如何將模型從短片段生成擴展到支持長周期、交互式的世界建模。包括:

  • 擴散模型蒸餾(Diffusion Model Distillation):通過步數縮減、一致性蒸餾和對抗性蒸餾等方法,將采樣步數壓縮至幾步甚至單步,大幅降低生成延遲;
  • 自回歸與混合方法(Auto-Regressive & Hybrid AR-Diffusion):使用自回歸(AR)模型或結合 AR 和 Diffusion,旨在實現(xiàn)長周期推理能力,保持高保真度;還包括一類將擴散過程流式因果化的方法。

高效模型架構(Efficient Architectures)

架構設計是緩解時空冗余和 attention 機制平方計算復雜度的最直接方法。涵蓋了四大方向:

  • 層次化與 VAE 設計(Hierarchical & VAE Designs):通過粗到細(Coarse-to-fine)的級聯(lián)生成降低計算成本,或通過高效的 VAE 設計實現(xiàn)隱空間壓縮和降維;
  • 長上下文與記憶機制(Long Context & Memory Mechanisms):引入視覺記憶、空間記憶(如 3D 點云 / 網格)、上下文壓縮或隱式模型記憶(測試時訓練),以維持長周期的物理與邏輯一致性;
  • 高效注意力機制(Efficient Attention):利用稀疏注意力、窗口注意力、線性注意力乃至狀態(tài)空間模型(如 Mamba)來替代昂貴的全局注意力;
  • 外推與 RoPE 技術(Extrapolation and RoPE):通過位置編碼的優(yōu)化,實現(xiàn)無需訓練的長序列外推生成。

高效推理算法(Efficient Inference)

面向數十億參數級大模型的實際部署,團隊總結了四類關鍵的推理優(yōu)化策略:

  • 并行化(Parallelism):分布式推理(空間、序列及流水線并行);
  • 緩存機制(Caching):利用擴散模型相鄰去噪步之間的時空冗余進行特征復用;
  • 剪枝(Pruning):包含 token 級合并 / 丟棄,以及網絡架構(channel、layer 級)剪枝;
  • 量化(Quantization):以 8bit、4bit 部署,涵蓋從注意力機制量化到訓練后量化(PTQ)與量化感知訓練(QAT)、及時間維度的動態(tài)量化策略。

賦能應用(Applications)

團隊詳細分析了高效技術如何直接推動視頻世界模型在三大核心領域的應用:

1.自動駕駛(Autonomous Driving):讓 AI 司機在「腦內駕!咕毜疆厴I(yè)

這大概是視頻世界模型最剛需的戰(zhàn)場。綜述從三個維度梳理了它的打法:

  • 一是數據合成——現(xiàn)實世界里,「鬼探頭」、極端天氣等長尾場景可遇不可求,但世界模型可以批量「腦補」出來,給感知和規(guī)劃模型當訓練素材(代表作如 GAIA 系列、MagicDrive-V2);
  • 二是閉環(huán)交互模擬—— 把世界模型當虛擬考場,AI 在里面不斷試駕、犯錯、學習,形成「生成 — 評估 — 重訓」的飛輪(如 Vista、ADriver-I 實現(xiàn)了「在 AI 生成的虛擬世界里無限開車」);
  • 三是生成式規(guī)劃—— 模型在腦中「想象」多條未來軌跡,挑最優(yōu)的那條執(zhí)行,相當于讓自動駕駛系統(tǒng)擁有了「先在腦子里過一遍」的能力(如 Drive-WM、DriveLAW 等將視頻生成與動作規(guī)劃共享同一個隱空間)。

2.具身智能(Embodied AI):給機器人裝一個「物理直覺」

機器人領域最頭疼的問題之一就是數據 ——真實環(huán)境數據采集成本高、分布窄。

視頻世界模型在這里扮演了三重角色:

首先是數據引擎,比如 GigaWorld-0 通過文本引導真實視頻編輯來擴充訓練數據,DreamGen 用世界模型的「想象」直接生成軌跡級監(jiān)督信號,GenMimic 甚至把人類運動視頻「遷移」到人形機器人上做強化學習;

其次是交互式模擬器,機器人可以在世界模型生成的虛擬環(huán)境里安全試錯(如 Ctrl-World、DreamDojo);

最值得關注的是生成式策略學習——GR-1 在大規(guī)模視頻上預訓練再遷移到機器人操作,F(xiàn)ast-WAM 更是提出了 WAM(World Action Model)范式的關鍵證據:世界模型的增益主要來自視頻聯(lián)合訓練塑造的物理表征,而非推理時的顯式「想象」。僅 15M 參數的 LeWorldModel 則證明,小而精的隱空間世界模型也能實現(xiàn)高效規(guī)劃。

3.游戲與交互式世界模擬(Game & Interactive Simulation):AI 當上了「游戲引擎」

游戲天然提供了閉環(huán)交互接口和可控評測環(huán)境,是世界模型的理想試驗田。

GameGen-X 把鍵盤鼠標操作注入生成過程,Matrix-Game 2.0 在 GTA5 和虛幻引擎數據上訓練,實現(xiàn)了約 25 FPS 的交互生成和分鐘級長序列滾動推演。DreamerV4 則用世界模型充當強化學習的虛擬訓練場,讓智能體在「腦內世界」練習復雜的長程任務。

更通用的方向上,WorldPlay 主打高分辨率實時生成,Yume1.5 通過上下文壓縮和蒸餾降低長序列延遲,開源項目 LingBot-World 則將分層語義數據引擎與多階段訓練結合,追求低延遲交互與長期記憶的統(tǒng)一。



此外,團隊也分析了 talking head、實時互動創(chuàng)作、3D/4D 場景等領域的相關工作。

總的來說,盡管視頻生成在分辨率、擬真度、時長等方面取得了令人矚目的突破,但要賦予模型真正的物理推理和環(huán)境模擬能力,仍面臨著巨大的算力挑戰(zhàn)。

在這方面,將多角度效率優(yōu)化與視頻生成的時空屬性深度結合,展現(xiàn)出了不可替代的價值。

為此,團隊首次基于「面向高效性」(Efficiency-oriented) 的視角,對視頻世界模型進行了全景式的綜述。

通過系統(tǒng)整理模型范式、架構創(chuàng)新到高效推理的各個環(huán)節(jié),我們厘清了該領域的發(fā)展脈絡與關鍵方法,還指出了當前存在的關鍵局限(如長時間生成的誤差累積、物理一致性困境等)以及未來的潛在突破口。

團隊希望本篇綜述能為廣大研究人員帶來新的啟發(fā),共同推動視頻生成模型向著通用、實時且魯棒的物理世界模擬器邁出堅實的一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這個被臺灣偽政權控制的非洲小國,共產黨正在茁壯成長

這個被臺灣偽政權控制的非洲小國,共產黨正在茁壯成長

新潮沉思錄
2026-04-23 19:37:23
恒大高管排隊吐錢,最高接近2億!你的房子能保住嗎?

恒大高管排隊吐錢,最高接近2億!你的房子能保住嗎?

人生錄
2026-04-24 09:33:32
為何以前五一放7天,現(xiàn)在卻改成五天還得調休,原來都是他的建議

為何以前五一放7天,現(xiàn)在卻改成五天還得調休,原來都是他的建議

芭比衣櫥
2026-04-24 03:26:27
小香玉生活難自理,離婚失藝名終自討苦吃

小香玉生活難自理,離婚失藝名終自討苦吃

悅君兮君不知
2026-04-24 00:29:39
?尚界Z7發(fā)布會趴窩:除了惡心小米,它還剩下什么?

?尚界Z7發(fā)布會趴窩:除了惡心小米,它還剩下什么?

虔青
2026-04-24 10:12:36
山東醫(yī)藥大學通報“展某某學位證無法認證”:成立工作組調查核實

山東醫(yī)藥大學通報“展某某學位證無法認證”:成立工作組調查核實

界面新聞
2026-04-24 06:53:49
拳打特斯拉,腳踢豐田!國產保姆車殺瘋了,拿捏一眾中產富豪

拳打特斯拉,腳踢豐田!國產保姆車殺瘋了,拿捏一眾中產富豪

品牌觀察官
2026-04-22 16:59:59
狂砸數萬大軍:以色列為何非把真主黨逼上絕路,絕不留一絲退路!

狂砸數萬大軍:以色列為何非把真主黨逼上絕路,絕不留一絲退路!

寰球經緯所
2026-04-23 21:35:48
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

青梅侃史啊
2026-04-21 19:37:02
人社部、財政部通知:支持大學畢業(yè)生“回爐”讀技校

人社部、財政部通知:支持大學畢業(yè)生“回爐”讀技校

深度報
2026-04-23 22:43:47
京東給年輕人造了一輛轎跑,售價低至12.7萬元

京東給年輕人造了一輛轎跑,售價低至12.7萬元

財天COVER
2026-04-24 10:44:40
大反轉:掌摑女家長的男保安,真實身份曝光!

大反轉:掌摑女家長的男保安,真實身份曝光!

仕道
2026-04-24 08:12:39
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
蔣萬安發(fā)出強硬警告,"中國臺灣。⒆呦驀H,10國選擇明智應對

蔣萬安發(fā)出強硬警告,"中國臺灣。⒆呦驀H,10國選擇明智應對

影孖看世界
2026-04-24 11:59:09
明確了:放寬至38周歲!

明確了:放寬至38周歲!

新牛城
2026-04-23 17:18:51
“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

妍妍教育日記
2026-04-24 09:05:03
馬刺顫抖吧!那個男人要回來了

馬刺顫抖吧!那個男人要回來了

夜白侃球
2026-04-24 14:13:40
形勢有多嚴峻?才4月份,廣東就有公司放長假,多少人又要失業(yè)

形勢有多嚴峻?才4月份,廣東就有公司放長假,多少人又要失業(yè)

慧翔百科
2026-04-24 11:46:34
布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

史政先鋒
2026-04-24 11:28:28
騎士慘負猛龍被追到2-1:哈登18+8失誤雙里程碑 猛龍雙星66分

騎士慘負猛龍被追到2-1:哈登18+8失誤雙里程碑 猛龍雙星66分

醉臥浮生
2026-04-24 10:33:50
2026-04-24 14:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12847文章數 142635關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發(fā)布 百萬上下文

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養(yǎng)

財經要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續(xù)航近800km 新款寶馬7系/i7亮相

態(tài)度原創(chuàng)

時尚
游戲
健康
公開課
軍事航空

襯衫+半裙,比別人好看不止一點點

夢幻西游10開搬磚月入4189?這個游戲成就即將絕版

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版