網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Motif Technologies的視頻生成模型是如何做到的？

2026-04-28 17:22:05　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由韓國Motif Technologies獨(dú)立完成的研究，以技術(shù)報(bào)告形式于2026年4月14日發(fā)布在預(yù)印本平臺(tái)arXiv，論文編號(hào)為arXiv:2604.16503v1。研究團(tuán)隊(duì)在微軟Azure云平臺(tái)上完成了全部訓(xùn)練工作，基礎(chǔ)設(shè)施由SkyPilot在Kubernetes集群上管理。感興趣的讀者可以通過論文編號(hào)arXiv:2604.16503直接檢索完整原文。

如果你曾經(jīng)用過能"根據(jù)文字描述生成視頻"的AI工具，就知道這類技術(shù)通常是科技巨頭的專屬游樂場(chǎng)。訓(xùn)練一個(gè)像樣的視頻生成模型，往往意味著需要數(shù)億條精心整理的視頻素材、數(shù)十億參數(shù)的龐大模型，以及耗資驚人的算力。Wan2.1、HunyuanVideo、Seedance這些目前最強(qiáng)的開源視頻生成模型，參數(shù)量都在50億到140億之間，背后是各家大廠傾盡全力的資源投入。

然而，Motif Technologies這支團(tuán)隊(duì)卻在問一個(gè)有些"叛逆"的問題：如果我們不靠堆參數(shù)、堆數(shù)據(jù)、堆算力，還能造出好用的視頻生成模型嗎？

他們給出的答案叫做**Motif-Video 2B**——一個(gè)僅有20億參數(shù)的視頻生成模型，用不到1000萬條訓(xùn)練視頻、不到10萬小時(shí)的H200 GPU算力完成訓(xùn)練，最終在視頻生成領(lǐng)域最權(quán)威的評(píng)測(cè)基準(zhǔn)VBench上拿到了83.76%的分?jǐn)?shù)，把參數(shù)量整整是自己7倍的Wan2.1-14B（83.69%）擋在了身后。

這件事本身就值得好好聊一聊——他們究竟是怎么做到的。

一、視頻生成為什么那么難？三個(gè)目標(biāo)互相"打架"

在深入了解Motif-Video 2B的解法之前，先要理解視頻生成到底難在哪里。

生成一張圖片，AI只需要完成一件事：根據(jù)文字描述，畫出一張好看、符合語義的畫面。但生成一段視頻，AI同時(shí)要完成三件截然不同的事情：第一，忠實(shí)地按照文字描述的內(nèi)容來生成畫面，比如"一個(gè)穿紅色襯衫的男人推著木車走在石板路上"，畫面里就得出現(xiàn)這些元素；第二，保證視頻前后幀的一致性，不能上一幀男人的襯衫是紅色，下一幀突然變成藍(lán)色；第三，要把畫面細(xì)節(jié)刻畫得足夠清晰精細(xì)，毛發(fā)、紋理、光影都要到位。

麻煩在于，這三件事在模型內(nèi)部會(huì)互相爭(zhēng)奪資源。當(dāng)模型在努力學(xué)習(xí)"第37幀和第38幀之間人物的動(dòng)作要連貫"時(shí)，它分配給"理解文字描述中那只貓的顏色"的注意力就相應(yīng)減少了；當(dāng)模型在盡力雕琢每一幀的羽毛細(xì)節(jié)時(shí)，它處理全局時(shí)序一致性的能力又被削弱了。研究團(tuán)隊(duì)把這個(gè)現(xiàn)象稱為"目標(biāo)干擾"（objective interference）——三個(gè)目標(biāo)擠在同一條流水線上，彼此掣肘。

傳統(tǒng)的應(yīng)對(duì)方式很簡(jiǎn)單粗暴：把模型做大，參數(shù)堆得足夠多，讓模型有足夠的"容量"同時(shí)兼顧三件事。這就是為什么主流的優(yōu)秀視頻生成模型動(dòng)輒要達(dá)到50億甚至140億參數(shù)。

Motif團(tuán)隊(duì)的核心判斷是：與其靠堆參數(shù)來"推遲"這個(gè)問題，不如直接在架構(gòu)上把三件事"分開來做"。這個(gè)想法聽起來直覺，但實(shí)現(xiàn)起來需要一套精心設(shè)計(jì)的架構(gòu)和訓(xùn)練方案。

二、把流水線拆成三段——專人干專活的骨干網(wǎng)絡(luò)

要理解Motif-Video 2B的架構(gòu)設(shè)計(jì)，可以用一家電影制作公司來類比。

一部電影的誕生需要?jiǎng)”咀骷?、?dǎo)演和特效師各司其職。劇本作家負(fù)責(zé)把故事和對(duì)白（也就是文字描述）轉(zhuǎn)化為可執(zhí)行的場(chǎng)景描述；導(dǎo)演負(fù)責(zé)把各種元素融合在一起，確保整部影片的敘事邏輯通順；特效師則在最后階段負(fù)責(zé)把畫面的細(xì)節(jié)打磨到極致。如果讓一個(gè)人同時(shí)干這三份工作，質(zhì)量必然參差不齊。

Motif-Video 2B的骨干網(wǎng)絡(luò)正是按照這個(gè)思路被拆成了三個(gè)階段。整個(gè)網(wǎng)絡(luò)共有36層處理模塊：最前面12層是"雙流模塊"，負(fù)責(zé)早期的模態(tài)融合；中間16層是"單流模塊"，負(fù)責(zé)建立文字和視頻的聯(lián)合表示；最后8層是"DDT解碼器模塊"，專門負(fù)責(zé)高頻細(xì)節(jié)的還原。

雙流模塊階段（前12層）——這是"劇本會(huì)議"環(huán)節(jié)。在這個(gè)階段，文字信息和視頻信息在各自獨(dú)立的處理通道里分別成長(zhǎng)，只通過特定的橋梁交流，不會(huì)被強(qiáng)行混合。這樣做的理由是：文字和視頻在早期階段的"統(tǒng)計(jì)特征"差異非常大——文字是離散的符號(hào)序列，視頻是連續(xù)的像素時(shí)空體。如果一開始就把它們?nèi)M(jìn)同一個(gè)處理通道，就像把生米和熟飯攪在一起蒸，結(jié)果是兩樣都不對(duì)勁。讓它們各自先形成穩(wěn)定的內(nèi)部表示，再開始互動(dòng)，效果會(huì)好得多。這一設(shè)計(jì)借鑒了圖像生成領(lǐng)域著名的FLUX模型中提出的"雙流/單流分離"思路，并將其延伸到視頻這個(gè)時(shí)空領(lǐng)域。

單流模塊階段（中間16層）——這是"聯(lián)合導(dǎo)演會(huì)議"環(huán)節(jié)。文字和視頻的信息在這里被合并到同一個(gè)處理通道，它們可以自由地互相關(guān)注、互相影響，模型在此階段建立起文字語義和視頻畫面之間的深層對(duì)應(yīng)關(guān)系。這是整個(gè)網(wǎng)絡(luò)"理解文字要求畫面中應(yīng)該出現(xiàn)什么"的核心階段。

DDT解碼器階段（最后8層）——這是"特效后期制作"環(huán)節(jié)，也是Motif團(tuán)隊(duì)從圖像生成領(lǐng)域引入視頻生成領(lǐng)域的一個(gè)重要?jiǎng)?chuàng)新。這一設(shè)計(jì)來自一篇專門針對(duì)圖像生成的論文，它的核心洞察是：在擴(kuò)散模型（一類通過逐步去噪來生成內(nèi)容的AI模型）中，"理解語義"和"恢復(fù)細(xì)節(jié)"這兩件事會(huì)給同一組參數(shù)發(fā)出相互矛盾的梯度信號(hào)——前者希望模型關(guān)注宏觀結(jié)構(gòu)，后者希望模型關(guān)注微觀紋理。通過設(shè)立一個(gè)專門的解碼器來承擔(dān)"細(xì)節(jié)恢復(fù)"任務(wù)，可以讓前面的編碼器專心處理語義理解，兩者互不干擾。

更令研究團(tuán)隊(duì)意外的是，當(dāng)DDT解碼器被引入視頻生成時(shí)，它展現(xiàn)出了一個(gè)在圖像生成中未曾預(yù)期的特性：通過可視化每一層的注意力熱力圖（可以理解為查看模型在處理每個(gè)位置時(shí)"最關(guān)注哪里"的地圖），研究團(tuán)隊(duì)發(fā)現(xiàn)DDT解碼器的各層中存在非常清晰的"幀間注意力結(jié)構(gòu)"——每一幀都會(huì)優(yōu)先關(guān)注時(shí)間上相鄰的幀。這個(gè)現(xiàn)象在前面的單流層中要弱得多。這意味著DDT解碼器在承擔(dān)細(xì)節(jié)還原任務(wù)的同時(shí)，天然地形成了對(duì)時(shí)序連貫性的關(guān)注習(xí)慣，而這正是解決視頻生成中"前后幀一致性"問題的關(guān)鍵所在。

三、文字指令的"消音器"問題——以及如何修復(fù)它

在三段式架構(gòu)的中間階段（16層單流模塊），存在一個(gè)隱藏的嚴(yán)重問題，研究團(tuán)隊(duì)把它稱為"文字注意力稀釋"。

在單流模塊中，文字詞語和視頻像素塊被合并成一個(gè)長(zhǎng)長(zhǎng)的序列，共同經(jīng)過注意力機(jī)制處理。注意力機(jī)制（attention mechanism）的工作原理可以這樣理解：對(duì)于序列中的每一個(gè)元素，它都會(huì)向其他所有元素"問詢"，看看誰和自己最相關(guān)，然后按相關(guān)程度加權(quán)匯聚信息。

問題在于，視頻被分割成的像素塊（token）數(shù)量遠(yuǎn)遠(yuǎn)多于文字詞語的數(shù)量。以720p分辨率、121幀的視頻為例，視頻部分可能產(chǎn)生成千上萬個(gè)token，而文字描述通常只有幾百個(gè)。在注意力機(jī)制的計(jì)算中，所有token共享一個(gè)歸一化的"注意力預(yù)算"——當(dāng)視頻token占據(jù)了99%的席位，文字token能分到的注意力份額自然就極其微薄了。

研究團(tuán)隊(duì)通過實(shí)驗(yàn)直接驗(yàn)證了這一點(diǎn)：在單流模塊的中間層，分配給文字token的總注意力權(quán)重，明顯小于雙流模塊階段分配給文字的權(quán)重。更能說明問題的是，當(dāng)分辨率從360p提升到720p時(shí)，視頻token數(shù)量急劇增加（空間分辨率提高會(huì)讓token數(shù)量以平方級(jí)增長(zhǎng)），而文字token數(shù)量不變，研究團(tuán)隊(duì)觀測(cè)到生成質(zhì)量出現(xiàn)了明顯的"語義對(duì)齊退化"——生成的視頻與文字描述的對(duì)應(yīng)關(guān)系變差了，這與理論預(yù)測(cè)完全一致。

面對(duì)這個(gè)問題，最直覺的修復(fù)方案是：在計(jì)算文字token的注意力時(shí)，把視頻token從分母里去掉，單獨(dú)對(duì)文字做一次歸一化。這個(gè)操作不需要任何新參數(shù)，數(shù)學(xué)上等價(jià)于對(duì)文字鍵（key）做一次獨(dú)立的softmax。研究團(tuán)隊(duì)考慮過這個(gè)方案，但最終否決了它，理由是：它只修復(fù)了表面癥狀，錯(cuò)過了一個(gè)更本質(zhì)的機(jī)會(huì)。

原因是這樣的：當(dāng)視頻token經(jīng)過自注意力層處理之后，它已經(jīng)從原始的像素塊變成了一個(gè)包含了局部時(shí)空上下文信息的"增強(qiáng)表示"——這個(gè)增強(qiáng)后的視頻表示，與文字的關(guān)聯(lián)方式，和原始像素塊與文字的關(guān)聯(lián)方式是不同的。換句話說，經(jīng)過自注意力"消化"之后的視頻信息，會(huì)產(chǎn)生新的問題：現(xiàn)在這段視頻信息理解到了這個(gè)位置有一只手、在做一個(gè)特定的動(dòng)作，那么與這個(gè)動(dòng)作最相關(guān)的文字概念是什么？這是一個(gè)比原始的"這塊像素是什么"更精細(xì)的問題，但簡(jiǎn)單的歸一化修復(fù)無法回答它，因?yàn)樗荒苤匦录訖?quán)已有的答案，而無法提出新的問題。

Motif團(tuán)隊(duì)的解決方案叫做**共享交叉注意力（Shared Cross-Attention）**。在每一個(gè)單流模塊的自注意力層之后，額外附加一個(gè)輕量級(jí)的交叉注意力模塊，讓經(jīng)過自注意力處理的視頻表示去專門"詢問"文字信息。

這個(gè)設(shè)計(jì)的關(guān)鍵細(xì)節(jié)在于：交叉注意力需要三個(gè)要素——Query（問題）、Key（索引）、Value（答案）。Motif的方案對(duì)這三個(gè)要素采取了不對(duì)稱的處理策略，而這種不對(duì)稱性正是設(shè)計(jì)的精髓所在。

對(duì)于Key和Value，研究團(tuán)隊(duì)選擇直接復(fù)用同一個(gè)單流層中自注意力模塊已經(jīng)學(xué)好的權(quán)重矩陣來處理文字信息，而不是重新初始化一套新的權(quán)重。理由是：自注意力已經(jīng)在訓(xùn)練過程中把文字信息映射到了一個(gè)與視頻表示"兼容"的子空間里——文字的值向量已經(jīng)能以有意義的方式疊加到視頻的殘差流上。如果為交叉注意力單獨(dú)設(shè)置一套隨機(jī)初始化的Key和Value權(quán)重，就相當(dāng)于讓文字信息"重新開始"進(jìn)入一個(gè)與整個(gè)網(wǎng)絡(luò)格格不入的陌生空間，不僅需要從頭學(xué)習(xí)兼容性，而且訓(xùn)練信號(hào)會(huì)比自注意力弱得多。復(fù)用已有權(quán)重，是在承諾"交叉注意力在模型已經(jīng)建立的表示幾何空間內(nèi)運(yùn)作"。

對(duì)于Query（也就是"提問方"），情況則相反——這里必須使用新的可學(xué)習(xí)權(quán)重。因?yàn)镼uery是由經(jīng)過自注意力處理后的視頻表示來生成的，這個(gè)表示與自注意力層的原始輸入是不同的對(duì)象，用原來的Query權(quán)重來處理新的輸入，就像用針對(duì)初中生設(shè)計(jì)的考題去考大學(xué)生，不匹配。更重要的是，如果復(fù)用原來的Query權(quán)重，交叉注意力問的就會(huì)是自注意力已經(jīng)問過的同一個(gè)問題，無法實(shí)現(xiàn)"序列精煉"的目的。新的Query權(quán)重是可以自由學(xué)習(xí)的，但由于Key是固定的（復(fù)用自注意力的權(quán)重），訓(xùn)練損失函數(shù)會(huì)自動(dòng)引導(dǎo)Query權(quán)重學(xué)會(huì)生成能和Key產(chǎn)生有意義對(duì)話的查詢向量——否則注意力分布會(huì)趨于均勻，對(duì)生成質(zhì)量沒有任何貢獻(xiàn)。

對(duì)于輸出投影矩陣，研究團(tuán)隊(duì)選擇零初始化（所有參數(shù)初始為0）。這保證了在訓(xùn)練開始時(shí)，新加入的交叉注意力模塊對(duì)模型的輸出沒有任何影響，訓(xùn)練從一個(gè)穩(wěn)定的起點(diǎn)開始，交叉注意力的貢獻(xiàn)會(huì)隨訓(xùn)練進(jìn)展逐漸增長(zhǎng)。

研究團(tuán)隊(duì)還做了一個(gè)直接的對(duì)比實(shí)驗(yàn)來驗(yàn)證這套設(shè)計(jì)的必要性：他們選取同一個(gè)預(yù)訓(xùn)練檢查點(diǎn)，分別插入Motif版本的共享交叉注意力，以及另一個(gè)同期工作SkyReels-V4采用的類似結(jié)構(gòu)（該結(jié)構(gòu)直接用原始文字嵌入作為Key和Value，而不是復(fù)用自注意力權(quán)重）。兩個(gè)版本都采用零初始化輸出投影。結(jié)果是：1000步之后，SkyReels-V4風(fēng)格的版本完全崩潰，生成的視頻變成了近乎全黑的混亂噪點(diǎn)；而Motif的共享交叉注意力則繼續(xù)正常訓(xùn)練，生成質(zhì)量沒有任何退化。這個(gè)實(shí)驗(yàn)的結(jié)論非常清晰：零初始化只保證了訓(xùn)練起點(diǎn)的安全，而Key和Value與自注意力的"幾何兼容性"，才是模塊能穩(wěn)定融入已訓(xùn)練網(wǎng)絡(luò)的根本原因。

在訓(xùn)練完成后對(duì)這個(gè)模塊進(jìn)行分析，研究團(tuán)隊(duì)發(fā)現(xiàn)：16個(gè)單流層中的共享交叉注意力在整個(gè)去噪過程（50步）中全部保持活躍，沒有任何一層是"休眠"的——最弱的一層貢獻(xiàn)了5.2%的輸出幅度，全局平均為7.6%，最高峰值達(dá)到21.7%。更關(guān)鍵的是，交叉注意力的輸出向量與自注意力輸出向量之間的余弦相似度接近零（全局平均約-0.008），也就是說這兩個(gè)向量幾乎完全正交。這意味著交叉注意力注入的是自注意力完全"看不到"的方向上的信息——它是一個(gè)真正的"信息注入器"，而不是對(duì)自注意力的簡(jiǎn)單放大或糾偏。

四、省錢又高效的訓(xùn)練配方——兩把"加速器"

有了好的架構(gòu)，還需要在有限算力下把它訓(xùn)練好。Motif團(tuán)隊(duì)在訓(xùn)練策略上也動(dòng)了不少腦筋，核心是兩個(gè)來自圖像生成領(lǐng)域、此前從未組合用于視頻擴(kuò)散訓(xùn)練的技術(shù)。

**第一把加速器：REPA（表示對(duì)齊）——向"老師"借答案**

訓(xùn)練擴(kuò)散模型（一類先把圖像/視頻加噪、再學(xué)習(xí)去噪的生成模型）有一個(gè)普遍的低效問題：在訓(xùn)練早期，模型需要花費(fèi)大量時(shí)間和算力，從零開始"發(fā)現(xiàn)"視覺世界的結(jié)構(gòu)——什么是物體、什么是背景、顏色和形狀是什么關(guān)系。這是一個(gè)反復(fù)試錯(cuò)的漫長(zhǎng)過程。

REPA的思路是：與其讓模型自己慢慢摸索，不如直接給它一個(gè)"參考答案"。具體做法是在訓(xùn)練過程中增加一個(gè)輔助損失函數(shù)，要求模型的中間層特征與一個(gè)已經(jīng)訓(xùn)練好的、對(duì)視覺結(jié)構(gòu)有深刻理解的"凍結(jié)教師模型"的特征盡可能相似。這樣，模型在學(xué)習(xí)生成任務(wù)的同時(shí)，早期層可以快速習(xí)得有意義的視覺表示，大幅加速收斂。

Motif團(tuán)隊(duì)選用V-JEPA作為教師模型，這是由Meta開發(fā)的一個(gè)通過預(yù)測(cè)被遮擋的視頻片段來學(xué)習(xí)視頻結(jié)構(gòu)的模型，它對(duì)時(shí)序動(dòng)態(tài)信息有很強(qiáng)的理解能力，因此是視頻訓(xùn)練早期階段的合適"老師"。

然而，REPA并非越用越好。最近的研究發(fā)現(xiàn)，REPA在訓(xùn)練早期幫助最大，但隨著模型自身的表示能力越來越強(qiáng)，繼續(xù)強(qiáng)制對(duì)齊一個(gè)凍結(jié)的教師模型反而會(huì)變成"枷鎖"——把模型限制在教師模型的表示子空間里，妨礙它探索更適合當(dāng)前生成任務(wù)的表示。因此，Motif團(tuán)隊(duì)只在前三個(gè)訓(xùn)練階段（144p圖像預(yù)訓(xùn)練和144p視頻訓(xùn)練）使用REPA，進(jìn)入360p分辨率訓(xùn)練后就徹底關(guān)掉了。這個(gè)做法被團(tuán)隊(duì)稱為"相位約束對(duì)齊"。

值得一提的是，團(tuán)隊(duì)最初嘗試了另一種叫做VideoREPA的方案，它不是直接對(duì)齊特征向量本身，而是對(duì)齊不同token之間的"相似度關(guān)系矩陣"。但這個(gè)方案在VBench上沒有帶來明顯提升。團(tuán)隊(duì)認(rèn)為原因有兩個(gè)：一是傳遞關(guān)系結(jié)構(gòu)不等于傳遞特征本身，而研究表明特征的空間結(jié)構(gòu)才是REPA有效的核心驅(qū)動(dòng)力；二是V-JEPA 2.0雖然對(duì)全局運(yùn)動(dòng)理解很強(qiáng)，但它的密集像素級(jí)特征在空間上比較"碎"，不夠連貫，這限制了它作為REPA教師的效果。團(tuán)隊(duì)在論文中展示了V-JEPA 2.0密集特征的可視化圖，可以清晰看到顏色雜亂、空間結(jié)構(gòu)不連貫的問題。

**第二把加速器：TREAD（動(dòng)態(tài)Token路由）——聰明地"偷懶"**

在標(biāo)準(zhǔn)的擴(kuò)散變換器中，每個(gè)token（無論是重要的還是冗余的）都必須經(jīng)過每一層的完整計(jì)算。TREAD的思路則是：在訓(xùn)練時(shí)，把一部分token從淺層直接"跳躍"路由到更深的層，跳過中間的計(jì)算。被跳過層的FLOPs直接省掉，降低訓(xùn)練成本。與此同時(shí)，被路由的token仍然接收來自深層的梯度信號(hào)，這反而給淺層提供了一種"深層監(jiān)督"，有助于加速收斂。在ImageNet圖像生成任務(wù)上，TREAD曾實(shí)現(xiàn)過最高25倍的收斂速度提升。

在Motif-Video 2B中，TREAD路由被應(yīng)用于第4層到第25層，跳過率為50%。前3層雙流模塊被排除在外，因?yàn)檫@些層負(fù)責(zé)建立模態(tài)特異的表示，跳過會(huì)破壞文字和視頻各自獨(dú)立成形的過程；最后8層DDT解碼器也被排除，因?yàn)榻獯a器承擔(dān)高頻細(xì)節(jié)恢復(fù)，token被跳過更容易損害空間精細(xì)度。

在720p分辨率、121幀、512個(gè)文字token的配置下，完整前向計(jì)算需要約4913 TFLOPs。啟用TREAD路由后，降至約3563 TFLOPs，理論上減少約27.5%的計(jì)算量，對(duì)應(yīng)約1.38倍的加速估計(jì)。實(shí)際測(cè)量訓(xùn)練吞吐量提升了1.31倍（以每秒處理視頻數(shù)計(jì)），證實(shí)了大部分理論收益能轉(zhuǎn)化為實(shí)際墻鐘時(shí)間的改善。推理時(shí)不使用TREAD，所有token都走完整網(wǎng)絡(luò)深度。

REPA和TREAD在訓(xùn)練效率上解決的是兩個(gè)不同維度的問題：REPA提升了每次迭代"學(xué)到的東西"的質(zhì)量（提升樣本效率），TREAD降低了每次迭代的計(jì)算成本（降低步驟代價(jià)）。兩者合力，使得在一個(gè)非常有限的算力預(yù)算內(nèi)訓(xùn)練出有競(jìng)爭(zhēng)力的2B模型成為可能。

五、漸進(jìn)式課程訓(xùn)練——像教孩子學(xué)習(xí)一樣

Motif-Video 2B的訓(xùn)練采用了一個(gè)精心設(shè)計(jì)的"漸進(jìn)式課程"，從簡(jiǎn)單到復(fù)雜，逐步增加任務(wù)難度。整個(gè)訓(xùn)練被分成10個(gè)階段。

第一階段是純圖像生成（144p分辨率），使用一個(gè)句子級(jí)別的簡(jiǎn)單文字編碼器進(jìn)行條件控制，并以DINOv2作為REPA教師。這個(gè)階段的目的是讓模型先學(xué)會(huì)基本的空間構(gòu)圖和審美感知，在引入時(shí)序建模的復(fù)雜性之前打好基礎(chǔ)。

從第二階段開始引入視頻訓(xùn)練，仍在144p分辨率下，先用33幀再擴(kuò)展到65幀，使用V-JEPA作為REPA教師，幫助模型快速建立對(duì)運(yùn)動(dòng)結(jié)構(gòu)的基礎(chǔ)理解。

從第四階段起，分辨率提升到360p，文字編碼器切換為更強(qiáng)大的T5Gemma2（一個(gè)基于Gemma 3語言模型通過UL2目標(biāo)適配而來的多模態(tài)編碼解碼器），同時(shí)關(guān)閉REPA。研究團(tuán)隊(duì)選擇使用編碼解碼器架構(gòu)的文字編碼器，而非更新的純解碼器大語言模型，背后有研究依據(jù)：對(duì)于視覺生成任務(wù)，雙向上下文表示能力比單向的解碼器架構(gòu)更有優(yōu)勢(shì)；甚至有研究表明，即使是較老的T5家族編碼器，用作凍結(jié)文字編碼器時(shí)，也能超過更強(qiáng)的解碼器大模型。

第五階段是一個(gè)有趣的"分辨率橋"設(shè)計(jì)：在進(jìn)入480p視頻訓(xùn)練之前，先用360p視頻搭配480p圖像聯(lián)合訓(xùn)練。圖像比視頻便宜得多，這樣模型可以以較低代價(jià)先學(xué)習(xí)480p分辨率下的空間特征，再把這個(gè)知識(shí)遷移到480p視頻上。

訓(xùn)練中還進(jìn)行了兩次監(jiān)督微調(diào)（SFT）——分別在480p（第七階段）和720p（第十階段），每次都在一個(gè)經(jīng)過嚴(yán)格篩選的高質(zhì)量數(shù)據(jù)子集上進(jìn)行，目的是把模型的輸出分布向高質(zhì)量的長(zhǎng)尾推移，提升美學(xué)質(zhì)量、運(yùn)動(dòng)流暢性和提示詞遵從度。

一個(gè)非常規(guī)的選擇是：720p預(yù)訓(xùn)練階段（第八階段）使用的是480p SFT檢查點(diǎn)，而不是480p預(yù)訓(xùn)練檢查點(diǎn)作為起點(diǎn)。通常的做法是把SFT留到最后階段進(jìn)行。團(tuán)隊(duì)的理由是：SFT使模型的學(xué)習(xí)密度集中在高質(zhì)量流形上，從這個(gè)更干凈的起點(diǎn)開始720p訓(xùn)練，可以讓模型把容量用在分辨率適應(yīng)上，而不是同時(shí)還要從寬泛預(yù)訓(xùn)練中彌補(bǔ)質(zhì)量損失。這個(gè)類似于LLM對(duì)齊研究中"每一輪對(duì)齊都是下一輪訓(xùn)練的更好起點(diǎn)"的思路。團(tuán)隊(duì)坦誠地說明，他們沒有對(duì)這個(gè)選擇進(jìn)行對(duì)照實(shí)驗(yàn)，只是作為工程實(shí)踐報(bào)告。

當(dāng)720p訓(xùn)練暴露出語義對(duì)齊退化問題后，團(tuán)隊(duì)在第九階段以360p分辨率重新訓(xùn)練，專門引入共享交叉注意力并在高質(zhì)量子集上進(jìn)行精煉，然后再回到720p完成最終訓(xùn)練（第十階段）。這體現(xiàn)了他們把訓(xùn)練當(dāng)作診斷循環(huán)而非一次性預(yù)設(shè)流程的理念。

六、數(shù)據(jù)質(zhì)量勝于數(shù)量——不到1000萬條視頻的秘密

Motif-Video 2B的訓(xùn)練數(shù)據(jù)規(guī)模遠(yuǎn)小于同類競(jìng)品，但這并不意味著數(shù)據(jù)處理工作輕松——恰恰相反，正是因?yàn)閿?shù)據(jù)量少，每一條視頻的質(zhì)量都必須被嚴(yán)格把關(guān)。

團(tuán)隊(duì)構(gòu)建了一個(gè)多層次的數(shù)據(jù)處理流水線，將內(nèi)部網(wǎng)絡(luò)爬取的視頻與公開可用數(shù)據(jù)集結(jié)合起來，經(jīng)過一系列清洗和篩選步驟。

最初步的清洗包括：去除損壞文件、異常小文件、重復(fù)內(nèi)容、NSFW（不適合工作場(chǎng)所的）內(nèi)容和帶水印內(nèi)容。去重基于SSCD（一種專為版權(quán)檢測(cè)設(shè)計(jì)的圖像描述符，對(duì)重新編碼、裁剪等常見復(fù)制變體有較強(qiáng)魯棒性）實(shí)現(xiàn)，使用NVIDIA cuVS的多GPU IVF-PQ索引在余弦距離下檢索相似對(duì)，合并后從每個(gè)重復(fù)組中保留質(zhì)量最好的副本（按分辨率、幀率、文件大小加權(quán)打分）。

視頻里的黑邊（letterbox/pillarbox）通過ffmpeg的cropdetect過濾器檢測(cè)，字幕、臺(tái)標(biāo)等燒入式文字則通過PaddleOCR-VL進(jìn)行幀級(jí)檢測(cè)，只保留在50%以上幀中持續(xù)出現(xiàn)的檢測(cè)區(qū)域作為"固定覆蓋層"（區(qū)分于畫面中本身存在的文字內(nèi)容），然后統(tǒng)一在一次重編碼pass中完成裁剪。

場(chǎng)景分割采用保守策略，寧可多分割、不漏分割，然后通過SigLIP嵌入相似度進(jìn)行相鄰段合并，恢復(fù)被短暫運(yùn)動(dòng)或曝光變化錯(cuò)誤切斷的連續(xù)鏡頭。處理后少于兩秒的片段直接丟棄。

質(zhì)量評(píng)分使用多維度獨(dú)立過濾，涵蓋美學(xué)分?jǐn)?shù)（Aesthetic Predictor V2.5）、亮度（防止過暗或過曝）、模型適配性分?jǐn)?shù)（靈感來自Koala-36M，綜合多個(gè)維度估計(jì)一段視頻是否適合訓(xùn)練視頻生成模型）、技術(shù)質(zhì)量（DOVER，區(qū)分技術(shù)質(zhì)量和美學(xué)質(zhì)量，專門過濾壓縮偽影、噪聲、模糊等問題）、運(yùn)動(dòng)質(zhì)量（UniMatch光流估計(jì)，剔除靜止視頻和包含剪輯/抖動(dòng)/不穩(wěn)定運(yùn)動(dòng)的視頻，保留中間段）。

視頻標(biāo)注使用Qwen3-VL-30B-A3B（一個(gè)30B參數(shù)的視覺語言模型）以"標(biāo)注即元數(shù)據(jù)"的方式處理：一次前向計(jì)算同時(shí)輸出自然語言字幕和結(jié)構(gòu)化標(biāo)簽（包括watermark、nsfw、style、subject、action、camera_move、quality等）。視頻提示要求模型按照固定JSON格式輸出，字幕字段和結(jié)構(gòu)化字段同時(shí)產(chǎn)生，結(jié)構(gòu)化字段被直接用于下游過濾（如watermark和nsfw字段觸發(fā)硬刪除），避免了標(biāo)注和過濾使用不同模型導(dǎo)致的不一致。

每段視頻保留三個(gè)字幕變體：長(zhǎng)字幕（150-250詞詳細(xì)描述）、短字幕（15-25詞單句概括）、截?cái)嘧帜唬ㄈ￠L(zhǎng)字幕第一句）。訓(xùn)練時(shí)按照0.5/0.3/0.2的比例隨機(jī)混合，目的是縮小訓(xùn)練時(shí)用的長(zhǎng)格式合成字幕與推理時(shí)用戶實(shí)際輸入的短提示詞之間的分布差距，并起到一定的輕度字幕dropout效果，防止過擬合到VLM的特定表達(dá)方式。

為了解決WebDataset（一種把大量樣本打包成tar文件流式讀取的存儲(chǔ)格式）在多GPU分布式訓(xùn)練下的數(shù)據(jù)不均衡問題，團(tuán)隊(duì)開發(fā)了一個(gè)離線桶平衡采樣器?；€方案的全局隨機(jī)打亂破壞了WebDataset的順序讀優(yōu)勢(shì)，并導(dǎo)致不同GPU節(jié)點(diǎn)之間分辨率/幀數(shù)桶的樣本分布嚴(yán)重不均衡（在FSDP同步訓(xùn)練中，進(jìn)度最慢的桶會(huì)拖慢所有GPU），實(shí)際數(shù)據(jù)利用率僅約20%。新方案通過離線的模擬退火優(yōu)化算法（3萬次迭代）為每個(gè)GPU節(jié)點(diǎn)分配tar分片，使各分辨率/幀數(shù)桶的樣本數(shù)量在各節(jié)點(diǎn)間盡可能均衡，同時(shí)保留tar文件的順序讀特性。結(jié)果是數(shù)據(jù)利用率從約20%提升至約90%，每輪訓(xùn)練可處理的樣本步數(shù)從N增加到約5.4N，數(shù)據(jù)加載延遲從0.05秒/步降至0.001秒以下。

七、讓模型也能"看圖說話"——圖像到視頻擴(kuò)展

除了純文字驅(qū)動(dòng)的視頻生成，Motif-Video 2B還支持"給一張圖，生成它的后續(xù)視頻"的圖像到視頻（I2V）能力，并且用同一套權(quán)重同時(shí)處理兩種任務(wù)。

I2V的核心設(shè)計(jì)挑戰(zhàn)是：如何讓參考圖像足夠強(qiáng)地約束生成的視頻（保證人物、場(chǎng)景、風(fēng)格不走樣），同時(shí)又不讓模型"偷懶"（直接復(fù)制第一幀，幾乎不產(chǎn)生任何運(yùn)動(dòng)）。

Motif團(tuán)隊(duì)采用了雙路徑條件設(shè)計(jì)來分離這兩個(gè)需求。第一條是潛空間路徑（latent pathway），負(fù)責(zé)精確錨定外觀：把參考圖像通過VAE編碼成干凈的潛變量，放在時(shí)序的第一幀位置，其余幀用零填充，加上一個(gè)二值掩碼指示哪些幀是參考幀。這個(gè)增強(qiáng)后的輸入進(jìn)入patch embedding層時(shí)具有33個(gè)輸入通道（16維視頻潛變量 + 16維條件潛變量 + 1維掩碼）。第二條是語義路徑（semantic pathway），負(fù)責(zé)全局圖像語義：把同一張參考圖像通過SigLIP視覺編碼器編碼成圖像token序列，再經(jīng)過輕量MLP投影，與T5Gemma2文字嵌入拼接在一起，作為條件序列輸入主干網(wǎng)絡(luò)。這條路徑提供了更高層的語義摘要，在精確外觀被部分降質(zhì)時(shí)仍能維持語義引導(dǎo)。

為了避免模型過于依賴精確的第一幀條件而退化為"復(fù)制粘貼"，Motif團(tuán)隊(duì)引入了時(shí)間步感知模糊：在訓(xùn)練時(shí)，根據(jù)當(dāng)前擴(kuò)散時(shí)間步的大小，對(duì)第一幀的條件潛變量施加不同程度的高斯模糊——時(shí)間步越大（噪聲越多，離最終圖像越遠(yuǎn)），模糊程度越高；時(shí)間步越小（接近最終去噪結(jié)果），模糊趨于零。這迫使模型在去噪早期階段不能依賴清晰的第一幀來確定運(yùn)動(dòng)方向，而是必須從文字提示和圖像語義中推斷，只有在精修階段才能利用精確的第一幀外觀。

I2V和T2V不使用單獨(dú)的模型，而是通過訓(xùn)練時(shí)的聯(lián)合混合來實(shí)現(xiàn)：在后期訓(xùn)練階段，每一個(gè)訓(xùn)練批次以0.3的概率被隨機(jī)指定為I2V批次（使用上述雙路徑條件）、以0.7的概率為T2V批次。30%的I2V占比足以讓模型學(xué)會(huì)穩(wěn)定的第一幀條件化行為，同時(shí)T2V批次的主導(dǎo)地位保證了更寬泛的運(yùn)動(dòng)先驗(yàn)不會(huì)被削弱。

八、實(shí)驗(yàn)結(jié)果——數(shù)字背后的真實(shí)情況

在VBench這個(gè)包含16個(gè)細(xì)分維度的視頻生成綜合評(píng)測(cè)基準(zhǔn)上，Motif-Video 2B取得了83.76%的總分，超過了Wan2.1-14B（83.69%）、HunyuanVideo（83.24%）、Step-Video-T2V-30B（81.83%）等參數(shù)量遠(yuǎn)大于自身的開源模型。注意Wan2.2-T2V雖然報(bào)告了84.23%的分?jǐn)?shù)，但那個(gè)版本使用了提示詞優(yōu)化（用Qwen模型重寫用戶提示詞），并非同等條件下的比較。

細(xì)看16個(gè)維度，Motif-Video 2B的優(yōu)勢(shì)最明顯地體現(xiàn)在語義相關(guān)維度：在空間關(guān)系理解（83.02%）上超過了所有有完整維度數(shù)據(jù)的開源模型，在物體類別識(shí)別（92.93%）、多物體生成（77.29%）上也名列前茅，整體語義分?jǐn)?shù)（80.44%）領(lǐng)先Wan2.1-14B的76.11%多達(dá)4.33個(gè)百分點(diǎn)。這與論文的核心設(shè)計(jì)理念高度一致——專門為文字對(duì)齊設(shè)計(jì)的共享交叉注意力，切實(shí)地在"模型是否理解了文字描述的語義"這個(gè)維度上產(chǎn)生了可測(cè)量的優(yōu)勢(shì)。

然而，在質(zhì)量相關(guān)維度上，差距相當(dāng)明顯：主體一致性（95.38%）和背景一致性（95.74%）均低于Wan系列最強(qiáng)水平，時(shí)序閃爍（98.16%）也落后于Wan2.1家族（最高99.55%）。研究團(tuán)隊(duì)非常坦誠地指出，這體現(xiàn)了一個(gè)在2B參數(shù)規(guī)模下的具體權(quán)衡：語義對(duì)齊能力異常突出，而長(zhǎng)期時(shí)序穩(wěn)定性和外觀一致性是當(dāng)前階段的主要改進(jìn)目標(biāo)。

人類偏好評(píng)估的結(jié)果則呈現(xiàn)出與VBench排名不同的圖景，這恰好為理解自動(dòng)評(píng)測(cè)的局限性提供了一個(gè)有價(jià)值的案例。在40條LLM生成的提示詞（使用公開的提示詞引導(dǎo)文檔以避免偏向任何特定模型）下進(jìn)行的盲對(duì)比實(shí)驗(yàn)中，Wan2.1-14B在兩個(gè)維度（提示詞遵從度和視頻保真度）上都以明顯優(yōu)勢(shì)排在Motif-Video 2B前面，盡管兩者的VBench總分僅相差0.07個(gè)百分點(diǎn)。研究團(tuán)隊(duì)認(rèn)為這反映了VBench的一個(gè)結(jié)構(gòu)性局限：它對(duì)16個(gè)維度均等加權(quán)，而人類感知對(duì)時(shí)序穩(wěn)定性異常敏感——觀眾更容易原諒一個(gè)場(chǎng)景中少了某個(gè)物體，但很難忽視畫面的閃爍或人物面部的形變；同時(shí)，VBench的語義維度能給"語義大致正確但存在細(xì)節(jié)瑕疵"的生成結(jié)果給分，而人類觀看者會(huì)立刻注意到手部變形、人物身份漂移等視覺異常。

在可比參數(shù)量級(jí)（約2B）的對(duì)比中，Motif-Video 2B在兩個(gè)維度上都優(yōu)于SANA-Video（同為2B參數(shù)）和Wan2.1-1.3B（參數(shù)量相近，但訓(xùn)練數(shù)據(jù)量據(jù)報(bào)道大約多兩個(gè)數(shù)量級(jí)），團(tuán)隊(duì)認(rèn)為這是架構(gòu)和訓(xùn)練配方帶來的可感知的質(zhì)量提升。

九、局限性和失敗案例——團(tuán)隊(duì)主動(dòng)坦承的邊界

研究團(tuán)隊(duì)在論文中專門用一節(jié)直面失敗案例，這種做法本身值得一提。

**微尺度語義失真**是第一類問題：模型偶爾會(huì)生成類別標(biāo)簽正確但感知上有缺陷的畫面——近景人物的手部解剖結(jié)構(gòu)扭曲、高位移動(dòng)作下的身體結(jié)構(gòu)崩壞、相鄰多個(gè)外觀相似的動(dòng)物之間發(fā)生屬性串?dāng)_（比如貓和狗的顏色、大小互相"污染"）。這類生成結(jié)果在VBench的物體類別、人物動(dòng)作等維度上依然可以得分（提示的動(dòng)作在正確的空間關(guān)系中出現(xiàn)了），但人類觀看者一眼就能發(fā)現(xiàn)問題。團(tuán)隊(duì)將這類問題主要?dú)w因于數(shù)據(jù)覆蓋不足，而非架構(gòu)缺陷——精細(xì)的肢體解剖、高位移運(yùn)動(dòng)、多個(gè)視覺相似物體的場(chǎng)景，在不到1000萬條的訓(xùn)練數(shù)據(jù)中覆蓋稀疏。

**時(shí)序失敗**是第二類問題，包含三種不同模式：物理不合理性（生成的液體、布料、剛體碰撞幀間平滑但違反重力和表面張力）、高復(fù)雜場(chǎng)景下的一致性喪失（密集多主體場(chǎng)景中人物身份跨幀模糊、空間關(guān)系無法持續(xù)）、意外場(chǎng)景轉(zhuǎn)換（生成中途從提示詞描述的場(chǎng)景漂移到無關(guān)構(gòu)圖）。這三種失敗的根因不同：物理合理性本質(zhì)上是數(shù)據(jù)問題，沒有足夠的物理豐富視頻，去噪目標(biāo)函數(shù)單獨(dú)無法恢復(fù)正確動(dòng)力學(xué)；復(fù)雜場(chǎng)景一致性和幀內(nèi)連貫性更可能是容量受限，是解碼器規(guī)模擴(kuò)展最可能改善的方向；意外場(chǎng)景轉(zhuǎn)換則同時(shí)與數(shù)據(jù)覆蓋和時(shí)序建模能力有關(guān)。

團(tuán)隊(duì)還明確指出了方法評(píng)估上的限制：沒有對(duì)共享交叉注意力、DDT解碼器、REPA相位、TREAD路由單獨(dú)進(jìn)行消融實(shí)驗(yàn)，原因是單獨(dú)消融訓(xùn)練需要相同規(guī)模的算力，超出了預(yù)算?，F(xiàn)有的證據(jù)（注意力圖分析、SkyReels-V4對(duì)比實(shí)驗(yàn)、端到端VBench結(jié)果）說明"組合配方有效"，但不能量化每個(gè)組件的單獨(dú)貢獻(xiàn)。

說到底，Motif-Video 2B這個(gè)工作的意義不只是"用小模型打敗了大模型"這件事本身。更本質(zhì)的貢獻(xiàn)是一種思路的示范：在視頻生成這個(gè)被認(rèn)為必須靠規(guī)模堆砌的領(lǐng)域，通過精準(zhǔn)識(shí)別"目標(biāo)干擾"這個(gè)結(jié)構(gòu)性問題，并用專門的架構(gòu)分工來解決它，可以讓有限的模型容量和數(shù)據(jù)量發(fā)揮出超出預(yù)期的效果。

當(dāng)然，這個(gè)結(jié)論需要加上邊界條件。研究團(tuán)隊(duì)自己也說得很清楚：在語義對(duì)齊和組合理解上，他們的配方確實(shí)實(shí)現(xiàn)了以小博大；但在人類感知最敏感的時(shí)序穩(wěn)定性上，差距依然存在，而且這個(gè)差距更可能是容量限制和數(shù)據(jù)覆蓋的問題，架構(gòu)再聰明也有其邊界。隨著訓(xùn)練數(shù)據(jù)量和模型規(guī)模的擴(kuò)大，當(dāng)前架構(gòu)設(shè)計(jì)的價(jià)值是否還能持續(xù)體現(xiàn)、各階段的最優(yōu)容量分配如何隨規(guī)模變化，都是有待回答的問題。感興趣的讀者可以通過arXiv:2604.16503查閱完整論文，了解所有技術(shù)細(xì)節(jié)和實(shí)驗(yàn)證據(jù)。

**Q&A**

Q1：Motif-Video 2B為什么能用更少參數(shù)超過更大的視頻生成模型？

A：Motif-Video 2B的核心思路是"專人干?；?——把視頻生成中三個(gè)互相競(jìng)爭(zhēng)的目標(biāo)（文字對(duì)齊、時(shí)序一致性、細(xì)節(jié)恢復(fù)）在網(wǎng)絡(luò)架構(gòu)上分開處理，而不是讓所有參數(shù)混在一起同時(shí)應(yīng)對(duì)三件事。具體來說，它用三段式網(wǎng)絡(luò)分別負(fù)責(zé)早期模態(tài)融合、聯(lián)合表示學(xué)習(xí)和高頻細(xì)節(jié)解碼，并專門設(shè)計(jì)了共享交叉注意力來修復(fù)單流網(wǎng)絡(luò)中文字注意力被稀釋的問題。在VBench語義相關(guān)維度上，這套設(shè)計(jì)帶來了顯著優(yōu)勢(shì)。

Q2：共享交叉注意力和普通交叉注意力有什么區(qū)別？

A：普通交叉注意力（如SkyReels-V4的做法）直接用原始文字嵌入作為Key和Value，這些嵌入與網(wǎng)絡(luò)已經(jīng)建立的表示幾何空間是脫節(jié)的。Motif的共享交叉注意力則復(fù)用了同層自注意力已經(jīng)學(xué)好的Key和Value權(quán)重矩陣來處理文字，保證交叉注意力在模型已有的表示空間內(nèi)運(yùn)作，避免插入后破壞原有訓(xùn)練好的參數(shù)。實(shí)驗(yàn)證明，普通交叉注意力插入已訓(xùn)練的檢查點(diǎn)1000步后會(huì)徹底崩潰，而共享交叉注意力可以無縫融入，繼續(xù)穩(wěn)定訓(xùn)練。

Q3：VBench高分意味著視頻生成質(zhì)量真的更好嗎？

A：不完全是。Motif-Video 2B的案例清晰展示了VBench評(píng)測(cè)的一個(gè)局限：它對(duì)16個(gè)維度均等加權(quán)，但人類對(duì)時(shí)序穩(wěn)定性的感知敏感度遠(yuǎn)高于對(duì)語義完整性的敏感度。在人類偏好評(píng)估中，參數(shù)量7倍于Motif-Video 2B的Wan2.1-14B在兩個(gè)維度上都明顯更受偏愛，盡管VBench總分只高出0.07個(gè)百分點(diǎn)。此外，VBench語義維度會(huì)給"類別正確但解剖扭曲"的生成結(jié)果高分，而人類觀看者會(huì)立刻注意到手部變形等問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.