視頻生成AI的"記憶"難題：字節(jié)跳動如何讓機器擁有連續(xù)思維能力

2025-12-19 17:45:08　來源: 科技行者

北京舉報

分享至

這項由香港中文大學的郭宇偉、字節(jié)跳動的楊策元等研究團隊合作完成的突破性研究，于2024年12月發(fā)表在計算機視覺領域的頂級會議上。對這項研究感興趣的讀者可以通過arXiv:2512.15702v1查詢完整論文。研究團隊提出了一種名為"重采樣強制訓練"(Resampling Forcing)的全新框架，專門解決AI視頻生成中的"健忘癥"問題。

當我們談論AI生成視頻時，大多數(shù)人可能會想到那些令人印象深刻的短片段。但是，如果你曾經(jīng)嘗試讓AI生成一段較長的視頻，你可能會發(fā)現(xiàn)一個奇怪的現(xiàn)象：視頻開始時還很正常，但隨著時間推移，畫面開始變得模糊、扭曲，甚至完全崩壞。這就像一個人在講故事時，開始講得很好，但說著說著就忘記了前面的情節(jié)，最后整個故事變得不知所云。

這種現(xiàn)象在AI領域被稱為"曝光偏差"(exposure bias)，它是自回歸視頻生成模型面臨的核心挑戰(zhàn)。自回歸模型的工作原理類似于人類講故事：它需要根據(jù)前面已經(jīng)生成的內(nèi)容來決定下一個畫面應該是什么樣的。在訓練階段，AI模型就像一個學生在課堂上練習，老師會給它提供完美的參考答案。但在實際應用中，AI必須依賴自己之前生成的內(nèi)容，而這些內(nèi)容往往并不完美。這種訓練與實際應用之間的差異，就是導致視頻質(zhì)量逐漸惡化的根本原因。

研究團隊通過一個生動的比喻來解釋這個問題：想象一個廚師在學做菜時，總是使用最新鮮、最完美的食材進行練習。但在真正的廚房里，他必須使用之前處理過的、可能已經(jīng)有些變質(zhì)的食材來繼續(xù)烹飪。結(jié)果可想而知，整道菜的質(zhì)量會越來越差。

為了解決這個問題，之前的研究者們嘗試了各種方法。有些研究采用了"后訓練"策略，即先訓練一個基礎模型，然后再進行額外的調(diào)整。然而，這些方法通常依賴于一個"雙向教師模型"或在線判別器。雙向教師模型的問題在于它能夠"看到未來"，這違背了現(xiàn)實世界中時間的單向性原則。就像一個預言家在指導學生時，不小心泄露了未來的信息，導致學生無法真正掌握推理能力。

字節(jié)跳動和香港中文大學的研究團隊提出的"重采樣強制訓練"方法，就像是為AI學生創(chuàng)造了一個更加真實的練習環(huán)境。在這個環(huán)境中，AI不再依賴完美的參考資料，而是要學會在不完美的條件下繼續(xù)工作。

具體來說，研究團隊設計了一種"自我重采樣"機制。這個機制的工作原理類似于一個特殊的訓練程序：AI模型首先會故意在歷史畫面中引入一些錯誤，模擬真實使用時可能出現(xiàn)的不完美情況。然后，它必須基于這些帶有錯誤的歷史畫面來預測下一個畫面。這樣的訓練方式使得AI模型變得更加"魯棒"，即使面對不完美的輸入，也能保持相對穩(wěn)定的輸出質(zhì)量。

這種方法的巧妙之處在于，它并不試圖完全消除錯誤，而是教會AI如何在錯誤存在的情況下繼續(xù)正常工作。就像教一個司機不僅要在完美的道路條件下駕駛，還要學會在雨天、霧天等不理想條件下安全行駛。

研究團隊在實現(xiàn)這個想法時，面臨了一個重要的技術挑戰(zhàn)：如何模擬真實的模型錯誤。他們采用了一種創(chuàng)新的方法，通過自回歸重采樣來模擬推理時的模型錯誤。這個過程分為兩個步驟：首先，他們向真實視頻幀添加噪聲，使其降級到某個中間時間步；然后，使用在線模型權(quán)重完成剩余的去噪步驟，產(chǎn)生包含模型錯誤的降級幀。

為了控制這個過程，研究團隊引入了一個重要參數(shù)：仿真時間步ts。這個參數(shù)控制著歷史忠實度和錯誤糾正靈活性之間的平衡。較小的ts值會產(chǎn)生接近真實的降級樣本，鼓勵模型保持對歷史幀的忠實，但可能導致錯誤累積。較大的ts值則為錯誤糾正提供更大的靈活性，但可能導致內(nèi)容漂移。研究團隊通過數(shù)學建模，找到了最優(yōu)的ts分布，確保在兩個極端之間取得最佳平衡。

另一個重要創(chuàng)新是"歷史路由"機制。隨著視頻長度的增加，AI需要處理的歷史信息越來越多，這就像一個人的記憶負擔越來越重。傳統(tǒng)的解決方案是使用"滑動窗口"方法，只關注最近的幾個畫面，但這種方法會損害長期依賴關系，影響視頻的全局一致性。

研究團隊提出的歷史路由機制，就像給AI配備了一個智能的記憶管理系統(tǒng)。這個系統(tǒng)能夠動態(tài)地從大量歷史畫面中選擇最相關的k個畫面進行關注，而不是簡單地只看最近的畫面。這種選擇是基于內(nèi)容相關性的，而不是基于時間距離的。就像一個經(jīng)驗豐富的編劇在寫續(xù)集時，會回顧整個故事線中最相關的情節(jié)，而不僅僅是上一集的內(nèi)容。

在技術實現(xiàn)上，研究團隊使用了點積作為選擇標準，通過查詢令牌qi和歷史幀描述符之間的相似度來確定最相關的歷史幀。這種方法將每個令牌的注意力復雜度從線性O(L)降低到常數(shù)O(k)，其中L是歷史幀數(shù)量，k是選擇的幀數(shù)。當k設置為一個小值時，可以實現(xiàn)很高的稀疏性，但路由機制以頭級和令牌級的方式操作，意味著不同注意力頭和空間位置的令牌可以路由到不同的歷史混合，集體產(chǎn)生比k幀大得多的有效接受域。

研究團隊在實驗設計上也展現(xiàn)了周密的考慮。他們基于WAN2.1-1.3B架構(gòu)構(gòu)建了自己的方法，并加載了預訓練權(quán)重以加速收斂。原始模型使用雙向注意力生成5秒視頻（81幀），分辨率為480×832。研究團隊修改了時間步條件以支持每幀噪聲級別，并使用torch.flex_attention()實現(xiàn)了稀疏因果注意力，沒有增加額外參數(shù)。

訓練過程采用了分階段策略。首先，在切換到因果注意力后，模型使用教師強制目標在5秒視頻上訓練10,000步進行預熱。然后轉(zhuǎn)換到重采樣強制訓練，先在5秒視頻上訓練15,000步，再在15秒視頻（249幀）上訓練5,000步。最后，啟用稀疏歷史路由進行1,500次迭代的微調(diào)。訓練批次大小為64，AdamW優(yōu)化器的學習率為5×10^-5。時間步移位因子設置為s=0.6，top-k歷史路由中k=5。為了提高效率，歷史重采樣使用1步Euler求解器。

實驗結(jié)果展示了該方法的顯著優(yōu)勢。在定性比較中，研究團隊將他們的方法與多個現(xiàn)有的自回歸視頻生成基線進行了比較，包括SkyReels-V2、MAGI-1、NOVA、Pyramid Flow、CausVid、Self Forcing和LongLive等。結(jié)果顯示，大多數(shù)嚴格的自回歸模型在長視頻生成中都出現(xiàn)了錯誤累積現(xiàn)象，表現(xiàn)為顏色、紋理和整體清晰度的逐漸下降。

特別值得注意的是與LongLive的比較。LongLive雖然在長距離視覺質(zhì)量方面表現(xiàn)良好，但研究團隊發(fā)現(xiàn)，從短雙向教師模型蒸餾的方法無法確保嚴格的因果關系。在"倒牛奶"的例子中，LongLive產(chǎn)生的液體水平先上升后下降，違反了物理定律。相比之下，研究團隊的方法保持嚴格的時間因果關系：液體水平單調(diào)增加，同時源容器變空。

定量評估使用VBench提供的自動指標進行。所有模型都被要求生成15秒視頻，然后將其分為三個片段分別評估，以更好地評估長期質(zhì)量。結(jié)果表明，該方法在所有視頻長度上都保持了可比的視覺質(zhì)量和優(yōu)越的時間質(zhì)量。在更長的視頻長度上，該方法的性能也與長視頻蒸餾基線LongLive相當。

研究團隊還進行了詳細的消融研究。他們比較了不同的錯誤模擬策略，包括噪聲增強、并行重采樣和自回歸重采樣。結(jié)果顯示，自回歸重采樣策略取得了最高質(zhì)量，其次是并行重采樣和噪聲增強。研究團隊認為這是因為加性噪聲與模型的推理時錯誤模式之間存在不匹配，以及并行重采樣只捕獲每幀降級而忽略跨時間的自回歸累積。

在仿真時間步移位的研究中，研究團隊發(fā)現(xiàn)模型性能對移位因子s的選擇相對魯棒。使用極端值進行消融以更好地可視化移位因子的影響，結(jié)果顯示，使用小s值訓練的模型表現(xiàn)出錯誤累積和質(zhì)量下降，而非常大的s值會降低與歷史的語義一致性，增加初始內(nèi)容漂移的風險。因此，適中的s值對于在緩解錯誤累積和防止漂移之間取得平衡至關重要。

稀疏歷史策略的比較顯示，路由到前20個歷史幀中的前5個能夠在75%的稀疏性下產(chǎn)生與密集注意力相當?shù)馁|(zhì)量。將前5個減少到前1個（95%稀疏性）只造成輕微的質(zhì)量下降，證明了路由機制的魯棒性。研究團隊進一步對比了前1個路由與大小為1的滑動窗口，盡管稀疏性相等，但路由機制在魚的外觀一致性方面表現(xiàn)更優(yōu)。他們假設滑動窗口注意力的固定和局部化感受野加劇了漂移風險，而動態(tài)路由使每個查詢令牌能夠選擇不同的歷史上下文組合，集體產(chǎn)生更大的有效感受野，更好地保持全局一致性。

歷史路由頻率的分析揭示了有趣的模式。研究團隊實驗了k=1,3,5,7，并可視化了在生成第21幀時前20幀的選擇頻率。結(jié)果顯示，選擇頻率呈現(xiàn)混合"滑動窗口"和"注意力匯聚"模式：路由器優(yōu)先選擇初始幀以及緊接在目標之前的最近幀。這種效果在極端稀疏性（k=1）下最為明顯，隨著稀疏性降低（k=1→7），分布變得更加均勻，包含更廣泛的中間幀。

這項研究的意義不僅僅在于技術創(chuàng)新，更在于它為AI視頻生成領域指出了一個新的發(fā)展方向。傳統(tǒng)的方法試圖通過更復雜的模型架構(gòu)或更大的數(shù)據(jù)集來提高質(zhì)量，而這項研究則從訓練策略的角度入手，通過模擬真實應用場景來提高模型的實用性。

當然，這項研究也有其局限性。作為基于擴散的方法，該模型需要迭代去噪步驟進行推理，實現(xiàn)實時延遲可能需要后續(xù)加速，如少步蒸餾或改進的采樣器。此外，訓練過程涉及處理雙重序列（擴散樣本和清潔歷史），可能通過類似于其他研究的架構(gòu)優(yōu)化來改進。

盡管如此，這項研究為未來的AI視頻生成技術奠定了重要基礎。它不僅解決了現(xiàn)有技術的核心問題，還為長視頻生成、實時交互式視頻生成等應用場景提供了可行的解決方案。隨著技術的進一步完善，我們可以期待看到更長、更連貫、更符合物理定律的AI生成視頻。

說到底，這項研究最大的貢獻在于它改變了我們對AI訓練的思考方式。它告訴我們，有時候最好的訓練方法不是給AI提供完美的條件，而是讓它學會在不完美的現(xiàn)實中正常工作。這種思路不僅適用于視頻生成，可能對整個AI領域都有重要的啟發(fā)意義。對于普通用戶來說，這意味著未來我們將看到更加穩(wěn)定、可靠的AI視頻生成工具，能夠創(chuàng)造出更長、更連貫的視頻內(nèi)容，為內(nèi)容創(chuàng)作、教育、娛樂等領域帶來新的可能性。

Q&A

Q1：什么是重采樣強制訓練，它如何解決AI視頻生成的問題？

A：重采樣強制訓練是一種新的AI訓練方法，它通過故意在訓練時給AI提供不完美的歷史畫面，讓AI學會在真實應用中面對自己之前生成的不完美內(nèi)容時仍能保持穩(wěn)定的輸出質(zhì)量，就像教司機在各種路況下都能安全駕駛一樣。

Q2：歷史路由機制是如何工作的，有什么優(yōu)勢？

A：歷史路由機制就像給AI配備了智能記憶管理系統(tǒng)，它能從大量歷史畫面中動態(tài)選擇最相關的畫面進行關注，而不是簡單地只看最近的畫面。這樣既減少了計算負擔，又保持了視頻的長期一致性。

Q3：字節(jié)跳動這項研究對普通用戶有什么實際意義？

A：這項研究將讓AI視頻生成變得更加穩(wěn)定可靠，用戶可以生成更長、更連貫的視頻內(nèi)容，而不會出現(xiàn)畫面逐漸崩壞的問題，這對內(nèi)容創(chuàng)作、教育和娛樂等領域都有重要價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.