国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ControlNet作者張呂敏最新論文:長視頻也能實(shí)現(xiàn)超短上下文

0
分享至



編輯|冷貓

大部分的高質(zhì)量視頻生成模型,都只能生成上限約15秒的視頻。清晰度提高之后,生成的視頻時長還會再一次縮短。

這就讓嘗試AI視頻創(chuàng)意的創(chuàng)作者們非??鄲懒?。要想實(shí)現(xiàn)創(chuàng)意,必須使用分段生成,結(jié)合首尾幀,不僅操作起來很麻煩,而且需要來回抽卡來保證畫面的一致性。

那么,限制視頻生成時長的瓶頸在哪里?

大家可能不知道的是,一段 60 秒、480p、24 幀/秒的視頻,在模型內(nèi)部會被拆解成超過 50 萬個「潛在 token」

這些 token 就像一條極長的記憶膠帶,模型想要保持劇情連貫、畫面一致,就必須從頭到尾保存上下文記憶。但代價是:算力直接爆炸,普通顯卡根本扛不住。

這正是當(dāng)前自回歸視頻生成模型的核心矛盾。一邊是越長的上下文,畫面越連貫;另一邊是越長的上下文,計算成本越高。

于是,研究者們不得不做出妥協(xié):要么用滑動窗口切掉大部分歷史,換取可運(yùn)行的算力;要么對視頻進(jìn)行激進(jìn)壓縮,犧牲清晰度和細(xì)節(jié)。

問題在于,這些壓縮方法往往最先丟掉的,正是決定畫面真實(shí)感與一致性的高頻細(xì)節(jié)。

也正是在這一困境下,蘇州大學(xué)校友,斯坦福大學(xué)博士,ControlNet 創(chuàng)作者張呂敏團(tuán)隊(duì)為此投入了研究提出了一種新的解決思路,給出了專為長視頻設(shè)計的記憶壓縮系統(tǒng),在壓縮的同時盡可能保留精細(xì)視覺信息。



  • 論文標(biāo)題:Pretraining Frame Preservation in Autoregressive Video Memory Compression
  • 論文鏈接:https://arxiv.org/abs/2512.23851v1

研究團(tuán)隊(duì)提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于將長視頻壓縮為短上下文,并設(shè)計了一種顯式的預(yù)訓(xùn)練目標(biāo),使模型能夠在任意時間位置保留單幀中的高頻細(xì)節(jié)信息。

基線模型可以將一段20 秒的視頻壓縮為約 5k 長度的上下文表示,同時支持從中隨機(jī)檢索單幀,并在感知質(zhì)量上保持良好的外觀保真度

這種預(yù)訓(xùn)練模型可以直接微調(diào)為自回歸視頻模型的記憶編碼器(memory encoder),從而以較低的上下文成本實(shí)現(xiàn)長歷史記憶建模,并且僅帶來相對較小的保真度損失。



該視頻是使用完整歷史上下文(不切割任何歷史幀)逐秒自回歸生成的。20 多秒的歷史被壓縮為 ~ 5k 上下文長度,并由 RTX 4070 12GB 處理。

全新的記憶壓縮架構(gòu)

具體而言,研究團(tuán)隊(duì)采用兩階段策略

首先,預(yù)訓(xùn)練一個專用的記憶壓縮模型,其目標(biāo)是在任意時間位置上盡可能保留高保真幀級細(xì)節(jié)信息。

該預(yù)訓(xùn)練目標(biāo)通過對從壓縮歷史中隨機(jī)采樣的幀最小化其特征距離來實(shí)現(xiàn),從而確保模型在整個序列范圍內(nèi)都能穩(wěn)健地編碼細(xì)節(jié)信息。

在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,提出了一種輕量級雙路徑架構(gòu):模型同時處理低分辨率視頻流和高分辨率殘差信息流,并通過將高分辨率特征直接注入 Diffusion Transformer 的內(nèi)部通道,繞過傳統(tǒng) VAE 所帶來的信息瓶頸,從而進(jìn)一步提升細(xì)節(jié)保真度。

預(yù)訓(xùn)練記憶壓縮模型



記憶壓縮模型的預(yù)訓(xùn)練。記憶壓縮模型需要將長視頻(例如 20 秒)壓縮成短上下文(例如長度為 5k)。預(yù)訓(xùn)練的目標(biāo)是在任意歷史時間位置檢索具有高頻細(xì)節(jié)的幀。

該方法的核心創(chuàng)新在于其預(yù)訓(xùn)練目標(biāo)設(shè)計

研究團(tuán)隊(duì)觀察到,衡量視頻壓縮機(jī)制保留上下文細(xì)節(jié)能力的一個合適的指標(biāo)是其任意時間位置高質(zhì)量幀檢索的能力。對于高壓縮率,完美檢索變得不切實(shí)際,因此目標(biāo)變?yōu)樽畲蠡我鈳臋z索質(zhì)量。



隨后,研究團(tuán)隊(duì)將所選的干凈幀復(fù)制作為擴(kuò)散模型的目標(biāo),使擴(kuò)散系統(tǒng)能夠在任意時間位置重建目標(biāo)幀。該過程可表示為:



這種隨機(jī)化選擇機(jī)制有效防止模型通過僅編碼易于訪問的幀(例如首幀或末幀)來「投機(jī)取巧」,從而迫使模型學(xué)習(xí)一種能夠在整個時間序列范圍內(nèi)持續(xù)保留細(xì)節(jié)信息的表示方式。



內(nèi)存壓縮模型的架構(gòu)。使用 3D 卷積、SiLU 和注意力機(jī)制來構(gòu)建一個輕量級的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),作為基準(zhǔn)壓縮模型。

視頻擴(kuò)散模型的微調(diào)



微調(diào)自回歸視頻模型。展示了最終自回歸視頻模型的微調(diào)和推理過程。記憶壓縮模型的預(yù)訓(xùn)練在微調(diào)之前完成。



由此得到的視頻生成模型具備超長歷史窗口(例如超過 20 秒)、極短的歷史上下文長度(例如約 5k),并且對幀檢索質(zhì)量進(jìn)行了顯式優(yōu)化。

該擴(kuò)散過程亦可按照公式表示為:



實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用 8 × H100 GPU 集群進(jìn)行預(yù)訓(xùn)練,并使用 1 × H100s 或 A100s 進(jìn)行 LoRAs 微調(diào)。所有實(shí)驗(yàn)均在 HunyuanVideo和 Wan 系列的基礎(chǔ)模型上進(jìn)行。

數(shù)據(jù)集由來自多個網(wǎng)站的約 500 萬互聯(lián)網(wǎng)視頻組成。其中約一半是豎屏短視頻,其余為普通橫屏視頻。數(shù)據(jù)經(jīng)過質(zhì)量清洗,然后使用 Gemini-2.5-flash VLM 對高質(zhì)量部分進(jìn)行字幕標(biāo)注,剩余部分使用本地 VLM(如 QwenVL)進(jìn)行處理。測試集包括由 Gemini-2.5-pro 編寫的 1000 個故事板提示和 4096 個未在訓(xùn)練數(shù)據(jù)集中出現(xiàn)過的視頻。

定性與定量評估



故事板上的定性結(jié)果。通過從故事板中流式傳輸提示來展示結(jié)果。故事板是一組提示,其中每個提示涵蓋一定數(shù)量的幀。故事板可以由外部語言模型編寫。

在定性評估方面,如圖所示,研究者證明了模型能夠處理多種多樣的提示和故事板,同時在角色、場景、物體和情節(jié)線方面保持一致性。

在定量評估方面,研究者們從 VBench、VBench2等平臺引入了多個視頻評估指標(biāo),并進(jìn)行了一些修改。



視頻內(nèi)容一致性的定量評測結(jié)果。其中,Qwen 中的 「1p」 表示僅使用 1 張圖像 作為圖像模型輸入。由于部分方法存在嚴(yán)重偽影,因此未將其納入人工 ELO 評分統(tǒng)計。

如表所示,本文提出的方法在多個一致性指標(biāo)上表現(xiàn)出合理的分?jǐn)?shù)。Wan+Qwen 組合在實(shí)例分?jǐn)?shù)上似乎具有領(lǐng)先分?jǐn)?shù),這可能是由于圖像模型不會顯著改變或移動對象,從而避免了 VLM 問答檢測到的偽影。本文的方法在對象一致性方面表現(xiàn)出有競爭力的分?jǐn)?shù)。此外,用戶研究和 ELO 分?jǐn)?shù)驗(yàn)證了本文提出的架構(gòu),證實(shí)它在壓縮和質(zhì)量之間實(shí)現(xiàn)了有效的權(quán)衡。

消融實(shí)驗(yàn)



壓縮結(jié)構(gòu)的定量結(jié)果。展示了使用不同消融壓縮架構(gòu)的數(shù)值測試。

評測結(jié)果如表所示。結(jié)果表明,本文方法在 PSNR、SSIM 等指標(biāo)上取得了相對更優(yōu)的性能。此外,即便在 4×4×2 的較高壓縮率條件下,該方法仍然能夠有效保持原始圖像結(jié)構(gòu)。



壓縮重建的視覺比較。展示了使用不同可能的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和各種壓縮設(shè)置進(jìn)行預(yù)訓(xùn)練后的重建結(jié)果。



記憶壓縮模型預(yù)訓(xùn)練的影響。展示了使用或未使用記憶壓縮模型預(yù)訓(xùn)練的結(jié)果。輸入是相同的 20 秒歷史視頻,在輸出幀中可視化中間幀。

除此以外,研究團(tuán)隊(duì)還在論文中討論了不同神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計之間的權(quán)衡取舍。

更多信息,請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突發(fā)兩大利好!A股站上4100點(diǎn)、3萬億成交,AI應(yīng)用取代商業(yè)航天?

突發(fā)兩大利好!A股站上4100點(diǎn)、3萬億成交,AI應(yīng)用取代商業(yè)航天?

看財經(jīng)show
2026-01-09 16:51:11
希羅一家近照,億元合同快到期,超模女友火辣,今年仍是巨星

希羅一家近照,億元合同快到期,超模女友火辣,今年仍是巨星

籃球看比賽
2026-01-09 12:15:56
立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

今日養(yǎng)生之道
2026-01-10 01:19:31
記12分+罰1000元!上海警方通報:多車被重罰!這些行為令人深惡痛絕!

記12分+罰1000元!上海警方通報:多車被重罰!這些行為令人深惡痛絕!

新浪財經(jīng)
2026-01-09 16:27:21
幫忙帶娃被網(wǎng)暴后續(xù),小姑子曬出多張證據(jù),親戚透露更多內(nèi)情

幫忙帶娃被網(wǎng)暴后續(xù),小姑子曬出多張證據(jù),親戚透露更多內(nèi)情

丁丁鯉史紀(jì)
2026-01-07 11:13:43
更高部門2次叫停!28歲日本名將或無緣中國聯(lián)賽 博主:非體育因素

更高部門2次叫停!28歲日本名將或無緣中國聯(lián)賽 博主:非體育因素

我愛英超
2026-01-09 21:22:26
為河北農(nóng)民取暖發(fā)聲是順應(yīng)天理人心!農(nóng)民日報不該刪稿

為河北農(nóng)民取暖發(fā)聲是順應(yīng)天理人心!農(nóng)民日報不該刪稿

灰白筆記
2026-01-08 12:40:29
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
太原一康養(yǎng)公寓經(jīng)理電梯內(nèi)死亡,董事長取保期間涉該起命案被收押

太原一康養(yǎng)公寓經(jīng)理電梯內(nèi)死亡,董事長取保期間涉該起命案被收押

澎湃新聞
2026-01-09 17:08:29
菲軍邀5國派兵挑釁,不到48小時,解放軍開始算賬,日菲一起收拾

菲軍邀5國派兵挑釁,不到48小時,解放軍開始算賬,日菲一起收拾

博覽歷史
2026-01-09 18:01:34
山東險勝北京迎來兩喜一憂,接下來將迎甜蜜賽程,十連勝大有希望

山東險勝北京迎來兩喜一憂,接下來將迎甜蜜賽程,十連勝大有希望

吳锎旅行ing
2026-01-10 07:41:24
潛艇護(hù)航是大忌!俄油輪改名掛旗也沒用,被美軍P-8A死死拿捏

潛艇護(hù)航是大忌!俄油輪改名掛旗也沒用,被美軍P-8A死死拿捏

大國知識局
2026-01-08 23:19:54
李在明送中方5件國禮,深夜回國收到噩耗,美駐韓一把手突然撤離

李在明送中方5件國禮,深夜回國收到噩耗,美駐韓一把手突然撤離

博覽歷史
2026-01-09 18:08:29
滇池旁14車一夜變廢鐵!重慶游客返程前心碎,以后再也不來了!

滇池旁14車一夜變廢鐵!重慶游客返程前心碎,以后再也不來了!

游者走天下
2026-01-09 10:55:20
離岸人民幣兌美元較周四紐約尾盤漲62點(diǎn)

離岸人民幣兌美元較周四紐約尾盤漲62點(diǎn)

每日經(jīng)濟(jì)新聞
2026-01-10 06:26:05
96年臺海危機(jī),是誰揪出了劉連昆,邵正宗這兩個間諜

96年臺海危機(jī),是誰揪出了劉連昆,邵正宗這兩個間諜

鶴羽說個事
2026-01-07 11:24:29
前途無量!國足21歲天才閃耀亞洲杯,報價2000萬,豪門排隊(duì)搶他

前途無量!國足21歲天才閃耀亞洲杯,報價2000萬,豪門排隊(duì)搶他

二瘋說球
2026-01-10 08:58:30
中國男籃決戰(zhàn)日本隊(duì),爆料陣容調(diào)整,徐杰強(qiáng)勢加入,胡明軒不太行

中國男籃決戰(zhàn)日本隊(duì),爆料陣容調(diào)整,徐杰強(qiáng)勢加入,胡明軒不太行

宗介說體育
2026-01-09 12:12:46
一場0:0讓邵佳一又欣喜發(fā)現(xiàn) 找到鄭智接班人 國足新中場核心浮現(xiàn)

一場0:0讓邵佳一又欣喜發(fā)現(xiàn) 找到鄭智接班人 國足新中場核心浮現(xiàn)

零度眼看球
2026-01-10 07:06:15
Jennie臺北機(jī)場全程臭臉,沒給一秒鐘好臉,網(wǎng)友怒轟:態(tài)度好差

Jennie臺北機(jī)場全程臭臉,沒給一秒鐘好臉,網(wǎng)友怒轟:態(tài)度好差

并不擅長圈粉的鐵任
2026-01-10 01:21:39
2026-01-10 09:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

手機(jī)
教育
健康
房產(chǎn)
公開課

手機(jī)要聞

網(wǎng)易數(shù)碼2025年度好物揭曉:30款精選產(chǎn)品上榜,你用過哪些?

教育要聞

畢業(yè)就拿編制!3類大學(xué)生直接分配工作

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版