国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI視頻不再串戲:免訓練精準控制多段動作,SwitchCraft一招破解

0
分享至



近年來,隨著 Sora、Seedance 等文本到視頻(T2V)擴散模型的飛速發(fā)展,AI 視頻生成在視覺保真度與動態(tài)表現(xiàn)上已取得突破性進展。特別是近期備受矚目的 Seedance 2.0,展現(xiàn)出了極其強大的多鏡頭敘事與復(fù)雜分鏡控制能力。 僅需一段文本提示,生成模型即可合成具備高度物理規(guī)律與電影級質(zhì)感的視頻片段。

然而,當我們審視當前的開源視頻擴散模型時,一個嚴峻的技術(shù)瓶頸依然存在:在卓越的單場景生成效果背后,它們大多針對 “單事件” 生成進行優(yōu)化,難以駕馭包含多個連續(xù)動作或復(fù)雜場景切換的時序敘事。 面對包含明確時序遞進的復(fù)雜指令時,開源模型的指令依從性往往面臨巨大挑戰(zhàn)。

當模型處理 “多事件” 的提示詞時,由于缺乏顯式的幀級時間約束,往往會表現(xiàn)出顯著的性能衰退。具體而言,模型極易產(chǎn)生語義特征糾纏,導(dǎo)致多個動作在時空維度發(fā)生違背物理常識的重疊與坍縮;亦或是出現(xiàn)事件遺漏,完全忽略提示詞中的部分關(guān)鍵動作,從而徹底破壞預(yù)期的敘事邏輯。



圖注:在無時序控制的基線模型中,多個動作特征在時空維度發(fā)生嚴重坍縮,而采用了 SwitchCraft 框架后,系統(tǒng)成功實現(xiàn)了細粒度的對齊,人物動作演進清晰分明,指令依從性得到了顯著提升。

為突破這一多事件視頻生成的技術(shù)壁壘,西湖大學 AGI 實驗室的研究團隊提出了一種全新的免訓練多事件視頻生成框架SwitchCraft。該框架創(chuàng)新性地引入了底層注意力控制機制,在不更新任何基礎(chǔ)大模型參數(shù)的前提下,實現(xiàn)了對視頻注意力的精準時序引導(dǎo)。它不僅確保了復(fù)雜動作的按序生成,同時維持了極高的視覺保真度與主體一致性。

目前,該研究成果已成功入選計算機視覺頂級會議CVPR 2026。項目代碼與演示主頁均已開源。



第一作者為在西湖大學 AGI 實驗室訪問的大三本科生徐千尋,指導(dǎo)老師為西湖大學 AGI 實驗室助理教授張馳。



  • 論文標題:SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
  • 論文鏈接:https://arxiv.org/abs/2602.23956
  • 項目地址:https://switchcraft-project.github.io
  • Github:https://github.com/Westlake-AGI-Lab/SwitchCraft

技術(shù)痛點:多事件視頻生成的底層困境

要理解 SwitchCraft 的學術(shù)貢獻,首先需要剖析現(xiàn)有視頻擴散模型在處理 “多事件” 任務(wù)時的底層缺陷。

在當前的視頻生成架構(gòu)(如基于 Diffusion Transformer 的擴散模型)中,文本提示詞的特征通常通過交叉注意力機制(Cross-Attention)在整個時間軸上被均勻分布與注入。模型缺乏一種內(nèi)在機制來建立 “特定時間段” 與 “特定文本事件” 之間的強映射關(guān)系。這導(dǎo)致不同時間維度的語義特征在全局幀中發(fā)生嚴重的特征泄漏,最終呈現(xiàn)出動作的異常疊加或?qū)傩缘腻e誤融合。

此前,業(yè)界嘗試的替代方案通常是 “分段生成與拼接”,即強行將長文本拆分為多個獨立子事件,分別生成視頻后再進行組合。然而,這種自回歸或基于拼接的方法會引發(fā)致命的主體特征退化:在場景或動作切換時,視頻極易出現(xiàn)生硬的跳切,核心主體的外觀特征及背景環(huán)境往往無法在轉(zhuǎn)場前后保持時空一致性。

如何不拆分生成、不破壞時序連貫性的前提下,引導(dǎo)模型精準響應(yīng)復(fù)雜的時間線索?這正是 SwitchCraft 致力于解決的核心挑戰(zhàn)。

方法概述:精準注意力時序控制



SwitchCraft 的核心創(chuàng)新在于:通過直接干預(yù)底層模型的注意力響應(yīng)模式,實現(xiàn)隱幀級別的語義解耦。

作為一個免訓練框架,SwitchCraft 具備極高的泛化性與實用性。它無需消耗高昂的計算資源對現(xiàn)有的視頻大模型進行重新訓練或微調(diào),即可作為即插即用的模塊集成至現(xiàn)有流水線中。該框架主要由兩大核心組件構(gòu)成:

貢獻一:事件對齊的查詢引導(dǎo) (Event-Aligned Query Steering, EAQS)

在主流的視頻擴散模型中,視覺生成高度依賴于交叉注意力機制:即通過隱幀提取的視覺查詢向量(Visual Queries)去匹配文本提示詞的鍵特征(Textual Keys)。EAQS 模塊直接介入這一底層計算過程,以實現(xiàn)時序上的語義隔離。

  • 時序綁定與事件劃分: EAQS 首先接收全局文本提示,每個獨立事件對應(yīng)的錨點(Anchor Tokens),以及用戶設(shè)定的事件時間邊界。EAQS 會根據(jù)用戶設(shè)定的時間跨度,將視頻幀劃分為不同的事件區(qū)間。對于任意一個具體的生成幀(例如:第 0~2 秒),系統(tǒng)會自動將當前應(yīng)當發(fā)生的動作(如 “走路”)定義為激活事件(Active Event),而將該時間段外發(fā)生的動作(如 2~4 秒的 “轉(zhuǎn)身”、4~5 秒的 “招手”)定義為非激活事件(Inactive Events)。
  • 查詢向量的精準偏移: 在特定時間段隱幀序列的去噪過程中,EAQS 會在特征維度上對模型的視覺查詢向量施加定向的偏移(Steering)。其核心邏輯非常明確:在當前幀,強制視覺查詢向量向 “激活事件” 的特征靠近(增強注意力),同時主動將其從所有 “非激活事件” 的特征處推開(抑制注意力)。
  • 解耦效果: 通過這種嚴格按時間窗口觸發(fā)的 “一拉一推” 機制,EAQS 從根本上阻斷了特征糾纏與跨時序的語義泄漏,確保未發(fā)生的動作絕不會提前 “搶戲”。

貢獻二:自適應(yīng)強度平衡求解器 (Auto-Balance Strength Solver, ABSS)

在擴散模型中,對交叉注意力圖施加過度的外部干預(yù),易破壞模型預(yù)訓練所建立的原始特征分布,從而導(dǎo)致生成的畫面出現(xiàn)偽影、結(jié)構(gòu)扭曲或視覺質(zhì)量急劇下降。此外,由于不同提示詞的語義復(fù)雜度與動作生成難度存在顯著差異,固定的超參數(shù)無法泛化至多樣化的生成任務(wù)中。

為解決這一魯棒性問題,自動得到最優(yōu)的 “推”“拉” 強度,研究團隊設(shè)計了具備閉環(huán)調(diào)節(jié)機制的 ABSS 模塊:

  • 主導(dǎo)方向提取與缺口(Margin Deficit)量化: 在每一個去噪步中,ABSS 首先利用奇異值分解(SVD)提取出 “目標事件” 與各 “干擾事件” 在潛空間中的主導(dǎo)方向,并分別計算當前視覺查詢向量在這些方向上的對齊得分 ;基于此,系統(tǒng)會精準鎖定得分最高的 “最強干擾事件”,通過計算其得分超越目標事件的部分,嚴格量化出當前亟需彌補的 “邊距缺口” 。
  • 動態(tài)求解最優(yōu)強度: 基于評估結(jié)果,ABSS 會自適應(yīng)地求解出當前幀與當前去噪步下的最優(yōu)干預(yù)強度。該機制通過精確的數(shù)學約束,確保施加的注意力引導(dǎo)既能精準驅(qū)動動作發(fā)生,又不會過度偏離基礎(chǔ)模型原本的視覺特征分布。
  • 實現(xiàn)動態(tài)最優(yōu)平衡: 這一自適應(yīng)調(diào)節(jié)機制徹底消除了繁瑣的手動調(diào)參痛點。它從算法層面保證了 SwitchCraft 能夠在 “最大化多事件時序?qū)R度” 與 “嚴格維持基礎(chǔ)模型高視覺保真度” 之間,取得動態(tài)的最優(yōu)平衡。

實驗亮點:高一致性的多事件連貫敘事

得益于上述兩大核心機制的協(xié)同作用,SwitchCraft 在多事件視頻生成任務(wù)中展現(xiàn)出了卓越的控制性能:



提示詞:一個男人抬起一只手臂,然后抓了抓頭,然后向前跑去



提示詞:一個人在走路,然后跑步,然后起跳。



提示詞:一輛越野車駛過沙丘,然后穿過森林小徑,然后在雪地小路上行駛。



提示詞:一個學生筆直地坐在書桌前打開筆記本電腦,然后開始打字,然后向后靠并伸展雙臂。

此外,SwitchCraft 在場景切換上還展現(xiàn)出了一項獨特的優(yōu)勢:創(chuàng)意遮擋轉(zhuǎn)場(Creative Occluding Transitions)。不同于現(xiàn)有基線模型在轉(zhuǎn)場時極易產(chǎn)生的殘影或主體突變,該框架能夠巧妙利用環(huán)境遮擋關(guān)系生成創(chuàng)意的無縫運鏡。它不僅實現(xiàn)了前后異構(gòu)場景的平滑融合,更在全過程中完美鎖定了核心主體的身份特征一致性。



對比多種現(xiàn)有的視頻生成與時序控制基線方法(如 MEVG、DiTCtrl、LongLive 等),SwitchCraft 在多事件文本對齊度、視覺保真度與運動平滑度等方面均表現(xiàn)突出,綜合客觀評測指標穩(wěn)居領(lǐng)先水平 。



此外,團隊在消融實驗中發(fā)現(xiàn),SwitchCraft 的各項核心機制缺一不可。在 EAQS 模塊中,若打破 “推拉” 協(xié)同(僅保留單向的 “增強” 或 “抑制”),生成的視頻將面臨動作遺漏或跨時序特征泄漏;而在 ABSS 模塊中,若放棄自適應(yīng)機制(采用固定的注意力干預(yù)強度或移除 SVD 主導(dǎo)方向提。,則會導(dǎo)致畫面視覺保真度出現(xiàn)斷崖式下跌,文本對齊準確率也會顯著降低。這充分證明了 “一推一拉” 的時序注意力調(diào)度與 “動態(tài)自適應(yīng)求解” 必須相輔相成,二者的完美配合正是模型能夠在 “高保真視覺質(zhì)量” 與 “精準多事件控制” 之間取得動態(tài)最優(yōu)平衡的關(guān)鍵所在。

結(jié)語

SwitchCraft 展示了復(fù)雜視頻生成的新思路:無需微調(diào)的精準時序注意力控制。我們期待這一即插即用的框架在長篇視頻敘事、動態(tài)分鏡等領(lǐng)域落地,并與開源社區(qū)共同探索更多可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
青島農(nóng)商行因拖欠500萬元物業(yè)費被起訴 原董事長年薪曾達195.84萬

青島農(nóng)商行因拖欠500萬元物業(yè)費被起訴 原董事長年薪曾達195.84萬

林子說事
2026-03-26 13:57:35
生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

蜉蝣說
2026-03-17 15:58:31
勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

司峰阿道
2026-03-26 14:45:09
張雪峰心源性猝死多嚴重,那個最快護士就有多“牛逼”(張雪峰的慣用詞)

張雪峰心源性猝死多嚴重,那個最快護士就有多“牛逼”(張雪峰的慣用詞)

天山箴言錄
2026-03-26 16:45:50
中國平安2025年扣非凈利潤顯著增長22.5% 現(xiàn)金分紅489億元連續(xù)14年上漲

中國平安2025年扣非凈利潤顯著增長22.5% 現(xiàn)金分紅489億元連續(xù)14年上漲

財聯(lián)社
2026-03-26 18:05:05
兄弟倆同出寧海路,一個資產(chǎn)清零,一個負債率28%穩(wěn)坐前500強

兄弟倆同出寧海路,一個資產(chǎn)清零,一個負債率28%穩(wěn)坐前500強

花小貓的美食日常
2026-03-26 07:41:46
特斯拉 Model 3 標準版要來了!配置太離譜

特斯拉 Model 3 標準版要來了!配置太離譜

花果科技
2026-03-25 16:23:07
“公路閃電”終于換代,但我覺得不如豐田

“公路閃電”終于換代,但我覺得不如豐田

差評XPIN
2026-03-26 09:57:20
固態(tài)電池神話破滅?比亞迪三款千公里續(xù)航實車已殺到!

固態(tài)電池神話破滅?比亞迪三款千公里續(xù)航實車已殺到!

芭比衣櫥
2026-03-26 09:52:41
突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

蓬勃新聞
2026-03-25 20:00:43
每吃一次,大腦萎縮就快一步?勸告:這4物是老年癡呆催化劑

每吃一次,大腦萎縮就快一步?勸告:這4物是老年癡呆催化劑

墜入二次元的海洋
2026-03-26 18:16:38
重磅實錘!瓜帥即將告別曼城,下一站徹底跳出英超

重磅實錘!瓜帥即將告別曼城,下一站徹底跳出英超

瀾歸序
2026-03-26 06:02:38
現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

侃神評故事
2026-03-25 11:30:09
真是變態(tài)準啊!3名本土合砍62分,三分22中16,付政浩:CBA獨一檔

真是變態(tài)準啊!3名本土合砍62分,三分22中16,付政浩:CBA獨一檔

金山話體育
2026-03-26 08:29:20
美國必勝?哈佛專家:不要高估中國,美國已經(jīng)控制了中國的命脈

美國必勝?哈佛專家:不要高估中國,美國已經(jīng)控制了中國的命脈

探史
2026-03-25 08:59:36
伊朗武裝部隊向以色列發(fā)射新一輪導(dǎo)彈

伊朗武裝部隊向以色列發(fā)射新一輪導(dǎo)彈

財聯(lián)社
2026-03-26 19:42:42
美股三大期指短線走低,納指期貨、標普500指數(shù)期貨均跌超1%

美股三大期指短線走低,納指期貨、標普500指數(shù)期貨均跌超1%

每日經(jīng)濟新聞
2026-03-26 20:18:05
伊朗伊斯蘭革命衛(wèi)隊海軍指揮官身亡

伊朗伊斯蘭革命衛(wèi)隊海軍指揮官身亡

財聯(lián)社
2026-03-26 16:23:15
兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現(xiàn)

人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現(xiàn)

健康科普365
2025-12-18 10:01:25
2026-03-26 21:52:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
時尚
旅游
本地
公開課

數(shù)碼要聞

iQOO Z11x發(fā)布:LCD黨的護眼神機 1499元起

上新|| 她們說,找到了自己的人生裙子!

旅游要聞

別再人擠人,泰州的這條老街,傳承1200年!

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版