国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

VideoCoF推出創(chuàng)新視頻編輯技術(shù),無需Mask實(shí)現(xiàn)高精度時(shí)序推理!

0
分享至



本文第一作者是 UTS 博士生楊向鵬,主要研究方向是視頻生成和世界模型;第二作者是謝集,浙江大學(xué)的四年級(jí)本科生,主要研究方向統(tǒng)一多模態(tài)大模型和視頻生成。通訊作者是吳強(qiáng)教授,主要研究方向?yàn)橛?jì)算機(jī)視覺和模式識(shí)別。

現(xiàn)有的視頻編輯模型往往面臨「魚與熊掌不可兼得」的困境:專家模型精度高但依賴 Mask,通用模型雖免 Mask 但定位不準(zhǔn)。來自悉尼科技大學(xué)和浙江大學(xué)的研究團(tuán)隊(duì)提出了一種全新的視頻編輯框架 VideoCoF,受 LLM「思維鏈」啟發(fā),通過「看 - 推理 - 編輯」的流程,僅需 50k 訓(xùn)練數(shù)據(jù),就在多項(xiàng)任務(wù)上取得了 SOTA 效果,并完美支持長視頻外推!

目前,模型、代碼均已開源,4 步編輯一條視頻,訓(xùn)練數(shù)據(jù) VideoCoF-50k 預(yù)計(jì)本周內(nèi)開源!



  • 論文鏈接: https://arxiv.org/abs/2512.07469
  • 項(xiàng)目主頁: https://videocof.github.io/
  • 代碼 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo鏈接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛點(diǎn):精度與通用的「兩難困境」

在 AIGC 時(shí)代,視頻編輯已經(jīng)有了長足進(jìn)步,但仍存在一個(gè)明顯的痛點(diǎn):

  • 專家模型(Expert Models):像醫(yī)生做手術(shù)一樣精準(zhǔn),但往往需要用戶提供繁瑣的 Mask,因此阻礙了自動(dòng)化和統(tǒng)一化。
  • 通用上下文學(xué)習(xí)模型(Unified In-Context Models):雖然不需要 Mask,但在面對(duì)復(fù)雜的空間關(guān)系(比如「右邊的那個(gè)男孩」)時(shí),往往「眼神不好」,定位不準(zhǔn)。

能不能既要高精度,又不要 Mask?

VideoCoF 給出了肯定的答案。

核心創(chuàng)新:像人一樣「先思考,后動(dòng)手」

VideoCoF 的核心靈感來自于大語言模型(LLM)中的思維鏈(Chain-of-Thought)。研究團(tuán)隊(duì)認(rèn)為,視頻生成模型也應(yīng)該具備類似的推理能力。

為此,他們提出了Chain of Frames (CoF) 機(jī)制,將視頻編輯過程重構(gòu)為三個(gè)階段:

  1. Seeing(看):輸入原始視頻。
  2. Reasoning(推理):模型先預(yù)測出「推理幀」(Reasoning Frame),即用高亮區(qū)域明確指出「哪里需要編輯」。
  3. Editing(編輯):基于推理結(jié)果,精準(zhǔn)生成目標(biāo)視頻。



這種顯式的推理過程,讓模型學(xué)會(huì)了主動(dòng)建立編輯指令與畫面區(qū)域的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)了無需 Mask 的高精度編輯。

時(shí)序 RoPE 對(duì)齊,實(shí)現(xiàn)長視頻外推



除了推理能力,視頻編輯的另一個(gè)難題是長度限制。很多模型只能編輯短視頻,一旦視頻變長,動(dòng)作就會(huì)變形或崩壞。

VideoCoF 引入了獨(dú)特的RoPE(旋轉(zhuǎn)位置編碼)對(duì)齊策略:

  • 巧妙的對(duì)齊了原視頻 [1,F] 和編輯視頻 [1,F] 時(shí)間索引,同時(shí)將推理幀的時(shí)間索引設(shè)置為 0,避免了推理幀與編輯幀的索引沖突;
  • 實(shí)現(xiàn)了「訓(xùn)練短視頻(33 幀),推理長視頻(140 + 幀)」 的能力。

這意味著,你用極小的成本訓(xùn)練出的模型,可以在推理時(shí)處理遠(yuǎn)超訓(xùn)練長度的視頻,且保持動(dòng)作流暢、無紋理突變和偽影。



實(shí)驗(yàn)驗(yàn)證:50k 數(shù)據(jù)「四兩撥千斤」,性能全面 SOTA

除了架構(gòu)設(shè)計(jì)的精妙,VideoCoF 最令人印象深刻的當(dāng)屬其驚人的數(shù)據(jù)效率。

為了驗(yàn)證效果,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含添加、刪除、替換及風(fēng)格遷移的高質(zhì)量實(shí)例級(jí)數(shù)據(jù)集,并在VideoCoF-Bench上進(jìn)行了嚴(yán)格測評(píng)。

1.以小博大:50k vs 100 萬

  • VideoCoF:僅使用 50k (5 萬) 視頻對(duì)進(jìn)行微調(diào)。
  • 基線模型 (ICVE):依賴龐大的 100 萬 視頻預(yù)訓(xùn)練 + 15 萬 微調(diào)數(shù)據(jù)。

盡管訓(xùn)練數(shù)據(jù)量僅為基線的1/20,VideoCoF 卻實(shí)現(xiàn)了性能的反超:

  • 指令遵循 (Instruct Follow):得分高達(dá)8.97(滿分 10),顯著優(yōu)于 ICVE (7.79) 和 VACE (7.47)。這意味著模型能更精準(zhǔn)地 “聽懂人話”,不會(huì)漏掉指令細(xì)節(jié)。
  • 成功率 (Success Ratio):達(dá)到了76.36%,大幅領(lǐng)先于商業(yè)模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。



2.為什么「推理」如此重要?(消融實(shí)驗(yàn))

VideoCoF 的核心在于「先推理,再編輯」。那么,如果去掉推理幀,直接讓模型硬算,效果會(huì)怎樣?

研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)(Ablation Study)。結(jié)果顯示,相比于沒有推理環(huán)節(jié)的Naive Temporal in Context基線:

  • 引入CoF (Chain of Frames)后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入RoPE 索引解耦后,長視頻外推的保真度(Preservation)和時(shí)序一致性(CLIP-F)均有顯著提升。

這有力地證明了:顯式的時(shí)序推理(See-Reason-Edit)不僅是錦上添花,更是實(shí)現(xiàn)高精度視頻編輯的關(guān)鍵。

3.推理幀長什么樣?「五彩斑斕的灰」才是最優(yōu)解

除了「要不要推理」,VideoCoF 團(tuán)隊(duì)還深入研究了「推理幀到底該長什么樣」,是像分割模型那樣用黑白掩碼?還是像圈圖那樣用紅圈?

在 Table 3 的消融實(shí)驗(yàn)中,團(tuán)隊(duì)對(duì)比了三種形式:

  • 純黑背景 (Black BG):效果最差,因?yàn)閿U(kuò)散模型往往對(duì)極端的純黑 / 純白像素不敏感。
  • 紅色高亮 (Red Highlight):效果中規(guī)中矩。
  • 灰色高亮 (Gray Highlight):表現(xiàn)優(yōu)于紅色。

最終殺器:漸變灰 (Progressive Gray) 。VideoCoF 發(fā)現(xiàn),推理幀不應(yīng)只是一個(gè)靜態(tài)的「定位圖」,而應(yīng)充當(dāng)從「源視頻」到「編輯視頻」的時(shí)序過渡橋梁。

因此,團(tuán)隊(duì)設(shè)計(jì)了一種透明度漸變(如 0% → 25% → 50% → 75%)的灰色掩碼。這種設(shè)計(jì)不僅明確了「哪里要改」,更給模型一種「變化正在發(fā)生」的動(dòng)態(tài)暗示。

實(shí)驗(yàn)結(jié)果(Table 3)顯示,相比于靜態(tài)的紅 / 黑掩碼,漸變灰設(shè)計(jì)直接將指令遵循得分(Instruct Follow)從 7.5/7.8 拉升到了 8.97,證明了細(xì)節(jié)設(shè)計(jì)對(duì)模型性能的巨大影響。





效果展示:萬物皆可改

VideoCoF 展現(xiàn)了強(qiáng)大的通用編輯能力,無論是增刪改查,還是局部風(fēng)格遷移,都能精準(zhǔn)搞定:

  1. 多實(shí)例移除 (Multi-Instance Removal):「移除左邊穿米色褲子的年輕女性」 —— 指哪打哪,背景自動(dòng)補(bǔ)全,絕不誤傷旁人;
  2. 物體添加 (Object Addition):「在草地上憑空加一只白色的薩摩耶」 —— 從無到有,光影透視完美融合,仿佛它原本就在那里;
  3. 多實(shí)例物體替換:無論是給人換一件牛仔外套,還是更換性別年齡,從老頭換成女孩, 可以輕松完成;
  4. 局部風(fēng)格遷移:給兔子換個(gè)「銅色皮膚」,把路牌從「School」改成「Hospital」,細(xì)節(jié)紋理都能完美保留。


https://mp.weixin.qq.com/s/e0X_0oF46oYJNqyAI3qetQ?click_id=11

總結(jié)

VideoCoF 是一項(xiàng)通過「時(shí)序推理」統(tǒng)一視頻編輯任務(wù)的開創(chuàng)性工作。它不僅解決了無 Mask 編輯的精度問題,還通過高效的數(shù)據(jù)利用(僅 50k 樣本)和巧妙的 RoPE 設(shè)計(jì),實(shí)現(xiàn)了低成本、高性能、長視頻支持的視頻編輯。對(duì)于社區(qū)而言,VideoCoF 證明了 Better Reasoning > More Data,為未來的視頻生成與編輯研究提供了新的思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄方譴責(zé)烏軍襲擊“人道主義車輛”,土耳其對(duì)俄發(fā)出嚴(yán)厲警告

俄方譴責(zé)烏軍襲擊“人道主義車輛”,土耳其對(duì)俄發(fā)出嚴(yán)厲警告

史政先鋒
2025-12-27 21:46:43
姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

阿纂看事
2025-12-27 09:55:58
沉寂1天,高市早苗終于簽字,日本砸9萬億反華,解放軍動(dòng)作更大

沉寂1天,高市早苗終于簽字,日本砸9萬億反華,解放軍動(dòng)作更大

博覽歷史
2025-12-27 18:50:49
今年底熱鬧了!央視馬年春晚LOGO被網(wǎng)友“比下去”,真相挺有意思

今年底熱鬧了!央視馬年春晚LOGO被網(wǎng)友“比下去”,真相挺有意思

陳意小可愛
2025-12-28 04:46:16
AI大神吳恩達(dá):很多計(jì)算機(jī)專業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

AI大神吳恩達(dá):很多計(jì)算機(jī)專業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

爆角追蹤
2025-12-27 12:33:54
姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

姜昆徹底不裝了:此生無悔入華夏,家在加利福尼亞!咋啦?

細(xì)雨中的呼喊
2025-12-26 17:22:45
保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

利物浦淚奔!1.36億水貨斬首球+獲MVP 炸裂7次過人 3送妙傳遭吐餅

我愛英超
2025-12-28 01:25:30
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

我愛英超
2025-12-28 03:55:16
黃循財(cái):不允許任何國家和企業(yè)借新加坡為中轉(zhuǎn)點(diǎn)轉(zhuǎn)運(yùn)芯片出口中國

黃循財(cái):不允許任何國家和企業(yè)借新加坡為中轉(zhuǎn)點(diǎn)轉(zhuǎn)運(yùn)芯片出口中國

百態(tài)人間
2025-12-27 16:40:18
價(jià)格大跳水!有人1.8萬元買的如今只能賣180元

價(jià)格大跳水!有人1.8萬元買的如今只能賣180元

絢麗的畫卷
2025-12-24 17:11:53
白宮發(fā)言人萊維特宣布懷孕,發(fā)文感謝特朗普支持,贊揚(yáng)其“在白宮營造了支持家庭的環(huán)境”

白宮發(fā)言人萊維特宣布懷孕,發(fā)文感謝特朗普支持,贊揚(yáng)其“在白宮營造了支持家庭的環(huán)境”

都市快報(bào)橙柿互動(dòng)
2025-12-27 15:07:34
疑知名女星前夫被判無期,“涉案10余億元,已有受害人過世”

疑知名女星前夫被判無期,“涉案10余億元,已有受害人過世”

魯中晨報(bào)
2025-12-27 12:49:35
大烏龍!0分張鎮(zhèn)麟?yún)⒓淤惡蟀l(fā)布會(huì):被告知沒資格 無奈趕緊離開

大烏龍!0分張鎮(zhèn)麟?yún)⒓淤惡蟀l(fā)布會(huì):被告知沒資格 無奈趕緊離開

醉臥浮生
2025-12-27 22:06:14
姜昆視頻拍攝者不忍了!露臉回應(yīng)視頻拍攝地點(diǎn),圣誕事件真相大白

姜昆視頻拍攝者不忍了!露臉回應(yīng)視頻拍攝地點(diǎn),圣誕事件真相大白

石辰搞笑日常
2025-12-28 02:26:36
全國無償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無償獻(xiàn)血

全國無償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無償獻(xiàn)血

中國經(jīng)營報(bào)
2025-12-27 17:11:22
徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

葉公子
2025-12-27 19:19:28
嚴(yán)查個(gè)人收入?2026年如果你的賬戶收入“超過這個(gè)數(shù)”,要注意了

嚴(yán)查個(gè)人收入?2026年如果你的賬戶收入“超過這個(gè)數(shù)”,要注意了

李博世財(cái)經(jīng)
2025-12-27 17:19:03
痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

阿纂看事
2025-12-27 23:23:46
藍(lán)白合首戰(zhàn)失利,鄭麗文面臨挑戰(zhàn);國民黨中委員改選,連勝文發(fā)力

藍(lán)白合首戰(zhàn)失利,鄭麗文面臨挑戰(zhàn);國民黨中委員改選,連勝文發(fā)力

時(shí)時(shí)有聊
2025-12-27 20:18:21
2025-12-28 07:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
本地
公開課

藝術(shù)要聞

手串種類大盤點(diǎn),全見過的算得上是文玩老手了!

教育要聞

劉嘉教授:教貧窮的人有自尊會(huì)刺傷對(duì)方

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版