国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ByteDance團(tuán)隊讓AI學(xué)會制作無縫連接的長鏡頭視頻

0
分享至


在今年12月剛剛發(fā)布的一項研究中,ByteDance公司的智能創(chuàng)作團(tuán)隊帶來了一個令人興奮的技術(shù)突破。由劉嘉偉、李俊橋、鄧江凡等研究者組成的團(tuán)隊開發(fā)出了一套名為DreaMontage的AI視頻生成系統(tǒng),這項研究發(fā)表在2025年12月25日的arXiv預(yù)印本平臺上。有興趣深入了解的讀者可以通過編號arXiv:2512.21252v1查詢完整論文。

這個系統(tǒng)最神奇的地方在于,它能夠把用戶提供的零散圖片和視頻片段,像魔法師一樣組合成一個完整流暢的"一鏡到底"長視頻。在電影制作中,"一鏡到底"是指用一個連續(xù)的鏡頭拍攝整個場景,不進(jìn)行剪切,這種技術(shù)能創(chuàng)造出令人驚嘆的沉浸感,但在現(xiàn)實拍攝中成本高昂且技術(shù)要求極高。

研究團(tuán)隊面臨的挑戰(zhàn)就像是要把一堆散落的拼圖碎片組合成一幅完整的動態(tài)畫作。傳統(tǒng)的視頻生成方法就像是簡單地把不同的視頻片段強(qiáng)行粘貼在一起,結(jié)果往往會出現(xiàn)明顯的跳躍和不連貫,就好比看電影時突然畫面一閃,前一秒還是白天,后一秒就變成了夜晚,讓觀眾感到突兀和不適。

DreaMontage系統(tǒng)的工作原理可以比作一個經(jīng)驗豐富的電影導(dǎo)演兼剪輯師。當(dāng)你給它提供幾張關(guān)鍵圖片或幾段視頻片段,并告訴它這些內(nèi)容應(yīng)該出現(xiàn)在時間軸的什么位置時,它就能智能地填補(bǔ)空白,創(chuàng)造出自然流暢的過渡效果。比如說,你可以給它一張餐桌照片作為開始,一段滑雪視頻放在中間,再用一張海灘照片作為結(jié)尾,系統(tǒng)就能生成一個連貫的故事:也許是從室內(nèi)用餐開始,然后場景自然過渡到雪山滑雪,最后以在海灘休息結(jié)束。

為了實現(xiàn)這個看似不可能的任務(wù),研究團(tuán)隊開發(fā)了三個關(guān)鍵的技術(shù)突破。第一個突破就像是給AI裝上了一套"時空定位導(dǎo)航系統(tǒng)"。傳統(tǒng)的視頻生成模型就像一個只能看到開頭和結(jié)尾的盲人,無法準(zhǔn)確知道中間某個特定時間點應(yīng)該發(fā)生什么。研究團(tuán)隊通過一種叫做"中間條件適應(yīng)"的技術(shù),讓AI能夠準(zhǔn)確理解用戶指定的任何時間點的內(nèi)容要求。

這個過程有點像教會AI理解一個復(fù)雜的時間表。研究團(tuán)隊發(fā)現(xiàn),原有的視頻編碼方式會導(dǎo)致時間對應(yīng)關(guān)系的混亂,就好比你想在下午3點準(zhǔn)確到達(dá)某個地點,但導(dǎo)航系統(tǒng)卻把你在3點附近的所有位置信息都混在一起,無法給出準(zhǔn)確指示。為了解決這個問題,他們重新設(shè)計了訓(xùn)練方式,讓AI能夠精確對應(yīng)每個時間點的內(nèi)容要求。

第二個技術(shù)突破專注于提升視頻的表現(xiàn)力和視覺質(zhì)量。研究團(tuán)隊精心收集了大量高質(zhì)量的"一鏡到底"視頻素材,就像為AI準(zhǔn)備了一本涵蓋各種拍攝技巧的電影教科書。這些素材被細(xì)致地分類為鏡頭運動、視覺效果、體育動作、空間感知和高級轉(zhuǎn)場等不同類型,每種類型都有詳細(xì)的動作描述和技術(shù)要點。

通過這種有針對性的訓(xùn)練,AI逐漸學(xué)會了各種電影拍攝技巧。它不再是簡單地生成靜態(tài)或重復(fù)的畫面,而是能夠創(chuàng)造出動態(tài)的鏡頭移動、流暢的場景轉(zhuǎn)換,甚至是復(fù)雜的視覺特效。這就好比一個攝影新手通過大量觀摩經(jīng)典電影,逐漸掌握了專業(yè)的拍攝手法和剪輯技巧。

第三個突破則是為了解決AI生成視頻中常見的"穿幫"問題。在傳統(tǒng)的AI視頻生成中,經(jīng)常會出現(xiàn)一些違反物理規(guī)律或邏輯常識的畫面,比如人物突然憑空消失、汽車在空中飛行、或者場景之間出現(xiàn)生硬的跳躍切換。這些問題就像是電影中的穿幫鏡頭一樣,嚴(yán)重影響觀看體驗。

研究團(tuán)隊采用了一種叫做"定制化直接偏好優(yōu)化"的技術(shù)來解決這些問題。他們首先訓(xùn)練了一個專門的AI"質(zhì)量檢查員",這個檢查員能夠識別視頻中的各種問題,比如不自然的場景切換或違反物理規(guī)律的動作。然后,系統(tǒng)會生成大量不同版本的視頻,讓這個質(zhì)量檢查員從中挑選出最好和最差的版本。通過不斷地對比和學(xué)習(xí)這些正面和負(fù)面的例子,AI逐漸學(xué)會了避免常見的錯誤,生成更加合理和流暢的視頻內(nèi)容。

為了處理長視頻生成的挑戰(zhàn),研究團(tuán)隊還開發(fā)了一種"分段式自回歸生成"策略。生成長視頻就像寫一本長篇小說,如果一次性完成整本書,不僅工作量巨大,還容易出現(xiàn)前后不一致的問題。這種新策略就像是把長篇小說分成若干章節(jié)來寫,每寫完一章就以此為基礎(chǔ)開始下一章,這樣既保證了章節(jié)之間的連貫性,又大大降低了創(chuàng)作難度。

具體來說,系統(tǒng)會根據(jù)用戶提供的關(guān)鍵幀位置,智能地將整個視頻分割成若干個可管理的段落。每個段落的生成都會參考前一個段落的結(jié)尾內(nèi)容,確保連接處的自然過渡。這種方法不僅解決了計算資源的限制問題,還保證了長視頻的整體連貫性和質(zhì)量穩(wěn)定性。

在實際測試中,DreaMontage展現(xiàn)出了令人印象深刻的能力。在一個演示案例中,系統(tǒng)成功地將一張火車車廂內(nèi)部的照片、一段窗戶破碎的動畫和一張未來城市的圖片組合成了一個完整的故事:畫面從平靜的火車內(nèi)部開始,窗戶突然破碎,鏡頭穿過破窗飛向外面,最終展現(xiàn)出一個科幻感十足的未來都市景象。整個過渡過程自然流暢,沒有任何突兀的跳躍感。

另一個更加復(fù)雜的案例展示了系統(tǒng)處理大幅度場景變化的能力。從一個人眼部的極特寫開始,鏡頭逐漸推進(jìn)到眼瞳深處,然后神奇地轉(zhuǎn)換到一個繁忙的街道場景,最后以一片寧靜的草原結(jié)束。這種戲劇性的視角轉(zhuǎn)換和場景變化,在傳統(tǒng)視頻制作中需要復(fù)雜的特效制作和精心的策劃,而DreaMontage能夠自動完成這種創(chuàng)意轉(zhuǎn)換。

研究團(tuán)隊還測試了系統(tǒng)處理混合媒體內(nèi)容的能力。在一個案例中,他們提供了一張靜態(tài)的摩托車手照片和兩段動態(tài)視頻片段,要求系統(tǒng)生成一個連貫的故事。最終生成的視頻顯示摩托車手摘下頭盔、駕駛摩托車飛向天空、最終變身為宇航員的完整過程。這種將靜態(tài)圖片和動態(tài)視頻無縫結(jié)合的能力,為創(chuàng)作者提供了前所未有的靈活性。

在與現(xiàn)有技術(shù)的對比測試中,DreaMontage顯示出了明顯的優(yōu)勢。研究團(tuán)隊采用了專業(yè)的人類評估標(biāo)準(zhǔn),邀請專家從視覺質(zhì)量、動作效果、提示詞遵循度和整體偏好四個維度進(jìn)行評估。結(jié)果顯示,在多關(guān)鍵幀控制的測試中,DreaMontage相比于Vidu Q2模型在整體偏好上領(lǐng)先了15.79%,相比Pixverse V5模型領(lǐng)先了28.95%。特別是在提示詞遵循度方面,DreaMontage表現(xiàn)尤為出色,相比兩個競爭對手都有超過23%的顯著優(yōu)勢。

這種在提示詞遵循度上的優(yōu)勢表明,DreaMontage不僅能夠生成視覺效果出色的視頻,更重要的是能夠準(zhǔn)確理解并執(zhí)行用戶的復(fù)雜指令。這就像是一個既有藝術(shù)天賦又嚴(yán)格執(zhí)行導(dǎo)演要求的專業(yè)演員,既能發(fā)揮創(chuàng)意又不偏離劇本要求。

即使在更加標(biāo)準(zhǔn)化的首末幀控制測試中,DreaMontage與業(yè)界知名的Kling 2.5模型相比也表現(xiàn)出色。雖然在視覺質(zhì)量上兩者不分上下,但DreaMontage在動作效果和提示詞遵循度上都有約4.6%的優(yōu)勢,最終在整體用戶偏好上勝出約4%。

為了驗證各項技術(shù)改進(jìn)的有效性,研究團(tuán)隊進(jìn)行了詳細(xì)的消融實驗。結(jié)果顯示,視覺表現(xiàn)力強(qiáng)化訓(xùn)練對動作效果的提升最為顯著,改進(jìn)幅度達(dá)到24.58%,整體偏好度提升了20.34%。這表明專門的高質(zhì)量數(shù)據(jù)訓(xùn)練確實能夠顯著提升AI的創(chuàng)作能力。

定制化的偏好優(yōu)化訓(xùn)練也展現(xiàn)了明顯效果。在解決突兀跳躍問題上,優(yōu)化后的模型相比基礎(chǔ)版本提升了12.59%;在處理不自然的主體動作問題上,提升幅度達(dá)到13.44%。這些改進(jìn)雖然看起來數(shù)值不大,但在實際觀看體驗中卻能帶來質(zhì)的飛躍。

最令人驚喜的是超分辨率模塊的改進(jìn)效果。通過引入共享位置編碼技術(shù),新方法相比傳統(tǒng)方法在視覺質(zhì)量上提升了53.55%。這個巨大的改進(jìn)主要解決了高分辨率視頻生成中的閃爍和顏色偏移問題,讓最終輸出的視頻更加穩(wěn)定和專業(yè)。

DreaMontage的應(yīng)用前景非常廣闊。在影視制作領(lǐng)域,它可以幫助制片人快速制作預(yù)告片和概念驗證視頻。傳統(tǒng)的影視前期制作需要大量的人力物力來制作故事板和預(yù)覽版本,而DreaMontage可以讓創(chuàng)作者只需要提供幾張概念圖和關(guān)鍵片段,就能快速生成一個完整的預(yù)告片,大大縮短了從創(chuàng)意到成片的周期。

在游戲和廣告行業(yè),DreaMontage同樣具有巨大潛力。許多公司都擁有大量的靜態(tài)宣傳圖片和產(chǎn)品展示視頻,但缺乏將它們有機(jī)結(jié)合的能力。通過DreaMontage,一張靜態(tài)的產(chǎn)品海報可以自然地轉(zhuǎn)換成展示產(chǎn)品使用場景的動態(tài)視頻,既節(jié)省了制作成本,又提升了內(nèi)容的吸引力。

對于內(nèi)容創(chuàng)作者來說,DreaMontage提供了一種全新的創(chuàng)作可能性。以前制作"一鏡到底"式的長視頻需要精心的策劃、復(fù)雜的設(shè)備和專業(yè)的技術(shù)團(tuán)隊,現(xiàn)在個人創(chuàng)作者只需要準(zhǔn)備一些關(guān)鍵素材,就能制作出專業(yè)級的連續(xù)鏡頭視頻。這種技術(shù)的普及化將大大降低高質(zhì)量視頻創(chuàng)作的門檻。

在教育和科普領(lǐng)域,DreaMontage也展現(xiàn)出了獨特價值。教師可以將抽象的概念通過具體的視覺場景串聯(lián)起來,創(chuàng)造出引人入勝的教學(xué)視頻。比如講解地球的四季變化時,可以從一片綠油油的春季田野開始,自然過渡到炎熱的夏季海灘,再轉(zhuǎn)換到金黃的秋季森林,最后以雪花紛飛的冬季山巒結(jié)束,整個過程一氣呵成,讓學(xué)生在視覺享受中深入理解知識點。

當(dāng)然,這項技術(shù)也面臨一些挑戰(zhàn)和限制。目前的系統(tǒng)在處理極端復(fù)雜的物理交互和精細(xì)的人物表情方面還有提升空間。同時,由于依賴大量的訓(xùn)練數(shù)據(jù),系統(tǒng)在處理完全原創(chuàng)的、前所未見的場景組合時,可能還無法達(dá)到人類導(dǎo)演的創(chuàng)意水平。

從技術(shù)發(fā)展的角度來看,DreaMontage代表了AI視頻生成技術(shù)的一個重要里程碑。它不僅解決了技術(shù)層面的多項難題,更重要的是為整個行業(yè)展示了一種新的可能性:AI不再只是簡單的工具,而是成為了真正的創(chuàng)作伙伴。隨著技術(shù)的不斷完善和普及,我們有理由期待在不久的將來,每個人都能像專業(yè)導(dǎo)演一樣,輕松制作出令人驚嘆的電影級視頻作品。

這項研究的意義遠(yuǎn)超技術(shù)本身。它讓我們看到了AI技術(shù)如何能夠真正賦能普通人,讓原本只有專業(yè)團(tuán)隊才能完成的復(fù)雜創(chuàng)作變得觸手可及。在這個視頻內(nèi)容爆炸的時代,DreaMontage或許會成為下一個改變內(nèi)容創(chuàng)作格局的重要技術(shù),讓更多精彩的創(chuàng)意得以實現(xiàn),讓更多動人的故事得以講述。

Q&A

Q1:DreaMontage跟普通的視頻編輯軟件有什么區(qū)別?

A:普通視頻編輯軟件只能剪切和拼接現(xiàn)有視頻,而DreaMontage能夠智能生成連接內(nèi)容,創(chuàng)造出完全新的過渡畫面。比如你有一張海灘照片和一段滑雪視頻,普通軟件只能硬性拼接,而DreaMontage會自動生成從海灘到雪山的自然過渡過程,讓整個視頻看起來像一鏡到底的專業(yè)拍攝。

Q2:使用DreaMontage制作視頻需要什么樣的技術(shù)門檻?

A:相比傳統(tǒng)的專業(yè)視頻制作,DreaMontage大大降低了技術(shù)門檻。用戶只需要準(zhǔn)備一些關(guān)鍵的圖片或視頻片段,然后告訴系統(tǒng)這些內(nèi)容應(yīng)該在什么時間點出現(xiàn),系統(tǒng)就會自動生成連貫的視頻。不需要復(fù)雜的后期制作技能或昂貴的拍攝設(shè)備,就像使用智能手機(jī)應(yīng)用一樣簡單。

Q3:DreaMontage生成的視頻質(zhì)量能達(dá)到什么水平?

A:根據(jù)研究團(tuán)隊的測試結(jié)果,DreaMontage在多個維度上都超過了現(xiàn)有的主流視頻生成模型。在專業(yè)評估中,它比競爭對手在整體用戶偏好上領(lǐng)先15-28%,特別是在理解用戶指令和生成流暢過渡方面表現(xiàn)突出。雖然還無法完全替代專業(yè)電影制作,但已經(jīng)能夠生成令人印象深刻的高質(zhì)量視頻內(nèi)容。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最低9℃ 廣州元旦假期迎新冷空氣

最低9℃ 廣州元旦假期迎新冷空氣

魯中晨報
2025-12-28 13:49:02
警惕!2026年銀行存款改革,7萬以上儲戶必看這兩個關(guān)鍵點!

警惕!2026年銀行存款改革,7萬以上儲戶必看這兩個關(guān)鍵點!

復(fù)轉(zhuǎn)這些年
2025-12-28 16:42:02
多地醫(yī)院開始降薪!

多地醫(yī)院開始降薪!

黯泉
2025-12-28 14:36:43
“嘎子”演員謝孟偉,被鄭州市管城回族區(qū)人民法院列為失信人

“嘎子”演員謝孟偉,被鄭州市管城回族區(qū)人民法院列為失信人

草莓解說體育
2025-12-28 10:46:52
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

阿器談史
2025-12-26 20:55:00
豐田汽車重大轉(zhuǎn)折!

豐田汽車重大轉(zhuǎn)折!

電動知家
2025-12-26 14:44:13
18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

牛牛叨史
2025-12-20 21:06:35
李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
摩根士丹預(yù)測:2026年1季度汽車銷量 下跌30%-35%

摩根士丹預(yù)測:2026年1季度汽車銷量 下跌30%-35%

網(wǎng)上車市
2025-12-26 15:38:06
日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國周邊打造一張巨網(wǎng)

日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國周邊打造一張巨網(wǎng)

時時有聊
2025-12-28 12:23:00
臺海一旦爆發(fā)戰(zhàn)爭,9國或?qū)⒕砣牖鞈?zhàn),中俄朝將對陣“七國聯(lián)軍”

臺海一旦爆發(fā)戰(zhàn)爭,9國或?qū)⒕砣牖鞈?zhàn),中俄朝將對陣“七國聯(lián)軍”

起喜電影
2025-12-28 17:02:23
1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結(jié)局誰也沒想到

1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結(jié)局誰也沒想到

源溯歷史
2025-12-22 12:14:11
孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開眼!

孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開眼!

阿胂是吃瓜群眾
2025-12-26 15:46:17
男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

眼淚博物
2025-08-07 16:47:38
山西省司法廳原一級巡視員周濤接受審查調(diào)查

山西省司法廳原一級巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
菲律賓通過85號決議,向中國索賠3960億,不到一天,中方反將一軍

菲律賓通過85號決議,向中國索賠3960億,不到一天,中方反將一軍

阿器談史
2025-12-28 09:58:34
他比黎智英更“毒”!潛伏30年,用510萬策劃香港暴亂,結(jié)局如何

他比黎智英更“毒”!潛伏30年,用510萬策劃香港暴亂,結(jié)局如何

云舟史策
2025-12-22 07:04:23
雄鹿終結(jié)公牛5連勝:字母哥復(fù)出29+8爭議暴扣引沖突 吉迪13+7+9

雄鹿終結(jié)公牛5連勝:字母哥復(fù)出29+8爭議暴扣引沖突 吉迪13+7+9

醉臥浮生
2025-12-28 11:30:16
【解局】被中方最新制裁的美國軍工企業(yè)和個人,都是什么來頭?

【解局】被中方最新制裁的美國軍工企業(yè)和個人,都是什么來頭?

環(huán)球網(wǎng)資訊
2025-12-26 22:56:11
人民幣持續(xù)升值,會引發(fā)全球金融海嘯

人民幣持續(xù)升值,會引發(fā)全球金融海嘯

何毅商業(yè)財經(jīng)
2025-12-27 20:10:50
2025-12-28 20:03:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
游戲
數(shù)碼
本地
時尚

旅游要聞

自貢地區(qū)現(xiàn)存有多少座南華宮,你了解嗎?

曝《寶可夢》第十世代NS2獨占!戰(zhàn)斗系統(tǒng)新爆料

數(shù)碼要聞

被人民日報“點名”,這款筆記本電腦適合你嗎?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

瑞典拉普蘭:凜冽北境的萬物平衡之道

無障礙瀏覽 進(jìn)入關(guān)懷版