国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南洋理工大學(xué)與字節(jié)跳動(dòng)實(shí)現(xiàn)AI記憶式長(zhǎng)視頻生成

0
分享至


這項(xiàng)由南洋理工大學(xué)S-Lab實(shí)驗(yàn)室與字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)合作完成的研究于2024年12月發(fā)表,論文標(biāo)題為"StoryMem: Multi-shot Long Video Storytelling with Memory"。研究團(tuán)隊(duì)由張凱文、江黎明、王昂天等多位研究人員組成,其中江黎明擔(dān)任項(xiàng)目負(fù)責(zé)人,潘新剛教授為通訊作者。感興趣的讀者可以通過(guò)arXiv:2512.19539查閱完整論文。

說(shuō)起制作一部完整的故事視頻,就像導(dǎo)演拍攝一部電影一樣,需要確保每個(gè)鏡頭之間的人物、場(chǎng)景和風(fēng)格保持一致。傳統(tǒng)的AI視頻生成技術(shù)就像只會(huì)拍單張照片的攝影師,雖然每張照片都很精美,但當(dāng)你把它們連起來(lái)講一個(gè)完整故事時(shí),卻發(fā)現(xiàn)主角在不同鏡頭里長(zhǎng)相不一樣,背景也變來(lái)變?nèi)ィ耆珶o(wú)法形成連貫的敘事。

研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問(wèn)題的核心所在:現(xiàn)有的視頻生成模型缺乏"記憶能力"。就像一個(gè)患有失憶癥的導(dǎo)演,每次拍攝新鏡頭時(shí)都忘記了之前拍過(guò)什么,自然無(wú)法保持故事的連貫性。為了解決這個(gè)問(wèn)題,研究人員受到人類記憶機(jī)制的啟發(fā),開發(fā)了一套名為StoryMem的創(chuàng)新系統(tǒng)。這個(gè)系統(tǒng)的巧妙之處在于,它為AI配備了一個(gè)"視覺記憶庫(kù)",就像給導(dǎo)演配了一個(gè)專業(yè)的劇務(wù)助理,隨時(shí)提醒他之前的拍攝內(nèi)容,確保新鏡頭與整個(gè)故事保持一致。

這項(xiàng)研究的突破性意義不僅在于技術(shù)本身,更在于它為普通人創(chuàng)作高質(zhì)量故事視頻打開了新的可能。過(guò)去,制作一部連貫的故事視頻需要專業(yè)團(tuán)隊(duì)和昂貴設(shè)備,現(xiàn)在只需要一段文字描述,AI就能自動(dòng)生成分鐘級(jí)的完整故事,每個(gè)鏡頭都與前后呼應(yīng),人物始終保持一致。這意味著未來(lái)的內(nèi)容創(chuàng)作將更加民主化,每個(gè)人都可能成為自己故事的導(dǎo)演。

一、記憶的魔法:讓AI學(xué)會(huì)"不忘記"的秘訣

要理解StoryMem系統(tǒng)的工作原理,我們可以把它比作一個(gè)會(huì)記筆記的聰明學(xué)生。傳統(tǒng)的視頻生成AI就像每次考試都重新開始復(fù)習(xí)的學(xué)生,雖然單科成績(jī)不錯(cuò),但無(wú)法在不同科目之間建立聯(lián)系。而StoryMem就像一個(gè)善于做筆記和總結(jié)的學(xué)霸,不僅能記住重要信息,還能在需要時(shí)快速調(diào)取相關(guān)內(nèi)容。

這個(gè)"記憶系統(tǒng)"的核心是一個(gè)被稱為M2V(Memory-to-Video)的創(chuàng)新設(shè)計(jì)。研究團(tuán)隊(duì)巧妙地將這個(gè)記憶機(jī)制嵌入到現(xiàn)有的視頻生成模型中,就像給原本只會(huì)畫單張畫的畫家配備了一本參考相冊(cè)。當(dāng)AI需要生成新的故事鏡頭時(shí),它會(huì)翻閱這本"相冊(cè)",找到與當(dāng)前鏡頭相關(guān)的歷史畫面,確保新創(chuàng)作的內(nèi)容與之前的風(fēng)格、人物和場(chǎng)景保持一致。

具體來(lái)說(shuō),這個(gè)記憶庫(kù)存儲(chǔ)的是從之前生成鏡頭中精心挑選的關(guān)鍵幀。就像一個(gè)專業(yè)攝影師在拍攝過(guò)程中會(huì)標(biāo)記重要的瞬間一樣,系統(tǒng)會(huì)自動(dòng)識(shí)別并保存那些包含重要角色、關(guān)鍵場(chǎng)景或獨(dú)特視覺元素的畫面。這些關(guān)鍵幀不是隨意選擇的,而是通過(guò)一套智能的語(yǔ)義分析系統(tǒng)進(jìn)行篩選,確保保存的都是對(duì)后續(xù)故事發(fā)展最有幫助的視覺信息。

為了讓這個(gè)記憶機(jī)制真正發(fā)揮作用,研究團(tuán)隊(duì)還開發(fā)了一種名為"負(fù)向RoPE偏移"的技術(shù)。這聽起來(lái)很復(fù)雜,但實(shí)際上就像給時(shí)間軸做標(biāo)記一樣簡(jiǎn)單。在傳統(tǒng)的視頻處理中,每一幀都有自己的時(shí)間位置,但記憶中的畫面來(lái)自過(guò)去的不同時(shí)刻。研究團(tuán)隊(duì)巧妙地給這些記憶畫面分配了負(fù)數(shù)的時(shí)間標(biāo)記,讓AI明確知道這些是"過(guò)去發(fā)生的事情",而不是當(dāng)前正在創(chuàng)作的內(nèi)容。這樣一來(lái),AI就能正確理解時(shí)間關(guān)系,既參考?xì)v史信息,又專注于創(chuàng)造當(dāng)下的鏡頭。

更令人稱贊的是,這整個(gè)系統(tǒng)的訓(xùn)練過(guò)程相對(duì)簡(jiǎn)單高效。研究團(tuán)隊(duì)沒有從零開始訓(xùn)練一個(gè)全新的模型,而是在現(xiàn)有的高質(zhì)量視頻生成模型基礎(chǔ)上,通過(guò)LoRA(低秩適應(yīng))技術(shù)進(jìn)行微調(diào)。這就像給一個(gè)已經(jīng)很優(yōu)秀的畫家提供額外的繪畫技巧培訓(xùn),而不是從頭教一個(gè)新手畫畫。這種方法不僅大大減少了計(jì)算資源的需求,還確保了生成視頻的高畫質(zhì),因?yàn)榈讓拥囊曨l生成能力得到了完整保留。

二、精準(zhǔn)記憶的藝術(shù):如何選擇值得保留的瞬間

在人類的記憶中,我們不會(huì)記住生活中的每一個(gè)細(xì)節(jié),而是選擇性地保留那些重要的、有意義的時(shí)刻。StoryMem系統(tǒng)同樣具備這種"選擇性記憶"的能力,但它的選擇標(biāo)準(zhǔn)更加科學(xué)和精確。

系統(tǒng)采用了一種被稱為"語(yǔ)義關(guān)鍵幀選擇"的策略。就像一個(gè)經(jīng)驗(yàn)豐富的電影剪輯師會(huì)挑選最能代表故事情節(jié)的鏡頭一樣,StoryMem使用CLIP模型來(lái)理解每一幀畫面的語(yǔ)義內(nèi)容。這個(gè)過(guò)程就像給每張圖片寫標(biāo)簽,描述其中包含的人物、物體、動(dòng)作和場(chǎng)景。然后系統(tǒng)會(huì)比較這些"標(biāo)簽",找出那些包含新信息或重要變化的關(guān)鍵幀。

選擇過(guò)程采用了一種動(dòng)態(tài)閾值機(jī)制。系統(tǒng)首先會(huì)選定每個(gè)鏡頭的第一幀作為基準(zhǔn),然后逐幀分析后續(xù)內(nèi)容。當(dāng)系統(tǒng)發(fā)現(xiàn)某一幀的內(nèi)容與最近選擇的關(guān)鍵幀差異較大時(shí),它就會(huì)將這一幀標(biāo)記為新的關(guān)鍵幀。這個(gè)"差異較大"的判斷標(biāo)準(zhǔn)會(huì)根據(jù)已選擇幀的數(shù)量動(dòng)態(tài)調(diào)整:如果選擇的幀數(shù)還沒達(dá)到上限,標(biāo)準(zhǔn)就相對(duì)寬松;如果接近上限,標(biāo)準(zhǔn)就會(huì)變得更嚴(yán)格,確保只有最重要的變化才能被記錄。

但僅僅有語(yǔ)義上的重要性還不夠,系統(tǒng)還需要確保選擇的畫面在視覺質(zhì)量上足夠好。這就引入了"美學(xué)偏好過(guò)濾"機(jī)制。就像一個(gè)挑剔的攝影師不會(huì)把模糊或曝光不當(dāng)?shù)恼掌湃胱髌芳粯,StoryMem使用HPSv3美學(xué)評(píng)分模型來(lái)評(píng)估每個(gè)候選關(guān)鍵幀的視覺質(zhì)量。只有那些在語(yǔ)義重要性和視覺質(zhì)量?jī)蓚(gè)維度都表現(xiàn)優(yōu)秀的畫面,才會(huì)被正式納入記憶庫(kù)。

這種雙重篩選機(jī)制確保了記憶庫(kù)的高質(zhì)量。模糊不清的畫面、構(gòu)圖混亂的鏡頭或者包含明顯錯(cuò)誤的幀都會(huì)被自動(dòng)過(guò)濾掉,只保留那些既能提供有用信息又具備良好視覺效果的關(guān)鍵幀。這樣一來(lái),當(dāng)系統(tǒng)在生成新鏡頭時(shí)參考這些記憶,得到的結(jié)果自然也會(huì)更加清晰和美觀。

為了防止記憶庫(kù)無(wú)限制增長(zhǎng),研究團(tuán)隊(duì)還設(shè)計(jì)了一套"記憶管理策略"。這個(gè)策略結(jié)合了"記憶沉淀"和"滑動(dòng)窗口"兩種機(jī)制。記憶沉淀就像人類的長(zhǎng)期記憶,會(huì)保留故事開始時(shí)的幾個(gè)關(guān)鍵畫面作為"錨點(diǎn)",確保整個(gè)故事的基調(diào)和主要角色始終保持一致;瑒(dòng)窗口則像短期記憶,專注于最近幾個(gè)鏡頭的內(nèi)容,捕捉故事的即時(shí)發(fā)展和局部變化。當(dāng)記憶庫(kù)達(dá)到容量上限時(shí),系統(tǒng)會(huì)優(yōu)先刪除較老的短期記憶,同時(shí)保留那些重要的長(zhǎng)期錨點(diǎn)。

三、超越單鏡頭的創(chuàng)新:從獨(dú)立片段到連貫敘事

傳統(tǒng)的AI視頻生成就像一個(gè)只會(huì)畫靜物的畫家,每次都能創(chuàng)作出精美的單幅作品,但要畫連環(huán)畫時(shí)就顯得力不從心了。StoryMem的革命性突破在于,它將這種"單幅畫家"升級(jí)成了"連環(huán)畫大師",能夠創(chuàng)作出情節(jié)連貫、風(fēng)格統(tǒng)一的長(zhǎng)篇視覺故事。

這個(gè)轉(zhuǎn)變的關(guān)鍵在于重新定義了視頻生成的數(shù)學(xué)框架。研究團(tuán)隊(duì)沒有試圖用一個(gè)巨大的模型同時(shí)處理所有鏡頭(這會(huì)消耗巨大的計(jì)算資源),也沒有簡(jiǎn)單地讓每個(gè)鏡頭各自為政(這會(huì)導(dǎo)致不一致問(wèn)題)。相反,他們采用了一種類似于"連載小說(shuō)"的創(chuàng)作方式:每一章節(jié)(鏡頭)都基于前面的內(nèi)容進(jìn)行創(chuàng)作,同時(shí)為后面的章節(jié)提供基礎(chǔ)。

具體來(lái)說(shuō),系統(tǒng)將整個(gè)故事生成過(guò)程分解為一系列條件生成步驟。每個(gè)新鏡頭的生成都會(huì)同時(shí)考慮兩個(gè)輸入:當(dāng)前鏡頭的文字描述和從記憶庫(kù)中提取的相關(guān)視覺信息。這就像一個(gè)作家在寫新章節(jié)時(shí),既要參考編輯給出的大綱要求,又要翻閱之前寫過(guò)的內(nèi)容,確保人物性格、故事背景和敘事風(fēng)格保持一致。

這種方法的巧妙之處在于它充分利用了現(xiàn)有高質(zhì)量模型的能力,而不是從頭開始訓(xùn)練。研究團(tuán)隊(duì)基于先進(jìn)的Wan2.2-I2V模型進(jìn)行改造,這個(gè)模型本身就具備出色的單鏡頭生成能力。通過(guò)添加記憶機(jī)制和適當(dāng)?shù)奈⒄{(diào),系統(tǒng)在保持原有畫質(zhì)優(yōu)勢(shì)的同時(shí),獲得了跨鏡頭一致性的新能力。這就像給一個(gè)已經(jīng)很熟練的畫家提供了一套專業(yè)的參考工具,讓他能夠創(chuàng)作更加復(fù)雜和連貫的作品。

為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)還構(gòu)建了一個(gè)全新的評(píng)估基準(zhǔn)ST-Bench。這個(gè)基準(zhǔn)包含30個(gè)不同風(fēng)格的故事腳本,每個(gè)故事包含8到12個(gè)鏡頭的詳細(xì)描述,涵蓋了從現(xiàn)實(shí)主義到奇幻風(fēng)格的各種類型。這就像為畫家準(zhǔn)備了一套標(biāo)準(zhǔn)化的考試題目,用來(lái)測(cè)試他們?cè)诓煌黝}和風(fēng)格下的創(chuàng)作能力。

測(cè)試結(jié)果令人印象深刻。在跨鏡頭一致性方面,StoryMem比傳統(tǒng)方法提升了28.7%,比之前最先進(jìn)的方法提升了9.4%。更重要的是,這種提升并沒有以犧牲單鏡頭質(zhì)量為代價(jià)。系統(tǒng)在保持高畫質(zhì)的同時(shí),還在語(yǔ)義準(zhǔn)確性和美學(xué)質(zhì)量方面都達(dá)到了業(yè)界領(lǐng)先水平。用戶研究也顯示,普通觀眾能夠明顯感受到StoryMem生成視頻的優(yōu)越性,在角色一致性和故事連貫性方面都給出了更高的評(píng)價(jià)。

四、技術(shù)細(xì)節(jié)的巧思:讓復(fù)雜變簡(jiǎn)單的工程藝術(shù)

要讓AI真正理解并運(yùn)用記憶,需要解決許多技術(shù)挑戰(zhàn)。StoryMem最令人稱道的地方在于,它用相對(duì)簡(jiǎn)單優(yōu)雅的方法解決了這些復(fù)雜問(wèn)題,就像一個(gè)巧妙的機(jī)械裝置,用最少的零件實(shí)現(xiàn)最大的功能。

首先是記憶信息的編碼問(wèn)題。記憶中的關(guān)鍵幀需要與當(dāng)前正在生成的視頻幀融合,但兩者來(lái)自不同的時(shí)間和上下文。研究團(tuán)隊(duì)采用了"潛在空間拼接"的方法,將記憶幀和當(dāng)前幀都轉(zhuǎn)換為相同的數(shù)學(xué)表示形式,然后在這個(gè)抽象空間中進(jìn)行融合。這就像把不同時(shí)期拍攝的照片都轉(zhuǎn)換為同一種格式,然后可以放在同一個(gè)相冊(cè)中進(jìn)行比較和參考。

時(shí)間位置編碼是另一個(gè)關(guān)鍵挑戰(zhàn)。在視頻處理中,每一幀都有明確的時(shí)間位置,但記憶幀來(lái)自過(guò)去的不同時(shí)刻,如何讓AI正確理解這種時(shí)間關(guān)系?研究團(tuán)隊(duì)創(chuàng)造性地使用了"負(fù)向時(shí)間標(biāo)記"。簡(jiǎn)單來(lái)說(shuō),如果當(dāng)前鏡頭的幀被標(biāo)記為0、1、2、3...,那么記憶幀就被標(biāo)記為-5、-4、-3...這樣AI就能清楚地知道哪些是歷史信息,哪些是當(dāng)前內(nèi)容,同時(shí)還能理解它們之間的相對(duì)時(shí)間關(guān)系。

訓(xùn)練數(shù)據(jù)的準(zhǔn)備也體現(xiàn)了研究團(tuán)隊(duì)的巧思。與其收集大量昂貴的長(zhǎng)視頻數(shù)據(jù),他們選擇了一種更聰明的方法:將現(xiàn)有的高質(zhì)量短視頻進(jìn)行智能分組。通過(guò)視覺相似度分析,系統(tǒng)會(huì)找到那些在角色、場(chǎng)景或風(fēng)格上相關(guān)的視頻片段,然后將它們組合成"人工故事"進(jìn)行訓(xùn)練。這就像用現(xiàn)有的短篇小說(shuō)片段重新組合成新的連載故事,既利用了現(xiàn)有的高質(zhì)量?jī)?nèi)容,又創(chuàng)造了訓(xùn)練所需的長(zhǎng)序列數(shù)據(jù)。

模型的微調(diào)策略同樣值得稱道。研究團(tuán)隊(duì)沒有對(duì)整個(gè)龐大的模型進(jìn)行全面訓(xùn)練,而是使用了LoRA(低秩適應(yīng))技術(shù),只對(duì)模型的關(guān)鍵部分進(jìn)行針對(duì)性調(diào)整。這種方法就像給一臺(tái)高端汽車安裝新的導(dǎo)航系統(tǒng),而不是重新制造整臺(tái)車。這樣既保持了原有的高性能,又添加了新功能,同時(shí)大大降低了計(jì)算成本和訓(xùn)練時(shí)間。

在推理階段,系統(tǒng)還實(shí)現(xiàn)了高效的記憶管理。每次生成新鏡頭后,系統(tǒng)會(huì)自動(dòng)分析新產(chǎn)生的內(nèi)容,提取有價(jià)值的關(guān)鍵幀,并將其與現(xiàn)有記憶進(jìn)行比較。如果發(fā)現(xiàn)新的重要信息,就會(huì)更新記憶庫(kù);如果記憶庫(kù)已滿,就會(huì)根據(jù)重要性和時(shí)效性原則,智能地決定保留哪些信息,丟棄哪些信息。這個(gè)過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的圖書管理員,不斷整理和更新收藏,確保最有價(jià)值的資料始終可用。

五、擴(kuò)展應(yīng)用的想象空間:從講故事到個(gè)性化創(chuàng)作

StoryMem的價(jià)值不僅僅局限于生成連貫的故事視頻,它更像一個(gè)多功能的創(chuàng)作工具箱,可以適應(yīng)各種不同的視頻創(chuàng)作需求。研究團(tuán)隊(duì)展示了幾種令人興奮的擴(kuò)展應(yīng)用,每一種都為未來(lái)的內(nèi)容創(chuàng)作開辟了新的可能性。

其中最實(shí)用的擴(kuò)展是MI2V(Memory + Image-to-Video)模式。這種模式解決了故事鏡頭之間轉(zhuǎn)換生硬的問(wèn)題。在傳統(tǒng)的分鏡創(chuàng)作中,不同鏡頭之間往往存在明顯的切換痕跡,就像電影中突兀的剪輯。MI2V模式允許系統(tǒng)重用前一個(gè)鏡頭的最后一幀作為下一個(gè)鏡頭的起始畫面,創(chuàng)造出更加流暢自然的視覺過(guò)渡。這就像一個(gè)熟練的攝影師在拍攝時(shí)會(huì)考慮鏡頭之間的連接,確保整個(gè)序列看起來(lái)像一個(gè)連續(xù)的視覺流。

更加激動(dòng)人心的是MR2V(Memory + Reference-to-Video)功能,它為個(gè)性化內(nèi)容創(chuàng)作打開了全新的大門。用戶可以提供自己的照片或喜歡的角色圖片作為"種子記憶",系統(tǒng)就能圍繞這些特定的人物或?qū)ο髣?chuàng)作故事。這意味著每個(gè)人都可以讓自己成為故事的主角,或者為自己的寵物、朋友創(chuàng)作專屬的視頻內(nèi)容。這種功能就像擁有了一個(gè)私人電影導(dǎo)演,能夠根據(jù)你的具體需求創(chuàng)作定制化的視覺故事。

系統(tǒng)還展現(xiàn)出了處理復(fù)雜敘事結(jié)構(gòu)的能力。通過(guò)在故事腳本中添加場(chǎng)景切換標(biāo)記,創(chuàng)作者可以控制故事的節(jié)奏和轉(zhuǎn)換方式。當(dāng)需要表現(xiàn)時(shí)間跳躍或場(chǎng)景轉(zhuǎn)換時(shí),系統(tǒng)會(huì)創(chuàng)建明顯的切換效果;而在需要連續(xù)敘事時(shí),系統(tǒng)則會(huì)創(chuàng)造平滑的過(guò)渡。這種靈活性讓StoryMem能夠適應(yīng)從簡(jiǎn)單的日常vlog到復(fù)雜的劇情片等各種創(chuàng)作需求。

在實(shí)際應(yīng)用場(chǎng)景中,這項(xiàng)技術(shù)可能會(huì)徹底改變內(nèi)容創(chuàng)作的生態(tài)。教育領(lǐng)域可以用它來(lái)創(chuàng)作生動(dòng)的歷史重現(xiàn)或科學(xué)解說(shuō)視頻;企業(yè)可以快速制作產(chǎn)品演示或培訓(xùn)材料;獨(dú)立創(chuàng)作者可以用極低的成本制作高質(zhì)量的故事內(nèi)容。更重要的是,這種技術(shù)降低了視頻創(chuàng)作的門檻,讓那些有好故事但缺乏技術(shù)技能的人也能表達(dá)自己的創(chuàng)意。

研究團(tuán)隊(duì)還發(fā)現(xiàn),用戶可以通過(guò)調(diào)整記憶選擇策略來(lái)影響最終的創(chuàng)作風(fēng)格。比如,如果在記憶選擇時(shí)更注重人物特寫,生成的故事就會(huì)更加關(guān)注角色情感;如果更注重環(huán)境和場(chǎng)景,生成的內(nèi)容就會(huì)有更強(qiáng)的氛圍感。這種可調(diào)節(jié)性讓系統(tǒng)能夠適應(yīng)不同創(chuàng)作者的風(fēng)格偏好和具體項(xiàng)目需求。

六、真實(shí)世界的表現(xiàn):當(dāng)理論遭遇實(shí)際測(cè)試

任何技術(shù)創(chuàng)新都需要經(jīng)受現(xiàn)實(shí)世界的檢驗(yàn),StoryMem也不例外。為了全面評(píng)估系統(tǒng)的實(shí)際表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和用戶研究,結(jié)果既驗(yàn)證了技術(shù)的先進(jìn)性,也揭示了一些需要繼續(xù)改進(jìn)的地方。

在定量評(píng)估方面,團(tuán)隊(duì)使用了三個(gè)主要維度的指標(biāo)。首先是美學(xué)質(zhì)量,這衡量的是生成視頻的視覺美感和技術(shù)質(zhì)量。StoryMem在這方面表現(xiàn)優(yōu)異,生成的視頻在色彩和諧度、畫面清晰度和整體美感方面都達(dá)到了很高的水準(zhǔn),與目前最好的單鏡頭生成模型相當(dāng)。這證明了系統(tǒng)在添加記憶功能的同時(shí),沒有損害原有的視頻質(zhì)量。

其次是提示跟隨能力,即生成的視頻內(nèi)容與文字描述的匹配程度。StoryMem在全局語(yǔ)義理解方面表現(xiàn)突出,能夠準(zhǔn)確把握整個(gè)故事的主題和情感基調(diào)。雖然在單鏡頭的細(xì)節(jié)描述跟隨方面略有下降,但這是為了保持整體一致性而做出的合理權(quán)衡。就像一個(gè)優(yōu)秀的改編導(dǎo)演會(huì)為了電影的整體效果而調(diào)整原著的某些細(xì)節(jié)一樣,這種取舍是必要和明智的。

最重要的是跨鏡頭一致性指標(biāo),這正是StoryMem要解決的核心問(wèn)題。測(cè)試結(jié)果非常令人鼓舞:與傳統(tǒng)方法相比,StoryMem在整體一致性方面提升了28.7%,在最相關(guān)鏡頭對(duì)的一致性方面提升了9.4%。這意味著生成的故事視頻中,人物外觀、服裝風(fēng)格、場(chǎng)景布置等關(guān)鍵元素在不同鏡頭間保持了更高的一致性。

用戶研究的結(jié)果更加直觀地反映了技術(shù)的實(shí)用價(jià)值。研究團(tuán)隊(duì)邀請(qǐng)了普通用戶觀看并比較不同方法生成的故事視頻,然后從多個(gè)維度進(jìn)行評(píng)分。結(jié)果顯示,用戶普遍認(rèn)為StoryMem生成的視頻更具故事性和觀賞性。特別值得注意的是,用戶對(duì)角色一致性和敘事連貫性的改善感受最為明顯,這正是系統(tǒng)設(shè)計(jì)要解決的核心問(wèn)題。

但測(cè)試也揭示了一些局限性。在處理復(fù)雜多角色場(chǎng)景時(shí),純視覺記憶有時(shí)會(huì)出現(xiàn)混淆。比如當(dāng)故事中出現(xiàn)多個(gè)相似外觀的角色時(shí),系統(tǒng)可能無(wú)法準(zhǔn)確區(qū)分誰(shuí)是誰(shuí),導(dǎo)致角色特征的錯(cuò)誤匹配。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)在文字描述中添加更詳細(xì)的角色信息可以顯著改善這個(gè)問(wèn)題,但這也意味著系統(tǒng)還有進(jìn)一步智能化的空間。

另一個(gè)挑戰(zhàn)來(lái)自于鏡頭轉(zhuǎn)換的平滑度。雖然MI2V模式大大改善了轉(zhuǎn)換的自然性,但當(dāng)相鄰鏡頭的運(yùn)動(dòng)速度差異很大時(shí),連接處仍然可能顯得不夠自然。這就像兩個(gè)不同節(jié)拍的音樂片段強(qiáng)行拼接,雖然旋律是連貫的,但節(jié)奏上的突變還是會(huì)被察覺到。研究團(tuán)隊(duì)認(rèn)為,未來(lái)通過(guò)擴(kuò)展幀間重疊的范圍可能會(huì)進(jìn)一步改善這個(gè)問(wèn)題。

七、未來(lái)展望:技術(shù)邊界與發(fā)展方向

StoryMem的成功只是長(zhǎng)視頻生成領(lǐng)域的一個(gè)重要里程碑,而不是終點(diǎn)。研究團(tuán)隊(duì)在論文中誠(chéng)實(shí)地討論了當(dāng)前方法的局限性,并為未來(lái)的改進(jìn)指出了明確的方向。

當(dāng)前最主要的挑戰(zhàn)來(lái)自于記憶機(jī)制的"視覺局限性",F(xiàn)在的系統(tǒng)只能存儲(chǔ)和理解視覺信息,就像一個(gè)只能看圖片而不能讀文字說(shuō)明的圖書管理員。在復(fù)雜的多角色故事中,僅憑視覺特征有時(shí)難以準(zhǔn)確識(shí)別和跟蹤不同的人物。未來(lái)的改進(jìn)方向是開發(fā)"多模態(tài)記憶"系統(tǒng),讓AI同時(shí)理解視覺和文字信息,建立更精確的角色和場(chǎng)景關(guān)聯(lián)。

另一個(gè)重要的發(fā)展方向是實(shí)現(xiàn)更智能的"實(shí)體感知記憶"。當(dāng)前的系統(tǒng)主要基于整體畫面的視覺相似性進(jìn)行記憶管理,但人類的記憶更多是基于具體的人物、物體和概念。未來(lái)的系統(tǒng)可能會(huì)發(fā)展出類似于"人物檔案"和"場(chǎng)景圖譜"的結(jié)構(gòu)化記憶方式,為每個(gè)重要角色和場(chǎng)景建立獨(dú)立的記憶檔案,實(shí)現(xiàn)更精確的一致性控制。

技術(shù)架構(gòu)方面,研究團(tuán)隊(duì)也看到了進(jìn)一步優(yōu)化的空間。目前的方法主要適用于基于Diffusion Transformer的模型架構(gòu),但隨著更先進(jìn)的視頻生成架構(gòu)的出現(xiàn),記憶機(jī)制也需要相應(yīng)的升級(jí)和適配。特別是隨著多模態(tài)大模型的發(fā)展,未來(lái)可能會(huì)出現(xiàn)原生支持長(zhǎng)序列記憶的視頻生成模型。

在應(yīng)用層面,StoryMem為整個(gè)內(nèi)容創(chuàng)作行業(yè)帶來(lái)了新的想象空間。電影制作可能會(huì)出現(xiàn)"AI預(yù)覽"環(huán)節(jié),導(dǎo)演可以快速生成故事概念的視覺化預(yù)覽;教育內(nèi)容制作可能會(huì)變得更加個(gè)性化和生動(dòng);社交媒體內(nèi)容創(chuàng)作的門檻將進(jìn)一步降低,讓更多人能夠表達(dá)自己的創(chuàng)意想法。

更深層次的影響可能來(lái)自于這種技術(shù)對(duì)敘事藝術(shù)本身的改變。當(dāng)技術(shù)工具變得足夠智能和易用時(shí),創(chuàng)作者可以將更多精力投入到故事本身,而不是技術(shù)實(shí)現(xiàn)細(xì)節(jié)。這可能會(huì)催生新的敘事形式和表達(dá)方式,就像當(dāng)年攝影技術(shù)的普及改變了視覺藝術(shù)一樣。

研究團(tuán)隊(duì)還指出了一些需要整個(gè)學(xué)術(shù)界共同努力的挑戰(zhàn)。評(píng)估長(zhǎng)視頻生成質(zhì)量仍然是一個(gè)開放問(wèn)題,需要開發(fā)更完善的評(píng)估標(biāo)準(zhǔn)和工具。ST-Bench的發(fā)布是這個(gè)方向的重要貢獻(xiàn),但還需要更大規(guī)模、更多樣化的基準(zhǔn)數(shù)據(jù)集來(lái)全面評(píng)估不同方法的表現(xiàn)。

說(shuō)到底,StoryMem代表的不僅僅是一項(xiàng)技術(shù)突破,更是AI創(chuàng)作能力向人類水平邁進(jìn)的重要一步。它證明了通過(guò)巧妙的系統(tǒng)設(shè)計(jì)和對(duì)人類認(rèn)知機(jī)制的深入理解,我們可以讓AI獲得類似人類的"記憶"和"連貫思考"能力。這種能力的獲得,標(biāo)志著AI從單純的"工具"向"創(chuàng)作伙伴"的轉(zhuǎn)變,為人機(jī)協(xié)作創(chuàng)作開啟了新的篇章。

當(dāng)普通人也能輕松創(chuàng)作出電影級(jí)別的故事視頻時(shí),當(dāng)每個(gè)人的創(chuàng)意都能通過(guò)智能工具得到專業(yè)級(jí)的表達(dá)時(shí),我們或許正在見證一個(gè)全民創(chuàng)作時(shí)代的到來(lái)。StoryMem只是這個(gè)時(shí)代的開端,更多的突破和可能性還在等待著我們?nèi)グl(fā)現(xiàn)和實(shí)現(xiàn)。對(duì)于任何關(guān)注AI發(fā)展和內(nèi)容創(chuàng)作未來(lái)的人來(lái)說(shuō),這項(xiàng)研究都值得持續(xù)關(guān)注,因?yàn)樗赡苷诟膶懳覀冎v述和分享故事的方式。

Q&A

Q1:StoryMem技術(shù)是如何讓AI記住之前生成的視頻內(nèi)容的?

A:StoryMem為AI配備了一個(gè)"視覺記憶庫(kù)",就像給導(dǎo)演配了專業(yè)劇務(wù)助理。系統(tǒng)會(huì)自動(dòng)從每個(gè)生成的鏡頭中挑選關(guān)鍵畫面,存儲(chǔ)角色外觀、場(chǎng)景布置等重要視覺信息。生成新鏡頭時(shí),AI會(huì)查閱這個(gè)記憶庫(kù),確保新內(nèi)容與之前保持一致。這個(gè)過(guò)程通過(guò)語(yǔ)義分析和美學(xué)評(píng)分進(jìn)行智能篩選,只保留最有價(jià)值的關(guān)鍵幀。

Q2:普通人可以用StoryMem創(chuàng)作什么類型的視頻內(nèi)容?

A:StoryMem支持多種創(chuàng)作需求,從日常vlog到復(fù)雜劇情片都可以制作。用戶只需提供文字故事描述,系統(tǒng)就能生成分鐘級(jí)的連貫故事視頻。還支持個(gè)性化創(chuàng)作,可以上傳自己的照片作為主角,或?yàn)閷櫸锱笥讯ㄖ茖俟适。教育工作者可以制作歷史重現(xiàn)或科學(xué)解說(shuō),企業(yè)可以快速制作產(chǎn)品演示,創(chuàng)作門檻大大降低。

Q3:StoryMem生成的視頻質(zhì)量與傳統(tǒng)方法相比有什么優(yōu)勢(shì)?

A:StoryMem在跨鏡頭一致性方面比傳統(tǒng)方法提升了28.7%,角色外觀、服裝風(fēng)格、場(chǎng)景布置等在不同鏡頭間保持高度一致。同時(shí)保持了原有的高畫質(zhì),在美學(xué)質(zhì)量和整體語(yǔ)義理解方面都達(dá)到業(yè)界領(lǐng)先水平。用戶研究顯示,觀眾普遍認(rèn)為StoryMem生成的視頻更具故事性和觀賞性,特別是在角色一致性和敘事連貫性方面改善明顯。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說(shuō)NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會(huì)了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會(huì)了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬(wàn)萬(wàn)沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來(lái)了!

萬(wàn)萬(wàn)沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來(lái)了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

博覽歷史
2025-12-27 16:31:18
普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問(wèn)題解決

普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問(wèn)題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無(wú)緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無(wú)緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來(lái)清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來(lái)清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩(shī)意世界
2025-11-30 11:04:47
18家大國(guó)企全軍覆沒!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

18家大國(guó)企全軍覆沒!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

海峽導(dǎo)報(bào)社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬(wàn)”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬(wàn)”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟(jì)新聞
2025-12-27 19:22:17
李兆會(huì)的18年復(fù)仇路

李兆會(huì)的18年復(fù)仇路

詩(shī)意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國(guó)家勿向?yàn)跖杀?>
    </a>
        <h3>
      <a href=界面新聞
2025-12-28 14:26:52
姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過(guò)2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過(guò)2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
家居
游戲
健康
軍事航空

旅游要聞

【直播】元旦游上海,黃浦普陀專場(chǎng):黃浦新年三重奏?普陀“半馬蘇河”,靈!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

PS5到底還能戰(zhàn)幾年?外媒解析“買或等PS6”

這些新療法,讓化療不再那么痛苦

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版