国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大顛覆視頻AI訓(xùn)練方法:讓機(jī)器像人類一樣"預(yù)測(cè)下一幀"學(xué)習(xí)世界

0
分享至


這項(xiàng)由北京大學(xué)李景瀚、金楊、蔣浩、穆亞?wèn)|、宋楊、徐坤等研究團(tuán)隊(duì)發(fā)表于2025年12月的研究,刊載于計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議論文集,研究編號(hào)為arXiv:2512.21004v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

當(dāng)我們觀看一部電影時(shí),大腦會(huì)自然而然地預(yù)測(cè)下一秒可能發(fā)生什么。這種"預(yù)測(cè)下一幀"的能力是人類理解視頻內(nèi)容的核心機(jī)制。北京大學(xué)的研究團(tuán)隊(duì)受到這一啟發(fā),開(kāi)發(fā)了一種全新的人工智能訓(xùn)練方法,讓機(jī)器也能像人類一樣通過(guò)預(yù)測(cè)下一幀來(lái)學(xué)習(xí)理解視頻。

傳統(tǒng)的視頻AI訓(xùn)練就像讓學(xué)生做填空題——遮住視頻中的某些部分,讓機(jī)器猜測(cè)被遮住的內(nèi)容。然而,這種方法有個(gè)致命缺陷:它忽略了時(shí)間的連續(xù)性。就好比你只看電影的幾個(gè)靜止畫(huà)面,卻要理解整個(gè)故事情節(jié),顯然是不夠的。而北大團(tuán)隊(duì)的新方法NExT-Vid則徹底改變了這一現(xiàn)狀,它讓機(jī)器像看連續(xù)劇一樣,根據(jù)前面的劇情預(yù)測(cè)下一集會(huì)發(fā)生什么。

這項(xiàng)研究的革命性在于首次將自回歸生成模型(簡(jiǎn)單說(shuō)就是"根據(jù)已有信息預(yù)測(cè)下一個(gè)"的技術(shù))成功應(yīng)用到視頻理解領(lǐng)域。過(guò)去,這種技術(shù)在文字處理方面大放異彩,造就了ChatGPT這樣的明星產(chǎn)品。但將同樣的思路應(yīng)用到視頻上卻困難重重,就像試圖用做菜的技巧來(lái)繪畫(huà),需要完全不同的工具和方法。

研究團(tuán)隊(duì)解決了兩個(gè)關(guān)鍵難題。首先是"語(yǔ)義定位不準(zhǔn)確"的問(wèn)題——傳統(tǒng)方法經(jīng)常搞不清楚視頻中重要信息在哪里,就像一個(gè)學(xué)生雖然記住了課本內(nèi)容,但考試時(shí)卻找不到答案在哪一頁(yè)。其次是"生成質(zhì)量差"的問(wèn)題——之前的方法生成的視頻要么模糊不清,要么缺乏多樣性,就像一臺(tái)老式復(fù)印機(jī),總是產(chǎn)出質(zhì)量不佳的副本。

一、突破性的"上下文隔離"設(shè)計(jì):讓AI學(xué)會(huì)專注

北大團(tuán)隊(duì)的核心創(chuàng)新可以用一個(gè)精彩的比喻來(lái)理解:傳統(tǒng)AI訓(xùn)練就像讓一個(gè)學(xué)生一邊學(xué)習(xí)新知識(shí),一邊要立即把學(xué)到的東西重新組織并輸出。這就好比你一邊聽(tīng)老師講課,一邊要做筆記,一邊還要向同桌解釋剛聽(tīng)到的內(nèi)容——結(jié)果往往是什么都做不好。

研究團(tuán)隊(duì)設(shè)計(jì)的"上下文隔離自回歸預(yù)測(cè)器"則完全不同。它將整個(gè)學(xué)習(xí)過(guò)程分成兩個(gè)獨(dú)立的階段:首先讓AI專心致志地理解視頻內(nèi)容,提取出關(guān)鍵的語(yǔ)義信息;然后再讓另一個(gè)專門(mén)的模塊負(fù)責(zé)根據(jù)這些信息生成下一幀畫(huà)面。這就像讓學(xué)生先認(rèn)真聽(tīng)課理解內(nèi)容,課后再專門(mén)整理筆記和做作業(yè),每個(gè)階段都能發(fā)揮最佳效果。

更巧妙的是,研究團(tuán)隊(duì)還引入了"表征對(duì)齊正則化"機(jī)制。這個(gè)機(jī)制的作用類似于一個(gè)嚴(yán)格的老師,時(shí)刻監(jiān)督著AI是否真正理解了視頻內(nèi)容。具體來(lái)說(shuō),系統(tǒng)會(huì)同時(shí)用兩種方式來(lái)觀察同一段視頻:一種是像傳統(tǒng)方法那樣遮擋部分內(nèi)容后觀察,另一種是完整地觀察全部?jī)?nèi)容。然后系統(tǒng)會(huì)比較這兩種觀察得到的理解是否一致,就像讓學(xué)生用不同方法解同一道題,看答案是否相同。

這種設(shè)計(jì)的精妙之處在于,它迫使AI不能偷懶依賴簡(jiǎn)單的像素拷貝,而必須真正理解視頻的語(yǔ)義內(nèi)容。過(guò)去很多AI系統(tǒng)會(huì)鉆空子,比如在預(yù)測(cè)下一幀時(shí),直接復(fù)制上一幀的大部分內(nèi)容,這樣雖然看起來(lái)效果不錯(cuò),但實(shí)際上AI并沒(méi)有真正學(xué)會(huì)理解動(dòng)作和變化,F(xiàn)在有了這個(gè)監(jiān)督機(jī)制,AI必須展現(xiàn)出真正的理解能力才能通過(guò)測(cè)試。

二、革命性的"條件流匹配解碼器":讓生成更自然

如果說(shuō)上下文隔離解決了"理解"的問(wèn)題,那么條件流匹配解碼器就解決了"表達(dá)"的問(wèn)題。傳統(tǒng)的視頻生成技術(shù)就像用直線連接兩點(diǎn)——雖然能到達(dá)目的地,但路徑生硬單調(diào)。而流匹配技術(shù)則像水流一樣,能夠找到最自然、最平滑的路徑。

具體來(lái)說(shuō),流匹配技術(shù)通過(guò)多步驟的"去噪"過(guò)程來(lái)生成視頻幀。這個(gè)過(guò)程可以比作雕塑家的工作:先有一塊粗糙的石頭(噪聲),然后通過(guò)一刀刀精細(xì)的雕琢(去噪步驟),最終呈現(xiàn)出精美的藝術(shù)品(清晰的視頻幀)。每一步雕琢都不是隨意的,而是根據(jù)前面積累的理解(條件信息)來(lái)指導(dǎo)的。

這種方法的優(yōu)勢(shì)在于能夠產(chǎn)生更高質(zhì)量、更多樣化的結(jié)果。就像一個(gè)經(jīng)驗(yàn)豐富的廚師,即使用相同的食材,也能根據(jù)不同的情境和需求做出風(fēng)味各異的菜肴。傳統(tǒng)方法往往只能產(chǎn)生一種固定的結(jié)果,而流匹配技術(shù)能夠在保證質(zhì)量的同時(shí),創(chuàng)造出豐富多樣的可能性。

更重要的是,研究團(tuán)隊(duì)還創(chuàng)新性地采用了"空間對(duì)齊串聯(lián)"的方式來(lái)組合條件信息和目標(biāo)內(nèi)容。這就像拼圖游戲中,不是簡(jiǎn)單地把兩塊拼圖放在一起,而是確保它們的紋理、顏色都完美匹配。系統(tǒng)會(huì)確保預(yù)測(cè)出的條件信息與要生成的畫(huà)面在空間位置上精確對(duì)應(yīng),每個(gè)局部區(qū)域的去噪都能得到對(duì)應(yīng)位置條件信息的準(zhǔn)確指導(dǎo)。

三、精心設(shè)計(jì)的"掩碼下幀預(yù)測(cè)"策略:增加學(xué)習(xí)難度

研究團(tuán)隊(duì)還引入了一個(gè)看似反常但實(shí)際上極其聰明的設(shè)計(jì):故意增加AI學(xué)習(xí)的難度。這就像體育訓(xùn)練中的"負(fù)重練習(xí)"——教練會(huì)讓運(yùn)動(dòng)員背著沙袋跑步,雖然訓(xùn)練時(shí)更累,但這樣能夠更有效地提升實(shí)際能力。

傳統(tǒng)的視頻預(yù)測(cè)任務(wù)對(duì)AI來(lái)說(shuō)太容易了,因?yàn)橄噜弾g往往有大量重復(fù)內(nèi)容。就像預(yù)測(cè)明天的天氣,如果今天是晴天,那么明天也很可能是晴天,這種預(yù)測(cè)雖然準(zhǔn)確率高,但并不能體現(xiàn)真正的預(yù)測(cè)能力。視頻中也存在類似問(wèn)題:很多場(chǎng)景變化緩慢,AI可能只是簡(jiǎn)單地復(fù)制大部分前一幀的內(nèi)容,而不需要真正理解動(dòng)作和變化。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了"掩碼下幀生成預(yù)訓(xùn)練"策略。他們會(huì)故意遮擋掉前面幀的部分關(guān)鍵信息,然后要求AI根據(jù)殘缺的信息來(lái)預(yù)測(cè)完整的下一幀。這就像讓學(xué)生只看電影的一半畫(huà)面,卻要預(yù)測(cè)完整的下一個(gè)鏡頭會(huì)是什么樣子。

這種策略迫使AI必須真正理解視頻的語(yǔ)義內(nèi)容和動(dòng)作規(guī)律,而不能僅僅依賴簡(jiǎn)單的像素復(fù)制。就像一個(gè)偵探,即使線索不完整,也要能夠推理出事件的完整發(fā)展過(guò)程。通過(guò)這種"增強(qiáng)現(xiàn)實(shí)"的訓(xùn)練方式,AI學(xué)會(huì)了更深層次的視頻理解能力。

研究團(tuán)隊(duì)還采用了"時(shí)間一致性掩碼策略",即在同一段視頻的多個(gè)幀中,相同位置的內(nèi)容會(huì)被同時(shí)遮擋。這樣可以避免AI鉆空子——通過(guò)其他幀的相同位置來(lái)推測(cè)被遮擋的內(nèi)容。這種設(shè)計(jì)進(jìn)一步提高了學(xué)習(xí)的挑戰(zhàn)性和效果。

四、架構(gòu)設(shè)計(jì)的精妙之處:三大組件協(xié)同工作

整個(gè)NExT-Vid系統(tǒng)就像一個(gè)精密的工廠,由三個(gè)關(guān)鍵組件組成,每個(gè)組件都有明確的分工,同時(shí)又緊密協(xié)作。

首先是編碼器部分,它的作用類似于工廠的原料預(yù)處理車間。這個(gè)編碼器采用了標(biāo)準(zhǔn)的Vision Transformer(ViT)架構(gòu),但針對(duì)視頻數(shù)據(jù)進(jìn)行了專門(mén)優(yōu)化。最重要的創(chuàng)新是引入了"幀級(jí)因果注意力機(jī)制",這個(gè)機(jī)制確保AI在觀察任何一幀時(shí),都只能看到當(dāng)前幀和之前的幀,不能"偷看"未來(lái)的幀。就像看偵探小說(shuō)時(shí),你不能先翻到結(jié)尾看答案,必須按照故事發(fā)展的順序來(lái)理解劇情。

為了進(jìn)一步穩(wěn)定訓(xùn)練過(guò)程,系統(tǒng)還維護(hù)了一個(gè)"參考編碼器",通過(guò)指數(shù)移動(dòng)平均(EMA)的方式更新。這就像工廠里有一個(gè)經(jīng)驗(yàn)豐富的老師傅,始終保持著穩(wěn)定的工藝標(biāo)準(zhǔn),為年輕工人提供可靠的參考。這種設(shè)計(jì)防止了訓(xùn)練過(guò)程中可能出現(xiàn)的不穩(wěn)定情況,確保系統(tǒng)能夠持續(xù)改進(jìn)而不會(huì)出現(xiàn)性能的大幅波動(dòng)。

其次是自回歸預(yù)測(cè)器,它充當(dāng)著工廠的核心生產(chǎn)車間。這個(gè)預(yù)測(cè)器不同于傳統(tǒng)的直接生成方法,而是采用了可學(xué)習(xí)查詢和多層交叉注意力的設(shè)計(jì)?蓪W(xué)習(xí)查詢就像是專門(mén)定制的工具,能夠精確地從前面的幀信息中提取出對(duì)預(yù)測(cè)下一幀最有價(jià)值的內(nèi)容。交叉注意力機(jī)制則確保了上下文信息在預(yù)測(cè)過(guò)程中保持隔離——?dú)v史幀的信息只作為鍵值對(duì)提供參考,不會(huì)直接參與到預(yù)測(cè)器內(nèi)部的計(jì)算過(guò)程中。

最后是流匹配解碼器,它就像工廠的精加工車間,負(fù)責(zé)將預(yù)測(cè)器產(chǎn)生的抽象條件信息轉(zhuǎn)換為具體的視覺(jué)內(nèi)容。這個(gè)解碼器采用了擴(kuò)散變換器(DiT)的架構(gòu),通過(guò)多步驟的去噪過(guò)程來(lái)生成高質(zhì)量的視頻幀。每個(gè)去噪步驟都會(huì)接收時(shí)間步信息和條件信息的指導(dǎo),就像精密加工中需要同時(shí)考慮加工進(jìn)度和設(shè)計(jì)要求一樣。

三個(gè)組件之間的協(xié)作機(jī)制也經(jīng)過(guò)了精心設(shè)計(jì)。編碼器產(chǎn)生的表征會(huì)同時(shí)傳遞給預(yù)測(cè)器和參考編碼器;預(yù)測(cè)器的輸出會(huì)與參考編碼器的結(jié)果進(jìn)行對(duì)齊檢驗(yàn);檢驗(yàn)通過(guò)后,預(yù)測(cè)結(jié)果會(huì)作為條件信息傳遞給解碼器。這種流水線式的設(shè)計(jì)確保了每個(gè)組件都能發(fā)揮最佳效果,同時(shí)整體系統(tǒng)也能保持高效運(yùn)行。

五、訓(xùn)練策略的巧思:四階段漸進(jìn)式學(xué)習(xí)

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)四階段的訓(xùn)練策略,就像培養(yǎng)一個(gè)專業(yè)技能需要循序漸進(jìn)一樣。每個(gè)階段都有特定的目標(biāo)和方法,整個(gè)過(guò)程歷時(shí)132K個(gè)訓(xùn)練步驟,使用了96張H100 GPU,處理了約830億個(gè)視覺(jué)標(biāo)記。

第一階段是熱身階段(12K步驟),就像運(yùn)動(dòng)前的熱身運(yùn)動(dòng)一樣。在這個(gè)階段,學(xué)習(xí)率從很小的數(shù)值逐漸增加,讓模型適應(yīng)訓(xùn)練過(guò)程。系統(tǒng)主要建立基本的模式識(shí)別能力和穩(wěn)定的表征,為后續(xù)更復(fù)雜的學(xué)習(xí)打下基礎(chǔ)。流匹配解碼器在這個(gè)階段收斂得很快,而對(duì)齊損失先是急劇下降,然后緩慢上升到峰值。

第二階段是穩(wěn)定階段1(28K步驟),學(xué)習(xí)率開(kāi)始從峰值逐漸衰減。模型進(jìn)入表征搜索階段,流匹配解碼器穩(wěn)定更新,自回歸預(yù)測(cè)器逐步與參考表征對(duì)齊。這個(gè)階段就像學(xué)生剛掌握基礎(chǔ)知識(shí)后,開(kāi)始探索更深層次的理解。

第三階段是穩(wěn)定階段2(80K步驟),這是訓(xùn)練的主要階段。學(xué)習(xí)率進(jìn)一步降低,但流匹配解碼器被分配了單獨(dú)的固定學(xué)習(xí)率。同時(shí),時(shí)間步采樣率從4改為1。這個(gè)階段模型進(jìn)入非平穩(wěn)期,需要仔細(xì)調(diào)整。研究團(tuán)隊(duì)發(fā)現(xiàn),為流匹配解碼器保持較大的固定學(xué)習(xí)率,并使用單步時(shí)間步采樣,能夠提高魯棒性并在整個(gè)階段保持穩(wěn)定的更新。

第四階段是冷卻階段(12K步驟),使用更小的學(xué)習(xí)率進(jìn)行微調(diào),并將輸入增加到64幀視頻。這個(gè)階段的目標(biāo)是鞏固語(yǔ)義表征,提高對(duì)長(zhǎng)視頻的理解能力。冷卻后,模型在視頻語(yǔ)義理解方面表現(xiàn)出顯著的提升。

整個(gè)訓(xùn)練過(guò)程還采用了混合數(shù)據(jù)集策略,包含了240萬(wàn)小時(shí)的視頻和128萬(wàn)張圖像。視頻數(shù)據(jù)來(lái)源多樣,包括動(dòng)作識(shí)別數(shù)據(jù)集Something-Something-V2和Kinetics-400,以及大規(guī)模的互聯(lián)網(wǎng)視頻數(shù)據(jù)。圖像數(shù)據(jù)主要來(lái)自ImageNet-1K。不同數(shù)據(jù)源采用了不同的采樣權(quán)重,以平衡訓(xùn)練效果。

六、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有方法

研究團(tuán)隊(duì)在四個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的性能評(píng)估,采用了"注意力探針"的評(píng)估方法。這種方法的核心思想是凍結(jié)預(yù)訓(xùn)練好的編碼器,只訓(xùn)練一個(gè)簡(jiǎn)單的分類層來(lái)測(cè)試編碼器學(xué)到的表征質(zhì)量。就像測(cè)試一個(gè)學(xué)生的理解能力,不是讓他重新學(xué)習(xí),而是直接考察他已有的知識(shí)儲(chǔ)備。

在ImageNet-1K數(shù)據(jù)集上,NExT-Vid展現(xiàn)出了強(qiáng)大的圖像理解能力。ViT-L模型(3億參數(shù))達(dá)到了76.3%的準(zhǔn)確率,在視頻預(yù)訓(xùn)練方法中排名第一。ViT-H模型(6億參數(shù))進(jìn)一步提升到79.0%,而最大的ViT-G模型(11億參數(shù))達(dá)到了81.4%的準(zhǔn)確率。這個(gè)結(jié)果特別令人印象深刻,因?yàn)镮mageNet主要包含靜態(tài)圖像,證明了視頻預(yù)訓(xùn)練方法也能有效提升圖像理解能力。

在視頻理解任務(wù)上,NExT-Vid的優(yōu)勢(shì)更加明顯。在Kinetics-400數(shù)據(jù)集上,ViT-G模型達(dá)到了83.1%的準(zhǔn)確率,比之前最好的生成式預(yù)訓(xùn)練方法提高了3.3個(gè)百分點(diǎn)。在Something-Something-V2數(shù)據(jù)集上,該模型達(dá)到了69.5%的準(zhǔn)確率,提升了3.0個(gè)百分點(diǎn)。這個(gè)數(shù)據(jù)集特別注重時(shí)間動(dòng)作理解,結(jié)果證明了自回歸預(yù)測(cè)方法在建模時(shí)間關(guān)系方面的優(yōu)勢(shì)。

在Diving48數(shù)據(jù)集上,NExT-Vid達(dá)到了87.2%的準(zhǔn)確率,這個(gè)結(jié)果尤其有意義,因?yàn)闈撍畡?dòng)作往往涉及復(fù)雜的身體姿態(tài)變化和精細(xì)的動(dòng)作細(xì)節(jié)。與傳統(tǒng)的VideoMAE相比,在同等規(guī)模下,NExT-Vid的改進(jìn)幅度達(dá)到了2.7個(gè)百分點(diǎn),充分證明了新方法在動(dòng)作理解方面的優(yōu)勢(shì)。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)。與其他自回歸方法相比,NExT-Vid相對(duì)于Toto模型在Kinetics-400上提升了8.7個(gè)百分點(diǎn),在ImageNet上提升了6.1個(gè)百分點(diǎn),展現(xiàn)了下一幀生成相對(duì)于逐token訓(xùn)練的優(yōu)勢(shì)。與采用相同上下文隔離思想的CAE方法相比,在相同參數(shù)規(guī)模下,NExT-Vid雖然在ImageNet上略有劣勢(shì)(主要因?yàn)镃AE專門(mén)針對(duì)ImageNet訓(xùn)練,而NExT-Vid使用混合數(shù)據(jù)),但在擴(kuò)展到10億參數(shù)規(guī)模后,性能超越了CAE的最佳表現(xiàn)。

七、縮放規(guī)律的發(fā)現(xiàn):數(shù)據(jù)越多效果越好

研究團(tuán)隊(duì)還深入研究了模型性能與數(shù)據(jù)規(guī)模和模型參數(shù)的關(guān)系,發(fā)現(xiàn)了一些重要的規(guī)律。在數(shù)據(jù)縮放方面,隨著訓(xùn)練數(shù)據(jù)量的增加,模型性能在早期階段快速增長(zhǎng),然后在約1億視頻片段后趨于穩(wěn)定。有趣的是,在最后的冷卻階段,性能會(huì)進(jìn)一步提升,特別是在SSv2和Diving48這兩個(gè)需要強(qiáng)動(dòng)作識(shí)別能力的任務(wù)上。這說(shuō)明使用更多幀數(shù)進(jìn)行訓(xùn)練能夠顯著提升模型對(duì)動(dòng)作的理解能力。

在模型縮放方面,從ViT-L(3億參數(shù))到ViT-H(6億參數(shù))有顯著的性能提升,而從ViT-H到ViT-G(11億參數(shù))的提升相對(duì)較小,這與VideoMAEv2的觀察結(jié)果一致。但是,研究團(tuán)隊(duì)發(fā)現(xiàn),增加冷卻階段可以顯著提升ViT-G的性能,這表明大模型需要更精細(xì)的訓(xùn)練策略才能發(fā)揮全部潛力。

這些縮放規(guī)律對(duì)于理解視頻AI的發(fā)展趨勢(shì)具有重要意義。它們表明,雖然簡(jiǎn)單地增加模型參數(shù)不一定帶來(lái)線性的性能提升,但通過(guò)更好的訓(xùn)練策略和更多樣化的數(shù)據(jù),仍然可以持續(xù)提升模型的能力。特別是在視頻理解這樣的復(fù)雜任務(wù)中,數(shù)據(jù)的多樣性和訓(xùn)練方法的精細(xì)化可能比純粹的參數(shù)規(guī)模更加重要。

八、技術(shù)創(chuàng)新的深層意義

NExT-Vid的成功不僅僅是一個(gè)新算法的勝利,更代表了視頻AI研究思路的根本性轉(zhuǎn)變。傳統(tǒng)的掩碼建模方法雖然在圖像領(lǐng)域取得了巨大成功,但在視頻領(lǐng)域始終面臨時(shí)間建模不足的問(wèn)題。就像用拍照的思維來(lái)理解電影,雖然能捕捉到一些信息,但往往錯(cuò)失了故事的連貫性和發(fā)展脈絡(luò)。

自回歸下一幀預(yù)測(cè)的引入,真正將時(shí)間維度納入了預(yù)訓(xùn)練的核心。這種方法迫使模型不僅要理解當(dāng)前的視覺(jué)內(nèi)容,還要推理未來(lái)的變化趨勢(shì)。這種能力對(duì)于真實(shí)世界的視頻理解至關(guān)重要,因?yàn)槲覀冊(cè)谌粘I钪杏^看視頻時(shí),大腦也在不斷地預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。

上下文隔離設(shè)計(jì)的創(chuàng)新意義更加深遠(yuǎn)。傳統(tǒng)的端到端訓(xùn)練雖然簡(jiǎn)潔,但往往導(dǎo)致表征學(xué)習(xí)和生成任務(wù)相互干擾。就像一個(gè)人同時(shí)學(xué)習(xí)兩種技能,往往兩樣都學(xué)不精。通過(guò)明確分離這兩個(gè)任務(wù),NExT-Vid讓每個(gè)組件都能專注于自己最擅長(zhǎng)的工作,從而實(shí)現(xiàn)了整體性能的顯著提升。

條件流匹配的采用也體現(xiàn)了對(duì)生成質(zhì)量的極致追求。傳統(tǒng)的回歸方法雖然簡(jiǎn)單直接,但往往產(chǎn)生模糊或缺乏多樣性的結(jié)果。流匹配技術(shù)通過(guò)引入隨機(jī)性和多步精化過(guò)程,不僅提升了生成質(zhì)量,還增強(qiáng)了結(jié)果的多樣性。這種改進(jìn)對(duì)于構(gòu)建更好的視頻表征具有重要意義,因?yàn)楹玫谋碚餍枰軌虿蹲綌?shù)據(jù)的真實(shí)分布,而不僅僅是平均結(jié)果。

九、廣泛的應(yīng)用前景

NExT-Vid的技術(shù)突破為眾多實(shí)際應(yīng)用打開(kāi)了新的可能性。在視頻內(nèi)容理解方面,該技術(shù)可以顯著提升視頻搜索、推薦和分類的準(zhǔn)確性。當(dāng)前主流視頻平臺(tái)每天都要處理海量的用戶上傳內(nèi)容,如何快速準(zhǔn)確地理解這些視頻的內(nèi)容是一個(gè)巨大的挑戰(zhàn)。NExT-Vid的強(qiáng)大表征能力可以幫助系統(tǒng)更好地理解視頻的語(yǔ)義內(nèi)容,從而提供更精準(zhǔn)的內(nèi)容標(biāo)簽和推薦。

在智能監(jiān)控和安全領(lǐng)域,這項(xiàng)技術(shù)也具有重要價(jià)值。傳統(tǒng)的監(jiān)控系統(tǒng)主要依賴運(yùn)動(dòng)檢測(cè)和簡(jiǎn)單的模式識(shí)別,往往存在誤報(bào)率高、理解能力有限的問(wèn)題;贜ExT-Vid的系統(tǒng)可以更準(zhǔn)確地識(shí)別和理解復(fù)雜的行為模式,比如區(qū)分正常的人群聚集和潛在的安全威脅,或者識(shí)別異常的交通行為。

在教育和培訓(xùn)領(lǐng)域,該技術(shù)可以用于開(kāi)發(fā)智能的視頻學(xué)習(xí)系統(tǒng)。系統(tǒng)可以自動(dòng)分析教學(xué)視頻的內(nèi)容,識(shí)別關(guān)鍵知識(shí)點(diǎn)和難點(diǎn),為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)建議。比如,在體育技能培訓(xùn)中,系統(tǒng)可以分析運(yùn)動(dòng)員的動(dòng)作視頻,自動(dòng)識(shí)別技術(shù)要點(diǎn)和需要改進(jìn)的地方。

在醫(yī)療健康領(lǐng)域,NExT-Vid的技術(shù)也有廣闊的應(yīng)用前景。醫(yī)學(xué)影像分析往往涉及時(shí)間序列數(shù)據(jù),比如心臟超聲檢查或者手術(shù)視頻分析。該技術(shù)的強(qiáng)大時(shí)間建模能力可以幫助醫(yī)生更準(zhǔn)確地診斷疾病或評(píng)估治療效果。

十、挑戰(zhàn)與局限性

盡管NExT-Vid取得了顯著的成功,但研究團(tuán)隊(duì)也坦誠(chéng)地討論了當(dāng)前方法的局限性。首先是效率問(wèn)題。雖然該方法實(shí)現(xiàn)了自回歸預(yù)訓(xùn)練來(lái)建模時(shí)間語(yǔ)義,但仍然依賴于掩碼策略,因此無(wú)法完全發(fā)揮GPT式預(yù)訓(xùn)練的效率優(yōu)勢(shì)。這意味著在大規(guī)模應(yīng)用中,訓(xùn)練成本可能仍然較高。

其次是生成與表征之間的固有權(quán)衡。有效的表征學(xué)習(xí)通常需要具有挑戰(zhàn)性的目標(biāo)任務(wù),這使得同時(shí)訓(xùn)練高質(zhì)量的生成模型變得困難。研究團(tuán)隊(duì)發(fā)現(xiàn),為了獲得好的表征,往往需要增加生成任務(wù)的難度,但這又可能影響生成質(zhì)量。如何在這兩者之間找到最佳平衡點(diǎn),仍然是一個(gè)需要進(jìn)一步探索的問(wèn)題。

計(jì)算資源的需求也是一個(gè)現(xiàn)實(shí)的挑戰(zhàn)。完整的訓(xùn)練過(guò)程需要96張H100 GPU運(yùn)行146小時(shí),這樣的計(jì)算資源只有少數(shù)大型研究機(jī)構(gòu)和公司能夠承擔(dān)。這可能限制了該技術(shù)的普及和進(jìn)一步發(fā)展。

在數(shù)據(jù)方面,雖然研究使用了大規(guī)模的混合數(shù)據(jù)集,但視頻數(shù)據(jù)的質(zhì)量和多樣性仍然是影響模型性能的關(guān)鍵因素。如何構(gòu)建更高質(zhì)量、更具代表性的訓(xùn)練數(shù)據(jù)集,是實(shí)現(xiàn)更好性能的重要前提。

最后,當(dāng)前的評(píng)估主要集中在分類任務(wù)上,對(duì)于更復(fù)雜的視頻理解任務(wù),比如細(xì)粒度的動(dòng)作定位、多目標(biāo)追蹤等,該方法的表現(xiàn)還需要進(jìn)一步驗(yàn)證。

十一、未來(lái)發(fā)展方向

基于當(dāng)前的研究成果,未來(lái)有幾個(gè)值得探索的發(fā)展方向。首先是提高訓(xùn)練效率。研究團(tuán)隊(duì)提到,未來(lái)可能的改進(jìn)方向包括開(kāi)發(fā)更高效的掩碼策略,或者探索完全無(wú)需掩碼的自回歸預(yù)訓(xùn)練方法。這將有助于降低訓(xùn)練成本,使更多研究團(tuán)隊(duì)能夠參與到這一領(lǐng)域的研究中。

其次是擴(kuò)展到更復(fù)雜的視頻理解任務(wù)。當(dāng)前的工作主要關(guān)注分類任務(wù),未來(lái)可以探索如何將這種預(yù)訓(xùn)練方法應(yīng)用到視頻生成、動(dòng)作定位、視頻問(wèn)答等更復(fù)雜的任務(wù)中。這些任務(wù)需要更精細(xì)的時(shí)空理解能力,為模型提出了更高的要求。

多模態(tài)融合也是一個(gè)重要方向,F(xiàn)實(shí)世界的視頻往往包含豐富的音頻信息,如何將音視頻信息有效融合,構(gòu)建更完整的多模態(tài)表征,是一個(gè)具有挑戰(zhàn)性但非常有價(jià)值的研究方向。

在模型架構(gòu)方面,探索更高效的注意力機(jī)制和更好的時(shí)空建模方法也具有重要意義。當(dāng)前的方法雖然取得了不錯(cuò)的效果,但在處理長(zhǎng)視頻或高分辨率視頻時(shí)仍然面臨計(jì)算復(fù)雜度的挑戰(zhàn)。

最后,開(kāi)發(fā)更好的評(píng)估指標(biāo)和基準(zhǔn)測(cè)試也是必要的。當(dāng)前的評(píng)估主要基于下游任務(wù)的性能,但如何直接評(píng)估預(yù)訓(xùn)練表征的質(zhì)量,特別是時(shí)間建模能力,仍然是一個(gè)開(kāi)放的問(wèn)題。

說(shuō)到底,北京大學(xué)團(tuán)隊(duì)的這項(xiàng)研究代表了視頻AI領(lǐng)域的一個(gè)重要里程碑。通過(guò)巧妙地結(jié)合自回歸預(yù)測(cè)、上下文隔離和流匹配技術(shù),他們不僅解決了傳統(tǒng)方法的關(guān)鍵問(wèn)題,還為整個(gè)領(lǐng)域指明了新的發(fā)展方向。雖然當(dāng)前的方法仍存在一些局限性,但其核心思想——讓機(jī)器像人類一樣通過(guò)預(yù)測(cè)下一幀來(lái)理解視頻——無(wú)疑是正確的方向。

隨著計(jì)算資源的不斷發(fā)展和技術(shù)的持續(xù)改進(jìn),我們有理由相信,基于這種思路的視頻AI系統(tǒng)將在不久的將來(lái)成為各種實(shí)際應(yīng)用的重要基礎(chǔ)。從智能推薦到醫(yī)療診斷,從教育培訓(xùn)到安全監(jiān)控,這項(xiàng)技術(shù)都有望帶來(lái)顯著的改進(jìn)。更重要的是,它為我們提供了一個(gè)新的視角來(lái)思考機(jī)器如何理解和處理時(shí)序信息,這對(duì)于構(gòu)建更智能、更像人類的AI系統(tǒng)具有深遠(yuǎn)的意義。有興趣深入研究的讀者可以通過(guò)arXiv:2512.21004v1查詢完整的技術(shù)論文。

Q&A

Q1:NExT-Vid和傳統(tǒng)的視頻AI訓(xùn)練方法有什么本質(zhì)區(qū)別?

A:傳統(tǒng)方法就像做填空題,遮住視頻的某些部分讓機(jī)器猜測(cè),但忽略了時(shí)間連續(xù)性。NExT-Vid則讓機(jī)器像看連續(xù)劇一樣,根據(jù)前面的內(nèi)容預(yù)測(cè)下一幀會(huì)發(fā)生什么,更符合人類理解視頻的方式,能更好地學(xué)習(xí)時(shí)間關(guān)系和動(dòng)作變化。

Q2:什么是"上下文隔離"設(shè)計(jì),為什么這么重要?

A:上下文隔離就是把理解和生成分開(kāi)處理,就像讓學(xué)生先專心聽(tīng)課理解內(nèi)容,再單獨(dú)做作業(yè)輸出。傳統(tǒng)方法讓AI一邊理解一邊輸出,容易相互干擾。這種分離設(shè)計(jì)讓每個(gè)部分都能發(fā)揮最佳效果,顯著提升了整體性能。

Q3:NExT-Vid在實(shí)際應(yīng)用中能解決什么問(wèn)題?

A:這項(xiàng)技術(shù)可以大幅提升視頻內(nèi)容理解的準(zhǔn)確性,應(yīng)用范圍很廣泛。比如視頻平臺(tái)的智能推薦、監(jiān)控系統(tǒng)的異常行為識(shí)別、醫(yī)療影像的自動(dòng)分析、體育訓(xùn)練的動(dòng)作指導(dǎo)等。任何需要理解視頻時(shí)間變化和動(dòng)作模式的場(chǎng)景都能從中受益。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
因工作原因,西安市長(zhǎng)安區(qū)委書(shū)記呂強(qiáng)12月29日接訪活動(dòng)臨時(shí)取消

因工作原因,西安市長(zhǎng)安區(qū)委書(shū)記呂強(qiáng)12月29日接訪活動(dòng)臨時(shí)取消

澎湃新聞
2025-12-28 13:26:05
紅屋夜事 1:奔馳貴客闖夜場(chǎng)

紅屋夜事 1:奔馳貴客闖夜場(chǎng)

金昔說(shuō)故事
2025-12-28 14:44:12
村書(shū)記欺負(fù)我的父母,我追求他的女兒,有一天他的女兒懷孕了

村書(shū)記欺負(fù)我的父母,我追求他的女兒,有一天他的女兒懷孕了

喬生桂
2025-12-28 18:41:30
俄反對(duì)任何形式的臺(tái)獨(dú)分裂行徑

俄反對(duì)任何形式的臺(tái)獨(dú)分裂行徑

財(cái)聯(lián)社
2025-12-28 11:22:15
1989年金日成盯著洪學(xué)智的肩膀,憋出一句:咋幾十年了,你還沒(méi)進(jìn)步?

1989年金日成盯著洪學(xué)智的肩膀,憋出一句:咋幾十年了,你還沒(méi)進(jìn)步?

老杉說(shuō)歷史
2025-12-28 19:13:13
朝鮮誰(shuí)都不服,卻主動(dòng)將三位中國(guó)人寫(xiě)進(jìn)教科書(shū),還為其樹(shù)立了銅像

朝鮮誰(shuí)都不服,卻主動(dòng)將三位中國(guó)人寫(xiě)進(jìn)教科書(shū),還為其樹(shù)立了銅像

云霄紀(jì)史觀
2025-12-27 15:49:05
沖上熱搜!黃子韜因腦淤血接受開(kāi)顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開(kāi)顱手術(shù)縫了43針,本人回應(yīng)

半島晨報(bào)
2025-12-28 18:04:45
丈夫?yàn)橹蹲踊?0萬(wàn)買(mǎi)車,我淡然提離婚,他冷笑簽字以為我在演戲

丈夫?yàn)橹蹲踊?0萬(wàn)買(mǎi)車,我淡然提離婚,他冷笑簽字以為我在演戲

小秋情感說(shuō)
2025-12-28 14:09:25
25000分2000斷比肩喬丹!年薪363萬(wàn)打成球隊(duì)老大,今夏最成功撿漏

25000分2000斷比肩喬丹!年薪363萬(wàn)打成球隊(duì)老大,今夏最成功撿漏

你的籃球頻道
2025-12-28 10:00:16
火箭這三鋒線防守壓迫太強(qiáng)!伊森阿門(mén)完美互補(bǔ),電風(fēng)扇功能型拉滿

火箭這三鋒線防守壓迫太強(qiáng)!伊森阿門(mén)完美互補(bǔ),電風(fēng)扇功能型拉滿

細(xì)話籃球
2025-12-28 12:07:38
有一種痛苦叫“買(mǎi)了第四代住宅”,幻想很高級(jí),入住后一言難盡!

有一種痛苦叫“買(mǎi)了第四代住宅”,幻想很高級(jí),入住后一言難盡!

裝修秀
2025-12-11 10:45:03
玩不起、開(kāi)黃腔,不留情面,《現(xiàn)在就出發(fā)3》他倆難怪被沈騰怒懟

玩不起、開(kāi)黃腔,不留情面,《現(xiàn)在就出發(fā)3》他倆難怪被沈騰怒懟

桑葚愛(ài)動(dòng)畫(huà)
2025-12-28 11:31:47
2014年,北京女博士李香蓉因接受不了新郎身份,在車內(nèi)將其幾刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在車內(nèi)將其幾刀刺死

紅豆講堂
2024-10-14 15:30:03
保時(shí)捷也開(kāi)始“官降沖量”,性能顏值轎跑已上市!

保時(shí)捷也開(kāi)始“官降沖量”,性能顏值轎跑已上市!

米粒說(shuō)車唯一呀
2025-12-28 19:26:29
中方反制不到24小時(shí),美悍然宣布中國(guó)已違法,挑明九屆政府都護(hù)臺(tái)

中方反制不到24小時(shí),美悍然宣布中國(guó)已違法,挑明九屆政府都護(hù)臺(tái)

歷史有些冷
2025-12-27 19:25:03
臺(tái)北市代表團(tuán)開(kāi)啟上海行:我們交流“欲罷不能”,雙城論壇長(zhǎng)長(zhǎng)久久

臺(tái)北市代表團(tuán)開(kāi)啟上海行:我們交流“欲罷不能”,雙城論壇長(zhǎng)長(zhǎng)久久

上觀新聞
2025-12-28 07:26:10
男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

眼淚博物
2025-08-07 16:47:38
美專家:美軍若向北京上海扔核彈,中國(guó)不會(huì)對(duì)等報(bào)復(fù)

美專家:美軍若向北京上海扔核彈,中國(guó)不會(huì)對(duì)等報(bào)復(fù)

南宗歷史
2025-12-27 06:04:34
殲-36第二架原型機(jī)曝光?序列號(hào)36011,這數(shù)字太囂張了

殲-36第二架原型機(jī)曝光?序列號(hào)36011,這數(shù)字太囂張了

武器鑒賞
2025-12-27 08:50:59
醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

霹靂炮
2025-12-04 22:54:47
2025-12-28 20:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
手機(jī)
時(shí)尚
本地
旅游

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

手機(jī)要聞

蘋(píng)果越戰(zhàn)越勇,小米、vivo、OPPO呢?

瑞典拉普蘭:凜冽北境的萬(wàn)物平衡之道

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

旅游要聞

自貢地區(qū)現(xiàn)存有多少座南華宮,你了解嗎?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版