国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI視頻是如何生成的?

0
分享至


(來源:麻省理工科技評論)

這篇文章隸屬于《麻省理工科技評論》技術(shù)解讀專題。讓我們的作者為您梳理復(fù)雜紛繁的技術(shù)世界,助您洞察未來趨勢。

對于視頻生成領(lǐng)域來說,2025 年是重要的一年。在過去的一年里,OpenAI 公開了 Sora,Google DeepMind 推出了 Veo 3,視頻初創(chuàng)公司 Runway 發(fā)布了 Gen-4。所有這些模型生成的視頻片段,幾乎無法與真實拍攝的素材或 CGI 動畫區(qū)分開來。今年,Netflix 還在其劇集《永恒族》(The Eternaut)中首次使用了 AI 視覺特效。

當(dāng)然,你在演示視頻中看到的片段都是經(jīng)過精心挑選的,旨在展示公司模型處于最佳狀態(tài)時的表現(xiàn)。但隨著這項技術(shù)掌握在比以往任何時候都多的用戶手中——Sora 和 Veo 3 現(xiàn)已在 ChatGPT 和 Gemini 應(yīng)用中向付費訂閱者開放——即便是業(yè)余的影視愛好者,現(xiàn)在也能通過 AI 制作出色的作品。

負(fù)面影響在于,創(chuàng)作者正面臨大量低質(zhì)量 AI 內(nèi)容(AI slop)的競爭,社交媒體上也充斥著虛假的新聞片段。此外,視頻生成消耗的能源巨大,是文本或圖像生成的許多倍。

既然 AI 生成的視頻無處不在,讓我們花點時間來探討一下其背后的技術(shù)原理。



如何生成一個視頻?

我們假設(shè)你只是一名普通用戶?,F(xiàn)在有一系列高端工具允許專業(yè)視頻制作者將視頻生成模型整合到他們的工作流程中,但大多數(shù)人會通過應(yīng)用程序或網(wǎng)站使用這項技術(shù)。流程你應(yīng)該很熟悉:“嘿,Gemini,給我做一個獨角獸吃意大利面的視頻,然后讓它的角像火箭一樣發(fā)射升空?!蹦愕玫降慕Y(jié)果可能好壞參半。通常你需要要求模型重新生成幾次甚至十次,才能得到與你預(yù)期大致相符的內(nèi)容。

那么,這一切的底層邏輯是什么?為什么結(jié)果會好壞參半?為什么它消耗這么多能源?最新一波視頻生成模型被稱為“潛在擴散 Transformer”(latent diffusion transformers)。沒錯,這個名字讀起來很拗口。讓我們依次拆解每個部分,從“擴散”開始。



什么是擴散模型?

想象一下,取一張圖像,并在上面隨機散布像素點。拿著這張布滿噪點的圖像,再次散布像素,然后重復(fù)這一過程。重復(fù)足夠多次后,最初的圖像就會變成一團隨機的像素混亂,就像老式電視機上的雪花噪點。

擴散模型是一種神經(jīng)網(wǎng)絡(luò),經(jīng)過訓(xùn)練可以逆轉(zhuǎn)這一過程,將隨機的噪點轉(zhuǎn)化為圖像。在訓(xùn)練過程中,它會看到處于不同像素化階段的數(shù)百萬張圖像。它學(xué)習(xí)這些圖像在每次添加新像素時的變化規(guī)律,從而學(xué)習(xí)如何撤銷這些變化。

結(jié)果就是,當(dāng)你要求擴散模型生成圖像時,它會從一團隨機的像素混亂開始,一步步將這一混亂轉(zhuǎn)化為與其訓(xùn)練集中的圖像大致相似的圖像。

但你不想要隨便一張圖像——你想要你指定的圖像,通常通過文本提示詞來描述。因此,擴散模型會與第二個模型配對。這個輔助模型通常是一個經(jīng)過訓(xùn)練、能將圖像與文本描述匹配的大語言模型(LLM)。它指導(dǎo)清理過程的每一步,推動擴散模型生成大語言模型認(rèn)為與提示詞匹配度高的圖像。

另外,這個大語言模型并不是憑空建立文本與圖像之間的聯(lián)系。如今大多數(shù)文本生成圖像和文本生成視頻的模型,都是在包含數(shù)十億對文本與圖像或文本與視頻的大型數(shù)據(jù)集上訓(xùn)練的。這些數(shù)據(jù)是從互聯(lián)網(wǎng)上抓取的(這種做法讓許多創(chuàng)作者非常不滿)。這意味著你從這些模型中得到的內(nèi)容,是網(wǎng)絡(luò)世界表現(xiàn)形式的濃縮,其中也包含了偏見(以及色情內(nèi)容)帶來的扭曲。

我們要理解擴散模型如何處理圖像很容易。但這該技術(shù)也可以用于多種類型的數(shù)據(jù),包括音頻和視頻。為了生成電影片段,擴散模型必須清理一系列圖像,而不僅僅是一張圖像——即視頻的連續(xù)幀。



什么是潛在擴散模型?

所有這些都需要巨大的算力(也就是能源)。這就是為什么大多數(shù)用于視頻生成的擴散模型使用一種稱為“潛在擴散”(latent diffusion)的技術(shù)。模型不處理每個視頻幀中數(shù)百萬像素的原始數(shù)據(jù),而是在所謂的“潛在空間”中工作。在這個空間里,視頻幀(和文本提示詞)被壓縮成數(shù)學(xué)代碼。這些代碼只捕捉數(shù)據(jù)的基本特征,并丟棄其余部分。

類似的原理發(fā)生在你通過互聯(lián)網(wǎng)流式傳輸視頻時:視頻以壓縮格式從服務(wù)器發(fā)送到你的屏幕,以便更快傳輸。到達后,你的電腦或電視會將其轉(zhuǎn)換回可觀看的視頻。

因此,最后一步是對潛在擴散過程產(chǎn)生的結(jié)果進行解壓。一旦隨機噪點的壓縮幀被轉(zhuǎn)化為壓縮后的視頻幀(且大語言模型向?qū)дJ(rèn)為這與用戶的提示詞匹配良好),壓縮視頻就會被轉(zhuǎn)換成你可以觀看的內(nèi)容。

通過使用潛在擴散技術(shù),擴散過程的工作方式與處理圖像時大致相同。區(qū)別在于,像素化的視頻幀現(xiàn)在是這些幀的數(shù)學(xué)編碼,而不是幀本身。這使得潛在擴散比典型的擴散模型效率高得多。(即便如此,視頻生成消耗的能源仍然比圖像或文本生成多。涉及的計算量依然驚人。)



什么是潛在擴散 Transformer?

還有一個謎題尚未解開,那就是如何確保擴散過程產(chǎn)生一系列連貫的幀,保持物體和光線等元素在幀與幀之間的一致性。OpenAI 在開發(fā) Sora 時,通過將其擴散模型與另一種稱為 Transformer 的模型相結(jié)合,解決了這個問題。這已成為生成式視頻的標(biāo)準(zhǔn)做法。

Transformer 擅長處理長序列數(shù)據(jù),比如文字。這使它們成為 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大語言模型內(nèi)部的關(guān)鍵技術(shù)。這些模型可以生成意義通順的長文本序列,并在數(shù)十個句子中保持一致性。

但視頻不是由文字組成的。相反,視頻被切割成塊,以便像處理文字一樣處理它們。OpenAI 提出的方法是在空間和時間兩個維度上對視頻進行切割。Sora 的首席研究員蒂姆·布魯克斯(Tim Brooks)說:“這就像你有一摞所有的視頻幀,然后從中切出小立方體?!?/p>

將擴散模型與 Transformer 結(jié)合帶來了一些優(yōu)勢。由于 Transformer 專為處理序列數(shù)據(jù)而設(shè)計,它們有助于擴散模型在生成過程中保持幀與幀之間的一致性。這使得生成的視頻中,物體不會莫名其妙地出現(xiàn)或消失。

此外,由于視頻被切成了塊,其尺寸和方向就不再重要。這意味著最新一波視頻生成模型可以在廣泛的示例視頻上進行訓(xùn)練,從手機拍攝的短豎屏視頻到寬銀幕電影。訓(xùn)練數(shù)據(jù)的多樣性使得視頻生成技術(shù)遠(yuǎn)勝于兩年前。這也意味著視頻生成模型現(xiàn)在可以按要求生成各種格式的視頻。



音頻如何生成?

Veo 3 的一大進步是它可以生成帶有音頻的視頻,從口型同步的對話到音效和背景噪音。這是視頻生成模型的首創(chuàng)。Google DeepMind 首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)在今年的 Google I/O 大會上說:“我們正在走出視頻生成的無聲時代?!?/p>

這一技術(shù)的挑戰(zhàn)在于找到一種方法來對齊視頻和音頻數(shù)據(jù),以便擴散過程能同時處理兩者。Google DeepMind 的突破在于一種新方法,它將音頻和視頻壓縮成擴散模型內(nèi)部的一塊單一數(shù)據(jù)。當(dāng) Veo 3 生成視頻時,其擴散模型通過同步過程同時產(chǎn)生音頻和視頻,確保聲音和圖像是對齊的。



大語言模型也是這樣工作的嗎?

至少目前還不是。擴散模型最常用于生成圖像、視頻和音頻。用于生成文本(包括計算機代碼)的大語言模型是使用 Transformer 構(gòu)建的,但其界限正在變得模糊。我們已經(jīng)看到 Transformer 正在與擴散模型結(jié)合以生成視頻。今年夏天,Google DeepMind 透露,通過使用擴散模型而非 Transformer 來生成文本,他們正在構(gòu)建一個實驗性的大語言模型。

這里情況開始變得令人困惑:雖然視頻生成(使用擴散模型)消耗大量能源,但擴散模型本身實際上比 Transformer 更高效。因此,通過使用擴散模型代替 Transformer 來生成文本,Google DeepMind 的新大語言模型可能比現(xiàn)有模型效率高得多。在不久的將來,預(yù)計我們會看到更多基于擴散模型的成果。


https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

等風(fēng)來育兒聯(lián)盟
2025-08-01 12:21:35
這條荒唐新聞,引起公憤了!

這條荒唐新聞,引起公憤了!

胖胖說他不胖
2026-01-11 10:00:11
董路:輸U16國足2-5、輸U23國足0-1,澳大利亞足球到頭了!

董路:輸U16國足2-5、輸U23國足0-1,澳大利亞足球到頭了!

綠茵舞著
2026-01-11 22:32:58
國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

勁爆體壇
2026-01-12 19:22:18
金球獎這一夜,國際女星個個風(fēng)情萬種,但都被一位中國女星艷壓了

金球獎這一夜,國際女星個個風(fēng)情萬種,但都被一位中國女星艷壓了

八卦南風(fēng)
2026-01-12 16:25:50
洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

八斗小先生
2026-01-10 15:30:07
3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢 巴薩擊敗皇馬衛(wèi)冕超級杯

3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢 巴薩擊敗皇馬衛(wèi)冕超級杯

阿超他的體育圈
2026-01-12 05:10:31
“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級過山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級過山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

魯中晨報
2026-01-12 18:49:10
周杰倫宣布以球員身份參加澳網(wǎng)

周杰倫宣布以球員身份參加澳網(wǎng)

現(xiàn)代快報
2026-01-12 16:26:09
哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

韓馳
2026-01-10 13:12:31
2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

小熊侃史
2026-01-12 07:35:07
周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

芊芊子吟
2026-01-06 13:50:03
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
又是明尼阿波利斯!美ICE執(zhí)法人員當(dāng)街射殺女子事件仍在發(fā)酵,全美上千場抗議爆發(fā)

又是明尼阿波利斯!美ICE執(zhí)法人員當(dāng)街射殺女子事件仍在發(fā)酵,全美上千場抗議爆發(fā)

新民周刊
2026-01-12 16:45:52
就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

股市皆大事
2026-01-12 08:26:49
中國出手了!石平之子錄取資格被取消,女兒在機場被攔,太解氣了

中國出手了!石平之子錄取資格被取消,女兒在機場被攔,太解氣了

小lu侃侃而談
2026-01-12 19:56:41
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
兩岸喜訊!大陸沒想到,沒等正式收臺,臺當(dāng)局先送來2份“大禮”

兩岸喜訊!大陸沒想到,沒等正式收臺,臺當(dāng)局先送來2份“大禮”

趣生活
2026-01-10 22:29:06
天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

全接觸狐狐
2026-01-12 09:34:14
2026-01-12 21:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16113文章數(shù) 514478關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

教育
游戲
數(shù)碼
旅游
家居

教育要聞

剛迎超長寒假!北京中小學(xué)又撞上近十年“最短學(xué)期”?!

《暗黑4》DLC全新區(qū)域地圖泄露:奈非天的故鄉(xiāng)!

數(shù)碼要聞

2026年全球顯示器預(yù)計出貨約1.28億臺 100Hz成主流

旅游要聞

中國文旅看山西:省文旅廳和交通廳聯(lián)手規(guī)劃打造“萬里山河”景觀路

家居要聞

包絡(luò)石木為生 野性舒適

無障礙瀏覽 進入關(guān)懷版