AI視頻是如何生成的？

2026-01-12 17:09:47　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

這篇文章隸屬于《麻省理工科技評論》技術(shù)解讀專題。讓我們的作者為您梳理復(fù)雜紛繁的技術(shù)世界，助您洞察未來趨勢。

對于視頻生成領(lǐng)域來說，2025 年是重要的一年。在過去的一年里，OpenAI 公開了 Sora，Google DeepMind 推出了 Veo 3，視頻初創(chuàng)公司 Runway 發(fā)布了 Gen-4。所有這些模型生成的視頻片段，幾乎無法與真實拍攝的素材或 CGI 動畫區(qū)分開來。今年，Netflix 還在其劇集《永恒族》（The Eternaut）中首次使用了 AI 視覺特效。

當(dāng)然，你在演示視頻中看到的片段都是經(jīng)過精心挑選的，旨在展示公司模型處于最佳狀態(tài)時的表現(xiàn)。但隨著這項技術(shù)掌握在比以往任何時候都多的用戶手中——Sora 和 Veo 3 現(xiàn)已在 ChatGPT 和 Gemini 應(yīng)用中向付費訂閱者開放——即便是業(yè)余的影視愛好者，現(xiàn)在也能通過 AI 制作出色的作品。

負(fù)面影響在于，創(chuàng)作者正面臨大量低質(zhì)量 AI 內(nèi)容（AI slop）的競爭，社交媒體上也充斥著虛假的新聞片段。此外，視頻生成消耗的能源巨大，是文本或圖像生成的許多倍。

既然 AI 生成的視頻無處不在，讓我們花點時間來探討一下其背后的技術(shù)原理。

如何生成一個視頻？

我們假設(shè)你只是一名普通用戶?，F(xiàn)在有一系列高端工具允許專業(yè)視頻制作者將視頻生成模型整合到他們的工作流程中，但大多數(shù)人會通過應(yīng)用程序或網(wǎng)站使用這項技術(shù)。流程你應(yīng)該很熟悉：“嘿，Gemini，給我做一個獨角獸吃意大利面的視頻，然后讓它的角像火箭一樣發(fā)射升空?！蹦愕玫降慕Y(jié)果可能好壞參半。通常你需要要求模型重新生成幾次甚至十次，才能得到與你預(yù)期大致相符的內(nèi)容。

那么，這一切的底層邏輯是什么？為什么結(jié)果會好壞參半？為什么它消耗這么多能源？最新一波視頻生成模型被稱為“潛在擴散 Transformer”（latent diffusion transformers）。沒錯，這個名字讀起來很拗口。讓我們依次拆解每個部分，從“擴散”開始。

什么是擴散模型？

想象一下，取一張圖像，并在上面隨機散布像素點。拿著這張布滿噪點的圖像，再次散布像素，然后重復(fù)這一過程。重復(fù)足夠多次后，最初的圖像就會變成一團隨機的像素混亂，就像老式電視機上的雪花噪點。

擴散模型是一種神經(jīng)網(wǎng)絡(luò)，經(jīng)過訓(xùn)練可以逆轉(zhuǎn)這一過程，將隨機的噪點轉(zhuǎn)化為圖像。在訓(xùn)練過程中，它會看到處于不同像素化階段的數(shù)百萬張圖像。它學(xué)習(xí)這些圖像在每次添加新像素時的變化規(guī)律，從而學(xué)習(xí)如何撤銷這些變化。

結(jié)果就是，當(dāng)你要求擴散模型生成圖像時，它會從一團隨機的像素混亂開始，一步步將這一混亂轉(zhuǎn)化為與其訓(xùn)練集中的圖像大致相似的圖像。

但你不想要隨便一張圖像——你想要你指定的圖像，通常通過文本提示詞來描述。因此，擴散模型會與第二個模型配對。這個輔助模型通常是一個經(jīng)過訓(xùn)練、能將圖像與文本描述匹配的大語言模型（LLM）。它指導(dǎo)清理過程的每一步，推動擴散模型生成大語言模型認(rèn)為與提示詞匹配度高的圖像。

另外，這個大語言模型并不是憑空建立文本與圖像之間的聯(lián)系。如今大多數(shù)文本生成圖像和文本生成視頻的模型，都是在包含數(shù)十億對文本與圖像或文本與視頻的大型數(shù)據(jù)集上訓(xùn)練的。這些數(shù)據(jù)是從互聯(lián)網(wǎng)上抓取的（這種做法讓許多創(chuàng)作者非常不滿）。這意味著你從這些模型中得到的內(nèi)容，是網(wǎng)絡(luò)世界表現(xiàn)形式的濃縮，其中也包含了偏見（以及色情內(nèi)容）帶來的扭曲。

我們要理解擴散模型如何處理圖像很容易。但這該技術(shù)也可以用于多種類型的數(shù)據(jù)，包括音頻和視頻。為了生成電影片段，擴散模型必須清理一系列圖像，而不僅僅是一張圖像——即視頻的連續(xù)幀。

什么是潛在擴散模型？

所有這些都需要巨大的算力（也就是能源）。這就是為什么大多數(shù)用于視頻生成的擴散模型使用一種稱為“潛在擴散”（latent diffusion）的技術(shù)。模型不處理每個視頻幀中數(shù)百萬像素的原始數(shù)據(jù)，而是在所謂的“潛在空間”中工作。在這個空間里，視頻幀（和文本提示詞）被壓縮成數(shù)學(xué)代碼。這些代碼只捕捉數(shù)據(jù)的基本特征，并丟棄其余部分。

類似的原理發(fā)生在你通過互聯(lián)網(wǎng)流式傳輸視頻時：視頻以壓縮格式從服務(wù)器發(fā)送到你的屏幕，以便更快傳輸。到達后，你的電腦或電視會將其轉(zhuǎn)換回可觀看的視頻。

因此，最后一步是對潛在擴散過程產(chǎn)生的結(jié)果進行解壓。一旦隨機噪點的壓縮幀被轉(zhuǎn)化為壓縮后的視頻幀（且大語言模型向?qū)дJ(rèn)為這與用戶的提示詞匹配良好），壓縮視頻就會被轉(zhuǎn)換成你可以觀看的內(nèi)容。

通過使用潛在擴散技術(shù)，擴散過程的工作方式與處理圖像時大致相同。區(qū)別在于，像素化的視頻幀現(xiàn)在是這些幀的數(shù)學(xué)編碼，而不是幀本身。這使得潛在擴散比典型的擴散模型效率高得多。（即便如此，視頻生成消耗的能源仍然比圖像或文本生成多。涉及的計算量依然驚人。）

什么是潛在擴散 Transformer？

還有一個謎題尚未解開，那就是如何確保擴散過程產(chǎn)生一系列連貫的幀，保持物體和光線等元素在幀與幀之間的一致性。OpenAI 在開發(fā) Sora 時，通過將其擴散模型與另一種稱為 Transformer 的模型相結(jié)合，解決了這個問題。這已成為生成式視頻的標(biāo)準(zhǔn)做法。

Transformer 擅長處理長序列數(shù)據(jù)，比如文字。這使它們成為 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大語言模型內(nèi)部的關(guān)鍵技術(shù)。這些模型可以生成意義通順的長文本序列，并在數(shù)十個句子中保持一致性。

但視頻不是由文字組成的。相反，視頻被切割成塊，以便像處理文字一樣處理它們。OpenAI 提出的方法是在空間和時間兩個維度上對視頻進行切割。Sora 的首席研究員蒂姆·布魯克斯（Tim Brooks）說：“這就像你有一摞所有的視頻幀，然后從中切出小立方體?！?/p>

將擴散模型與 Transformer 結(jié)合帶來了一些優(yōu)勢。由于 Transformer 專為處理序列數(shù)據(jù)而設(shè)計，它們有助于擴散模型在生成過程中保持幀與幀之間的一致性。這使得生成的視頻中，物體不會莫名其妙地出現(xiàn)或消失。

此外，由于視頻被切成了塊，其尺寸和方向就不再重要。這意味著最新一波視頻生成模型可以在廣泛的示例視頻上進行訓(xùn)練，從手機拍攝的短豎屏視頻到寬銀幕電影。訓(xùn)練數(shù)據(jù)的多樣性使得視頻生成技術(shù)遠(yuǎn)勝于兩年前。這也意味著視頻生成模型現(xiàn)在可以按要求生成各種格式的視頻。

音頻如何生成？

Veo 3 的一大進步是它可以生成帶有音頻的視頻，從口型同步的對話到音效和背景噪音。這是視頻生成模型的首創(chuàng)。Google DeepMind 首席執(zhí)行官德米斯·哈薩比斯（Demis Hassabis）在今年的 Google I/O 大會上說：“我們正在走出視頻生成的無聲時代?！?/p>

這一技術(shù)的挑戰(zhàn)在于找到一種方法來對齊視頻和音頻數(shù)據(jù)，以便擴散過程能同時處理兩者。Google DeepMind 的突破在于一種新方法，它將音頻和視頻壓縮成擴散模型內(nèi)部的一塊單一數(shù)據(jù)。當(dāng) Veo 3 生成視頻時，其擴散模型通過同步過程同時產(chǎn)生音頻和視頻，確保聲音和圖像是對齊的。

大語言模型也是這樣工作的嗎？

至少目前還不是。擴散模型最常用于生成圖像、視頻和音頻。用于生成文本（包括計算機代碼）的大語言模型是使用 Transformer 構(gòu)建的，但其界限正在變得模糊。我們已經(jīng)看到 Transformer 正在與擴散模型結(jié)合以生成視頻。今年夏天，Google DeepMind 透露，通過使用擴散模型而非 Transformer 來生成文本，他們正在構(gòu)建一個實驗性的大語言模型。

這里情況開始變得令人困惑：雖然視頻生成（使用擴散模型）消耗大量能源，但擴散模型本身實際上比 Transformer 更高效。因此，通過使用擴散模型代替 Transformer 來生成文本，Google DeepMind 的新大語言模型可能比現(xiàn)有模型效率高得多。在不久的將來，預(yù)計我們會看到更多基于擴散模型的成果。

https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.