《現(xiàn)代電影技術(shù)》｜葉思成等：AIGC短片數(shù)智聯(lián)創(chuàng)工作流探析——以創(chuàng)新影像《樹苗的蛻變》為例

2025-06-13 09:30:33　來源: 電影技術(shù)微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第5期

專家點評

中國創(chuàng)新影像大賽作為引領(lǐng)影像創(chuàng)作技術(shù)變革的創(chuàng)新平臺，自創(chuàng)辦以來一直聚焦“技術(shù)驅(qū)動藝術(shù)”的核心理念，成為展示前沿技術(shù)應(yīng)用與多維藝術(shù)表達的重要舞臺。參賽作品類型從AI生成、虛擬影像到沉浸式體驗，充分彰顯了大賽對多元化創(chuàng)作生態(tài)的推動力。人工智能生成內(nèi)容（AIGC）已經(jīng)成為重構(gòu)影像創(chuàng)作范式的核心驅(qū)動力，其技術(shù)應(yīng)用已從工具革新邁向全流程范式轉(zhuǎn)移。《樹苗的蛻變》作為中國創(chuàng)新影像大賽一等獎作品，通過AIGC技術(shù)實現(xiàn)生態(tài)主題的視覺敘事，體現(xiàn)了科學(xué)技術(shù)與人文關(guān)懷的協(xié)同創(chuàng)新，成為AIGC賦能影像創(chuàng)作的標桿案例，以及創(chuàng)新大賽“發(fā)掘新質(zhì)生產(chǎn)力”目標的典型實踐?！禔IGC短片數(shù)智聯(lián)創(chuàng)工作流探析——以創(chuàng)新影像〈樹苗的蛻變〉為例》一文，以扎實的案例分析與跨學(xué)科視角，為行業(yè)從業(yè)者與研究者提供了兼具實用價值與理論深度的參考，值得作為AIGC影像創(chuàng)作的范式指南認真研讀。文章以《樹苗的蛻變》這一創(chuàng)新影像為切入點極具代表性，通過對于這一典型案例的數(shù)智聯(lián)創(chuàng)工作流分析，層層遞進，讓讀者能循序漸進地理解復(fù)雜內(nèi)容。在作品的前期策劃中，生成式AI輔助劇本分鏡與場景設(shè)計；中期制作通過LoRA模型優(yōu)化視覺風(fēng)格，結(jié)合深度學(xué)習(xí)算法實現(xiàn)動態(tài)渲染；后期則利用AI批量生成特效素材，顯著提升效率并降低成本。這種“數(shù)智聯(lián)創(chuàng)”模式打破了數(shù)字影像制作的傳統(tǒng)流程，使創(chuàng)作者能夠更聚焦于創(chuàng)意表達而非技術(shù)限制，文中對工作流各環(huán)節(jié)的拆解細致入微，結(jié)合具體操作步驟和技術(shù)原理，使理論知識變得通俗易懂，增強了文章的可讀性和實用性。中國創(chuàng)新影像大賽呼吁更多的參賽佳作，同時希望能有更多這樣對于作品創(chuàng)制實踐的總結(jié)與分析。

——韓強

正高級工程師

中國電影電視技術(shù)學(xué)會秘書長

作者簡介

葉思成

北京廣播電視臺二級錄音師、編輯，中國傳媒大學(xué)音樂與錄音藝術(shù)學(xué)院碩士生導(dǎo)師（校外導(dǎo)師），主要研究方向：廣播影視創(chuàng)作生產(chǎn)（智能生產(chǎn)）、媒介聲音研究。

中國傳媒大學(xué)音樂與錄音藝術(shù)學(xué)院教授、碩士生導(dǎo)師、博導(dǎo)組成員，主要研究方向：聲音科學(xué)與藝術(shù)、數(shù)字媒體與數(shù)字人文。

袁邈桐

金恬田

浙江華策影視股份有限公司AIGC應(yīng)用研究院編導(dǎo)，主要研究方向：人工智能媒介內(nèi)容生產(chǎn)研究。

摘要

為探究基于人工智能生成內(nèi)容（AIGC）技術(shù)的“人工智能+視聽”影視內(nèi)容生產(chǎn)機制，本文以創(chuàng)新影像《樹苗的蛻變》為例，系統(tǒng)解析數(shù)智聯(lián)創(chuàng)工作流模式在AIGC短片創(chuàng)作中的應(yīng)用路徑。該工作流基于人機協(xié)同理念，構(gòu)建“創(chuàng)意策劃—智能生產(chǎn)—數(shù)字制作”三模塊全鏈路解決方案，通過AI技術(shù)實現(xiàn)視聽素材的自動化生成與風(fēng)格化處理。案例分析表明，AIGC短片通過“智作+制作”協(xié)同模式，驗證了數(shù)智聯(lián)創(chuàng)工作流在提升創(chuàng)作效率、統(tǒng)一風(fēng)格質(zhì)量及拓展藝術(shù)表現(xiàn)力等方面的實踐價值。本研究亦為AIGC技術(shù)驅(qū)動下影視創(chuàng)作的流程優(yōu)化與范式革新提供了理論參考與實證支持。

關(guān)鍵詞

AIGC；數(shù)智聯(lián)創(chuàng)；工作流；人機協(xié)同；視聽創(chuàng)作

1引言：新質(zhì)生產(chǎn)力賦能創(chuàng)新影像創(chuàng)作實踐

生產(chǎn)力的提升作為人類改造世界能動力增強的一個重要方面，預(yù)示著人類改造世界的力量正得以強化。高質(zhì)量發(fā)展背景下，影視內(nèi)容供給側(cè)正以大力發(fā)展新質(zhì)生產(chǎn)力為契機，把握以人工智能（AI）為代表的新興技術(shù)帶來的重要機遇，積極試水影像質(zhì)態(tài)創(chuàng)新與內(nèi)容生產(chǎn)機制變革，相繼生產(chǎn)了一大批佳作。2025年《政府工作報告》提出，持續(xù)推進“人工智能+”行動[1]。本文將圍繞新時代影視生產(chǎn)議題，探究當前人工智能生成內(nèi)容（AIGC）助力視聽內(nèi)容制作融合創(chuàng)新范式，結(jié)合數(shù)智聯(lián)創(chuàng)工作流導(dǎo)引，探究如何更新視聽創(chuàng)作樣態(tài)、創(chuàng)新制作方法，總結(jié)并提煉出具有實踐指導(dǎo)意義的經(jīng)驗范式，進而助推新時代影視行業(yè)創(chuàng)新發(fā)展。

2研究背景：“人工智能+視聽”創(chuàng)作范式的興起

近年來，AIGC技術(shù)發(fā)展突飛猛進，不斷影響著傳媒生態(tài)并重塑媒體生產(chǎn)格局。以“人工智能+視聽”為代表的創(chuàng)新影像，正引發(fā)行業(yè)內(nèi)外的廣泛關(guān)注。2021年11月，國家電影局印發(fā)《“十四五”中國電影發(fā)展規(guī)劃》指出，“充分應(yīng)用傳統(tǒng)攝制、虛擬攝制、云端制作、智能制作以及計算機動畫等多元化電影攝制技術(shù)手段，推動建立電影創(chuàng)作、內(nèi)容和數(shù)據(jù)共享技術(shù)體系”[2]。同年10月，《廣播電視和網(wǎng)絡(luò)視聽“十四五”發(fā)展規(guī)劃》亦指出，積極推動運用人工智能等技術(shù)，創(chuàng)新內(nèi)容選題、素材集成、需求組合、創(chuàng)作生產(chǎn)等，發(fā)掘創(chuàng)意空間，深耕內(nèi)容制作，創(chuàng)新節(jié)目形態(tài)，讓個性化定制、精準化生產(chǎn)更好為提升作品質(zhì)量、滿足人民需求服務(wù)[3]。2023年12月，工業(yè)和信息化部等七部門聯(lián)合印發(fā)了《關(guān)于加快推進視聽電子產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》，提出“促進視聽技術(shù)、產(chǎn)品與應(yīng)用場景融合創(chuàng)新，加快與新技術(shù)融合發(fā)展”?，明確推動產(chǎn)業(yè)“向高端化、智能化、綠色化發(fā)展”?，同時鼓勵“推動生成式人工智能賦能智慧生活視聽場景，優(yōu)化家庭影音、互動游戲、健康養(yǎng)老和生活服務(wù)等體驗” ，為AIGC在音視頻生產(chǎn)中的場景化應(yīng)用以及創(chuàng)新驅(qū)動影視工業(yè)范式升級?提供了宏觀政策支持?[4]。2024年7月發(fā)布的《北京市推動“人工智能+”行動計劃（2024—2025年）》具體指出，廣電傳媒行業(yè)要“利用大模型創(chuàng)作能力，集成文本創(chuàng)作、視頻生成、影視特效處理等功能，加速AIGC創(chuàng)作豐富內(nèi)容，在影視領(lǐng)域形成一批新型工具和創(chuàng)新成果，豐富影視作品創(chuàng)意，提高創(chuàng)作效率和質(zhì)量”[5]。

面對AI發(fā)展浪潮，以主流媒體為代表的影視制作機構(gòu)在智能技術(shù)應(yīng)用和創(chuàng)新傳播方向上不斷追求“向前一步”，包括中央廣播電視總臺、北京廣播電視臺、上海廣播電視臺等廣播影視制作機構(gòu)陸續(xù)啟動AI實驗室建設(shè)[6—8]，各類型AIGC作品在短時間內(nèi)呈現(xiàn)出迅猛發(fā)展態(tài)勢。北京廣播電視臺抓住AI發(fā)展重要機遇，以AIGC技術(shù)研發(fā)與創(chuàng)新制作為抓手發(fā)展新質(zhì)生產(chǎn)力，積極試水節(jié)目質(zhì)態(tài)創(chuàng)新與內(nèi)容生產(chǎn)機制變革，推出了一批創(chuàng)新影像佳作。2024年起，北京廣播電視臺開啟AIGC內(nèi)容生產(chǎn)相關(guān)研發(fā)工作，聚焦AIGC短片等體裁，探索媒介內(nèi)容創(chuàng)作新形式，發(fā)掘媒體融合創(chuàng)新新樣態(tài)，開辟創(chuàng)新影像生產(chǎn)新模式。

面對AI內(nèi)容創(chuàng)作發(fā)展現(xiàn)狀，當務(wù)之急是要著手探究智能視聽內(nèi)容創(chuàng)作生產(chǎn)過程中的規(guī)律性特點，探尋AIGC技術(shù)與影視內(nèi)容生產(chǎn)耦合機制，進而對影視創(chuàng)作提質(zhì)、傳播增效等舉措提出實用、有效的策略，助力推動影視行業(yè)在內(nèi)容生產(chǎn)及數(shù)智影視傳播上取得良好效果。與此同時，如雨后春筍般的AIGC視聽內(nèi)容正悄然影響著億萬大眾的欣賞習(xí)慣，通過對主流傳媒機構(gòu)及其所作的案例作品開展分析研究，不僅可深化對新質(zhì)內(nèi)容生產(chǎn)過程中運作機制的理解認知，而且透過管窺典型創(chuàng)作案例還可進一步揭示其智能化生產(chǎn)過程中蘊含的規(guī)律性特點，從而為新樣態(tài)內(nèi)容研發(fā)與創(chuàng)作工作等提供參考指引。

3數(shù)智聯(lián)創(chuàng)：一種對AIGC影視內(nèi)容創(chuàng)作生產(chǎn)工作流模式的探索

AI與數(shù)字技術(shù)的深度融合悄然影響著影視內(nèi)容生產(chǎn)的流程與效率，結(jié)合筆者創(chuàng)作實踐，本文提出一種新型創(chuàng)作模式——數(shù)智聯(lián)創(chuàng)工作流。數(shù)智聯(lián)創(chuàng)的底層邏輯是人機協(xié)同，即通過人類創(chuàng)意驅(qū)動AI實現(xiàn)意圖耦合，進而由AI將抽象創(chuàng)意轉(zhuǎn)化為具象內(nèi)容。概念上，工作流（Workflow）是一個業(yè)務(wù)過程的全部或部分自動執(zhí)行?[9]。其整體是一個數(shù)字化的故事講述，以AI和人類協(xié)同的形式完成“文本-圖像-動畫-聲音”的視聽多模態(tài)敘事目標[10]。工作流模式在智能生產(chǎn)中具有流程標準化、結(jié)果可預(yù)測和穩(wěn)定性高等優(yōu)勢。數(shù)智聯(lián)創(chuàng)工作流（圖1）以創(chuàng)意策劃、智能生產(chǎn)和數(shù)字制作三個主要工藝模塊為基礎(chǔ)，構(gòu)建了從創(chuàng)意構(gòu)思到最終視聽作品交付的全鏈路數(shù)智化解決方案。該流程具備以新質(zhì)技術(shù)賦能創(chuàng)意、以AI驅(qū)動生產(chǎn)要素的重要優(yōu)勢，緩解了創(chuàng)作成本投入過高等客觀阻礙，顯著提升了內(nèi)容生產(chǎn)效率并基本確保了生產(chǎn)質(zhì)量的穩(wěn)定性，一定程度上適用于視聽創(chuàng)作領(lǐng)域。

圖1　數(shù)智聯(lián)創(chuàng)工作流路徑圖

3.1 創(chuàng)意策劃域

創(chuàng)意策劃域是工作流的起點，承擔從無到有的創(chuàng)意孵化與敘事框架搭建。其核心任務(wù)包括構(gòu)建故事內(nèi)核、梳理敘事線索、制作分鏡頭腳本、設(shè)計視覺表達框架等，為后續(xù)的數(shù)智生產(chǎn)環(huán)節(jié)提供明確的目標大綱。以基于語音敘事的故事文本為例，講故事的方式依托獨白敘事展開，隨即對應(yīng)設(shè)計可執(zhí)行的分鏡頭腳本。而后分鏡頭腳本方案則對照故事大綱（獨白邏輯），將故事敘述拆解為具體的鏡頭語言，包括場景構(gòu)圖、角色動作、鏡頭運動等要素；同時，分鏡頭腳本需設(shè)計符合敘事邏輯的鏡頭序列，明確每個鏡頭的時長、景別及轉(zhuǎn)場邏輯，形成可視化藍本，進而為后續(xù)生產(chǎn)智能影像與聲音素材提供邏輯支撐。

3.2 智能生產(chǎn)域

2025年3月，《〈關(guān)于促進虛擬現(xiàn)實電影有序發(fā)展的通知〉政策問答》指出，“虛擬現(xiàn)實是近年來高新技術(shù)發(fā)展的重要前沿方向，隨著人工智能和虛擬現(xiàn)實技術(shù)的發(fā)展，其極強的臨場感、沉浸感，為觀眾提供了嶄新的視聽體驗，部分作品已經(jīng)在市場上引起了強烈的反響”?[11]。通過AIGC技術(shù)，智能生產(chǎn)域?qū)崿F(xiàn)影像素材與聲音素材的自動化生成，解決傳統(tǒng)生產(chǎn)流程中人力成本高、迭代周期長等痛點，實現(xiàn)AI驅(qū)動下視聽素材規(guī)?；a(chǎn)及內(nèi)容風(fēng)格化處理等目標。該模塊分為影像素材與聲音素材兩條生產(chǎn)線，二者通過統(tǒng)一的工作流相互協(xié)調(diào)實現(xiàn)協(xié)同工作。

3.2.1 影像素材生產(chǎn)

一方面，近年來AI技術(shù)在分鏡頭腳本與場景概念圖生成方面的應(yīng)用發(fā)展迅速，以文生圖（Text?to?Image，T2I）模型為代表，其基于Transformer、生成式對抗網(wǎng)絡(luò)（GAN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）等關(guān)鍵技術(shù)，可根據(jù)劇本內(nèi)容自動生成分鏡頭腳本，還能根據(jù)場景描述生成符合劇本情境的概念圖，展示不同光線、色調(diào)和環(huán)境下的場景氛圍，提供直觀的視覺感受[12]。另一方面，以T2I技術(shù)為基礎(chǔ)，并進一步結(jié)合經(jīng)特定風(fēng)格數(shù)據(jù)集預(yù)訓(xùn)練的LoRA模型與動畫生成算法，快速產(chǎn)出符合分鏡頭需求的高分辨率圖像?；静襟E如下：

（1）提示詞（Prompt）的生成與優(yōu)化及初步圖像（一創(chuàng)圖像）生成。基于創(chuàng)意策劃腳本，生成用于AI影像制作的提示詞；同時，可進一步利用大語言模型（LLM）作為AI提示詞優(yōu)化工具，通過對比學(xué)習(xí)框架優(yōu)化語義匹配度，完成提示詞迭代，提升畫面構(gòu)圖的可控性與后續(xù)制作效率。（2）風(fēng)格化LoRA模型渲染。利用預(yù)訓(xùn)練的LoRA模型基于文生圖對圖像進行渲染，轉(zhuǎn)繪為具有統(tǒng)一視覺風(fēng)格的風(fēng)格化圖像（二創(chuàng)圖像）。LoRA作為一種輕量化模型微調(diào)技術(shù)，能將特定藝術(shù)風(fēng)格高效地嵌入基礎(chǔ)生成模型。例如，通過在預(yù)訓(xùn)練模型的權(quán)重上添加低秩矩陣，以實現(xiàn)特定風(fēng)格的低成本遷移；同時，如大批量一創(chuàng)圖像采用同一類型LoRA進行技術(shù)渲染，可基本確保渲染后的二創(chuàng)圖像素材的風(fēng)格統(tǒng)一性與穩(wěn)定性。另外，在圖片素材生成階段，創(chuàng)作者可通過AI交互界面實時調(diào)整提示詞及渲染參數(shù)，直至輸出滿意結(jié)果。（3）采用圖生視頻（Image?to?Video, I2V）技術(shù)，結(jié)合提示詞實現(xiàn)圖像到動態(tài)影像的轉(zhuǎn)換。特別是靜態(tài)生成的二創(chuàng)圖像需通過首尾幀補間處理轉(zhuǎn)化為動態(tài)影像，由AI視頻生產(chǎn)平臺通過智能分析挖掘首尾幀的關(guān)鍵幀數(shù)據(jù)，自動生成中間過渡幀。例如，若分鏡要求展示“鏡頭從全景場面推進至場景中的某一人物的特寫”，系統(tǒng)將計算鏡頭運動軌跡，確保生成內(nèi)容與指定關(guān)鍵幀無縫對接，生成順暢的縮放與平移運動鏡頭。

3.2.2 聲音素材生產(chǎn)

聚焦文生語音（Text?to?Speech, TTS），通過深度學(xué)習(xí)（DL）模型（基于對人聲開展數(shù)據(jù)采樣并訓(xùn)練通用語音模型）實現(xiàn)文本到語音的高質(zhì)量轉(zhuǎn)換。基于TTS的語音合成技術(shù)采用端到端的語音合成模型，將獨白解說詞轉(zhuǎn)化為自然流暢的語音。即創(chuàng)作者將文本輸入至語音合成引擎，生成角色人物對話或獨白等音頻素材；同時，大多數(shù)AI音頻生產(chǎn)平臺均支持多語言及情感化語音輸出，在一定限度范圍內(nèi)創(chuàng)作者可通過調(diào)節(jié)參數(shù)（如語速、音調(diào)、情感強度）控制人聲的表現(xiàn)力，以實現(xiàn)高度擬人化的語音輸出。除語音智能生成外，智能音效、音樂正廣泛試驗于影視前沿生產(chǎn)中，基于對語音內(nèi)容的語義及情感標簽的分析，AI音效合成平臺從音效數(shù)據(jù)庫中自動匹配環(huán)境聲、動效、音樂等聲音素材。例如，當故事線涉及“雷雨夜”描述時，系統(tǒng)將優(yōu)先加載雨聲、雷鳴與低沉的環(huán)境音效，并通過動態(tài)混音算法自主調(diào)整動態(tài)平衡，與此同時相關(guān)AI音效合成平臺亦為人工干預(yù)保留了調(diào)節(jié)空間。

此外，伴隨TTS技術(shù)的持續(xù)迭代升級，近年來語音克隆技術(shù)在算法精度與應(yīng)用廣度層面實現(xiàn)突破性進展。該技術(shù)依托神經(jīng)網(wǎng)絡(luò)對目標語音樣本進行特征解構(gòu)與模式識別，通過多維度聲學(xué)建模實現(xiàn)說話人音色、韻律及停頓模式、情感表達等方面的精準復(fù)現(xiàn)。在當前的實際應(yīng)用中，語音克隆技術(shù)輔助人聲標準化生產(chǎn)，已呈現(xiàn)出較高的生產(chǎn)效率與不俗的表現(xiàn)能力。

3.3 數(shù)字制作域

該階段聚焦于將智能生產(chǎn)的多模態(tài)素材進行視聽資料整合與后期處理。影像數(shù)字制作方面，在結(jié)束智能生產(chǎn)域的各項工作流程后，針對影像素材的數(shù)字剪輯制作工作仍遵循了數(shù)字影視制作操作規(guī)范，即這一過程參照分鏡頭腳本、導(dǎo)演剪輯邏輯線索和敘事方式展開制作，從而更精準地表達主創(chuàng)意圖并盡可能多地傳達導(dǎo)演的設(shè)計意圖。聲音數(shù)字制作方面，為確保影視作品的藝術(shù)性，主創(chuàng)團隊沿襲傳統(tǒng)數(shù)字音頻后期制作工藝，通篇精細化的音響設(shè)計為動態(tài)畫面注入活力；同時，AIGC影視作品在符合故事情景的基礎(chǔ)上可采用文生音樂方式生成音樂素材，然而從當前創(chuàng)作實際來看，采用基于電子音樂制作工藝的原創(chuàng)音樂仍然是最能貼切、完整、準確地表達主創(chuàng)意圖的創(chuàng)作方式。

4短片《樹苗的蛻變》對數(shù)智聯(lián)創(chuàng)工作流的應(yīng)用

中國電影電視技術(shù)學(xué)會首屆中國創(chuàng)新影像大賽專業(yè)組AIGC賽道一等獎作品《樹苗的蛻變》[13]系北京廣播電視臺“節(jié)約”IP系列短片三部曲之一?！稑涿绲耐懽儭凡捎梦⒍虅∈絼∽鳂?gòu)思進行故事設(shè)計，短片以樹（紙張）的視角，講述了樹苗從生長到化身為紙，再到呼吁人類節(jié)約用紙、保護生態(tài)的故事，較為深刻地傳達了環(huán)保理念與生態(tài)責任的重要主題；同時，該短片通過樹苗的自述，巧妙地將樹木的生命歷程與人類文明的發(fā)展進程緊密聯(lián)系在一起，既體現(xiàn)了樹木自身在自然環(huán)境下的生生不息與生命頑強的景象，又深刻反思了人類活動對自然資源的過度索取及其可能帶來的生態(tài)危機問題。短片體現(xiàn)了強烈的社會責任感和人文關(guān)懷，較為深刻地闡述了人與自然和諧共生的深刻理念[14]。

4.1 《樹苗的蛻變》的數(shù)智聯(lián)創(chuàng)工作流

作為AIGC視聽制作技術(shù)在影視短片生產(chǎn)中的一次成功實踐，《樹苗的蛻變》在工作流設(shè)計上，采取了基于語音文本為藍本設(shè)計視聽分鏡頭腳本，即以獨白所述的故事線索與講述的節(jié)奏為參照，按分鏡頭腳本逐一開展AIGC分鏡頭畫面生產(chǎn)（表1），進而開展視聽內(nèi)容智能生產(chǎn)。具體而言，系以數(shù)智聯(lián)創(chuàng)工作流模式開展工作，針對視覺素材與人聲素材開展全流程AI視音頻內(nèi)容素材生成，而后對智能生成素材進行數(shù)字剪輯制作，有效形成了一套面向AIGC短片的多模態(tài)數(shù)智生產(chǎn)范式。

表1　《樹苗的蛻變》部分視聽分鏡頭腳本綱要

在創(chuàng)意策劃域，《樹苗的蛻變》以樹苗的蛻變歷程作為故事主線，揭示了樹木蛻變?yōu)榧埖谋澈笏冻龅纳鷳B(tài)代價，進而提出節(jié)約用紙、珍惜樹木的緊迫性，呼吁社會要對綠色發(fā)展、可持續(xù)發(fā)展問題加以重視。在講故事的方式上，短片以樹苗（紙張）為第一視角開展敘事，通過角色代入（擬人化）及平順的角色蛻變轉(zhuǎn)換等處理方式，有效拉近了短片與觀眾的心理距離。這種敘事手法不僅可搭建起角色與受眾的情感通道，更通過具象化的成長軌跡折射普世情懷，實現(xiàn)故事內(nèi)核與呈現(xiàn)形式上的雙重共鳴，從而達成更深層次的傳播效果。

對于影像素材智能生產(chǎn)（圖2），《樹苗的蛻變》綜合利用Midjourney、Runway、Luma、可靈AI等國內(nèi)外智能技術(shù)平臺完成畫面生產(chǎn)，依托文生圖、圖生視頻（結(jié)合提示詞）等AI技術(shù)制作路徑渲染、生成視頻素材，而后開展畫面數(shù)字剪輯。另外面對AI影像生產(chǎn)，創(chuàng)作者一是要做好工作流“規(guī)劃者”，二是要做好AI生產(chǎn)平臺“訓(xùn)練者”，三是要做好AI素材成果“把關(guān)人”，具體工作流分為以下三個環(huán)節(jié)：

圖2　《樹苗的蛻變》影像素材智能生產(chǎn)路徑細分圖

（1）基礎(chǔ)圖像生成環(huán)節(jié)。該短片主要基于Midjourney平臺，通過輸入提示詞生成動畫風(fēng)格關(guān)鍵幀，以快速構(gòu)建場景基礎(chǔ)視覺框架，從而確定構(gòu)圖、色彩和光影等關(guān)系。

（2）風(fēng)格化渲染環(huán)節(jié)。該短片基于粘土風(fēng)格LoRA模型工具開展進一步的二創(chuàng)圖像生成工作（圖3），為影像增加粘土材質(zhì)的顆粒感、強化手工制作的質(zhì)感、優(yōu)化光影層次表現(xiàn)。

圖3　《樹苗的蛻變》基于粘土風(fēng)格LoRA渲染生成二創(chuàng)圖像效果圖

在技術(shù)原理上，《樹苗的蛻變》選擇數(shù)智聯(lián)創(chuàng)工作流模式的核心優(yōu)勢在于工作流能確保智能生產(chǎn)素材以及作品創(chuàng)作全流程的穩(wěn)定性與可控性，較大程度保障導(dǎo)演意圖順利落地，減少人對創(chuàng)作的不可控程度。與此同時，智能生產(chǎn)在第一階段需先專注于對內(nèi)容（即生成一創(chuàng)素材）的構(gòu)建上，鼓勵創(chuàng)意的自由發(fā)揮與多樣性輸出，暫時不拘泥于風(fēng)格統(tǒng)一，以避免因早期風(fēng)格限定而干擾創(chuàng)意的發(fā)散與生成。待初步素材積累完成后，再通過基于風(fēng)格化 LoRA 模型的智能加工流程，在保留原始構(gòu)圖框架的基礎(chǔ)上，實現(xiàn)視覺模態(tài)風(fēng)格的高度統(tǒng)一。另外，確保圖像風(fēng)格一致性方面，建議固定隨機種子（Seed）值和采樣器類型，同時使用提示詞矩陣(Prompt Matrix)以保持多幀間的描述一致性，并進一步添加統(tǒng)一風(fēng)格化的LoRA以強化風(fēng)格的統(tǒng)一性。

（3）視頻生成環(huán)節(jié)。該短片涉及兩類圖生視頻智能生成方式：其一為基于Runway Gen?2平臺采取“直接序列生成”方式開展影像素材生產(chǎn)，采用直接序列生成視頻的主要優(yōu)勢是生成畫面的連貫性較高、畫面中的人物及其他物體的運動穩(wěn)定性較好；其二為基于Luma、可靈AI采取首尾幀補間動態(tài)影像生成方式開展影像素材生產(chǎn)（圖4），具體工作流大致細分為生成起始幀和結(jié)束幀、通過AI補間生成中間幀、對中間幀進行時序平滑處理三個步驟。而選擇首尾幀補間動態(tài)影像生成開展視頻生成的設(shè)計策略在于其適用于鏡頭運動簡單的場景，能夠?qū)崿F(xiàn)畫面自然轉(zhuǎn)場，實現(xiàn)類長鏡頭的空間運動變化。首尾幀工藝的選擇既是意在豐富影像表達手段，避免AI影像呈現(xiàn)過分單一的蒙太奇風(fēng)格，同時也在嘗試建立一種具有AI運動特征的影像表現(xiàn)風(fēng)格。

圖4　《樹苗的蛻變》首尾幀補間動態(tài)影像生成效果圖

關(guān)于AI聲音素材生產(chǎn)，《樹苗的蛻變》使用通用人聲語言模型（中文男童聲）開展語音智能生產(chǎn)，將AI技術(shù)運用于語言內(nèi)容的音色設(shè)計與故事敘事。作為AI音頻技術(shù)在視聽創(chuàng)作領(lǐng)域的常見應(yīng)用范式，TTS語音合成技術(shù)通過構(gòu)建多維參數(shù)調(diào)控體系，實現(xiàn)了對語音物理屬性（語速、音高、響度等參數(shù)）與情感語義特征（情感類別、強度等參數(shù)）較為準確的控制。創(chuàng)作者可基于內(nèi)容類型（新聞播報、專題解說、情感故事等）與受眾畫像（年齡結(jié)構(gòu)、文化背景、收聽場景等），動態(tài)調(diào)配音色的表現(xiàn)參數(shù)，高效生成兼具自然度與情感表現(xiàn)力的語音內(nèi)容。

關(guān)于影像和聲音數(shù)字制作，《樹苗的蛻變》在完成AI影像素材生產(chǎn)流程后，數(shù)字影像剪輯環(huán)節(jié)仍遵循傳統(tǒng)影視工業(yè)化制作方式，以分鏡頭腳本所示的邏輯架構(gòu)與敘事框架為制作基準，通過對各素材鏡頭進行組接并把控剪輯節(jié)奏，以精準反映作品的設(shè)計意圖。與此同時，短片的聲音后期制作部分則繼續(xù)沿用數(shù)字音頻聲音設(shè)計、剪輯、混錄工藝開展工作。

4.2 創(chuàng)作生產(chǎn)中存在的問題及改進方向

盡管AIGC技術(shù)在視聽內(nèi)容制作領(lǐng)域展現(xiàn)出巨大潛力，但在實際應(yīng)用中仍存在不盡如人意之處。在影像智能生產(chǎn)方面，當要反映快速運動中的鏡頭目標時，受限于當前智能讀取及反饋水平，AI影像生產(chǎn)難以詳盡捕捉并呈現(xiàn)出所有細節(jié)，特別是對動作幅度大、速度快的焦點對象，AI影像處理時出現(xiàn)畫面模糊、人物（或景物）運動狀態(tài)不自然等問題，導(dǎo)致AI影像在展現(xiàn)某些動作的動態(tài)美感和細膩技藝時顯得力不從心。此外，AI影像生產(chǎn)高度依賴于輸入數(shù)據(jù)（如圖像、文本等資料）的質(zhì)量及物料的多樣化水平，若訓(xùn)練數(shù)據(jù)不夠豐富或存在理解偏差，AI生成的影像內(nèi)容可能會出現(xiàn)不準確或誤導(dǎo)的情況。

聲音智能生產(chǎn)方面，TTS語音合成技術(shù)在情緒化處理方面仍有較大提升空間。其在模仿再現(xiàn)如快樂、悲傷、憤怒等常規(guī)情緒時效果尚可，在精細化模擬人類語言情感變化方面，尤其是對于懷舊、諷刺、幽默等相對細膩、復(fù)雜，甚至是難以捉摸的微妙情感上，表現(xiàn)力明顯不足，智能平臺處理結(jié)果亦顯得生硬。在音頻模型訓(xùn)練方面，迫切需要進行充分的數(shù)據(jù)訓(xùn)練以及定制化訓(xùn)練開發(fā)。

5 結(jié)語

將AI視為新質(zhì)生產(chǎn)力的一部分，意味著我們已認識到AI技術(shù)在推動社會進步和經(jīng)濟發(fā)展中的重要性[15]。AI為生活的方方面面帶來了令人興奮的創(chuàng)新，并在各行業(yè)創(chuàng)造了新的機遇；與此同時，其對真實、倫理和責任方面的影響也引發(fā)廣泛擔憂[16]。人們對藝術(shù)創(chuàng)作的認識往往體現(xiàn)為藝術(shù)家在不受拘束的環(huán)境下獨立完成的創(chuàng)作，AI時代下影視創(chuàng)作應(yīng)當如何繼續(xù)，便成了這一新發(fā)展階段亟需響應(yīng)的一道命題。亦有業(yè)界人士表示：“AI永遠是輔助手段，而非創(chuàng)作主體；同時，任何技術(shù)手段都不能完全替代人類的情感表達與創(chuàng)意深度”[17]。 AI大模型具有對任務(wù)的學(xué)習(xí)與泛化應(yīng)用的能力，每一次創(chuàng)作生產(chǎn)任務(wù)對大模型而言都是一次學(xué)習(xí)過程，但機器輸出的結(jié)果理想與否，最終依然需要人類進行把關(guān)。數(shù)智聯(lián)創(chuàng)工作流正是通過“創(chuàng)意策劃—智能生產(chǎn)—數(shù)字制作”三模塊工藝流程依序遞進，將人類創(chuàng)意與AI算力深度融合，在顯著提升內(nèi)容生產(chǎn)的效率并豐富藝術(shù)表現(xiàn)樣態(tài)的同時，探索規(guī)劃出了一條影視創(chuàng)作生產(chǎn)新路徑?！稑涿绲耐懽儭纷鳛锳IGC在影視內(nèi)容生產(chǎn)領(lǐng)域中的一次創(chuàng)新實踐，展現(xiàn)了立足“智作+制作”的創(chuàng)新影像風(fēng)貌。而數(shù)智聯(lián)創(chuàng)工作流中的各階段功能各有定位，智能工藝、數(shù)字工藝之間無謂孰優(yōu)孰劣，實則是發(fā)揮各自優(yōu)勢協(xié)同完成創(chuàng)作目標。未來，隨著多模態(tài)大模型生成及實時渲染、合成技術(shù)的進一步發(fā)展，智能生產(chǎn)制作流程或?qū)⑾蚋鼈€性化的方向不斷演進，亦將為影視創(chuàng)作創(chuàng)造更多可能性。

※ 本文系中國電影電視技術(shù)學(xué)會首屆中國創(chuàng)新影像大賽一等獎作品《樹苗的蛻變》支持技術(shù)論文。

參考文獻

（向下滑動閱讀）

[1] 新華社.政府工作報告[EB/OL].(2025?03?12)[2025?03?25].https://www.gov.cn/yaowen/liebiao/202503/content_7013163.htm.

[2] 國家電影局.國家電影局關(guān)于印發(fā)《“十四五”中國電影發(fā)展規(guī)劃》的通知[EB/OL].(2021?11?14)[2025?02?04].https://www.chinafilm.gov.cn/xwzx/ywxx/202111/t20211109_1182.html.

[3] 國家廣播電視總局規(guī)劃財務(wù)司.廣播電視和網(wǎng)絡(luò)視聽“十四五”發(fā)展規(guī)劃[EB/OL].(2021?10?08)[2025?03?01].http://www.nrta.gov.cn/art/2021/10/8/art_113_58120.html.

[4] 工業(yè)和信息化部, 教育部, 商務(wù)部,等.工業(yè)和信息化部教育部商務(wù)部文化和旅游部國家廣播電視總局國家知識產(chǎn)權(quán)局中央廣播電視總臺關(guān)于印發(fā)《關(guān)于加快推進視聽電子產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》的通知[EB/OL].(2023?12?15)[2025?02?15].https://www.gov.cn/zhengce/zhengceku/202312/content_6920643.htm.

[5] 北京市發(fā)展和改革委員會.北京市發(fā)展和改革委員會北京市經(jīng)濟和信息化局北京市科學(xué)技術(shù)委員會、中關(guān)村科技園區(qū)管理委員會關(guān)于印發(fā)《北京市推動“人工智能+”行動計劃（2024—2025年）》的通知[EB/OL].(2024?07?18)[2025?03?20].https://fgw.beijing.gov.cn/fgwzwgk/2024zcwj/bwqtwj/202407/t20240726_3760264.htm.

[6] 中央廣播電視總臺.中國首部！文生視頻AI系列動畫片《千秋詩頌》啟播中央廣播電視總臺人工智能工作室揭牌[EB/OL].(2024?02?23)[2025?03?15].https://www.cctv.com/2024/02/23/ARTIHzqlXG7XksnNDUeBvgg6240223.shtml.

[7] 北京廣播電視臺.北京廣播電視臺人工智能融媒創(chuàng)新實驗室揭牌[EB/OL].(2024?03?17)[2025?03?15].https://www.brtv.org.cn/2024-03/18/cms1449346article.shtml.

[8] 上海廣播電視臺.SMG擁抱AIGC！率先掛牌作戰(zhàn)，確立六大攻堅方向[EB/OL].(2024?02?25)[2025?03?15].https://www.smg.cn/review/202402/0165336.html.

[9] 李紅臣,史美林.工作流模型及其形式化描述[J].計算機學(xué)報,2003(11):1456.

[10] GU R, LI H, SU C, et al. Innovative Digital Storytelling with AIGC: Exploration and Discussion of Recent Advances[EB/OL].(2023?09?28)[2025?02?17].https://arxiv.org/pdf/2309.14329.

[11] 國家電影局.《關(guān)于促進虛擬現(xiàn)實電影有序發(fā)展的通知》政策問答[EB/OL].(2025?03?21)[2025?03?31]. https://www.chinafilm.gov.cn/xxgk/gztz/202503/t20250321_888185.html.

[12] 曾志剛,羅夢舟,劉星,等. 繼承與變革：探索AI技術(shù)賦能影視制作新路徑[J].現(xiàn)代電影技術(shù),2025(03).

[13] 中國電影電視技術(shù)學(xué)會秘書處.首屆“中國創(chuàng)新影像大賽”獲獎結(jié)果發(fā)布，獲獎作品題材豐富樣態(tài)多元[EB/OL].(2024?12?12)[2025?01?15].https://www.csmpte.com/2024/12/12/ARTIFVYt6BBn58cgXDzf8wPg241212.shtml.

[14] 葉思成,袁邈桐,金恬田.生成式人工智能技術(shù)與廣電融合創(chuàng)新發(fā)展實踐——北京廣播電視臺AIGC系列公益廣告創(chuàng)作談[J].現(xiàn)代電視技術(shù),2025(01):100.

[15] 陳寶權(quán),李道新,孫立軍,等.基于人工智能技術(shù)的未來影像研究與思考[J].現(xiàn)代電影技術(shù),2024(12):11.

[16] TSALAKANIDOU F, PAPADOPOULOS S, MEZARIS V, et al. The AI4Media Project: Use of Next?Generation Artificial Intelligence Technologies for Media Sector Applications[C]//IFIP International Conference on Artificial Intelligence Applications and Innovations, 2021.

[17] 搜狐網(wǎng).尹力剖析AIGC對影視行業(yè)的影響：人工智能助力創(chuàng)作但不可替代[EB/OL].(2024?11?14)[2025?02?26].https://www.sohu.com/a/827025980_121924584.

【項目信息】2021年中國傳媒大學(xué)亞洲傳媒研究中心科研項目“后媒體時代聽覺空間的文化建構(gòu)研究：基于亞洲的視角”（AMRC2021-7）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.