国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《現(xiàn)代電影技術(shù)》|吳方強等:人工智能生成內(nèi)容(AIGC)驅(qū)動的電影虛擬角色面部特效研究

0
分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第11期

專家點評

在電影行業(yè)虛擬角色特效制作領(lǐng)域,表情制作的“逼真”與高效,一直是創(chuàng)作人員創(chuàng)新和專業(yè)技術(shù)領(lǐng)域突破的制高點之一。人工智能生成內(nèi)容(AIGC)的顛覆式發(fā)展,給虛擬角色,尤其是非人虛擬角色的表情制作帶來了新的探索思路。當下主要有兩個技術(shù)路線:一是充分利用AI大模型的高效生成能力,同時加強對影像關(guān)鍵幀的描述性約束控制;二是在輸入?yún)⒖嫉膱D片和影像中,增強對虛擬角色表情和動作的遷移控制??傮w上,隨著AIGC技術(shù)的發(fā)展進步,其驅(qū)動虛擬角色表情制作的水平,在實驗中已基本能夠滿足影視作品虛擬預演快速制作的技術(shù)要求,多用于電影特效鏡頭的輔助參考,但未來直接生成電影高質(zhì)量內(nèi)容的階段應該很快就會到來,值得行業(yè)人員積極研究。《人工智能生成內(nèi)容(AIGC)驅(qū)動的電影虛擬角色面部特效研究》一文,對當下特效領(lǐng)域應用AIGC驅(qū)動虛擬角色面部特效的方法進行了整體分析,對當下主流國產(chǎn)AI大模型在影視級虛擬角色表情特效制作中的實驗效果進行了對比分析和整體判斷,提出了符合行業(yè)實際的制作思路和優(yōu)化流程,指出了高分辨率和多角色表演的未來持續(xù)研究方向。

——劉軍

研究員

中國電影博物館副館長

中國電影電視技術(shù)學會先進影像專委會副主任

作 者 簡 介

吳方強

北京電影學院攝影系實驗師,主要研究方向:數(shù)字電影色彩、數(shù)字電影CGI技術(shù)。

北京電影學院攝影系講師,主要研究方向:數(shù)字電影攝影技術(shù)、虛擬攝制。

徐沁雪

周 冰

北京電影學院表演學院副教授,主要研究方向:戲劇、電影表演藝術(shù)研究。

摘要

為研究AIGC技術(shù)對特效領(lǐng)域中虛擬非人角色表情制作帶來的變革,本文結(jié)合當下主流國產(chǎn)AI大模型,對影視級虛擬角色表情特效制作開展實驗,并提出制作思路和優(yōu)化的制作流程。實驗結(jié)果基本滿足影視作品虛擬預演(PreViz)快速制作的技術(shù)要求,可用于電影特效鏡頭的輔助制作。本文最后總結(jié)了該實驗方法的可拓展性及迭代方向。

關(guān)鍵詞

AIGC;動作捕捉;文生視頻;表情特效;國產(chǎn)大模型

1引言

隨著計算機視覺(CV)技術(shù)的快速發(fā)展,特效制作成為影視作品的重要組成部分,模擬、仿真重現(xiàn)、再創(chuàng)造一直是該領(lǐng)域的研究重點。多年來,電影虛擬角色特效領(lǐng)域已具備完整的生產(chǎn)制作流程,從身體動作到面部表情均有不同路徑的解決方案,這些方案基本圍繞三維動畫工具搭建,從三維模型到骨骼綁定,都與三維仿真技術(shù)高度關(guān)聯(lián)。隨著技術(shù)的發(fā)展,虛擬角色模型已有多種成熟解決方案,而虛擬角色表情一直是制作難度較高的環(huán)節(jié)。人工智能生成內(nèi)容(Artificial Intelligence Generated Content, AIGC)技術(shù)的出現(xiàn)讓筆者重新思考這一領(lǐng)域的制作,是否可用AIGC技術(shù)實現(xiàn)這一對傳統(tǒng)三維制作富有挑戰(zhàn)的環(huán)節(jié)。當下AIGC商用產(chǎn)品中有諸多使用視頻驅(qū)動圖片中角色面部動作的解決方案,主要用于真人角色面部動作制作,對其他非人類角色的支持并不友好。本文提出一種基于AIGC的解決方案,無需三維仿真工具介入,也能較好地處理虛擬角色表情特效,且可大幅降低制作成本。

虛擬角色在生產(chǎn)生活中應用廣泛,本文討論的虛擬角色主要指電影行業(yè)終端銀幕影像中的虛擬角色。

2虛擬角色面部特效制作技術(shù)

虛擬角色面部特效制作技術(shù)復雜,主要使用基于計算機圖形學(Computer Graphics, CG)的三維應用來生產(chǎn),其關(guān)鍵技術(shù)主要有面部建模、材質(zhì)貼圖、骨骼蒙皮、動畫模擬、渲染生成等[1],制作工藝復雜,修改鏈條長,制作周期長。本文主要基于虛擬角色制作中的面部表情特效制作進行重點論述,這是虛擬角色特效制作的創(chuàng)作重點和技術(shù)難點,其制作技術(shù)主要有手動制作關(guān)鍵幀驅(qū)動的表情特效技術(shù)、基于面部動作捕捉的表情特效技術(shù)等。

2.1 手動制作關(guān)鍵幀驅(qū)動的表情特效技術(shù)

手動制作關(guān)鍵幀驅(qū)動的表情特效技術(shù)需要首先基于面部三維模型進行蒙皮骨骼綁定,得到面部特征控制的基本驅(qū)動點后,再通過動畫藝術(shù)家手動為這些驅(qū)動點制作不同的表情動作關(guān)鍵幀以生成表情特效。該技術(shù)目前仍被大量用于表情特效制作,其優(yōu)勢在于可控性強,動態(tài)效果可夸張,亦可寫實,但在工業(yè)化生產(chǎn)中對團隊能力的依賴度高,角色創(chuàng)作上主要依靠動畫藝術(shù)家的個人能力;技術(shù)操作上,對蒙皮綁定技術(shù)要求高,創(chuàng)作時效性主要依賴創(chuàng)作者的能力,在團隊協(xié)作時,不同創(chuàng)作者間的能力差異往往導致時效管理難以標準化。

2.2 基于面部動作捕捉的表情特效技術(shù)

2001年,電影《指環(huán)王:護戒使者》(The Lord of the Rings: The Fellowship of the Ring)中角色“咕嚕姆”的面部表情特效制作使用了面部動作捕捉(Facial Motion Capture)技術(shù)。面部動作捕捉又被稱為面部表情捕捉(Facial Expression Capture),是動作捕捉技術(shù)的一部分[2],主要使用人臉表演來驅(qū)動三維虛擬角色的表情生成,首先通過攝影機拍攝動作捕捉演員的面部表演獲取視頻圖像素材,之后對素材進行分析得出演員面部特征點的空間運動數(shù)據(jù),最后將這些數(shù)據(jù)和三維模型中的控制點相關(guān)聯(lián)驅(qū)動三維模型呈現(xiàn)相應表情,《阿凡達》(Avatar)、《猩球崛起》(Rise of the Planet of the Apes)等影片中大量使用了該技術(shù)。其中,捕捉面部表情時,可通過有跟蹤標記點和無跟蹤標記點兩種方式。

2.2.1 有跟蹤標記點的面部動作捕捉

在面部動作捕捉技術(shù)的初期,主要使用有跟蹤標記點的面部動作捕捉。該技術(shù)需要先在動作捕捉演員臉上按要求標記跟蹤點并進行拍攝,得到帶有跟蹤標記點的視頻素材;通過后期算法對跟蹤標記點進行計算處理得到每個點的運動軌跡,之后在三維軟件中將運動軌跡數(shù)據(jù)轉(zhuǎn)換為控制面部動作的相關(guān)骨骼綁定數(shù)據(jù),最終實現(xiàn)虛擬角色的表情動作。該技術(shù)的運用極大提高了生產(chǎn)效率,提升了表情特效的寫實度、精準度。

該技術(shù)作為成熟的表情特效解決方案當前仍被廣泛使用。其主要難點在于根據(jù)不同的后期算法,需在動作捕捉演員臉上按照不同方式標記跟蹤點,跟蹤點標記不完整或因演員表演導致的跟蹤點模糊均會提高后期處理難度;動作捕捉演員口腔內(nèi)部無法設置跟蹤點,舌頭的動態(tài)只能通過后期處理。

2.2.2 無跟蹤標記點的面部動作捕捉

隨著計算機視覺技術(shù)的發(fā)展,無跟蹤標記點的面部動作捕捉得以實現(xiàn),省去了為演員臉部提前進行標記的繁復工作,演員的表演體驗也更加友好。其可分為兩種:一是從拍攝的面部視頻中提取相應的特征點(如嘴角、眼角、鼻翼、眉毛等)以生成關(guān)鍵部位的動作數(shù)據(jù);二是使用深度攝影機拍攝帶有深度信息的人臉數(shù)據(jù),從中提取關(guān)鍵特征點的位置屬性傳遞給三維軟件[3]。無跟蹤標記點的面部動作捕捉方式在實際拍攝中方便部署,生產(chǎn)流程環(huán)節(jié)相對較少,成本較低。其主要難點在于使用非深度相機在實際拍攝過程中,演員面部的光線可能會有各種變化,精度會出現(xiàn)一定程度的損失;無跟蹤標記點也意味著面部畫面信息數(shù)據(jù)和三維模型的匹配過程有較大容錯空間,使表情的精確度和還原度有所降低。

2.3 傳統(tǒng)技術(shù)的限制

使用有跟蹤標記點的面部動作捕捉技術(shù)制作虛擬角色面部表情特效的方法在電影工業(yè)中的使用已十分成熟,從《指環(huán)王:護戒使者》的“咕嚕姆”到《猩球崛起》中的一眾猩猩,虛擬角色的表情越來越生動逼真。但這種工藝的制作流程環(huán)節(jié)復雜,人力資源需求高,只有具備豐富經(jīng)驗的特效團隊才能較好完成虛擬角色的表情特效制作,使這類特效制作在影片制作中的成本升高,在一定程度上限制了技術(shù)本身的發(fā)展迭代。

隨著顯卡計算能力的不斷提高,以虛幻引擎(Unreal Engine, UE)為代表的高寫實度實時渲染引擎在電影生產(chǎn)中被廣泛應用,而其基于蘋果手機深度攝像頭的面部動作捕捉也成為一種低成本、高響應度的解決方案。UE虛擬人(MetaHuman)中的虛擬角色及其表情驅(qū)動的解決方案將游戲行業(yè)的生產(chǎn)方式引入影視行業(yè),使更廣泛領(lǐng)域的創(chuàng)作者能參與到特效制作領(lǐng)域中,使技術(shù)的迭代速度更快,技術(shù)門檻更低。

以上提到的制作方法在后期處理中均需通過三維軟件進行最終模擬渲染,而三維仿真技術(shù)本身制作流程較為復雜,制作成本較高,周期較長。

2.4 AIGC技術(shù)變革下的表情特效探索

當前AIGC技術(shù)發(fā)展迅速,諸多文本生成視頻(Text?to?Video, T2V)模型相繼推出,在電影美術(shù)設計、游戲設計等諸多領(lǐng)域得到廣泛深入的應用。為研究AIGC技術(shù)革新下,虛擬角色的表情特效制作是否有可靠的制作方案,筆者對當前幾款國產(chǎn)AI生成影像工具進行了測試研究,并總結(jié)提煉出一種基于Stable Diffusion[4]制作虛擬角色表情特效的方法。

3基于AIGC制作虛擬角色表情特效的方法

2024年2月,OpenAI 發(fā)布了名為 Sora的人工智能T2V模型[5],雖然該模型至2024年8月還未發(fā)布用戶版,但此后多家公司發(fā)布了自己的文生視頻模型,如Runway Gen?3、Pika、Stable Video Diffusion、快手可靈、字節(jié)即夢、Luma AI等。這些模型使視頻生產(chǎn)有了更多途徑,除了T2V外,以上大部分產(chǎn)品也支持圖片生成視頻(Image?to?Video, I2V)的方式。相較而言,I2V比T2V可控性更高,筆者通過測試發(fā)現(xiàn),需多次生成才能得到符合創(chuàng)作需求的表情表演結(jié)果,成功率低。

在影視工業(yè)化生產(chǎn)中,真人角色的表演主要使用攝影機拍攝,而虛擬角色需通過計算機制作,其中,表情特效的制作是本次研究的重點。為探索結(jié)合不同AIGC工具下虛擬角色表情特效生成的效果差異,本文在以下測試中建立了一個大猩猩的動物角色進行測試比較,通過Stable Diffusion生成了角色閉嘴狀態(tài)和張嘴狀態(tài)的兩張圖片,同時還拍攝了一段真人模擬大猩猩的表演素材用于驅(qū)動視頻輸入源(以下簡稱“輸入源”)。

3.1 基于I2V的虛擬角色表情特效

在實際使用場景中,虛擬角色的造型通常是給定的,因此文字直接生成視頻的可靠性較低,為保證角色一致性,需采用I2V的方法。

3.1.1 使用可靈AI生成虛擬角色表情

可靈AI(KLING AI)是快手推出的AI創(chuàng)意生產(chǎn)力平臺,基于快手自研大模型可靈,提供高質(zhì)量視頻及圖像生成[6]。我們選擇了可靈AI的I2V模型,分別使用“高性能”和“高表現(xiàn)”兩種模式進行測試。為避免模型中對猩猩張嘴表情理解的偏差,我們分別使用了閉嘴和張嘴的圖像作為輸入圖像進行測試;為使虛擬角色的表情符合我們實際拍攝的真人表演,生成視頻使用的描述語為“圖中的大猩猩怒吼,轉(zhuǎn)頭,憤怒,固定鏡頭,電影質(zhì)感,8K,寫實”,通過多次生成,筆者選擇其中最接近測試目的的結(jié)果進行比較。

在“高性能”模式下,生成5秒分辨率為720 × 720、幀速率為30 FPS的視頻,兩張圖片的生成結(jié)果均只對鏡頭運動做了簡單調(diào)整,角色基本無表演,不符合測試目的預期。在“高表現(xiàn)”模式下,生成同樣的視頻,視頻內(nèi)容更匹配描述語內(nèi)容,除轉(zhuǎn)頭幅度較大的生成結(jié)果,角色造型基本和輸入圖片一致,表演節(jié)奏普遍較慢。這種方式需在多次生成的結(jié)果中選擇符合預期的結(jié)果,與真人表演相比存在極大的不可控和表演節(jié)奏的差距。

3.1.2 使用智譜AI生成虛擬角色表情

清影是智譜AI推出的視頻AI生成工具,清影依托智譜大模型團隊自研打造的視頻生成大模型CogVideo,支持文生視頻、圖生視頻。該模型使用Transformer架構(gòu),并摒棄了傳統(tǒng)的Cross Attention模塊,創(chuàng)新性地設計了Expert Block以實現(xiàn)文本與視頻兩種不同模態(tài)空間的對齊,并通過Full Attention機制優(yōu)化模態(tài)間的交互效果[7]。

筆者使用清影的圖生視頻功能進行測試,使用與3.1.1相同的描述語,通過多次生成,選擇其中較優(yōu)結(jié)果進行比較。

該模型當前支持視頻生成時長為6秒鐘、分辨率為1440 × 960、幀速率為16 FPS,多次生成中最符合描述語的動作在實際表現(xiàn)中與我們預想目標有一定差距,表演較為簡單,對描述語做出了簡單的呈現(xiàn),生動性較低,五官基本保持不變。在我們設定的需求下,清影和可靈AI存在相同的使用短板,可控性較差。

3.2 基于視頻驅(qū)動的AI生成虛擬角色表情特效

基于視頻驅(qū)動的AI生成視頻方法,我們選擇最新開源的MimicMotion和LivePortrait模型進行測試研究。

3.2.1 基于MimicMotion的制作方法

MimicMotion是騰訊公司推出的一款人工智能人像動態(tài)視頻生成框架。該框架利用先進的技術(shù),根據(jù)用戶提供的單張參考圖像和一系列要模仿的姿勢,生成高質(zhì)量、姿勢引導的人類動作視頻。MimicMotion的核心在于其置信度感知的姿態(tài)引導技術(shù),確保視頻幀的高質(zhì)量和時間上的平滑過渡[8]。其在基于擴散模型的多種方法中生成的面部動作與輸入動作的相關(guān)性和合理性上均有更好的表現(xiàn)[9]。

本文使用MimicMotion官網(wǎng)推薦的工作流程在本地進行了環(huán)境部署及測試,由于輸入的圖片參考對結(jié)果有相應影響,我們分別使用了閉嘴和張嘴的猩猩圖片作為參考圖片進行測試。

MimicMotion生成視頻時長與輸入源相同,分辨率與輸入圖片同為1024 × 1024,幀速率與輸入源同為25 FPS。通過測試,筆者發(fā)現(xiàn)該模型生成內(nèi)容的大軀干運動表現(xiàn)尚可,頭部結(jié)構(gòu)和運動表現(xiàn)相對準確,但面部表情與輸入視頻相差較大,出現(xiàn)了不同程度的面部扭曲和錯誤。該結(jié)果符合模型論文研究結(jié)果,此模型主要用于人類動作的生成,對于非人類的猩猩角色理解有一定偏差,當前不適用于非人類造型虛擬角色的表情特效制作。

3.2.2 基于LivePortrait的制作方法

2024年7月4日,快手開源了圖生視頻模型LivePortrait,旨在將不同風格靜態(tài)圖像中的人像轉(zhuǎn)化為動態(tài)肖像視頻。LivePortrait 使用6900萬高質(zhì)量幀作為訓練數(shù)據(jù),并采用混合圖像視頻訓練策略,使LivePortrait具備更強的泛化性,能夠適應更多不同類型的輸入數(shù)據(jù)。此外,LivePortrait利用緊湊的隱式關(guān)鍵點代表混合形狀,并設計縫合和重定向模塊,這些模塊使用計算開銷極小的小型多層感知器(Multilayer Perceptron, MLP),從而增強了對生成動畫的控制能力[10]。2024年8月2日,該模型團隊更新了支持動物面部的新版本。

本文使用該項目網(wǎng)站推薦的工作流程在本地進行了環(huán)境部署及測試,與3.2.1的測試方法相同,我們分別使用了閉嘴和張嘴的猩猩圖片作為輸入?yún)⒖紙D片進行測試。

該模型下生成視頻時長與輸入源相同,分辨率也與輸入圖片相同(1024 × 1024),幀速率與輸入源相同(25 FPS)。測試發(fā)現(xiàn),該模型專注于角色頸部以上運動的生成,軀干無動作表現(xiàn),表情基本模擬輸入視頻中的表情,但對于猩猩角色的生動性表現(xiàn)一般,夸張表情的表現(xiàn)較為保守,并且出現(xiàn)不同程度的五官特征扭曲。另外生成視頻的動作連續(xù)性不佳,存在一定程度的抖動;對頭部結(jié)構(gòu)的表現(xiàn)不佳,主要體現(xiàn)在五官的動態(tài)表現(xiàn)缺少細節(jié)。該模型可用于類人化程度更高的虛擬角色表情特效制作,同時,由于該模型只專注于頭部及表情動畫,如有肢體動作表現(xiàn)需求需配合其他方法實現(xiàn)。3.1中所述的I2V測試方法結(jié)果如圖1所示。

圖1 I2V方法測試結(jié)果

4基于擴散模型的虛擬角色表情特效制作方法探索

經(jīng)過以上測試發(fā)現(xiàn),當下可用的AI工具在虛擬角色的表情特效制作上均展現(xiàn)出一定的可能性,但因其制作過程需多次生成,結(jié)果的確定性較低,不符合影視工業(yè)標準化制作需求,當前主要用于短視頻制作。經(jīng)過多次測試,本文試圖提出一種可控性更高的制作方法,結(jié)合傳統(tǒng)制作流程與AIGC技術(shù),優(yōu)化以上測試中遇到的問題,實現(xiàn)影視級的虛擬角色表情制作。相較于傳統(tǒng)的制作流程,該方法成本更低、更高效,制作流程如圖2所示。

圖2 本文提出的制作流程

4.1 表演素材(輸入源)拍攝

表演設計上需盡可能擬合最終的虛擬角色表情特征,本文測試使用了具備豐富表演經(jīng)驗的表演者進行素材拍攝。高可靠性的表演利于在影視行業(yè)應用中進行高效選擇決策,為最終的虛擬角色表情提供相對可靠精準的制作參考。測試發(fā)現(xiàn),表演過程中演員五官清晰度對AI生成十分重要,可適當化妝以保證拍攝到更為清晰的五官變化。為提供更為精準的每幀五官特征信息,減少運動模糊,素材宜采用50 FPS的拍攝幀速率以及更大的鏡頭光孔。為匹配Stable Diffusion XL(SDXL)的最優(yōu)分辨率,我們對拍攝素材進行了裁切,最終使用1024 × 1024分辨率的素材。

4.2 基于擴散模型的流程搭建

如圖2所示,為得到更高質(zhì)量影像,本實驗使用SDXL基礎(chǔ)大模型進行圖像生成。為使流程搭建方便調(diào)整,本實驗在本地部署的ComfyUI[11]中搭建了整個工作流。ComfyUI節(jié)點式的使用方法清晰明了,可自定義節(jié)點為個性化使用需求提供便利,且方便多版本的修改和比較;同時,節(jié)點式操作方式與影視行業(yè)中其他后期特效軟件的操作方式有一定相似性,比無界面的使用方法更易于在影視行業(yè)推廣。

4.2.1 生成圖像的潛空間控制

使用擴散模型生成圖像時,一次生成過程會生成一幅圖像,需使用圖像約束控制生成大猩猩的姿態(tài)與輸入姿態(tài)保持一致。我們使用了ControlNet對潛空間的圖像樣式進行約束控制,ControlNet可實現(xiàn)多種類型控制[12],大部分控制類型可實現(xiàn)生成圖像的輪廓控制,而我們的制作需求中虛擬角色和輸入源的輪廓完全不一致,輪廓控制只會導致最終生成的角色造型不符合要求。因此,我們需提取輸入源視頻的表情及運動姿態(tài),可使用的方法主要有DensePose[13]、OpenPose[14]及DWPose[15];通過測試比較,DensePose主要專注于人物大的形體動態(tài),繼續(xù)保持了源視頻的造型;OpenPose因輸入源中胳膊有所裁切,生成的圖像會出現(xiàn)肢體數(shù)據(jù)不完整的情況,在非正面表情中,五官的位置也會出現(xiàn)不同程度的錯位;DWPose在各種姿態(tài)和表情下表現(xiàn)相對更穩(wěn)定(圖3)。

圖3 姿態(tài)提取方式比較(從上至下逐行依次為源和DensePose、OpenPose、DWPose的處理結(jié)果)

我們選擇了DWPose進行約束控制,在使用ControlNet前對源視頻進行了預處理,得到源視頻中角色的五官及骨骼,使最終生成的角色造型輪廓不受影響,又較好地遷移了輸入源的姿態(tài)。

4.2.2 生成圖像的連續(xù)性控制

使用姿態(tài)控制生成的圖像雖在姿態(tài)和表情上每一幀與輸入源視頻較為一致,但將其合并為視頻影像后存在嚴重的抖動和閃爍。傳統(tǒng)影視后期特效工具可去除抖動和閃爍,但此圖像序列連續(xù)幀的像素信息差異大,使用傳統(tǒng)影視后期工具無法去除,使用AI工具改進流程可直接生成連續(xù)性更好的圖片序列。

4.2.2.1 使用AnimateDiff控制圖像連續(xù)性

由上海人工智能實驗室、香港中文大學和斯坦福大學的學者們共同完成的AnimateDiff是一種將文生圖模型轉(zhuǎn)換為動畫生成器的實用框架,其具有視覺質(zhì)量保持、運動多樣性、輕量級微調(diào)等優(yōu)點,為視頻生成提供了新的可能性。運動模塊是該框架的核心模塊,采用Temporal Transformer架構(gòu),在時間維度上進行信息交換,捕捉動畫中視覺內(nèi)容的變化,生成運動動態(tài)[16]。使用AnimateDiff保證生成圖像運動的連續(xù)性,解決了直接使用ControlNet生成畫面內(nèi)容的抖動和閃爍。

圖像序列中虛擬角色運動的連續(xù)性提高會導致內(nèi)容變化的減少,無法實現(xiàn)輸入源姿態(tài)有表現(xiàn)力的遷移,如我們考慮角色特點,希望猩猩張嘴時嘴張得比較大,但輸入源中表演者因骨骼的局限無法實現(xiàn)類似猩猩的張嘴幅度。

4.2.2.2 基于關(guān)鍵幀的描述語

雖使用ControlNet進行了相應約束,該流程的核心仍是基于T2I的圖像生成,因此描述語作為生成圖像的第一引導要素十分重要。在一個連續(xù)的表情生成過程中如果只使用同樣的描述語,勢必造成表情的僵化,引入基于關(guān)鍵幀的描述語則很好地解決了該問題,對輸入源的表情動作進行語義的關(guān)鍵幀拆分,再將其按輸出的幀編號進行描述語的表情部分修改。如“1,金剛大猩猩,眨眼,平靜;6,金剛大猩猩,張大嘴,憤怒……”,實現(xiàn)了輸出結(jié)果與輸入源視頻表情的完整遷移。

4.2.3 制作結(jié)果

基于上述流程,我們進行了5秒的表演視頻輸入測試(基于T2I的生成模式,理論上生成時長可不受限),輸入視頻幀速率25 FPS(對原視頻的50 FPS進行了抽幀處理)、分辨率1024 × 1024;最終輸出視頻時長、分辨率、幀速率與輸入?yún)⒖荚匆曨l一致。

從測試結(jié)果(圖4)可知,輸出的虛擬大猩猩表情符合輸入源視頻的表演特征,軀干姿態(tài)和表情動作都有較好的呈現(xiàn),角色的一致性和動態(tài)的連續(xù)性能夠較好地保持,并展示出較為生動的光影效果。

圖4 基于本文工作流程的生成結(jié)果

4.3 優(yōu)化和擴展

SDXL模型的最優(yōu)分辨率為1024 × 1024[17],在更高分辨率需求下直接生成的結(jié)果并不理想,可引入提升分辨率的方法進行二次生成。動態(tài)遷移中的表情變化因描述語和AnimateDiff平滑所需幀數(shù)因素會導致某些表演細節(jié)的損失,可使用更高幀速率的輸入源視頻和細分更小幀間隔的描述語來生成更長的視頻,之后再對其進行降幀速率平滑處理?;诖斯ぷ髁鞒?,若我們在關(guān)鍵幀的描述語上加入角色變化,可制作某些需求下的變身特效(圖5)。

圖5 不同方法生成結(jié)果的對比

4.4 總結(jié)

基于本文提出的研究方向,我們選取當下熱度較高的國產(chǎn)AI生成工具和兩種針對表情遷移設計的國產(chǎn)開源大模型,分別基于I2V進行了生成測試,同時開發(fā)了一套基于 T2I 擴散模型的工作流程,對比結(jié)果如圖5所示。

I2V的集成化產(chǎn)品可靈AI、清影均能生成流暢的表情,依賴多次生成中選擇最接近目標視頻的生成方式難以保證制作的時效性,可適用于對表演沒有精確要求的使用場景,在表演要求精確的視頻生產(chǎn)中可用性較低?;趪a(chǎn)開源MimicMotion和LivePortrait工具的工作流程開發(fā)較為容易,MimicMotion更適于肢體動作遷移,非人型虛擬角色表情與輸入視頻相差較大,出現(xiàn)了不同程度的面部扭曲和五官錯誤,生成視頻平滑度較高,可用于類人型虛擬角色肢體動作遷移的場景;LivePortrait專注于表情遷移,非人型虛擬角色表情生動性較差,只簡單模仿輸入源的五官位置變化,無法實現(xiàn)肢體動作的遷移,較難滿足角色肢體和表情同時變化的需求。

本文提出的制作流程部署較為簡單,借鑒動作捕捉的技術(shù)路線,可實現(xiàn)虛擬角色的面部表情遷移,并保持在新角色中表情的生動性。在對表演有精確要求的視頻制作中展現(xiàn)出較高可靠性,可用于影片虛擬預演及影視畫面內(nèi)容制作,在虛擬角色表情制作中可作為輔助方法。

5結(jié)語

本文通過對當下AI工具在虛擬角色表情制作中的深入研究,比較分析當下AI工具在這一細分領(lǐng)域的可用性,最終設計的工作流程實現(xiàn)了虛擬角色表情特征在骨骼形態(tài)差異較大的角色中的遷移,實現(xiàn)了基于輸入源視頻制作虛擬角色表情的可控輸出及變換角色的特效。相信隨著AI技術(shù)的快速發(fā)展,影視行業(yè)高可用AI技術(shù)和工藝流程會加速迭代,提高影視作品綜合生產(chǎn)力。通過AI制作影視級的表情特效具有一定的可行性,在特定使用場景下完全可滿足實際生產(chǎn)需求。國產(chǎn)視頻生成模型發(fā)展迅速,為影視行業(yè)提供了諸多創(chuàng)作工具。影視行業(yè)的內(nèi)容生產(chǎn)方式也將相應發(fā)生改變,擁抱新技術(shù)、用好新技術(shù)對于創(chuàng)作者十分重要。在本文實驗過程中,筆者在傳統(tǒng)工藝流程及AI技術(shù)領(lǐng)域進行諸多富有成效的探索,提出了制作虛擬角色表情特效可行的方法,也為我們指明了方向,高分辨率及多角色同時表演將是未來持續(xù)研究的重點。

參考文獻

(向下滑動閱讀)

[1] 徐成華,王蘊紅,譚鐵牛. 三維人臉建模與應用[J]. 中國圖象圖形學報(A輯),2004,9(8):893?903. DOI:10.3969/j.issn.1006-8961.2004.08.001.

[2] Rahul M. Review on Capture Technology[J]. Global Journal of Computer Science and Technology: F Graphics & Vision,2018, 18(1):22?26.

[3] 賈云鵬,周峻. 作為技術(shù)史的藝術(shù)史——從《阿凡達》看電影技術(shù)的變革[J]. 北京電影學院學報,2010(3):21?28. DOI:10.3969/j.issn.1002-6142.2010.03.005.

[4] Rombach R, Blattmann A, Lorenz D, et al. High?Resolution Image Synthesis With Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Com? puter Vision and Pattern Recognition,2022:10684?10695.

[5] OpenAI. Sora[EB/OL]. [2024?07?19]. https://openai.com/sora.

[6] KLING AI: Next?Generation AI Creative Studio[EB/OL]. [2024?07?19]. https://klingai.com.

[7] 智譜AI技術(shù)文檔[EB/OL]. [2024?08?15].https://zhipu-ai.feishu.cn/wiki/MFxywuqcbiKmOrkXwJzcEuqwnJd.

[8] windows 一鍵整合包 MimicMotion騰訊的AI人類高質(zhì)量人像動態(tài)視頻生成框架[EB/OL]. [2024?07?25]. https://cloud.tencent.com/developer/article/2433731.

[9] Zhang Y, Gu J, Wang L W, et al. Mimicmotion: High?quality human motion video generation with confidence?aware pose guidance[EB/OL].[2024?10?31]. https://arxiv.org/abs/2406.19680.

[10] Guo J, Zhang D, Liu X, et al. LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control[EB/OL].[2024?10?31]. https://arxiv.org/abs/2407.03168.

[11] ComfyUI [EB/OL]. [2024?07?19]. https://github.com/comfyanonymous/ComfyUI.

[12] Zhang L, Rao A, Agrawala M. Adding conditional control to text?to?image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 3836?3847.

[13] Güler R A, Neverova N, Kokkinos I. Dense human pose estimation in the wild[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018:7297?7306.

[14] Cao Z, Simon T, Wei S E, et al. Realtime multi?person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 7291?7299.

[15] Yang Z, Zeng A, Yuan C, et al. Effective whole?body pose estimation with two?stages distillation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 4210?4220.

[16] Guo Y, Yang C, Rao A, et al. Animatediff: Animate your personalized text?to?image diffusion models without specific tuning[EB/OL].[2024?10?31]. https://arxiv.org/abs/2307.04725.

[17] Podell D, English Z, Lacey K, et al. SDXL: Improving Latent Diffusion Models for High?Resolution Image Synthesis[EB/OL].[2023?07?04]. https://arxiv.org/abs/2307.01952.

[18] 石樂民. 無標記面部表情捕捉系統(tǒng)關(guān)鍵技術(shù)研究[D]. 吉林:長春理工大學,2017.

[19] 何向真. 運動捕捉技術(shù)基礎(chǔ)[M]. 北京:中國科學技術(shù)出版社,2022.

[20] Hu E J, Shen Y, Wallis P, et al. LoRA: Low?Rank Adaptation of Large Language Models[EB/OL].[2024?10?31]. https://arxiv.org/abs/2106.09685.

【本文項目信息】2022年北京市社科基金規(guī)劃項目“未來高科技條件下電影影像發(fā)展前景研究”(22YTB014)。

主管單位:國家電影局

主辦單位:電影技術(shù)質(zhì)量檢測所

標準國際刊號:ISSN 1673-3215

國內(nèi)統(tǒng)一刊號:CN 11-5336/TB

投稿系統(tǒng):ampt.crifst.ac.cn

官方網(wǎng)站:www.crifst.ac.cn

期刊發(fā)行:010-63245081

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
東契奇38+10+10,賽后沖突,??怂贡ё》兜卤?,東契奇攔住比永博

東契奇38+10+10,賽后沖突,??怂贡ё》兜卤耄瑬|契奇攔住比永博

擔酒
2026-01-08 13:09:09
2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

叮當當科技
2026-01-07 13:58:49
帶娃上廁所被嫂子網(wǎng)暴后續(xù):寶媽“底褲”被扒,更惡心的還在后面

帶娃上廁所被嫂子網(wǎng)暴后續(xù):寶媽“底褲”被扒,更惡心的還在后面

游者走天下
2026-01-07 14:19:47
血的教訓!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

血的教訓!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

南宗歷史
2026-01-07 15:04:25
比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

攬星河的筆記
2026-01-07 19:21:08
捧著油碗的饑民:為什么3000億桶石油富不了委內(nèi)瑞拉?

捧著油碗的饑民:為什么3000億桶石油富不了委內(nèi)瑞拉?

鳳凰網(wǎng)財經(jīng)
2026-01-05 21:27:24
算盤落空,具俊曄被曝想見大S兒女,僅剩的“體面”被汪小菲撕碎

算盤落空,具俊曄被曝想見大S兒女,僅剩的“體面”被汪小菲撕碎

振華觀史
2026-01-08 09:23:18
網(wǎng)友稱周大福紙質(zhì)發(fā)票數(shù)字全部消失?客服:可與我們聯(lián)系,稅務局:可通過官方平臺核驗

網(wǎng)友稱周大福紙質(zhì)發(fā)票數(shù)字全部消失?客服:可與我們聯(lián)系,稅務局:可通過官方平臺核驗

瀟湘晨報
2026-01-08 12:32:14
怎么看待洪承疇最后只被封輕車都尉?

怎么看待洪承疇最后只被封輕車都尉?

瑯琊左史
2026-01-08 09:19:44
不到24小時,中方又對日本命脈下手,高市承認,中國要來真的了!

不到24小時,中方又對日本命脈下手,高市承認,中國要來真的了!

科普100克克
2026-01-08 09:53:41
72小時一架!沈飛殲-35產(chǎn)能大爆發(fā),改寫全球五代機格局

72小時一架!沈飛殲-35產(chǎn)能大爆發(fā),改寫全球五代機格局

華人星光
2026-01-07 13:31:41
加盟后首簽!國安新總監(jiān)親自拍板,球隊新帥到位,已到歐洲選外援

加盟后首簽!國安新總監(jiān)親自拍板,球隊新帥到位,已到歐洲選外援

體壇鑒春秋
2026-01-08 11:15:10
加時三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

加時三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

無術(shù)不學
2026-01-08 12:26:55
吳某楨在柬埔寨工作細節(jié)流出!視頻聚焦晚上11點到凌晨3點的室內(nèi)

吳某楨在柬埔寨工作細節(jié)流出!視頻聚焦晚上11點到凌晨3點的室內(nèi)

火山詩話
2026-01-07 06:08:54
一顆榴蓮,快讓東南亞卷成“晉西北”了!

一顆榴蓮,快讓東南亞卷成“晉西北”了!

流蘇晚晴
2026-01-07 20:13:10
降維打擊?芬蘭公司宣布固態(tài)電池進入量產(chǎn),成本比普通鋰電池還低

降維打擊?芬蘭公司宣布固態(tài)電池進入量產(chǎn),成本比普通鋰電池還低

小柱解說游戲
2026-01-07 02:12:43
田樸珺拿走人脈,王石只剩年齡

田樸珺拿走人脈,王石只剩年齡

深水財經(jīng)社
2026-01-05 21:19:06
停播7年,那個挽救無數(shù)司機的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個挽救無數(shù)司機的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
那年老板嗅到商機,4萬一噸買進5千噸銅!沒多久價格翻到8萬一噸

那年老板嗅到商機,4萬一噸買進5千噸銅!沒多久價格翻到8萬一噸

卡西莫多的故事
2026-01-06 09:37:39
錢再多有什么用?自曝曾生活不能自理的武大靖,給所有老將提了醒

錢再多有什么用?自曝曾生活不能自理的武大靖,給所有老將提了醒

以茶帶書
2026-01-07 17:04:33
2026-01-08 15:39:00
電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
632文章數(shù) 209關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

中方被指正考慮進一步收緊中重稀土出口 日本業(yè)界慌了

頭條要聞

中方被指正考慮進一步收緊中重稀土出口 日本業(yè)界慌了

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

旅游
藝術(shù)
數(shù)碼
公開課
軍事航空

旅游要聞

6萬羽候鳥 20萬游客 東古湖,憑什么出圈成為全國觀鳥勝地

藝術(shù)要聞

頤和園金光穿洞

數(shù)碼要聞

鷹角網(wǎng)絡與八位堂聯(lián)名推出Retro 87復古鍵盤新春套裝,售價499元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

無障礙瀏覽 進入關(guān)懷版