国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《現(xiàn)代電影技術》|面向電影制作的三維數(shù)字人生成和編輯系統(tǒng)設計與應用研究

0
分享至


本文刊發(fā)于《現(xiàn)代電影技術》2025年第8期

專家點評

數(shù)字人是通過數(shù)字技術創(chuàng)建的虛擬人物形象,其應用涵蓋醫(yī)學仿真、教育培訓、文化傳播等多個領域,當前數(shù)字人技術已實現(xiàn)高度逼真的交互與多場景落地。數(shù)字人生成融合計算機視覺、計算機圖形學、人工智能等技術,可用于現(xiàn)代電影中人物的特效表現(xiàn),其內容涉及人體、人臉、發(fā)型及服裝等。在電影特效領域,數(shù)字人生成的研究尤為重要?!睹嫦螂娪爸谱鞯娜S數(shù)字人生成和編輯系統(tǒng)設計與應用研究》一文針對傳統(tǒng)數(shù)字人制作流程成本高、周期長的產(chǎn)業(yè)瓶頸,設計并實現(xiàn)了一套單目視頻驅動的數(shù)字人快速生成與編輯系統(tǒng)。所提技術方案創(chuàng)新整合了三維高斯?jié)姙R(3DGS)技術高效渲染與易于編輯的優(yōu)勢,允許用戶在生成高保真數(shù)字人后,支持直觀、靈活、高效的二次創(chuàng)作。在人工智能(AI)與數(shù)字技術深度融合的今天,數(shù)字人技術加快推進智能化升級,技術性能、逼真度和智能化水平持續(xù)提升,其已從科幻概念走向現(xiàn)實場景,并成為連接虛擬與現(xiàn)實的核心載體。從打破物理限制的智能服務到重構文化傳播的沉浸體驗,數(shù)字人憑借其超寫實形象、強交互能力及7×24小時不間斷服務的特性,在多個領域掀起效率革命。相信本文介紹的技術將為相關領域的研究人員提供很好的借鑒與參考。

—— 潘志庚

二級教授

南京信息工程大學元宇宙研究院院長

作 者 簡 介

李夢甜

上海大學上海電影學院、上海電影特效工程技術研究中心講師,主要研究方向:面向影視、游戲與藝術領域的數(shù)字內容理解與生成。

上海大學上海電影學院碩士研究生在讀,主要研究方向:三維重建、數(shù)字人重建。

姚聲祥

楊 洋

上海大學上海電影學院講師,主要研究方向:電影創(chuàng)作。

針對傳統(tǒng)數(shù)字人制作流程成本高、周期長的產(chǎn)業(yè)瓶頸,本文以提升生產(chǎn)效率為核心目標,設計并實現(xiàn)了一套單目視頻驅動的數(shù)字人快速生成和編輯系統(tǒng)。該方案創(chuàng)新整合了三維高斯?jié)姙R高效渲染與易于編輯的優(yōu)勢,允許用戶在短時間內生成高保真數(shù)字人后,對素材進行智能分割和存儲,并立即進行直觀、靈活的二次創(chuàng)作。測試結果顯示,本系統(tǒng)能夠顯著縮短數(shù)字人的制作時間,并降低對專業(yè)采集設備與技能的依賴。研究表明,一體化生成和編輯系統(tǒng)是實現(xiàn)電影工業(yè)數(shù)字人生產(chǎn)降本增效的可行路徑,可為海量三維素材庫的構建和中小成本影片的視覺效果制作提供有力支持。

關鍵詞

數(shù)字人;人工智能;電影制作;神經(jīng)輻射場;三維高斯?jié)姙R;DeepSeek

1引言

數(shù)字人生成作為計算機視覺(CV)與計算機圖形學(CG)的核心研究領域,同時也是現(xiàn)代電影特效技術的重要組成部分,其研究目標可描述為對人體、人臉及服裝等對象的數(shù)字化表示[1]。通過技術手段,將這些對象轉化為數(shù)字形式,以實現(xiàn)對人類特征的精確建模與表達。在電影特效領域,數(shù)字人生成的研究尤為重要,無論是從零構建一個完全虛構的虛擬角色,還是通過創(chuàng)建演員的數(shù)字替身來復現(xiàn)其外貌與表演,其為動作捕捉、表情生成以及虛擬場景的融合提供了關鍵技術支持。通過優(yōu)化算法效率和提升視覺效果的逼真度,數(shù)字人技術能夠顯著增強電影中角色的表現(xiàn)力和沉浸感,為觀眾帶來更加震撼的視覺體驗。從《超人》中沖破天際的鋼鐵之軀,到《本杰明·巴頓奇事》里逆齡生長的奇幻形象,再到《波西米亞狂想曲》重現(xiàn)的萬人演唱會盛況,數(shù)字人技術始終伴隨著電影藝術對特殊表現(xiàn)手法的需求而持續(xù)演進。數(shù)字人技術不僅推動了電影特效技術的發(fā)展,還為未來電影創(chuàng)作提供了更多可能性。

隨著人工智能(AI)技術的持續(xù)演進,其在電影工業(yè)中的應用正極大提高電影制作的效率[2],使創(chuàng)建高逼真度數(shù)字人的成本逐步降低。數(shù)字人生成和編輯作為當前學術界的前沿研究領域,每年涌現(xiàn)大量創(chuàng)新技術推動該研究方向向縱深發(fā)展。本文系統(tǒng)梳理了學術界近年來在數(shù)字人生成和編輯領域的技術進展與研究趨勢,探討其在電影特效中的潛在應用,并提出一個行之有效的數(shù)字人生成和編輯系統(tǒng),最后剖析了當前技術將會如何影響電影制作流程及其發(fā)展方向。

2基于AI技術的數(shù)字人生成和編輯技術發(fā)展概況

當前工業(yè)界廣泛應用的光場(Light Stage)系列三維重建技術,是由Paul Debevec團隊于2000年提出的創(chuàng)新性采集系統(tǒng)[3]。該技術體系通過構建精密的光場采集裝置,在球面坐標系下布置超過150個可控LED光源與多視角同步相機陣列,結合光度立體(Photometric Stereo)視覺方法,實現(xiàn)毫米級精度的動態(tài)幾何重建并獲取高分辨率表面貼圖。相較于其他多目立體視覺方法,Light Stage通過精確控制光照方向和攝影序列,有效解決了復雜材質表面(如皮膚、毛發(fā)等)的反射分離難題,其數(shù)據(jù)采集流程已廣泛應用于電影特效[4]。

光場采集環(huán)境搭建通常需要大量的人力和物力投入,這使基于光場技術生成虛擬角色的成本居高不下。當前研究的核心問題在于如何降低數(shù)字人的生成成本,同時提升其生成效率和表現(xiàn)效果。研究人員通過引入AI技術并探索新穎的表達方式,致力于在更短時間內實現(xiàn)高質量的數(shù)字人生成,或在更低要求的攝影環(huán)境中實現(xiàn)高效的重建。基于這一目標,學術研究主要分為以下幾個方向:在不同的圖像輸入條件下的角色生成、基于文本的虛擬角色生成以及高效率的模型編輯。如圖1所示,輸入源的多樣性決定了算法所能獲取的信息量。在此基礎上,各類處理方法相輔相成,形成了技術合力,共同促進了數(shù)字人技術的發(fā)展演進。


圖1 數(shù)字人重建和生成的分類

2.1 基于密集多視角輸入的方法

基于密集多視角輸入進行動態(tài)人體三維重建,是近年來備受關注的研究方向。傳統(tǒng)圖形學方法通常采用光場系統(tǒng)采集數(shù)據(jù),并通過表面、圖像或光度配準等方式來整合多視角信息[5],或利用骨架驅動擬合表面[6, 7]。這些方法在處理幾何與紋理信息時流程復雜,相較之下,基于AI的新范式通過引入先進的神經(jīng)表征技術,不僅大幅提升了重建的計算效率,更在人體形態(tài)及衣物細節(jié)的精準捕捉上展現(xiàn)出卓越性能。

Zheng等[8]通過使用在參數(shù)化人體模型表面定義一系列信息點,將其作為局部的結構信息點輸入給多層感知機(MLP),使用神經(jīng)輻射場(NeRF)來表達,支持使寬松的衣服在不同的動作下產(chǎn)生自然的陰影變化。Li等[9]通過將局部的信息點和關節(jié)骨架進行結合,通過多層次的三平面編碼,大幅提高了重建精度。然而,基于神經(jīng)輻射場的方法往往受限于渲染速度,限制了其重建效率。

Li等[10]提出可動畫高斯(Animatable Gaussians),使用符號距離場(SDF)作為基準幾何模型,結合二維卷積網(wǎng)絡來學習高斯貼圖,這樣既可獲得基于符號距離場的準確的幾何結果,又達成三維高斯?jié)姙R(3D Gaussian Splatting, 3DGS)的高效渲染速度,并且保證了寬松衣服的重建質量。Chen等[11]使用顯式的網(wǎng)格表達從隱式距離場中提取出的信息,重建出適應當前工業(yè)渲染管線的人體模型。Chen等[12]在Animatable Gaussians基礎上,通過使用非剛體變化的網(wǎng)格模型替代了符號距離場,并將局部高斯的屬性使用基于姿勢的混合形狀(Blend Shape)進行表達,既保證了具備寬松衣物的細節(jié),也提供了一個離線神經(jīng)網(wǎng)絡用于生成服裝的非剛體變化,結合三維高斯表達使其能夠進入渲染引擎中進行高效、高速的渲染和動畫。這些方法生成的高保真虛擬角色具有優(yōu)良的幾何和貼圖細節(jié),不再需要藝術家花費大量時間優(yōu)化模型細節(jié),能夠直接投入影視制作流程。

除了使用神經(jīng)網(wǎng)絡來表達衣服的褶皺,Zheng等[13]通過擬合每一幀靜態(tài)網(wǎng)格,使用物理模擬的方式不斷擬合出數(shù)字人姿勢和衣服變化之間的關系,并使用基于物理的可微渲染來獲得整體的外觀建模結果。該方法可直接生成一個支持姿態(tài)與衣物協(xié)同形變的可驅動數(shù)字人,從而顯著提升下游動畫的制作效率。

2.2 基于稀疏多視角輸入的方法

2.2.1 基于稀疏多視角視頻的方法

相較于搭設復雜的光場系統(tǒng),在空間中不同方向布置4到6個固定攝影機可快速重建數(shù)字人。Peng等[14]使用參數(shù)化人體模型的頂點作為潛在編碼輸入多層感知機,這些頂點會隨著人體姿態(tài)不斷移動,以存儲不同動作、不同視點下人體模型的紋理信息,將潛在編碼和神經(jīng)混合權重場相結合,將不同角度所得信息權重進行混合,即可生成可驅動的人體模型。在較少的視角條件下,即可制作出《黑客帝國》中的“子彈時間”特效。

2.2.2 基于單人旋轉視頻的方法

相較于需要配準的多視角攝像頭,通過錄制角色在鏡頭中間保持特定姿態(tài)旋轉的視頻也能生成目標角色數(shù)字人。Weng等[15]通過將人體姿勢作為網(wǎng)絡的輸入,用骨骼變化控制空間中視點的變化,該神經(jīng)網(wǎng)絡通過學習并編碼一個動態(tài)人體的多視角信息,進而支持對原始的單目舞蹈視頻進行新視角合成與觀賞。Chen等[16]用參數(shù)化人體模型的頂點作為神經(jīng)渲染中視點變化的控制點,其將一個動態(tài)的人體重建問題轉化為靜態(tài)人體模型的采樣問題,隨著輸入的姿態(tài)變化驅動人體模型重演出不同的姿勢。為進一步提高重建效率,Instant?NGP[17]通過哈希網(wǎng)格查詢輻射場的光線點,大幅提高了神經(jīng)輻射場的渲染速度。將參數(shù)化人體模型的頂點輸入哈希網(wǎng)格中,Jiang等[18]實現(xiàn)了1分鐘內重建人體模型,并將數(shù)字人的渲染效率提高至15 FPS。

為追求更高的渲染效率,新技術將原有的神經(jīng)輻射場(NeRF)模塊,替換為三維高斯?jié)姙R(3DGS)表示方法。Qian等[19]利用可學習的蒙皮權重控制局部高斯點的變化,使其能在45分鐘左右重建出高精度的人體模型。Hu等[20]采用參數(shù)化人體模型的UV紋理作為姿態(tài)特征以生成高斯點云,可實現(xiàn)通過姿勢識別實時控制人物模型的變換。但上述方法都無法直接遷移至當前的渲染管線中。Splatting Avatar[21]將高斯點與三角形網(wǎng)格面綁定,并在表面上附加平移,可實現(xiàn)直接導入渲染引擎中使用并控制。Moon等[22]將參數(shù)化人體模型的頂點編碼到三平面空間,并使用高斯作為紋理表示,該方法具備對人體姿態(tài)和面部表情進行動畫控制的能力。以上方法為之后在電影工業(yè)中快速迭代虛擬預演(PreViz)場景和素材提供了有效的技術支撐。

2.2.3 基于單人照片集輸入的方法

當目標人物的動態(tài)視頻序列難以獲取時,一種有效的替代方案是利用一組包含不同姿態(tài)與視角的人物靜態(tài)圖像完成三維模型的重建。Xiu等[23]將非結構化的圖像與文本信息,轉化為適用于數(shù)字人生成的結構化表征。使用多模態(tài)模型整合不同來源的圖像數(shù)據(jù),通過語義分割定位目標,并從中提煉出關鍵的外觀特征。這些特征通過統(tǒng)一組織,作為生成高質量數(shù)字人的基礎,其使用基于可微分行進四面體(Differentiable Marching Tetrahedra, DMTet)的方法從靜態(tài)圖像集合中重建三維人體模型。其生成的網(wǎng)格具有良好的拓撲結構且與主流圖形渲染管線兼容,這一特性為創(chuàng)建特定時期(如演員年輕時)的數(shù)字替身或進行數(shù)字資產(chǎn)歸檔提供了一條高效的技術路徑。

2.3 基于單張圖像輸入的方法

單張圖像作為生成的唯一輸入源,其固有的信息局限性為三維人體建模帶來了巨大挑戰(zhàn)。具體而言,模型必須在嚴重缺乏多視角線索的情況下,推斷出被遮擋部分的精確幾何形態(tài)與表面紋理。德國馬克斯·普朗克智能系統(tǒng)研究所(MPI?IS)由 Michael J. Black 領導的團隊做出了開創(chuàng)性貢獻,他們先后提出了經(jīng)典的參數(shù)化人體模型SMPL[24]及其重要的擴展版本SMPL?X[25]。參數(shù)化人體模型將體型表達和姿勢表達使用參數(shù)進行擬合。在實現(xiàn)過程中,往往將圖像特征輸入給全連接神經(jīng)網(wǎng)絡來獲得人體參數(shù),從人體參數(shù)中還原一個粗糙的人體模型。Ma等[26]在參數(shù)化人體模型的頂點上進行偏移,以生成目標角色身上的服裝細節(jié)。Corona等[27]通過使用模板化的衣服擬合圖像中的衣物信息,為參數(shù)化人體模型穿上衣服。盡管這些方法能夠有效驅動參數(shù)化人體模型生成動畫,但此類模型本身固有的局限性也十分明顯:一方面,其在表達個體身份的獨特性上能力有限;另一方面,其重建的幾何細節(jié)與表面保真度也相對不足。Xiu等[28]結合了隱式距離場和參數(shù)化人體模型,通過采用類似于正反兩個角度配準的方式來生成不同角度下的網(wǎng)格模型并使用參數(shù)化人體模型進行補全,能夠生成極端姿勢圖片的人體模型,并使用參數(shù)對齊進行驅動。為提高顏色準確度和模型精度,Zhang等[29]通過將單張圖片及其對應的參數(shù)化人體模型法向一起輸入給識別能力更強的Transformer模型生成基礎的模型,之后使用生成模型為得到的粗糙模型和貼圖進行更為精細的修補和上色,將傳統(tǒng)重建方法和新的生成式方式相結合,增強模型的編輯能力。Huang等[30]使用大語言模型來理解圖片的內容,在單圖重建的基礎上,使用擴散模型對衣服上的細節(jié)進行更細致的監(jiān)督和優(yōu)化。

通過使用大模型進行大量的數(shù)據(jù)學習和生成分析,單圖重建已能夠實現(xiàn)1 s左右的重建速度。Qiu等[31]使用30萬個人體視頻進行學習,將圖片和參數(shù)化人體模型的不同部分使用Transformer模型進行關聯(lián),最后使用三維高斯?jié)姙R的方法進行解碼渲染。Zhuang等[32]通過在UV空間中對人體模型進行參數(shù)化。以上方法基于貼圖和三維網(wǎng)格表達,可實現(xiàn)對模型紋理的直觀編輯,也為構建大規(guī)模三維角色資產(chǎn)庫提供了清晰的技術藍圖。在此基礎上,生成精度的持續(xù)提升將有望打通從二維圖像到三維資產(chǎn)的轉化鏈路,最終賦能電影工業(yè)實現(xiàn)資產(chǎn)制作效率的巨大飛躍。

2.4 基于文本輸入的方法

隨著基于擴散模型的生成方法持續(xù)發(fā)展,基于文字描述直接生成人物模型的研究逐漸增多。大多數(shù)方法通過在參數(shù)化人體模型周圍進行采樣,生成初步的人體模型,并利用多樣化的監(jiān)督方法生成不同類型的模型。Liao等[33]通過對參數(shù)化人體模型進行網(wǎng)格細分,并以目標法線圖和顏色圖為監(jiān)督,學習一個從粗糙到精細的頂點偏移。由此生成的高精度人體模型不僅捕捉了豐富的表面細節(jié),還能直接兼容主流的圖形渲染管線,無需額外處理。

2.5 可編輯的數(shù)字人技術

神經(jīng)輻射場(NeRF)與三維高斯?jié)姙R(3DGS)等新興技術雖然在三維重建速度上展現(xiàn)出巨大優(yōu)勢,但其成功也伴隨著顯著代價。由于采用了與傳統(tǒng)多邊形網(wǎng)格截然不同的三維表示方法,這些模型往往難以直接編輯,從而為后續(xù)的精細化修改與藝術創(chuàng)作帶來了巨大挑戰(zhàn)。編輯方法通常結合大語言模型和生成式模型在輸入圖像上進行修改,再從二維的結果提升至三維。Mendiratta等[34]通過先重建一個神經(jīng)輻射場模型,再輸入期望編輯的文本對多角度圖像進行編輯,同時對輻射場模型進行修改和重建。Sunagad等[35]使用類似方式,通過生成式模型對重建的圖像進行編輯,并且采用ControlNet生成角色編輯后的法向結果作為生成的監(jiān)督來提高編輯后的生成模型質量。

除使用擴散生成模型編輯原型圖片的方法外,近年來有諸多方法專注于如何在神經(jīng)輻射場等特殊表達形式上直接編輯的方法。Xiao等[36]在參數(shù)化人體模型的表面構造潛在編碼,以分離幾何和紋理,從而實現(xiàn)重光照和局部陰影編輯。為使編輯方式對用戶友好,F(xiàn)eng等[37]結合基于神經(jīng)輻射場表達的衣服和基于顯式網(wǎng)格的身體建模,以更好地表示每個單獨的部分,用戶可快速將衣服轉移到另一個角色身上。Lin等[38]使用兩層高斯貼圖來增強衣服的細節(jié),并實現(xiàn)衣服的交換和編輯。雖然這些研究能生成頗為逼真的虛擬試衣效果,但他們普遍缺乏對試穿后衣物進行精細化編輯的能力,例如調整衣物的款式、版型或褶皺形態(tài)。Ho等[39]將特征存儲在網(wǎng)格頂點上,為這些特征創(chuàng)建一個碼本,通過對碼本進行編輯和替換,能夠做到較大范圍內的局部編輯。Zhang等[40]使用擴散模型在參數(shù)化人體的UV平面上生成高斯貼圖,并附加在參數(shù)化人體模型表面,可實現(xiàn)局部幾何和貼圖的編輯。這些方法為藝術家后續(xù)編輯提供了豐富的個性化工具。

3單目視頻條件下的三維數(shù)字人生成和編輯系統(tǒng)設計

本文旨在構建一個數(shù)字人快速生成且可編輯的系統(tǒng),以期為電影制作提供便利,提高制作效率。如圖2所示,該系統(tǒng)的工作流程主要包括以下步驟:用戶通過上傳單人旋轉視頻到服務器上,系統(tǒng)會在后臺處理視頻數(shù)據(jù),并通過三維重建方法生成一個可驅動的人體模型。在生成角色模型后,系統(tǒng)會將該模型按照語義智能分割并存儲到不同的素材庫,以供藝術家在后續(xù)流程中進行個性化編輯,并為未來的影視相關產(chǎn)品開發(fā)提供素材。同時用戶可在系統(tǒng)中通過自然語言編輯角色模型,調整后的素材可直接導入三維軟件中使用。在所有的輸入中,單目旋轉視頻在數(shù)據(jù)采集的簡易度與最終重建的高保真度之間達到了一個較好的平衡點,因此大量的研究都基于此條件進行算法設計?;诖耍鞠到y(tǒng)采用單目視頻作為輸入條件,并采用三維高斯?jié)姙R算法,以實現(xiàn)數(shù)字人的高效生成與快速編輯。


圖2 單目視頻條件下的三維數(shù)字人生成和編輯系統(tǒng)流程圖

3.1 單目視頻條件下基于三維高斯?jié)姙R的人體模型生成算法

圖3所示算法通過輸入角色單目視頻,使用基于三維高斯?jié)姙R的人體模型重建算法生成三維模型。在生成過程中,算法會根據(jù)角色圖片進行智能分割,將三維模型基于語義信息分割為角色模型和服飾素材,并分別保存至不同的素材庫中。


圖3 單目視頻條件下的三維數(shù)字人生成流程圖

(1)算法設計




(2)實驗結果

為驗證生成效果,本文采用以下三種指標進行評估:①峰值信噪比(Peak Signal?to?Noise Ratio, PSNR),測量重演圖像與真實圖像之間的誤差,評估重建的整體質量,PSNR值越高,表明生成的模型越真實;②結構相似性指數(shù)(Structural Similarity Index, SSIM),從亮度、對比度、結構三方面評估兩幅圖像的相似性,值越高表明生成的圖像更真實;③學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity, LPIPS),基于深度學習模型提取圖像特征,計算特征空間的距離,衡量圖像的感知相似度,值越低證明人眼感知上更像真實圖像。這三種評價指標通過量化渲染圖像與真實參考圖像之間的誤差,從不同維度對重建質量進行綜合考量,共同構成了對本文模型精度的全面評估體系。測試用的數(shù)據(jù)集為PeopleSnapshot,是目前主流方法常用的測試數(shù)據(jù)集,其包含多個單人原地旋轉的視頻,通過使用手機在非實驗室環(huán)境中拍攝,符合主流應用環(huán)境。本文與目前效果最好的方法InstantAvatar[18]和3DGS?Avatar[19]進行比較,實驗結果(表1)表明,本文方法在所有指標上都具較為明顯的優(yōu)勢,并且重建時間相較于3DGS?Avatar的45分鐘,縮減至30分鐘。綜合多項指標,本文方法在效率上提升了33.33%,在重建精度上平均提升了10%。

表1 本文方法與文獻[18,19]的定量對比結果


3.2 基于三維高斯?jié)姙R的人體模型編輯系統(tǒng)

特殊表達的人體模型雖無法直接在工業(yè)引擎中快速編輯,但本文系統(tǒng)也提供了多種編輯方法輔助用戶高效快速編輯人體模型(圖4)。一種方法是將角色模型的多視角圖片交給視覺模型進行部位分割,并針對圖片整體及各個部位生成文字描述。之后,將文字描述及用戶想要編輯部位一同輸入給DeepSeek模型,針對用戶需求生成并調整提示詞(Prompt)。最后,將提示詞和圖片輸入擴散模型進行圖片編輯,并在修改的同時對角色模型進行優(yōu)化和調整。由于擴散模型可能會使圖像產(chǎn)生不可控制的變化,我們也提供了局部編輯的方法,用戶能夠使用局部框選工具來選擇參數(shù)化人體模型的頂點,通過變換頂點映射的三維高斯點,實現(xiàn)對模型的幾何和紋理進行編輯。


圖4 單目視頻條件下的三維數(shù)字人編輯流程圖

3.3 系統(tǒng)應用

在電影制作領域,本文提出的系統(tǒng)具有顯著優(yōu)勢,該系統(tǒng)不僅能生成目標角色,并且在高效生成的基礎上創(chuàng)新性地提供了多種編輯方式,搭配使用DeepSeek模型可進一步降低用戶操作難度,提供更加友好的交互方式。

如圖5所示,用戶僅需在拍攝好角色視頻后上傳到系統(tǒng),系統(tǒng)會為用戶生成該角色的數(shù)字人模型,之后用戶即可使用自然語言為該模型進行不同類型的編輯。DeepSeek模型會分析自然語言,并生成圖片編輯的提示詞,以編輯圖片并重新生成模型。為解決中小制作團隊在獨立創(chuàng)建數(shù)字人時所面臨的高昂成本與技術壁壘問題,本系統(tǒng)提供了一套極其簡化的解決方案。其直觀的文本輸入界面與便捷的操作流程,使非專業(yè)背景的用戶也能夠快速、高效地對數(shù)字人模型進行編輯與迭代。例如,編劇可通過簡單的文本描述來編輯模型以確認角色的服飾和道具。這不僅能加快電影制作速度,還能提升電影整體質量。同時,相較于傳統(tǒng)的數(shù)字人制作,采用該系統(tǒng)則不再需要耗費數(shù)天,創(chuàng)建一個數(shù)字人僅需30分鐘,通過素材庫進行編輯,可實現(xiàn)和建模軟件一樣實時編輯與“所見即所得”。


圖5 單目視頻條件下的三維數(shù)字人生成和編輯系統(tǒng)演示

4三維數(shù)字人技術對影視制作的影響

當前短視頻平臺上有較多用戶使用單圖或稀疏視圖的生成方式快速創(chuàng)建數(shù)字化身(Digital Avatar?),為自己的視頻創(chuàng)作特定元素,獲得了較好的用戶反響。如使用Viggle AI快速創(chuàng)建動畫化身,可實現(xiàn)在幾分鐘內創(chuàng)建出個性化數(shù)字人的舞蹈視頻;而今年春晚舞臺上的《筆走龍蛇》更是采用了類似數(shù)字人重建技術,通過多視角拍攝,快速生成包含4D時序信息的三維場景,這也表明了采用AI技術能大幅提高影視制作效率[41]。本節(jié)將從以下三個主要方向探討三維數(shù)字人技術對未來影視制作的影響。

4.1 優(yōu)化前期制作流程

隨著技術的不斷進步,數(shù)字人的創(chuàng)建成本已顯著降低,并在數(shù)據(jù)輸入復雜性、重建時間方面取得了質的飛躍。如前文所述,生成一個高精度、可直接應用于工業(yè)渲染管線的數(shù)字人已變得高效便捷。未來,通過演員的數(shù)字化身,可快速驗證其外形是否符合劇本要求,并可直接將其嵌入目標場景,借助虛擬預演技術,創(chuàng)作者能夠預先調整和評估場景光照,從而大幅減少實地踩點、光影調試等環(huán)節(jié)的資源浪費,顯著提升影視制作效率。

這類技術的應用不僅優(yōu)化了傳統(tǒng)制作流程,還為創(chuàng)作團隊提供了更加靈活的創(chuàng)意表達方式。通過虛擬化手段,創(chuàng)作者可在前期階段快速迭代方案,避免后期調整帶來的高昂成本。同時,數(shù)字化身的實時反饋能力也讓團隊能夠更直觀地調整角色與場景的契合度,確保最終作品的高質量呈現(xiàn)。這種效率與靈活性的結合,正在為影視制作行業(yè)帶來前所未有的變革。

4.2 提高素材生產(chǎn)效率

在影視制作領域,虛擬角色的生成和編輯一直是電影數(shù)字資產(chǎn)的重要組成部分。從文字描述到畫稿,再到三維建模,每一步都需耗費大量時間和人力。然而,隨著大語言模型與三維數(shù)字人生成模型的飛速發(fā)展,這一流程正被徹底重塑。如今,通過DeepSeek和3DTopia等先進工具對創(chuàng)作需求的深度解析,創(chuàng)作人員的需求可被精準轉化為數(shù)字模型的輸入?yún)?shù)。這種技術不僅能夠快速生成虛擬角色的草稿,還能在短時間內迭代優(yōu)化,直至產(chǎn)出高質量的成品模型。整個過程大幅減少了傳統(tǒng)美術流程中的冗余環(huán)節(jié),將創(chuàng)作效率提升至前所未有的高度,通過深度結合多種AI工具,創(chuàng)作者們也能夠以較低門檻快速參與到技術迭代中。美術人員也可從繁瑣的重復性勞動中解放,將更多精力投入到創(chuàng)意本身。

4.3 激發(fā)小成本影視制作活力

隨著數(shù)字人和虛擬角色生成技術的普及,制作成本的顯著降低使越來越多的創(chuàng)作者能夠通過虛擬化手段構建更加豐富的世界。中小成本劇組也能夠借此突破傳統(tǒng)制作的局限,通過使用豐富的虛擬角色素材,結合文本生成動作模型,能夠在有限的成本下,讓創(chuàng)作者能夠輕松構建復雜的場景,如繁忙的街景或人山人海的演唱會現(xiàn)場。而這些群體動畫在傳統(tǒng)制作中往往需要極高的成本和資源投入。如今,數(shù)字人技術的引入不僅降低了制作門檻,還為創(chuàng)意表達提供了更廣闊的空間。

5結語

盡管近年來AI技術的應用使三維數(shù)字人生成和編輯取得了顯著進展,但其在電影制作領域的應用仍面臨諸多挑戰(zhàn),在一定程度上限制了其在電影制作全流程中的普及與推廣。例如,當前能夠完全兼容工業(yè)渲染管線的技術較少,且生成的人體模型缺乏直接編輯性,使技術的實際應用受到制約。為應對這些挑戰(zhàn),本文提出的單目視頻條件下的三維數(shù)字人生成和編輯系統(tǒng),通過優(yōu)化算法和模型架構,不僅能夠高效生成適用于現(xiàn)有渲染管線的數(shù)字人模型,還為用戶提供了豐富的編輯功能,進一步增強了系統(tǒng)的實用性和靈活性。這一創(chuàng)新系統(tǒng)為電影制作中的數(shù)字人應用提供了更高效、更便捷的解決方案。展望未來,隨著AI技術的持續(xù)突破與創(chuàng)新,數(shù)字人生成和編輯技術將在電影制作領域釋放更大潛能,不僅能顯著提升創(chuàng)作效率、降低制作成本,更能為電影藝術創(chuàng)作開辟全新的表達維度和創(chuàng)意空間,推動電影藝術形式的革新與突破。

參考文獻

(向下滑動閱讀)

[1] 洪陽.高保真虛擬數(shù)字人的表示與重建[D].中國科學技術大學,2022.DOI:10.27517/d.cnki.gzkju.2022.000779.

[2] 王春水.人工智能技術的發(fā)展及其對影視制作的影響[J].影視制作,2023,29(10):13?21.

[3] DEBEVEC P, HAWKINS T, TCHOU C, et al. Acquiring the reflectance field of a human face[C]//Proceedings of the 27th annual conference on Computer graphics and interactive techniques, 2000: 145?156.

[4] USC Institute for Creative Technologies. Light Stage X [EB/OL] .(2022?03?01) [2025?07?13]. https://vgl.ict.usc.edu/LightStages/.

[5] GHOSH A, HAWKINS T, PEERS P, et al. Practical modeling and acquisition of layered facial reflectance[J]. ACM Transactions on Graphics, 2011, 30(6): 1?10.

[6] GRAHAM P, TUNWATTANAPONG B, BUSCH J, et al. Production facial capture and solving at scale[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2019 Courses, 2019:1?60.

[7] VLASIC D, PEERS P, BARAN I, et al. Dynamic shape capture using multi?view photometric stereo[M]//ACM Special Interest Group on Computer Graphics and Interactive Techniques Asia 2009 papers, 2009: 1?11.

[8] ZHENG Z, HUANG H, YU T, et al. Structured local radiance fields for human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 15893?15903.

[9] LI Z, ZHENG Z, LIU Y, et al. Posevocab: Learning joint?structured pose embeddings for human avatar modeling[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2023 conference proceedings, 2023: 1?11.

[10] LI Z, ZHENG Z, WANG L, et al. Animatable Gaussians: Learning pose?dependent gaussian maps for high?fidelity human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 19711?19722.

[11] CHEN Y, ZHENG Z, LI Z, et al. Mesh Avatar: Learning high?quality triangular human avatars from multi?view videos[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 250?269.

[12] CHEN J, HU J, WANG G, et al. TaoAvatar: Real?Time Lifelike Full?Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting[C]//Proceedings of the Computer Vision and Pattern Recognition Conference, 2025: 10723?10734.

[13] ZHENG Y, ZHAO Q, YANG G, et al. Physavatar: Learning the physics of dressed 3d avatars from visual observations[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 262?284.

[14] PENG S, ZHANG Y, XU Y, et al. Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9054?9063.

[15] WENG C Y, CURLESS B, SRINIVASAN P P, et al. Humannerf: Free?viewpoint rendering of moving people from monocular video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16210?16220.

[16] CHEN J, ZHANG Y, KANG D, et al. Animatable neural radiance fields from monocular rgb videos[EB/OL]. (2021?06?25)[2025?07?21]. https://arxiv.org/abs/2106.13629.

[17] MüLLER T, EVANS A, SCHIED C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics , 2022, 41(4): 1?15.

[18] JIANG T, CHEN X, SONG J, et al. InstantAvatar: Learning avatars from monocular video in 60 seconds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 16922?16932.

[19] QIAN Z, WANG S, MIHAJLOVIC M, et al. 3DGS?Avatar: Animatable avatars via deformable 3d gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 5020?5030.

[20] HU L, ZHANG H, ZHANG Y, et al. Gaussianavatar: Towards realistic human avatar modeling from a single video via animatable 3d gaussians[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 634?644.

[21] SHAO Z, WANG Z, LI Z, et al. Splatting Avatar: Realistic real?time human avatars with mesh?embedded gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1606?1616.

[22] MOON G, SHIRATORI T, SAITO S. Expressive whole?body 3D gaussian avatar[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 19?35.

[23] XIU Y, YE Y, LIU Z, et al. PuzzleAvatar: Assembling 3d avatars from personal albums[J]. ACM Transactions on Graphics , 2024, 43(6): 1?15.

[24] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: A skinned multi?person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2, 2023: 851?866.

[25] PAVLAKOS G, CHOUTAS V, GHORBANI N, et al. Expressive body capture: 3d hands, face, and body from a single image[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 10975?10985.

[26] MA Q, SAITO S, YANG J, et al. SCALE: Modeling clothed humans with a surface codec of articulated local elements[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 16082?16093.

[27] CORONA E, PUMAROLA A, ALENYA G, et al. Smplicit: Topology?aware generative model for clothed people[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021: 11875?11885.

[28] XIU Y, YANG J, CAO X, et al. ECON: Explicit clothed humans optimized via normal integration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 512?523.

[29] ZHANG Z, YANG Z, YANG Y. Sifu: Side?view conditioned implicit function for real?world usable clothed human reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 9936?9947.

[30] HUANG Y, YI H, XIU Y, et al. Tech: Text?guided reconstruction of lifelike clothed humans[C]//2024 International Conference on 3D Vision, 2024: 1531?1542.

[31] QIU L, GU X, LI P, et al. LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds[EB/OL]. (2025?03?18)[2025?07?21]. https://arxiv.org/abs/2503.10625.

[32] ZHUANG Y, LV J, WEN H, et al. IDOL: Instant Photorealistic 3D Human Creation from a Single Image[EB/OL]. (2024?12?19)[2025?07?21]. https://arxiv.org/abs/2412.14963.

[33] LIAO T, YI H, XIU Y, et al. Tada! text to animatable digital avatars[C]//2024 International Conference on 3D Vision, 2024: 1508?1519.

[34] MENDIRATTA M, PAN X, ELGHARIB M, et al. Avatarstudio: Text?driven editing of 3d dynamic human head avatars[J]. ACM Transactions On Graphics, 2023, 42(6): 1?18.

[35] SUNAGAD B, ZHU H, MENDIRATTA M, et al. TEDRA: Text?based Editing of Dynamic and Photoreal Actors[EB/OL]. (2024?08?28)[2025?07?21]. https://arxiv.org/abs/2408.15995.

[36] XIAO J, ZHANG Q, XU Z, et al. Neca: Neural customizable human avatar[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 20091?20101.

[37] FENG Y, LIU W, BOLKART T, et al. Learning disentangled avatars with hybrid 3d representations[EB/OL]. (2023?09?12)[2025?07?21]. https://arxiv.org/abs/2309.06441.

[38] LIN S, LI Z, SU Z, et al. Layga: Layered gaussian avatars for animatable clothing transfer[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2024 Conference Papers, 2024: 1?11.

[39] HO H I, XUE L, SONG J, et al. Learning locally editable virtual humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 21024?21035.

[40] ZHANG W, YAN Y, LIU Y, et al. E 3Gen: Efficient, Expressive and Editable Avatars Generation[C]//Proceedings of the 32nd ACM International Conference on Multimedia, 2024: 6860?6869.

[41] 諸杏娟. 這屆春晚開始拼技術了!AI大模型絕美定格、機器人扭秧歌,云使用量達歷年之最[EB/OL].(2025?01?29) [2025?07?13]. http://m.admirer.cn/dy/article/JN2TK8L405566ZHB.html.

【基金項目】國家自然科學基金青年科學基金項目“有限標注下的室內三維場景感知與編輯關鍵方法研究”(62402306);上海市“科技創(chuàng)新行動計劃”自然科學基金項目“復雜室內三維場景細粒度感知關鍵方法研究”(24ZR1422400)。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣辟謠!鹿晗這波操作,關曉彤顏面何存?

官宣辟謠!鹿晗這波操作,關曉彤顏面何存?

搞笑娛樂笑話
2026-01-08 22:12:49
有效瘦肚子方法:不是跑步卷腹,堅持4周,內臟脂肪降低20%!

有效瘦肚子方法:不是跑步卷腹,堅持4周,內臟脂肪降低20%!

增肌減脂
2025-10-10 20:39:12
日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

翰飛觀事
2025-12-29 21:19:30
他9歲成童星,爸媽去世他敗光千萬家產(chǎn),現(xiàn)成精神病靠撿垃圾為生

他9歲成童星,爸媽去世他敗光千萬家產(chǎn),現(xiàn)成精神病靠撿垃圾為生

有趣的胡侃
2026-01-10 09:52:38
北京樓市,亦莊標桿金茂府已跌破發(fā)行價

北京樓市,亦莊標桿金茂府已跌破發(fā)行價

焦點直擊
2026-01-09 08:57:35
6.3分暴漲至8.0分,這部美劇真神了

6.3分暴漲至8.0分,這部美劇真神了

天天美劇吧
2026-01-09 17:40:03
潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

文史旺旺旺
2026-01-03 19:08:03
活久見!網(wǎng)傳河南一小學通知考試為“診斷”,網(wǎng)友:是某些人病了

活久見!網(wǎng)傳河南一小學通知考試為“診斷”,網(wǎng)友:是某些人病了

火山詩話
2026-01-09 07:56:38
“普飛”上線“i茅臺”9天,成交用戶超40萬!茅臺集團董事長陳華這樣解讀

“普飛”上線“i茅臺”9天,成交用戶超40萬!茅臺集團董事長陳華這樣解讀

每日經(jīng)濟新聞
2026-01-10 17:24:15
先嫁2人未離婚,再與9人結婚又離婚!女子利用大齡男想結婚騙財被判5年

先嫁2人未離婚,再與9人結婚又離婚!女子利用大齡男想結婚騙財被判5年

紅星新聞
2026-01-10 19:39:16
終于輪到日本“強烈抗議”了:130年來,日本從未像今天這樣憋屈

終于輪到日本“強烈抗議”了:130年來,日本從未像今天這樣憋屈

胖哥不胡說
2026-01-08 13:12:20
江蘇江陰一女銷售出軌客戶四年,聊天記錄曝光,讓人看了三觀盡毀

江蘇江陰一女銷售出軌客戶四年,聊天記錄曝光,讓人看了三觀盡毀

三農(nóng)老歷
2026-01-05 06:31:56
有高人預測:中國手握“兩套房”的家庭,未來將迎來3個結果!

有高人預測:中國手握“兩套房”的家庭,未來將迎來3個結果!

科學發(fā)掘
2026-01-10 04:18:55
別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結果

別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結果

詩意世界
2026-01-03 15:19:25
央視曝偽科普變現(xiàn)套路:身穿白大褂的“專家”,用“絲瓜瓤煮雞蛋,賽過人參千千萬”等話術博眼球,引流帶貨

央視曝偽科普變現(xiàn)套路:身穿白大褂的“專家”,用“絲瓜瓤煮雞蛋,賽過人參千千萬”等話術博眼球,引流帶貨

魯中晨報
2026-01-10 21:57:03
真相很殘忍:為何有些子女到了五六十歲后,都慢慢變得不孝了

真相很殘忍:為何有些子女到了五六十歲后,都慢慢變得不孝了

黑貓故事所
2026-01-10 22:48:29
馬斯克逆天發(fā)言:如能「改寫」設定程序,人類可實現(xiàn)半永生

馬斯克逆天發(fā)言:如能「改寫」設定程序,人類可實現(xiàn)半永生

鞭牛士
2026-01-10 13:05:09
臺灣問題是中國內政,怎么解決,當然是由中國人自己說了算

臺灣問題是中國內政,怎么解決,當然是由中國人自己說了算

環(huán)球時報國際
2026-01-09 17:41:44
越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

我心縱橫天地間
2026-01-07 19:17:18
濟南地鐵放大招了,直接改變了全城上班族的通勤模式

濟南地鐵放大招了,直接改變了全城上班族的通勤模式

內方外圓
2026-01-10 09:49:26
2026-01-11 02:20:49
電影技術微刊 incentive-icons
電影技術微刊
電影技術微刊
633文章數(shù) 209關注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對話

頭條要聞

特朗普簽署行政令 宣布進入國家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進入國家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經(jīng)要聞

這不算詐騙嗎?水滴保誘導扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

房產(chǎn)
親子
時尚
游戲
軍事航空

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

親子要聞

方媛曬三個女兒:大寶趴地上畫畫。二寶讀英文書,三胎睡嬰兒車里

伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

《地平線6》首發(fā)為何沒PS5版?原來只是沒做完!

軍事要聞

海空英雄高翔逝世 曾駕駛殲-6打爆美軍機

無障礙瀏覽 進入關懷版