網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

《現(xiàn)代電影技術》｜石寶峰等：人工智能技術在電影聲音制作中的應用與展望

2024-11-22 17:24:59　來源: 電影技術微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術》2024年第10期

作者簡介

石寶峰

北京電影學院聲音學院副教授，主要研究方向：電影聲音。

北京電影學院聲音學院碩士研究生在讀，主要研究方向：電影聲音。

丁思立

摘要

為了能夠?qū)θ斯ぶ悄芗夹g在電影聲音制作中應用的現(xiàn)實情況和未來發(fā)展做出比較明確的判斷，本文通過對目前國內(nèi)外已有的、相對可行的技術方案和文獻資料進行廣泛搜集整理，列舉了技術相對成熟的國內(nèi)外公司產(chǎn)品技術特點，同時對人工智能技術在電影聲音對白和效果類聲音應用的前景進行了研究，提出了該技術在電影聲音制作中應用的發(fā)展方向，目的在于對人工智能技術在電影聲音中的應用作出客觀評價。研究表明，人工智能技術雖然在短期內(nèi)不會徹底改變電影聲音制作流程，但隨著技術水平的提升，該項技術的引入或?qū)⒃谝欢ǔ潭壬细淖冸娪奥曇糁谱鞯默F(xiàn)有形式。

關鍵詞

人工智能；電影聲音；降噪；對白；效果

1引言

隨著人工智能（AI）技術的發(fā)展，尤其是多模態(tài)大模型的快速進步，人工智能技術已經(jīng)不限于在文字對話層面的簡單應用，基于音視頻的應用開始成為人工智能技術的一個重要發(fā)展方向，人工智能技術在電影聲音制作過程中的應用成為可能。

北京電影學院聲音學院于兩年前開始關注人工智能技術在電影聲音制作領域的應用前景，跟蹤研究的目的在于探索人工智能技術對電影聲音的制作觀念、制作方法和工藝流程會產(chǎn)生哪些影響，影響程度有多深以及介入速度有多快，是否會顛覆目前電影聲音制作的技術格局。

通過一年時間系統(tǒng)跟蹤國際、國內(nèi)人工智能技術發(fā)展狀況可以發(fā)現(xiàn)，人工智能生成內(nèi)容（AIGC）技術確實對傳統(tǒng)聲音制作觀念和工藝流程產(chǎn)生了一定程度的影響，而且發(fā)展迅速。但同時，人工智能技術也并非十全十美。通過對其全面科學的研究評估可以發(fā)現(xiàn)人工智能技術長項與短處并存。

關于此類問題已有大量文獻進行了相關研究，不同作者從各自角度做出了具有價值的研究。但是，能夠從宏觀層面總體分析研究人工智能技術在電影聲音制作這個特定領域的文獻數(shù)量相對較少。本文的研究目的是希望通過我們的階段性研究成果，為人工智能技術未來大規(guī)模進入專業(yè)聲音制作領域的發(fā)展應用提前做出研判。

2人工智能技術在電影聲音制作領域的應用現(xiàn)狀

人工智能技術在電影聲音領域的應用表現(xiàn)出明顯的兩極化特征。雖然人們希望借助人工智能技術解決制作過程中遇到的棘手問題，突破傳統(tǒng)技術手段的羈絆，但暫不成熟的人工智能生成技術限制了其在電影聲音制作各細分領域的廣泛應用，而以“智能降噪”為代表的人工智能技術則已經(jīng)在電影聲音制作領域?qū)崿F(xiàn)了規(guī)?；虡I(yè)應用。近年推出的國產(chǎn)電影中，相當一部分影片的對白制作都會應用iZotope RX進行降噪處理，使用該軟件進行對白降噪處理的方法已使用多年，成為聲音制作工藝流程中不可或缺的重要環(huán)節(jié)。

成立于2001年的iZotope公司在其產(chǎn)品中很早就融入了以機器學習（Machine Learning，ML）為主的“智能”（Intelligent）技術，其理論基礎是基于神經(jīng)網(wǎng)絡驅(qū)動濾波器的大數(shù)據(jù)算法。作為相對傳統(tǒng)的效果器公司，iZotope融合智能技術的目的在于對輸入聲音進行信號分析并提供具有一定針對性的處理方案，核心目的是減少聲音處理的復雜流程并提高聲音處理的成功率。在RX10和RX11兩個版本中，iZotope RX在保持核心程序傳統(tǒng)降噪方法的基礎上加強了人工智能技術的應用，但人工智能降噪技術依然是以提升質(zhì)量和效率的輔助功能形式出現(xiàn)。iZotope的技術基礎決定了其核心降噪功能并不完全依賴于人工智能技術的存在①，但在其發(fā)展過程中新增的，針對某些特定類型噪聲處理的組件設計則呈現(xiàn)出選擇性使用人工智能技術以強化降噪能力的特征。對于RX而言，人工智能技術的融入是“錦上添花”，是功能增強，人工智能技術并未撼動iZotope RX“以人為主” 的應用模式。

Accentize 系列產(chǎn)品誕生于2019年，采用了基于神經(jīng)網(wǎng)絡再合成的建模算法，是針對后期制作專業(yè)應用開發(fā)的產(chǎn)品。雖然iZotope與Accentize都采用了人工智能技術，但兩者的技術路線并不相同。Accentize系列產(chǎn)品幾乎完全依靠算法模型進行降噪處理，降噪能力更多取決于算法模型本身而非人為的參數(shù)調(diào)整，其中內(nèi)置的多種算法模型還可以對應不同情況的帶噪語音信號進行更優(yōu)質(zhì)、更適配的處理。同時，Accentize產(chǎn)品在降噪后依靠算法模型實現(xiàn)的信號合成和音色調(diào)整功能表現(xiàn)出較強的聲音修復能力，對因降噪帶來的音質(zhì)損失進行了適度補償，成為Accentize系列產(chǎn)品與iZotope現(xiàn)有產(chǎn)品異質(zhì)化的重要特征。

相對而言，iZotope RX的設計思路和應用方式更偏向于傳統(tǒng)降噪器的觀念，功能強大、參數(shù)較多、調(diào)整靈活、適用廣泛，對噪聲的人為控制力較強，定位為“專業(yè)人員的專業(yè)工具”。反觀Accentize，因人工智能技術的應用而降低了使用難度，噪聲處理能力基于深度學習和智能信號合成技術。因此，Accentize的處理重點在于語音分離（Speech Separation）和分離后的信號合成，與iZotope RX側重于降噪不同，Accentize產(chǎn)品的降噪與修復功能比較平衡，所以這類產(chǎn)品也常被稱為語音增強（Speech Enhancement，SE）處理器而非傳統(tǒng)意義上的降噪器。

近年推出的Supertone、Hush Pro以及iZotope VEA等軟件采用不同算法的人工智能降噪器/語音增強處理器，雖然并非針對專業(yè)應用推出，但其部分性能完全能夠達到專業(yè)應用需求。需要指出的是，人工智能降噪技術并非萬能降噪技術，其降噪能力取決于算法模型和訓練數(shù)據(jù)，兩者的優(yōu)劣共同決定了降噪結果的優(yōu)劣。算法或訓練數(shù)據(jù)的缺陷會造成人工智能降噪器對某些特定類型噪聲的處理能力較弱或幾乎無法處理。在這一點上，偏向傳統(tǒng)降噪器的iZotope RX反而表現(xiàn)出對多種噪聲類型的“普遍適用性”。

人工智能降噪技術之所以能夠首先在專業(yè)領域規(guī)模化應用，一方面是因為在聲學、電學、信號分析等方向的基礎研究比較成熟，對各種噪聲可以進行科學性較強的分類且能夠從中提取出具有代表性的物理特征，這些相對明確的技術特征有利于對噪聲成分的識別、分析和處理；另一方面，語音識別、語音分離和數(shù)字信號合成技術也能夠在一定程度上重構語音信號。盡管語音和噪聲信號的種類繁多、構成復雜，但通過有效的定性與定量分析以及針對性的處理，人工智能技術已經(jīng)首先在電影聲音制作的對白降噪領域取得了顯著進展，成功實現(xiàn)了規(guī)?；瘧谩?/p>

3人工智能技術在電影聲音制作領域的發(fā)展方向

依靠算法生成電影對白和效果類聲音是人工智能生成內(nèi)容（AIGC）技術在電影聲音制作領域最重要的發(fā)展方向，也是最值得期待的發(fā)展方向。與智能降噪技術的成熟應用不同，對白和效果聲音的智能生成目前總體上處于試探性、實驗性和創(chuàng)新性階段。

3.1 人工智能技術在電影對白制作中的應用

人工智能技術對聲音的分類方式與傳統(tǒng)電影聲音分類方式不同且在人工智能領域內(nèi)部并未取得一致，這源于不同專業(yè)對同一事物分析研究的角度不同。目前，人工智能技術在聲音信號應用方面依然部分沿用了傳統(tǒng)的分類方式——以廣播、電影、電視和游戲為主的專業(yè)領域和民用領域?？梢灶A計，人工智能技術在電影聲音制作領域第二個獲得大規(guī)模應用的領域是“語音”（Speech），也就是電影中的“對白”（Dialogue）。

人工智能語音技術是人工智能技術的一個分支。目前人工智能語音技術在短視頻配音、自媒體新聞播報、各行業(yè)語音客服等領域已經(jīng)實現(xiàn)了一定程度的商業(yè)化應用，這是由語言的重要性、人工智能語音技術發(fā)展現(xiàn)狀和研發(fā)應用價值等幾方面因素共同決定的。

人工智能語音技術在電影對白制作領域的應用以“文本轉(zhuǎn)語音”②（Text?to?Speech，TTS）和“語音轉(zhuǎn)換”③（Voice Conversion，VC）兩項技術為主，雖然兩者都需要使用語音合成技術，但其底層原理和模型算法存在明顯差異。

文本轉(zhuǎn)語音的核心是自然語言處理（Natural Language Processing，NLP）和語音合成。轉(zhuǎn)換過程中最關鍵的是需要對形成的語音進行語速、語調(diào)、斷句、氣息以及情緒的精準調(diào)節(jié)和靈活控制，這也是文本轉(zhuǎn)語音過程中較難處理而又最具價值的環(huán)節(jié)。對于富含情緒因素的電影對白而言，如果不能在文本轉(zhuǎn)語音過程中對語音的自然度和情感表達進行細化控制，則這項技術就不具備充分的實用價值。2024年推出或升級的幾款大語言模型，如Llama 3.1、Claude 3.5 Sonnet、ChatGPT o1等較之前的語言模型在以上各個方面有所改進，對生成語音進行一定程度的控制已經(jīng)成為可能。盡管技術上仍存在一定局限，尚不能實現(xiàn)對語音節(jié)奏、情緒、流暢度和自然度等多個核心要素的靈活調(diào)控，但整體表現(xiàn)已顯著提升。與早期語言模型多采用封閉研究方式不同，2024年推出的模型中有相當一部分采用了開源方式，這為具有技術能力的用戶定制化應用模型、降低應用成本及合規(guī)性應用提供了條件。因此，目前的文本轉(zhuǎn)語音技術比較適合應用于動畫片、科幻片等類型片角色的對白創(chuàng)造。

語音轉(zhuǎn)換的結果主要依靠模型的數(shù)據(jù)處理能力，訓練數(shù)據(jù)的質(zhì)量、數(shù)量以及模型算法的優(yōu)劣在其中具有決定性作用。這項技術的優(yōu)勢在于能夠較好地繼承原始語音中包含的情緒性特征，并在音色轉(zhuǎn)換過程中保持原始語音表達的自然度。語音轉(zhuǎn)換技術在劇情片等類型片的對白制作中具有較高的使用價值。

目前來看，語音轉(zhuǎn)換技術在成熟度和實用性方面相較于文本轉(zhuǎn)語音技術表現(xiàn)出一定優(yōu)勢，但兩項技術總體發(fā)展進度并未呈現(xiàn)顯著差異。在電影對白制作實踐中，需要同時應用以上兩種技術，針對不同類型影片進行針對性使用或組合使用，充分發(fā)揮兩種技術各自優(yōu)勢，現(xiàn)階段單一技術的應用往往無法全面滿足電影對白制作的復雜要求。

3.2 人工智能技術在效果類聲音制作中的應用

人工智能技術在語音應用領域獲得成功后將迎來效果類聲音（Sound Effects，EFX）的制作突破。雖然從目前情況看效果類聲音的大規(guī)模生成應用可能會略晚于語音的應用，但兩者成熟應用的時間差不會太大。

目前人工智能技術在效果類聲音生成時主要采用“文本轉(zhuǎn)聲音”④（Text?to?Audio，TTA）方式。效果類聲音的多樣性、變化性、復雜性和主觀性、模糊性造成生成提示詞（Prompt）與機器理解之間容易形成偏差，這是目前為止造成這類聲音生成結果誤差較大的一方面原因；另一方面，效果類聲音的商業(yè)應用范圍遠遠低于音樂和語言的市場應用需求，再加上效果類聲音的生成質(zhì)量要求較高，因此現(xiàn)階段專注于這一領域的公司數(shù)量相對較少，這也在一定程度上制約了人工智能在這一領域的快速進步。

文本轉(zhuǎn)聲音技術相對成熟的公司是Elevenlabs和Stable Audio。Elevenlabs公司的總體實力較強，產(chǎn)品類型涵蓋了語音與效果類聲音處理兩方面；Stable Audio公司雖然整體偏向于利用人工智能技術生成音樂，但也同時提供了生成效果類聲音的功能，并且生成時長上限達到了3分鐘。另外，其提供的帶有文本提示的聲音轉(zhuǎn)聲音（Audio?to?Audio）功能也比較有特色。

以Nemisindo公司為代表的程序化音頻技術（Percedural Audio）采用了依靠算法合成效果類聲音的方式，提供了超過70種細分模型和700種預置程序，不同的程序和預置對應不同類型的效果類聲音，每一個細分模型對應一種聲音的合成算法并提供了詳細而直觀的聲音調(diào)整參數(shù)。人工智能技術在程序化音頻中應用的價值在于對算法的完善，通過對細分模型算法的優(yōu)化使其能夠合成出更加自然的聲音。

使用人工智能技術生成效果類聲音的公司中比較出色的是Krotos。Krotos應用人工智能技術的方式無法明確歸類于“文本轉(zhuǎn)聲音”或“程序化音頻”，這與Krotos技術發(fā)展沿革有一定關系。在引入人工智能技術之前，Krotos以聲音合成技術為基礎在特殊音響效果制作方向發(fā)展，在電影聲音和游戲聲音制作的細分領域推出了一系列優(yōu)秀產(chǎn)品。Krotos產(chǎn)品的定位非常清晰，聲音質(zhì)量較高，引入人工智能技術后推出的Krotos Studio不再局限于特殊音響效果的研究與應用，將產(chǎn)品應用領域從相對小眾的特殊音響效果擴展到整個效果類聲音，雖然目前Krotos Studio并不能直接生成多聲道環(huán)繞聲格式的聲音素材，但多個立體聲分軌文件可以組合構成環(huán)繞聲形式的素材用于混錄。

與電影對白使用多模態(tài)大模型為基礎不同，效果類聲音的特點決定了這類聲音的智能生成技術需要在通用語音模型的基礎上結合使用專用模型才有可能獲得更好的聲音質(zhì)量。目前來看，僅依靠通用大模型暫時還不能完全適應效果類聲音制作的技術需求，這在Krotos的產(chǎn)品中已經(jīng)有所體現(xiàn)，專用聲音模型與通用大模型的結合、云模型與端模型的結合或定制化的開源模型更適應未來人工智能技術在效果類聲音應用的發(fā)展方向，這也是我們認為在專業(yè)領域使用人工智能技術制作效果類聲音的進度會略慢于語音的原因之一。

4具有專業(yè)應用前景的部分人工智能公司

4.1 國外公司

表1中，Respeecher、Replica Studio和Altered的人工智能語音技術相對成熟。2020年12月，Respeecher公司使用人工智能技術為迪士尼（Disney+）的劇集《曼達洛人》（The Mandalorian）終季中年輕的盧克·天行者（Luke Skywalker）完成配音工作；2021年9月，在劇集《如果登月發(fā)生災難》（In Event of Moon Disaster）中為理查德-尼克松制作配音；2022年9月，在《美國達人》（America's got Talent）中合成并發(fā)布了埃爾維斯·普雷斯利（Elvis Presley）⑤的聲音等。從該公司制作的影視項目來看，可以說Respeecher是最早進入好萊塢聲音制作領域的公司，也是目前在影視聲音領域研究人工智能語音制作技術最為成熟的公司之一。

表1　具有專業(yè)應用可能性的人工智能公司名單

(注：公司數(shù)據(jù)截至2024年5月。表中所列的只是部分代表性公司，其中建立在英國或具有英國技術背景的公司居多，反映出英國在人工智能聲音處理方面的優(yōu)勢。)

Replica Studios公司的產(chǎn)品最初主要應用于游戲領域，與主流的渲染引擎虛幻引擎（Unreal Engine）和Unity等能夠完美銜接。Replica Studios在技術成熟后將應用范圍擴大至包括電影、動畫和有聲書等在內(nèi)的多個方向。2024年1月9日，Replica Studios公司與美國演員工會（SAG?AFTRA）簽署了開創(chuàng)性的協(xié)議，該協(xié)議一方面確定了配音演員有權決定是否同意在游戲項目中使用自己聲音的數(shù)字復制版⑥（Digital Replica）；另一方面也授權了Replica Studios公司在獲得演員同意的前提下，可以使用配音演員的聲音進行語言模型的訓練以創(chuàng)造新的角色聲音。合同中最關鍵的是加入了使用跟蹤（Usage Tracking）、數(shù)字復制版未來應用的透明公開（Transparency）和二次補償制度（Secondary Compensation）。根據(jù)這些制度規(guī)定，配音演員有權依據(jù)自己聲音的數(shù)字復制版在最終完成項目中的使用數(shù)量獲取報酬。該協(xié)議主要適用于人工智能語音技術在游戲角色方面的應用，對于廣播、電影、電視和流媒體等領域的應用則以“開發(fā)者外部使用（External Use by Developer）”條款進行了嚴格約束。雖然該協(xié)議并未將傳統(tǒng)的電影聲音制作領域包含其中，但該協(xié)議或?qū)⒆鳛槊绹輪T工會的合同范本對后續(xù)該類協(xié)議的簽署以及相關立法產(chǎn)生一定影響。

Replica Studios與美國演員工會簽訂的協(xié)議是我們目前在公開渠道看到的第一份有關人類語音在人工智能時代應用的、具有法律約束力的文件。協(xié)議條款中雖然沒有明確規(guī)定人類語音具有知識產(chǎn)權屬性，但通過對各個條款的詳細研究，能夠感受到在人工智能時代人類語音初步具備了一定的知識產(chǎn)權特征。雖然這份協(xié)議是行業(yè)協(xié)會與單獨商業(yè)公司之間的法律約定，不具備廣泛適用性，并未上升到國家立法層面，但不排除隨著人工智能技術的發(fā)展，未來從法律層面會對人類語音做出進一步、具有知識產(chǎn)權性質(zhì)的立法。我們認為該協(xié)議最大的價值在于“為人類語音與人工智能語音技術的潛在沖突提出了嘗試性的、可實施的、具有法律約束力的解決方案”。

4.2 國內(nèi)公司

2023年春節(jié)檔上映的影片《流浪地球2》成功使用人工智能語音技術進行了部分角色的對白制作，標志著人工智能語音技術第一次在國產(chǎn)院線電影對白制作中成功應用。由愛奇藝研發(fā)的基于深度神經(jīng)網(wǎng)絡和大模型技術的“奇聲影視劇智能配音系統(tǒng)”也已經(jīng)開始商業(yè)化應用，“為超過300部海外電影制作了普通話配音版本，為50多部華語電影、800多集國劇制作了多國配音版本”[1]。

以上應用案例說明國內(nèi)在人工智能語音技術的應用層面與國際領先水平差距不大，騰訊、字節(jié)跳動、科大訊飛、阿里云、百度等公司也都推出了相應的產(chǎn)品。目前，國內(nèi)公司還是在語音的通用領域發(fā)展，主要以滿足民用市場為主，而以Respeecher、Replica Studios等為代表的部分國外公司則已經(jīng)進入電影、電視和游戲等專業(yè)應用的細分領域。迄今，暫時還沒有看到國內(nèi)有實力的公司明確宣布進入專業(yè)音頻應用領域。

2024年6月，字節(jié)跳動推出的Seed?TTS語言生成基座模型具有較高的語言自然度和穩(wěn)定性，大量訓練數(shù)據(jù)中甚至包括了各地方言，具有較強的適用性，語音生成的質(zhì)量較高，情緒相對飽滿，技術上初步具備了電影對白需要的流暢性、差異性和自然度等要求。

5 人工智能技術在電影聲音制作應用的特點及其局限性

5.1 人工智能技術在電影聲音制作應用的特點

目前，人工智能技術在電影聲音制作中還限制在局部應用層面，無論是生成內(nèi)容還是聲音修復，人工智能技術主要以克服傳統(tǒng)制作方法無法實現(xiàn)的制作困難為主。即便在相對成熟的降噪應用方面，智能技術也無法完全替代人工操作。語音轉(zhuǎn)換的使用前提也是首先要錄制對白，之后才能進行音色替換。在以上應用場景中，傳統(tǒng)制作方法依然占據(jù)主體地位且暫時不可替代。尤其在面對高標準應用時，人工智能技術還存在一定局限性，所以現(xiàn)階段呈現(xiàn)出兩種方法混合應用的情況，人工智能技術主要作為傳統(tǒng)制作方法的技術補充進入制作環(huán)節(jié)。

從目前來看，人工智能生成技術產(chǎn)生的效果類聲音信號個性并不鮮明，相似性、趨同化的問題難以避免。

5.2 人工智能技術在電影聲音制作應用中的局限性

5.2.1 技術指標

首先，絕大多數(shù)文本生成語音的聲音技術指標偏低，其采樣率通常局限在22.050kHz，難以達到電影聲音制作所要求的24Bit/48kHz標準，雖然從專業(yè)應用角度可以適當降低對人工智能生成語音的技術指標要求，但依然希望其能滿足16Bit/44.1kHz的最低標準。

2023年下半年至2024年上半年，部分國外公司聲明可以達到48kHz的技術指標，但經(jīng)過技術分析發(fā)現(xiàn)其原生音頻的標稱指標與音質(zhì)主觀評價并不相符，不排除所謂更高的技術指標是通過對原生音頻進行頻譜合成方式進行的適度補償而非通過模型算法實現(xiàn)的、真正的高質(zhì)量音頻數(shù)據(jù)，這種聲音在電影標準監(jiān)聽條件下使用還存在些許缺陷。

目前科大訊飛大模型語音合成的最高采樣率能夠達到24kHz，量化深度達到16bit[2]，字節(jié)火山引擎最新推出的雙向流式接口則標明已升級至最高支持48kHz采樣[3]；愛奇藝奇聲使用語音轉(zhuǎn)換方式為影視劇進行的配音目前能夠達到32kHz的采樣頻率，有效聲音頻帶達到了16kHz[4]，實現(xiàn)了較好的聲音效果?？傮w而言，人工智能生成語音的有效頻帶在逐步向上擴展，從早期的4kHz逐步提升至6kHz、8kHz、12kHz至24kHz左右，這一方面受到訓練數(shù)據(jù)的影響，另一方面也與模型算法的進步有關。

其次，目前文字生成語音內(nèi)容的情緒表達存在不足，難以達到演員對臺詞細膩控制的程度。文字轉(zhuǎn)語音過程中需要在生成過程中對音色、音調(diào)、速度以及情緒的多樣性進行控制，雖然有些模型算法提供了上述調(diào)整功能，但總體效果還無法達到靈活控制的程度，而且各參數(shù)變化幅度不大，相對極端的參數(shù)設定會造成聲音質(zhì)量明顯下降，語音表現(xiàn)力和情感表達略顯不足。尤其是在激烈情緒狀態(tài)下，人類語言表現(xiàn)出的復雜情感和復雜變化，人工智能語音技術暫時還難以有效模仿。對生成語音不能進行相對靈活地調(diào)整，在一定程度上影響了文本轉(zhuǎn)語音在電影聲音制作中的應用。在這一點上，語音轉(zhuǎn)換技術的優(yōu)勢更加明顯，也是現(xiàn)階段人工智能技術最適合電影聲音制作的方式。

最后，音響效果的生成質(zhì)量有待提高。效果類聲音在電影聲音構成中的重要性僅次于對白，不但應用數(shù)量大，而且對聲音質(zhì)量有很高的要求，效果類聲音的制作水平也是判定整部影片聲音制作能力的重要標準之一。目前，人工智能生成的效果類聲音一方面在技術指標上偏低，另一方面在音質(zhì)主觀評價層面也表現(xiàn)出動態(tài)不足、力度欠缺、信號劣化等問題。依據(jù)現(xiàn)有模型狀況分析，如果希望效果類聲音能夠達到專業(yè)應用的水平，可能需要在多模態(tài)大語音模型的基礎上，開發(fā)出面向效果類聲音的專有模型，并進行高度針對性的數(shù)據(jù)訓練，這將有可能生成滿足電影聲音制作要求的效果類聲音，而這一過程也會引發(fā)研究團隊對投入產(chǎn)出比的考量。

經(jīng)過實測，Krotos生成的效果類聲音技術指標能夠達到24Bit/48kHz；部分人工智能公司生成的音響效果能夠達到16Bit/44.1kHz的標準，已經(jīng)普遍高于人工智能生成的語音。單純從顯性的技術指標分析，這樣的結果是比較理想的，但音質(zhì)主觀評價結果認為在保持現(xiàn)有客觀技術水平基礎上的主觀聽感還有提升空間。

5.2.2 訓練數(shù)據(jù)

限制人工智能生成內(nèi)容技術指標和主觀評價指標的因素主要源于兩方面：一方面是模型算法的優(yōu)劣，另一方面是訓練數(shù)據(jù)的質(zhì)量。隨著模型技術的迭代、算力水平的提升和運算成本的降低，模型算法能夠在可預見的時間內(nèi)解決對高質(zhì)量聲音技術指標的支持問題，因此未來人工智能技術在電影聲音制作領域應用的障礙不會是算力，也不會是模型算法等物理層面問題。生成高質(zhì)量音頻數(shù)據(jù)的前提是有足夠多的高質(zhì)量音頻數(shù)據(jù)用于訓練模型，而高質(zhì)量音頻數(shù)據(jù)是相對稀缺的資源，這種情況可能導致一個潛在問題：即便算法模型理論上能夠支持較高技術指標的內(nèi)容生成，卻可能因缺乏足夠的高質(zhì)量訓練數(shù)據(jù)而造成發(fā)展受限。

我們通過與部分公司交流可知，大量高質(zhì)量訓練數(shù)據(jù)的獲取是一個越來越突出的問題，而且是短時間內(nèi)很難解決的問題。相對而言，高質(zhì)量語音生成可以在一定程度上寄希望于模型算法迭代加以解決，但高質(zhì)量效果類聲音的稀缺則可能會影響人工智能技術在此類聲音的應用進度。

5.2.3 知識產(chǎn)權

訓練數(shù)據(jù)的質(zhì)量與數(shù)量是人工智能生成技術的基礎。早期大量訓練數(shù)據(jù)無法律意識的應用雖然對人工智能技術的發(fā)展做出了極大貢獻，但時至今日，人們對于具有知識產(chǎn)權的公開數(shù)據(jù)可否被無代價、無保留地應用于人工智能技術發(fā)展產(chǎn)生了質(zhì)疑。

訓練數(shù)據(jù)質(zhì)量的價值大于數(shù)量。在滿足數(shù)量的前提下，數(shù)據(jù)質(zhì)量決定了模型的效果。2024年6月，Adobe公司在其Creative Cloud產(chǎn)品服務條款中硬性規(guī)定了對用戶數(shù)據(jù)的使用權限，希冀將用戶數(shù)據(jù)，尤其是用戶的創(chuàng)意數(shù)據(jù)用于訓練基于人工智能的創(chuàng)作軟件Firefly Gen AI的研發(fā)。該條款的出臺立刻引起軒然大波，造成Adobe公司在兩天后被迫發(fā)表聲明以圖挽回聲譽。該事件的出現(xiàn)不是孤立的，也不是Adobe一家公司面臨的窘境。低質(zhì)數(shù)據(jù)已經(jīng)不能滿足人工智能數(shù)據(jù)訓練所需，各公司都需要優(yōu)質(zhì)數(shù)據(jù)用于提升人工智能的技術水平，而強烈的反對意見反映出人們對于數(shù)據(jù)的知識產(chǎn)權意識迅速提升。

知識產(chǎn)權意識的提升會進一步制約各公司獲取高質(zhì)量的訓練數(shù)據(jù)，影響人工智能技術的發(fā)展，但這一問題的本質(zhì)是商業(yè)利益問題，并非不可克服。

5.2.4 道德倫理和法律監(jiān)管

2023年8月15日，由國家網(wǎng)信辦會同發(fā)改委、教育部、科技部、工信部和公安部聯(lián)合發(fā)布的《生成式人工智能服務管理暫行辦法》在國內(nèi)實施；2024年3月13日，歐盟議會通過了《人工智能法案》；2024年4月9日，美國田納西州確立了《確保肖像、聲音和圖像安全法案》；2024年6月3日，歐洲數(shù)據(jù)保護監(jiān)督機構（European Data Protection Supervisor，EDPS）編撰了《生成式人工智能與EUDPR：EDPS就生成式人工智能數(shù)據(jù)保護的首個指南》等，這些國家層面的立法行為標志著人工智能技術的監(jiān)管逐步進入較完善的法制軌道。從現(xiàn)有情況看，有些現(xiàn)行法律條款的規(guī)定在人工智能時代背景下確實面臨著挑戰(zhàn)。

綜上所述，人工智能技術在電影聲音制作領域的應用面臨著一定的局限性，但所謂的局限性，尤其是技術層面和商用層面的局限性也具有一定時效性。隨著技術的迅速發(fā)展和法律制度的完善，當下的局限性會在人工智能技術的不同發(fā)展階段得到不同程度的解決。

6 人工智能技術在電影聲音制作中的定位

人工智能技術已經(jīng)或即將進入電影聲音制作的各個細分領域。雖然國內(nèi)外已有一些成功案例，但距離普遍大規(guī)模應用，尤其是具有價格和時間費效比的商業(yè)性應用還有一定距離。目前人工智能技術的長項體現(xiàn)在各種聲音素材生成、簡化或完善傳統(tǒng)制作工藝、降低制作難度和提升工作效率的層面，這些應用依然偏向于技術和工藝流程方面，處于輔助地位，雖然它能夠在一定程度上參與并影響著藝術創(chuàng)作，但“人”在其中的主導性地位依然無法撼動，主觀性、個性化的判斷與實施依然需要以人為主體做出。截至目前，人工智能作為一種新興的技術手段還擺脫不了制作工具的本質(zhì)屬性。

音樂雖然是電影聲音重要的組成部分，但音樂制作和內(nèi)容生成以作曲家、演奏家和音樂錄音師為主，在此不做過多研究。從目前獲得的信息和實例來看，人工智能技術在音樂領域的發(fā)展領先于其在電影聲音各細分領域的發(fā)展速度，這與其強大的市場支撐有重要關系。

7 未來發(fā)展

經(jīng)過歷時一年的跟蹤研究可以發(fā)現(xiàn)，人工智能技術已經(jīng)或即將在某些局部改變現(xiàn)有電影聲音制作體系。文中所述各種技術問題都能逐步解決，并不構成該技術在電影聲音制作中應用的障礙，聲音的錄制與人工智能生成作為兩種聲音獲取方式將并行存在。隨著技術的快速迭代，人工智能技術在電影對白、動效、音響效果、環(huán)境和音樂等各類素材的獲取方式以及聲音編輯、聲音處理和預混、終混等制作層面都有可能產(chǎn)生一定影響，雖然這種影響不至于從根本上顛覆傳統(tǒng)的電影聲音制作工藝，但人工智能技術的介入必將對電影聲音的創(chuàng)作意識、創(chuàng)作理念和技術路徑產(chǎn)生深遠影響，而其中最為關鍵的是對從事電影聲音工作人員的知識結構提出新的要求。

注釋、參考文獻

（向下滑動閱讀）

① iZotope RX降噪器的核心功能為De?click、De?crackle、De?clip和Spectral De?noise。

②文本轉(zhuǎn)語音也稱為文語轉(zhuǎn)換。

③語音轉(zhuǎn)換也稱為語音克?。╒oice Cloning）、音色融合（Voice Morphing）、音色替換或語音替換（Speech to Speech，STS）等。

④本文提到的文本轉(zhuǎn)聲音中的“聲音”不包括語音。

⑤埃爾維斯·普雷斯利又稱“貓王”，美國男歌手、演員，出生于美國密西西比州圖珀洛。

⑥聲音的數(shù)字復制版指通過人工智能技術合成后的配音演員聲音。

[1] 愛奇藝.“奇聲影視劇智能配音系統(tǒng)”獲評工信部“2024新型數(shù)字服務優(yōu)秀案例”[EB/OL].(2024?06?19)[2024?07?01]. https://mp.weixin.qq.com/s/ATiw_j6kTevHkp7CxMonBw.

[2] 訊飛開放平臺文檔中心.超擬人合成簡介[EB/OL].[2024?07?01].https://www.xfyun.cn/doc/spark/smart-tts-iOS.html#_1-%E8%B6%85%E6%8B%9F%E4%BA%BA%E5%90%88%E6%88%90%E7%AE%80%E4%BB%8B.

[3] 火山引擎文檔中心. 產(chǎn)品簡介.功能特性[EB/OL].（2024?04?28)[2024?07?01].https://www.volcengine.com/docs/6561/1257543.

[4] 李海.奇聲(IQDubbing)—面向影視劇的AI配音技術[EB/OL].(2023?04?04)[2024?07?01].https://cloud.tencent.com/developer/article/22557838.

[5] How AI is Changing Audio Post?Production[EB/OL].(2024?02?14)[2024?07?01].https://www.production-expert.com/production-expert-1/how-ai-is-changing-audio-post-production.

[6] Dialogue Cleanup?AI Versus Audio Professional?The Results[EB/OL].(2023?03?20) [2024?07?01].https://www.production-expert.com/production-expert-1/dialogue-cleanup-ai-versus-audio-professional-the-results.

[7] Krotos Ltd.Edinburgh.METHOD OF GENERATING AN AUDIO SIGNAL[P]. United States Patent Application Publication.Patent No.:US 10,606,548.

[8] SAG·AFTRA.Replica Digital Voice Replica Development Agreement[EB/OL].(2024?01?09)[2024?07?01]. https://www.sagaftra.org/files/sa_documents/Replica%20Studios%20Agreement%20for%20Digital%20Voice%20Replicas_0.pdf.

[9] Mascha D.AI Toos for Audio?an Overview of the Latest Applications for Sound Postprodution[EB/OL].(2023?09?11)[2024?07?01]. https://www.cined.com/ai-tools-for-audio-an-overview-of-the-latest-applications-for-sound-postproduction/.

[10] Wang D L, Chen J. Supervised Speech Separation Based on Deep Learning: An Overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10):1702?1726.

[11] Anastassiou P, Chen J, Chen J, et al. Seed-TTS: A Family of High-Quality Versatile Speech Generation Models. [EB/OL]. [2024-06-05].https://arxiv.org/abs/2406.02430.

[12] Wang Z, Chen Y, Wang X, et al. StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion. [EB/OL]. [2024-05-15]. https://arxiv.org/html/2401.11053v2

[13] Adán L B, Vassallo T , Reiss J D, et al. FXive: A Web Platform for Procedural Sound Synthesis[EB/OL]. [2024-06-05]. https://aes2.org/publications/elibrary-page/?id=19529

[14] Liu H, Chen Z, Yuan Y, et al. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.[EB/OL]. [2024-07-02]. https://doi.org/10.48550/arXiv.2308.05734.

[15] Liu H, Yuan Y, Liu X, et al. AudioLDM 2: Learning Holistic Audio Generation with Self-Supervised Pretraining[EB/OL]. [2024-06-06]. https://doi.org/10.48550/arXiv.2308.05734.

[16] Su J , Wang Y , Finkelstein A ,et al.Bandwidth Extension is All You Need[C]//ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2021.DOI:10.1109/ICASSP39728.2021.9413575.

[17] Serrà J, Pascual S, Pons J, et al. Universal Speech Enhancement with Score-based Diffusion[EB/OL]. [2024-06-12]. https://doi.org/10.48550/arXiv. 2206.03065.

[18]Micaela M. ARTificial: Why Copyright Is Not the Right Policy Tool to Deal with Generative AI[J]. The Yale Law Journal,2024:133.

[19] Lv S, Fu Y, Xing M, et al. S-DCCRN: Super Wide Band DCCRN with Learnable Complex Feature for Speech Enhancement[J]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022:7767-7771.

[20] Andreu S, Aylagas M V. Neural synthesis of sound effects using flow-based deep generative models[J]. In Proceedings of the Eighteenth AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (AIIDE'22),2022(18):2-9.

[21] Evans Z, Carr C J, Taylor J, et al.Fast Timing-Conditioned Latent Audio Diffusion[EB/OL].[2024-06-25]. https://arxiv.org/abs/2402.04825.

[22 ] Yao J, Lei Y, Wang Q, et al.Preserving background sound in noise-robust voice conversion via multi-task learning[EB/OL].[2024-06-01].https://www.semanticscholar.org/reader/6294114d38667033dcb10720e97ca194f3be6d22.

主管單位：國家電影局

主辦單位：電影技術質(zhì)量檢測所

標準國際刊號：ISSN 1673-3215

國內(nèi)統(tǒng)一刊號：CN 11-5336/TB

投稿系統(tǒng)：ampt.crifst.ac.cn

官方網(wǎng)站：www.crifst.ac.cn

期刊發(fā)行：010-63245081

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

《現(xiàn)代電影技術》｜石寶峰等：人工智能技術在電影聲音制作中的應用與展望