聽得見，更“慧”聽：揭秘AI+聲學(xué)的無限可能

2026-03-30 17:28:33　來源: 科技導(dǎo)報

北京舉報

分享至

原文發(fā)表于《科技導(dǎo)報》2026 年第4 期《人工智能在聲學(xué)中的應(yīng)用及展望》

人工智能（AI），正與聲學(xué)中的水聲學(xué)、超聲學(xué)和空氣聲學(xué)深度交叉融合，持續(xù)推動著聲學(xué)技術(shù)的革新?！犊萍紝?dǎo)報》邀請中國科學(xué)院大學(xué)鄭成詩研究員團(tuán)隊撰寫文章，重點探討了AI在聲學(xué)，尤其是在空氣聲學(xué)領(lǐng)域中的應(yīng)用。針對應(yīng)用過程中可能出現(xiàn)并致使其難以滿足實際應(yīng)用需求的核心問題展開討論。最后，總結(jié)了AI在聲學(xué)應(yīng)用中所面臨的挑戰(zhàn)和未來的發(fā)展方向。

聲學(xué)作為物理學(xué)的一個重要分支，按照聲波傳播媒介分為水聲學(xué)、超聲學(xué)和空氣聲學(xué)，分別研究聲波在液體中（水中）、固體中和空氣中的科學(xué)問題與實踐應(yīng)用。相較于聲學(xué)的悠久歷史，AI則是始于20世紀(jì)40年代的新興交叉學(xué)科，已與計算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等領(lǐng)域深度融合。近年來，以深度學(xué)習(xí)（ DL）為核心技術(shù)路線的NAI已經(jīng)在視覺和聽覺等領(lǐng)域接連取得突破，甚至部分任務(wù)（如中英文語音識別）性能已超越人類水平。隨著DL的飛速發(fā)展，能夠在眾多領(lǐng)域模擬人類處理問題的通用人工智能（AGI）應(yīng)運而生，成為科技巨頭競爭的焦點，同時也已成為大國綜合國力競爭的制高點。

AI與聲學(xué)的結(jié)合始于20世紀(jì)50年代，早期主要應(yīng)用于語音識別和語音合成領(lǐng)域，典型代表為貝爾實驗室在1952年開發(fā)的首個人工語音識別系統(tǒng)“Audrey”。經(jīng)過70余年的融合發(fā)展，其在聲學(xué)領(lǐng)域的應(yīng)用已超越語音信號處理范疇，深度融入語音處理、聲源定位、空間音頻、聲學(xué)場景檢測與分類及聲學(xué)仿真與優(yōu)化等多個分支領(lǐng)域，全面推動水聲學(xué)、超聲學(xué)和空氣聲學(xué)的技術(shù)革新，顯著提升各分支領(lǐng)域的性能表現(xiàn)。

我們的研究聚焦AI在聲學(xué)中的應(yīng)用，重點闡述“AI+聲學(xué)”技術(shù)的發(fā)展現(xiàn)狀，并與傳統(tǒng)聲學(xué)技術(shù)展開對比分析，剖析該領(lǐng)域所面臨的多重挑戰(zhàn)，并對“AI+聲學(xué)”技術(shù)的未來發(fā)展方向進(jìn)行展望。

1 基本概念

1.1 聲學(xué)基本概念

聲學(xué)主要研究聲音的產(chǎn)生、傳播、接收和效應(yīng)等。不同類型的聲音通常在頻率、聲壓級、頻譜等物理屬性上存在差異，在心理屬性上則對應(yīng)于音調(diào)、響度和音色的差異。

對在空間中傳播的聲音進(jìn)行接收、處理、識別和定位及調(diào)控是當(dāng)前聲學(xué)的研究熱點。對語音進(jìn)行撿拾、定位、增強(qiáng)、識別和合成，已成為聲學(xué)領(lǐng)域最為重要的研究分支之一；對其他類型的聲音信號進(jìn)行有效撿拾、處理、檢測和定位，也得到了廣泛的關(guān)注和研究。

1.2 AI基本技術(shù)

AI技術(shù)源于對人類智能的模擬與探索，其早期演進(jìn)為現(xiàn)代核心模型架構(gòu)奠定了重要基礎(chǔ)。經(jīng)過數(shù)十年演進(jìn)，AI領(lǐng)域形成了以經(jīng)典模型為核心的技術(shù)體系，各模型憑借獨特結(jié)構(gòu)適配不同數(shù)據(jù)處理需求，如圖1所示。

圖1 不同AI基本模型結(jié)構(gòu)示意

卷積神經(jīng)網(wǎng)絡(luò)（CNN）以“局部感知+參數(shù)共享”為核心，通過卷積核捕獲數(shù)據(jù)局部關(guān)聯(lián)特征，在減少參數(shù)量的同時保留關(guān)鍵信息。其結(jié)構(gòu)在局部相關(guān)性數(shù)據(jù)處理中表現(xiàn)突出，可高效提取層級化特征，適配多通道信號、圖像等數(shù)據(jù)類型。

長短期記憶網(wǎng)絡(luò)（LSTM）是適配時序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）變體，通過遺忘門、輸入門、輸出門的門控機(jī)制，解決傳統(tǒng)RNN面臨的長序列梯度消失（gradient vanishing）問題。

Transformer模型于2017年由Google提出，核心為自注意力（SA）機(jī)制，通過計算數(shù)據(jù)不同位置間的關(guān)聯(lián)權(quán)重，實現(xiàn)全局信息的并行捕獲與動態(tài)聚焦。相較于LSTM的時序漸進(jìn)式處理，其可同步整合全局上下文信息，強(qiáng)化關(guān)鍵信息的特征表達(dá)，在長時長、高冗余的復(fù)雜數(shù)據(jù)處理中優(yōu)勢顯著。

這些核心技術(shù)從早期簡單模型逐步演進(jìn)為復(fù)雜高效的架構(gòu)體系，為不同類型數(shù)據(jù)的解析提供了針對性工具，與聲學(xué)概念互補(bǔ)，共同支撐起了“AI+聲學(xué)”的融合應(yīng)用與創(chuàng)新發(fā)展。

2 應(yīng)用現(xiàn)狀

從技術(shù)應(yīng)用現(xiàn)狀來看，傳統(tǒng)聲學(xué)處理整體圍繞5大核心需求展開，為后續(xù)細(xì)分應(yīng)用場景提供基礎(chǔ)支撐：針對語音信號的“采集?特征提取?語義解析”需求；針對聲音空間位置確定的需求；針對聲場空間信息還原與個性化體驗需求；針對環(huán)境中有效噪聲信號與分類的需求；針對聲學(xué)組件性能評估與結(jié)構(gòu)設(shè)計需求。

2.1 AI+語音信號處理

語音信號處理作為AI與聲學(xué)交叉融合的核心領(lǐng)域，其發(fā)展歷程見證了從統(tǒng)計信號模型到數(shù)據(jù)驅(qū)動范式的轉(zhuǎn)變。早期的語音信號處理技術(shù)如語音識別主要基于隱馬爾可夫模型（HMM）處理常用語音特征。隨著AI技術(shù)的興起，CNN憑借分層時頻特征提取能力展現(xiàn)出顯著優(yōu)勢，而LSTM因自回歸處理模式，契合語音分幀處理模式和時間序列信號特性，被廣泛應(yīng)用于各類語音信號處理任務(wù)中。

2.1.1 語音識別

在語音識別領(lǐng)域，2012年，微軟研究院與Google率先使用深度神經(jīng)網(wǎng)絡(luò)（ DNN），將語音識別錯誤率降低20%~30%。這一突破標(biāo)志著語音識別從依賴手工設(shè)計特征與傳統(tǒng)模型，轉(zhuǎn)向基于數(shù)據(jù)驅(qū)動的DNN范式。2015年，百度公司提出DeepSpeech 2，在中文語音識別任務(wù)中首次超越人類專業(yè)速記員水平。2023年，OpenAI推出了Whisper模型，實現(xiàn)了語音識別、轉(zhuǎn)寫與翻譯的一體化突破，顯著提升了復(fù)雜環(huán)境與低資源語種識別的魯棒性。

隨著研究深入，多模態(tài)融合的語音識別技術(shù)成為新的研究熱點。在語音與視覺聯(lián)合建模中，研究人員通過攝像頭捕捉說話人的唇動信息，利用跨模態(tài)特征融合技術(shù)實現(xiàn)唇動特征與語音特征的精準(zhǔn)對齊（圖2）。近年來，腦機(jī)接口與語音識別的融合也取得了突破性進(jìn)展，例如，Kamble等嘗試結(jié)合腦電圖（EEG）信號進(jìn)行語音識別，取得了一些進(jìn)展。但由于腦電信號具有高噪聲、個體差異大等復(fù)雜性，該技術(shù)在性能與泛化性方面仍存在巨大的研究提升空間。

圖2 唇動?語音多模態(tài)識別系統(tǒng)示意

2.1.2 語音增強(qiáng)

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，數(shù)據(jù)驅(qū)動的語音增強(qiáng)技術(shù)通過構(gòu)建帶噪與純凈語音的非線性映射關(guān)系，實現(xiàn)了從“模型假設(shè)”到“數(shù)據(jù)學(xué)習(xí)”的范式轉(zhuǎn)變。2014年，Xu等利用多層DNN學(xué)習(xí)帶噪語音對數(shù)譜到干凈對數(shù)譜的非線性映射（圖3），相比傳統(tǒng)算法，其在各項指標(biāo)上實現(xiàn)顯著提升。近年來，一系列相關(guān)比賽也為該方向的發(fā)展注入新的活力，微軟公司于2020年發(fā)起深度降噪（DNS）挑戰(zhàn)賽，迄今已連續(xù)舉辦5年，該比賽的舉辦進(jìn)一步推動了該領(lǐng)域進(jìn)步。然而，面對實際場景中可能出現(xiàn)的模態(tài)缺失問題，如何提升多模態(tài)語音增強(qiáng)方法的魯棒性，仍是亟待解決的關(guān)鍵問題。

圖3 基于DNN的語音增強(qiáng)示意

2.1.3 語音合成

語音合成技術(shù)經(jīng)歷了從參數(shù)化統(tǒng)計語音合成到端到端生成的跨越式演進(jìn)。隨著AI技術(shù)在生成式建模領(lǐng)域的突破，語音合成實現(xiàn)了從“參數(shù)驅(qū)動”到“數(shù)據(jù)驅(qū)動”的根本性轉(zhuǎn)變。2016年，DeepMind推出的WaveNet模型取得了合成語音質(zhì)量的突破性進(jìn)展（圖4），顯著提升了合成語音的自然度，平均意見得分（MOS）從傳統(tǒng)參數(shù)化合成方法的3.6提升至4.0以上。浙江大學(xué)研究人員提出FastSpeech系列工作，通過時長預(yù)測與聲學(xué)特征解耦的設(shè)計，在保持高自然度的同時，將語音合成速度提升了數(shù)十倍。近年來，LLM和DM為語音合成帶來了新的技術(shù)突破。此外，多模態(tài)融合與個性化合成已成為當(dāng)前研究熱點，為定制化語音生成與高表現(xiàn)力語音提供了可能，在娛樂、人機(jī)交互等領(lǐng)域具有重要應(yīng)用價值。

圖4 WaveNet結(jié)構(gòu)示意

2.2 AI+聲源定位

人類僅用單耳就可實現(xiàn)聲源定位，源于不同方向入射的聲源受頭部、軀干及耳廓等的散射與濾波效應(yīng)差異；受此仿生啟發(fā)，有研究人員將單個傳聲器嵌入預(yù)設(shè)計的三維超材料結(jié)構(gòu)中，實現(xiàn)了多聲源實時定位和分離?，F(xiàn)有的絕大多數(shù)聲源定位系統(tǒng)均通過多傳感器拾取信號，并利用時延等特征估計聲源位置。

1916年，法國科學(xué)家Paul Langevin發(fā)明了首臺實用化聲吶定位系統(tǒng)，可同步測定目標(biāo)方位與距離。1794年，意大利科學(xué)家Lazzaro Spallanzani研究了蝙蝠進(jìn)行空間定位的基本機(jī)制，證實其不依賴視覺導(dǎo)航。1913年，Richardson基于超聲波原理發(fā)明了回聲定位器，奠定了主動式超聲定位基礎(chǔ)。20世紀(jì)10年代，空氣聲學(xué)定位方法興起。盡管早年的聲源定位系統(tǒng)大多源于軍事用途，但如今已廣泛應(yīng)用于海洋通信導(dǎo)航、醫(yī)學(xué)診斷、消費電子等民用領(lǐng)域。

2.2.1 傳統(tǒng)聲源定位方法

傳統(tǒng)聲源定位方法包括可控波束響應(yīng)（SRP）、基于高分辨率譜估計和基于時間差（TDOA）等方法。

可控波束響應(yīng)的典型方法為延遲相加波束形成（DSB），這類方法通常需要預(yù)先計算某一方向聲源的每個頻帶兩兩傳感器之間的傳播時延，補(bǔ)償傳播時延后求和所有頻帶所有兩兩傳感器之間的互功率譜；再搜尋全空間所有方向的最大值以定位聲源方位。由于可控波束相應(yīng)方法需要在全空間進(jìn)行波束掃描，并搜尋最大值，因此該類方法運算復(fù)雜度較高。

基于高分辨率譜估計的定位方法，包括最小方差（ MV）譜估計和基于特征值分析的方法如MUSIC、ESPRIT以及MODE等算法。這類方法通常需要首先估計空間相關(guān)矩陣，且假定聲源具備統(tǒng)計平穩(wěn)，當(dāng)聲源位置移動或者聲源二階統(tǒng)計特性不平穩(wěn)如語音信號，這類算法的定位性能會呈現(xiàn)不同程度的退化。相比于可控波束響應(yīng)方法，基于高分辨率譜估計的定位方法每次迭代所需要的運算復(fù)雜度更低。

基于TDOA的定位方法有2個階段：第一階段估計任意2個傳感器接收信號的相對時延，第二階段根據(jù)傳感器的相對位置以及第一階段估計得到的相對時延通過解一組非線性方程得到聲源位置的極大似然估計值。這類方法的性能取決于第一階段估計的相對時延的準(zhǔn)確性，Knapp等提出的廣義互相關(guān)（GCC）方法是應(yīng)用最為廣泛的相對時延估計方法。已有研究結(jié)果表明，基于時間差的定位方法在多聲源、強(qiáng)噪聲或者中等混響以上聲學(xué)場景性能不佳。

2.2.2 AI聲源定位方法

Grumiaux等對基于深度學(xué)習(xí)的室內(nèi)聲源定位進(jìn)行了全面的總結(jié)，涵蓋神經(jīng)網(wǎng)絡(luò)架構(gòu)、輸入特征與輸出目標(biāo)、訓(xùn)練及測試數(shù)據(jù)生成與獲取途徑，以及深度學(xué)習(xí)方法。

如圖5所示，基于AI的聲源定位方法的處理流程與傳統(tǒng)TDOA定位方法類似，可分為2個階段：第一階段提取定位所需特征，第二階段通過預(yù)訓(xùn)練模型映射輸出聲源位置。Krause等對比了不同輸入特征的聲事件檢測與定位性能。第二階段通常采用主流的MLP、CNN、Transformer等網(wǎng)絡(luò)結(jié)構(gòu)或其組合形式以實現(xiàn)更高的定位精度。

圖5 AI聲源定位處理流程

AI聲源定位方法的位置信息輸出常采用分類或回歸的方式：前者需將整個位置區(qū)域劃分為多個子區(qū)域，通過神經(jīng)網(wǎng)絡(luò)輸出各子區(qū)域的聲源存在概率；后者則通過神經(jīng)網(wǎng)絡(luò)直接輸出聲源坐標(biāo)信息。相較于分類方法給出的定位是離散值，回歸方法給出的定位是連續(xù)值，因此其定位精度更高。由于在基于AI的聲源定位中，輸入特征與輸出位置信息維度通常較低，神經(jīng)網(wǎng)絡(luò)架構(gòu)相對簡單，因而運算復(fù)雜度通常較低。

AI聲源定位方法通常需要大量訓(xùn)練數(shù)據(jù)優(yōu)化模型參數(shù)，常用數(shù)據(jù)獲取方式包括真實實驗錄制、仿真生成與數(shù)據(jù)增廣3類。錄制真實場景典型實驗數(shù)據(jù)的工作量極大。通過仿真生成訓(xùn)練數(shù)據(jù)是一種比較低成本的方案。研究表明，僅依賴仿真數(shù)據(jù)訓(xùn)練的模型在真實聲學(xué)場景下存在魯棒性不足的問題，而完全采用真實實驗數(shù)據(jù)成本高昂，因此通過數(shù)據(jù)增廣擴(kuò)充有限真實數(shù)據(jù)成為折衷方案。

在學(xué)習(xí)方法方面，當(dāng)前AI聲源定位模型訓(xùn)練以有監(jiān)督學(xué)習(xí)為主。目前，基于AI的聲源定位已應(yīng)用于水下目標(biāo)定位、空中目標(biāo)定位及超聲病灶定位等領(lǐng)域，在諸多場景中展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能，因而具備潛在的研究價值與工程應(yīng)用價值。

2.3 AI+空間音頻

空間音頻（spatial audio）旨在通過電聲和信號處理手段，實現(xiàn)聲場空間信息的撿拾、處理和重放，為聽者提供身臨其境的沉浸式聽覺體驗。作為聲學(xué)、聽覺心理和信息處理的交叉領(lǐng)域，空間音頻技術(shù)已廣泛應(yīng)用于科學(xué)研究、消費電子、虛擬/增強(qiáng)現(xiàn)實等場景。Cobos等討論了AI技術(shù)在空間音頻領(lǐng)域多個任務(wù)中的應(yīng)用現(xiàn)狀。

空間音頻核心流程包括信號撿拾（合成）、處理和重放3個主要環(huán)節(jié)。目前，AI技術(shù)主要應(yīng)用于空間音頻的信號處理環(huán)節(jié)，下面闡述相關(guān)的應(yīng)用現(xiàn)狀，重點放在取得了一定進(jìn)展的方向，簡要技術(shù)流程圖如圖6所示。

圖6 空間音頻不同任務(wù)的AI應(yīng)用技術(shù)流程示意

2.3.1 聲場重構(gòu)

傳聲器采集的聲場信號是空間離散的，而許多應(yīng)用場合如聲場空間信息分析、6自由度聲重放等需重構(gòu)任意連續(xù)位置的聲場信號。傳統(tǒng)的聲場重構(gòu)方法依賴線性內(nèi)插或外插，其重構(gòu)性能在采樣密度較低時會顯著下降。深度學(xué)習(xí)的引入為該問題提供了高效解決方案。得益于神經(jīng)網(wǎng)絡(luò)對聲場共性統(tǒng)計特性強(qiáng)大的學(xué)習(xí)能力，在稀疏采樣下，AI方法的重構(gòu)精度已逐步超越傳統(tǒng)方法。

2.3.2 音頻信號上混

空間音頻信號上混（upmixing）是將通路數(shù)較少的音頻信號（通常為雙通路立體聲）轉(zhuǎn)換為通路數(shù)更多的音頻格式（如 5.1 通路環(huán)繞聲）的過程，其技術(shù)本質(zhì)在于拓展原音頻信號的空間信息。鑒于AI在聲源識別與分離任務(wù)中的優(yōu)勢，相關(guān)技術(shù)被逐步應(yīng)用于上混領(lǐng)域：Park等采用DNN，以信號子帶對數(shù)譜為輸入，訓(xùn)練中央與環(huán)繞通路模型，實現(xiàn)立體聲到5.1通路的轉(zhuǎn)換；Choi等設(shè)計雙DNN架構(gòu)，分別負(fù)責(zé)信號分離與渲染，并將包含空間信息的通路ILD特征融入損失函數(shù)，強(qiáng)化網(wǎng)絡(luò)空間信息提取能力。實驗結(jié)果表明，AI方法在主客觀評價中均表現(xiàn)出較傳統(tǒng)方法更優(yōu)的性能，且該優(yōu)勢可能源于更強(qiáng)的方向性與環(huán)境氛圍分離能力。

2.3.3 個性化頭相關(guān)函數(shù)預(yù)測

HRTF是空間音頻耳機(jī)重放的核心數(shù)據(jù)，具有顯著個體差異性。個性化HRTF的測量需特定設(shè)備與場地，過程耗時費力。鑒于HRTF與人體生理參數(shù)（人頭尺寸、耳廓外形等）高度相關(guān)，基于生理參數(shù)的個性化HRTF預(yù)測成為簡便方案。為提升性能，相關(guān)研究利用AI技術(shù)來實現(xiàn)基于生理參數(shù)的個性化HRTF預(yù)測。Lee等提出一種MLP?CNN混合模型，利用CNN從耳部圖像中提取耳廓生理參數(shù)，然后利用MLP預(yù)測個性化的頭相關(guān)脈沖相應(yīng)（ HRIR）。Yao等提出一種基于變分自動編碼器（VAE）的方法，并用于實現(xiàn)利用生理參數(shù)對HRTF的個性化預(yù)測。上述研究結(jié)果表明，借助DNN的非線性建模能力，基于AI的HRTF方法普遍取得了較傳統(tǒng)線性映射更優(yōu)異的性能。

2.3.4 視聽信息融合的多模態(tài)處理

多模態(tài)AI技術(shù)通過融合視頻信息補(bǔ)充缺失的空間維度，實現(xiàn)單通路音頻到空間音頻的生成。Gao等采用U?Net網(wǎng)絡(luò)，從視頻及對應(yīng)單通路音頻中生成雙耳音頻信號；Morgado等則利用360°全景視頻與自監(jiān)督學(xué)習(xí)，通過生成時頻掩碼分離單通路信號中的方向性分量，進(jìn)而將其編碼為一階Ambisonics信號。迄今為止，AI已在空間音頻的多個任務(wù)中得到應(yīng)用，并在特定場景下展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能，凸顯了其在空間音頻領(lǐng)域的應(yīng)用潛力。

2.4 AI+聲學(xué)環(huán)境聲檢測、分類與噪聲智能監(jiān)測

聲學(xué)環(huán)境聲檢測分類與監(jiān)測以聲學(xué)信號為核心研究對象，旨在通過技術(shù)手段實現(xiàn)對復(fù)雜聲學(xué)環(huán)境的精準(zhǔn)感知與解讀。作為聲學(xué)、心理聽覺與AI的交叉融合產(chǎn)物，該技術(shù)已廣泛應(yīng)用于智能安防、生態(tài)環(huán)境治理、智能家居、城市精細(xì)化管理等多個領(lǐng)域，成為支撐多場景智能化升級的關(guān)鍵基礎(chǔ)技術(shù)，尤其在環(huán)境噪聲污染防治等實際場景中發(fā)揮著不可替代的作用。

2.4.1 傳統(tǒng)機(jī)器學(xué)習(xí)方法

早期聲學(xué)環(huán)境聲檢測、分類及監(jiān)測工作，依賴人工設(shè)計聲學(xué)特征與淺層機(jī)器學(xué)習(xí)分類器，這類方法面對復(fù)雜混合聲學(xué)環(huán)境（例如城市中多源疊加噪聲、相似聲事件干擾）時，存在特征適應(yīng)性差、抗干擾能力弱、泛化性能不足等局限，難以滿足精準(zhǔn)化、智能化的應(yīng)用訴求。

2.4.2 深度學(xué)習(xí)方法

AI技術(shù)為聲學(xué)環(huán)境聲檢測與分類帶來了系統(tǒng)性革新，推動聲學(xué)環(huán)境聲檢測、分類與噪聲智能檢測從“人工驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)型，基于DL的端到端技術(shù)路徑逐漸成為主流。其核心優(yōu)勢體現(xiàn)在3方面：

一是特征提取的自動化；
二是復(fù)雜環(huán)境的適配性；
三是推動監(jiān)測模式的智能化升級，實現(xiàn)噪聲源實時定位、等效聲級動態(tài)計算，改變傳統(tǒng)監(jiān)測依賴人工分析、效率低下的局面。

2016年，IEEE SPS發(fā)起的首次國際聲學(xué)場景和事件檢測及分類挑戰(zhàn)賽（DCASE）挑戰(zhàn)賽，成為該領(lǐng)域標(biāo)準(zhǔn)化與規(guī)?；l(fā)展的重要里程碑，推動了聲學(xué)環(huán)境聲檢測與分類及噪聲監(jiān)測技術(shù)的快速迭代。

環(huán)境聲的多樣性、復(fù)雜性，以及高質(zhì)量標(biāo)注數(shù)據(jù)集的稀缺性，導(dǎo)致模型泛化能力面臨挑戰(zhàn)。預(yù)訓(xùn)練與遷移學(xué)習(xí)技術(shù)的應(yīng)用有效緩解了這一問題。2017年，Google公司推出AudioSet數(shù)據(jù)集，為模型的預(yù)訓(xùn)練提供了海量數(shù)據(jù)支撐。基于此，Kong等提出預(yù)訓(xùn)練音頻模型PANN，如圖7所示，其基于AudioSet預(yù)訓(xùn)練，可靈活遷移至其他6種音頻任務(wù)，并在聲事件分類上取得當(dāng)時最好的性能。

圖7 PANN采用的預(yù)訓(xùn)練模型結(jié)構(gòu)示意

此外，針對實際場景中噪聲、小眾聲事件等標(biāo)注稀缺問題，無監(jiān)督、半監(jiān)督及自監(jiān)督學(xué)習(xí)方法陸續(xù)涌現(xiàn)，這類方法通過大量無標(biāo)簽聲學(xué)數(shù)據(jù)中的潛在規(guī)律，有效擴(kuò)展了技術(shù)在數(shù)據(jù)缺乏場景中的應(yīng)用邊界。

2.5 AI+聲學(xué)仿真優(yōu)化

聲學(xué)仿真與結(jié)構(gòu)優(yōu)化是聲學(xué)工程中的關(guān)鍵任務(wù)之一，廣泛應(yīng)用于建筑聲學(xué)、交通降噪、聽覺增強(qiáng)設(shè)備以及新型聲學(xué)材料的研發(fā)。隨著問題復(fù)雜度的增加，如結(jié)構(gòu)多樣性提升、優(yōu)化目標(biāo)增多、設(shè)計空間高維化，傳統(tǒng)方法逐漸暴露出不足。AI技術(shù)的興起為這一需求提供了一種可行路徑，尤其在數(shù)據(jù)量不斷積累、計算資源持續(xù)提升的背景下，AI正逐步成為聲學(xué)結(jié)構(gòu)優(yōu)化的重要引擎。

聲學(xué)仿真通常涉及從結(jié)構(gòu)參數(shù)到性能指標(biāo)的映射，即正向問題（forward problem），而實際工程往往需要解決逆向問題（inverse problem），即從目標(biāo)性能出發(fā)反推結(jié)構(gòu)設(shè)計。隨著DL和強(qiáng)化學(xué)習(xí)（RL）的興起，研究者開始借助AI技術(shù)在復(fù)雜系統(tǒng)中實現(xiàn)反向設(shè)計、高維參數(shù)映射以及快速性能預(yù)測。

2.5.1 傳統(tǒng)聲學(xué)仿真與優(yōu)化方法

有限元法是聲學(xué)結(jié)構(gòu)分析中應(yīng)用最廣泛的數(shù)值技術(shù)，能夠求解復(fù)雜邊界條件下的聲場分布。然而其缺點也非常突出：每次更改結(jié)構(gòu)參數(shù)都需重新建模和求解，導(dǎo)致大量冗余計算。拓?fù)鋬?yōu)化是一種數(shù)學(xué)驅(qū)動的結(jié)構(gòu)形貌優(yōu)化方法，常用于最大化某一目標(biāo)（如吸收系數(shù)、阻抗匹配等）。然而，這類方法往往依賴梯度信息，難以適應(yīng)非線性材料行為，且不易擴(kuò)展至多目標(biāo)情形。為提升優(yōu)化效率，部分研究結(jié)合了遺傳算法、粒子群算法等啟發(fā)式搜索方法，緩解了參數(shù)空間維度高帶來的問題。但這些算法本質(zhì)仍是黑盒搜索，計算效率低、收斂性差，且在復(fù)雜結(jié)構(gòu)多目標(biāo)優(yōu)化中仍需大量仿真樣本支持。

2.5.2 AI聲學(xué)仿真優(yōu)化

AI反向優(yōu)化的基本思想是利用神經(jīng)網(wǎng)絡(luò)擬合性能與結(jié)構(gòu)參數(shù)之間的映射關(guān)系。Donda等指出MLP適用于低維連續(xù)參數(shù)預(yù)測，而CNN適合處理網(wǎng)格結(jié)構(gòu)的拓?fù)鋬?yōu)化問題，在預(yù)測聲學(xué)帶隙、吸聲頻率等方面效果顯著。近年來興起的PINN備受關(guān)注。該類模型將物理定律（如聲波傳播方程）嵌入損失函數(shù)中，使訓(xùn)練過程兼具數(shù)據(jù)驅(qū)動與物理約束，提高了泛化能力與物理一致性。

在具體應(yīng)用場景中，AI技術(shù)已深度融入周期性聲子晶體、聲學(xué)超材料等領(lǐng)域。Shi等采用LSTM?Transformer串聯(lián)的類自編碼器模型，如圖8所示，實現(xiàn)了空間折疊聲學(xué)超材料（SFAM）的中低頻寬帶隔聲反設(shè)計與空間優(yōu)化，為空間受限場景下的聲學(xué)超材料高效設(shè)計提供了可行方案，其預(yù)測性能如圖9所示。Zea等借鑒ResNet架構(gòu)，實現(xiàn)寬頻率范圍、不同尺寸與流阻率的矩形吸聲材料在強(qiáng)邊緣衍射場景下的吸聲系數(shù)的精準(zhǔn)估計，且在400 Hz以下低頻段及小尺寸吸聲材料上的性能顯著優(yōu)于傳統(tǒng)雙麥傳聲器。隨著AI與物理建模的融合深化，越來越多研究開始探索多物理場（如聲?熱、電?聲）的耦合優(yōu)化。未來，基于小樣本學(xué)習(xí)、自監(jiān)督預(yù)訓(xùn)練與遷移學(xué)習(xí)的算法將進(jìn)一步降低對大量仿真數(shù)據(jù)的依賴。

圖8 用于隔聲材料設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)示意

圖9 經(jīng)過AI模型優(yōu)化前后隔聲量結(jié)果對比

3 面臨挑戰(zhàn)

3.1 泛化性問題

泛化性是制約AI在聲學(xué)領(lǐng)域落地的核心瓶頸，其本質(zhì)是模型對“未見場景”的適配能力不足。Rohlfs等將泛化分為樣本泛化、分布泛化、域泛化、任務(wù)泛化、跨模態(tài)泛化及范圍泛化6類。

3.2 數(shù)據(jù)依賴與質(zhì)量問題

數(shù)據(jù)是AI技術(shù)的燃料和基礎(chǔ)，其依賴與質(zhì)量問題直接制約模型的性能上限。對于聲學(xué)模型而言，數(shù)據(jù)相關(guān)難題主要集中在2個方面：

一是高質(zhì)量標(biāo)注數(shù)據(jù)的獲取瓶頸；
二是數(shù)據(jù)質(zhì)量的固有缺陷。

近年來，大模型的出現(xiàn)進(jìn)一步加劇了該挑戰(zhàn)，其對數(shù)據(jù)規(guī)模的需求呈指數(shù)級增長，需以數(shù)十萬乃至億小時級的海量音頻數(shù)據(jù)為支撐，遠(yuǎn)超傳統(tǒng)模型的數(shù)萬至百萬級需求，使得數(shù)據(jù)缺口被進(jìn)一步放大。此外，數(shù)據(jù)依賴問題還延伸至合規(guī)性和安全層面。

3.3 復(fù)雜度問題

AI模型的復(fù)雜度與聲學(xué)應(yīng)用場景的資源約束間存在突出矛盾。從模型層面看，現(xiàn)有通用AI模型的參數(shù)規(guī)模已達(dá)千億級至萬億級，運算復(fù)雜度往往隨參數(shù)規(guī)模非線性增長，導(dǎo)致云端部署的算力與能源成本居高不下。從應(yīng)用場景看，聲學(xué)技術(shù)的落地場景日益多元，對模型提出了嚴(yán)苛的要求，現(xiàn)有解決方案可分為3類：

一是模型壓縮技術(shù)，知識蒸餾（knowledge distillation）通過“教師?學(xué)生”架構(gòu)實現(xiàn)性能遷移；
二是模型架構(gòu)，如結(jié)合聲學(xué)先驗設(shè)計輕量級網(wǎng)絡(luò)架構(gòu)；
三是硬件協(xié)同，存算一體芯片通過集成存儲與運算單元，降低數(shù)據(jù)搬運帶來的功耗與延時，為低功耗場景提供硬件支撐。

這些技術(shù)的核心是在模型性能與復(fù)雜度之間尋求最優(yōu)平衡，但在極端低資源場景下的性能損失控制仍需進(jìn)一步研究。

3.4 實時性問題

實時性是AI聲學(xué)技術(shù)面向?qū)嶋H應(yīng)用的關(guān)鍵指標(biāo)，其需求差異源于聲學(xué)信號的傳播特性與應(yīng)用場景的功能定位。從時延要求看，不同場景的閾值跨度極大。實時性的核心瓶頸包括2方面：一是算法復(fù)雜度，二是算法延遲。因而解決方案需針對性優(yōu)化：針對復(fù)雜度問題，可采用輕量化模型設(shè)計、模型壓縮等技術(shù)降低運算量；針對延遲問題，可選擇時域處理方法或在時頻域中采用短幀移與重疊保持法（OLS）。值得注意的是，實時性往往與性能存在平衡，如何在極端時延約束下保證處理效果，是當(dāng)前研究的重點方向。

3.5 多模態(tài)融合問題

多模態(tài)融合已成為提升聲學(xué)技術(shù)性能的重要路徑，但在聲學(xué)領(lǐng)域的應(yīng)用仍面臨3類核心挑戰(zhàn)。其一，模態(tài)異構(gòu)性；其二，融合效率與性能的平衡；其三，低資源場景的多模態(tài)數(shù)據(jù)稀疏。當(dāng)前研究主要聚焦跨模態(tài)精準(zhǔn)對齊、輕量化融合架構(gòu)和低資源適配技術(shù)，未來需進(jìn)一步結(jié)合聲學(xué)物理規(guī)律優(yōu)化，推動跨模態(tài)技術(shù)實用化。

4 結(jié)論與展望

AI與聲學(xué)的深度融合，推動了聲學(xué)從基礎(chǔ)研究到工程應(yīng)用的全面革新。

在語音信號處理領(lǐng)域，AI已實現(xiàn)從特征工程到端到端建模的范式轉(zhuǎn)變。其中，基于深度學(xué)習(xí)的語音識別、增強(qiáng)和合成技術(shù)，不僅在特定任務(wù)中超越了人類水平，還通過多模態(tài)融合和生成式模型拓展了應(yīng)用邊界。然而，這些技術(shù)在實際部署中仍受限于數(shù)據(jù)依賴性和計算資源需求。

AI在聲學(xué)中的應(yīng)用將呈現(xiàn)以下發(fā)展趨勢：首先，跨模態(tài)與多任務(wù)協(xié)同將成為技術(shù)突破的關(guān)鍵方向。其次，小樣本與自監(jiān)督技術(shù)將緩解強(qiáng)數(shù)據(jù)依賴問題。未來，基于自監(jiān)督學(xué)習(xí)和元學(xué)習(xí)的框架可以廣泛應(yīng)用于聲學(xué)任務(wù)中，通過挖掘數(shù)據(jù)內(nèi)在規(guī)律和跨領(lǐng)域知識遷移，降低算法對數(shù)據(jù)的依賴。此外，物理信息引導(dǎo)的生成式模型有望生成更符合真實聲學(xué)規(guī)律的數(shù)據(jù)，進(jìn)一步提升模型泛化能力；再者，邊緣計算與輕量化部署將推動基于AI的聲學(xué)技術(shù)的普及。

AI在聲學(xué)中的應(yīng)用和發(fā)展也面臨諸多挑戰(zhàn)。在基礎(chǔ)理論層面，聲學(xué)與AI的交叉研究尚未建立完善的理論框架，需要重點研究以指導(dǎo)模型的設(shè)計和性能評估。在技術(shù)層面，如何平衡算法復(fù)雜度與性能，實現(xiàn)可擴(kuò)展性的實時處理，仍是亟待解決的關(guān)鍵技術(shù)難題。此外，在倫理與隱私保護(hù)方面也需要行業(yè)規(guī)范和技術(shù)防護(hù)的雙重保障。

未來，隨著基礎(chǔ)理論的突破、技術(shù)的迭代和跨學(xué)科合作的深化，“AI+聲學(xué)”將在海洋探測、醫(yī)療診斷、虛擬現(xiàn)實、環(huán)境聲學(xué)等領(lǐng)域進(jìn)一步發(fā)揮重要的作用，以最終實現(xiàn)從實驗室研究、單點技術(shù)落地到大規(guī)模產(chǎn)業(yè)化應(yīng)用的跨越。

本文作者：鄭成詩、李安冬、饒丹、袁旻忞、江峰、李曉東

作者簡介：鄭成詩，中國科學(xué)院聲學(xué)研究所，噪聲與音頻聲學(xué)實驗室，中國科學(xué)院大學(xué)，研究員，研究方向為通信聲學(xué)。

文章來源：鄭成詩, 李安冬, 饒丹, 等. 人工智能在聲學(xué)中的應(yīng)用及展望[J]. 科技導(dǎo)報, 2026, 44(4): 62?78 .

本文有刪改，

內(nèi)容為【科技導(dǎo)報】公眾號原創(chuàng)，歡迎轉(zhuǎn)載
白名單回復(fù)后臺「轉(zhuǎn)載」

《科技導(dǎo)報》創(chuàng)刊于1980年，中國科協(xié)學(xué)術(shù)會刊，主要刊登科學(xué)前沿和技術(shù)熱點領(lǐng)域突破性的研究成果、權(quán)威性的科學(xué)評論、引領(lǐng)性的高端綜述，發(fā)表促進(jìn)經(jīng)濟(jì)社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學(xué)文化、促進(jìn)科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.