国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

韓國(guó)棟國(guó)大學(xué)突破:AI音樂偵探實(shí)現(xiàn)人耳不可察覺的造假痕跡識(shí)別

0
分享至


這項(xiàng)由韓國(guó)首爾棟國(guó)大學(xué)MARTE實(shí)驗(yàn)室與Intrect機(jī)構(gòu)聯(lián)合完成的研究,以預(yù)印本形式發(fā)布,研究成果已提交至音樂信息檢索領(lǐng)域頂級(jí)會(huì)議,感興趣的讀者可通過arXiv等學(xué)術(shù)平臺(tái)搜索"ArtifactNet"或作者"Heewon Oh"查找完整論文。

每天,全球各大音樂流媒體平臺(tái)上悄悄涌入超過五萬(wàn)首完全由AI生成的歌曲。它們聽起來(lái)像真人演奏,有旋律、有節(jié)奏、有情緒,但背后沒有任何一雙真實(shí)的人類雙手觸碰過琴鍵。對(duì)于聽眾來(lái)說,這可能只是一個(gè)品味問題;但對(duì)于那些靠音樂謀生的創(chuàng)作者、對(duì)于版權(quán)保護(hù)機(jī)制、對(duì)于整個(gè)音樂產(chǎn)業(yè)的生態(tài)來(lái)說,這是一個(gè)正在演變?yōu)槲C(jī)的難題。而目前,我們幾乎沒有可靠的工具來(lái)區(qū)分它們。

棟國(guó)大學(xué)的研究者Heewon Oh決定換一種思路來(lái)解決這個(gè)問題。與其教計(jì)算機(jī)"聽"AI音樂聽起來(lái)像什么,不如去追蹤AI音樂在物理層面上留下了什么無(wú)法抹去的痕跡。這個(gè)思路催生了一個(gè)叫做ArtifactNet的系統(tǒng),以及一套被研究者稱為"法證物理學(xué)"(forensic physics)的檢測(cè)框架。這篇文章將帶你完整走進(jìn)這項(xiàng)研究,從問題的根源開始,一直到那些令人信服的實(shí)驗(yàn)數(shù)據(jù)。

一、AI音樂工廠的秘密流水線:每首歌都必須經(jīng)過的"壓縮關(guān)卡"

要理解ArtifactNet為什么有效,我們首先要明白AI是怎么生成音樂的,以及這個(gè)過程中隱藏著什么樣的不可避免的缺陷。

不管是Suno、Udio、MusicGen還是Stable Audio,這些AI音樂生成工具在背后都依賴一種叫做"神經(jīng)音頻編解碼器"(neural audio codec)的技術(shù)組件。你可以把它理解成一個(gè)極其精密的壓縮機(jī)器。原始音頻信號(hào)非常龐大,就像一張超高清原始照片,在被AI處理之前,必須先"壓縮"成一串?dāng)?shù)字代碼;AI在這些代碼上施展魔法,完成創(chuàng)作;然后再把代碼"解壓"還原成我們聽到的音頻。

這個(gè)壓縮過程的核心技術(shù)叫做"殘差向量量化"(Residual Vector Quantization,簡(jiǎn)稱RVQ)。具體來(lái)說,這套機(jī)制的工作方式類似于一本有限頁(yè)數(shù)的"聲音字典"。音頻中連續(xù)流動(dòng)的聲波,被強(qiáng)行翻譯成這本字典里最接近的幾個(gè)詞條的組合。典型的系統(tǒng)里,這本字典可能有1024個(gè)詞條,分8到32層疊加使用。

關(guān)鍵問題出現(xiàn)了:聲音是連續(xù)的、無(wú)限微妙的,而字典的詞條是有限的、離散的。每次查字典,總會(huì)有一點(diǎn)點(diǎn)聲音信息丟失在"最近的詞條"和"真實(shí)聲音"之間的縫隙里。更重要的是,這個(gè)縫隙是永久性的——一旦信息被量化壓縮,那部分細(xì)節(jié)就永遠(yuǎn)消失了,無(wú)法還原。

Heewon Oh的核心發(fā)現(xiàn)正在于此:這個(gè)量化縫隙會(huì)在AI生成的音頻中留下一種特殊的、結(jié)構(gòu)化的痕跡。每一首AI歌曲,不管它由什么風(fēng)格的模型生成,都必須經(jīng)過這道壓縮關(guān)卡,因此都帶有這種痕跡。研究者把這一現(xiàn)象稱為"法證殘差放大"(forensic residual amplification)。

二、以前的偵探是怎么工作的,為什么他們會(huì)認(rèn)錯(cuò)人

在ArtifactNet出現(xiàn)之前,學(xué)術(shù)界有兩種主要的AI音樂檢測(cè)思路,各有其問題。

第一種思路叫做"表征學(xué)習(xí)",代表作是一個(gè)叫CLAM的系統(tǒng)。它的做法是訓(xùn)練一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)去"學(xué)習(xí)"AI音樂的聲音特征,參數(shù)量高達(dá)1.94億個(gè)——大約相當(dāng)于ArtifactNet的49倍體量。CLAM在它見過的AI生成器上表現(xiàn)不錯(cuò),但問題在于:當(dāng)一個(gè)全新的AI生成器出現(xiàn)時(shí),它的"聲音風(fēng)格"可能和訓(xùn)練數(shù)據(jù)完全不同,CLAM就會(huì)認(rèn)不出來(lái)。更糟糕的是,在后來(lái)的實(shí)驗(yàn)里,CLAM在真實(shí)人類音樂上的誤報(bào)率高達(dá)69.3%——也就是說,它把七成的真實(shí)音樂都誤判成了AI生成。

第二種思路叫做"自編碼器指紋",代表作是SpecTTTra。它通過學(xué)習(xí)自動(dòng)編碼器的重建誤差來(lái)判斷,在特定的數(shù)據(jù)集上能達(dá)到97%的F1分?jǐn)?shù)。但同樣,一旦遇到訓(xùn)練時(shí)沒見過的生成器,性能會(huì)崩塌到50%到68%之間——幾乎和隨機(jī)猜測(cè)沒有區(qū)別。

這兩種方法共同的根本問題,就像是一個(gè)偵探通過"嫌疑人的穿著風(fēng)格"來(lái)認(rèn)人:今天他穿西裝,明天他換了休閑裝,偵探就認(rèn)不出來(lái)了。而ArtifactNet的創(chuàng)新在于:它不看風(fēng)格,它尋找的是嫌疑人皮膚上永遠(yuǎn)無(wú)法洗掉的胎記。

三、ArtifactNet的偵探手冊(cè):三步找出不可磨滅的痕跡

ArtifactNet的整個(gè)檢測(cè)流程由三個(gè)相互銜接的步驟構(gòu)成,總參數(shù)量只有400萬(wàn)個(gè),運(yùn)行起來(lái)極為輕量。

第一步叫做"提取法證殘差",由一個(gè)叫ArtifactUNet的神經(jīng)網(wǎng)絡(luò)完成。這個(gè)網(wǎng)絡(luò)的設(shè)計(jì)有一個(gè)非常巧妙的約束條件。通常情況下,如果你讓一個(gè)網(wǎng)絡(luò)去提取音頻中的"殘差信號(hào)",它可能會(huì)偷懶,直接把整個(gè)音頻信號(hào)原樣輸出——這在技術(shù)上滿足了條件,但什么有用信息都沒有。為了防止這種情況,研究者給這個(gè)網(wǎng)絡(luò)加了一個(gè)"有界掩膜"限制:網(wǎng)絡(luò)預(yù)測(cè)的是一個(gè)乘在原始信號(hào)上的"掩膜",而這個(gè)掩膜的范圍被強(qiáng)制限定在0到0.5之間。換句話說,網(wǎng)絡(luò)最多只能提取原始信號(hào)能量的一半,它必須認(rèn)真去尋找那些真正的細(xì)微異常,而不能耍把戲。

這個(gè)ArtifactUNet的訓(xùn)練也很有意思,分為兩個(gè)階段。第一階段叫"知識(shí)蒸餾":研究者先用一個(gè)叫Demucs v4的大型音源分離模型(有4200萬(wàn)個(gè)參數(shù))來(lái)處理音頻,提取出它在分離人聲、鼓、貝斯、其他樂器時(shí)產(chǎn)生的"剩余信號(hào)"——這個(gè)剩余信號(hào)就是Demucs無(wú)法歸類到任何樂器的聲音殘骸。然后用這個(gè)大模型的輸出作為"老師",教ArtifactUNet學(xué)習(xí)提取類似的殘差結(jié)構(gòu),這樣推理時(shí)就不需要運(yùn)行那個(gè)笨重的大模型了。第二階段叫"凍結(jié)分類器引導(dǎo)":把后續(xù)的分類器網(wǎng)絡(luò)參數(shù)固定住,只繼續(xù)調(diào)整ArtifactUNet,讓它提取的殘差不只是結(jié)構(gòu)上正確,而且對(duì)最終的"AI還是真實(shí)"判斷最有幫助。研究者發(fā)現(xiàn),如果同時(shí)訓(xùn)練提取器和分類器,訓(xùn)練過程會(huì)來(lái)回震蕩不穩(wěn)定,分階段則解決了這個(gè)問題。

第二步叫做"七通道法證特征計(jì)算",用到了一種叫HPSS(諧波-打擊樂源分離)的技術(shù)。簡(jiǎn)單來(lái)說,HPSS能把一段音頻信號(hào)拆分成兩部分:一部分是有音高的旋律性成分(諧波分量),另一部分是瞬間爆發(fā)的打擊性成分(打擊樂分量)。研究者把這個(gè)技術(shù)用在了第一步提取出的殘差信號(hào)上,而不是原始音頻上——這是整個(gè)領(lǐng)域的首次嘗試。

這樣做的邏輯是:如果一首歌是真實(shí)人類演奏的,Demucs應(yīng)該能把各種樂器分離得比較干凈,剩余的殘差應(yīng)該是混亂、隨機(jī)的小噪音。但如果是AI生成的,由于RVQ壓縮造成的諧波細(xì)節(jié)損失,Demucs會(huì)在殘差里留下大量結(jié)構(gòu)化的諧波泄漏和打擊樂泄漏。把這兩種泄漏分別提取出來(lái),加上它們的時(shí)間變化率(一階導(dǎo)數(shù))、加速度(二階導(dǎo)數(shù))、諧波與打擊樂的比值對(duì)數(shù),以及逐幀的頻譜變化量,共同組成了七個(gè)信息通道,構(gòu)成了這套系統(tǒng)的核心"指紋"。

第三步則是分類和投票。一個(gè)輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)(參數(shù)量只有40萬(wàn)個(gè))處理4秒長(zhǎng)的音頻片段,輸出一個(gè)0到1之間的"AI概率"。對(duì)于一首完整的歌曲,系統(tǒng)會(huì)把所有片段的概率取中位數(shù),超過0.5就判定為AI生成。

四、編碼格式這個(gè)大坑:為什么MP3差點(diǎn)毀掉一切

在ArtifactNet的開發(fā)過程中,研究者遭遇了一個(gè)幾乎致命的問題,而解決這個(gè)問題的方案同樣值得詳細(xì)介紹。

網(wǎng)絡(luò)上流傳的音樂大量以MP3、AAC、Opus等有損壓縮格式存在。這些格式本身也會(huì)對(duì)音頻信號(hào)進(jìn)行某種形式的"壓縮失真"處理,會(huì)在頻譜上留下自己的痕跡。早期版本的ArtifactUNet(訓(xùn)練時(shí)只用WAV格式無(wú)損音頻)完全沒有區(qū)分這兩種來(lái)源的失真能力。

實(shí)驗(yàn)結(jié)果觸目驚心:對(duì)真實(shí)人類音樂使用MP3編碼后,系統(tǒng)的誤報(bào)率直接飆升到98.7%——幾乎把所有真實(shí)MP3音樂都誤判成了AI生成;而對(duì)AI生成的音樂使用AAC編碼后,系統(tǒng)又會(huì)把它們漏判為真實(shí)音樂。原始系統(tǒng)在不同編碼格式下的預(yù)測(cè)概率跨度高達(dá)0.95,意味著換一種格式,結(jié)論就可能完全翻轉(zhuǎn)。

解決方案叫做"編碼感知訓(xùn)練":訓(xùn)練時(shí),對(duì)每首歌同時(shí)生成WAV、MP3 128kbps、AAC 128kbps和Opus 128kbps四個(gè)版本,讓同一批次的訓(xùn)練數(shù)據(jù)涵蓋所有四種格式。這樣,網(wǎng)絡(luò)就被迫學(xué)會(huì)忽略有損壓縮帶來(lái)的格式特征,專注于尋找那些跨格式穩(wěn)定存在的RVQ量化痕跡。

效果立竿見影。經(jīng)過編碼感知訓(xùn)練后,真實(shí)音樂在不同編碼格式下的預(yù)測(cè)概率跨度從0.95降到了0.16,減少了83%;AI音樂的跨度從0.72降到了0.14,減少了81%。這意味著不管音樂以什么格式傳播,檢測(cè)結(jié)論都會(huì)保持穩(wěn)定。

五、測(cè)一測(cè):帶寬數(shù)字里的物理學(xué)證據(jù)

研究者還做了一個(gè)獨(dú)立的物理驗(yàn)證實(shí)驗(yàn),用數(shù)字證明了"RVQ留下痕跡"這件事不是理論推斷,而是可以測(cè)量的現(xiàn)實(shí)。

他們測(cè)量了94首曲目(50首AI生成,44首真實(shí)人類音樂)的源分離殘差的"有效帶寬"——就是在殘差信號(hào)中,能量主要集中在哪個(gè)頻率范圍內(nèi)。結(jié)果相當(dāng)戲劇性:AI生成音樂的殘差平均有效帶寬只有291赫茲,而真實(shí)人類音樂的殘差有效帶寬高達(dá)1996赫茲,差距將近7倍。

更令人印象深刻的是,把22種不同的AI生成器分開來(lái)看,Suno v3.5是170赫茲,Riffusion是219赫茲,Stable Audio是237赫茲,Udio是245赫茲,MusicGen是255赫茲。這些系統(tǒng)使用了完全不同的生成架構(gòu)——有自回歸的、有擴(kuò)散模型的、有潛在擴(kuò)散的——但它們的殘差帶寬全都密集地聚集在200赫茲左右,而真實(shí)音樂的殘差始終超過1900赫茲。這種跨架構(gòu)的一致性,有力地證明了檢測(cè)到的痕跡確實(shí)來(lái)自那個(gè)所有系統(tǒng)共享的RVQ壓縮瓶頸,而不是某種特定生成器的風(fēng)格特征。

六、一個(gè)更公平的考場(chǎng):ArtifactBench基準(zhǔn)測(cè)試的建立

為了檢驗(yàn)ArtifactNet(以及其競(jìng)爭(zhēng)系統(tǒng))的真實(shí)能力,研究者從零構(gòu)建了一個(gè)叫做ArtifactBench的評(píng)測(cè)基準(zhǔn)。構(gòu)建它的原因很實(shí)際:現(xiàn)有的評(píng)測(cè)平臺(tái)覆蓋的AI生成器太少,SONICS只有5種,MoM只有6種,高分成績(jī)很可能只是因?yàn)槟P陀涀×擞?xùn)練時(shí)見過的那幾個(gè)生成器的特點(diǎn),并不代表真正的泛化能力。

ArtifactBench v1包含6183首曲目。AI生成部分涵蓋22種不同的生成器,包括Suno v3/v3.5/v4、Udio v1/v1.5、MusicGen、Stable Audio、Riffusion、DiffRhythm、Yue、JEN-1等,合計(jì)4383首。真實(shí)人類音樂部分來(lái)自6個(gè)多樣化來(lái)源,包括SONICS真實(shí)音樂分區(qū)、MoM真實(shí)音樂子集、自由音樂檔案FMA中特意挑選的高誤報(bào)率MP3樣本、手工篩選的YouTube專業(yè)制作音樂,合計(jì)1800首。

每首曲目都被標(biāo)注了bench_origin字段,標(biāo)明它是用于訓(xùn)練(train)還是測(cè)試(test)。三個(gè)模型的對(duì)比實(shí)驗(yàn)全部限定在bench_origin=test的部分(共2263首:1388首AI,875首真實(shí)),確保所有模型在測(cè)試時(shí)都是零訓(xùn)練重疊的公平比較。

這個(gè)基準(zhǔn)已經(jīng)以Parquet分片形式公開發(fā)布在HuggingFace平臺(tái)上(huggingface.co/datasets/intrect/artifactbench-v1),包含完整的音頻字節(jié)數(shù)據(jù),任何研究者都可以用來(lái)復(fù)現(xiàn)結(jié)果。

七、數(shù)字會(huì)說話:三個(gè)系統(tǒng)的成績(jī)單對(duì)比

在這個(gè)統(tǒng)一的公平測(cè)試平臺(tái)上,三個(gè)系統(tǒng)的表現(xiàn)差距相當(dāng)懸殊。

ArtifactNet的綜合F1分?jǐn)?shù)達(dá)到了0.9829,精確率0.9905,召回率0.9755,誤報(bào)率僅1.49%,AUC值0.9974。翻譯成直白的語(yǔ)言:在1000首真實(shí)音樂里,它只會(huì)把大約15首誤判為AI生成;在1000首AI音樂里,它只會(huì)漏掉大約24首。

CLAM的F1分?jǐn)?shù)是0.7576,精確率0.6674,召回率0.8761,但誤報(bào)率高達(dá)69.3%。它雖然能抓住87.6%的AI音樂,但代價(jià)是把七成的真實(shí)音樂都誤認(rèn)為AI,對(duì)MoM數(shù)據(jù)集真實(shí)音樂子集(也就是CLAM自己訓(xùn)練數(shù)據(jù)的來(lái)源之一)的誤報(bào)率同樣高達(dá)67%——一個(gè)系統(tǒng)連自己熟悉的數(shù)據(jù)上都表現(xiàn)這么差,說明它在某些維度上已經(jīng)產(chǎn)生了嚴(yán)重的系統(tǒng)性偏差。

SpecTTTra的情況則正好相反:精確率0.8519還算不錯(cuò),但召回率只有0.7046,F(xiàn)1為0.7713,誤報(bào)率19.4%。它對(duì)訓(xùn)練分布之外的生成器大量漏判,在MoM的4個(gè)生成器上只有74.5%的檢出率,在AIME的9個(gè)生成器上只有57.7%,在最新的CDN生成器上更是跌到50.4%。

研究者還用一套"28個(gè)子集的通過/不通過"的實(shí)際可用性測(cè)試來(lái)量化這種差距。標(biāo)準(zhǔn)是:對(duì)AI子集要達(dá)到90%以上的檢出率(Stable Audio這兩個(gè)較難的子集放寬到60%),對(duì)真實(shí)音樂子集要把誤報(bào)率控制在5%以內(nèi)。ArtifactNet只在4個(gè)子集上不達(dá)標(biāo)(主要是重度壓縮真實(shí)音樂),通過率85.7%。CLAM不通過15個(gè)子集,通過率46.4%。SpecTTTra則不通過23個(gè)子集,通過率僅17.9%。

ROC曲線分析也印證了這個(gè)差距的穩(wěn)健性:在誤報(bào)率不超過5%的操作點(diǎn)上,ArtifactNet的檢出率達(dá)到99.1%,而F1分?jǐn)?shù)在0.05到0.9的寬闊閾值范圍內(nèi)都保持在0.98以上,說明系統(tǒng)對(duì)閾值選擇不敏感,部署時(shí)無(wú)需精細(xì)調(diào)參。

八、能洗掉這個(gè)痕跡嗎:對(duì)抗性攻擊實(shí)驗(yàn)

研究者也測(cè)試了一種直覺上很自然的"反偵察"手段:把AI生成的音樂先用Demucs做一次源分離處理,看看能不能通過這種方式把RVQ留下的痕跡"洗掉",騙過ArtifactNet。

實(shí)驗(yàn)結(jié)果是:?jiǎn)未蜠emucs處理后,F(xiàn)1分?jǐn)?shù)從0.9950下降到了0.9592,檢出率從99%降到了94%。痕跡被削弱了,但沒有被完全消除——在103維的特征空間里,攻擊后的AI音樂和真實(shí)音樂之間的AUC仍然是0.9651,依然有顯著的可分性。研究團(tuán)隊(duì)已經(jīng)把Demucs處理過的AI音樂樣本加入到ArtifactNet的訓(xùn)練數(shù)據(jù)中,以提升對(duì)這種攻擊的抵抗力。

這個(gè)結(jié)果揭示了一個(gè)更深層的道理:RVQ的量化信息損失發(fā)生在一個(gè)比單次分離處理更基本的信號(hào)層面,單次處理可以改變痕跡的分布,但無(wú)法還原那些已經(jīng)永久丟失的高頻細(xì)節(jié)信息。

九、這套方法的局限性和未來(lái)的方向

任何系統(tǒng)都不是完美的,研究者對(duì)ArtifactNet的局限性做了坦誠(chéng)的分析。

首先是采樣率要求。ArtifactNet需要44.1kHz的高質(zhì)量音頻輸入,因?yàn)镽VQ的痕跡主要體現(xiàn)在高頻細(xì)節(jié)上,如果輸入的是16kHz等低采樣率音頻,這些高頻信息根本就不存在,法證信號(hào)會(huì)大幅衰減。這對(duì)那些分發(fā)低采樣率音頻的數(shù)據(jù)集來(lái)說是一個(gè)實(shí)際限制。

其次是對(duì)重度壓縮真實(shí)音樂的誤報(bào)。經(jīng)過編碼感知訓(xùn)練后,F(xiàn)MA檔案(以低比特率可變碼率MP3為主)上的誤報(bào)率從98.7%降到了8%,但還沒有降到理想水平。研究者預(yù)計(jì)擴(kuò)充編碼增強(qiáng)的訓(xùn)練數(shù)據(jù)后可以進(jìn)一步改善。

再者是對(duì)最新一代Udio的檢出率。當(dāng)前版本對(duì)最新Udio生成音樂的檢出率只有87%,低于其他生成器。分析發(fā)現(xiàn),在安靜段落和過渡段落,Udio生成的諧波-打擊樂比率趨近于真實(shí)音樂的模式,導(dǎo)致單段置信度下降。未來(lái)可能需要在CNN輸入層加入更多的統(tǒng)計(jì)特征(比如諧波-打擊樂比率的分布統(tǒng)計(jì)量)來(lái)改善對(duì)這類音樂的檢測(cè)。

對(duì)于多次Demucs處理等更復(fù)雜的對(duì)抗攻擊,研究者也承認(rèn)需要進(jìn)一步研究。與此同時(shí),研究者指出主動(dòng)水印技術(shù)(比如在生成時(shí)就嵌入不可感知的水。┛梢宰鳛榛パa(bǔ)的防御手段,但這需要生成平臺(tái)主動(dòng)配合,對(duì)已經(jīng)發(fā)布的海量音樂無(wú)能為力。

歸根結(jié)底,ArtifactNet這套研究的意義超出了一個(gè)檢測(cè)系統(tǒng)本身。它提出了一個(gè)更有力的問題框架:在AI生成技術(shù)不斷迭代、生成風(fēng)格千變?nèi)f化的時(shí)代,真正可靠的檢測(cè)方法不應(yīng)該去追蹤"這首歌聽起來(lái)像AI生成",而應(yīng)該去追蹤"這首歌在物理上必然攜帶AI生成的印記"。連續(xù)到離散的量化是不可逆轉(zhuǎn)的信息損失,而這種不可逆性,恰恰是最難被規(guī)避的法證依據(jù)。

用研究者在論文最后一行寫下的話來(lái)結(jié)束這個(gè)故事再合適不過:Afchar等人曾問,AI生成音樂能否在與內(nèi)容無(wú)關(guān)的情況下被識(shí)別。這項(xiàng)研究的回答是:可以——通過傾聽那些音樂無(wú)法包含的東西,而不是它所包含的東西。

Q&A

Q1:ArtifactNet檢測(cè)AI音樂的原理是什么?

A:ArtifactNet的核心原理是追蹤AI音樂在生成過程中必然留下的物理痕跡。所有商業(yè)AI音樂生成器都要用一種叫"殘差向量量化"的技術(shù)來(lái)壓縮和還原音頻,這個(gè)過程會(huì)不可逆地?fù)p失高頻細(xì)節(jié)信息。ArtifactNet用一個(gè)經(jīng)過專門訓(xùn)練的輕量級(jí)神經(jīng)網(wǎng)絡(luò)提取這些痕跡,再分析其中的諧波和打擊樂成分,從而判斷音頻是否來(lái)自AI生成。

Q2:ArtifactNet能識(shí)別MP3格式的AI音樂嗎?

A:可以。早期版本曾經(jīng)把MP3格式的真實(shí)音樂誤判為AI生成,誤報(bào)率高達(dá)98.7%,因?yàn)镸P3自身的壓縮噪聲會(huì)被誤認(rèn)為AI痕跡。研究團(tuán)隊(duì)通過"編碼感知訓(xùn)練"解決了這個(gè)問題,讓系統(tǒng)同時(shí)學(xué)習(xí)WAV、MP3、AAC和Opus四種格式,訓(xùn)練后跨格式的預(yù)測(cè)概率波動(dòng)降低了83%,不同格式下的檢測(cè)結(jié)論基本保持穩(wěn)定。

Q3:ArtifactNet能被AI生成器"繞過"嗎?

A:目前很難被完全繞過。有研究者嘗試用音源分離軟件對(duì)AI音樂進(jìn)行處理后再檢測(cè),結(jié)果檢出率從99%下降到94%,但沒有降到不可檢測(cè)的水平。更根本的原因是,殘差向量量化造成的信息損失發(fā)生在極其底層的信號(hào)層面,只要AI音樂生成器還在使用神經(jīng)音頻編解碼器,這種痕跡就無(wú)法被完全消除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
A股:今天收在4078點(diǎn),做好準(zhǔn)備了,周三股市行情分析!

A股:今天收在4078點(diǎn),做好準(zhǔn)備了,周三股市行情分析!

明心
2026-04-28 15:19:15
別不信,普通家庭要培養(yǎng)出優(yōu)秀的孩子,幾乎都是父母用生命在托舉

別不信,普通家庭要培養(yǎng)出優(yōu)秀的孩子,幾乎都是父母用生命在托舉

戶外阿毽
2026-04-18 14:21:18
5月1日正式執(zhí)行!農(nóng)村迎來(lái)大變革,家家戶戶都繞不開

5月1日正式執(zhí)行!農(nóng)村迎來(lái)大變革,家家戶戶都繞不開

江江食研社
2026-04-27 17:30:07
古代沒有狂犬疫苗,被狗咬了怎么辦?老祖宗的智慧真是讓人折服

古代沒有狂犬疫苗,被狗咬了怎么辦?老祖宗的智慧真是讓人折服

銘記歷史呀
2026-04-20 02:37:07
238元買不到 微信15周年限量皮膚衣開賣

238元買不到 微信15周年限量皮膚衣開賣

快科技
2026-04-27 18:59:35
最快今年,最晚明年?2艘052退役后,海軍將迎“驅(qū)逐艦全垂發(fā)化”

最快今年,最晚明年?2艘052退役后,海軍將迎“驅(qū)逐艦全垂發(fā)化”

儒雅隨和老泰勒
2026-04-28 16:47:29
偶遇甲骨文創(chuàng)始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

偶遇甲骨文創(chuàng)始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

嫹筆牂牂
2026-04-28 07:25:44
極易發(fā)胖的5種主食,餃子位列第3,第一名很多人愛吃

極易發(fā)胖的5種主食,餃子位列第3,第一名很多人愛吃

增肌減脂
2026-04-27 11:31:43
即將升入英冠,林肯城球員&球迷齊聲高歌:下賽季踢熱刺咯!

即將升入英冠,林肯城球員&球迷齊聲高歌:下賽季踢熱刺咯!

懂球帝
2026-04-28 13:14:06
全新款雷克薩斯LX800h實(shí)車曝光 座艙換新 搭3.5T混動(dòng)

全新款雷克薩斯LX800h實(shí)車曝光 座艙換新 搭3.5T混動(dòng)

音樂時(shí)光的娛樂
2026-04-26 18:21:01
我國(guó)畢業(yè)就有“鐵飯碗”的5所大學(xué),400多分就能上!家長(zhǎng)考生了解

我國(guó)畢業(yè)就有“鐵飯碗”的5所大學(xué),400多分就能上!家長(zhǎng)考生了解

高三倒計(jì)時(shí)
2026-04-28 19:54:04
魏建軍說,豐田是世界上質(zhì)量最好的公司,長(zhǎng)城要學(xué)的就是這份可靠與擔(dān)當(dāng)

魏建軍說,豐田是世界上質(zhì)量最好的公司,長(zhǎng)城要學(xué)的就是這份可靠與擔(dān)當(dāng)

沙雕小琳琳
2026-04-27 11:39:31
今年?duì)大街的3種裙子,自以為時(shí)髦,實(shí)際上顯老,換成另外這三條

今年?duì)大街的3種裙子,自以為時(shí)髦,實(shí)際上顯老,換成另外這三條

時(shí)尚穿搭生活館
2026-04-27 19:33:36
內(nèi)維爾:如果庫(kù)尼亞能夠出戰(zhàn)雙紅會(huì),阿馬德大概率無(wú)緣首發(fā)

內(nèi)維爾:如果庫(kù)尼亞能夠出戰(zhàn)雙紅會(huì),阿馬德大概率無(wú)緣首發(fā)

懂球帝
2026-04-28 18:54:08
河南一紅薯窖下挖開晚唐大墓,茶具陪葬品,墓主人是藩鎮(zhèn)的太夫人

河南一紅薯窖下挖開晚唐大墓,茶具陪葬品,墓主人是藩鎮(zhèn)的太夫人

落水的焱燚
2026-04-28 07:30:09
李斌:車輛超重存多重隱患 不會(huì)為了省錢上100度磷酸鐵鋰電池

李斌:車輛超重存多重隱患 不會(huì)為了省錢上100度磷酸鐵鋰電池

快科技
2026-04-27 14:12:05
歷史真相,令人震驚!紅軍最精銳的兩個(gè)軍團(tuán),居然一半人沒有槍!

歷史真相,令人震驚!紅軍最精銳的兩個(gè)軍團(tuán),居然一半人沒有槍!

隴史薈王文元
2026-04-27 11:32:55
高詩(shī)巖意外傷停!知情人士透露之前腫脹厲害,復(fù)出也難有好狀態(tài)!

高詩(shī)巖意外傷停!知情人士透露之前腫脹厲害,復(fù)出也難有好狀態(tài)!

籃球資訊達(dá)人
2026-04-28 19:35:05
孫楊私生子眉毛嘴巴和他一模一樣,13歲在北京練擊劍

孫楊私生子眉毛嘴巴和他一模一樣,13歲在北京練擊劍

喜歡歷史的阿繁
2026-04-28 00:37:17
13年開源項(xiàng)目宣告停更,維護(hù)者:和所有人一樣,我也需要謀生

13年開源項(xiàng)目宣告停更,維護(hù)者:和所有人一樣,我也需要謀生

CSDN
2026-04-28 17:01:37
2026-04-28 20:43:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8182文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

80多萬(wàn)買的新房未交房成工人宿舍 業(yè)主看到排泄物崩潰

頭條要聞

80多萬(wàn)買的新房未交房成工人宿舍 業(yè)主看到排泄物崩潰

體育要聞

季后賽最新局勢(shì):雷霆4-0晉級(jí)首隊(duì) 4隊(duì)3-1

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

政治局會(huì)議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

時(shí)尚
游戲
家居
旅游
本地

她們的人生牛仔褲,鏈接都在這了

國(guó)產(chǎn)大作聯(lián)動(dòng)肯德基!全新聯(lián)名套餐+定制道具

家居要聞

江景風(fēng)格 流動(dòng)的秩序

旅游要聞

大理不止“風(fēng)花雪月”,這份“文明之約”等你來(lái)赴!

本地新聞

用青花瓷的方式,打開西溪濕地

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版