国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海交大聯(lián)合宇生月伴,研發(fā)高性能高泛化語音鑒偽大模型

0
分享至



在生成式 AI 技術(shù)日新月異的背景下,合成語音的逼真度已達(dá)到真假難辨的水平,隨之而來的語音欺詐與信息偽造風(fēng)險也愈演愈烈。作為應(yīng)對手段,語音鑒偽技術(shù)已成為信息安全領(lǐng)域的研究重心。

然而,當(dāng)前的語音鑒偽模型正面臨嚴(yán)峻的「泛化性挑戰(zhàn)」:許多在特定實(shí)驗(yàn)室數(shù)據(jù)集上表現(xiàn)優(yōu)秀的模型,在面對現(xiàn)實(shí)世界中從未見過的生成算法時,檢測性能往往會出現(xiàn)劇烈下滑。這種「泛化瓶頸」嚴(yán)重限制了鑒偽技術(shù)在復(fù)雜多變的真實(shí)場景中的應(yīng)用價值。

針對這一難題,上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室和宇生月伴公司(VUI Labs)聯(lián)合發(fā)表了最新研究成果,提出了一種以數(shù)據(jù)為中心的研究范式。該研究深入探究了訓(xùn)練數(shù)據(jù)分布與模型泛化能力之間的底層邏輯,通過系統(tǒng)性的實(shí)證研究與策略優(yōu)化,構(gòu)建了兼具高性能與高泛化性的語音鑒偽大模型。



  • 論文標(biāo)題:A Data-Centric Approach to Generalizable Speech Deepfake Detection
  • 論文鏈接:
  • https://arxiv.org/pdf/2512.18210

核心視角:

從單一構(gòu)建到多源聚合

不同于以往關(guān)注架構(gòu)創(chuàng)新的路徑,論文從數(shù)據(jù)中心視角切入,將數(shù)據(jù)版圖重構(gòu)為兩個核心視角:

  • 構(gòu)建單一數(shù)據(jù)集:基于不同信源(source)和生成器(generator)生成偽造樣本,構(gòu)建數(shù)據(jù)集。

  • 聚合多源數(shù)據(jù)集:匯聚具有不同信源、生成算法及其他聲學(xué)條件的異構(gòu)數(shù)據(jù)池,構(gòu)建多樣化訓(xùn)練數(shù)據(jù)。



基于上述視角,論文旨在通過系統(tǒng)性的實(shí)證分析探索兩個核心問題:

  • 在單一數(shù)據(jù)集構(gòu)建中,如何在數(shù)據(jù)規(guī)模和多樣性(信源 / 生成器)之間進(jìn)行資源的科學(xué)分配?

  • 在聚合多源數(shù)據(jù)集時,如何設(shè)計(jì)高效的混合與采樣策略以實(shí)現(xiàn)最優(yōu)泛化性能?

規(guī)模定律:

多樣性遠(yuǎn)勝數(shù)據(jù)總量


為了揭示資源分配的最優(yōu)原則,論文針對訓(xùn)練數(shù)據(jù)的組成規(guī)律開展了大規(guī)模實(shí)證分析。通過量化信源多樣性、生成器多樣性與樣本容量之間的復(fù)雜關(guān)系,揭示了語音鑒偽領(lǐng)域內(nèi)在的「規(guī)模定律」。

核心發(fā)現(xiàn):

  • 多樣性是泛化的首要動力:在資源有限的情況下,提升信源與生成器的多樣性所帶來的性能增益,遠(yuǎn)比單純增加數(shù)據(jù)總量更具效率。

  • 信源與生成器屬性互補(bǔ):信源多樣性有助于模型構(gòu)建穩(wěn)健的真實(shí)語音分布,而生成器多樣性則顯著強(qiáng)化了模型對各類偽造特征的識別。

  • 泛化表現(xiàn)具備可預(yù)測性:泛化誤差隨數(shù)據(jù)多樣性的增加呈現(xiàn)出穩(wěn)定的冪律縮放特性,使泛化能力的提升從隨機(jī)探索走向科學(xué)建模。



采樣策略:

科學(xué)混合異構(gòu)數(shù)據(jù)池


既然多樣性的價值遠(yuǎn)勝于純粹的數(shù)據(jù)堆疊,那么如何科學(xué)地混合來自不同源頭的異構(gòu)數(shù)據(jù),就成為了解決泛化難題的第二個關(guān)鍵問題?;谝?guī)模定律的分析,論文提出了多樣性優(yōu)化采樣策略(Diversity-Optimized Sampling Strategy,DOSS)。該策略的核心在于將復(fù)雜的異構(gòu)數(shù)據(jù)按照信源或生成器劃分為細(xì)粒度的域,并相對公平地對待每一種已知的生成模式:

  • 細(xì)粒度域定義:將真實(shí)語音按「信源」劃分,將偽造語音按「信源 + 生成器」的組合進(jìn)行索引,從而在更微觀的層面實(shí)施分布控制。

  • 多樣性篩選(DOSS-Select):一種基于數(shù)據(jù)剪枝策略,旨在構(gòu)建更平衡且高效的訓(xùn)練子集,剔除邊際收益遞減的冗余樣本以提升訓(xùn)練效率。

  • 分布加權(quán)(DOSS-Weight):一種數(shù)據(jù)重加權(quán)策略,在保留全量數(shù)據(jù)的同時,調(diào)整各數(shù)據(jù)域在訓(xùn)練時的采樣概率,讓模型更均衡地學(xué)習(xí)不同規(guī)模域的特征,避免被海量但單一的數(shù)據(jù)分布所主導(dǎo)。

實(shí)驗(yàn)結(jié)果驗(yàn)證了該策略在處理大規(guī)模異構(gòu)數(shù)據(jù)時的優(yōu)勢:

  • 極高的數(shù)據(jù)效率:采用 DOSS-Select 策略,僅需使用約 3% 的總數(shù)據(jù)量,其泛化性能即可超越樸素聚合全部數(shù)據(jù)的基線水平。

  • 顯著的性能提升:采用 DOSS-Weight 策略,實(shí)現(xiàn)了相對樸素聚合基線約 30% 的大幅度誤差削減。



實(shí)戰(zhàn)評估:

學(xué)術(shù)基準(zhǔn)和商業(yè)接口實(shí)測


為了驗(yàn)證上述策略的穩(wěn)健性與可擴(kuò)展性,論文構(gòu)建了一個包含 1.2 萬小時音頻、涵蓋 300+ 個偽造領(lǐng)域的大規(guī)模異構(gòu)數(shù)據(jù)池。通過應(yīng)用 DOSS 策略進(jìn)行訓(xùn)練,最終得到了高性能高泛化的大模型,并在多個學(xué)術(shù)基準(zhǔn)和商業(yè)接口上進(jìn)行了實(shí)測,均取得了突破性表現(xiàn):

學(xué)術(shù)基準(zhǔn):刷新跨域性能記錄

在多個公開測試集的評估中,模型平均等錯誤率(EER)降至 1.65%,在多個主流基準(zhǔn)測試中均刷新了記錄,確立了新的技術(shù)基準(zhǔn)和 SOTA。此外,數(shù)據(jù)與模型效率的表現(xiàn)尤為出色:相較于之前最好的來自日本 NII 的系統(tǒng)——在 7.4 萬小時數(shù)據(jù)上訓(xùn)練的 2B 規(guī)模模型(平均 EER 3.94%),提出的新方案僅憑約 1/6 的訓(xùn)練數(shù)據(jù)與更精簡的參數(shù)規(guī)模,便實(shí)現(xiàn)了檢測誤差的倍數(shù)級削減。即便是在更輕量的 300M 版本下,其性能表現(xiàn)依然穩(wěn)健,證明了科學(xué)的數(shù)據(jù)策略比單純的規(guī)模堆疊更能有效釋放模型的泛化潛力。



商業(yè)接口:直面現(xiàn)實(shí)安全威脅

針對從 Google、Microsoft 等主流云服務(wù)到 ElevenLabs、MiniMax 等前沿高擬真引擎的 9 類最新商業(yè)接口進(jìn)行評估,模型平均檢測準(zhǔn)確率達(dá)到了 96.01%。即便在面對目前極具挑戰(zhàn)性的高保真合成引擎 Qwen3 時,模型仍能保持 87.32% 的高準(zhǔn)度識別。這進(jìn)一步印證了從多樣化訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的表征,能夠有效遷移并泛化至現(xiàn)實(shí)中不斷進(jìn)化的商業(yè)生成方式。



總結(jié)


不同于以往在模型架構(gòu)與算法優(yōu)化上的迭代,深挖訓(xùn)練數(shù)據(jù)組成的底層邏輯正在成為重塑語音安全防線的關(guān)鍵。本論文通過量化多樣性的規(guī)模效應(yīng)并引入優(yōu)化采樣機(jī)制,成功實(shí)現(xiàn)了對異構(gòu)數(shù)據(jù)資源的高效調(diào)度與深度挖掘。這種向「數(shù)據(jù)中心」范式的深刻轉(zhuǎn)變,為構(gòu)建高性能、高泛化的語音安全大模型提供了全新的探索思路。

團(tuán)隊(duì)介紹


研究團(tuán)隊(duì)來自于上海交通大學(xué)計(jì)算機(jī)學(xué)院聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab)和宇生月伴公司(VUI Labs),該團(tuán)隊(duì)由語音對話和聽覺處理領(lǐng)域知名學(xué)者,教育部長江學(xué)者錢彥旻教授領(lǐng)導(dǎo),專注于完整的聽覺人工智能與計(jì)算聲學(xué)領(lǐng)域的前沿研究。

實(shí)驗(yàn)室集結(jié)了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團(tuán)隊(duì),在語音、音頻、音樂及自然聲信號處理等領(lǐng)域積累了豐富的技術(shù)經(jīng)驗(yàn)。實(shí)驗(yàn)室依托國家重點(diǎn)項(xiàng)目及企業(yè)合作支持,擁有數(shù)百塊先進(jìn) GPU 計(jì)算資源,致力于解決產(chǎn)業(yè)級技術(shù)難題。

近年來,團(tuán)隊(duì)在國際頂級期刊和會議上發(fā)表了數(shù)百項(xiàng)學(xué)術(shù)成果,并在多項(xiàng)國際評測中斬獲冠軍。團(tuán)隊(duì)成員全面發(fā)展,畢業(yè)生均進(jìn)入國內(nèi)外頂級企業(yè)和研究機(jī)構(gòu),持續(xù)推動人工智能技術(shù)的創(chuàng)新與應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬斯克稱AGI今年就將實(shí)現(xiàn)!20年內(nèi)所有商品服務(wù)都將接近免費(fèi)

馬斯克稱AGI今年就將實(shí)現(xiàn)!20年內(nèi)所有商品服務(wù)都將接近免費(fèi)

第一財經(jīng)資訊
2026-01-11 13:26:10
絞殺開始!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

絞殺開始!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

芯火相承
2026-01-09 20:38:13
國運(yùn)來了誰也擋不??!100年前北洋政府隨手簽的條約,如今贏麻了

國運(yùn)來了誰也擋不??!100年前北洋政府隨手簽的條約,如今贏麻了

云霄紀(jì)史觀
2026-01-09 09:55:07
“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團(tuán)隊(duì)系三個95后,計(jì)劃出售10%股份,估值已達(dá)到1000萬元人民幣

“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團(tuán)隊(duì)系三個95后,計(jì)劃出售10%股份,估值已達(dá)到1000萬元人民幣

大風(fēng)新聞
2026-01-11 11:03:04
伊朗10日晚整體局勢平穩(wěn),德黑蘭主要區(qū)域未發(fā)生騷亂

伊朗10日晚整體局勢平穩(wěn),德黑蘭主要區(qū)域未發(fā)生騷亂

界面新聞
2026-01-11 06:57:37
馬斯克:X平臺將于一周內(nèi)開源新算法

馬斯克:X平臺將于一周內(nèi)開源新算法

界面新聞
2026-01-11 10:30:09
伊朗警告美方:若遭攻擊必將還擊

伊朗警告美方:若遭攻擊必將還擊

國際在線
2026-01-11 15:30:07
這個媽媽憑什么打敗國乒?

這個媽媽憑什么打敗國乒?

新民晚報
2026-01-11 09:56:19
東契奇被打內(nèi)幕曝光!斯羅德直沖更衣室,隔人動手,艾頓擋不住

東契奇被打內(nèi)幕曝光!斯羅德直沖更衣室,隔人動手,艾頓擋不住

阿泰希特
2026-01-11 11:42:29
極目政情丨農(nóng)業(yè)農(nóng)村部原部長唐仁健受賄細(xì)節(jié)曝光:行賄人主要來自于他的日常吃喝玩樂圈,唐仁健懺悔:真不要僥幸,現(xiàn)在悔之晚矣!

極目政情丨農(nóng)業(yè)農(nóng)村部原部長唐仁健受賄細(xì)節(jié)曝光:行賄人主要來自于他的日常吃喝玩樂圈,唐仁健懺悔:真不要僥幸,現(xiàn)在悔之晚矣!

極目新聞
2026-01-11 11:02:21
數(shù)千萬波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

數(shù)千萬波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

南宗歷史
2026-01-10 16:15:24
閆學(xué)晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當(dāng)后媽

閆學(xué)晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當(dāng)后媽

小小河
2026-01-10 20:21:22
最可怕的不孝,是讓父母在晚年,依然活在對你的恐懼里

最可怕的不孝,是讓父母在晚年,依然活在對你的恐懼里

真實(shí)人物采訪
2026-01-10 14:00:07
萊納德26+8快船逆轉(zhuǎn)活塞2連勝,科林斯25分哈登19+7+7

萊納德26+8快船逆轉(zhuǎn)活塞2連勝,科林斯25分哈登19+7+7

湖人崛起
2026-01-11 11:08:27
北京一律所主任失聯(lián)?探訪:大門關(guān)閉,律師稱未停業(yè)

北京一律所主任失聯(lián)?探訪:大門關(guān)閉,律師稱未停業(yè)

界面新聞
2026-01-10 19:37:33
佐香園與閆學(xué)晶解約

佐香園與閆學(xué)晶解約

界面新聞
2026-01-11 09:01:19
太解氣了,2026殯葬新規(guī)要來了,以后辦白事再也不用當(dāng)"冤大頭"了

太解氣了,2026殯葬新規(guī)要來了,以后辦白事再也不用當(dāng)"冤大頭"了

知鑒明史
2026-01-11 10:35:03
神權(quán)集團(tuán)用機(jī)槍射殺50人,抗議武裝攻陷伊朗多市,油田也控制了

神權(quán)集團(tuán)用機(jī)槍射殺50人,抗議武裝攻陷伊朗多市,油田也控制了

史政先鋒
2026-01-10 15:28:35
特朗普:自己不拿下格陵蘭島,俄羅斯或中國就會拿下,網(wǎng)友反駁:這是個謊言

特朗普:自己不拿下格陵蘭島,俄羅斯或中國就會拿下,網(wǎng)友反駁:這是個謊言

大象新聞
2026-01-11 00:13:15
最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

華人生活網(wǎng)
2026-01-10 06:05:22
2026-01-11 16:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

伊朗警告特朗普:若遭攻擊 必將還擊

頭條要聞

伊朗警告特朗普:若遭攻擊 必將還擊

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

本地
游戲
親子
房產(chǎn)
手機(jī)

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

前《刺客信條》創(chuàng)意總監(jiān):限定框架才能創(chuàng)造好游戲

親子要聞

幼兒園大班學(xué)生放學(xué)日常,做下飯菜酸菜炒肉,3歲妹妹吃得超級香

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

手機(jī)要聞

恭喜!恭喜!華為登頂,成為2025品牌聲量之王,實(shí)至名歸

無障礙瀏覽 進(jìn)入關(guān)懷版