国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海交大聯(lián)合宇生月伴,研發(fā)高性能高泛化語音鑒偽大模型

0
分享至



在生成式 AI 技術(shù)日新月異的背景下,合成語音的逼真度已達到真假難辨的水平,隨之而來的語音欺詐與信息偽造風險也愈演愈烈。作為應(yīng)對手段,語音鑒偽技術(shù)已成為信息安全領(lǐng)域的研究重心。

然而,當前的語音鑒偽模型正面臨嚴峻的「泛化性挑戰(zhàn)」:許多在特定實驗室數(shù)據(jù)集上表現(xiàn)優(yōu)秀的模型,在面對現(xiàn)實世界中從未見過的生成算法時,檢測性能往往會出現(xiàn)劇烈下滑。這種「泛化瓶頸」嚴重限制了鑒偽技術(shù)在復(fù)雜多變的真實場景中的應(yīng)用價值。

針對這一難題,上海交通大學聽覺認知與計算聲學實驗室和宇生月伴公司(VUI Labs)聯(lián)合發(fā)表了最新研究成果,提出了一種以數(shù)據(jù)為中心的研究范式。該研究深入探究了訓(xùn)練數(shù)據(jù)分布與模型泛化能力之間的底層邏輯,通過系統(tǒng)性的實證研究與策略優(yōu)化,構(gòu)建了兼具高性能與高泛化性的語音鑒偽大模型。



  • 論文標題:A Data-Centric Approach to Generalizable Speech Deepfake Detection
  • 論文鏈接:
  • https://arxiv.org/pdf/2512.18210

核心視角:

從單一構(gòu)建到多源聚合

不同于以往關(guān)注架構(gòu)創(chuàng)新的路徑,論文從數(shù)據(jù)中心視角切入,將數(shù)據(jù)版圖重構(gòu)為兩個核心視角:

  • 構(gòu)建單一數(shù)據(jù)集:基于不同信源(source)和生成器(generator)生成偽造樣本,構(gòu)建數(shù)據(jù)集。

  • 聚合多源數(shù)據(jù)集:匯聚具有不同信源、生成算法及其他聲學條件的異構(gòu)數(shù)據(jù)池,構(gòu)建多樣化訓(xùn)練數(shù)據(jù)。



基于上述視角,論文旨在通過系統(tǒng)性的實證分析探索兩個核心問題:

  • 在單一數(shù)據(jù)集構(gòu)建中,如何在數(shù)據(jù)規(guī)模和多樣性(信源 / 生成器)之間進行資源的科學分配?

  • 在聚合多源數(shù)據(jù)集時,如何設(shè)計高效的混合與采樣策略以實現(xiàn)最優(yōu)泛化性能?

規(guī)模定律:

多樣性遠勝數(shù)據(jù)總量


為了揭示資源分配的最優(yōu)原則,論文針對訓(xùn)練數(shù)據(jù)的組成規(guī)律開展了大規(guī)模實證分析。通過量化信源多樣性、生成器多樣性與樣本容量之間的復(fù)雜關(guān)系,揭示了語音鑒偽領(lǐng)域內(nèi)在的「規(guī)模定律」。

核心發(fā)現(xiàn):

  • 多樣性是泛化的首要動力:在資源有限的情況下,提升信源與生成器的多樣性所帶來的性能增益,遠比單純增加數(shù)據(jù)總量更具效率。

  • 信源與生成器屬性互補:信源多樣性有助于模型構(gòu)建穩(wěn)健的真實語音分布,而生成器多樣性則顯著強化了模型對各類偽造特征的識別。

  • 泛化表現(xiàn)具備可預(yù)測性:泛化誤差隨數(shù)據(jù)多樣性的增加呈現(xiàn)出穩(wěn)定的冪律縮放特性,使泛化能力的提升從隨機探索走向科學建模。



采樣策略:

科學混合異構(gòu)數(shù)據(jù)池


既然多樣性的價值遠勝于純粹的數(shù)據(jù)堆疊,那么如何科學地混合來自不同源頭的異構(gòu)數(shù)據(jù),就成為了解決泛化難題的第二個關(guān)鍵問題?;谝?guī)模定律的分析,論文提出了多樣性優(yōu)化采樣策略(Diversity-Optimized Sampling Strategy,DOSS)。該策略的核心在于將復(fù)雜的異構(gòu)數(shù)據(jù)按照信源或生成器劃分為細粒度的域,并相對公平地對待每一種已知的生成模式:

  • 細粒度域定義:將真實語音按「信源」劃分,將偽造語音按「信源 + 生成器」的組合進行索引,從而在更微觀的層面實施分布控制。

  • 多樣性篩選(DOSS-Select):一種基于數(shù)據(jù)剪枝策略,旨在構(gòu)建更平衡且高效的訓(xùn)練子集,剔除邊際收益遞減的冗余樣本以提升訓(xùn)練效率。

  • 分布加權(quán)(DOSS-Weight):一種數(shù)據(jù)重加權(quán)策略,在保留全量數(shù)據(jù)的同時,調(diào)整各數(shù)據(jù)域在訓(xùn)練時的采樣概率,讓模型更均衡地學習不同規(guī)模域的特征,避免被海量但單一的數(shù)據(jù)分布所主導(dǎo)。

實驗結(jié)果驗證了該策略在處理大規(guī)模異構(gòu)數(shù)據(jù)時的優(yōu)勢:

  • 極高的數(shù)據(jù)效率:采用 DOSS-Select 策略,僅需使用約 3% 的總數(shù)據(jù)量,其泛化性能即可超越樸素聚合全部數(shù)據(jù)的基線水平。

  • 顯著的性能提升:采用 DOSS-Weight 策略,實現(xiàn)了相對樸素聚合基線約 30% 的大幅度誤差削減。



實戰(zhàn)評估:

學術(shù)基準和商業(yè)接口實測


為了驗證上述策略的穩(wěn)健性與可擴展性,論文構(gòu)建了一個包含 1.2 萬小時音頻、涵蓋 300+ 個偽造領(lǐng)域的大規(guī)模異構(gòu)數(shù)據(jù)池。通過應(yīng)用 DOSS 策略進行訓(xùn)練,最終得到了高性能高泛化的大模型,并在多個學術(shù)基準和商業(yè)接口上進行了實測,均取得了突破性表現(xiàn):

學術(shù)基準:刷新跨域性能記錄

在多個公開測試集的評估中,模型平均等錯誤率(EER)降至 1.65%,在多個主流基準測試中均刷新了記錄,確立了新的技術(shù)基準和 SOTA。此外,數(shù)據(jù)與模型效率的表現(xiàn)尤為出色:相較于之前最好的來自日本 NII 的系統(tǒng)——在 7.4 萬小時數(shù)據(jù)上訓(xùn)練的 2B 規(guī)模模型(平均 EER 3.94%),提出的新方案僅憑約 1/6 的訓(xùn)練數(shù)據(jù)與更精簡的參數(shù)規(guī)模,便實現(xiàn)了檢測誤差的倍數(shù)級削減。即便是在更輕量的 300M 版本下,其性能表現(xiàn)依然穩(wěn)健,證明了科學的數(shù)據(jù)策略比單純的規(guī)模堆疊更能有效釋放模型的泛化潛力。



商業(yè)接口:直面現(xiàn)實安全威脅

針對從 Google、Microsoft 等主流云服務(wù)到 ElevenLabs、MiniMax 等前沿高擬真引擎的 9 類最新商業(yè)接口進行評估,模型平均檢測準確率達到了 96.01%。即便在面對目前極具挑戰(zhàn)性的高保真合成引擎 Qwen3 時,模型仍能保持 87.32% 的高準度識別。這進一步印證了從多樣化訓(xùn)練數(shù)據(jù)中學習到的表征,能夠有效遷移并泛化至現(xiàn)實中不斷進化的商業(yè)生成方式。



總結(jié)


不同于以往在模型架構(gòu)與算法優(yōu)化上的迭代,深挖訓(xùn)練數(shù)據(jù)組成的底層邏輯正在成為重塑語音安全防線的關(guān)鍵。本論文通過量化多樣性的規(guī)模效應(yīng)并引入優(yōu)化采樣機制,成功實現(xiàn)了對異構(gòu)數(shù)據(jù)資源的高效調(diào)度與深度挖掘。這種向「數(shù)據(jù)中心」范式的深刻轉(zhuǎn)變,為構(gòu)建高性能、高泛化的語音安全大模型提供了全新的探索思路。

團隊介紹


研究團隊來自于上海交通大學計算機學院聽覺認知與計算聲學實驗室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab)和宇生月伴公司(VUI Labs),該團隊由語音對話和聽覺處理領(lǐng)域知名學者,教育部長江學者錢彥旻教授領(lǐng)導(dǎo),專注于完整的聽覺人工智能與計算聲學領(lǐng)域的前沿研究。

實驗室集結(jié)了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團隊,在語音、音頻、音樂及自然聲信號處理等領(lǐng)域積累了豐富的技術(shù)經(jīng)驗。實驗室依托國家重點項目及企業(yè)合作支持,擁有數(shù)百塊先進 GPU 計算資源,致力于解決產(chǎn)業(yè)級技術(shù)難題。

近年來,團隊在國際頂級期刊和會議上發(fā)表了數(shù)百項學術(shù)成果,并在多項國際評測中斬獲冠軍。團隊成員全面發(fā)展,畢業(yè)生均進入國內(nèi)外頂級企業(yè)和研究機構(gòu),持續(xù)推動人工智能技術(shù)的創(chuàng)新與應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
突發(fā)暴跌!全線跳水

突發(fā)暴跌!全線跳水

證券時報
2025-12-31 14:27:02
狂勝41分,快船5連勝破紀錄!小卡兩戰(zhàn)88分還在進化 哈登喜笑顏開

狂勝41分,快船5連勝破紀錄!小卡兩戰(zhàn)88分還在進化 哈登喜笑顏開

鍋子籃球
2025-12-31 16:36:16
俄方稱烏方襲擊普京官邸,中方回應(yīng)

俄方稱烏方襲擊普京官邸,中方回應(yīng)

中國青年報
2025-12-30 21:00:11
林強涉案989億被抓!生活奢華超過中東富豪,妻子、父母也有責任

林強涉案989億被抓!生活奢華超過中東富豪,妻子、父母也有責任

細品名人
2025-12-31 07:34:46
錯失4年8400萬美元,東契奇調(diào)侃施羅德:你真該簽湖人那份合同的

錯失4年8400萬美元,東契奇調(diào)侃施羅德:你真該簽湖人那份合同的

懂球帝
2025-12-31 12:46:11
白嫖攝影師后續(xù):單位傳開已社死,朋友曝更多,白嫖只是冰山一角

白嫖攝影師后續(xù):單位傳開已社死,朋友曝更多,白嫖只是冰山一角

天天熱點見聞
2025-12-31 06:36:45
成都繞城高速夜間突發(fā)連環(huán)車禍,目擊者稱多人送醫(yī);交警回應(yīng):事故已處置完成,道路當晚恢復(fù)暢通

成都繞城高速夜間突發(fā)連環(huán)車禍,目擊者稱多人送醫(yī);交警回應(yīng):事故已處置完成,道路當晚恢復(fù)暢通

大風新聞
2025-12-31 15:45:04
庭審直擊:上海一出納13年掏空公司3500萬,花超百萬養(yǎng)流浪貓

庭審直擊:上海一出納13年掏空公司3500萬,花超百萬養(yǎng)流浪貓

上觀新聞
2025-12-31 15:21:04
圍島第二天,王毅外長發(fā)聲,演習就是針對美國,特朗普罕見說軟話

圍島第二天,王毅外長發(fā)聲,演習就是針對美國,特朗普罕見說軟話

博覽歷史
2025-12-31 09:59:48
一個國家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開始剪辮子

一個國家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開始剪辮子

老范談史
2025-12-29 15:59:06
2026國補來了!汽車消費補貼由“定額”改為“按比例”(附對照表)

2026國補來了!汽車消費補貼由“定額”改為“按比例”(附對照表)

每日經(jīng)濟新聞
2025-12-31 09:14:06
人來世間到底是干什么的?你一定要看一看

人來世間到底是干什么的?你一定要看一看

金沛的國學筆記
2025-12-29 17:44:07
上海市紀委監(jiān)委公開通報五起違反中央八項規(guī)定精神典型問題

上海市紀委監(jiān)委公開通報五起違反中央八項規(guī)定精神典型問題

澎湃新聞
2025-12-31 14:24:12
打假“斬殺線”——“饑寒交迫的美國”

打假“斬殺線”——“饑寒交迫的美國”

老頭和你隨便聊聊
2025-12-30 13:33:00
確認了,是江蘇籍女演員白鹿

確認了,是江蘇籍女演員白鹿

最江陰
2025-12-30 15:10:28
最新!法國、英國、加拿大、丹麥、芬蘭等十國外長發(fā)布聯(lián)合聲明

最新!法國、英國、加拿大、丹麥、芬蘭等十國外長發(fā)布聯(lián)合聲明

每日經(jīng)濟新聞
2025-12-31 07:50:06
又一波人賬戶歸零,因為三個漲停追進去出不來了,還有一天退市!

又一波人賬戶歸零,因為三個漲停追進去出不來了,還有一天退市!

財經(jīng)智多星
2025-12-30 15:23:35
元旦到了,別再說“元旦快樂”,太土!教你19句祝福語,好聽不俗

元旦到了,別再說“元旦快樂”,太土!教你19句祝福語,好聽不俗

狼小妖
2025-12-31 00:13:10
南博的事還沒水落石出,川博又來了!

南博的事還沒水落石出,川博又來了!

深度報
2025-12-29 22:55:49
羅永浩凌晨發(fā)文稱患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問題,將不再舉辦大型活動;此前其“科技春晚”遲到40多分鐘才出現(xiàn)引熱議

羅永浩凌晨發(fā)文稱患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問題,將不再舉辦大型活動;此前其“科技春晚”遲到40多分鐘才出現(xiàn)引熱議

極目新聞
2025-12-31 07:52:11
2025-12-31 16:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12028文章數(shù) 142525關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

美國防部稱中國大陸對臺有"四種軍事方案" 國臺辦回應(yīng)

頭條要聞

美國防部稱中國大陸對臺有"四種軍事方案" 國臺辦回應(yīng)

體育要聞

2025全球射手榜:姆巴佩66球 梅西第6C羅第9

娛樂要聞

告別2025年!大S、方大同離世青春退場

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

藝術(shù)
手機
健康
數(shù)碼
時尚

藝術(shù)要聞

中國博物館全書!看遍中國8000年頂流審美

手機要聞

小米17 Ultra徠卡版手機正式入駐徠卡相機旗艦店

元旦舉家出行,注意防流感

數(shù)碼要聞

甩開那根礙事的線!藍寶石NITRO+氮動RX 9070 XT顯卡評測:背插供電釋放超380W 燈光無遮擋更絢麗

今年冬天流行的“倒三角”穿法,時髦又高級!

無障礙瀏覽 進入關(guān)懷版