国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta推出SAM Audio:AI實(shí)現(xiàn)精準(zhǔn)聲音對(duì)象分離

0
分享至


想象一下,你正在觀看一段嘈雜的視頻,里面有人在說話、狗在叫、還有背景音樂在播放?,F(xiàn)在,如果你只想聽到其中狗叫的聲音,該怎么辦?過去你可能需要專業(yè)的音頻編輯軟件和復(fù)雜的操作。但現(xiàn)在,Meta公司的研究團(tuán)隊(duì)開發(fā)出了一個(gè)名為SAM Audio的AI系統(tǒng),你只需要說一句"狗叫聲",它就能自動(dòng)從復(fù)雜的聲音混合物中提取出純凈的狗叫聲,就像用篩子從沙子里篩出金子一樣神奇。

這項(xiàng)突破性研究由Meta超級(jí)智能實(shí)驗(yàn)室的包文石、Andros Tjandra、John Hoffman等眾多研究人員共同完成,發(fā)表于2025年12月23日,論文編號(hào)為arXiv:2512.18099v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查詢完整論文,同時(shí)研究團(tuán)隊(duì)還提供了在線演示和開源代碼。

要理解SAM Audio的重要意義,我們可以把聲音分離比作廚師從一鍋大雜燴中分離出不同食材的過程。傳統(tǒng)的聲音分離技術(shù)就像是只會(huì)做固定菜譜的廚師,比如專門分離人聲和背景音樂的工具,或者專門分離不同樂器的軟件。這些工具雖然在特定任務(wù)上表現(xiàn)不錯(cuò),但一旦遇到菜譜之外的要求就束手無策。如果你想要提取一種它們從未見過的聲音類型,就像要求一個(gè)只會(huì)做中餐的廚師突然做法國(guó)菜一樣困難。

更重要的是,現(xiàn)有技術(shù)通常只支持單一的"點(diǎn)菜"方式。有些只能通過文字描述來指定目標(biāo)聲音,有些只能通過視覺選擇,還有些壓根不支持用戶自定義。這就像餐廳要么只能看圖點(diǎn)菜,要么只能口述點(diǎn)菜,缺乏靈活性。而SAM Audio的革命性在于,它就像一位全能廚師,不僅能處理各種類型的"食材"(聲音),還支持多種"點(diǎn)菜"方式——你可以用文字描述想要的聲音,可以在視頻中直接指出發(fā)聲的物體或人物,甚至可以指定時(shí)間段來告訴它什么時(shí)候有你想要的聲音。

讓我們深入了解這位"全能廚師"是如何工作的。SAM Audio基于一種叫做擴(kuò)散變換器的深度學(xué)習(xí)架構(gòu),這聽起來很復(fù)雜,但可以把它想象成一個(gè)非常精密的聲音處理工廠。這個(gè)工廠的核心是使用流匹配技術(shù)進(jìn)行訓(xùn)練,簡(jiǎn)單來說就是教會(huì)AI如何從噪聲中逐步"雕刻"出目標(biāo)聲音,就像雕塑家從大理石中雕刻出精美雕像一樣。整個(gè)過程是漸進(jìn)式的:AI首先生成一個(gè)粗糙的聲音輪廓,然后不斷細(xì)化,最終得到精確的目標(biāo)聲音。

這個(gè)系統(tǒng)的獨(dú)特之處在于它的多模態(tài)理解能力。當(dāng)你給它一個(gè)文字描述,比如"鋼琴演奏",系統(tǒng)會(huì)調(diào)用一個(gè)專門的文本編碼器來理解這個(gè)描述。當(dāng)你在視頻中點(diǎn)擊某個(gè)區(qū)域時(shí),系統(tǒng)會(huì)使用SAM 2視覺編碼器來分析這個(gè)視覺區(qū)域?qū)?yīng)什么聲音。最有趣的是,研究團(tuán)隊(duì)還創(chuàng)新性地引入了"時(shí)間段提示"功能,你可以直接在音頻波形上標(biāo)記出目標(biāo)聲音出現(xiàn)的時(shí)間段,系統(tǒng)就能根據(jù)這個(gè)時(shí)間信息來提取聲音。

為了訓(xùn)練這個(gè)全能的聲音分離系統(tǒng),研究團(tuán)隊(duì)面臨著巨大的數(shù)據(jù)挑戰(zhàn)。真實(shí)世界中很難找到既有復(fù)雜聲音混合,又有單獨(dú)分離出的純凈聲音的數(shù)據(jù)。這就像要訓(xùn)練一個(gè)廚師,你不僅需要各種大雜燴,還需要知道每種食材單獨(dú)是什么味道。為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了三種巧妙的數(shù)據(jù)構(gòu)造策略。

第一種策略是使用完全真實(shí)的數(shù)據(jù)三元組。在音樂和語(yǔ)音領(lǐng)域,他們找到了一些高質(zhì)量的多軌錄音數(shù)據(jù)。比如在錄音棚錄制音樂時(shí),每個(gè)樂器都會(huì)單獨(dú)錄制,最后混合成完整的歌曲。研究團(tuán)隊(duì)就利用這種數(shù)據(jù),將各種樂器聲音重新組合,創(chuàng)造出不同的混合方案,讓AI學(xué)會(huì)如何從混合音中提取特定樂器的聲音。類似地,在對(duì)話數(shù)據(jù)中,他們使用了包含兩個(gè)說話者獨(dú)立錄音軌道的對(duì)話數(shù)據(jù),總計(jì)超過2萬(wàn)小時(shí),讓AI學(xué)會(huì)分離不同說話者的聲音。

第二種策略是合成混合音頻。由于真實(shí)數(shù)據(jù)稀缺,研究團(tuán)隊(duì)開始"人工制作大雜燴"。他們收集了大量單一類型的音頻,比如純凈的音樂錄音、清晰的語(yǔ)音錄音和各種聲音效果,然后將它們隨機(jī)組合。這就像一個(gè)廚師拿著各種新鮮食材,按照不同的配方混合,創(chuàng)造出各種口味的"聲音大雜燴"。為了確保訓(xùn)練效果,他們還會(huì)調(diào)整不同聲音的音量比例,模擬真實(shí)環(huán)境中的各種情況。

第三種策略最為巧妙,叫做偽標(biāo)簽數(shù)據(jù)引擎。研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單的隨機(jī)混合往往產(chǎn)生不自然的組合,比如將體育場(chǎng)的歡呼聲和森林中的鳥鳴混合在一起,這種組合在現(xiàn)實(shí)中幾乎不可能出現(xiàn)。為了解決這個(gè)問題,他們采用了一種"自舉"方法:首先用前兩種數(shù)據(jù)訓(xùn)練出一個(gè)初級(jí)版本的SAM Audio,然后用這個(gè)初級(jí)版本來分析真實(shí)世界的復(fù)雜音頻,自動(dòng)生成更多訓(xùn)練數(shù)據(jù)。這個(gè)過程就像讓學(xué)徒廚師先學(xué)會(huì)基本功,然后讓他們?nèi)シ治龈鞣N現(xiàn)實(shí)中的復(fù)雜菜譜,從中學(xué)習(xí)更高級(jí)的搭配規(guī)律。

為了確保偽標(biāo)簽數(shù)據(jù)的質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選機(jī)制。他們使用CLAP模型來檢查文本描述和音頻內(nèi)容的匹配度,使用美學(xué)評(píng)估模型來判斷音頻的清晰程度,還會(huì)自動(dòng)檢測(cè)過于安靜的輸出。只有同時(shí)通過所有質(zhì)量檢查的數(shù)據(jù)才會(huì)被納入最終的訓(xùn)練集。這種多重篩選就像質(zhì)檢員在生產(chǎn)線上層層把關(guān),確保每個(gè)產(chǎn)品都符合標(biāo)準(zhǔn)。

在模型架構(gòu)設(shè)計(jì)上,SAM Audio采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器技術(shù)。整個(gè)系統(tǒng)可以想象成一個(gè)精密的聲音工廠,包含多個(gè)專門的處理車間。音頻編碼車間負(fù)責(zé)將輸入的聲音轉(zhuǎn)換成AI能夠理解的數(shù)字表示,這里使用的是DAC-VAE編碼器,它能夠?qū)⒁纛l壓縮成每秒25幀的緊湊表示,既保持了音質(zhì)又減少了計(jì)算負(fù)擔(dān)。文本編碼車間使用T5文本編碼器來理解用戶的文字描述。視覺編碼車間則采用了最新的PE視覺編碼器,這比傳統(tǒng)的CLIP編碼器更擅長(zhǎng)理解動(dòng)作和場(chǎng)景上下文。

最創(chuàng)新的是時(shí)間段編碼車間的設(shè)計(jì)。研究團(tuán)隊(duì)將時(shí)間段信息轉(zhuǎn)換成類似文字序列的表示方法,每個(gè)時(shí)間點(diǎn)被標(biāo)記為"活躍"或"靜默",就像制作音樂樂譜一樣,標(biāo)記出每個(gè)音符出現(xiàn)的時(shí)間點(diǎn)。這種設(shè)計(jì)使得AI能夠精確理解用戶指定的時(shí)間信息,實(shí)現(xiàn)frame級(jí)別的精確控制。

在訓(xùn)練過程中,SAM Audio不僅學(xué)會(huì)分離目標(biāo)聲音,還同時(shí)學(xué)會(huì)生成剩余聲音。這意味著它能夠輸出兩個(gè)音軌:一個(gè)包含你想要的聲音,另一個(gè)包含所有其他聲音。這種設(shè)計(jì)使得該系統(tǒng)既可以用來提取聲音,也可以用來去除不想要的聲音,就像一把雙刃劍,正反兩面都能使用。

為了提高訓(xùn)練效果,研究團(tuán)隊(duì)還引入了一個(gè)巧妙的輔助訓(xùn)練機(jī)制。除了主要的聲音生成任務(wù),系統(tǒng)還需要學(xué)會(huì)識(shí)別聲音事件。他們使用了一個(gè)專門的音頻事件檢測(cè)模型作為"老師",讓SAM Audio的內(nèi)部表示盡可能接近這個(gè)老師模型的理解。這就像讓學(xué)生不僅要會(huì)做題,還要理解解題思路,從而獲得更深層的理解能力。

在實(shí)際應(yīng)用中,SAM Audio展現(xiàn)出了驚人的靈活性。當(dāng)用戶只提供文字描述時(shí),系統(tǒng)還會(huì)自動(dòng)預(yù)測(cè)相應(yīng)的時(shí)間段信息來增強(qiáng)分離效果。這個(gè)預(yù)測(cè)功能使用了PEA-Frame模型,它能夠分析音頻并自動(dòng)標(biāo)出指定聲音出現(xiàn)的時(shí)間段。這就像一個(gè)經(jīng)驗(yàn)豐富的音響師,即使你只說了想要什么聲音,他也能自動(dòng)判斷出這個(gè)聲音最可能在什么時(shí)候出現(xiàn),從而做出更精確的調(diào)整。

對(duì)于超長(zhǎng)音頻的處理,研究團(tuán)隊(duì)采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)方法處理長(zhǎng)音頻時(shí),要么因?yàn)閮?nèi)存限制無法處理,要么將音頻切成片段獨(dú)立處理,導(dǎo)致片段之間出現(xiàn)不連續(xù)的問題。SAM Audio的解決方案更加優(yōu)雅,它將長(zhǎng)音頻分成重疊的窗口,每個(gè)窗口都能看到相鄰窗口的一部分內(nèi)容。在每個(gè)處理步驟中,系統(tǒng)會(huì)綜合所有窗口的信息,確保最終結(jié)果的連貫性。這就像多個(gè)工人協(xié)同完成一項(xiàng)長(zhǎng)工序,每個(gè)人負(fù)責(zé)一段,但大家會(huì)互相溝通,確保整體工作的一致性。

為了驗(yàn)證SAM Audio的性能,研究團(tuán)隊(duì)面臨著另一個(gè)挑戰(zhàn):如何公平地評(píng)估聲音分離效果。傳統(tǒng)的評(píng)估方法主要依賴信噪比等技術(shù)指標(biāo),但這些指標(biāo)往往與人類的聽覺感受不一致。兩個(gè)在技術(shù)指標(biāo)上相似的音頻在實(shí)際聽起來可能差別很大,就像兩道菜的營(yíng)養(yǎng)成分相同,但口味完全不同。

為了解決這個(gè)評(píng)估難題,研究團(tuán)隊(duì)開發(fā)了兩個(gè)重要工具。首先是SAM Audio-Bench,這是一個(gè)全面的測(cè)試基準(zhǔn),包含了來自真實(shí)世界的各種音頻和視頻數(shù)據(jù),涵蓋語(yǔ)音、音樂和一般聲音效果等多個(gè)領(lǐng)域。與以往主要使用合成數(shù)據(jù)的測(cè)試集不同,這個(gè)基準(zhǔn)使用的都是真實(shí)環(huán)境錄制的音頻,更能反映實(shí)際使用場(chǎng)景的復(fù)雜性。每個(gè)測(cè)試樣本都有人工標(biāo)注的多模態(tài)提示,包括文字描述、視覺標(biāo)記和時(shí)間段標(biāo)記,使得可以全面測(cè)試模型的各種能力。

更重要的是,研究團(tuán)隊(duì)開發(fā)了SAM Audio Judge,這是一個(gè)能夠自動(dòng)評(píng)估聲音分離質(zhì)量的AI評(píng)判員。這個(gè)評(píng)判員經(jīng)過大量人類評(píng)估數(shù)據(jù)的訓(xùn)練,學(xué)會(huì)了從多個(gè)維度評(píng)估分離效果:召回率衡量目標(biāo)聲音是否被完整提取,精確度衡量是否混入了不相關(guān)的聲音,保真度衡量分離出的聲音與原始聲音的相似程度。最令人印象深刻的是,這個(gè)AI評(píng)判員與人類評(píng)估的相關(guān)性達(dá)到了0.88,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)技術(shù)指標(biāo)的0.49。這意味著AI評(píng)判員的判斷已經(jīng)非常接近人類的感受。

在大規(guī)模實(shí)驗(yàn)中,SAM Audio展現(xiàn)出了全面超越現(xiàn)有技術(shù)的性能。在一般聲音事件分離任務(wù)中,它比目前最好的公開模型SoloAudio的勝率高出約36%。在專業(yè)領(lǐng)域表現(xiàn)更加出色,比如在樂器分離任務(wù)中,即使與專門針對(duì)音樂設(shè)計(jì)的Demucs系統(tǒng)相比,SAM Audio的勝率仍然達(dá)到17.6%。在說話者分離任務(wù)中,相比專業(yè)的AudioShake系統(tǒng),SAM Audio的整體質(zhì)量評(píng)分提高了近4%,勝率高達(dá)39%。

特別值得一提的是視覺提示功能的表現(xiàn)。雖然視覺引導(dǎo)的聲音分離技術(shù)相對(duì)較少被研究,但SAM Audio在這方面同樣表現(xiàn)出色。相比現(xiàn)有的DAVIS-Flow系統(tǒng),SAM Audio在不同任務(wù)中的勝率從5%到48%不等。研究團(tuán)隊(duì)發(fā)現(xiàn),視覺提示在某些特定場(chǎng)景中特別有用,比如在多人對(duì)話的視頻中,當(dāng)你想分離某個(gè)特定說話者的聲音時(shí),文字描述"男性說話"可能無法區(qū)分兩個(gè)男性說話者,但點(diǎn)擊視頻中的特定人物就能精確指定目標(biāo)。

時(shí)間段提示功能的引入更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。在復(fù)雜的聲音環(huán)境中,有時(shí)候文字描述很難精確表達(dá)想要的聲音,比如電影配樂中的某個(gè)特定音效。通過標(biāo)記時(shí)間段,用戶可以告訴系統(tǒng)"我想要第3到5秒之間出現(xiàn)的那個(gè)聲音",系統(tǒng)就能根據(jù)時(shí)間定位來提取目標(biāo)聲音。實(shí)驗(yàn)結(jié)果顯示,將文字描述和時(shí)間段提示結(jié)合使用,能夠在各個(gè)領(lǐng)域都帶來12.9%到39.0%的性能提升。

研究團(tuán)隊(duì)還深入分析了不同提示方式的特點(diǎn)和適用場(chǎng)景。文字提示具有最好的可訪問性,用戶只需要簡(jiǎn)單描述就能使用,而且由于有大量高質(zhì)量的文字-音頻訓(xùn)練數(shù)據(jù),文字提示通常能達(dá)到最好的分離效果。視覺提示則擅長(zhǎng)處理模糊場(chǎng)景,當(dāng)同一類型的聲音有多個(gè)來源時(shí),視覺定位能夠提供實(shí)例級(jí)別的區(qū)分。時(shí)間段提示最適合處理瞬時(shí)性強(qiáng)的聲音事件,比如門關(guān)上的聲音、狗叫聲等,這類聲音的時(shí)間定位信息非常有價(jià)值。

在模型規(guī)模的研究中,團(tuán)隊(duì)訓(xùn)練了三個(gè)不同大小的版本:5億、10億和30億參數(shù)。就像不同馬力的發(fā)動(dòng)機(jī)一樣,更大的模型在處理復(fù)雜任務(wù)時(shí)表現(xiàn)更好,特別是在專業(yè)領(lǐng)域如樂器分離中,30億參數(shù)的模型比10億參數(shù)版本的勝率高出23%。但在一些基礎(chǔ)任務(wù)中,較小的模型也能達(dá)到相當(dāng)不錯(cuò)的效果,這為不同應(yīng)用場(chǎng)景提供了靈活的選擇空間。

系統(tǒng)的實(shí)時(shí)性能也經(jīng)過了精心優(yōu)化。對(duì)于10秒的音頻,SAM Audio在單張A100 GPU上大約需要7.3秒完成處理,其中包括模型計(jì)算、時(shí)間段預(yù)測(cè)和結(jié)果優(yōu)化等所有步驟。雖然還不能做到實(shí)時(shí)處理,但對(duì)于大多數(shù)實(shí)際應(yīng)用已經(jīng)足夠快。更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)即使將計(jì)算步驟從16步減少到2步,系統(tǒng)仍然能保持令人滿意的分離效果,這為需要快速處理的應(yīng)用場(chǎng)景提供了可能。

在長(zhǎng)音頻處理方面,SAM Audio采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)的分塊處理方法會(huì)在塊與塊之間產(chǎn)生明顯的不連續(xù)性,聽起來就像拼接的錄音帶。SAM Audio的方法更像是多個(gè)畫家同時(shí)在一幅長(zhǎng)卷上作畫,每個(gè)畫家負(fù)責(zé)一段,但他們會(huì)時(shí)刻關(guān)注相鄰區(qū)域的筆觸,確保整體畫面的和諧統(tǒng)一。實(shí)驗(yàn)結(jié)果證明,這種方法比簡(jiǎn)單分塊處理的效果提升明顯,音頻的連貫性和整體質(zhì)量都得到了保證。

研究團(tuán)隊(duì)還深入研究了聲音分離任務(wù)的內(nèi)在難度。他們發(fā)現(xiàn),分離任務(wù)的難度主要取決于幾個(gè)因素:混合音中非目標(biāo)聲音的數(shù)量、目標(biāo)聲音與非目標(biāo)聲音的重疊程度、目標(biāo)聲音的相對(duì)音量,以及非目標(biāo)聲音與目標(biāo)聲音的相似程度?;谶@些因素,他們建立了一個(gè)自動(dòng)難度評(píng)估系統(tǒng),能夠預(yù)測(cè)某個(gè)分離任務(wù)對(duì)人類來說有多困難。實(shí)驗(yàn)證實(shí),隨著任務(wù)難度的增加,人類評(píng)估者給出的分離質(zhì)量評(píng)分確實(shí)單調(diào)遞減,驗(yàn)證了這個(gè)難度評(píng)估系統(tǒng)的有效性。

在商業(yè)模型的對(duì)比中,SAM Audio不僅超越了所有開源模型,甚至在多數(shù)任務(wù)中超過了商業(yè)化的專業(yè)音頻處理服務(wù)。比如在語(yǔ)音增強(qiáng)任務(wù)中,SAM Audio的表現(xiàn)超過了AudioShake、MoisesAI等知名商業(yè)產(chǎn)品。在音樂分離任務(wù)中,它也明顯優(yōu)于專業(yè)音頻制作工具。這種全面的性能優(yōu)勢(shì)證明了統(tǒng)一訓(xùn)練方法的威力:通過在大規(guī)模多樣化數(shù)據(jù)上統(tǒng)一訓(xùn)練,單一模型能夠在多個(gè)專業(yè)領(lǐng)域都達(dá)到或超越專門為該領(lǐng)域設(shè)計(jì)的系統(tǒng)。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了SAM Audio Judge評(píng)估系統(tǒng)的價(jià)值。傳統(tǒng)的音頻分離評(píng)估主要依賴技術(shù)指標(biāo),但這些指標(biāo)往往與人類的主觀感受脫節(jié)。SAM Audio Judge通過學(xué)習(xí)大量人類評(píng)估數(shù)據(jù),能夠更準(zhǔn)確地預(yù)測(cè)人類對(duì)分離效果的滿意度。這個(gè)評(píng)估系統(tǒng)本身就是一個(gè)重要貢獻(xiàn),可以幫助其他研究者更好地評(píng)估和比較不同的聲音分離方法。

整個(gè)研究還揭示了一些有趣的發(fā)現(xiàn)。比如,視覺提示雖然在某些場(chǎng)景中非常有用,但總體效果不如文字提示,主要原因是視覺訓(xùn)練數(shù)據(jù)相對(duì)較少且質(zhì)量參差不齊,而且視覺區(qū)域往往比文字描述更加模糊。一個(gè)人的視覺區(qū)域可能對(duì)應(yīng)多種不同的聲音,而"男性說話"這樣的文字描述則相對(duì)明確。

另一個(gè)重要發(fā)現(xiàn)是時(shí)間段預(yù)測(cè)的有效性。即使是自動(dòng)預(yù)測(cè)的時(shí)間段信息,而非人工標(biāo)注的準(zhǔn)確時(shí)間段,也能顯著提升分離效果。這意味著用戶在實(shí)際使用時(shí),即使只提供文字描述,系統(tǒng)也能自動(dòng)增強(qiáng)處理效果,無需額外的人工標(biāo)注工作。

SAM Audio的成功不僅在于其技術(shù)先進(jìn)性,更在于其實(shí)用性和通用性。無論是專業(yè)音頻制作人員需要從復(fù)雜混音中提取特定樂器,還是普通用戶想要從嘈雜視頻中提取清晰對(duì)話,或者研究人員需要分析野外錄音中的特定聲音事件,SAM Audio都能提供統(tǒng)一的解決方案。這種"一站式"服務(wù)的價(jià)值在于降低了使用門檻,用戶無需學(xué)習(xí)多個(gè)不同的專業(yè)工具,只需要掌握一個(gè)系統(tǒng)就能處理各種聲音分離需求。

當(dāng)然,這項(xiàng)研究也坦誠(chéng)地指出了現(xiàn)有的局限性。視覺提示的效果仍然明顯低于文字提示,主要原因是缺乏足夠的高質(zhì)量音視頻對(duì)應(yīng)訓(xùn)練數(shù)據(jù)。一般聲音效果的分離仍然比專業(yè)領(lǐng)域如語(yǔ)音或音樂更具挑戰(zhàn)性,因?yàn)槁曇粜Ч愋透佣鄻踊吔绺幽:?。這些限制為未來的研究指明了方向,需要更強(qiáng)的音視頻對(duì)應(yīng)學(xué)習(xí)和更好的復(fù)雜多源聲音場(chǎng)景建模技術(shù)。

研究團(tuán)隊(duì)在論文中還詳細(xì)描述了訓(xùn)練的具體配置。他們使用了兩階段訓(xùn)練策略:首先在大規(guī)模通用視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,建立基礎(chǔ)的聲音分離能力,然后在精選的高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào),提升在專業(yè)領(lǐng)域的表現(xiàn)。預(yù)訓(xùn)練階段使用了有效批量大小為1024的設(shè)置,訓(xùn)練50萬(wàn)次更新。微調(diào)階段則采用了變長(zhǎng)批處理技術(shù),根據(jù)模型大小調(diào)整每批的token數(shù)量,訓(xùn)練30萬(wàn)次更新。整個(gè)訓(xùn)練過程使用了全分片數(shù)據(jù)并行來適應(yīng)模型規(guī)模,確保訓(xùn)練效率。

推理時(shí),系統(tǒng)使用16步的中點(diǎn)ODE求解器,不需要分類器自由引導(dǎo)就能達(dá)到很好的效果。為了進(jìn)一步提升輸出質(zhì)量,系統(tǒng)還會(huì)生成8個(gè)候選結(jié)果,然后使用SAM Audio Judge和CLAP分?jǐn)?shù)的線性組合來選擇最佳輸出。這種候選重排序機(jī)制能夠顯著提高最終分離效果的質(zhì)量和穩(wěn)定性。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在教育領(lǐng)域,SAM Audio可以幫助語(yǔ)言學(xué)習(xí)者從嘈雜環(huán)境中提取清晰的目標(biāo)語(yǔ)音,或者幫助音樂學(xué)習(xí)者從復(fù)雜樂曲中分離出特定樂器進(jìn)行學(xué)習(xí)。在輔助技術(shù)領(lǐng)域,它可以為聽力輔助設(shè)備提供更好的聲音分離功能,幫助用戶在嘈雜環(huán)境中專注于重要聲音。在內(nèi)容創(chuàng)作領(lǐng)域,它為音頻編輯、播客制作、視頻后期等提供了強(qiáng)大的工具。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了開放科學(xué)的重要性。他們不僅發(fā)布了模型代碼和演示系統(tǒng),還公開了完整的訓(xùn)練數(shù)據(jù)構(gòu)建流程和評(píng)估基準(zhǔn)。這種開放性將極大促進(jìn)整個(gè)領(lǐng)域的發(fā)展,讓更多研究者能夠基于這項(xiàng)工作繼續(xù)創(chuàng)新。SAM Audio-Bench作為統(tǒng)一的評(píng)估標(biāo)準(zhǔn),也將有助于未來不同方法之間的公平比較。

從技術(shù)發(fā)展的角度看,SAM Audio代表了AI聲音理解能力的一個(gè)重要里程碑。它不僅展示了大模型在音頻領(lǐng)域的潛力,更重要的是證明了多模態(tài)統(tǒng)一訓(xùn)練的有效性。通過同時(shí)學(xué)習(xí)文字、視覺和時(shí)間信息,AI系統(tǒng)獲得了更加全面和靈活的聲音理解能力,這為構(gòu)建真正智能的多模態(tài)AI系統(tǒng)奠定了重要基礎(chǔ)。

說到底,SAM Audio的真正價(jià)值在于它將復(fù)雜的專業(yè)音頻處理技術(shù)變成了普通人都能輕松使用的工具。就像智能手機(jī)將復(fù)雜的通信技術(shù)變成日常工具一樣,SAM Audio有望將聲音分離從專業(yè)音頻制作的小眾領(lǐng)域擴(kuò)展到每個(gè)人的日常生活中。無論你是想從家庭錄像中提取孩子的笑聲,還是想從演唱會(huì)錄音中分離出特定樂器的演奏,SAM Audio都能夠理解你的需求并提供高質(zhì)量的結(jié)果。這種技術(shù)的普及化將為聲音處理領(lǐng)域帶來革命性的變化,讓每個(gè)人都能成為自己的聲音魔法師。

Q&A

Q1:SAM Audio是什么?

A:SAM Audio是Meta公司開發(fā)的AI聲音分離系統(tǒng),它能夠從復(fù)雜的聲音混合物中提取用戶想要的任何特定聲音。用戶可以通過文字描述、視頻中的視覺選擇或時(shí)間段標(biāo)記來指定目標(biāo)聲音,系統(tǒng)會(huì)自動(dòng)分離出純凈的目標(biāo)音軌和剩余音軌。

Q2:SAM Audio相比現(xiàn)有聲音分離工具有什么優(yōu)勢(shì)?

A:SAM Audio的最大優(yōu)勢(shì)是統(tǒng)一性和靈活性。傳統(tǒng)工具通常只能處理固定類型的聲音分離,比如專門分離人聲和音樂,而SAM Audio可以分離任何類型的聲音。更重要的是,它支持三種提示方式的任意組合使用,在各個(gè)專業(yè)領(lǐng)域都達(dá)到了超越專門系統(tǒng)的性能。

Q3:普通用戶如何使用SAM Audio?

A:目前用戶可以通過Meta提供的在線演示體驗(yàn)SAM Audio,研究團(tuán)隊(duì)還開源了代碼供開發(fā)者使用。對(duì)于10秒音頻,系統(tǒng)需要約7秒處理時(shí)間。用戶只需上傳音頻或視頻文件,然后通過文字描述、點(diǎn)擊視覺區(qū)域或標(biāo)記時(shí)間段的方式指定想要提取的聲音即可。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中央定調(diào)!2026年養(yǎng)老金或雙增長(zhǎng),企退事退和農(nóng)民,分別漲多少?

中央定調(diào)!2026年養(yǎng)老金或雙增長(zhǎng),企退事退和農(nóng)民,分別漲多少?

云鵬敘事
2025-12-31 23:25:03
董璇自爆全年都穿一次性內(nèi)褲,一條100多塊,網(wǎng)友集體破防

董璇自爆全年都穿一次性內(nèi)褲,一條100多塊,網(wǎng)友集體破防

星創(chuàng)文化
2025-12-01 22:54:08
重慶市巴南區(qū)委書記陶世祥,區(qū)委副書記、區(qū)長(zhǎng)鐘濤到區(qū)財(cái)政局看望慰問干部職工

重慶市巴南區(qū)委書記陶世祥,區(qū)委副書記、區(qū)長(zhǎng)鐘濤到區(qū)財(cái)政局看望慰問干部職工

上游新聞
2026-01-01 20:12:12
A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

云鵬敘事
2026-01-01 00:00:06
南京最新人事任免

南京最新人事任免

揚(yáng)子晚報(bào)
2026-01-01 12:37:07
朝鮮大量買我國(guó)舊設(shè)備,工業(yè)開始跨越式發(fā)展?

朝鮮大量買我國(guó)舊設(shè)備,工業(yè)開始跨越式發(fā)展?

百姓聞世界
2026-01-01 17:42:51
新年第一跑奪冠!“最快女護(hù)士”張水華問鼎東極撫遠(yuǎn)新年馬拉松,將獲1.5萬(wàn)元總獎(jiǎng)金

新年第一跑奪冠!“最快女護(hù)士”張水華問鼎東極撫遠(yuǎn)新年馬拉松,將獲1.5萬(wàn)元總獎(jiǎng)金

極目新聞
2026-01-01 10:09:07
定好鬧鐘!飛天茅臺(tái)1499元敞開搶,i茅臺(tái)開售攻略來了

定好鬧鐘!飛天茅臺(tái)1499元敞開搶,i茅臺(tái)開售攻略來了

芒果都市
2026-01-01 17:17:57
北京虐廣東!曾凡博+雙外轟61分,周琦趙睿劃水,薩姆納空砍31分

北京虐廣東!曾凡博+雙外轟61分,周琦趙睿劃水,薩姆納空砍31分

籃球資訊達(dá)人
2026-01-01 21:23:33
官宣!中國(guó)男足分組:跟法國(guó)、巴西過招,去年奪第四創(chuàng)造歷史最佳

官宣!中國(guó)男足分組:跟法國(guó)、巴西過招,去年奪第四創(chuàng)造歷史最佳

侃球熊弟
2026-01-01 00:05:03
炸鍋了!中年婦女真的很容易被殺豬盤啊,評(píng)論看的一陣后怕

炸鍋了!中年婦女真的很容易被殺豬盤啊,評(píng)論看的一陣后怕

有趣的火烈鳥
2025-12-30 14:14:31
驚!俄寡頭逼宮普京:別再搶了!4 萬(wàn)億家底快沒了,承諾不算數(shù)?

驚!俄寡頭逼宮普京:別再搶了!4 萬(wàn)億家底快沒了,承諾不算數(shù)?

南宗歷史
2025-12-31 16:17:50
蔣萬(wàn)安急了,嚴(yán)厲譴責(zé)解放軍圍臺(tái)演習(xí),鄭麗文公開回應(yīng),語(yǔ)出驚人

蔣萬(wàn)安急了,嚴(yán)厲譴責(zé)解放軍圍臺(tái)演習(xí),鄭麗文公開回應(yīng),語(yǔ)出驚人

標(biāo)體
2026-01-01 21:13:31
李湘帶女兒澳門跨年!脖子戴3層珍珠項(xiàng)鏈,手戴100克拉鉆戒好晃眼

李湘帶女兒澳門跨年!脖子戴3層珍珠項(xiàng)鏈,手戴100克拉鉆戒好晃眼

小小李?yuàn)?/span>
2025-12-30 17:44:57
這次演習(xí)最讓青蛙們破防的,不是臺(tái)北101,而是那架剛起飛的客機(jī)

這次演習(xí)最讓青蛙們破防的,不是臺(tái)北101,而是那架剛起飛的客機(jī)

青青子衿
2025-12-30 20:13:46
耗資巨大!波音啟動(dòng)以色列最昂貴戰(zhàn)斗機(jī)項(xiàng)目——新型F-15IA

耗資巨大!波音啟動(dòng)以色列最昂貴戰(zhàn)斗機(jī)項(xiàng)目——新型F-15IA

軍迷戰(zhàn)情室
2026-01-01 14:46:26
林俊杰的“百人斬”!

林俊杰的“百人斬”!

八卦瘋叔
2025-12-31 11:19:20
小米 17 Ultra的最強(qiáng)賣點(diǎn),卻成了用戶退貨的理由

小米 17 Ultra的最強(qiáng)賣點(diǎn),卻成了用戶退貨的理由

藍(lán)字計(jì)劃
2025-12-31 16:28:39
從無視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來越差

從無視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來越差

譚顳愛搞笑
2025-12-30 21:35:03
今年的經(jīng)濟(jì)形勢(shì),真的讓人擔(dān)憂嗎?

今年的經(jīng)濟(jì)形勢(shì),真的讓人擔(dān)憂嗎?

黯泉
2026-01-01 21:35:31
2026-01-01 22:55:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國(guó)

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤(rùn)被網(wǎng)友喊話

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬(wàn)輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

藝術(shù)
健康
數(shù)碼
房產(chǎn)
公開課

藝術(shù)要聞

私房照揭秘:你不知道的陰柔之美!

元旦舉家出行,注意防流感

數(shù)碼要聞

RTX 5090改裝上到1350W差點(diǎn)燒毀!華擎溫度傳感器成功救命

房產(chǎn)要聞

實(shí)景暴擊!海口這個(gè)頂流紅盤,拋出準(zhǔn)現(xiàn)房+頂級(jí)書包雙王炸!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版