国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

分割一切、3D重建一切還不夠,Meta開源SAM Audio分割一切聲音

0
分享至



編輯|陳萍、Panda

繼 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新動作。

深夜,Meta 放出音頻分割模型SAM Audio,其通過多模態(tài)提示(無論是文本、視覺,還是標注時間片段),讓人們能夠輕松地從復(fù)雜的音頻混合中分離出任意聲音,從而徹底改變音頻處理方式。

SAM Audio 的核心是Perception Encoder Audiovisual(PE-AV),這是推動其實現(xiàn)業(yè)界領(lǐng)先性能的技術(shù)引擎。

PE-AV 基于 Meta 今年早些時候開源發(fā)布的 Perception Encoder 模型,能夠支持更先進的計算機視覺系統(tǒng),幫助人們完成日常任務(wù),其中就包括聲音檢測。

你可以把 PE-AV 想象成幫助 SAM Audio 運作的耳朵,而 SAM Audio 則是完成音頻分割任務(wù)的大腦。這兩者的結(jié)合帶來了許多令人興奮的應(yīng)用場景。

設(shè)想一下:一段樂隊演出的錄像,只需在畫面中點擊一下吉他,就能單獨分離出吉他的聲音。SAM Audio 還可以通過文本提示進行音頻分離,比如從戶外拍攝的視頻中濾除嘈雜的交通噪聲。此外,Meta 業(yè)內(nèi)首創(chuàng)的時間跨度提示(span prompts),可以幫助人們一次性解決整段音頻中的問題,例如在整期播客錄音中去除持續(xù)出現(xiàn)的狗叫聲等噪音。



Meta 表示,他們正在利用這些技術(shù)進展來構(gòu)建下一代創(chuàng)意媒體工具。相關(guān)團隊看到了大量潛在的應(yīng)用場景,包括音頻清理、背景噪聲移除,以及其他能夠幫助用戶提升創(chuàng)造力的工具。此次,Meta 向社區(qū)開放了 SAM Audio 和 PE-AV,并同時發(fā)布了兩篇研究論文,分別深入介紹了這兩個模型的技術(shù)細節(jié)。此外,Meta 還發(fā)布了:

  1. SAM Audio-Bench:首個真實環(huán)境(in-the-wild)的音頻分離基準;
  2. SAM Audio Judge:首個用于音頻分離的自動評測模型。

Meta 還將上述所有成果整合進 Segment Anything Playground,這是一個全新的平臺,任何人都可以在其中體驗其最新模型。



地址:https://aidemos.meta.com/segment-anything

從即日起,用戶可以從平臺提供的音頻和視頻素材庫中進行選擇,或上傳自己的內(nèi)容,以探索 SAM Audio 的能力。Meta 表示,他們期待繼續(xù)圍繞 SAM 展開討論 —— 而這一次,也將首次聽到用戶使用這些突破性新模型所創(chuàng)作出的內(nèi)容。

用于音頻分割的統(tǒng)一多模態(tài)提示模型

在此之前,音頻分割和編輯一直是一個較為割裂的領(lǐng)域,市面上存在著多種只針對單一用途的工具。作為一個統(tǒng)一模型,SAM Audio 首次支持多種交互方式,這些方式與人們自然理解和思考聲音的方式高度契合,并在多項任務(wù)上實現(xiàn)了業(yè)界領(lǐng)先的性能,包括在文本提示和視覺提示條件下的樂器、人聲以及通用聲音分離。

SAM Audio 能夠在多樣且真實的應(yīng)用場景中穩(wěn)定運行,支持使用文本、視覺以及時間維度的線索進行音頻分割。這種方法為用戶提供了對音頻分離過程更精確、更直觀的控制能力。

該模型提供了三種音頻分割方式,這些方式既可以單獨使用,也可以靈活組合,以實現(xiàn)所需的分割效果:

  1. 文本提示:輸入「狗叫聲」或「歌唱聲」等描述,即可提取對應(yīng)的特定聲音。
  2. 視覺提示:在視頻中點擊正在說話的人或發(fā)聲的物體,即可分離其對應(yīng)的音頻。
  3. 時間跨度提示(Span Prompting):業(yè)內(nèi)首創(chuàng)的方法,允許用戶標記目標聲音出現(xiàn)的時間片段,從而實現(xiàn)更精確的音頻分割。



  1. SAM Audio 論文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
  2. 代碼地址:https://github.com/facebookresearch/sam-audio

模型架構(gòu)

從核心技術(shù)上看,SAM Audio 采用了一種基于流匹配擴散 Transformer 的生成式建模框架。該架構(gòu)接收一段混合音頻以及一個或多個提示信息,將它們編碼為共享表示,并生成目標音軌與剩余音軌。



在生成式建??蚣苤猓芯繄F隊還為 SAM Audio 構(gòu)建了一套完整的數(shù)據(jù)引擎,用于解決大規(guī)模、高質(zhì)量音頻分離數(shù)據(jù)難以獲取的問題。該數(shù)據(jù)引擎融合了先進的音頻混合技術(shù)、自動化的多模態(tài)提示生成方法,以及穩(wěn)健的偽標簽(pseudo-labeling)pipeline,從而生成貼近真實應(yīng)用場景的訓(xùn)練數(shù)據(jù),用于提升模型在現(xiàn)實世界中的表現(xiàn)。



該模型基于這一多樣化的數(shù)據(jù)集進行訓(xùn)練,數(shù)據(jù)集涵蓋了真實與合成的混合音頻,內(nèi)容橫跨語音、音樂以及各類通用聲音事件。先進的音頻數(shù)據(jù)合成策略進一步提升了模型的魯棒性,確保其在各種復(fù)雜環(huán)境中都能保持穩(wěn)定、可靠的表現(xiàn)。

感知編碼器(視聽版)

第二個模型 PE-AV 是支撐 SAM Audio 效果表現(xiàn)的核心引擎。它為多個關(guān)鍵組件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音頻分離的自動評測模型)。



  1. PE-AV 論文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
  2. 代碼地址:https://github.com/facebookresearch/perception_models

PE-AV 構(gòu)建于 Meta Perception Encoder 之上,這是 Meta 于今年 4 月發(fā)布的一個開源模型。在此基礎(chǔ)上,PE-AV 將先進的計算機視覺能力擴展到了音頻領(lǐng)域。正如團隊此前在 SAM 3 中將該模型適配用于目標檢測一樣,這一次又進一步擴展了其框架,使其能夠?qū)β曇暨M行編碼,從而支持 SAM Audio 對復(fù)雜音頻混合的分離,并適應(yīng)那些視覺上下文同樣重要的真實世界應(yīng)用場景。



通過提取逐幀級別的視頻特征并將其與音頻表示進行對齊,系統(tǒng)能夠融合視聽信息并為其加上精確的時間標注。這種設(shè)計使 SAM Audio 能夠準確分離那些在視覺上有明確對應(yīng)的聲源,例如畫面中的說話者或正在演奏的樂器,同時也可以結(jié)合場景上下文,對畫面外發(fā)生的聲音事件進行推斷。

PE-AV 通過在精確的時間點上對齊視頻幀與音頻,提供了穩(wěn)健且語義信息豐富的特征表示。這種時間對齊機制對于將所見與所聞進行匹配至關(guān)重要,是實現(xiàn)高精度多模態(tài)音頻分離的基礎(chǔ)。如果缺少這一能力,模型將無法獲得足夠細粒度的視覺理解,從而難以實現(xiàn)靈活且符合人類感知的音頻分割效果。



從技術(shù)層面來看,PE-AV 融合了多種開源組件和前沿研究成果。除 Meta 的 Perception Encoder 之外,該模型還使用 PyTorchVideo 進行高效的視頻處理,利用 FAISS 實現(xiàn)大規(guī)模語義搜索,并引入了對比學習框架來提升多模態(tài)表示能力。

PE-AV 基于超過 1 億條視頻進行訓(xùn)練,采用大規(guī)模多模態(tài)對比學習方法,訓(xùn)練數(shù)據(jù)來自開放數(shù)據(jù)集以及合成字幕生成流水線,從而確保了數(shù)據(jù)覆蓋的廣泛性和模型的強泛化能力。這些要素共同構(gòu)建了一個靈活且高性能的基礎(chǔ)架構(gòu),能夠支持文本、視覺和時間維度的提示方式,適用于多種音頻分離與理解任務(wù)。

SAM Audio Judge

Meta 還發(fā)布了SAM Audio Judge,這是一套全新的評測框架與模型,旨在以更加貼近人類感知方式來評估音頻分割質(zhì)量。與傳統(tǒng)依賴參考音軌進行對比的評測指標不同,這些指標往往難以捕捉人類真實聽感中的細微差別,SAM Audio Judge 提供了一種無需參考音頻的客觀評測方式,從感知層面對分割后的音頻進行評價。

用戶可以借助 SAM Audio Judge,在音樂、語音以及音效等不同場景下,對音頻分離模型進行評測和比較,從而深入了解輸出質(zhì)量以及音頻分離任務(wù)本身的內(nèi)在難度。SAM Audio Judge 的構(gòu)建始于對 9 個感知維度的定義,其中包括召回率(recall)、精確度(precision)、忠實度(faithfulness)和整體質(zhì)量(overall quality)等。隨后,研究團隊依據(jù)詳細的標注規(guī)范,采用五分制量表收集了大量人工評分數(shù)據(jù)。

在模型設(shè)計上,SAM Audio Judge 結(jié)合了先進的音頻與文本編碼器、Transformer 主干網(wǎng)絡(luò),以及一種獨特的預(yù)訓(xùn)練策略,用于提升模型判斷輸出是否符合文本提示的能力。感知對齊的評測標準、嚴謹?shù)臄?shù)據(jù)采集流程與創(chuàng)新的模型架構(gòu)相結(jié)合,為推動音頻分離領(lǐng)域的發(fā)展提供了有力支撐。

SAM Audio-Bench

此外,為了在不同任務(wù)之間對模型性能進行一致且有意義的評估,該團隊還構(gòu)建了一個新基準:SAM Audio-Bench。

這是一個全面的音頻分離基準,覆蓋了所有主要音頻領(lǐng)域。包括語音、音樂和通用音效。同時也覆蓋了文本、視覺以及時間段提示等多種提示類型。

該團隊表示:「該基準能夠?qū)Ψ蛛x模型進行公平評測。從而確保該領(lǐng)域的進展是可衡量的。并且與日常使用場景密切相關(guān)。」

該團隊表示,這種方法可確保 SAM Audio-Bench 更加真實且更具靈活性。它支持從語音和音樂分離,到樂器以及通用聲音提取等多種任務(wù)。所有能力都統(tǒng)一在一個框架之中。



SAM Audio-Bench 還率先引入了無參考評估(reference-free evaluation)方式。

這使得在不需要孤立參考音軌的情況下,也可以評估音頻分離效果。它結(jié)合了人工聽感測試與 SAM Audio Judge 模型。即使原始音軌不可用,也能提供可靠的評估結(jié)果。

通過融合真實世界音頻、多模態(tài)提示,以及對不同聲音領(lǐng)域的全面覆蓋,可以說 SAM Audio-Bench 為音頻分離系統(tǒng)的測試樹立了新標準。這一標準能更好地反映模型在實驗室之外的實際使用方式。

結(jié)果

SAM Audio 在音頻分離技術(shù)上取得了顯著進展。它在多種基準和任務(wù)上超越了此前的最先進模型。

該模型不僅在通用音頻分離方面顯著領(lǐng)先于以往工作,還在所有音頻類別上達到了最佳領(lǐng)域?qū)S媚P偷男阅芩?。這些類別包括語音、音樂以及通用聲音。

其多模態(tài)提示機制支持文本、視覺和點擊式輸入。這使得模型能夠進行靈活、開放域的音頻分割。因此既適用于真實環(huán)境中的應(yīng)用,也適用于專業(yè)音頻場景。



性能評估表明,SAM Audio 在各類模態(tài)特定任務(wù)中均達到了 SOTA 水平。

混合模態(tài)提示方式表現(xiàn)尤為突出。例如將文本與時間段提示結(jié)合使用。其效果優(yōu)于單一模態(tài)的方法。

值得注意的是,該模型的運行速度快于實時處理。實時因子約為 0.7 (RTF ≈ 0.7)。在 5 億到 30 億參數(shù)規(guī)模下,都能高效地進行大規(guī)模音頻處理。

盡管 SAM Audio 在質(zhì)量和效率方面樹立了新標準,但它仍存在一些局限。

  1. 目前不支持以音頻本身作為提示。
  2. 在沒有任何提示的情況下進行完整音頻分離,也不在其能力范圍內(nèi)。
  3. 在高度相似的音頻事件之間進行分離仍然具有挑戰(zhàn)性。例如從合唱中分離出單一歌手,或從交響樂中分離出某一種樂器。

展望:音頻 AI 的未來

該 Meta 團隊表示,SAM Audio 屬于 Segment Anything 模型家族,這次也是將音頻能力引入了該系列模型?!肝覀兿嘈?SAM Audio 是目前綜合表現(xiàn)最強的音頻分離模型。這種統(tǒng)一的方法也為理解復(fù)雜聲學環(huán)境提供了新的可能性。并且能夠跨多種模態(tài),對自然提示作出響應(yīng)?!?/p>

此外,Meta 還宣布與美國最大的助聽器制造商 Starkey 以及一家面向殘障創(chuàng)始人的領(lǐng)先創(chuàng)業(yè)加速器 2gether-International 建立了合作關(guān)系。這兩個合作伙伴都在探索,像 SAM Audio 這樣的模型可以如何進一步推動無障礙技術(shù)的發(fā)展。

Meta 表示:「這種音頻工具的普及推廣,是邁向更易用、更具創(chuàng)造力、更加包容的 AI 的一步。具備音頻感知能力的 AI 未來才剛剛開始。我們期待并支持未來涌現(xiàn)出的創(chuàng)新與發(fā)現(xiàn)?!?/p>

https://ai.meta.com/blog/sam-audio/

https://x.com/AIatMeta/status/2000980784425931067

文章視頻鏈接:

https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
21個市級政府,被約談

21個市級政府,被約談

新京報政事兒
2025-12-18 14:59:53
索尼將退出中國,3萬員工一夜失業(yè),一代人的青春落幕

索尼將退出中國,3萬員工一夜失業(yè),一代人的青春落幕

胡嚴亂語
2025-12-18 14:25:25
海南封關(guān)之后當?shù)鼐W(wǎng)友吐槽物價變貴,油條7塊菠菜32一斤

海南封關(guān)之后當?shù)鼐W(wǎng)友吐槽物價變貴,油條7塊菠菜32一斤

映射生活的身影
2025-12-18 22:03:06
蘭海高速一小車定速巡航故障剎車失靈,時速115狂奔490公里直至燃油耗盡,交警開道、路政壓陣成功化險

蘭海高速一小車定速巡航故障剎車失靈,時速115狂奔490公里直至燃油耗盡,交警開道、路政壓陣成功化險

極目新聞
2025-12-18 14:18:42
國家統(tǒng)計局原局長邱曉華:很多人按揭買的房子,房子的價格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

國家統(tǒng)計局原局長邱曉華:很多人按揭買的房子,房子的價格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

和訊網(wǎng)
2025-12-18 17:46:52
張韶涵“裁員裁到大動脈”登熱搜,前發(fā)型師發(fā)文回應(yīng)

張韶涵“裁員裁到大動脈”登熱搜,前發(fā)型師發(fā)文回應(yīng)

紅星新聞
2025-12-18 11:38:30
董路與孫繼海公開翻臉:low貨抱團惡毒攻擊我,那就拼個你死我活

董路與孫繼海公開翻臉:low貨抱團惡毒攻擊我,那就拼個你死我活

念洲
2025-12-18 10:14:12
泰國駐華大使館評論區(qū)爆了,感恩不斷

泰國駐華大使館評論區(qū)爆了,感恩不斷

深度報
2025-12-18 22:18:22
第一批免簽去俄羅斯的消費者們,估計都傻眼了……

第一批免簽去俄羅斯的消費者們,估計都傻眼了……

翻開歷史和現(xiàn)實
2025-12-18 12:42:20
陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

蕾爸退休日記
2025-12-16 22:37:37
美記:看到克萊獨自一人回擊對手的挑釁,庫里心里十分難受

美記:看到克萊獨自一人回擊對手的挑釁,庫里心里十分難受

移動擋拆
2025-12-19 07:17:01
全球首條!人形機器人批量上崗寧德時代電池產(chǎn)線 單日工作量較人工提升3倍

全球首條!人形機器人批量上崗寧德時代電池產(chǎn)線 單日工作量較人工提升3倍

財聯(lián)社
2025-12-18 16:05:06
被撞員工已確認死亡,撞人的小米新車司機恐承擔刑責

被撞員工已確認死亡,撞人的小米新車司機恐承擔刑責

映射生活的身影
2025-12-18 22:56:32
絲芭放大招了!將實名舉報鞠婧祎涉嫌經(jīng)濟犯罪,多個合作方要擔責

絲芭放大招了!將實名舉報鞠婧祎涉嫌經(jīng)濟犯罪,多個合作方要擔責

萌神木木
2025-12-18 11:53:46
第一個取消育兒補貼的省份來了

第一個取消育兒補貼的省份來了

數(shù)字財經(jīng)智庫
2025-12-18 12:13:04
韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質(zhì)的中國籍綁匪

韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質(zhì)的中國籍綁匪

環(huán)球熱點快評
2025-12-18 11:43:15
轟炸機抵近東京,美國拒表態(tài),日本承認波茨坦公告,求中國一件事

轟炸機抵近東京,美國拒表態(tài),日本承認波茨坦公告,求中國一件事

梁訊
2025-12-18 10:38:01
國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

界面新聞
2025-12-18 14:41:59
30歲健美冠軍王昆意外猝死,深扒死因發(fā)現(xiàn),他生前有3個致命習慣

30歲健美冠軍王昆意外猝死,深扒死因發(fā)現(xiàn),他生前有3個致命習慣

法老不說教
2025-12-18 19:20:30
公開婚紗照!知名女星宣布將于明年辦婚禮

公開婚紗照!知名女星宣布將于明年辦婚禮

深圳晚報
2025-12-18 16:49:19
2025-12-19 08:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11950文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

牛彈琴:戰(zhàn)機又被照射后日本急了 有人第一個想到中國

頭條要聞

牛彈琴:戰(zhàn)機又被照射后日本急了 有人第一個想到中國

體育要聞

紐約尼克斯,板正的球隊

娛樂要聞

絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

財經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進程

汽車要聞

在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

時尚
數(shù)碼
健康
藝術(shù)
公開課

“煙管褲”今年冬天爆火,怎么搭都時髦!

數(shù)碼要聞

蘋果確認14英寸M5 MacBook Pro采用易更換電池設(shè)計 自助維修支持同步上線

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

馬世曉書法技藝引爭議,筆力柔弱令人難以理解。

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版