網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

SAM 3：用概念分割一切

2026-03-15 21:08:36　來源: CreateAMind

上海舉報

分享至

SAM 3 (Segment Anything Model 3)

SAM 3：用概念分割一切

https://arxiv.org/pdf/2511.16719

《SAM 3: Segment Anything with Concepts》主要解決的是現(xiàn)有分割模型缺乏對“概念”的泛化理解和跟蹤能力的問題。

具體來說，它針對以下幾個核心痛點：

現(xiàn)有模型的局限性：
- 之前的SAM系列（SAM 1和SAM 2）雖然支持“可提示分割”，但主要依賴點、框或掩碼作為提示，每次只能分割單個物體。
- 它們無法處理更通用的任務：根據(jù)一個抽象的概念（如“黃色校車”或“條紋貓”），一次性找出并分割出圖像或視頻中所有匹配的實例，并在視頻中持續(xù)跟蹤它們。
引入新任務與新能力：
- 論文正式定義了可提示概念分割（PCS，Promptable Concept Segmentation）任務。即模型需要理解簡短的名詞短語或圖像示例，并返回所有匹配對象的掩碼和唯一身份標識。
數(shù)據(jù)與性能的瓶頸：
- 要實現(xiàn)上述能力，需要大規(guī)模、高質(zhì)量且概念多樣化的訓練數(shù)據(jù)?，F(xiàn)有的數(shù)據(jù)集在概念數(shù)量和標注質(zhì)量上存在不足。
- 為了解決這個問題，論文構(gòu)建了一個高效的人機協(xié)同數(shù)據(jù)引擎，生成了包含400萬獨特概念標簽的高質(zhì)量數(shù)據(jù)集，從而推動模型性能的躍升。

總結(jié)：該論文試圖填補從“分割任意物體”到“分割任意概念”之間的空白，讓模型不僅能“看到”形狀，還能“理解”語義，并根據(jù)語義概念在圖像和視頻中全面、準確地定位、分割和跟蹤目標。

我們提出了Segment Anything Model（SAM）3，這是一個統(tǒng)一的模型，能夠基于概念提示（我們定義為簡短名詞短語，如"黃色校車"、圖像示例或兩者的組合）來檢測、分割和跟蹤圖像與視頻中的物體?？商崾靖拍罘指睿≒CS）接受此類提示，并為所有匹配的物體實例返回分割掩碼和唯一標識。為推進PCS研究，我們構(gòu)建了一個可擴展的數(shù)據(jù)引擎，生成了一個包含圖像和視頻中400萬個獨特概念標簽（包括難負例）的高質(zhì)量數(shù)據(jù)集。我們的模型由共享同一骨干網(wǎng)絡的圖像級檢測器與基于記憶的視頻跟蹤器組成。通過引入解耦識別與定位的存在性檢測頭，顯著提升了檢測精度。SAM 3在圖像和視頻PCS任務上的準確率均達到現(xiàn)有系統(tǒng)的兩倍，同時改進了先前SAM在視覺分割任務上的性能。我們開源了SAM 3以及為可提示概念分割新建立的"基于概念的通用分割基準"（SA-Co）。

引言
在視覺場景中定位并分割任意目標的能力是多模態(tài)AI的基礎，支撐著機器人技術(shù)、內(nèi)容創(chuàng)作、增強現(xiàn)實、數(shù)據(jù)標注及更廣泛科學領域的應用。SAM系列（Kirillov等人，2023；Ravi等人，2024）提出了面向圖像與視頻的可提示分割任務，聚焦于通過點、框或掩碼作為提示，針對每個提示分割單個目標的提示性視覺分割。盡管這些方法取得了突破性進展，但未能解決更為通用的任務：定位并分割輸入中任意位置出現(xiàn)的某一概念的所有實例（例如視頻中所有的"貓"）。

為填補這一空白，我們提出了SAM 3，該模型在圖像與視頻的可提示分割領域?qū)崿F(xiàn)了階躍式進步，既提升了相較于SAM 2的提示性視覺分割性能，又為可提示概念分割（PCS）樹立了新標準。我們將PCS任務（§2）形式化為：以文本和/或圖像示例為輸入，為每個匹配該概念的物體預測實例掩碼與語義掩碼，同時保持視頻幀間的物體身份一致性（見圖1）。為聚焦于原子視覺概念的識別，我們將文本約束為簡單名詞短語，如"紅蘋果"或"條紋貓"。盡管SAM 3并非為長指代表達或需推理的查詢設計，但我們證明其可與多模態(tài)大語言模型直接結(jié)合，以處理更復雜的語言提示。與先前SAM版本一致，SAM 3具備完全交互性，允許用戶通過添加細化提示來解決歧義，引導模型輸出預期結(jié)果。

我們的模型（§3）由共享視覺編碼器（Bolya等人，2025）的檢測器與跟蹤器構(gòu)成。檢測器是基于DETR（Carion等人，2020）的架構(gòu)，以文本、幾何信息及圖像示例為條件輸入。為應對開放詞匯概念檢測的挑戰(zhàn)，我們引入獨立的"存在性檢測頭"來解耦識別與定位，這在包含挑戰(zhàn)性負例短語的訓練中尤為有效。跟蹤器繼承了SAM 2的Transformer編碼器-解碼器架構(gòu)，支持視頻分割與交互式細化。這種檢測與跟蹤解耦的設計避免了任務沖突——檢測器需保持身份無關(guān)性，而跟蹤器的核心目標則是區(qū)分視頻中的不同身份。

為實現(xiàn)性能突破，我們構(gòu)建了人與模型協(xié)同的數(shù)據(jù)引擎（§4），用于標注大規(guī)模多樣化訓練數(shù)據(jù)集。我們在三個方面對先前數(shù)據(jù)引擎進行了創(chuàng)新：(i) 媒體篩選：相較于依賴同質(zhì)化網(wǎng)絡來源的傳統(tǒng)方法，我們篩選了更多樣化的媒體領域；(ii) 標簽篩選：通過利用本體論和多模態(tài)大語言模型作為"AI標注器"生成名詞短語與難負例，顯著提升標簽多樣性與難度；(iii) 標簽驗證：通過微調(diào)多模態(tài)大語言模型成為接近人類準確率的"AI驗證器"，使標注效率翻倍。從含噪的媒體-短語-掩碼偽標簽出發(fā)，我們的數(shù)據(jù)引擎通過人類與AI驗證器雙重校驗掩碼質(zhì)量與完整性，過濾出正確標注樣本并識別困難錯誤案例。人類標注員隨后專注于修正這些錯誤，手動校正掩碼。這使我們能夠標注包含400萬獨特短語與5200萬掩碼的高質(zhì)量訓練數(shù)據(jù)，以及含3800萬短語與14億掩碼的合成數(shù)據(jù)集。我們還為PCS創(chuàng)建了"基于概念的通用分割基準"（SA-Co）（§5），包含12萬圖像與1700視頻中20.7萬獨特概念的詳盡掩碼，概念數(shù)量超現(xiàn)有基準50倍以上。

實驗（§6）表明，SAM 3在可提示分割領域樹立了新標桿：在LVIS上零樣本掩碼AP達48.8（當前最佳為38.5），在SA-Co基準上以至少2倍優(yōu)勢超越基線（見圖2示例），并在視覺提示任務上優(yōu)于SAM 2。消融實驗（§A）驗證了骨干網(wǎng)絡選擇、新型存在性檢測頭及引入難負例的有效性，同時建立了PCS任務在高質(zhì)量與合成數(shù)據(jù)集上的擴展律。我們開源了SA-Co基準，并發(fā)布SAM 3模型檢查點與推理代碼。在H200 GPU上，SAM 3對單張含百個檢測物體的圖像處理僅需30毫秒。視頻推理延遲隨物體數(shù)量線性增長，在約5個并發(fā)物體時可維持近實時性能。第§7節(jié)回顧相關(guān)研究；接下來，我們將深入探討任務定義。

2 可提示概念分割（PCS）

我們將可提示概念分割任務定義如下：給定一張圖像或一段短視頻（≤30秒），檢測、分割并跟蹤由簡短文本短語、圖像示例或兩者組合指定的視覺概念的所有實例。我們將概念限定為由名詞及可選修飾詞構(gòu)成的簡單名詞短語所定義的內(nèi)容。名詞短語提示（若提供）對圖像/視頻的所有幀全局有效，而圖像示例可在單幀上以正例或負例邊界框的形式提供，以迭代優(yōu)化目標掩碼（見圖3）。

所有提示的類別定義必須保持一致，否則模型行為將不可預測；例如，"魚"的提示不能后續(xù)用僅包含魚尾的示例提示進行細化，而應更新文本提示。當模型初始遺漏某些實例或概念較為罕見時，圖像示例提示尤為有用。

我們的詞匯表涵蓋任何可在視覺場景中定位的簡單名詞短語，這使得任務具有內(nèi)在歧義性。短語可能因多義詞（"鼠標"指設備還是動物）、主觀描述詞（"舒適的"、"巨大的"）、模糊或依賴上下文的短語（可能根本無法定位，如"品牌形象"）、邊界模糊性（"鏡子"是否包含鏡框）以及遮擋、模糊等掩蓋物體范圍的成像因素而產(chǎn)生多重解釋。雖然類似問題也出現(xiàn)在大型封閉詞匯語料庫（如LVIS（Gupta等人，2019））中，但通過精心篩選詞匯表并為所有目標類別設定明確定義可緩解這些問題。我們通過以下方式解決歧義問題：由三位專家收集測試標注，調(diào)整評估協(xié)議以允許多種有效解釋（§E.3），設計數(shù)據(jù)流程與標注指南以最小化標注歧義，并在模型中引入歧義處理模塊（§C.2）。

3 模型

SAM 3是SAM 2的泛化版本，既支持新的PCS任務（§2），也支持PVS任務。它通過概念提示（簡單名詞短語、圖像示例）或視覺提示（點、框、掩碼）來定義需在時空維度上（單獨）分割的物體。圖像示例和視覺提示可在單幀上迭代添加以優(yōu)化目標掩碼——誤報和漏報物體可分別通過圖像示例移除或添加，單個掩碼則可通過SAM 2風格的PVS進行細化。

我們的架構(gòu)廣泛基于SAM與(M)DETR（Carion等人，2020；Kamath等人，2021）系列。圖4展示了SAM 3架構(gòu)，其核心是一個雙編碼器-解碼器Transformer——即用于圖像級能力的檢測器——并與跟蹤器及記憶模塊結(jié)合以處理視頻。檢測器和跟蹤器從對齊的感知編碼器（PE）骨干網(wǎng)絡（Bolya等人，2025）中接收視覺-語言輸入。下文為概述，詳見§C。

檢測器架構(gòu)。檢測器架構(gòu)遵循通用DETR范式。圖像和文本提示首先由PE編碼，圖像示例（若存在）則由示例編碼器編碼。我們將圖像示例令牌與文本令牌統(tǒng)稱為"提示令牌"。融合編碼器接收來自圖像編碼器的無條件嵌入，并通過交叉注意力機制以提示令牌為條件進行調(diào)制。融合模塊后接類DETR解碼器，其中可學習物體查詢與來自融合編碼器的條件化圖像嵌入進行交叉注意力計算。

每個解碼器層會為每個物體查詢預測一個分類logit（此處為二值標簽，指示物體是否匹配提示），并根據(jù)前一層預測的邊界框預測偏移量（遵循Zhu等人，2020）。我們采用邊界框區(qū)域位置偏置（Lin等人，2023）來幫助聚焦每個物體的注意力，但與近期DETR模型不同，我們堅持使用標準注意力機制。訓練期間，我們采用DAC-DETR（Hu等人，2023）的雙重監(jiān)督和Align損失（Cai等人，2024）。掩碼頭改編自MaskFormer（Cheng等人，2021）。此外，我們還設有一個語義分割頭，為圖像中的每個像素預測二值標簽，指示其是否對應于提示。詳見§C。

存在性令牌。讓每個候選查詢同時完成圖像/幀中物體的識別（是什么）與定位（在哪里）可能較為困難。就識別組件而言，整個圖像的上下文線索至關(guān)重要。然而，強制候選查詢理解全局上下文可能適得其反，因為這與定位目標固有的局部特性相沖突。我們通過引入一個可學習的全局存在性令牌來解耦識別與定位步驟。該令牌唯一負責預測目標概念（以名詞短語形式）是否存在于圖像/幀中，即p(NP存在于輸入中)。每個候選查詢qi僅需解決條件定位問題p(qi是匹配項 | NP存在于輸入中)。最終每個候選查詢的得分為其自身得分與存在性得分的乘積。

圖像示例與交互性。SAM 3支持圖像示例，以邊界框及其關(guān)聯(lián)二值標簽（正例或負例）的配對形式提供，可單獨使用或補充文本提示。模型隨后檢測所有匹配提示的實例。例如，給定一個包含狗的正例邊界框，模型將檢測圖像中所有的狗。這與SAM 1和SAM 2中的PVS任務不同——后者中一個視覺提示僅產(chǎn)生單個物體實例。每個圖像示例由示例編碼器單獨編碼，使用位置嵌入、標簽嵌入以及基于ROI池化的視覺特征，經(jīng)拼接后由一個小型Transformer處理。生成的提示與文本提示拼接，構(gòu)成完整的提示令牌。圖像示例可根據(jù)當前檢測結(jié)果中的錯誤以交互方式提供，從而優(yōu)化輸出。

基于SAM 2風格傳播的目標跟蹤。每個在第一幀檢測到的物體都會初始化一個掩碼片段。隨后，在每一后續(xù)幀中，跟蹤器模塊根據(jù)這些已跟蹤物體在先前時刻的位置 M t ? 1

，通過與SAM 2中視頻目標分割任務類似的單幀傳播步驟，預測其在當前幀的新掩碼位置。跟蹤器與檢測器共享相同的圖像/幀編碼器（PE骨干網(wǎng)絡）。檢測器訓練完成后，我們凍結(jié)PE，并按照SAM 2的方式訓練跟蹤器，其組件包括：提示編碼器、掩碼解碼器、記憶編碼器以及一個記憶庫——該記憶庫利用過去幀和條件幀（即物體首次被檢測到或被用戶提示的幀）的特征來編碼物體的外觀信息。記憶編碼器是一個Transformer，它在當前幀的視覺特征上進行自注意力計算，并從視覺特征對記憶庫中的空間記憶特征進行交叉注意力計算。我們在§C.3中詳細描述了視頻處理方法的細節(jié)。

在推理階段，我們僅保留物體在記憶庫中被高置信度確認的幀。掩碼解碼器是一個在編碼器隱藏狀態(tài)與輸出令牌之間進行雙向交互的Transformer。為處理歧義性，我們在每一幀為每個被跟蹤物體預測三個輸出掩碼及其置信度，并選擇置信度最高的輸出作為當前幀的預測掩碼。

基于視覺提示的實例細化。在獲得初始掩碼（或掩碼片段）后，SAM 3允許使用正負點擊點對單個掩碼（片段）進行細化。具體而言，給定用戶點擊點，我們應用提示編碼器對其進行編碼，并將編碼后的提示輸入掩碼解碼器以預測調(diào)整后的掩碼。在視頻中，該掩碼隨后會被傳播至整個視頻，從而獲得細化的掩碼片段。

訓練階段。我們分四個階段訓練SAM 3，逐步增加數(shù)據(jù)和能力：1）感知編碼器（PE）預訓練，2）檢測器預訓練，3）檢測器微調(diào)，4）凍結(jié)骨干網(wǎng)絡進行跟蹤器訓練。詳見§C.4.1。

4 數(shù)據(jù)引擎

要在PCS任務上通過SAM 3實現(xiàn)階躍式進步，需要在超越現(xiàn)有數(shù)據(jù)集的大規(guī)模、多樣化概念與視覺領域上進行訓練（見圖12）。我們構(gòu)建了一個高效的數(shù)據(jù)引擎，通過SAM 3、人類標注員與AI標注員之間的反饋循環(huán)迭代生成標注數(shù)據(jù)，主動挖掘當前版本SAM 3無法生成高質(zhì)量訓練數(shù)據(jù)的媒體-短語對，從而進一步改進模型。通過將特定任務委托給AI標注員——即達到或超越人類準確率的模型——我們相較于純?nèi)斯俗⒘鞒虒⑿侍嵘艘槐兑陨?。我們分四個階段開發(fā)數(shù)據(jù)引擎，每個階段都增加AI模型的使用，將人力引導至最具挑戰(zhàn)性的錯誤案例，同時擴展視覺領域覆蓋范圍。階段1-3聚焦于圖像，階段4擴展至視頻。此處概述關(guān)鍵步驟；詳細內(nèi)容與指標見§D。

數(shù)據(jù)引擎組件（圖5）。媒體輸入（圖像或視頻）借助精心整理的本體論從大型數(shù)據(jù)池中挖掘。AI模型首先提出描述視覺概念的名詞短語，隨后由另一個模型（如SAM 3）為每個提出的名詞短語生成候選實例掩碼。提出的掩碼通過兩步流程驗證：首先，在掩碼驗證（MV）環(huán)節(jié)，標注員基于掩碼質(zhì)量及其與名詞短語的相關(guān)性進行接受或拒絕；其次，在窮盡性驗證（EV）環(huán)節(jié)，標注員檢查輸入中該名詞短語的所有實例是否均已被掩碼覆蓋。任何未通過窮盡性檢查的媒體-名詞短語對將被送至人工修正階段，由人工添加、移除或編輯掩碼（使用基于瀏覽器的工具中的SAM 1），或?qū)毿‰y分物體采用"組"掩碼。標注員可拒絕無法定位或存在歧義的短語。

階段1：人工驗證。我們首先使用簡單描述生成器和解析器隨機采樣圖像與名詞短語提案。初始掩碼提案模型采用SAM 2，并以現(xiàn)成開放詞匯檢測器的輸出作為提示；初始驗證員為人工。本階段共收集430萬圖像-名詞短語對，形成初始的SA-Co/HQ數(shù)據(jù)集。我們在此數(shù)據(jù)上訓練SAM 3，并將其作為下一階段的掩碼提案模型。

階段2：人工+AI驗證。在此階段，我們利用階段1收集的人工MV與EV任務接受/拒絕標簽微調(diào)Llama 3.2（Dubey等人，2024），創(chuàng)建自動執(zhí)行MV與EV任務的AI驗證器。這些模型接收圖像-短語-掩碼三元組，輸出掩碼質(zhì)量或窮盡性的多項評分。這一新型自動驗證流程使人力可集中于最具挑戰(zhàn)性的案例。我們持續(xù)在新收集數(shù)據(jù)上重新訓練SAM 3，并迭代更新6次。隨著SAM 3與AI驗證器的改進，自動生成的標簽比例逐步提高，進一步加速數(shù)據(jù)采集。MV與EV環(huán)節(jié)引入AI驗證器使數(shù)據(jù)引擎吞吐量相較于純?nèi)斯俗⑻嵘s一倍。關(guān)于AI驗證器如何提升數(shù)據(jù)引擎吞吐量的詳細分析見§A.4。我們還將名詞短語提案步驟升級為基于Llama的流水線，該流水線能提出針對SAM 3的對抗性難負例名詞短語。階段2為SA-Co/HQ新增1.22億圖像-名詞短語對。

階段3：規(guī)模化與領域擴展。在第三階段，我們利用AI模型挖掘日益具有挑戰(zhàn)性的案例，并將SA-Co/HQ的領域覆蓋范圍擴展至15個數(shù)據(jù)集（圖15）。領域指文本與視覺數(shù)據(jù)的獨特分布。在新領域中，MV AI驗證器在零樣本下表現(xiàn)良好，但EV AI驗證器需通過少量特定領域的人工監(jiān)督進行改進。我們還通過從圖像替代文本中提取名詞短語，以及從基于維基數(shù)據(jù)的SA-Co本體論（§D.2，含17個頂級類別、72個子類別）中挖掘概念，擴展概念覆蓋范圍至長尾、細粒度概念。我們迭代訓練SAM 3共7次、AI驗證器共3次，為SA-Co/HQ新增1950萬圖像-名詞短語對。

階段4：視頻標注。本階段將數(shù)據(jù)引擎擴展至視頻領域。我們利用成熟的圖像SAM 3來收集針對性的高質(zhì)量標注，以應對視頻特有的挑戰(zhàn)。數(shù)據(jù)挖掘流程應用了場景/運動過濾、內(nèi)容均衡、排序及定向搜索等步驟。視頻幀通過采樣（隨機或按物體密度）后送入圖像標注流程（源自階段3）。掩碼片段（時空掩碼）由（現(xiàn)已擴展至視頻的）SAM 3生成，并通過去重及移除瑣碎掩碼進行后處理。鑒于視頻標注難度更高，我們將人力集中于可能失敗的高風險案例，優(yōu)先處理包含大量擁擠物體及存在跟蹤失敗的視頻片段。收集的視頻數(shù)據(jù)SA-Co/VIDEO包含5.25萬個視頻片段及46.7萬個掩碼片段。詳見§D.6。

5 基于概念的通用分割（SA-Co）數(shù)據(jù)集

訓練數(shù)據(jù)。我們?yōu)镻CS任務收集了三個圖像數(shù)據(jù)集：(i) SA-Co/HQ，即通過數(shù)據(jù)引擎階段1-4收集的高質(zhì)量圖像數(shù)據(jù)；(ii) SA-Co/SYN，由成熟數(shù)據(jù)引擎（階段3）在無人工參與條件下標注的合成圖像數(shù)據(jù)集；(iii) SA-Co/EXT，包含15個外部數(shù)據(jù)集，這些數(shù)據(jù)集具有實例掩碼標注，并通過我們的本體論流程添加難負例進行增強。值得注意的是，SA-Co/HQ數(shù)據(jù)集標注了520萬張圖像和400萬個獨特名詞短語，使其成為規(guī)模最大的高質(zhì)量開放詞匯分割數(shù)據(jù)集。我們還標注了一個視頻數(shù)據(jù)集SA-Co/VIDEO，包含5.25萬個視頻片段和2.48萬個獨特名詞短語，形成13.4萬個視頻-名詞短語對。視頻平均時長為84.1幀，幀率為6fps。詳細統(tǒng)計信息、與現(xiàn)有數(shù)據(jù)集的對比及概念分布見§E.1。

SA-Co基準。SA-Co評估基準包含20.7萬個獨特短語、12.1萬個圖像與視頻，以及超過300萬個帶有難負例標簽的媒體-短語對，用于測試開放詞匯識別能力?；鶞史譃?個子集：SA-Co/Gold涵蓋七個領域，每個圖像-名詞短語對由三名不同標注員標注（用于衡量人類表現(xiàn)）；SA-Co/Silver涵蓋十個領域，每個圖像-名詞短語對僅由一名標注員標注；SA-Co/Bronze與SA-Co/Bio包含九個現(xiàn)有數(shù)據(jù)集，這些數(shù)據(jù)集要么已有掩碼標注，要么使用邊界框作為SAM 2提示生成掩碼。SA-Co/VEval基準涵蓋三個領域，每個視頻-名詞短語對由一名標注員標注。數(shù)據(jù)集統(tǒng)計見表28，標注示例見圖6。

評估指標。我們旨在衡量模型在下游應用中的實用性。平均精度（AP）等檢測指標未考慮校準問題，這可能導致模型在實際應用中難以使用。為解決此問題，我們僅評估置信度高于0.5的預測，通過引入模擬下游用法的閾值來強制實現(xiàn)良好校準。PCS任務可自然分解為兩個子任務：定位與分類。我們使用正例微觀F1值（pmF?）評估定位任務，該指標基于至少包含一個真實掩碼的正例媒體-短語對計算。分類任務通過圖像級馬修斯相關(guān)系數(shù)（IL_MCC）衡量，其取值范圍為[-1, 1]，在圖像級別評估二值預測（"物體是否存在？"），而不考慮掩碼質(zhì)量。我們的主要指標分類門控F1值（cgF?）結(jié)合了上述兩者，計算方式如下：

處理歧義性。我們在SA-Co/Gold上為每個名詞短語收集了三個標注。通過將每個預測與所有真實掩碼進行比較并選擇最佳得分，來衡量理想準確率。詳見§E.3。

6 實驗

我們在圖像與視頻分割、檢測與計數(shù)基準的少樣本適應，以及結(jié)合多模態(tài)大語言模型的復雜語言查詢分割等多個維度評估SAM 3。本節(jié)展示部分消融實驗結(jié)果，更多內(nèi)容見§A。參考文獻、詳細結(jié)果與實驗設置見§F。

基于文本的圖像PCS任務。我們在外部基準與自建基準上評估實例分割、邊界框檢測及語義分割性能。SAM 3每次以單個名詞短語為提示，預測實例掩碼、邊界框或語義掩碼。作為基線，我們對比了OWLv2、GroundingDino（gDino）和LLMDet在邊界框檢測任務上的表現(xiàn)，并利用其檢測框提示SAM 1進行分割評估。此外，我們還與APE、DINO-X及通用大語言模型Gemini 2.5 Flash進行對比。表1顯示，在零樣本設置下，SAM 3在封閉詞匯數(shù)據(jù)集COCO、COCO-O以及LVIS邊界框檢測任務上均刷新了當前最優(yōu)水平，并在LVIS掩碼任務上顯著超越現(xiàn)有方法。在開放詞匯的SA-Co/Gold基準上，SAM 3的cgF1得分達到最強基線OWLv2?的兩倍以上，并達到預估人類表現(xiàn)的74%。在其他SA-Co子集上的提升更為顯著。在ADE-847、PascalConcept-59和Cityscapes上的開放詞匯語義分割結(jié)果表明，SAM 3超越了強專項基線模型APE。詳見§F.1。

少樣本適應。我們在ODinW13和RF100-VL基準上評估SAM 3的零樣本與少樣本遷移能力，使用其原始標簽作為提示。我們不進行任何提示調(diào)優(yōu)。我們對SAM 3進行微調(diào)（不包含掩碼損失），并在表2中報告平均邊界框mAP。SAM 3在10-shot設置下達到當前最優(yōu)水平，超越了Gemini的上下文提示能力及目標檢測專家模型gDino；更多細節(jié)見§F.3。RF-100VL包含超出SAM 3當前能力范圍的領域?qū)Ｓ锰崾荆玈AM 3通過微調(diào)適應的效率優(yōu)于基線方法。

基于單示例的PCS任務。我們首先評估使用從真實掩碼中隨機采樣的單個輸入框進行圖像示例提示的效果。此評估僅針對"正例"數(shù)據(jù)，即提示的每個物體均出現(xiàn)在圖像中。我們在表3中報告了三種設置下的對應AP+指標：文本提示（T）、示例圖像（I）、以及文本與圖像結(jié)合（T+I）。結(jié)果顯示，SAM 3在COCO（+18.3）、LVIS（+10.3）和ODinW（+20.5）上均顯著超越此前最先進的T-Rex2模型。SA-Co/Gold上的更多結(jié)果與細節(jié)見§F.2。

基于K示例的PCS任務。接下來，我們在交互式場景中評估SAM 3，模擬與人類標注員的協(xié)作。從文本提示開始，我們每次迭代添加一個示例提示：被遺漏的真實掩碼作為候選正例提示，誤報檢測作為候選負例提示。結(jié)果（圖7）與一個完美的PVS基線進行對比——該基線模擬用戶通過理想的框到掩碼修正手動修復錯誤。SAM 3的PCS能力能更快提升cgF1，因其可從示例中進行泛化（例如，檢測或抑制相似物體），而PVS僅能修正單個實例。經(jīng)過3次點擊后，交互式PCS相較于純文本提示提升21.6個cgF1點，相較于PVS細化提升2.0個點。4次點擊后性能趨于飽和，因示例無法修復低質(zhì)量掩碼。此時模擬切換至PVS混合模式可帶來增益，顯示兩者具有互補性。

物體計數(shù)。我們在物體計數(shù)基準CountBench和PixMo-Count上評估SAM 3，通過準確率（%）和平均絕對誤差（MAE）與多個多模態(tài)大語言模型進行對比，數(shù)據(jù)來源于既往技術(shù)報告及我們的自主評估。結(jié)果見表4，更多評估細節(jié)見§F.4。與多模態(tài)大語言模型相比，SAM 3不僅實現(xiàn)了優(yōu)異的物體計數(shù)準確率，還能提供大多數(shù)多模態(tài)大語言模型無法生成的物體分割結(jié)果。

基于文本的視頻PCS任務。我們在自建SA-Co/VEval基準及現(xiàn)有公開基準上評估基于文本提示的視頻分割性能。對于SA-Co/VEval，我們報告其子集（SA-V、YT-Temporal-1B、SmartGlasses）上的cgF1與pHOTA指標（定義見§F.5）。對于公開基準，我們采用其官方指標?；€模型包括：開放詞匯圖像視頻分割模型GLEE、"LLMDet + SAM 3跟蹤器"（用LLMDet替換我們的檢測器）、以及"SAM 3檢測器 + T-by-D"（用基于檢測跟蹤范式的關(guān)聯(lián)模塊替換我們的跟蹤器）。如表5所示，SAM 3大幅超越這些基線，尤其在名詞短語數(shù)量龐大的基準上表現(xiàn)突出。在SA-Co/VEval上，其pHOTA指標達到人類表現(xiàn)的80%以上。詳見§F.5。

提示性視覺分割。我們在包括視頻目標分割（VOS）和交互式圖像分割在內(nèi)的一系列視覺提示任務上評估SAM 3。表6對比了SAM 3與近期最先進方法在VOS任務上的表現(xiàn)。SAM 3在大多數(shù)基準上較SAM 2實現(xiàn)顯著提升，尤其在具有挑戰(zhàn)性的MOSEv2數(shù)據(jù)集上，SAM 3以6.5個百分點的優(yōu)勢超越先前工作。針對交互式圖像分割任務，我們在Ravi等人（2024）提出的37個數(shù)據(jù)集基準上評估SAM 3。如表7所示，SAM 3在平均mIoU上優(yōu)于SAM 2。交互式視頻分割結(jié)果見§F.6及圖21。

SAM 3智能體。我們嘗試將多模態(tài)大語言模型與SAM 3結(jié)合，使其作為工具來分割更復雜的文本查詢（見圖25）。多模態(tài)大語言模型提出名詞短語查詢以提示SAM 3，并分析返回的掩碼結(jié)果，迭代直至掩碼滿足要求。表8顯示，這種"SAM 3智能體"在ReasonSeg和OmniLabel上的零樣本評估超越了先前工作，且未經(jīng)過任何指代表達分割或推理分割數(shù)據(jù)的訓練。SAM 3智能體在RefCOCO+和RefCOCOg上也優(yōu)于以往的零樣本結(jié)果。SAM 3可與多種多模態(tài)大語言模型結(jié)合，且對所有模型使用同一套系統(tǒng)提示，展現(xiàn)了SAM 3的魯棒性。更多細節(jié)見§G。

關(guān)鍵消融實驗。在表9中，我們報告了§A中更廣泛消融實驗的一個子集。需注意，這些消融模型來自與上述評估模型不同的、更短的訓練過程。存在性檢測頭使cgF1提升1.5個百分點（9a），其中圖像級識別指標IL_MCC提高了0.05。表9b顯示，添加難負例顯著提升模型性能，尤以圖像級IL_MCC從0.44躍升至0.68最為突出。表9c表明，合成（SYN）訓練數(shù)據(jù)相比外部（EXT）數(shù)據(jù)帶來8.8個cgF1點的提升，而在此基線基礎上，我們的高質(zhì)量（HQ）標注進一步增加了14.6個cgF1點。我們在§A.2中展示了兩種數(shù)據(jù)類型詳細的擴展規(guī)律，證明其在領域內(nèi)及領域外測試集上的有效性。表9d揭示了AI驗證器如何改進偽標簽質(zhì)量：用窮盡性驗證（EV）AI驗證器的得分替換SAM 3的存在性得分，使cgF1提升7.2個百分點；再結(jié)合掩碼驗證（MV）AI驗證器移除低質(zhì)量掩碼，額外增加1.1個百分點?？傮w而言，AI驗證器縮小了SAM 3與人類表現(xiàn)之間一半的差距。

領域適應消融實驗。通過使用由SAM 3結(jié)合AI驗證器生成的領域特定合成數(shù)據(jù)，我們證明可以在無需任何人工標注的情況下顯著提升模型在新領域的表現(xiàn)。我們將SA-Co中的一個領域"食品與飲料"從SAM 3和AI驗證器的訓練中完全剔除。隨后，針對這個新出現(xiàn)的"食品與飲料"領域，我們采用三種訓練數(shù)據(jù)變體：SA-Co/HQ中的人工+AI高質(zhì)量標注（記為SA-Co/HQ-Food）；SA-Co/SYN中僅使用AI（無人工）的合成標注（SA-Co/SYN-Food）；以及跳過AI驗證步驟直接生成的偽標簽（即既無AI驗證也無人工，記為PL-Food）。圖8展示了隨著每種類型訓練數(shù)據(jù)規(guī)模的擴大，模型在SA-Co/Gold基準的"食品與飲料"測試集上的性能變化。我們將領域特定數(shù)據(jù)與高質(zhì)量通用領域數(shù)據(jù)按1:1比例混合。PL-Food相比基線SAM 3（零樣本）有所提升，但由于質(zhì)量較低，遠遜于其他變體。HQ-Food與SYN-Food表現(xiàn)出相似的擴展規(guī)律，其中SYN-Food初始略低但最終能追趕上來，且無需任何人工標注成本。這為在新數(shù)據(jù)分布上提升性能提供了一條可擴展的路徑。更多細節(jié)見§A.3。

7 相關(guān)工作

可提示與交互式視覺分割。SAM（Kirillov等人，2023）引入了具備交互式細化能力的"可提示"圖像分割。盡管原始任務定義中包含文本提示，但該功能并未完全實現(xiàn)。SAM 2（Ravi等人，2024）將可提示視覺分割任務擴展至視頻領域，允許在任何幀上添加細化點。SAM 3繼承了基于幾何的分割能力，同時擴展支持文本與圖像示例提示，以分割圖像與視頻中某一概念的所有實例。

圖像中的開放詞匯檢測與分割。該任務旨在為開放詞匯物體類別的每個實例提供粗糙邊界框（檢測）或精細像素級掩碼（分割）。近期開放詞匯檢測（Gu等人，2021；Minderer等人，2022）與分割（Ding等人，2022；Liang等人，2023）方法利用大規(guī)模視覺-語言編碼器（如CLIP（Radford等人，2021））處理任意文本描述的類別，甚至涵蓋訓練中未見過的類別。雖然DETR（Carion等人，2020）局限于訓練中見過的封閉類別集合，但MDETR（Kamath等人，2021）將其發(fā)展為以原始文本查詢?yōu)闂l件的范式。圖像示例作為提示用于指定目標物體類別（如DINOv（Li等人，2023a）、T-Rex2（Jiang等人，2024））是一種實用的文本替代方案，但在傳達物體的抽象概念方面不及文本提示有效。我們引入了一個新的開放詞匯分割基準，其獨特概念數(shù)量較先前工作高出兩個數(shù)量級。

視覺定位。該任務旨在定位圖像中與語言表達對應的區(qū)域，并以邊界框或掩碼形式呈現(xiàn)。Plummer等人（2020）提出了短語檢測任務，既要判斷短語是否與圖像相關(guān)，又要對其進行定位。GLIP（Li等人，2022b）和GroundingDino（Liu等人，2023）將物體檢測形式化為短語定位，在訓練中統(tǒng)一了兩項任務。MQ-GLIP（Xu等人，2023）在文本查詢基礎上增加了圖像示例?；谶@種向支持多任務與多模態(tài)模型發(fā)展的趨勢，GLEE（Wu等人，2024a）支持文本短語、指代表達及視覺提示，用于圖像與視頻中的類別與實例定位。與SAM 3不同，GLEE不支持示例提示或交互式細化。LISA（Lai等人，2024）實現(xiàn)了需要推理的分割功能，而OMG-LLaVa（Zhang等人，2024a）和GLaMM（Rasheed等人，2024）則能生成與對應分割掩碼交錯呈現(xiàn)的自然語言響應，其中GLaMM同時接受文本和可選圖像提示作為輸入。部分通用多模態(tài)大語言模型可輸出邊界框與掩碼（Gemini2.5（Comanici等人，2025））或點（Molmo（Deitke等人，2025））。SAM 3可作為"視覺工具"與多模態(tài)大語言模型結(jié)合使用（§6）。

多目標跟蹤與分割。此類方法識別視頻中的物體實例并進行跟蹤，為每個實例分配唯一ID。在基于檢測的跟蹤方法中，每幀獨立進行檢測以生成邊界框與置信度，隨后通過基于運動和外觀的匹配算法（如SORT（Bewley等人，2016；Wojke等人，2017）、Tracktor（Bergmann等人，2019）、ByteTrack（Zhang等人，2022c）、SAM2MOT（Jiang等人，2025）或OC-SORT（Cao等人，2023））進行邊界框關(guān)聯(lián)。另一種方案是采用端到端可訓練架構(gòu)，聯(lián)合執(zhí)行檢測與關(guān)聯(lián)，例如TrackFormer（Meinhardt等人，2022）、TransTrack（Sun等人，2020）或MOTR（Zeng等人，2022）。TrackFormer采用類DETR編碼器-解碼器，通過靜態(tài)物體查詢初始化新軌跡，并通過保持身份的軌跡查詢自回歸地延續(xù)現(xiàn)有軌跡。聯(lián)合模型的挑戰(zhàn)在于檢測與跟蹤之間的任務沖突（Feichtenhofer等人，2017；Yu等人，2023a）：檢測需聚焦語義，而跟蹤需厘清身份，即使兩者在空間位置上隨時間重疊。SAM 3作為一個強大的圖像檢測器，與跟蹤器緊密集成，實現(xiàn)了視頻中概念的精準分割。

8 結(jié)論

我們提出了"基于概念的通用分割"（Segment Anything with Concepts），使得開放詞匯的文本與圖像示例可作為交互式分割的提示。我們的主要貢獻包括：（i）引入PCS任務與SA-Co基準；（ii）提出解耦識別、定位與跟蹤的架構(gòu)，擴展SAM 2以解決概念分割問題，同時保留視覺分割能力；（iii）構(gòu)建高質(zhì)量、高效率的數(shù)據(jù)引擎，充分利用人類與AI標注員的互補優(yōu)勢。SAM 3實現(xiàn)了當前最優(yōu)性能，在SA-Co圖像與視頻的PCS任務上較先前系統(tǒng)實現(xiàn)性能翻倍。

盡管如此，我們的模型仍存在若干局限性。例如，它在泛化至領域外術(shù)語時表現(xiàn)欠佳，這一問題可通過自動領域擴展緩解，但需額外訓練。我們在§B中討論此問題及其他模型局限性。我們相信，SAM 3與SA-Co基準將成為重要里程碑，為計算機視覺領域的未來研究與應用鋪平道路。

原文鏈接：https://arxiv.org/pdf/2511.16719

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.