国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從“Spider”到SAM 3:概念提示分割小考

0
分享至

文章來源:我愛計算機(jī)視覺(ID:aicvml)

最近,SAM 3 以概念提示分割再次引起計算機(jī)視覺研究社區(qū)的注意。圖像分割技術(shù),作為理解視覺世界的基石,正從為特定任務(wù)(如車輛分割、息肉分割、偽裝物體檢測)訓(xùn)練的專用模型,邁向能夠“分割萬物”的通用大模型時代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術(shù)演進(jìn)。

在深入探討這些前沿技術(shù)之前,CV君覺得有必要先聊聊圖像分割領(lǐng)域里兩個核心概念的區(qū)分:上下文無關(guān)概念(Context-Independent, CI)上下文依賴概念(Context-Dependent, CD)。

簡單來說,CI 概念指的是那些無論出現(xiàn)在什么場景下,其定義和識別特征都相對固定的物體,比如“人”、“汽車”、“飛機(jī)”等。它們的類別是固定的,不隨環(huán)境變化而改變。長久以來,多類別的語義分割領(lǐng)域主要關(guān)注的就是這類 Multi-CI 概念的分割。

CD 概念則恰恰相反,它們的識別和理解嚴(yán)重依賴其所處的環(huán)境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫(yī)學(xué)影像中的病灶等。這些概念的特點(diǎn)是,目標(biāo)本身如果不結(jié)合周圍環(huán)境,就難以被準(zhǔn)確識別。由于不同CD概念之間存在較大的領(lǐng)域/模態(tài)差異(domain/modality gap),長期以來,對CD概念的研究多是面向單一概念的“專才”范式。


本圖來自下述的Spider文

上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對比。CI概念的分割目標(biāo)清晰,而CD概念的分割則需要考慮其與周圍環(huán)境的互動。

研究業(yè)界論文可以發(fā)現(xiàn),傳統(tǒng)的 Multi-CI 概念語義分割領(lǐng)域目前已明顯遇到瓶頸,而轉(zhuǎn)向 Multi-CD 概念分割,無疑是一個新的起點(diǎn)。如果能將這些復(fù)雜的CD概念統(tǒng)一起來,完成復(fù)雜的 Multi-CD 概念預(yù)測,將是進(jìn)一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語義分割的完整構(gòu)成。

接下來,就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。

Spider:統(tǒng)一上下文依賴概念的分割專家

首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。



  • 論文標(biāo)題: Spider: A Unified Framework for Context-dependent Concept Segmentation

  • 錄用信息: ICML 2024

  • 論文地址: https://arxiv.org/abs/2405.01002

在分割領(lǐng)域,有些概念的識別嚴(yán)重依賴其周圍的環(huán)境,比如偽裝的章魚、透明的玻璃杯或是醫(yī)學(xué)影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統(tǒng)方法通常為每一種任務(wù)都訓(xùn)練一個“專才”模型,費(fèi)時費(fèi)力且難以泛化。

為了解決這個問題,來自大連理工大學(xué)的研究者們提出了一個名為Spider(蜘蛛)的統(tǒng)一模型。它能夠在一個復(fù)雜的網(wǎng)絡(luò)(語義空間)中,通過交錯的概念(任務(wù)領(lǐng)域和類別語義)精準(zhǔn)地“爬”到任何感興趣的目標(biāo)上。


Spider的核心思想

Spider的核心在于其獨(dú)特的“概念濾波器(Concept Filters)”機(jī)制。它接收一組“圖像-掩碼”對作為視覺提示(prompt),然后動態(tài)生成一個濾波器,指導(dǎo)模型在當(dāng)前圖像中分割出與提示相似的概念。

如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征,而是利用提示信息來生成一個動態(tài)的、針對特定概念的“篩子”,從而能更靈活地處理不同的分割任務(wù)。


整個流程可以概括為:

  1. 輸入 :待分割的目標(biāo)圖像,以及一組包含同類概念的“圖像-掩碼”提示。

  2. 特征提取 :圖像和提示分別通過編碼器提取特征。

  3. 概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過一個動態(tài)生成的概念濾波器作用于解碼器的最后一層。

  4. 輸出 :精準(zhǔn)的分割掩碼。


實驗效果如何?

Spider的表現(xiàn)非常亮眼。在一個包含8個不同上下文依賴分割任務(wù)(4個自然場景+4個醫(yī)學(xué)場景)的數(shù)據(jù)集上,Spider以單一模型顯著超越了當(dāng)時最先進(jìn)的8個“專才”模型。


從可視化結(jié)果中我們可以看到,無論是顯著性物體、偽裝物體,還是各種醫(yī)學(xué)病灶,Spider都能給出高質(zhì)量的分割結(jié)果。


更令人印象深刻的是它的持續(xù)學(xué)習(xí)能力。當(dāng)模型在T1-T4任務(wù)上預(yù)訓(xùn)練后,可以持續(xù)微調(diào)以適應(yīng)T5-T8的新任務(wù),而舊任務(wù)的性能下降非常小。這證明了Spider框架的強(qiáng)大擴(kuò)展性。


承前啟后:對SAM系列模型評估后的思考

Spider展示了統(tǒng)一模型的潛力,但它仍是一個“專家系統(tǒng)”。而幾乎同時期,以SAM(Segment Anything Model)為代表的“通才”基礎(chǔ)模型橫空出世,試圖“分割萬物”。那么,這些通用大模型在Spider所關(guān)注的“上下文依賴”這類精細(xì)任務(wù)上表現(xiàn)如何呢?

一篇于2024年12月提交給IJCV的論文延續(xù)了這一探索,建立了一個統(tǒng)一的評估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現(xiàn)。



  • 論文標(biāo)題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

  • 投稿信息: IJCV 投稿

  • 論文地址: https://arxiv.org/abs/2412.01240

這項工作更像是一次全面的“摸底考試”,它不僅評估了SAM系列,還為未來的類似SAM 3的分割模型探索了方向。


SAM vs SAM 2

在深入評估之前,我們先簡單回顧下SAM和SAM 2的結(jié)構(gòu)差異。SAM 2引入了前一幀的預(yù)測結(jié)果作為額外輸入,增強(qiáng)了在視頻或序列數(shù)據(jù)上的表現(xiàn)。


“大一統(tǒng)”評估結(jié)果

研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業(yè)缺陷以及多種醫(yī)學(xué)病灶在內(nèi)的圖像和視頻數(shù)據(jù)集上,對SAM和SAM 2進(jìn)行了詳細(xì)的量化和質(zhì)化評估。



結(jié)果發(fā)現(xiàn),盡管SAM系列模型非常強(qiáng)大,但在很多需要深度上下文理解的任務(wù)上,它們的“零樣本”表現(xiàn)并不總是盡如人意。例如,在偽裝物體檢測和陰影檢測中,SAM的分割結(jié)果常常不完整或存在明顯錯誤。

下面是一些可視化對比,可以直觀地看到SAM和SAM 2在不同任務(wù)上的表現(xiàn):

偽裝物體檢測 (上) vs. 陰影檢測 (下)


透明物體分割 (上) vs. 工業(yè)表面異常檢測 (下)


這項評估工作如同一面鏡子,照見了通用大模型在走向真正“萬能”的道路上,還需要在理解復(fù)雜、微妙的視覺概念方面繼續(xù)努力。這也為SAM 3等類似模型的登場埋下了伏筆。

范式躍進(jìn):SAM 3 的“概念分割”革命

時間快進(jìn)到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。



  • 論文標(biāo)題: SAM 3: Segment Anything with Promptable Concept Segmentation

  • 投稿信息: ICLR 2026 投稿

  • 論文地址: https://openreview.net/forum?id=r35clVtGzw

SAM 3不僅在傳統(tǒng)的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(wù)(如通過點(diǎn)擊來分割物體)上超越了SAM 2,更帶來了一個全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)。


這意味著,用戶現(xiàn)在可以通過一個簡短的名詞短語(如“a striped cat”)、一張示例圖片,或兩者的結(jié)合,來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。

值得注意的是,SAM 3的作者們在定義“可提示化概念分割”(PCS)任務(wù)時,也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來的挑戰(zhàn)。他們在論文中明確指出,PCS任務(wù)本身具有內(nèi)在的模糊性,因為其詞匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語甚至是依賴于上下文的(context-dependent phrases),比如“品牌標(biāo)識”,可能根本無法在視覺上被明確“接地”(groundable)。

這表明,即使是像SAM 3這樣強(qiáng)大的通用模型,在邁向真正理解萬物的過程中,也必須正視和處理這些復(fù)雜的、依賴于具體情境才能準(zhǔn)確界定的視覺概念。


SAM 3 的架構(gòu)與數(shù)據(jù)引擎

為了實現(xiàn)這一飛躍,SAM 3在架構(gòu)上進(jìn)行了重要升級。它集成了一個“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉(zhuǎn)化為模型可以利用的表征。



當(dāng)然,強(qiáng)大的模型離不開海量、高質(zhì)量的數(shù)據(jù)。SAM 3的背后是一個龐大的“數(shù)據(jù)引擎”,它通過一個多階段的流程,收集、標(biāo)注和驗證了包含一個名為SA-Co(Segment Anything with Concepts)的超大規(guī)模數(shù)據(jù)集。


SAM 3 的驚人能力

SAM 3的能力是全方位的。在傳統(tǒng)的交互式分割基準(zhǔn)上,它大幅超越了之前的模型。


更重要的是,在新的PCS任務(wù)上,SAM 3展現(xiàn)了強(qiáng)大的概念理解和泛化能力。它甚至可以作為一個智能體(Agent),與多模態(tài)大語言模型(MLLM)結(jié)合,完成復(fù)雜的推理分割任務(wù)。例如,當(dāng)被要求“分割出所有舉起手的人”時,MLLM可以向SAM 3發(fā)出“手”和“人”的查詢,并分析返回的掩碼來得到最終答案。

總結(jié)與展望

從Spider的“專才多能”,到SAM系列的“萬物通才”,我們看到了一條清晰的技術(shù)演進(jìn)路徑:

  1. 統(tǒng)一與泛化 :從為每個任務(wù)定制模型,到用一個統(tǒng)一框架解決一類問題(Spider)。

  2. 基礎(chǔ)模型崛起 :出現(xiàn)像SAM這樣,旨在解決所有分割問題的通用基礎(chǔ)模型。

  3. 評估與反思 :通過系統(tǒng)性評估,發(fā)現(xiàn)通用模型在特定細(xì)分領(lǐng)域的不足,為后續(xù)改進(jìn)指明方向。

  4. 概念與交互 :最新的SAM 3引入了對“概念”的理解,將交互從“點(diǎn)”和“框”提升到了“語義”層面,實現(xiàn)了新的飛躍。

這條路還遠(yuǎn)未到終點(diǎn)。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進(jìn)一步降低對海量標(biāo)注數(shù)據(jù)的依賴?這些都是未來值得探索的方向。

大家對這個技術(shù)演進(jìn)路線怎么看?你覺得“概念分割”的未來會用在哪些有趣的場景?一起來聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
河南建業(yè)450萬歐簽下帕爾馬頭號支點(diǎn)曼,中超引援策略轉(zhuǎn)向務(wù)實

河南建業(yè)450萬歐簽下帕爾馬頭號支點(diǎn)曼,中超引援策略轉(zhuǎn)向務(wù)實

小潌拍客在北漂
2025-12-26 19:52:16
壽司店背后的秘密:ICE突襲亞州華人餐廳,揭出數(shù)十人“無休囚籠”

壽司店背后的秘密:ICE突襲亞州華人餐廳,揭出數(shù)十人“無休囚籠”

最英國
2025-12-27 18:09:47
熟女天花板實錘!松下紗榮子:人妻韻味+釣系眼神,一眼淪陷魂牽

熟女天花板實錘!松下紗榮子:人妻韻味+釣系眼神,一眼淪陷魂牽

灼灼小齊
2025-12-28 01:55:02
惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

奇思妙想草葉君
2025-12-27 11:51:12
尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

我心縱橫天地間
2025-12-27 23:09:30
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

文雅筆墨
2025-12-28 01:16:27
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
恩德里克攜妻子抵達(dá)里昂,正式開啟租借生涯

恩德里克攜妻子抵達(dá)里昂,正式開啟租借生涯

星耀國際足壇
2025-12-27 14:24:48
本田新車官宣:明年1月9日,正式亮相!

本田新車官宣:明年1月9日,正式亮相!

高科技愛好者
2025-12-26 23:02:06
美的副總裁伏擁軍離職:年薪1185萬 在公司效力近30年

美的副總裁伏擁軍離職:年薪1185萬 在公司效力近30年

雷遞
2025-12-27 20:33:01
特朗普恐怕沒料到,大批軍火還沒運(yùn)抵臺島,中方一招直打美國七寸

特朗普恐怕沒料到,大批軍火還沒運(yùn)抵臺島,中方一招直打美國七寸

面包夾知識
2025-12-27 00:00:32
今天才知道:這10樣?xùn)|西竟然是“玻璃纖維品”,用時可要當(dāng)心!

今天才知道:這10樣?xùn)|西竟然是“玻璃纖維品”,用時可要當(dāng)心!

摳搜俠
2025-12-01 16:21:49
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
傳球退步攔網(wǎng)糟糕!從天才少女到被人詬病,張籽萱到底怎么了?

傳球退步攔網(wǎng)糟糕!從天才少女到被人詬病,張籽萱到底怎么了?

金毛愛女排
2025-12-28 00:00:04
重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
深圳驚現(xiàn)"光桿老板"!無辦公室無員工,靠一張營業(yè)執(zhí)照年賺60萬

深圳驚現(xiàn)"光桿老板"!無辦公室無員工,靠一張營業(yè)執(zhí)照年賺60萬

搗蛋窩
2025-12-22 16:14:26
王麗坤棚拍生圖

王麗坤棚拍生圖

小椰的奶奶
2025-12-28 01:15:37
韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

澎湃新聞
2025-12-27 16:52:26
面對6連勝,杜鋒高興不起來,賽后著重強(qiáng)調(diào)球隊的被動和傷害

面對6連勝,杜鋒高興不起來,賽后著重強(qiáng)調(diào)球隊的被動和傷害

小樓侃體育
2025-12-28 00:05:09
2球4助,里斯-詹姆斯本賽季英超參與進(jìn)球已追平前3個賽季總數(shù)

2球4助,里斯-詹姆斯本賽季英超參與進(jìn)球已追平前3個賽季總數(shù)

懂球帝
2025-12-28 02:42:17
2025-12-28 02:59:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5277文章數(shù) 64599關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

本地
游戲
家居
數(shù)碼
公開課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

數(shù)碼要聞

最高5.19 萬!小米新品火熱開賣,“價格屠夫”徹底不裝了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版