混重組：跨模態(tài)混合補丁重組是開放世界語義分割的優(yōu)秀掩碼學(xué)習(xí)器

2025-05-18 01:40:16　來源: 臆說歷史

廣東舉報

分享至

在人工智能視覺領(lǐng)域，語義分割一直是一項挑戰(zhàn)性任務(wù)，尤其是在開放世界場景中。傳統(tǒng)方法依賴大量人工標注數(shù)據(jù)，限制了其應(yīng)用范圍。近期，一種名為＂MixReorg＂的創(chuàng)新方法悄然崛起，它通過跨模態(tài)混合補丁重組技術(shù)，突破了這一瓶頸。這種方法不需要像素級標注，只需圖像-文本對數(shù)據(jù)，就能實現(xiàn)高精度的開放世界語義分割。MixReorg通過巧妙構(gòu)建細粒度的補丁-文本對應(yīng)關(guān)系，并設(shè)計了上下文混合和混合恢復(fù)等創(chuàng)新策略，使模型能夠?qū)W習(xí)更精確的語義對齊能力。在多個基準測試中，它顯著超越了現(xiàn)有方法，為計算機視覺開辟了新的可能性。

分割的困境

當今計算機視覺技術(shù)蓬勃發(fā)展，語義分割作為其關(guān)鍵任務(wù)之一，應(yīng)用場景廣泛。從虛擬現(xiàn)實、虛擬試衣到電影后期制作、自動駕駛，精準的圖像分割能力已成為眾多應(yīng)用的基礎(chǔ)設(shè)施。想象一下，手機應(yīng)用能識別出照片中的每一個物體，并能準確標記其邊界；或者自動駕駛系統(tǒng)能精確區(qū)分路面上的行人、車輛和交通標志。這就是語義分割技術(shù)的魅力所在。

傳統(tǒng)語義分割方法雖然取得了顯著成就，但它們存在一個根本性的局限：依賴大量像素級標注數(shù)據(jù)。這些標注數(shù)據(jù)需要專業(yè)人員一像素一像素地勾畫圖像中的每個物體邊界，工作量巨大且成本高昂。以一張普通分辨率的圖像為例，完整標注可能需要一名專業(yè)人員花費10-30分鐘，而訓(xùn)練一個高性能模型通常需要數(shù)千甚至數(shù)萬張這樣的標注圖像。

更值得注意的是，這些方法通常在＂封閉世界＂設(shè)定下運行，即它們只能識別訓(xùn)練集中已出現(xiàn)的類別。如果測試圖像中出現(xiàn)了訓(xùn)練時未見過的物體類別，這些模型往往會出現(xiàn)嚴重的誤判。例如，一個在城市道路場景下訓(xùn)練的分割模型，當遇到從未見過的農(nóng)村場景或罕見物體時，就會感到＂手足無措＂。

在真實世界中，物體種類繁多且不斷變化，完全覆蓋所有可能遇到的類別幾乎不可能。這就是所謂的＂開放世界＂問題——模型需要面對訓(xùn)練時未見過的物體類別，并能合理處理它們。

一些早期嘗試解決開放世界分割問題的方法包括少樣本學(xué)習(xí)和無監(jiān)督聚類。少樣本學(xué)習(xí)雖然減輕了標注負擔，但仍假設(shè)訓(xùn)練集和測試集中的類別屬于同一潛在特征空間，這在實際應(yīng)用中往往不成立。無監(jiān)督聚類方法則難以保證分割結(jié)果的語義一致性。

近年來，隨著視覺-語言模型（如CLIP）的興起，研究人員開始探索只使用文本監(jiān)督的語義分割方法。其中，GroupViT通過視覺-語言對比學(xué)習(xí)實現(xiàn)了圖像補丁的自動分組，取得了當時最先進的開放世界分割性能。ViL-Seg則通過引入視覺嵌入的在線聚類來實現(xiàn)圖像分割。這些方法利用大量圖像-文本對數(shù)據(jù)為開放世界場景提供了豐富的視覺和文本語義。

然而，盡管這些方法在一定程度上實現(xiàn)了不同模態(tài)的局部信息對齊，但它們?nèi)匀皇且环N基于計算的隱式匹配策略。它們通過計算補丁-文本或詞元級別的相似性矩陣來學(xué)習(xí)細粒度匹配，這種方式效率不高且精度有限。如何從圖像-文本對數(shù)據(jù)中學(xué)習(xí)更加細粒度的語義對齊，成為基于文本監(jiān)督的開放世界分割任務(wù)的關(guān)鍵挑戰(zhàn)。

在實際測試中，這些基于文本監(jiān)督的方法經(jīng)常在復(fù)雜場景下表現(xiàn)不佳。例如，當圖像中包含多個物體或物體邊界模糊時，它們往往難以給出準確的分割結(jié)果。這主要是因為它們?nèi)狈ο袼丶壍木毐O(jiān)督信號，無法充分捕捉物體的空間結(jié)構(gòu)和邊界信息。

重組的革新

針對上述挑戰(zhàn)，MixReorg提出了一種全新且簡單的預(yù)訓(xùn)練范式，旨在增強模型的補丁重組能力。這種方法的核心創(chuàng)新在于，它能夠從圖像-文本對數(shù)據(jù)中構(gòu)建細粒度的補丁-文本對應(yīng)關(guān)系，而且不需要額外的標注成本。

MixReorg的靈感來源于混合圖像建模相關(guān)工作，如拼圖游戲和混合圖像重建。但與之前的方法不同，MixReorg的混合補丁重組是一個專為語義分割設(shè)計的跨模態(tài)掩碼學(xué)習(xí)器。它通過混合不同圖像的補丁生成混合圖像，同時保留補丁與文本之間的對應(yīng)關(guān)系。

具體來說，MixReorg將不同圖像的補丁隨機混合在一起，形成一系列帶有已知分割掩碼的混合圖像。根據(jù)原始圖像-文本對，混合圖像的補丁-文本對應(yīng)關(guān)系也被保留下來，混合圖像的掩碼則用作混合圖像的語義分割標簽。這樣，我們就從圖像-文本對數(shù)據(jù)中獲得了補丁-文本對數(shù)據(jù)，無需任何額外標注。

這種方法看似簡單，卻面臨兩個主要挑戰(zhàn)：首先，混合圖像分割容易受到低級特征的干擾，使模型無法通過高級語義實現(xiàn)混合圖像的補丁重組；其次，混合圖像中的每個補丁容易受到來自不同圖像的不相關(guān)補丁的干擾，這可能導(dǎo)致圖像語義難以與相應(yīng)文本匹配。

為解決第一個挑戰(zhàn)，MixReorg提出了上下文混合和漸進式混合兩種策略。上下文混合策略在混合操作前添加一個Transformer層，使混合圖像中的每個補丁能夠預(yù)先獲取其原始圖像的全局語義，從而強制模型從高級語義中學(xué)習(xí)混合圖像重組。這樣做避免了低級特征對模型語義學(xué)習(xí)的干擾，使分割更加精準。

漸進式混合策略則通過使用原始圖像特征增強混合圖像特征中的全局語義信息。具體做法是，在Transformer的多層處理過程中，不斷將原始圖像的特征信息融入到混合圖像的特征中，這樣可以有效防止混合操作導(dǎo)致的語義信息丟失。

為應(yīng)對第二個挑戰(zhàn)，MixReorg設(shè)計了混合恢復(fù)策略。它通過混合圖像恢復(fù)與文本之間的對比學(xué)習(xí)，保證混合圖像中每個補丁標記與文本的語義關(guān)聯(lián)。這種方式能有效抑制混合圖像中來自不同圖像的補丁之間的相互干擾。

與現(xiàn)有方法相比，MixReorg的創(chuàng)新之處在于它提供了一種真正的數(shù)據(jù)級別的細粒度監(jiān)督信號，而不僅僅是計算上的偽局部信息對應(yīng)。這種方法直接從數(shù)據(jù)入手，通過巧妙的混合和重組操作，創(chuàng)造出比原始圖像-文本對更加細粒度的監(jiān)督信息。

在實踐中，MixReorg通過一系列精心設(shè)計的損失函數(shù)來指導(dǎo)模型學(xué)習(xí)。混合分割損失促使模型學(xué)習(xí)準確分割混合圖像中各個補丁的能力；恢復(fù)對比損失則確保模型能夠?qū)⒒旌蠄D像中的補丁與其對應(yīng)的文本正確對齊。這兩種損失協(xié)同工作，使模型同時具備精確分割和語義對齊的能力。

MixReorg的另一個實用優(yōu)勢是，在測試階段，它只需執(zhí)行原始圖像分支，不會增加任何額外的測試時間。這使得它在實際應(yīng)用中具有很高的效率。這種高效的架構(gòu)設(shè)計使MixReorg不僅在性能上超越現(xiàn)有方法，而且在實用性上也有明顯優(yōu)勢。

實驗結(jié)果表明，通過這種創(chuàng)新的跨模態(tài)混合補丁重組方法，MixReorg成功建立了一個強大的開放世界分割模型，在多個基準測試中顯著超越了現(xiàn)有的零樣本分割基線。它在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K等標準數(shù)據(jù)集上分別提高了5.0%、6.2%、2.5%和3.4%的平均交并比（mIoU），這些提升對于計算機視覺領(lǐng)域來說是相當顯著的。

技術(shù)深入解析

MixReorg的技術(shù)實現(xiàn)看似復(fù)雜，實際上思路清晰且巧妙。這個系統(tǒng)的核心是一個三階段圖像編碼器，它能夠處理混合圖像并生成精確的分割結(jié)果。

這個編碼器的第一階段是上下文混合。在這個階段，系統(tǒng)將不同圖像的補丁隨機混合在一起，生成帶有已知分割掩碼的混合圖像。與其他混合方法不同的是，MixReorg在混合前添加了一個transformer層，讓每個補丁能先獲取到原始圖像的全局語義信息。這就好比給每個拼圖塊先打上了原始圖畫的標記，使它們即使被打亂，也能記住自己來自哪里。

具體來說，對于一批圖像-文本對，系統(tǒng)先把每張圖像分割成不重疊的補丁，并將它們投影到潛在空間。然后，它隨機混合來自M張不同圖像的補丁，構(gòu)造M張混合圖像。這個過程會保留每個補丁與其原始圖像文本之間的對應(yīng)關(guān)系，從而形成一個帶有補丁-文本對應(yīng)關(guān)系的語義分割數(shù)據(jù)集。

第二階段是漸進式混合。在這個階段，普通圖像和混合圖像的補丁標記分別與一組可學(xué)習(xí)的分組標記連接，并獨立輸入到多層transformer中。同時，系統(tǒng)使用原始圖像的特征來增強混合圖像特征中的上下文信息。這就像是在拼圖過程中，不時參考原圖來確保方向正確。

第三階段是混合恢復(fù)。在這個階段，系統(tǒng)會根據(jù)混合前圖像的補丁位置恢復(fù)混合圖像。原始特征、混合特征和恢復(fù)特征通過兩階段分組塊進行分割，生成相應(yīng)的分段標記。這些分段標記經(jīng)過多層transformer處理后，通過MLP投影到與文本嵌入相同的維度。

計算損失時，MixReorg使用兩種主要損失函數(shù)：混合分割損失和恢復(fù)對比損失?；旌戏指顡p失通過計算混合圖像的預(yù)測掩碼與真實掩碼之間的交叉熵來優(yōu)化模型。恢復(fù)對比損失則通過恢復(fù)特征與文本嵌入之間的對比學(xué)習(xí)來增強跨模態(tài)語義對齊能力。

值得注意的是，MixReorg在測試時只需執(zhí)行原始圖像分支，不會增加任何額外的測試時間。這使它在實際應(yīng)用中既高效又實用。

從技術(shù)角度看，MixReorg的創(chuàng)新在于它成功地將補丁混合與跨模態(tài)學(xué)習(xí)結(jié)合起來，創(chuàng)造了一種新的掩碼學(xué)習(xí)方法。這種方法不需要像素級標注，只需圖像-文本對數(shù)據(jù)，就能實現(xiàn)高精度的開放世界語義分割。

出眾的表現(xiàn)

經(jīng)過嚴格測試，MixReorg在多個基準數(shù)據(jù)集上展現(xiàn)出卓越的性能，證明了其作為開放世界分割模型的強大能力。

在PASCAL VOC2012數(shù)據(jù)集上，MixReorg的單尺度評估達到了47.9%的平均交并比（mIoU），多尺度評估更是達到了50.5%，比基線方法GroupViT分別提高了6.8%和5.0%。這個提升在計算機視覺領(lǐng)域是相當顯著的。要知道，PASCAL VOC數(shù)據(jù)集包含20個前景類別，是評估分割模型的標準數(shù)據(jù)集之一。

在PASCAL Context數(shù)據(jù)集上，MixReorg的表現(xiàn)同樣令人印象深刻。它在單尺度評估中達到23.9%的mIoU，多尺度評估中達到25.4%，比GroupViT分別提高了5.7%和6.2%?？紤]到PASCAL Context包含59個類別，涵蓋更廣泛的物體類型，這一提升更加值得稱贊。

在MS COCO數(shù)據(jù)集上，MixReorg的單尺度評估為21.3%，多尺度評估為23.6%，比GroupViT分別提高了2.9%和2.5%。COCO是一個更具挑戰(zhàn)性的數(shù)據(jù)集，包含80個類別和更復(fù)雜的場景，MixReorg仍然能夠取得顯著改進。

即使在最具挑戰(zhàn)性的ADE20K數(shù)據(jù)集上，MixReorg也表現(xiàn)出色。它的單尺度評估為8.7%，多尺度評估為10.1%，比GroupViT分別提高了2.9%和3.4%。ADE20K包含150個類別，場景多樣且復(fù)雜，能在這樣的數(shù)據(jù)集上取得提升，充分證明了MixReorg方法的強大泛化能力。

除了與GroupViT的比較外，MixReorg還超越了許多其他先進方法。例如，在PASCAL VOC上，它優(yōu)于使用額外自監(jiān)督信息的SLIP（12.3%）和CLIP-MAE（16.8%），以及使用更多訓(xùn)練數(shù)據(jù)的MaskCLIP（21.7%）。這種全面的優(yōu)勢表明，MixReorg的跨模態(tài)混合補丁重組方法能夠更有效地學(xué)習(xí)細粒度語義對齊。

除了語義分割外，MixReorg在圖像分類任務(wù)上也表現(xiàn)出色。在ImageNet零樣本分類測試中，MixReorg的top-1準確率為38.8%，top-5準確率為66.7%，顯著優(yōu)于GroupViT的37.5%和65.5%。這表明MixReorg通過細粒度掩碼學(xué)習(xí)實現(xiàn)了更好的圖像-文本對齊。

為了深入了解MixReorg各組件的貢獻，研究團隊進行了全面的消融研究。實驗表明，上下文混合（CM）策略是至關(guān)重要的。僅添加一個transformer層（即GroupViT+）并不能提高性能，但加入CM后，性能顯著提升（19.3% vs 18.2%）。這證明了在模型早期獲取全局語義信息的重要性。

另外，實驗還探索了混合用于上下文混合操作的圖像數(shù)量M的影響。結(jié)果顯示，M=16是最佳選擇。隨著M的增加，混合圖像包含更多語義類別，有助于模型學(xué)習(xí)語義分組（20.5% vs 17.1%）。但M超過某個閾值（如M=32）后，由于分辨率限制，混合圖像中的語義表示不足，反而會干擾模型學(xué)習(xí)（20.5% vs 18.2%）。

漸進式混合模塊的數(shù)量P也是一個重要參數(shù)。當P=0時，即不使用原始圖像增強混合圖像，模型性能較差。隨著P的增加，混合圖像特征的語義變得更清晰，更有利于模型學(xué)習(xí)區(qū)分不同語義。實驗表明，P=6時模型性能最佳，比P=0提高約7%的mIoU。

直觀地看，MixReorg生成的分割結(jié)果在視覺上也明顯優(yōu)于GroupViT。在處理包含多個類別的復(fù)雜圖像時，MixReorg能夠更準確地分割不同物體。同時，對于＂stuff＂類別（如天空、草地等），MixReorg的分割質(zhì)量也明顯優(yōu)于GroupViT。這表明MixReorg具有更強的高級語義理解和分割能力。

研究團隊還可視化了從混合圖像重組的結(jié)果，發(fā)現(xiàn)MixReorg能夠正確地將大多數(shù)圖像補丁分割到其對應(yīng)的原始語義中。混合圖像預(yù)測的混淆矩陣表明，MixReorg能夠有效地將補丁與文本對齊。

總的來說，MixReorg通過創(chuàng)新的跨模態(tài)混合補丁重組方法，成功地從圖像-文本對數(shù)據(jù)中構(gòu)建了細粒度的補丁-文本數(shù)據(jù)，并設(shè)計了有效的掩碼學(xué)習(xí)策略，實現(xiàn)了開放世界語義分割的顯著性能提升。這種方法不僅在多個基準測試中表現(xiàn)優(yōu)異，而且在實際應(yīng)用中具有高效性和實用性。

參考資料

Cai， K.， Ren， P.， Zhu， Y.， Xu， H.， Liu， J.， Li， C.， Wang， G.， &； Liang， X. （2023）. MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation.
GroupViT: Zhou， D.， Kang， B.， Jin， X.， Yang， L.， Lian， X.， Hou， Q.， &； Feng， J. （2022）. Semantic segmentation with text supervision.
CLIP: Radford， A.， Kim， J. W.， Hallacy， C.， Ramesh， A.， Goh， G.， Agarwal， S.， … &； Sutskever， I. （2021）. Learning transferable visual models from natural language supervision.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.