OneRef：一刀砍掉融合模塊，極簡One-tower統(tǒng)一框架

2025-11-11 08:27:38　來源: 將門創(chuàng)投

北京舉報

分享至

現(xiàn)有的視覺定位和指代分割工作受到視覺和語言獨立編碼的限制，嚴重依賴于笨重的基于 Transformer 的融合編碼器/解碼器和各種早期階段交互技術。同時，當前的掩碼視覺語言建模(mask visual language modeling，MVLM)在指代任務中無法捕捉圖像-文本之間微妙的指代關系。

在本文中，團隊提出OneRef，一個極簡的、建立在模態(tài)共享Transformer上的指代框架，其統(tǒng)一了視覺和語言特征空間。為了對指代關系進行建模，本文引入了一種新的MVLM范式，稱為掩碼指代建模(MRefM)，它包括指代感知的掩碼圖像建模和指代感知的掩碼語言建模。這兩個模塊不僅可以重構與模態(tài)相關的內容，還可以重建跨模態(tài)的指代內容。在MRefM中，提出一種指代感知的動態(tài)圖像掩碼策略，該策略可以感知指代區(qū)域，而不是依賴于固定掩碼比率或通用的隨機掩碼方案。通過利用統(tǒng)一的視覺語言特征空間，并結合MRefM的建模指代關系的能力，本工作的方法可以直接回歸指代結果，而無需依賴于各種復雜的技術。本工作的方法連續(xù)地超越現(xiàn)有的方法，在定位和分割任務上都達到了SoTA的性能，為未來的研究提供了新的有價值的思路。

論文題目： Towards Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling 論文鏈接： https://arxiv.org/abs/2410.08021 代碼和模型：（代碼和模型已全部開源） https://github.com/linhuixiao/OneRef

一、引言

視覺定位(Visual Grounding，VG)的目的是在特定圖像中定位表達查詢文本所指代的區(qū)域。廣義的視覺定位 / 指代任務包括指代表達理解(Referring Expression Comprehension，REC)、短語定位(Phrase Grounding，PG)和指代表達文本/圖像分割(Referring Expression/Image Segmentation，RES/RIS)。在REC/PG中，所定位的區(qū)域用矩形邊界框表示，而在RES/RIS中，定位區(qū)域用指代目標的不規(guī)則的細粒度分割掩碼表示。目標檢測或實例分割通常依賴于一組封閉的類別集合來檢測或分割滿足目標標簽的多個區(qū)域，與之不同的是，視覺定位并不局限于固定的類別。它需要理解查詢文本的語義，然后再定位或分割特定一個區(qū)域。因此，視覺定位是一項強烈依賴于視覺和語言特征的多模態(tài)交互和對齊的任務。

自從BERT[16]和ViT[17,7]提出以來，最先進的(state-of-the-art，SoTA)定位工作廣泛采用了預訓練和微調范式。如圖1所示，現(xiàn)有的使用預訓練模型的研究，無論是使用了單模態(tài)預訓練模型分別遷移視覺和語言知識，還是使用多模態(tài)預訓練模型，主要可以分為三種典型的架構： (i)兩個模態(tài)編碼器結合一個跨模態(tài)融合編碼器，如TransVG等; (ii)額外再加一個解碼器，以MDETR等為例; (iii)基于語言引導的視覺特征的直接回歸，如LAVT、TransVG++等。

然而，在這些研究中，都集成了模態(tài)相關的編碼器，使得這些工作很難將兩種模態(tài)無縫集成到統(tǒng)一特征空間中。因此，這些工作不僅需要額外的基于Transformer 的跨模態(tài)[78]編碼器/解碼器(也即上述(i)和(ii))進行視覺和語言的模態(tài)融合，而且還在需要在模態(tài)相關的編碼器之間提出各種各樣的精心設計的交互結構和技術，用以促進早期的細粒度跨模態(tài)的對齊，例如Adapter適配器，權重生成，圖像-文本交叉注意力等等技術。因此，已有的這些方法不僅包含大量的參數(shù)，而且涉及復雜的過程。

考慮到這些嚴重的限制，本工作的目標是探索更簡單的模態(tài)共享的定位框架，它可以在統(tǒng)一的特征空間內統(tǒng)一視覺和語言，從而避免了使用復雜的交互模塊、笨重的融合Transformer/解碼器以及特殊的定位token。

圖1. 本工作提出的方法和主流的REC/RES架構。

隨著預訓練的進步，許多研究都在探索統(tǒng)一模態(tài)共享的多模態(tài)框架。YORO基于ViLT實現(xiàn)了一種共享編碼器。然而，其建模方法會掩蓋單模態(tài)知識，同時還需要編碼器納入額外的查詢錨點，使得它很難使用常見的預訓練模型，從而限制了其方法的遷移通用性。ONE-PEACE基于混合專家(Mix-of-Expert，MoE)設計了7個專家分支，構建了三模態(tài)基礎模型，從而實現(xiàn)了圖像、文本和音頻模態(tài)的融合。然而，他們的研究采用了大量的三模態(tài)數(shù)據(jù)，同時也沒有探索MVLM對指代任務建模的潛在應用。

BEiT-3建立在多通路Transformer（Multi-way Transformer）的基礎上，同時采用三個MoE頭(即視覺、語言、視覺語言)和模態(tài)共享結構，在共享的特征空間內有效地統(tǒng)一了視覺和語言。它在各種分類式的跨模態(tài)領域(如檢索、VQA等)中表現(xiàn)出顯著的優(yōu)勢。然而，目前尚無研究探討在指代任務中如何利用BEiT-3實現(xiàn)遷移。

因此，本工作的目標是在BEiT-3的單塔模型上，在統(tǒng)一的特征空間內探索更加簡潔高效的指代定位和指代分割的遷移。然而，BEiT-3模型是利用通用的掩碼視覺語言建模(mask visual language modeling，MVLM)方法進行預訓練的，這種掩碼范式缺乏細粒度的跨模態(tài)指代能力，不能有效地建模出圖像和文本之間復雜的指代關系。因此，將BEiT-3應用于回歸式的指代任務時存在明顯的鴻溝。因此，探索如何將細粒度的跨模態(tài)指代能力納入掩碼建模范式將成為一個重要的尚未解決的研究問題。

二、方法思路

如圖2所示，在本文中，本工作提出了一種新的范式，稱為掩碼指代建模(MRefM)，以及一種統(tǒng)一的、極其簡潔的定位和指代分割框架，稱為OneRef，不再需要融合或交互的Transformer結構，也不需要特殊的定位Token。

圖2. 我們的多模態(tài)的掩碼指代建模(MRefM)范式的示意圖。其包括2個部分，分別是指代感知的掩碼圖像建模和指代感知的掩碼語言建模。

首先，本工作提出MRefM范式，以靈活的方式增強BEiT-3的指代能力。MRefM由兩個部分組成：指代感知的掩碼圖像建模(Referring-aware Mask Image Modeling，簡稱Referring MIM，指代MIM)和指代感知的掩碼語言建模(Referring-aware Mask Language Modeling，簡稱Referring MLM，指代MLM)。傳統(tǒng)的MVLM通?；趩文B(tài)MIM和MLM交替或隨機訓練來實現(xiàn)。相比之下，指代MIM和指代MLM需要重構兩種不同類型的內容：與自身模態(tài)相關的內容和跨模態(tài)的指代信息。

具體而言，首先，對于指代感知的掩碼圖像建模來說，其使用與聚合文本token進行點積運算之后的視覺token進行重建。其不僅需要重建本身掩碼的視覺特征，還需要重建視覺目標關聯(lián)分數(shù)，這一分數(shù)用以表示當前token與定位區(qū)域之間的距離。同時，得分包括四個維度：到定位中心的水平和垂直距離，以及定位區(qū)域的寬度和高度。

圖3. 隨機掩碼（MAE）[25]、分塊掩碼（BEiT）[4]和我們的基于指代的動態(tài)圖像掩碼的示意圖。α表示整個掩碼比例，而β和γ表示超出和位于引用區(qū)域內的掩碼比例。

此外，在現(xiàn)有的掩碼策略中，MAE采用的是高比率隨機掩碼，而BEiT-3采用的是低比率塊狀隨機掩碼，兩者都不能有效地將注意力有效地引導到指代區(qū)域。為了通過周圍的視覺上下文和文本語義增強模型對指代區(qū)域的理解，我們提出一種指代感知動態(tài)掩碼策略，具體的例子如圖3所示。其具體思路是取代傳統(tǒng)的固定比例的隨機掩碼策略，以較高的掩碼比例重建指代區(qū)域。

其次，對于指代感知的掩碼語言建模來說，其使用與聚合的視覺token進行點積運算后的文本token進行重建。其不僅需要重建掩碼文本本身，還需要重建表示當前文本token與指代圖像區(qū)域之間相關性的語義目標關聯(lián)分數(shù)。

圖4. 基于指代的定位和分割遷移的示意圖。

另一方面，在視覺定位和指代分割遷移過程中，現(xiàn)有的定位和分割模型通常使用[Region] token和多個查詢錨（Query anchor）等特殊的定位 token 來回歸結果。然而，在主干網(wǎng)絡中嵌入[Region] token會破壞預訓練的模型，并且查詢錨（Query anchor）也依賴于額外的解碼器。由于模態(tài)共享編碼器建立了統(tǒng)一的特征空間，本工作不再需要額外的跨模態(tài)的編碼器/解碼器來融合單模態(tài)特征，可以使我們能夠更有效地利用預訓練主干網(wǎng)絡獲得的知識。受益于MRefM范式，視覺token內在地包含了指代信息。

因此，如圖4所示，本工作可以拋棄特殊的定位token或者查詢anchor，直接在基于點積運算的指代MIM的基礎上構建起輕量級且高度簡潔的定位和分割任務頭，從而實現(xiàn)了統(tǒng)一的指代框架。

三、實驗分析

如表1、2所示，我們在兩種設定下對REC（指代定位）任務進行實驗。

(1)在單數(shù)據(jù)集微調設定中，Base基礎模型在表1五個數(shù)據(jù)集上分別超越當前的 SoTA 方法 HiVG為 2.07%(testB)、 6.15%(testB)、 4.73%(test)、 1.95%(test) 與1.50%(test)，同時顯著優(yōu)于傳統(tǒng)單模態(tài)檢測器方法 TransVG++，性能分別提升達到 4.37%(testB)、 7.98%(testB)、 7.22%(test)、 2.47%(test) 與 2.12%(test)。

(2)在數(shù)據(jù)集混合預訓練設定中，Base基礎模型在 RefCOCO/+/g 的 testB/testB/test 劃分上分別超越 HiVG 為1.35%、 2.79% 與 2.63%，超過 Grounding-DINO 達2.59%、 4.76% 與 2.38%，優(yōu)于 OFA 達到 5.28%、 5.18% 與 5.01%，甚至超越了參數(shù)量是我們20-60 倍的 GMLLM 模型 LION，提升達到3.76%、2.13% 與 1.69%。需指出，UniTAB、OFA、LION等工作中同樣采用 MVLM 進行預訓練。

表1 在五個指代定位數(shù)據(jù)集上采用單數(shù)據(jù)集微調設置的對比實驗

表2 在 REC 任務上采用數(shù)據(jù)集混合的中間預訓練設置的對比實驗

如表3所示，我們在兩種設定下進行RES（指代分割）任務實驗。

(1)在單數(shù)據(jù)集微調設定中，Base基礎版模型在 RefCOCO/+/g 的 testB/testB/test 劃分上分別超越 SoTA 自監(jiān)督方法RISCLIP達到 2.65%、 4.77% 與 1.73%，同時顯著優(yōu)于傳統(tǒng)單模態(tài)檢測器方法 VG-LAW 達到 3.42%、 7.31% 與 4.57%。

(2)在數(shù)據(jù)集混合預訓練設定中，Base基礎版模型相較 SoTA 方法 RISCLIP 實現(xiàn) 4.53%、 8.21% 與 5.39%的性能提升。

表3 在 RES 任務上采用兩種不同設置下的比較 (mIoU 結果)

如圖5所示，我們展示了 OneRef-B 模型在 RefCOCOg 數(shù)據(jù)集上一些相對具有挑戰(zhàn)性的應用示例，并給出了模型的指代定位（REC）和指代分割（RES）的定性結果。這些結果表明，我們的 OneRef 模型在復雜文本理解和跨模態(tài)指代定位任務中展現(xiàn)了強大的語義理解的能力。

圖5 OneRef 框架在RefCOCOg (val)數(shù)據(jù)集上的定性結果

四、總結

在本文中，我們提出了一種新穎的、高度簡潔的、特征空間統(tǒng)一的單塔指代框架。此外，我們通過引入MRefM范式，在指代任務中首次探索了掩碼建模，以捕捉視覺和文本之間細粒度的指代關系。我們展示了MRefM在REC、PG和RES任務在三種設置下的有效性和通用性，連續(xù)實現(xiàn)了突破性的成果。此外，利用無監(jiān)督方法可以使MRefM在未來實現(xiàn)大規(guī)模預訓練，為指代任務開辟了新的方向。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關于我“門”

將門是一家以專注于數(shù)智核心科技領域的新型創(chuàng)投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

如果您是技術領域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.