国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

F1暴漲20分,推理速度恒定!新架構VGent:多目標定位又快又準

0
分享至


新智元報道

編輯:LRST

【新智元導讀】多目標(Multi-target) 以及 視覺參照(Visual Reference) 為視覺定位(Visual Grounding)任務的推理速度和性能同時帶來了全新的挑戰(zhàn)。 為了解決這一難題,來自UIC和Adobe的研究團隊提出了VGent模型。這是一種兼顧速度與性能的模塊化設計,旨在將模型的推理與預測能力解耦,并輔以多種模塊化增強方案 。最終,VGent憑借不到16B的參數量,在多目標及帶視覺參照的視覺定位基準(Omnimodal Referring Expression Segmentation, ORES)上,大幅超越了Qwen3-VL-30B,實現了平均+18.24 F1的巨大提升!

在多模態(tài)大模型(MLLM)時代,視覺定位是MLLM細粒度推理能力的重要一環(huán),同時也是實現人機交互和具身智能的核心能力。

現有的解決方案主要分為兩類:

原生Token派(Native-token):像 Qwen2.5-VL 或 Ferret-v2 這樣的模型,通過自回歸(auto-regressive)的方式利用原有的詞表逐個生成邊界框坐標 。這種方式不僅速度慢(推理時間隨目標數量線性增加),而且在多目標場景下容易產生幻覺(Hallucinations),即模型可能會在列舉完所有目標對象之前就過早停止,或者在目標密集的場景中陷入無限生成的死循環(huán)。如圖一所示,隨著目標數量的增加,這類方法在多目標場景下的低效和不穩(wěn)定性變得尤為明顯。

新增Token派(New-token):另一類方法嘗試通過引入特殊的token(如[SEG]或 object token)來指代目標物。他們需要收集大規(guī)模的數據集、從LLM起重新構建一個能理解這些新增token的MLLM。因此,這種方法不可避免地會破壞LLM在預訓練階段獲得的通用推理能力。更嚴重的是,其導致無法直接利用現有的、先進的、進行了更大規(guī)模預訓練的開源MLLM(如 QwenVL系列)。

來自UIC(伊利諾伊大學芝加哥分校) 和Adobe的研究團隊提出一種模塊化的編碼器-解碼器(Encoder-Decoder)架構VGent,其核心思想是:將高層的語義推理交給MLLM,將底層的像素預測交給目標檢測器(detector),最終通過hidden state將這種解耦后的關系進行連接。


論文地址:https://arxiv.org/abs/2512.11099

研究人員認為,語義推理和精準定位是兩種截然不同的能力,強迫訓練一個單一的整體模型去同時精通抽象的語義推理和像素級別的底層預測,會導致性能和效率上的權衡。

更符合直覺的方式,應該是由不同的組件做各自擅長的事。

基于這一洞察,VGent提出了一種模塊化的編碼器-解碼器設計,利用現成的MLLM和detector將高層多模態(tài)推理與底層預測解耦。

其核心理念在于MLLM和detector的優(yōu)勢是互補的:MLLM擅長多模態(tài)語義對齊和推理,而detector則擅長高效地提供精準的多目標檢測框


圖一:VGent(藍色)與現有先進的MLLM(Qwen2.5-VL,灰色)在多目標視覺定位任務上的對比。左圖顯示VGent的推理時間恒定且迅速,而 MLLM 隨目標數量增加呈線性增長;右圖顯示VGent在F1分數上實現了顯著提升,特別是在多目標場景下。

方法

基礎架構

VGent主要由圖二所示的encoder和decoder兩部分組成,并引入了三種模塊化增強機制(圖三、四和五)。


圖二:VGent框架概覽

如圖二所示,左側encoder是一個 MLLM,使用QuadThinker來提升其多目標推理能力。凍結的encoder輸出hidden states并存儲下來給到decoder。右側decoder初始化自encoder的LLM 層,其將detector生成的object proposal作為query,通過cross-attention與encoder的hidden states交互。

研究人員在decoder內部新增了self-attention層(參數初始化自同一層的cross-attention),用于促進query之間的信息交流。 最終的輸出進行yes / no的二元判斷來選擇每個proposal是否屬于目標。相應的segmentation mask則通過 prompt SAM 得到。

QuadThinker:強化多目標推理能力

針對MLLM在多目標場景下推理能力下降的問題,研究人員提出了一種基于 GRPO 的強化學習訓練范式QuadThinker,通過設計特定的prompt和reward functions,引導模型執(zhí)行區(qū)域到全局、分步推理的過程:先分別統(tǒng)計圖像四個象限內的目標數量,再匯總總數,最后預測具體坐標。


圖三:QuadThinker所使用的prompt。

Mask-aware Label:解決檢測與分割的歧義

在多目標場景中,檢測(Box)與分割(Mask)任務的定義存在一定的差別。檢測通常優(yōu)化「一對一」的匹配,而分割則旨在召回所有前景像素。


圖四:Mask-aware Label示意圖。基于IoA的標簽分配策略能召回被傳統(tǒng)IoU忽略的細粒度部件。

這種差異導致了標注歧義:例如圖四(左)中,檢測器可能將「鹿頭裝飾」與其「掛繩」視為兩個獨立的框。

在檢測任務的 IoU 標準下,由于掛繩的框比較小、相對于整體真值框的重疊率過低,往往會被當作負樣本在標注階段被過濾掉(被標上負標簽)。但是對于分割任務來說,這個掛繩屬于前景,其應該被標上正標簽。

為此,VGent引入了Mask-aware Label,使用IoA (Intersection-over-Area) 指標進行額外的標簽分配。如圖四(右),IoA通過計算候選mask (通過proposal prompt SAM得到)與多目標真值的union mask的交集,并除以候選mask自身的面積得到。

因為IoA的分母是候選mask自身面積,該機制能精準召回那些雖然只覆蓋了部分目標群(如細小的掛繩)但依然有效的 proposal。模型使用另一個獨立的MLP head專門預測這種分割導向的標簽,用于解決視覺定位中分割類型的輸出。

Global Target Recognition:增強全局感知

為了提升候選框選擇的準確性,VGent 引入了Global Target Recognition模塊。


圖五:Global Target Recognition示意圖。利用Learnable Queries注入全局目標數量信息,并聚合多個detector的結果以提升召回率。

為了提高召回率,研究人員聚合了來自多個detector的proposal形成一個統(tǒng)一的query set,之后引入了額外的 learnable queries與這些proposal queries拼接作為decoder的輸入。

這組query被專門訓練用于預測目標的總數以及正樣本proposal的數量。通過decoder層內的self-attention機制,這些包含全局統(tǒng)計信息的learnable query能夠與proposal query進行交互,將「全局線索」傳播給每一個候選框,從而增強其對目標群體的整體理解,實現更精準的選擇。

實驗結果

研究人員在最新的多目標視覺定位基準 ORES (MaskGroups-HQ) 以及傳統(tǒng)的單目標數據集上進行了廣泛評估。

多目標視覺定位(Multi-target Visual Grounding)


圖六:在 Omnimodal Referring Expression Segmentation (ORES) 上的性能對比。ORES是多目標以及存在視覺參照(w/ < mask-ref >)的視覺定位基準。

如圖六所示,在極具挑戰(zhàn)的ORES基準上,VGent 取得了全新的SOTA成績。相比之前的最佳方法RAS13B,VGent在F1分數上實現了+20.58%的巨大提升。VGent在gIoU和cIoU上都帶來了明顯的提升。

值得注意的是,即使對比參數量更大的Qwen3-VL-30B,VGent 依然保持顯著優(yōu)勢。同時,得益于模塊化設計,VGent 在目標數量增加時保持恒定且快速的推理速度,避免了自回歸模型隨目標增加而線性增長的推理延遲(如圖一所示)。

單目標視覺定位(Single-target Visual Grounding)


圖七:在referring expression comprehension (REC) 上的性能對比。

VGent在傳統(tǒng)單目標基準(RefCOCO, RefCOCO+, RefCOCOg)上也表現卓越。

VGent實現了90.1%的平均準確率,超越了InternVL3.5-20B和38B等更大規(guī)模的模型 。相比其backbone (Qwen2.5-VL-7B),VGent帶來了+3.5%的平均性能提升。

可視化


圖八:VGent在不同挑戰(zhàn)下的預測結果可視化。

VGent在復雜場景中展現了極強的魯棒性。

如圖八(上)所示,VGent精準定位所有方形鐘表,即使存在大量相似的鐘表作為干擾項,展現了VGent在密集多目標場景下的優(yōu)越表現。

圖八(下)中,VGent 成功定位了視覺參照(藍色 mask),并繼續(xù)推斷出左側穿裙子的女士,排除了右側的干擾項。

參考資料:

https://arxiv.org/abs/2512.11099

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發(fā)!特朗普宣布,暴漲!

突發(fā)!特朗普宣布,暴漲!

中國基金報
2026-01-09 00:13:04
建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復的?

建國后,博古妻子哭求楊尚昆幫襯生活困難,楊尚昆是如何回復的?

嘮叨說歷史
2025-12-30 10:35:28
盤點|2025年上半年熱度新人

盤點|2025年上半年熱度新人

素然追光
2026-01-09 01:05:02
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

說歷史的老牢
2026-01-08 10:42:57
女大學生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

女大學生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

鋭娛之樂
2026-01-08 08:34:40
為什么會挪用老百姓的錢?

為什么會挪用老百姓的錢?

生命可以承受之輕
2026-01-06 13:12:26
果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩(wěn)開采!

果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩(wěn)開采!

墜入二次元的海洋
2026-01-08 19:51:48
35歲鄭爽近照曝光!形象管理失敗,徹底成了素人,在美日子舒坦了

35歲鄭爽近照曝光!形象管理失敗,徹底成了素人,在美日子舒坦了

小咪侃娛圈
2026-01-08 14:06:23
票房大反轉:《阿凡達3》跌至第三,尋秦記第二,第一成功逆襲

票房大反轉:《阿凡達3》跌至第三,尋秦記第二,第一成功逆襲

糊咖娛樂
2026-01-07 17:08:47
科學家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現人體驚人真相!

科學家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現人體驚人真相!

徐德文科學頻道
2026-01-06 19:51:55
《我是刑警》原型:公安部九大懸案之一!追兇6年,萬人行動!

《我是刑警》原型:公安部九大懸案之一!追兇6年,萬人行動!

史記趣聞
2024-12-31 20:10:03
資深編審、法史學者,北京工業(yè)大學副教授解錕逝世,年僅48歲

資深編審、法史學者,北京工業(yè)大學副教授解錕逝世,年僅48歲

澎湃新聞
2026-01-08 17:04:26
閆學晶哭窮遭質疑?導演力挺:北京一年花100萬真不多,她沒說謊

閆學晶哭窮遭質疑?導演力挺:北京一年花100萬真不多,她沒說謊

代軍哥哥談娛樂
2026-01-08 10:44:33
伊朗抗議人群占領市政府大樓,舉牌感謝川普

伊朗抗議人群占領市政府大樓,舉牌感謝川普

知兵
2026-01-08 08:04:01
終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒想到這么厲害!

終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒想到這么厲害!

今日養(yǎng)生之道
2026-01-06 20:07:20
74歲王石坐公務艙出行!沒戴假發(fā)狀態(tài)疲憊,拿手機坐窗口認真拍照

74歲王石坐公務艙出行!沒戴假發(fā)狀態(tài)疲憊,拿手機坐窗口認真拍照

李健政觀察
2026-01-07 23:45:35
又轟下38+10+10!抱歉威少:你從歷史第二變成了歷史第三

又轟下38+10+10!抱歉威少:你從歷史第二變成了歷史第三

籃球大視野
2026-01-08 17:43:43
日月潭所在地有望“綠地變藍天”?國民黨魚池鄉(xiāng)鄉(xiāng)長參選人出爐

日月潭所在地有望“綠地變藍天”?國民黨魚池鄉(xiāng)鄉(xiāng)長參選人出爐

海峽導報社
2026-01-08 10:44:13
機構大瘦身!廣東一縣8部門精簡為4個,人浮于事的舊現象將告別

機構大瘦身!廣東一縣8部門精簡為4個,人浮于事的舊現象將告別

筆桿論道
2026-01-09 06:11:55
亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結論”

亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結論”

澎湃新聞
2026-01-08 16:04:29
2026-01-09 11:55:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14291文章數 66451關注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

檀健次戀愛風波越演越烈 上學經歷被扒

財經要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

上汽大眾首款“9系旗艦” ID. ERA 9X實車曝光

態(tài)度原創(chuàng)

教育
時尚
數碼
本地
游戲

教育要聞

同一App差評好評吵翻!學生喊下架,家長卻瘋狂囤攻略

60+女性穿搭指南來了:4招告別“大媽感”,解鎖冬日優(yōu)雅氣質

數碼要聞

普通眼鏡秒變AI眼鏡:歌爾CES 2026展示外掛配件Rox-Vision

本地新聞

云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

國產《仙劍世界》新角色引爭議!抄襲鳴潮?這也太像了

無障礙瀏覽 進入關懷版