国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

F1暴漲20分,推理速度恒定!新架構(gòu)VGent:多目標(biāo)定位又快又準(zhǔn)

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】多目標(biāo)(Multi-target) 以及 視覺(jué)參照(Visual Reference) 為視覺(jué)定位(Visual Grounding)任務(wù)的推理速度和性能同時(shí)帶來(lái)了全新的挑戰(zhàn)。 為了解決這一難題,來(lái)自UIC和Adobe的研究團(tuán)隊(duì)提出了VGent模型。這是一種兼顧速度與性能的模塊化設(shè)計(jì),旨在將模型的推理與預(yù)測(cè)能力解耦,并輔以多種模塊化增強(qiáng)方案 。最終,VGent憑借不到16B的參數(shù)量,在多目標(biāo)及帶視覺(jué)參照的視覺(jué)定位基準(zhǔn)(Omnimodal Referring Expression Segmentation, ORES)上,大幅超越了Qwen3-VL-30B,實(shí)現(xiàn)了平均+18.24 F1的巨大提升!

在多模態(tài)大模型(MLLM)時(shí)代,視覺(jué)定位是MLLM細(xì)粒度推理能力的重要一環(huán),同時(shí)也是實(shí)現(xiàn)人機(jī)交互和具身智能的核心能力。

現(xiàn)有的解決方案主要分為兩類(lèi):

原生Token派(Native-token):像 Qwen2.5-VL 或 Ferret-v2 這樣的模型,通過(guò)自回歸(auto-regressive)的方式利用原有的詞表逐個(gè)生成邊界框坐標(biāo) 。這種方式不僅速度慢(推理時(shí)間隨目標(biāo)數(shù)量線性增加),而且在多目標(biāo)場(chǎng)景下容易產(chǎn)生幻覺(jué)(Hallucinations),即模型可能會(huì)在列舉完所有目標(biāo)對(duì)象之前就過(guò)早停止,或者在目標(biāo)密集的場(chǎng)景中陷入無(wú)限生成的死循環(huán)。如圖一所示,隨著目標(biāo)數(shù)量的增加,這類(lèi)方法在多目標(biāo)場(chǎng)景下的低效和不穩(wěn)定性變得尤為明顯。

新增Token派(New-token):另一類(lèi)方法嘗試通過(guò)引入特殊的token(如[SEG]或 object token)來(lái)指代目標(biāo)物。他們需要收集大規(guī)模的數(shù)據(jù)集、從LLM起重新構(gòu)建一個(gè)能理解這些新增token的MLLM。因此,這種方法不可避免地會(huì)破壞LLM在預(yù)訓(xùn)練階段獲得的通用推理能力。更嚴(yán)重的是,其導(dǎo)致無(wú)法直接利用現(xiàn)有的、先進(jìn)的、進(jìn)行了更大規(guī)模預(yù)訓(xùn)練的開(kāi)源MLLM(如 QwenVL系列)。

來(lái)自UIC(伊利諾伊大學(xué)芝加哥分校) 和Adobe的研究團(tuán)隊(duì)提出一種模塊化的編碼器-解碼器(Encoder-Decoder)架構(gòu)VGent,其核心思想是:將高層的語(yǔ)義推理交給MLLM,將底層的像素預(yù)測(cè)交給目標(biāo)檢測(cè)器(detector),最終通過(guò)hidden state將這種解耦后的關(guān)系進(jìn)行連接。


論文地址:https://arxiv.org/abs/2512.11099

研究人員認(rèn)為,語(yǔ)義推理和精準(zhǔn)定位是兩種截然不同的能力,強(qiáng)迫訓(xùn)練一個(gè)單一的整體模型去同時(shí)精通抽象的語(yǔ)義推理和像素級(jí)別的底層預(yù)測(cè),會(huì)導(dǎo)致性能和效率上的權(quán)衡。

更符合直覺(jué)的方式,應(yīng)該是由不同的組件做各自擅長(zhǎng)的事。

基于這一洞察,VGent提出了一種模塊化的編碼器-解碼器設(shè)計(jì),利用現(xiàn)成的MLLM和detector將高層多模態(tài)推理與底層預(yù)測(cè)解耦。

其核心理念在于MLLM和detector的優(yōu)勢(shì)是互補(bǔ)的:MLLM擅長(zhǎng)多模態(tài)語(yǔ)義對(duì)齊和推理,而detector則擅長(zhǎng)高效地提供精準(zhǔn)的多目標(biāo)檢測(cè)框。


圖一:VGent(藍(lán)色)與現(xiàn)有先進(jìn)的MLLM(Qwen2.5-VL,灰色)在多目標(biāo)視覺(jué)定位任務(wù)上的對(duì)比。左圖顯示VGent的推理時(shí)間恒定且迅速,而 MLLM 隨目標(biāo)數(shù)量增加呈線性增長(zhǎng);右圖顯示VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了顯著提升,特別是在多目標(biāo)場(chǎng)景下。

方法

基礎(chǔ)架構(gòu)

VGent主要由圖二所示的encoder和decoder兩部分組成,并引入了三種模塊化增強(qiáng)機(jī)制(圖三、四和五)。


圖二:VGent框架概覽

如圖二所示,左側(cè)encoder是一個(gè) MLLM,使用QuadThinker來(lái)提升其多目標(biāo)推理能力。凍結(jié)的encoder輸出hidden states并存儲(chǔ)下來(lái)給到decoder。右側(cè)decoder初始化自encoder的LLM 層,其將detector生成的object proposal作為query,通過(guò)cross-attention與encoder的hidden states交互。

研究人員在decoder內(nèi)部新增了self-attention層(參數(shù)初始化自同一層的cross-attention),用于促進(jìn)query之間的信息交流。 最終的輸出進(jìn)行yes / no的二元判斷來(lái)選擇每個(gè)proposal是否屬于目標(biāo)。相應(yīng)的segmentation mask則通過(guò) prompt SAM 得到。

QuadThinker:強(qiáng)化多目標(biāo)推理能力

針對(duì)MLLM在多目標(biāo)場(chǎng)景下推理能力下降的問(wèn)題,研究人員提出了一種基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練范式QuadThinker,通過(guò)設(shè)計(jì)特定的prompt和reward functions,引導(dǎo)模型執(zhí)行區(qū)域到全局、分步推理的過(guò)程:先分別統(tǒng)計(jì)圖像四個(gè)象限內(nèi)的目標(biāo)數(shù)量,再匯總總數(shù),最后預(yù)測(cè)具體坐標(biāo)。


圖三:QuadThinker所使用的prompt。

Mask-aware Label:解決檢測(cè)與分割的歧義

在多目標(biāo)場(chǎng)景中,檢測(cè)(Box)與分割(Mask)任務(wù)的定義存在一定的差別。檢測(cè)通常優(yōu)化「一對(duì)一」的匹配,而分割則旨在召回所有前景像素。


圖四:Mask-aware Label示意圖;贗oA的標(biāo)簽分配策略能召回被傳統(tǒng)IoU忽略的細(xì)粒度部件。

這種差異導(dǎo)致了標(biāo)注歧義:例如圖四(左)中,檢測(cè)器可能將「鹿頭裝飾」與其「掛繩」視為兩個(gè)獨(dú)立的框。

在檢測(cè)任務(wù)的 IoU 標(biāo)準(zhǔn)下,由于掛繩的框比較小、相對(duì)于整體真值框的重疊率過(guò)低,往往會(huì)被當(dāng)作負(fù)樣本在標(biāo)注階段被過(guò)濾掉(被標(biāo)上負(fù)標(biāo)簽)。但是對(duì)于分割任務(wù)來(lái)說(shuō),這個(gè)掛繩屬于前景,其應(yīng)該被標(biāo)上正標(biāo)簽。

為此,VGent引入了Mask-aware Label,使用IoA (Intersection-over-Area) 指標(biāo)進(jìn)行額外的標(biāo)簽分配。如圖四(右),IoA通過(guò)計(jì)算候選mask (通過(guò)proposal prompt SAM得到)與多目標(biāo)真值的union mask的交集,并除以候選mask自身的面積得到。

因?yàn)镮oA的分母是候選mask自身面積,該機(jī)制能精準(zhǔn)召回那些雖然只覆蓋了部分目標(biāo)群(如細(xì)小的掛繩)但依然有效的 proposal。模型使用另一個(gè)獨(dú)立的MLP head專(zhuān)門(mén)預(yù)測(cè)這種分割導(dǎo)向的標(biāo)簽,用于解決視覺(jué)定位中分割類(lèi)型的輸出。

Global Target Recognition:增強(qiáng)全局感知

為了提升候選框選擇的準(zhǔn)確性,VGent 引入了Global Target Recognition模塊。


圖五:Global Target Recognition示意圖。利用Learnable Queries注入全局目標(biāo)數(shù)量信息,并聚合多個(gè)detector的結(jié)果以提升召回率。

為了提高召回率,研究人員聚合了來(lái)自多個(gè)detector的proposal形成一個(gè)統(tǒng)一的query set,之后引入了額外的 learnable queries與這些proposal queries拼接作為decoder的輸入。

這組query被專(zhuān)門(mén)訓(xùn)練用于預(yù)測(cè)目標(biāo)的總數(shù)以及正樣本proposal的數(shù)量。通過(guò)decoder層內(nèi)的self-attention機(jī)制,這些包含全局統(tǒng)計(jì)信息的learnable query能夠與proposal query進(jìn)行交互,將「全局線索」傳播給每一個(gè)候選框,從而增強(qiáng)其對(duì)目標(biāo)群體的整體理解,實(shí)現(xiàn)更精準(zhǔn)的選擇。

實(shí)驗(yàn)結(jié)果

研究人員在最新的多目標(biāo)視覺(jué)定位基準(zhǔn) ORES (MaskGroups-HQ) 以及傳統(tǒng)的單目標(biāo)數(shù)據(jù)集上進(jìn)行了廣泛評(píng)估。

多目標(biāo)視覺(jué)定位(Multi-target Visual Grounding)


圖六:在 Omnimodal Referring Expression Segmentation (ORES) 上的性能對(duì)比。ORES是多目標(biāo)以及存在視覺(jué)參照(w/ < mask-ref >)的視覺(jué)定位基準(zhǔn)。

如圖六所示,在極具挑戰(zhàn)的ORES基準(zhǔn)上,VGent 取得了全新的SOTA成績(jī)。相比之前的最佳方法RAS13B,VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了+20.58%的巨大提升。VGent在gIoU和cIoU上都帶來(lái)了明顯的提升。

值得注意的是,即使對(duì)比參數(shù)量更大的Qwen3-VL-30B,VGent 依然保持顯著優(yōu)勢(shì)。同時(shí),得益于模塊化設(shè)計(jì),VGent 在目標(biāo)數(shù)量增加時(shí)保持恒定且快速的推理速度,避免了自回歸模型隨目標(biāo)增加而線性增長(zhǎng)的推理延遲(如圖一所示)。

單目標(biāo)視覺(jué)定位(Single-target Visual Grounding)


圖七:在referring expression comprehension (REC) 上的性能對(duì)比。

VGent在傳統(tǒng)單目標(biāo)基準(zhǔn)(RefCOCO, RefCOCO+, RefCOCOg)上也表現(xiàn)卓越。

VGent實(shí)現(xiàn)了90.1%的平均準(zhǔn)確率,超越了InternVL3.5-20B和38B等更大規(guī)模的模型 。相比其backbone (Qwen2.5-VL-7B),VGent帶來(lái)了+3.5%的平均性能提升。

可視化


圖八:VGent在不同挑戰(zhàn)下的預(yù)測(cè)結(jié)果可視化。

VGent在復(fù)雜場(chǎng)景中展現(xiàn)了極強(qiáng)的魯棒性。

如圖八(上)所示,VGent精準(zhǔn)定位所有方形鐘表,即使存在大量相似的鐘表作為干擾項(xiàng),展現(xiàn)了VGent在密集多目標(biāo)場(chǎng)景下的優(yōu)越表現(xiàn)。

圖八(下)中,VGent 成功定位了視覺(jué)參照(藍(lán)色 mask),并繼續(xù)推斷出左側(cè)穿裙子的女士,排除了右側(cè)的干擾項(xiàng)。

參考資料:

https://arxiv.org/abs/2512.11099

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“治港敗類(lèi)”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

“治港敗類(lèi)”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

卷史
2025-09-15 11:50:59
A股:港股突然飆升大漲,原因是什么?釋放什么信號(hào)?下周牛市穩(wěn)了

A股:港股突然飆升大漲,原因是什么?釋放什么信號(hào)?下周牛市穩(wěn)了

風(fēng)風(fēng)順
2026-01-03 00:00:03
這10個(gè)稀奇古怪的“宜家單品”絕了!一開(kāi)始沒(méi)看懂,看懂后:真香

這10個(gè)稀奇古怪的“宜家單品”絕了!一開(kāi)始沒(méi)看懂,看懂后:真香

美家指南
2025-12-31 20:42:19
美媒總算看明白:中國(guó)這哪是買(mǎi)石油,分明是在給俄進(jìn)行“大換血”

美媒總算看明白:中國(guó)這哪是買(mǎi)石油,分明是在給俄進(jìn)行“大換血”

墨印齋
2026-01-02 20:47:40
陳菊早就出院了?臺(tái)媒爆:陳菊大腦語(yǔ)言區(qū)受損,現(xiàn)由醫(yī)療團(tuán)隊(duì)到宅治療

陳菊早就出院了?臺(tái)媒爆:陳菊大腦語(yǔ)言區(qū)受損,現(xiàn)由醫(yī)療團(tuán)隊(duì)到宅治療

海峽導(dǎo)報(bào)社
2026-01-02 19:56:04
“中產(chǎn)階級(jí)”及格線誕生!全國(guó)只有3320萬(wàn)戶,你達(dá)標(biāo)了嗎?

“中產(chǎn)階級(jí)”及格線誕生!全國(guó)只有3320萬(wàn)戶,你達(dá)標(biāo)了嗎?

李云飛Afey
2026-01-01 12:52:31
歐媒:中國(guó)都上桌了,500年來(lái)頭一次,瓜分世界怎能沒(méi)有歐洲的份

歐媒:中國(guó)都上桌了,500年來(lái)頭一次,瓜分世界怎能沒(méi)有歐洲的份

阿器談史
2025-12-25 21:09:35
蔣介石軟禁張學(xué)良54年,為何至死不敢殺他?有人警告蔣:你動(dòng)他我就動(dòng)你

蔣介石軟禁張學(xué)良54年,為何至死不敢殺他?有人警告蔣:你動(dòng)他我就動(dòng)你

清風(fēng)鑒史
2025-12-25 18:55:07
追夢(mèng):希望蕭華能保證詹姆斯入選全明星,后者是NBA20年來(lái)的門(mén)面

追夢(mèng):希望蕭華能保證詹姆斯入選全明星,后者是NBA20年來(lái)的門(mén)面

懂球帝
2026-01-03 00:27:06
首例5胞胎長(zhǎng)大了,父親已勞累去世,母親直言:如能重來(lái)一個(gè)也不要

首例5胞胎長(zhǎng)大了,父親已勞累去世,母親直言:如能重來(lái)一個(gè)也不要

柳絮憶史
2025-07-22 07:15:03
43年前比賽期間叛逃美國(guó),導(dǎo)致中國(guó)慘敗,晚年卻選擇高調(diào)回國(guó)撈金

43年前比賽期間叛逃美國(guó),導(dǎo)致中國(guó)慘敗,晚年卻選擇高調(diào)回國(guó)撈金

小熊侃史
2026-01-03 07:35:07
山西爆冷負(fù)廣州,看看媒體人怎么說(shuō),付政浩說(shuō)意外,麥穗豐說(shuō)厲害

山西爆冷負(fù)廣州,看看媒體人怎么說(shuō),付政浩說(shuō)意外,麥穗豐說(shuō)厲害

萌蘭聊個(gè)球
2026-01-02 22:21:42
這才是鐵哥們!還清中國(guó)81億欠債,贈(zèng)百億大禮,西方各國(guó)都眼紅

這才是鐵哥們!還清中國(guó)81億欠債,贈(zèng)百億大禮,西方各國(guó)都眼紅

霽寒飄雪
2025-12-30 11:54:50
天賦被埋沒(méi)了一輩子是啥體驗(yàn)?網(wǎng)友:學(xué)啥都快,放棄也特別快

天賦被埋沒(méi)了一輩子是啥體驗(yàn)?網(wǎng)友:學(xué)啥都快,放棄也特別快

帶你感受人間冷暖
2026-01-02 00:10:08
中戲明星導(dǎo)師郝戎的貪腐末路! 裝滿現(xiàn)金的行李箱砸塌中戲公平

中戲明星導(dǎo)師郝戎的貪腐末路! 裝滿現(xiàn)金的行李箱砸塌中戲公平

樂(lè)悠悠娛樂(lè)
2025-12-22 13:38:42
你聞過(guò)最難聞的味道是什么?網(wǎng)友:從此對(duì)美女有陰影了!

你聞過(guò)最難聞的味道是什么?網(wǎng)友:從此對(duì)美女有陰影了!

另子維愛(ài)讀史
2025-12-12 20:40:44
1960年,鄧華被免職后離開(kāi)軍區(qū),帶走兩支手槍?zhuān)愬a聯(lián)為何不敢阻攔?

1960年,鄧華被免職后離開(kāi)軍區(qū),帶走兩支手槍?zhuān)愬a聯(lián)為何不敢阻攔?

源溯歷史
2025-12-17 15:36:20
快船雙豐收!桑德斯取代博格丹,尼德豪澤取代祖巴茨,推行交易吧

快船雙豐收!桑德斯取代博格丹,尼德豪澤取代祖巴茨,推行交易吧

籃球資訊達(dá)人
2026-01-02 14:36:27
蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過(guò)

蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過(guò)

小熊侃史
2025-12-21 07:05:12
壞消息,馬刺隊(duì)德文·瓦塞爾因內(nèi)收肌拉傷無(wú)限期休戰(zhàn)

壞消息,馬刺隊(duì)德文·瓦塞爾因內(nèi)收肌拉傷無(wú)限期休戰(zhàn)

好火子
2026-01-03 07:12:02
2026-01-03 09:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14240文章數(shù) 66418關(guān)注度
往期回顧 全部

科技要聞

新勢(shì)力年榜:零跑險(xiǎn)勝華為,蔚來(lái)小鵬新高

頭條要聞

"最快女護(hù)士"剛奪冠就宣布辭職 曾50天內(nèi)贏得20萬(wàn)獎(jiǎng)金

頭條要聞

"最快女護(hù)士"剛奪冠就宣布辭職 曾50天內(nèi)贏得20萬(wàn)獎(jiǎng)金

體育要聞

快船似乎又行了

娛樂(lè)要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

車(chē)企2026開(kāi)年大促 含16個(gè)品牌近70款

汽車(chē)要聞

方程豹全年銷(xiāo)量超23.4萬(wàn)輛 同比暴增316.1%

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
本地
健康
公開(kāi)課

手機(jī)要聞

2025年手機(jī)市場(chǎng)回顧 新形態(tài)頻出效果喜憂參半

數(shù)碼要聞

Clicks首款智能手機(jī)Communicator發(fā)布:帶全鍵盤(pán)的“第二設(shè)備”

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

元旦舉家出行,注意防流感

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版