網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

PixelRefer ：讓AI從“看大圖”走向“看懂每個(gè)對(duì)象”

2025-11-11 12:49:23　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

多模態(tài)大模型（MLLMs）雖然在圖像理解、視頻分析上表現(xiàn)出色，但多停留在整體場景級(jí)理解。

而場景級(jí)理解 ≠ 視覺理解的終點(diǎn)，現(xiàn)實(shí)任務(wù)（如自動(dòng)駕駛、機(jī)器人、醫(yī)療影像、視頻分析）需要的是細(xì)粒度、對(duì)象級(jí)（object-level）詳細(xì)理解。

然而，當(dāng)下的研究工作，如英偉達(dá)的Describe Anything Model (DAM)局限于單個(gè)物體的描述，難以深入理解多對(duì)象屬性、交互關(guān)系及其時(shí)序演變，且犧牲了模型本身的通用理解能力。

針對(duì)這一問題，浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer：一個(gè)統(tǒng)一的時(shí)空像素級(jí)區(qū)域級(jí)理解框架，可實(shí)現(xiàn)任意粒度下的精細(xì)視覺指代與推理，在多項(xiàng)像素級(jí)細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比，輕量版的2B模型推理時(shí)間加快了4倍，顯存占用減半，且訓(xùn)練數(shù)據(jù)量大大少于已有方法。

PixelRefer能夠?qū)θ我饽繕?biāo)實(shí)現(xiàn)準(zhǔn)確語義理解以及時(shí)空物體區(qū)域理解。

論文標(biāo)題：
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
論文鏈接：
https://arxiv.org/abs/2510.23603
項(xiàng)目網(wǎng)站鏈接：
https://circleradon.github.io/PixelRefer/
代碼鏈接：
https://github.com/DAMO-NLP-SG/PixelRefer

先驗(yàn)分析：大模型“如何看懂區(qū)域”？

為了探索解決以上問題，作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計(jì)：將全局視覺token+像素級(jí)區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時(shí)，模型則退化成通用視覺理解任務(wù)，從而實(shí)現(xiàn)區(qū)域理解的同時(shí)，保留通用模型本身的通用理解能力。

作者對(duì)LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進(jìn)行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層，答案（Ans）優(yōu)先關(guān)注像素級(jí)區(qū)域token，其attention分?jǐn)?shù)一直很高，說明物體token表征對(duì)于模型的回答起到重要的作用。此外，全局圖像token（vision）則僅在淺層中（第一層）表現(xiàn)出較高的attention分布（Answer-to-image token attention），LLM的深層則表現(xiàn)較弱，甚至沒有影響，這個(gè)在通用視覺基礎(chǔ)模型研究中也被討論到。

淺層到深層的attention可視化

基于此分析，作者得出兩種設(shè)計(jì)方案：

高質(zhì)量像素級(jí)物體表征很重要：對(duì)于像素級(jí)區(qū)域的表達(dá)，語義豐富的區(qū)域表征直接決定像素級(jí)語義理解的質(zhì)量；
全局信息的冗余可以通過“預(yù)融合”優(yōu)化：在 LLM 深層階段，全局視覺標(biāo)記的作用顯著減弱，在深層階段反而變得冗余，說明其信息可提前注入對(duì)象標(biāo)記中，以大幅減少計(jì)算開銷。

方法設(shè)計(jì)

為此，作者針對(duì)像素級(jí)細(xì)粒度理解定義了兩種框架，Vision-Object Framework (a)與Object-Only Framework (b)：

PixelRefer（Vision-Object Framework）

對(duì)于PixelRefer，作者把全局視覺token+像素級(jí)區(qū)域token+文本token一起送入 LLM，既保留場景語境，又在對(duì)象級(jí)上精細(xì)推理。關(guān)鍵在于像素級(jí)區(qū)域表征token質(zhì)量足夠高。為此，作者提出尺度自適應(yīng)對(duì)象分詞器（Scale-Adaptive Object Tokenizer, SAOT）來生成精確、緊湊、語義豐富的對(duì)象表示。

SAOT 圍繞兩個(gè)設(shè)計(jì)：（i）小目標(biāo)容易在patch化后丟失細(xì)節(jié)；（ii）大目標(biāo)的特征冗余嚴(yán)重。

核心做法分三步：

動(dòng)態(tài)尺度處理（Dynamic Object Processing）。按像素級(jí)區(qū)域大小自適應(yīng)地放大小物體、縮小大物體，并進(jìn)行上下文擴(kuò)展（在目標(biāo)周圍留出一定背景），保證既不丟細(xì)節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級(jí)特征。
位置感知的掩碼特征抽取（Mask Feature + Relative Positional Encoding）。對(duì)區(qū)域內(nèi)的有效特征做掩碼并疊加相對(duì)坐標(biāo)投影，形成位置感知的對(duì)象token，為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴(kuò)展后的區(qū)域加入相對(duì)位置編碼來緩解對(duì)齊歧義，使對(duì)象token具備空間感知。
冗余聚合（Abundant Feature Aggregation）。對(duì)大/同質(zhì)區(qū)域里高度相似的token，采用k-means 聚類合并，只保留n 個(gè)代表性token，既壓縮冗余又保留多視角細(xì)節(jié)。這一步實(shí)證上顯著降低了對(duì)象內(nèi)部token的相似度，提高了表示“緊致度”。

PixelRefer-Lite (Object-Only Framework)

該變體僅使用對(duì)象標(biāo)記進(jìn)行 LLM 推理，借助對(duì)象中心信息融合模塊（Object-Centric Infusion Module, OCI）將全局特征在前處理階段融合入對(duì)象表示中。通過 Local-to-Object 和 Global-to-Object Attention，使目標(biāo)的表征同時(shí)具備細(xì)節(jié)感知與全局語義，從而實(shí)現(xiàn)更完整的上下文融合。這樣一來，推理階段無需再使用全局視覺標(biāo)記，顯著降低顯存與時(shí)間消耗，同時(shí)保持語義一致性與理解精度。

PixelRefer-Lite 實(shí)現(xiàn)了一個(gè)高效的推理框架，在保持高性能的同時(shí)將推理速度提升約 2–3 倍。

數(shù)據(jù)集

作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集，分別是Foundational Object Perception（140萬樣本）：涵蓋物體、部件、時(shí)序關(guān)系的識(shí)別與描述以及Visual Instruction Tuning（80萬樣本）：覆蓋區(qū)域QA、視頻QA、多對(duì)象關(guān)系與未來事件預(yù)測QA。

性能結(jié)果

對(duì)于圖像像素級(jí)細(xì)粒度理解benchmark

PixelRefer在多個(gè)圖像理解benchmark上已達(dá)到SOTA水平，不論是簡單的區(qū)域識(shí)別還是詳細(xì)理解，已成為最先進(jìn)的模型，特別是在reasoning場景下，更是展現(xiàn)出了突出優(yōu)勢。

對(duì)于視頻像素級(jí)細(xì)粒度理解benchmark

在經(jīng)典的VideoRefer-Bench上，不論是視頻區(qū)域的caption還是QA，均取得了領(lǐng)先性能，展現(xiàn)了通用而又全面的能力。

對(duì)于推理時(shí)間與效率的計(jì)算

在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進(jìn)行了測評(píng)，輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢，特別是在視頻上，相較于DAM-3B，推理時(shí)間縮短了約4倍，顯存占用減少了2倍。

消融實(shí)驗(yàn)：Scale-adaptive Object TokenizervsMaskPooling

相較于之前簡單maskpooling的做法，作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升，特別是在小目標(biāo)理解上，在LVIS和DLC-Bench上均提升了十幾個(gè)點(diǎn)。

消融實(shí)驗(yàn)：對(duì)于區(qū)域token的表征個(gè)數(shù)

研究意義與總結(jié)

PixelRefer的出現(xiàn)，標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動(dòng)態(tài)”，為多模態(tài)大模型的精細(xì)化視覺理解提供了新的方向。應(yīng)用前景包括：

自動(dòng)駕駛的時(shí)序場景識(shí)別
醫(yī)療影像的病灶級(jí)理解
智能視頻剪輯與監(jiān)控
多模態(tài)對(duì)話與人機(jī)交互

未來的多模態(tài)AI，不僅會(huì)“看見世界”，更會(huì)理解世界的關(guān)系。PixelRefer的提出，正是通向通用視覺智能的一塊關(guān)鍵拼圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.