国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

PixelRefer :讓AI從“看大圖”走向“看懂每個(gè)對(duì)象”

0
分享至



多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場(chǎng)景級(jí)理解。

而場(chǎng)景級(jí)理解 ≠ 視覺(jué)理解的終點(diǎn),現(xiàn)實(shí)任務(wù)(如自動(dòng)駕駛、機(jī)器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對(duì)象級(jí)(object-level)詳細(xì)理解

然而,當(dāng)下的研究工作,如英偉達(dá)的Describe Anything Model (DAM)局限于單個(gè)物體的描述,難以深入理解多對(duì)象屬性、交互關(guān)系及其時(shí)序演變,且犧牲了模型本身的通用理解能力。

針對(duì)這一問(wèn)題,浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個(gè)統(tǒng)一的時(shí)空像素級(jí)區(qū)域級(jí)理解框架,可實(shí)現(xiàn)任意粒度下的精細(xì)視覺(jué)指代與推理,在多項(xiàng)像素級(jí)細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時(shí)間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



PixelRefer能夠?qū)θ我饽繕?biāo)實(shí)現(xiàn)準(zhǔn)確語(yǔ)義理解以及時(shí)空物體區(qū)域理解。









  • 論文標(biāo)題:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 論文鏈接:
  • https://arxiv.org/abs/2510.23603
  • 項(xiàng)目網(wǎng)站鏈接:
  • https://circleradon.github.io/PixelRefer/
  • 代碼鏈接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先驗(yàn)分析:大模型“如何看懂區(qū)域”?

為了探索解決以上問(wèn)題,作者基于通用視覺(jué)基礎(chǔ)模型采用最直接的設(shè)計(jì):將全局視覺(jué)token+像素級(jí)區(qū)域token+文本token一起喂給 LLM。當(dāng)無(wú)物體指代區(qū)域時(shí),模型則退化成通用視覺(jué)理解任務(wù),從而實(shí)現(xiàn)區(qū)域理解的同時(shí),保留通用模型本身的通用理解能力。

作者對(duì)LLM內(nèi)從淺層到深層中分析視覺(jué)token、區(qū)域token以及其他類型token進(jìn)行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級(jí)區(qū)域token,其attention分?jǐn)?shù)一直很高,說(shuō)明物體token表征對(duì)于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒(méi)有影響,這個(gè)在通用視覺(jué)基礎(chǔ)模型研究中也被討論到。



淺層到深層的attention可視化

基于此分析,作者得出兩種設(shè)計(jì)方案:

  1. 高質(zhì)量像素級(jí)物體表征很重要:對(duì)于像素級(jí)區(qū)域的表達(dá),語(yǔ)義豐富的區(qū)域表征直接決定像素級(jí)語(yǔ)義理解的質(zhì)量;
  2. 全局信息的冗余可以通過(guò)“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺(jué)標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說(shuō)明其信息可提前注入對(duì)象標(biāo)記中,以大幅減少計(jì)算開(kāi)銷。

方法設(shè)計(jì)

為此,作者針對(duì)像素級(jí)細(xì)粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

對(duì)于PixelRefer,作者把全局視覺(jué)token+像素級(jí)區(qū)域token+文本token一起送入 LLM,既保留場(chǎng)景語(yǔ)境,又在對(duì)象級(jí)上精細(xì)推理。關(guān)鍵在于像素級(jí)區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對(duì)象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來(lái)生成精確、緊湊、語(yǔ)義豐富的對(duì)象表示。

SAOT 圍繞兩個(gè)設(shè)計(jì):(i)小目標(biāo)容易在patch化后丟失細(xì)節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重

核心做法分三步:

  1. 動(dòng)態(tài)尺度處理(Dynamic Object Processing)。按像素級(jí)區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進(jìn)行上下文擴(kuò)展(在目標(biāo)周圍留出一定背景),保證既不丟細(xì)節(jié)也不過(guò)度冗余。隨后通過(guò)共享視覺(jué)編碼器取到區(qū)域級(jí)特征。
  2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對(duì)區(qū)域內(nèi)的有效特征做掩碼并疊加相對(duì)坐標(biāo)投影,形成位置感知的對(duì)象token,為后續(xù)推理提供“這片語(yǔ)義在圖像哪里”的線索。作者還為被裁剪/擴(kuò)展后的區(qū)域加入相對(duì)位置編碼來(lái)緩解對(duì)齊歧義,使對(duì)象token具備空間感知。
  3. 冗余聚合(Abundant Feature Aggregation)。對(duì)大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個(gè)代表性token,既壓縮冗余又保留多視角細(xì)節(jié)。這一步實(shí)證上顯著降低了對(duì)象內(nèi)部token的相似度,提高了表示“緊致度”。




PixelRefer-Lite (Object-Only Framework)

該變體僅使用對(duì)象標(biāo)記進(jìn)行 LLM 推理,借助對(duì)象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對(duì)象表示中。通過(guò) Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時(shí)具備細(xì)節(jié)感知與全局語(yǔ)義,從而實(shí)現(xiàn)更完整的上下文融合。這樣一來(lái),推理階段無(wú)需再使用全局視覺(jué)標(biāo)記,顯著降低顯存與時(shí)間消耗,同時(shí)保持語(yǔ)義一致性與理解精度。



PixelRefer-Lite 實(shí)現(xiàn)了一個(gè)高效的推理框架,在保持高性能的同時(shí)將推理速度提升約 2–3 倍。

數(shù)據(jù)集

作者收集并開(kāi)源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬(wàn)樣本):涵蓋物體、部件、時(shí)序關(guān)系的識(shí)別與描述以及Visual Instruction Tuning(80萬(wàn)樣本):覆蓋區(qū)域QA、視頻QA、多對(duì)象關(guān)系與未來(lái)事件預(yù)測(cè)QA。



性能結(jié)果

  • 對(duì)于圖像像素級(jí)細(xì)粒度理解benchmark



PixelRefer在多個(gè)圖像理解benchmark上已達(dá)到SOTA水平,不論是簡(jiǎn)單的區(qū)域識(shí)別還是詳細(xì)理解,已成為最先進(jìn)的模型,特別是在reasoning場(chǎng)景下,更是展現(xiàn)出了突出優(yōu)勢(shì)。

  • 對(duì)于視頻像素級(jí)細(xì)粒度理解benchmark



在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

  • 對(duì)于推理時(shí)間與效率的計(jì)算



在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進(jìn)行了測(cè)評(píng),輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢(shì),特別是在視頻上,相較于DAM-3B,推理時(shí)間縮短了約4倍,顯存占用減少了2倍。

  • 消融實(shí)驗(yàn):Scale-adaptive Object TokenizervsMaskPooling



  • 相較于之前簡(jiǎn)單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個(gè)點(diǎn)。

  • 消融實(shí)驗(yàn):對(duì)于區(qū)域token的表征個(gè)數(shù)



研究意義與總結(jié)

PixelRefer的出現(xiàn),標(biāo)志著AI視覺(jué)理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動(dòng)態(tài)”,為多模態(tài)大模型的精細(xì)化視覺(jué)理解提供了新的方向。應(yīng)用前景包括:

  • 自動(dòng)駕駛的時(shí)序場(chǎng)景識(shí)別
  • 醫(yī)療影像的病灶級(jí)理解
  • 智能視頻剪輯與監(jiān)控
  • 多模態(tài)對(duì)話與人機(jī)交互

未來(lái)的多模態(tài)AI,不僅會(huì)“看見(jiàn)世界”,更會(huì)理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺(jué)智能的一塊關(guān)鍵拼圖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
7-3領(lǐng)先后連丟7局!世錦賽誕生最慘逆轉(zhuǎn),中國(guó)3人晉級(jí)創(chuàng)歷史

7-3領(lǐng)先后連丟7局!世錦賽誕生最慘逆轉(zhuǎn),中國(guó)3人晉級(jí)創(chuàng)歷史

劉哥談體育
2026-04-21 18:11:42
39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

攬星河的筆記
2026-04-14 15:18:30
伊朗表示同意暫停軍事戰(zhàn)斗 但戰(zhàn)爭(zhēng)仍未結(jié)束

伊朗表示同意暫停軍事戰(zhàn)斗 但戰(zhàn)爭(zhēng)仍未結(jié)束

每日經(jīng)濟(jì)新聞
2026-04-22 08:09:17
明明只是戲子,卻把自己當(dāng)大腕,論“耍大牌”,這5位明星夠丟人

明明只是戲子,卻把自己當(dāng)大腕,論“耍大牌”,這5位明星夠丟人

笑談歷史阿晡
2026-04-22 07:12:10
囂張!拼多多竟把執(zhí)法人員手指夾骨折。網(wǎng)友調(diào)侃:“砍一刀”不是白叫的,15 億罰輕了

囂張!拼多多竟把執(zhí)法人員手指夾骨折。網(wǎng)友調(diào)侃:“砍一刀”不是白叫的,15 億罰輕了

新浪財(cái)經(jīng)
2026-04-20 07:43:33
公牛官方:多諾萬(wàn)正式卸任球隊(duì)主教練;執(zhí)教6年僅打進(jìn)1次季后賽

公牛官方:多諾萬(wàn)正式卸任球隊(duì)主教練;執(zhí)教6年僅打進(jìn)1次季后賽

懂球帝
2026-04-21 22:55:08
英超第33輪再成阿森納夢(mèng)魘,這一次“絕唱”會(huì)屬于阿爾特塔嗎?

英超第33輪再成阿森納夢(mèng)魘,這一次“絕唱”會(huì)屬于阿爾特塔嗎?

英超德甲才瘋狂
2026-04-21 06:47:50
“機(jī)器人不會(huì)流血”:烏克蘭派“地面機(jī)器人”上戰(zhàn)場(chǎng),已執(zhí)行超3萬(wàn)次任務(wù)

“機(jī)器人不會(huì)流血”:烏克蘭派“地面機(jī)器人”上戰(zhàn)場(chǎng),已執(zhí)行超3萬(wàn)次任務(wù)

上觀新聞
2026-04-21 19:01:03
NBL歷史首次3連冠!香港金牛3-0橫掃上海玄鳥(niǎo) 成沖CBA大熱

NBL歷史首次3連冠!香港金牛3-0橫掃上海玄鳥(niǎo) 成沖CBA大熱

醉臥浮生
2026-04-21 21:03:58
日媒,外交部歐洲司發(fā)聲!現(xiàn)在的樊振東,完全證實(shí)劉國(guó)梁當(dāng)初的話

日媒,外交部歐洲司發(fā)聲!現(xiàn)在的樊振東,完全證實(shí)劉國(guó)梁當(dāng)初的話

草莓信箱
2026-04-22 08:33:55
俄羅斯與朝鮮慶祝第一座公路大橋的合并

俄羅斯與朝鮮慶祝第一座公路大橋的合并

桂系007
2026-04-21 21:46:32
56歲阿姨洗完頭后頭疼,隔天一早離世,醫(yī)生嘆息:忽視了三件事啊

56歲阿姨洗完頭后頭疼,隔天一早離世,醫(yī)生嘆息:忽視了三件事啊

芹姐說(shuō)生活
2026-04-22 09:08:49
特朗普再次威脅古巴,古巴真的不慌嗎?

特朗普再次威脅古巴,古巴真的不慌嗎?

木蟲(chóng)
2026-04-22 09:05:09
3年前就戳穿西貝預(yù)制菜沒(méi)人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

3年前就戳穿西貝預(yù)制菜沒(méi)人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

馬蹄燙嘴說(shuō)美食
2026-04-15 18:29:48
俄軍總參謀長(zhǎng)稱已完全控制盧甘斯克地區(qū)

俄軍總參謀長(zhǎng)稱已完全控制盧甘斯克地區(qū)

財(cái)聯(lián)社
2026-04-21 17:16:23
大快人心!殘疾老兵借廁所被拒后續(xù):保安被開(kāi)除 相關(guān)領(lǐng)導(dǎo)被追責(zé)

大快人心!殘疾老兵借廁所被拒后續(xù):保安被開(kāi)除 相關(guān)領(lǐng)導(dǎo)被追責(zé)

小鋭?dòng)性捳f(shuō)
2026-04-21 23:27:45
肝脂降低20%!復(fù)旦研究:這樣吃,僅需三個(gè)月,超8成人脂肪肝好轉(zhuǎn)

肝脂降低20%!復(fù)旦研究:這樣吃,僅需三個(gè)月,超8成人脂肪肝好轉(zhuǎn)

思思夜話
2026-04-21 11:18:45
放棄托納利!曼聯(lián)押寶意甲豪門棄將,他被贊“歐洲最佳中場(chǎng)之一”

放棄托納利!曼聯(lián)押寶意甲豪門棄將,他被贊“歐洲最佳中場(chǎng)之一”

瀾歸序
2026-04-22 05:38:04
沉默3天后,中方致電,親華硬漢敗給兩個(gè)字,接班人首道難關(guān)出現(xiàn)

沉默3天后,中方致電,親華硬漢敗給兩個(gè)字,接班人首道難關(guān)出現(xiàn)

諦聽(tīng)骨語(yǔ)本尊
2026-04-21 16:09:03
這一次,馬頔徹底觸碰了觀眾的底線,口碑翻車真不冤

這一次,馬頔徹底觸碰了觀眾的底線,口碑翻車真不冤

杰哥娛天下
2026-04-20 23:07:05
2026-04-22 09:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12822文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!ChatGPT Images 2.0發(fā)布

頭條要聞

牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

頭條要聞

牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂(lè)要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬(wàn)-50.8萬(wàn)元

態(tài)度原創(chuàng)

教育
游戲
手機(jī)
健康
公開(kāi)課

教育要聞

英國(guó)留學(xué)生人數(shù)暴跌31%,到底發(fā)生了什么?

突發(fā)!微軟官宣XGP大幅降價(jià) COD不再首發(fā)訂閱

手機(jī)要聞

摩托羅拉Razr 2026(Razr 70)折疊手機(jī)4月29日美國(guó)發(fā)布

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版