国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

精準識別界門綱目科屬種!北大彭宇新團隊用細粒度樹先驗提升泛化

0
分享至

MIPL團隊 投稿
量子位 | 公眾號 QbitAI

一張藍錐嘴雀的圖片,你能認出它是“鳥”,但能認出它是“鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀”嗎?

像大多數(shù)人一樣,現(xiàn)在的多模態(tài)大模型也認不出來。



真實世界中的對象通常包含極其豐富的類別層次,形成類別樹結(jié)構(gòu)。比如藍錐嘴雀是:動物界-脊索動物門-鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀(界-門-綱-目-科-屬-種)。

區(qū)別于傳統(tǒng)的細粒度視覺識別,分層視覺識別旨在預(yù)測所屬的所有類別層次,而不僅僅預(yù)測最終的細粒度類別。盡管現(xiàn)有Finedefics、Fine-R1等生成式大模型在細粒度視覺識別任務(wù)上表現(xiàn)出色,但由于缺乏類別樹知識,無法從粗到細實現(xiàn)每一層的精準識別。

同時,采用分層類別標簽對比學習得到的判別式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空間已能充分編碼類別樹中的類間關(guān)系與類內(nèi)關(guān)系?;谏鲜霭l(fā)現(xiàn),本文利用判別式大模型的表征指導生成式大模型的學習,為多模態(tài)大模型學習類別樹提供了新路徑。



本文是北京大學彭宇新教授團隊在細粒度多模態(tài)大模型領(lǐng)域的最新研究成果,相關(guān)論文已被CVPR 2026接收,并已開源

背景

盡管現(xiàn)有多模態(tài)大模型在細粒度視覺識別上的準確率取得明顯提升,但在依賴類別樹知識的分層視覺識別任務(wù)上,仍無法從粗到細實現(xiàn)每一層的精準識別。具體地,存在如下3點挑戰(zhàn):

1. 同層判別性差:對于更粗粒度的類別層次,“類內(nèi)差異大”更加突出,模型傾向于學習類別共性;對于更細粒度的類別層次,“類間差異小”更加突出,模型傾向于學習類別差異。兩者的矛盾導致模型難以從粗到細區(qū)分每一層的相似類別。

2. 跨層一致性差:由于模型缺乏類別樹知識,難以保證任意相鄰層次的預(yù)測類別滿足父子節(jié)點關(guān)系。例如,預(yù)測結(jié)果為“鸚鵡目-裸鼻雀科”,但兩者不滿足父子節(jié)點關(guān)系,“裸鼻雀科”應(yīng)該屬于“雀形目”。

3. 新類泛化性差:現(xiàn)有模型傾向于挖掘不同細粒度子類別的差異,忽略了對其共性的總結(jié)(用于識別其父節(jié)點的辨識性特征),難以準確識別從未見過的新類別。



△圖1. 研究背景

針對上述問題,北京大學彭宇新教授團隊提出了分類感知表征對齊方法(Taxonomy-Aware Representation Alignment,TARA),用于將類別樹結(jié)構(gòu)知識注入多模態(tài)大模型。通過將大模型與生物基礎(chǔ)模型的視覺表征對齊,促進大模型提取具備完整類別樹結(jié)構(gòu)的視覺表征。同時,通過將大模型輸出答案的首個詞元表征與經(jīng)生物基礎(chǔ)模型編碼后的真實類別表征對齊,促進大模型根據(jù)指定的層次,將具備完整類別樹結(jié)構(gòu)的視覺表征映射為對應(yīng)層次的類別名稱。

實驗結(jié)果表明,本方法不僅能增強現(xiàn)有大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

技術(shù)方案

為向多模態(tài)大模型注入類別樹結(jié)構(gòu)知識,本文提出了分類感知表征對齊方法TARA。如圖2所示,TARA包含2個主要部分:

1. 分層視覺表征對齊:通過將大模型中間層與生物基礎(chǔ)模型最后一層的視覺表征對齊,促進大模型提取具備完整類別樹結(jié)構(gòu)的視覺表征。

2. 自由粒度類別表征對齊:通過將大模型輸出答案的首個詞元表征與經(jīng)生物基礎(chǔ)模型編碼后的真實類別表征對齊,促進大模型根據(jù)指定的層次,將具備完整類別樹結(jié)構(gòu)的視覺表征映射為對應(yīng)層次的類別名稱。

具體如下:



△圖2. 分類感知表征對齊方法(TARA)框架圖

1. 分層視覺表征對齊。

經(jīng)分層類別標簽訓練的生物基礎(chǔ)模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分類學信息的監(jiān)督信號,促進大模型提取具備完整類別樹結(jié)構(gòu)的視覺表征。具體地,給定輸入圖像I和識別特定層次類別的問題q(例如,“圖中動物屬于什么門/綱/目/科/屬/種?從如下選項中選擇:[真實類別,相似類別1,相似類別2,相似類別3]”),生物基礎(chǔ)模型的視覺編碼器εv(·)輸出目標視覺特征img=εv(I)∈RN×d,其中d表示生物基礎(chǔ)模型的特征維度。大語言模型第?層的視覺表征表示為?img∈RN×D,采用可學習的映射層PV(·)將其映射到生物基礎(chǔ)模型的視覺特征空間,并最小化如下對齊損失:



2. 自由粒度類別表征對齊。

一張圖像同時對應(yīng)不同層次的類別標簽,但用戶期望識別的類別層次是不同的。例如,專家可能希望在“種”層次上將對象識別為阿卡迪亞霸鹟,而普通用戶只需要在“綱”層次上將其識別為鳥。通過在同一層次上對齊生物基礎(chǔ)模型和大模型的類別文本表征,促進大模型將具備完整類別樹結(jié)構(gòu)的視覺表征映射為對應(yīng)層次的類別名稱。具體地,生物基礎(chǔ)模型的文本編碼器ET(·)輸出目標文本特征ylabel=ET(C)∈Rd,其中C表示在期望層次上的真實類別名稱。大語言模型第m層的答案表征序列表示為emanswer∈RN′×D,采用可學習的映射層PT(·)將答案的首個詞元表征映射到生物基礎(chǔ)模型的文本特征空間,并最小化如下對齊損失:



最終,TARA的對齊損失定義為兩者的均值:

3. 模型訓練和推理:

在訓練階段,采用無需思考的強化微調(diào)(No Thinking RFT)和TARA交替優(yōu)化大模型、映射層PV(·)與PT(·),促進大模型適配分層視覺識別指令的同時學習類別樹知識。在推理階段,生物基礎(chǔ)模型和映射層PV(·)與PT(·)均不參與運算,直接由優(yōu)化后的大模型進行識別。

實驗結(jié)果



△表1. iNaturalist-Plant與iNaturalist-Animal分層視覺識別結(jié)果

表1展示了在iNaturalist-Plant與iNaturalist-Animal上的分層視覺識別結(jié)果。本方法不僅能增強多種大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。



△表2. TerraIncognita的新類別(已有類別樹之外的類別)分層視覺識別結(jié)果

表2展示了在TerraIncognita的新類別(已有類別樹之外的類別)的分層視覺識別結(jié)果。這部分新類別不僅是模型強化微調(diào)訓練集中未見類別,更是稀有或記錄極少的物種圖像,在公開數(shù)據(jù)中幾乎沒有或完全沒有可用樣本,更不可能出現(xiàn)在模型的預(yù)訓練數(shù)據(jù)中。

對于其中許多樣本,很可能是科學界尚未正式描述的新物種,目前只能可靠地確定其較高層次的分類標簽(如“目”和“科”)。本方法通過引入類別樹先驗,促進模型學習子類別的共性,從而總結(jié)出用于識別父類別的判別性特征,提升已知類別樹之外的新類別的識別準確率。



△圖3. 分類感知表征對齊方法(TARA)案例展示

圖3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同層判別性與跨層一致性,既區(qū)分開同一層的相似類別,又確保相鄰層次的預(yù)測類別滿足父子節(jié)點關(guān)系。

項目價值

針對現(xiàn)有多模態(tài)大模型缺乏類別樹知識,無法從粗到細實現(xiàn)每一層的精準識別的問題,本文提出了分類感知表征對齊方法TARA,通過對齊大模型與生物基礎(chǔ)模型的中間表征,注入類別樹結(jié)構(gòu)知識,不僅能提升最終的細粒度類別的識別準確率,還能增強大模型的分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

論文標題:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
論文鏈接:
https://arxiv.org/abs/2603.00431
開源代碼:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
實驗室網(wǎng)址:
https://www.wict.pku.edu.cn/mipl

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
滑天下之大稽!伊朗核心軍工樓被炸,機密滿天飛,竟開槍堵民眾嘴

滑天下之大稽!伊朗核心軍工樓被炸,機密滿天飛,竟開槍堵民眾嘴

老馬拉車莫少裝
2026-03-25 19:50:37
河南00后游戲主播因手長得像“奶龍”卻打出五殺戰(zhàn)績火了,本人回應(yīng):是天生殘疾,一開始很自卑

河南00后游戲主播因手長得像“奶龍”卻打出五殺戰(zhàn)績火了,本人回應(yīng):是天生殘疾,一開始很自卑

大象新聞
2026-03-25 19:45:06
劉濤這身材也太絕了!完美曲線盡顯成熟魅力,誰看了不心動

劉濤這身材也太絕了!完美曲線盡顯成熟魅力,誰看了不心動

東方不敗然多多
2026-03-26 01:18:01
伊朗發(fā)動“真實承諾-4”第80輪行動,多枚導彈直逼美以核心目標

伊朗發(fā)動“真實承諾-4”第80輪行動,多枚導彈直逼美以核心目標

國際大表妹
2026-03-26 00:05:03
網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

眼光很亮
2026-03-23 16:29:14
C羅兒子要加盟皇馬?15歲迷你羅試訓皇馬,C羅的7號后繼有人

C羅兒子要加盟皇馬?15歲迷你羅試訓皇馬,C羅的7號后繼有人

仰臥撐FTUer
2026-03-25 23:05:29
洛克希德·馬丁:將精確打擊導彈產(chǎn)量提升四倍

洛克希德·馬丁:將精確打擊導彈產(chǎn)量提升四倍

財聯(lián)社
2026-03-25 19:18:36
日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

介知
2026-03-24 23:19:18
《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

影視高原說
2026-03-24 19:32:39
800萬粉網(wǎng)紅挖機小何徹底涼涼?挖機遭廠家回收,流量密碼沒了

800萬粉網(wǎng)紅挖機小何徹底涼涼?挖機遭廠家回收,流量密碼沒了

雷科技
2026-03-24 14:32:17
河南街頭用頭撞車事件,警方回應(yīng)后續(xù)來了!評論區(qū)徹底炸鍋

河南街頭用頭撞車事件,警方回應(yīng)后續(xù)來了!評論區(qū)徹底炸鍋

奇思妙想草葉君
2026-03-25 13:12:39
微信突然放大招!正式接入龍蝦,12億用戶聊天框變?nèi)詣覣I控制臺

微信突然放大招!正式接入龍蝦,12億用戶聊天框變?nèi)詣覣I控制臺

老特有話說
2026-03-23 15:16:09
浙江一男子做飯割傷手,去醫(yī)院途中多次暈血倒地:想著走到人多的地方暈了會有人來救

浙江一男子做飯割傷手,去醫(yī)院途中多次暈血倒地:想著走到人多的地方暈了會有人來救

大象新聞
2026-03-25 22:45:07
人不會無緣無故患心源性猝死!研究發(fā)現(xiàn):猝死的人,多半愛干3事

人不會無緣無故患心源性猝死!研究發(fā)現(xiàn):猝死的人,多半愛干3事

垚垚分享健康
2026-03-25 13:25:46
張雪峰最后露面照曝光!大小眼大小臉嚴重,愛女再過三個月滿11歲

張雪峰最后露面照曝光!大小眼大小臉嚴重,愛女再過三個月滿11歲

樂悠悠娛樂
2026-03-25 10:16:37
“一輩子都寫不出的頂級金句,落筆即封神!”

“一輩子都寫不出的頂級金句,落筆即封神!”

心靈悅讀
2026-03-12 06:43:18
丹麥首相向國王遞交辭呈

丹麥首相向國王遞交辭呈

財聯(lián)社
2026-03-25 17:56:05
港圈傳奇落幕,79歲鄭少秋生日當天宣布退休

港圈傳奇落幕,79歲鄭少秋生日當天宣布退休

大象新聞
2026-03-25 20:09:04
女兒高考當天,我撞見婆婆往她湯里下藥,我偷偷換給了高考的侄子

女兒高考當天,我撞見婆婆往她湯里下藥,我偷偷換給了高考的侄子

魚語昱雨軒
2026-03-25 14:03:47
伊朗導彈庫存打了近一個月,中國呢?俄羅斯專家:能直接鎖定戰(zhàn)權(quán)

伊朗導彈庫存打了近一個月,中國呢?俄羅斯專家:能直接鎖定戰(zhàn)權(quán)

阿坹武器裝備科普
2026-03-26 00:23:02
2026-03-26 01:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12344文章數(shù) 176424關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

本地
藝術(shù)
游戲
房產(chǎn)
公開課

本地新聞

來永泰同安 赴一場春天的約會

藝術(shù)要聞

張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

PS6升級動力遭質(zhì)疑!玩家或當“PS5釘子戶”

房產(chǎn)要聞

41億!259畝!建學校…三亞這個大城更,最新方案曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版