国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

TPAMI 2025 | 中國(guó)科大提出UniSOT:統(tǒng)一多模態(tài)單目標(biāo)跟蹤新范式,性能顯著提升

0
分享至

文章來源:我愛計(jì)算機(jī)視覺(ID:aicvml)

今天,CV君想和大家分享一篇來自中國(guó)科學(xué)技術(shù)大學(xué)和Sangfor Research Institute的最新研究,這篇論文已被 TPAMI 接收,提出了一種名為 UniSOT 的統(tǒng)一框架,旨在解決多模態(tài)單目標(biāo)跟蹤(Single Object Tracking, SOT)領(lǐng)域的長(zhǎng)期挑戰(zhàn)。 UniSOT 這個(gè)名字,顧名思義,就是“Unified Single Object Tracking”的縮寫,它代表著一種全新的、能夠同時(shí)處理多種參考模態(tài)和視頻模態(tài)的統(tǒng)一跟蹤器。



  • 論文標(biāo)題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking

  • 論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)

  • 作者機(jī)構(gòu) : 中國(guó)科學(xué)技術(shù)大學(xué);Sangfor Research Institute

  • 論文地址 : https://arxiv.org/abs/2511.01427

  • 錄用信息 : 該論文已被 TPAMI 接收

研究背景與動(dòng)機(jī)

在單目標(biāo)跟蹤任務(wù)中,我們通常需要根據(jù)給定的參考信息來追蹤視頻序列中的特定目標(biāo)。隨著應(yīng)用場(chǎng)景的日益復(fù)雜,對(duì)跟蹤器的要求也越來越高。一方面,用戶可能通過不同的方式來指定目標(biāo),例如直接給出目標(biāo)的邊界框(BBOX),或者用自然語言(NL)描述目標(biāo),甚至兩者結(jié)合(NL+BBOX)。另一方面,視頻數(shù)據(jù)本身也變得多樣化,除了常見的RGB圖像,還可能包含深度信息(RGB+Depth)、熱成像信息(RGB+Thermal)或者事件流信息(RGB+Event),這些輔助模態(tài)在光照不足、遮擋等復(fù)雜環(huán)境下能顯著提升跟蹤的魯棒性。

然而,目前大多數(shù)現(xiàn)有的跟蹤器都是為特定的參考模態(tài)或視頻模態(tài)設(shè)計(jì)的。這意味著,如果我們要處理不同類型的輸入或不同模態(tài)的視頻,就需要開發(fā)或部署多個(gè)獨(dú)立的模型,這無疑增加了開發(fā)和部署的復(fù)雜性。


圖1. 現(xiàn)有解決方案與UniSOT的對(duì)比。傳統(tǒng)跟蹤器通常針對(duì)特定模態(tài)定制,而UniSOT旨在提供一個(gè)統(tǒng)一的框架。

作者認(rèn)為,設(shè)計(jì)這樣一個(gè)統(tǒng)一的跟蹤器主要面臨兩大挑戰(zhàn):

  1. 如何為多樣的參考模態(tài)設(shè)計(jì)一個(gè)統(tǒng)一的跟蹤模型? 不同參考模態(tài)(視覺框和自然語言)之間存在巨大的語義鴻溝,這給特征提取器的一致性學(xué)習(xí)和預(yù)測(cè)頭(Box Head)的穩(wěn)定目標(biāo)定位帶來了困難。

  2. 如何為多樣的視頻模態(tài)設(shè)計(jì)一個(gè)統(tǒng)一的訓(xùn)練策略? 不同的輔助視頻模態(tài)(深度、熱成像、事件流)包含的信息量和特性各不相同,如何設(shè)計(jì)一個(gè)統(tǒng)一的微調(diào)機(jī)制,既能學(xué)習(xí)到跨視頻模態(tài)的對(duì)齊特征,又能保留各自模態(tài)的特有線索,是一個(gè)難題。

為了解決上述問題,研究人員提出了 UniSOT 框架。

UniSOT 的核心技術(shù)原理

UniSOT 的核心思想是構(gòu)建一個(gè)統(tǒng)一的跟蹤器,能夠以統(tǒng)一的參數(shù)同時(shí)處理三種參考模態(tài)和四種視頻模態(tài)。它主要由兩個(gè)核心設(shè)計(jì)構(gòu)成:一個(gè)是針對(duì)參考模態(tài)統(tǒng)一的設(shè)計(jì),另一個(gè)是針對(duì)視頻模態(tài)統(tǒng)一的設(shè)計(jì)。


UniSOT 整體框架圖

針對(duì)參考模態(tài)的統(tǒng)一設(shè)計(jì)

為了統(tǒng)一處理不同的參考模態(tài),UniSOT 設(shè)計(jì)了一個(gè) 參考通用的特征提取器(Reference-Generalized Feature Extractor) 和一個(gè) 參考自適應(yīng)的預(yù)測(cè)頭(Reference-Adaptive Box Head, RABH)

1. 參考通用的特征提取器

這個(gè)特征提取器基于Transformer構(gòu)建,巧妙地解決了多模態(tài)特征學(xué)習(xí)、融合與對(duì)齊的問題。


統(tǒng)一跟蹤框架示意圖

  • 分層特征提取與融合 :它包含N個(gè)淺層Encoder和M個(gè)深層Encoder。在淺層,視覺(圖像)和語言特征被分開獨(dú)立提取,避免了在低層次特征建模時(shí)產(chǎn)生混淆;在深層,兩者才進(jìn)行融合,以實(shí)現(xiàn)高層語義的交互。

  • 任務(wù)導(dǎo)向的多頭注意力(TMHA) :為了在聯(lián)合訓(xùn)練時(shí)兼容不同的參考輸入(比如有時(shí)只有BBOX,沒有NL), UniSOT 引入了注意力掩碼機(jī)制,屏蔽掉那些與當(dāng)前任務(wù)無關(guān)的特征交互。

  • 多模態(tài)對(duì)比損失(MMCLoss) :為了解決視覺和語言之間的語義鴻溝,作者設(shè)計(jì)了一個(gè)目標(biāo)級(jí)別的對(duì)比損失。它通過拉近不同參考模態(tài)(視覺/語言)的語義Token與搜索區(qū)域中目標(biāo)特征的相似度,同時(shí)推遠(yuǎn)與背景(特別是硬背景,即干擾物)特征的相似度,從而將視覺和語言特征對(duì)齊到統(tǒng)一的語義空間,并增強(qiáng)了參考特征的判別力。

多模態(tài)對(duì)比損失(MMCLoss)示意圖

2. 參考自適應(yīng)的預(yù)測(cè)頭(RABH)

傳統(tǒng)的預(yù)測(cè)頭對(duì)于不同的參考模態(tài)輸入,處理方式是固定的,這可能導(dǎo)致定位結(jié)果不穩(wěn)定。為此,RABH 被設(shè)計(jì)成一個(gè)動(dòng)態(tài)的頭部,它能根據(jù)不同的參考信息,自適應(yīng)地從視頻上下文中挖掘場(chǎng)景特征來輔助定位。


參考自適應(yīng)預(yù)測(cè)頭(RABH)示意圖

其核心是一個(gè)新穎的 基于分布的交叉注意力機(jī)制。該機(jī)制能夠從歷史幀(上下文)中自適應(yīng)地挖掘出 目標(biāo)(Target)、干擾物(Distractor)背景(Background) 三種特征。具體來說,它首先計(jì)算參考模態(tài)的語義Token與歷史幀中所有Patch的相似度,然后根據(jù)一個(gè)預(yù)設(shè)的閾值 β,將與目標(biāo)外觀相似但非目標(biāo)的Patch識(shí)別為“干擾物”,其余的則為“背景”。這樣,通過對(duì)比學(xué)習(xí)的方式,利用動(dòng)態(tài)更新的目標(biāo)、干擾物和背景原型來進(jìn)行目標(biāo)定位,大大提升了在復(fù)雜場(chǎng)景下的穩(wěn)定性和魯棒性。

針對(duì)視頻模態(tài)的統(tǒng)一設(shè)計(jì)

在完成了對(duì)RGB序列上不同參考模態(tài)的統(tǒng)一后,UniSOT 進(jìn)入第二訓(xùn)練階段,以統(tǒng)一處理多種視頻模態(tài)(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自適應(yīng)模態(tài)適配(Rank-Adaptive Modality Adaptation, RAMA) 機(jī)制。


輔助模態(tài)調(diào)整塊(AMTB)示意圖

RAMA 的設(shè)計(jì)靈感來源于AdaLoRA,它通過在預(yù)訓(xùn)練好的模型中注入增量權(quán)重(? = PΛQ)的方式來適配新的視頻模態(tài),而不是微調(diào)整個(gè)模型。

  • 參數(shù)共享與模態(tài)對(duì)齊 :所有輔助模態(tài)共享正交矩陣P和Q,這有助于學(xué)習(xí)跨視頻模態(tài)的對(duì)齊特征。

  • 秩自適應(yīng)與模態(tài)特定 :每個(gè)輔助模態(tài)擁有自己獨(dú)立的奇異值矩陣Λ(即ΛD, ΛT, ΛE),并通過一個(gè)重要性評(píng)估函數(shù)來動(dòng)態(tài)地為不同層、不同模塊、不同模態(tài)的增量參數(shù)分配不同的秩(rank)。這意味著模型可以自動(dòng)判斷每個(gè)模態(tài)需要多少“特定信息”,為信息量大的模態(tài)分配更高的秩,為信息量少的模態(tài)分配較低的秩,從而在學(xué)習(xí)模態(tài)共性特征的同時(shí),保留了模態(tài)的個(gè)性特征,并有效防止了過擬合。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)在 18 個(gè)基準(zhǔn)上對(duì) UniSOT 進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估,結(jié)果表明其性能顯著優(yōu)于那些為特定模態(tài)設(shè)計(jì)的現(xiàn)有方法。

參考模態(tài)統(tǒng)一的有效性

  • TNL2K 數(shù)據(jù)集上, UniSOT 在BBOX、NL、NL+BBOX三種參考模態(tài)下的AUC性能均超過了現(xiàn)有方法 3.0% 以上。

  • 消融實(shí)驗(yàn)(表10)證明,MMCLoss和RABH兩個(gè)模塊都帶來了顯著的性能提升。例如,在NL參考下,MMCLoss帶來了2.3%的AUC提升,RABH帶來了2.0%的AUC提升。

UniSOT中不同組件的消融實(shí)驗(yàn)

視頻模態(tài)統(tǒng)一的有效性

  • RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務(wù)上, UniSOT 的主要指標(biāo)比之前的統(tǒng)一模型 Un-Track 提升了 2.0% 以上。

  • 例如,在RGBT234數(shù)據(jù)集上, UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。

與SOTA RGBD跟蹤器的比較


與SOTA RGBT跟蹤器的比較


與SOTA RGBE跟蹤器的比較

可視化分析

可視化結(jié)果也直觀地證明了 UniSOT 的有效性。例如,RABH能夠更穩(wěn)定地定位目標(biāo),有效抑制干擾物;MMCLoss使得視覺和語言語義Token的響應(yīng)圖更加一致且具有判別力。


目標(biāo)定位結(jié)果可視化顯示


不同參考模態(tài)下的跟蹤結(jié)果可視化


不同輔助模態(tài)下的跟蹤結(jié)果可視化

總結(jié)與展望

UniSOT 的提出,無疑為多模態(tài)單目標(biāo)跟蹤領(lǐng)域帶來了新的思路。它通過一系列精巧的設(shè)計(jì),首次實(shí)現(xiàn)了一個(gè)能夠以統(tǒng)一參數(shù)處理多種參考模態(tài)和視頻模態(tài)的跟蹤器,極大地提升了跟蹤器的實(shí)用性和泛化能力。CV君覺得,這種統(tǒng)一化的設(shè)計(jì)理念,不僅簡(jiǎn)化了模型部署,也為未來更復(fù)雜的跨模態(tài)感知任務(wù)提供了寶貴的經(jīng)驗(yàn)。

你覺得這個(gè)技術(shù)未來會(huì)用在哪些場(chǎng)景?一起來聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

顏小白的籃球夢(mèng)
2025-12-24 09:33:21
多地已開啟2026年國(guó)補(bǔ)推進(jìn)工作

多地已開啟2026年國(guó)補(bǔ)推進(jìn)工作

第一財(cái)經(jīng)資訊
2025-12-24 09:26:54
朱厚照在位十六年,為何沒子嗣?答:后宮雖多,但架不住他亂折騰

朱厚照在位十六年,為何沒子嗣?答:后宮雖多,但架不住他亂折騰

鶴羽說個(gè)事
2025-12-23 11:09:21
塞門約通知曼聯(lián)首選轉(zhuǎn)會(huì)曼城!決定原因曝光,阿莫林承諾無濟(jì)于事

塞門約通知曼聯(lián)首選轉(zhuǎn)會(huì)曼城!決定原因曝光,阿莫林承諾無濟(jì)于事

羅米的曼聯(lián)博客
2025-12-24 09:51:47
放棄爭(zhēng)奪數(shù)百億遺產(chǎn),帶著女兒遠(yuǎn)遁美國(guó),如今才知道她有多清醒

放棄爭(zhēng)奪數(shù)百億遺產(chǎn),帶著女兒遠(yuǎn)遁美國(guó),如今才知道她有多清醒

夢(mèng)史
2025-12-16 11:07:49
出現(xiàn)這種情況,黃金才會(huì)下跌

出現(xiàn)這種情況,黃金才會(huì)下跌

柏年說政經(jīng)
2025-12-23 18:00:03
庫(kù)里:我對(duì)圣誕大戰(zhàn)沒什么特別回憶,因?yàn)槲覜]打出過好的表現(xiàn)

庫(kù)里:我對(duì)圣誕大戰(zhàn)沒什么特別回憶,因?yàn)槲覜]打出過好的表現(xiàn)

懂球帝
2025-12-24 11:25:35
24GB+1TB!新機(jī)曝光:搭載驍龍8 Gen5+2億潛望長(zhǎng)焦!

24GB+1TB!新機(jī)曝光:搭載驍龍8 Gen5+2億潛望長(zhǎng)焦!

科技堡壘
2025-12-23 11:31:08
軍隊(duì)再?gòu)?qiáng)大,經(jīng)濟(jì)再富足,武器再尖端,沒有偉大領(lǐng)袖,全都白瞎

軍隊(duì)再?gòu)?qiáng)大,經(jīng)濟(jì)再富足,武器再尖端,沒有偉大領(lǐng)袖,全都白瞎

南權(quán)先生
2025-12-23 16:58:45
男兒護(hù)國(guó)著征袍:烏綠衣主教葉爾馬克血戰(zhàn)沙場(chǎng),俄塔曼港遭重創(chuàng)

男兒護(hù)國(guó)著征袍:烏綠衣主教葉爾馬克血戰(zhàn)沙場(chǎng),俄塔曼港遭重創(chuàng)

史政先鋒
2025-12-23 14:41:27
上千元碳板鞋引爭(zhēng)議,泰蘭尼斯“半掌碳板”真的可以護(hù)足?醫(yī)生:兒童不建議穿

上千元碳板鞋引爭(zhēng)議,泰蘭尼斯“半掌碳板”真的可以護(hù)足?醫(yī)生:兒童不建議穿

極目新聞
2025-12-23 21:48:18
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
全球第三美!確實(shí)實(shí)至名歸!

全球第三美!確實(shí)實(shí)至名歸!

伊人河畔
2025-12-23 21:16:34
新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國(guó)會(huì)幫泰國(guó)挖運(yùn)河

新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國(guó)會(huì)幫泰國(guó)挖運(yùn)河

小莜讀史
2025-12-23 18:28:28
利比亞軍事領(lǐng)導(dǎo)人在土耳其墜機(jī)身亡

利比亞軍事領(lǐng)導(dǎo)人在土耳其墜機(jī)身亡

財(cái)聯(lián)社
2025-12-24 04:30:13
前萬科集團(tuán)的副總稱,不建議購(gòu)買2018年以后建的房子,質(zhì)量不好

前萬科集團(tuán)的副總稱,不建議購(gòu)買2018年以后建的房子,質(zhì)量不好

我心縱橫天地間
2025-12-22 20:19:01
深圳16歲“烤雞少年”回應(yīng)喜提邁巴赫

深圳16歲“烤雞少年”回應(yīng)喜提邁巴赫

大象新聞
2025-12-23 18:05:04
鄭麗文:在臺(tái)灣講“我是中國(guó)人”何來原罪

鄭麗文:在臺(tái)灣講“我是中國(guó)人”何來原罪

揚(yáng)子晚報(bào)
2025-12-23 20:27:17
全國(guó)最年輕的女縣委書記張琪同志簡(jiǎn)歷

全國(guó)最年輕的女縣委書記張琪同志簡(jiǎn)歷

燕小姐說歷史
2025-01-22 08:51:23
俄大使:邀請(qǐng)中國(guó)民眾來俄羅斯領(lǐng)略美景

俄大使:邀請(qǐng)中國(guó)民眾來俄羅斯領(lǐng)略美景

參考消息
2025-12-23 21:49:38
2025-12-24 11:40:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64598關(guān)注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時(shí)

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
家居
健康
軍事航空

數(shù)碼要聞

日本企業(yè)中林推出綜合性輸入設(shè)備:剪刀腳鍵盤上方集成軌跡球鼠標(biāo)

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

家居要聞

法式大平層 智能家居添彩

這些新療法,讓化療不再那么痛苦

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認(rèn)領(lǐng)

無障礙瀏覽 進(jìn)入關(guān)懷版