国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

TrackVLA++:具身視覺跟蹤的推理與記憶雙升級

0
分享至

文章來源:鼓搗AI。

在擁擠商場里,陪伴機器人如何精準跟隨主人,即便被人群短暫遮擋、遇到穿同款衣服的干擾者也不跟丟?在復雜室內(nèi)環(huán)境中,引導機器人怎樣持續(xù)鎖定目標,完成長時程跟蹤任務?這些場景的核心技術——具身視覺跟蹤(EVT),長期面臨遮擋、干擾物、長時記憶漂移三大痛點。

近日,來自北大等機構的團隊提出了TrackVLA++,一款融合顯式空間推理長時目標記憶的新型VLA(視覺-語言-動作)模型,在仿真與真實場景中均實現(xiàn)SOTA性能,為具身機器人的精準跟蹤提供了新的解決方案。

論文鏈接:

https://arxiv.org/pdf/2510.07134

項目主頁:

https://pku-epic.github.io/TrackVLA-plus-plus-Web/


具身視覺跟蹤的核心痛點

具身視覺跟蹤(EVT)是機器人在動態(tài)物理環(huán)境中,基于視覺觀測和語言指令,持續(xù)追蹤指定移動目標的關鍵能力,廣泛支撐陪伴機器人、引導機器人、服務助手等實際應用。

盡管近年來VLA模型(如TrackVLA、LOVON)推動了語言引導跟蹤的發(fā)展,但現(xiàn)有方法仍存在兩大致命缺陷:

  1. 缺乏顯式空間推理 :依賴視覺特征直接匹配,無法精準推斷目標相對位置,遇到相似干擾物易誤判;

  2. 長時記憶機制薄弱 :目標被長時間遮擋或脫離視野后,記憶易漂移或被干擾物污染,難以重新識別目標。

這些問題導致現(xiàn)有模型在復雜場景中性能大幅下降,成為EVT技術落地的主要瓶頸。

核心創(chuàng)新:推理與記憶的雙重突破

TrackVLA++基于導航基礎模型NavFoM構建,核心升級在于兩個專屬模塊:Polar-CoT(極坐標思維鏈)TIM(目標識別記憶)。



模型Pipeline流程圖,展示TrackVLA++的完整流程:從視頻流和語言指令輸入、Polar-CoT推理、TIM記憶更新、動作軌跡輸出。

Polar-CoT:輕量高效的空間推理機制

傳統(tǒng)思維鏈(CoT)推理會生成冗長文本或復雜邊界框,計算開銷大且不適用于多相機場景。TrackVLA++提出的Polar-CoT做出兩大優(yōu)化:

  • 極坐標離散化 :將機器人0.6-5.0m環(huán)形視場,離散為60個角度(θ)×30個距離(d)的扇區(qū),每個扇區(qū)編碼為唯一token,形成緊湊的空間表征;

  • 高效推理輸出 :僅預測一個推理token,要么是 <θ,d> (目標在視場內(nèi)的相對位置),要么是 (目標遮擋或超出視野),既保證效率又消除多相機歧義。

這種設計讓模型具備“空間思考能力”,不再依賴純視覺匹配,而是像人一樣通過“角度+距離”定位目標,推理效率較傳統(tǒng)CoT提升顯著。

TIM:置信門控的長時目標記憶

為解決長時跟蹤中的記憶漂移問題,TIM模塊采用置信度感知門控策略,實現(xiàn)穩(wěn)健記憶更新:

  • 記憶更新規(guī)則:僅當Polar-CoT以高置信度(通過歸一化熵計算)檢測到目標時,才用新視覺特征更新記憶;

  • 遮擋保護機制:目標被遮擋時, token強制置信度歸零,凍結記憶更新,保留最后一次可靠的目標表征;

  • 輕量化設計:僅用4個token編碼記憶狀態(tài),無需額外算力,且增加token數(shù)量無法帶來性能提升,兼顧高效與穩(wěn)健。

通過“推理引導記憶”的模式,TIM有效抵御干擾物污染,在長時間遮擋后仍能快速重新識別目標。

實驗驗證

團隊在EVT-Bench、Gym-UnrealCV兩大基準,以及三大真實場景中對TrackVLA++進行了全面驗證,結果亮點十足。

配圖3:論文Fig.4 仿真實驗可視化圖) 插入位置:3.1仿真基準部分開頭 配圖說明:展示TrackVLA++在EVT-Bench不同子任務(STT/DT/AT)和UnrealCV場景中的跟蹤效果,紅色區(qū)域標記Polar-CoT預測的目標位置,直觀體現(xiàn)模型在遮擋、干擾下的精準定位能力。

仿真基準

在EVT-Bench(復雜室內(nèi)場景,含大量干擾物)中,TrackVLA++表現(xiàn)突出:

  • 干擾跟蹤(DT)任務:多視圖成功率(SR)達74.0%,較前作NavFoM提升12%,單視圖提升5.1%;

  • 單目標跟蹤(STT):多視圖SR達90.9%,碰撞率(CR)僅1.50%,平衡跟蹤精度與安全性;

  • 零樣本泛化:在Gym-UnrealCV的未知環(huán)境中,干擾物任務 episode長度(EL)達484,成功率(SR)0.92,超越TrackVLA等現(xiàn)有模型。

在視覺識別能力上,TrackVLA++在SYNTH-PEDES零樣本人物識別任務中準確率達87.5%,較SoM+GPT-4o提升5.1%,且推理速度達4.8 FPS,是GPT-based方法的48倍,兼顧精度與實時性。



仿真實驗可視化結果。TrackVLA++ 在遮擋和干擾條件下表現(xiàn)優(yōu)異。左上角小圖展示了 Polar-CoT 的預測結果,紅色區(qū)域表示預測的目標位置;為簡潔起見,EVT-Bench 上的可視化結果僅截取了前方扇區(qū)。放大查看可獲得更佳視覺效果。

真實世界


團隊在Unitree GO2四足機器人上部署TrackVLA++(配備4個多視圖相機),在三大核心場景中驗證:

  1. 障礙遮擋:目標被大型障礙物臨時遮擋,成功率較TrackVLA提升14%;

  2. 蜿蜒路徑:目標沿復雜軌跡移動,跟蹤保真度提升7%;

  3. 相似干擾物:存在視覺相似的人類干擾者,識別穩(wěn)健性提升17%。



真實世界實驗結果圖:左側展示三大真實場景(障礙遮擋、蜿蜒路徑、相似干擾物)的跟蹤過程,右側柱狀圖對比TrackVLA++與TrackVLA的成功率。

消融實驗

通過 ablation 實驗(EVT-Bench DT多視圖場景),明確兩大模塊的貢獻:

  • 僅移除Polar-CoT:成功率下降6.0%,證明空間推理對定位精度的關鍵作用;

  • 僅移除TIM:成功率下降2.8%,驗證長時記憶對遮擋場景的支撐價值;

  • TIM token數(shù)量從4增至16:性能無明顯提升,印證輕量化設計的合理性。

技術亮點與應用前景

TrackVLA++的核心優(yōu)勢的在于精準+高效+泛化 三者兼?zhèn)洌?/p>

  • 精準性:Polar-CoT的空間推理+TIM的置信門控記憶,解決遮擋、干擾、記憶漂移三大痛點;

  • 高效性:推理token緊湊設計+輕量化記憶,推理速度達4.8 FPS,滿足實時跟蹤需求;

  • 泛化性:零樣本性能優(yōu)異,無需針對新場景重新訓練,適配真實世界的動態(tài)變化。

這些特性使其在多個領域具備落地潛力:

  • 服務機器人:商場、機場的引導與陪伴,精準跟隨目標并規(guī)避干擾;

  • 工業(yè)場景:車間內(nèi)跟蹤特定設備或工作人員,完成巡檢、輔助任務;

  • 安防監(jiān)控:動態(tài)鎖定可疑目標,即便短暫遮擋也能持續(xù)追蹤。

總結與展望

TrackVLA++通過Polar-CoT極坐標推理TIM置信門控記憶兩大創(chuàng)新,首次將顯式空間推理與長時目標記憶融入VLA模型,徹底解決了具身視覺跟蹤的核心痛點。實驗證明,該模型在仿真基準中刷新SOTA,在真實場景中展現(xiàn)出強穩(wěn)健性,為具身機器人的精準跟蹤提供了全新技術路徑。

未來,團隊可進一步探索多目標跟蹤、動態(tài)環(huán)境自適應等方向,推動EVT技術在更復雜場景中落地。對于機器人研發(fā)者而言,TrackVLA++的模塊化設計也具備極高的參考價值,為后續(xù)模型優(yōu)化提供了清晰思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
德雷克海峽:地球上最兇險的航道,為何連現(xiàn)代巨輪都不敢掉以輕心

德雷克海峽:地球上最兇險的航道,為何連現(xiàn)代巨輪都不敢掉以輕心

半解智士
2025-12-23 21:43:57
新進展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

新進展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

社會日日鮮
2025-12-24 06:20:47
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
萬萬沒想到,46條中日航線剛全部取消,就炸出來一群“妖魔鬼怪”

萬萬沒想到,46條中日航線剛全部取消,就炸出來一群“妖魔鬼怪”

近史閣
2025-12-23 10:24:00
女子花1.8萬挑戰(zhàn)“獨處100小時贏60萬” 中途被無故判出局 法院判全額退還報名費

女子花1.8萬挑戰(zhàn)“獨處100小時贏60萬” 中途被無故判出局 法院判全額退還報名費

閃電新聞
2025-12-23 17:15:36
中信建投女總監(jiān)聯(lián)絡資金中介,私下吃返費逾540萬,一審獲刑十年半

中信建投女總監(jiān)聯(lián)絡資金中介,私下吃返費逾540萬,一審獲刑十年半

大風新聞
2025-12-23 21:58:04
新“前端之父”來了!智譜深夜放出編程炸彈,開源第一、國產(chǎn)第一

新“前端之父”來了!智譜深夜放出編程炸彈,開源第一、國產(chǎn)第一

智東西
2025-12-23 13:13:30
博主舉報展銷會商家用豬肉冒充牛肉賣,與多人發(fā)生肢體沖突,致肋骨骨折!當?shù)鼐搅刚{(diào)查

博主舉報展銷會商家用豬肉冒充牛肉賣,與多人發(fā)生肢體沖突,致肋骨骨折!當?shù)鼐搅刚{(diào)查

封面新聞
2025-12-24 01:07:08
曝闞清子生下女兒但沒保住,月初被拍到孕期狀態(tài)差,需要丈夫攙扶

曝闞清子生下女兒但沒保住,月初被拍到孕期狀態(tài)差,需要丈夫攙扶

萌神木木
2025-12-23 23:59:18
廣州市委書記調(diào)整

廣州市委書記調(diào)整

新京報
2025-12-24 12:28:05
“干得再好結局都是‘下?!?!26歲女生曝團播驚人亂象

“干得再好結局都是‘下?!?!26歲女生曝團播驚人亂象

半島晨報
2025-12-23 18:18:40
男籃首位歸化!NBA官網(wǎng):李凱爾國籍變回美國 短暫歸化并不成功

男籃首位歸化!NBA官網(wǎng):李凱爾國籍變回美國 短暫歸化并不成功

醉臥浮生
2025-12-23 23:19:22
麗江古城區(qū)文旅公開喊話小紅書,此前發(fā)布的公眾號文章已刪除

麗江古城區(qū)文旅公開喊話小紅書,此前發(fā)布的公眾號文章已刪除

極目新聞
2025-12-24 12:05:54
一個女嬰之死與一個系統(tǒng)的失靈

一個女嬰之死與一個系統(tǒng)的失靈

難得君
2025-12-23 00:16:47
確認了,今天起全面影響廣東!下班早點回家!

確認了,今天起全面影響廣東!下班早點回家!

深圳晚報
2025-12-24 10:41:49
被攻擊后 快手直播緊急拉閘前的兩小時

被攻擊后 快手直播緊急拉閘前的兩小時

新京報
2025-12-24 09:39:29
溫州女子(黃某,26歲),獲刑11年!

溫州女子(黃某,26歲),獲刑11年!

溫州草根
2025-12-24 10:46:13
從斬殺線到方便面

從斬殺線到方便面

美第奇效應
2025-12-24 00:08:39
如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

爆角追蹤
2025-12-24 12:37:06
泰軍端掉電詐呼叫中心,繳獲千萬現(xiàn)金黃金,網(wǎng)友沸騰

泰軍端掉電詐呼叫中心,繳獲千萬現(xiàn)金黃金,網(wǎng)友沸騰

胡嚴亂語
2025-12-23 15:47:01
2025-12-24 12:52:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5276文章數(shù) 64598關注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時

頭條要聞

媒體:澤連斯基威脅制裁中國公民 中方的回應算客氣了

頭條要聞

媒體:澤連斯基威脅制裁中國公民 中方的回應算客氣了

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

藝術
游戲
本地
公開課
軍事航空

藝術要聞

2026第一福!孫曉云親筆“福”字出爐

《完美音浪》班底開發(fā)新作!官方笑稱這次玩的更大

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突關鍵人物在莫斯科被炸死 烏方尚未公開認領

無障礙瀏覽 進入關懷版