国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小鵬聯(lián)合北大為VLA模型定制視覺token剪枝方法,讓自動駕駛更高效

0
分享至



VLA 模型正被越來越多地應(yīng)用于端到端自動駕駛系統(tǒng)中。然而,VLA 模型中冗長的視覺 token 極大地增加了計算成本。但現(xiàn)有的視覺 token 剪枝方法都不是專為自動駕駛設(shè)計的,在自動駕駛場景中都具有局限性。

小鵬汽車聯(lián)合北京大學(xué)計算機科學(xué)學(xué)院多媒體信息處理國家重點實驗室發(fā)表論文《FastDriveVLA》,不僅為自動駕駛 VLA 模型中的高效視覺 token 剪枝建立了新的范式,也為特定任務(wù)的剪枝策略提供了有價值的洞察。

受人類駕駛員主要關(guān)注前景區(qū)域而非背景區(qū)域的啟發(fā),研究團隊做出假設(shè):對于自動駕駛而言,與前景信息相關(guān)的視覺 token 比與背景內(nèi)容相關(guān)的視覺 token 更有價值。為了驗證這個假設(shè),研究團隊構(gòu)建了大規(guī)模自動駕駛標注數(shù)據(jù)集nuScenes-FG(包含來自 6 個攝像頭視角的、帶有前景區(qū)域標注的 24.1 萬個圖像 - 掩碼對),通過 MAE 風(fēng)格的像素重建策略和新穎的對抗性前景 - 背景重建策略,訓(xùn)練出了一個適用于不同 VLA 模型的、可以即插即用的視覺 token 剪枝器 ReconPruner

實驗結(jié)果顯示,在不同剪枝比例下,F(xiàn)astDriveVLA 在 nuScenes 開環(huán)規(guī)劃基準測試中均取得了 SOTA 性能。FastDriveVLA 也非常高效,當視覺 token 數(shù)量從 3249 減少至 812 時,F(xiàn)astDriveVLA 的 FLOPs 直降約 7.5 倍;在 CUDA 推理延遲方面,F(xiàn)astDriveVLA 將預(yù)填充(prefill)時間減少了 3.7 倍、將解碼(decode)時間減少了 1.3 倍,顯著提升了推理效率。

該篇論文被 AAAI 2026 錄用。



  • 論文標題:FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
  • 論文鏈接:https://arxiv.org/pdf/2507.23318

研究背景與問題

端到端自動駕駛最近展現(xiàn)出巨大潛力,有望徹底改變未來的交通系統(tǒng)。與傳統(tǒng)的模塊化自動駕駛系統(tǒng)不同,端到端方法在一個統(tǒng)一的框架中學(xué)習(xí)整個駕駛流程,這種設(shè)計不僅減少了模塊之間信息傳遞時的誤差,還增強了系統(tǒng)的簡潔性。

然而,現(xiàn)有的 VLA 模型通常將視覺輸入轉(zhuǎn)換為大量的視覺 token,這種方法導(dǎo)致了巨大的計算開銷和推理延遲的增加,對真實場景的車端部署提出了重大挑戰(zhàn),因為計算資源和推理速度都受到嚴重限制。

已經(jīng)有大量研究嘗試通過減少視覺 token 來加速 VLM 的推理,但在自動駕駛場景中都具有局限性:引入新設(shè)計的多模態(tài)投影器需要重新訓(xùn)練整個模型,基于注意力的剪枝策略容易受到無關(guān)信息的影響,基于相似性的剪枝策略會錯誤保留與駕駛無關(guān)的信息。

為了解決這些挑戰(zhàn),我們專為端到端自動駕駛 VLA 模型定制了一個新型的、基于重建的視覺 token 剪枝框架 FastDriveVLA。



圖 1:不同視覺 token 剪枝策略的對比,(c)為基于重建的剪枝策略

方法與創(chuàng)新

nuScenes-FG 數(shù)據(jù)集

受人類駕駛員主要關(guān)注前景區(qū)域而非背景區(qū)域的啟發(fā),我們首先對自動駕駛場景中的「前景區(qū)域」進行了明確定義。這些區(qū)域包括行人、道路、車輛、交通標志(含交通信號燈)以及交通障礙物(如位于車道上或緊鄰車道的障礙物)等對駕駛決策具有直接影響的元素。相比之下,建筑物、天空、行道樹等背景區(qū)域即使被完全遮擋,通常也不會顯著影響人類駕駛員的判斷。然后,借助 Grounded-SAM 對 nuScenes 場景進行細粒度、語義一致的前景分割,構(gòu)建了 nuScenes-FG 數(shù)據(jù)集。



圖 2:nuScenes-FG 數(shù)據(jù)集,為 nuScenes 場景提供了 24.1 萬個前景分割標注。

基于重建的剪枝器 ReconPruner

我們提出了一種輕量級的、可即插即用的剪枝器 ReconPruner,主要目標是讓 ReconPruner 能夠有效識別并選擇包含有意義前景信息的視覺 token,因此借鑒 Masked Image Modeling(掩碼圖像建模)方法設(shè)計了 MAE 風(fēng)格的像素重建策略。在訓(xùn)練過程中,我們選取 ReconPruner 預(yù)測的可獲得高分的視覺 token 子集,用于掩碼前景重建。該子集上的重建誤差作為監(jiān)督信號,鼓勵 ReconPruner 為真正對應(yīng)前景內(nèi)容的視覺 token 打高分。



圖 3:FastDriveVLA 框架。在訓(xùn)練階段,提出了一種新穎的「前景 - 背景對抗重建」策略,以增強 ReconPruner 對前景視覺 token 的感知能力;在推理階段,ReconPruner 可直接嵌入自動駕駛 VLA 模型,用于 token 剪枝。

對抗性前景 - 背景重建策略

但若僅僅依賴前景重建,ReconPruner 可能會采取捷徑,不加區(qū)分地為所有視覺 token 打高分。我們從生成對抗網(wǎng)絡(luò)(GANs)中汲取靈感,提出了對抗性前景 - 背景重建策略。具體來說,ReconPruner 還需要使用獲得低分的視覺 token 來重建背景區(qū)域。這種對抗性設(shè)置增強了 ReconPruner 區(qū)分前景 token 和背景 token 的能力。

實驗結(jié)果

實驗設(shè)置

我們采用 Impromptu-VLA 作為視覺 token 剪枝的基礎(chǔ)模型,在專為城區(qū)自動駕駛設(shè)計的大規(guī)?;鶞蕼y試數(shù)據(jù)集 nuScenes 上對不同剪枝方法進行了評估。nuScenes 數(shù)據(jù)集包含 1000 個駕駛場景、每個場景約持續(xù) 20 秒。測試時,我們總計使用了 6019 個測試樣本,并通過 L2 軌跡誤差、碰撞率、路外率三個指標來評估開環(huán)規(guī)劃的性能。

我們使用余弦調(diào)度器以 2e-5 的學(xué)習(xí)率訓(xùn)練 FastDriveVLA,總計進行了 10 輪訓(xùn)練,僅在兩塊 H800 GPU 上運行 3 小時就完成了訓(xùn)練。

不同剪枝方法在 nuScenes 數(shù)據(jù)集上的對比



FastV、SparseVLM 是基于注意力的基線,DivPrune、VisPruner 是基于相似性的基線。

  • 當剪枝 25% 時,F(xiàn)astDriveVLA 在所有評估指標上均表現(xiàn)最佳,尤其在 L2 軌跡誤差和碰撞指標上分別比未剪枝的原始模型低了 0.1% 和 1.0%,這證明了聚焦于與前景相關(guān)的視覺 token 是提升自動駕駛性能的關(guān)鍵。
  • 當剪枝 50% 時,F(xiàn)astDriveVLA 在碰撞指標上的表現(xiàn)優(yōu)于剪枝 25%。
  • 當剪枝 75% 時,F(xiàn)astDriveVLA 在路外率指標上的表現(xiàn)優(yōu)于剪枝 50%。

總體來看,F(xiàn)astDriveVLA 在各種剪枝比例下均優(yōu)于現(xiàn)有方法。特別值得注意的是,當剪枝 50% 時,F(xiàn)astDriveVLA 在所有指標上的表現(xiàn)都更加均衡。因此,我們建議,在實際部署自動駕駛系統(tǒng)時采用 50% 這一剪枝比例,以實現(xiàn)性能與效率的最佳平衡。

效率分析

為了展示 FastDriveVLA 的高效,我們從 FLOPs 與 CUDA 延遲的角度對不同剪枝方法進行了效率分析。當視覺 token 數(shù)量從 3249 減少至 812 時,F(xiàn)astDriveVLA 的 FLOPs 直降約 7.5 倍。在 CUDA 推理延遲方面,F(xiàn)astDriveVLA 將預(yù)填充提速 3.7 倍、解碼提速 1.3 倍,實際推理效率顯著提升。



定性可視化分析

ReconPruner 幾乎完整留下了前景 token ,把背景壓成極稀疏的色塊,重建畫面依舊清晰,證明它能在減少 token 冗余的同時保留關(guān)鍵信息,如圖 4 所示。

再把 FastV(基于注意力)、DivPrune(基于相似性)和 FastDriveVLA 放到圖 5 中進行對比,可以看到:我們的點密密麻麻落在車道、車道線和車身;FastV 幾乎漏掉了車輛;DivPrune 雖然撒點更多,卻幾乎沒往車道線上靠。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
養(yǎng)生狂魔猝死!一女子稱40歲丈夫6點跑步10點睡,很少吃油鹽走了

養(yǎng)生狂魔猝死!一女子稱40歲丈夫6點跑步10點睡,很少吃油鹽走了

火山詩話
2026-01-08 09:19:19
女首相被嚇哭了!

女首相被嚇哭了!

鈞言堂
2026-01-07 12:36:38
法官隱名 :一場悄無聲息的XXX

法官隱名 :一場悄無聲息的XXX

呦呦鹿鳴
2026-01-07 22:12:24
美俄對峙,俄羅斯慫了,俄油輪被美軍扣押

美俄對峙,俄羅斯慫了,俄油輪被美軍扣押

山河路口
2026-01-08 12:19:03
總統(tǒng)被擄走后,委內(nèi)瑞拉股市2026年已接近翻倍

總統(tǒng)被擄走后,委內(nèi)瑞拉股市2026年已接近翻倍

凱利經(jīng)濟觀察
2026-01-08 09:33:42
成都女子賣“許愿蠟燭”被跨省抓捕,控訴遼源警方“遠洋捕撈”

成都女子賣“許愿蠟燭”被跨省抓捕,控訴遼源警方“遠洋捕撈”

浪花說法
2026-01-08 09:06:25
伊朗安全部隊放下武器加入抗議,哈梅內(nèi)伊倒計時開始

伊朗安全部隊放下武器加入抗議,哈梅內(nèi)伊倒計時開始

移光幻影
2026-01-07 15:18:07
唏噓!34歲J羅失業(yè)第8天+5年遭7隊拋棄 全網(wǎng)投簡歷求職無人回應(yīng)他

唏噓!34歲J羅失業(yè)第8天+5年遭7隊拋棄 全網(wǎng)投簡歷求職無人回應(yīng)他

風(fēng)過鄉(xiāng)
2026-01-08 20:41:14
廣東最低溫已跌至零下

廣東最低溫已跌至零下

南粵女聲
2026-01-08 11:08:05
周琦專訪:趙睿當初的首選不是首鋼;合作最舒服的后衛(wèi)是趙繼偉

周琦專訪:趙睿當初的首選不是首鋼;合作最舒服的后衛(wèi)是趙繼偉

懂球帝
2026-01-08 20:06:44
10歲抗癌“小王子”豪豪病情惡化,爸爸婉拒捐款,稱不想再消耗愛心

10歲抗癌“小王子”豪豪病情惡化,爸爸婉拒捐款,稱不想再消耗愛心

大風(fēng)新聞
2026-01-08 19:54:18
從萬億總裁到變卑微舔狗!網(wǎng)友:王石在地產(chǎn)大佬,差不多活成笑話

從萬億總裁到變卑微舔狗!網(wǎng)友:王石在地產(chǎn)大佬,差不多活成笑話

火山詩話
2026-01-08 16:02:52
突發(fā)!芯片三巨頭集體“撤離”,中國廠商:這潑天的富貴必須抓住

突發(fā)!芯片三巨頭集體“撤離”,中國廠商:這潑天的富貴必須抓住

科普100克克
2026-01-08 10:09:45
美媒曝光:美國出動海豹突擊隊在北大西洋扣押“貝拉1”號油輪

美媒曝光:美國出動海豹突擊隊在北大西洋扣押“貝拉1”號油輪

環(huán)球網(wǎng)資訊
2026-01-08 14:46:06
創(chuàng)NBA生涯紀錄!楊瀚森連7戰(zhàn)登場入輪轉(zhuǎn) 被抓出兩道血痕引爭議

創(chuàng)NBA生涯紀錄!楊瀚森連7戰(zhàn)登場入輪轉(zhuǎn) 被抓出兩道血痕引爭議

醉臥浮生
2026-01-08 13:55:19
麻省理工研究警告:未來華北平原不宜人類居住!理論依據(jù)是什么?

麻省理工研究警告:未來華北平原不宜人類居住!理論依據(jù)是什么?

小熊侃史
2026-01-08 07:55:03
美國官員稱:主宰這個世界的是實力 武力與權(quán)力

美國官員稱:主宰這個世界的是實力 武力與權(quán)力

看看新聞Knews
2026-01-08 11:01:03
伊朗巨變前夜

伊朗巨變前夜

鳳眼論
2026-01-08 10:31:08
宜家的問題已經(jīng)挺嚴重了

宜家的問題已經(jīng)挺嚴重了

蔚然未來消費
2026-01-08 08:34:50
現(xiàn)場視頻:太子集團陳志被押解回國!太子銀行進入清算程序:停止新增業(yè)務(wù),貸款人仍需按時還款

現(xiàn)場視頻:太子集團陳志被押解回國!太子銀行進入清算程序:停止新增業(yè)務(wù),貸款人仍需按時還款

每日經(jīng)濟新聞
2026-01-08 17:57:11
2026-01-08 22:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12080文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

房產(chǎn)
游戲
教育
本地
公開課

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

《漫威爭鋒》玩家不滿集中爆發(fā)!過多機器人引爭議

教育要聞

經(jīng)常問這七個問題,足以改變孩子一生

本地新聞

1986-2026,一通電話的時空旅程

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版