国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VLM剪枝新SOTA:無需重訓練,注意力去偏置超越6大主流方案

0
分享至


新智元報道

編輯:LRST

【新智元導讀】常用的attention機制存在位置偏置和padding異常,影響剪枝效果。上海大學曾丹團隊提出一種無需重新訓練的attention去偏方法,有效提升剪枝性能,使模型在信息受限時仍能可靠運行,為VLMs在移動端和邊緣計算等場景的高效部署提供了新思路。

近年來,Vision-Language Models(視覺—語言模型)在多模態(tài)理解任務中取得了顯著進展,并逐漸成為通用人工智能的重要技術路線。

然而,這類模型在實際應用中往往面臨推理開銷大、效率受限的問題,研究者通常依賴visual token pruning等策略降低計算成本,其中attention機制被廣泛視為衡量視覺信息重要性的關鍵依據(jù)。

近日,上海大學曾丹團隊聯(lián)合南開大學研究人員,從attention可靠性的角度出發(fā),系統(tǒng)揭示了Vision-Language Models中普遍存在的attention偏置問題,并提出了一種無需重新訓練的attention去偏方法,在多個主流模型、剪枝策略及圖像與視頻基準上驗證了其有效性,為多模態(tài)模型的高效、可靠部署提供了新的思路。


文章代碼:https://github.com/intcomp/attention-bias

文章鏈接:https://arxiv.org/abs/2508.17807

研究意義

近年來,視覺—語言模型(Vision-Language Models,VLMs)在圖像理解、視覺問答、多模態(tài)對話等任務中表現(xiàn)突出,并逐漸成為通用人工智能的重要技術基礎。

然而,這類模型在實際部署時往往面臨一個現(xiàn)實挑戰(zhàn):模型推理成本高,速度慢。

為提升效率,研究者通常會采用visual token pruning(視覺 token 剪枝)技術,即在不顯著影響性能的前提下,丟棄不重要的視覺信息。其中,attention機制被廣泛用作判斷「哪些視覺 token 更重要」的核心依據(jù)。

但上海大學曾丹團隊在研究中發(fā)現(xiàn):attention并不總是可靠的「重要性指標」。

在多模態(tài)模型中,attention 往往受到多種結構性偏置的影響,這些偏置與真實語義無關,卻會直接左右剪枝結果,從而影響模型性能。

針對這一問題,該團隊系統(tǒng)分析了VLM中attention的行為特性,提出了一種Attention Debiasing(注意力去偏)方法,在無需重新訓練模型的前提下,有效提升了多種主流剪枝方法的穩(wěn)定性與可靠性。

如下圖所示,提出的方法應用于目前基于attention的剪枝方法上之后,都有提升。


研究背景

在直覺上,attention機制往往被理解為「模型更關注哪里」,因此被自然地視為語義重要性的體現(xiàn)。

然而,曾丹團隊的研究表明,在Vision-Language Models中,attention 往往并非只由內(nèi)容決定,而是隱含著多種系統(tǒng)性偏置。

其中最典型的有兩類:

第一類是位置偏置(recency bias)。研究發(fā)現(xiàn),language-to-vision attention 會隨著視覺 token 在序列中的位置不斷增大,也就是說,模型更傾向于關注「后面的 token」。如圖所示,這通常表現(xiàn)為模型對圖像下方區(qū)域給予更高 attention,即便這些區(qū)域并不包含關鍵信息。


第二類是padding引發(fā)的attention sink現(xiàn)象。在實際輸入中,為了統(tǒng)一尺寸,圖像往往需要padding,但這些區(qū)域在語義上是「空白」的。然而,由于hidden state中出現(xiàn)異常激活,padding對應的token反而可能獲得較高attention,從而被錯誤地保留下來。下圖是pad區(qū)域填充不同的數(shù)值時,pad區(qū)域?qū)腶ttention score數(shù)值以及hidden states的激活值。


更值得注意的是,當attention被用于剪枝排序時,這些偏置并不會被削弱,反而會被進一步放大,最終導致剪枝結果偏離真實語義需求。

研究方法

針對上述問題,上海大學曾丹團隊并沒有提出新的剪枝算法,也沒有對模型結構進行修改,而是從一個更基礎的角度出發(fā):既然attention本身是有偏的,是否可以先對attention進行修正?

該團隊觀察到,attention中的偏置并非隨機噪聲,而是呈現(xiàn)出穩(wěn)定的整體趨勢。因此,他們通過對attention隨token位置變化的趨勢進行擬合,構建了一條反映「位置偏置」的曲線,并在此基礎上對原始attention進行去偏修正,顯式削弱與內(nèi)容無關的位置因素,使attention更接近真實的語義重要性。如下圖所示。

與此同時,在剪枝階段顯式抑制padding token的影響,避免語義為空的區(qū)域干擾剪枝排序。整個過程無需重新訓練模型,也不依賴特定的剪枝策略,可作為plug-and-play模塊直接集成到現(xiàn)有方法中。


實驗結果和應用前景

在實驗驗證中,該團隊將Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6種主流attention-based剪枝方法中,在10個圖像理解基準與3個視頻理解基準上進行了系統(tǒng)評估,并覆蓋LLaVA-7B / 13B等多種主流Vision-Language Models

實驗結果表明,在幾乎所有設置下,經(jīng)過attention去偏修正后,剪枝模型都能獲得一致且穩(wěn)定的性能提升,且在剪枝更激進、token預算更緊張的情況下效果尤為明顯。這說明,對attention進行去偏處理,有助于模型在「更少信息」的條件下做出更可靠的判斷。



此外,通過對實驗結果的可視化分析,原始attention-based剪枝方法往往保留了大量位于圖像下方或padding區(qū)域的視覺token,而與問題語義密切相關的關鍵區(qū)域卻容易被忽略。引入attention去偏修正后,模型保留的視覺區(qū)域更加集中于目標物體及關鍵細節(jié)位置,有效減少了無關背景的干擾。該結果直觀驗證了attention去偏在提升剪枝合理性和可解釋性方面的作用。

從應用角度來看,該研究對多模態(tài)模型在「移動端部署、邊緣計算、實時視覺理解」等場景具有重要意義,也為后續(xù)更穩(wěn)健的attention設計和多模態(tài)模型優(yōu)化提供了新的研究思路。


總結

該研究表明,attention并非天然等價于語義重要性,尤其在Vision-Language Models中,如果忽視attention中潛在的結構性偏置,基于attention的剪枝策略可能會被誤導。

上海大學曾丹團隊通過簡單而有效的attention去偏方法,顯著提升了多模態(tài)模型在效率與可靠性之間的平衡能力。

參考資料:

https://arxiv.org/abs/2508.17807


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
四年終于硬氣一次?澤連斯基向俄羅斯說“不”,普京下保證也沒用

四年終于硬氣一次?澤連斯基向俄羅斯說“不”,普京下保證也沒用

諦聽骨語本尊
2026-01-30 20:17:57
日月劍:天山七劍中的璀璨雙星

日月劍:天山七劍中的璀璨雙星

忽泓護
2026-01-29 17:05:05
痛心!江西樟樹藍天救援隊創(chuàng)始人、前隊長彭燁因車禍去世,享年50歲 曾參與多地抗洪搶險救災

痛心!江西樟樹藍天救援隊創(chuàng)始人、前隊長彭燁因車禍去世,享年50歲 曾參與多地抗洪搶險救災

紅星新聞
2026-01-29 21:03:19
央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

阿纂看事
2026-01-30 10:31:58
英國首相訪華成果顯著,特朗普宣布美國進入“緊急狀態(tài)”

英國首相訪華成果顯著,特朗普宣布美國進入“緊急狀態(tài)”

兵國大事
2026-01-30 20:12:52
64歲港星老戲骨順德開面館,價格良心引排隊,二婚太太罕見露面!

64歲港星老戲骨順德開面館,價格良心引排隊,二婚太太罕見露面!

離離言幾許
2026-01-30 16:22:44
中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

悠悠寫故事
2026-01-28 17:37:46
澳網(wǎng):德約科維奇大戰(zhàn)辛納 混雙決出首冠

澳網(wǎng):德約科維奇大戰(zhàn)辛納 混雙決出首冠

大眼瞄世界
2026-01-30 10:33:23
名記曝火箭計劃,4人被視作未來!美媒送8筆交易方案補強中鋒射手

名記曝火箭計劃,4人被視作未來!美媒送8筆交易方案補強中鋒射手

鍋子籃球
2026-01-30 20:12:52
張雨綺天生味道很大!

張雨綺天生味道很大!

八卦瘋叔
2026-01-29 00:15:23
8換2!9換1!字母哥交易方案出爐,他要簽4年2.75億美金超級頂薪

8換2!9換1!字母哥交易方案出爐,他要簽4年2.75億美金超級頂薪

世界體育圈
2026-01-30 16:15:41
美軍連夜后撤,伊朗傳巨大爆炸聲,58國救兵到齊,俄防長通電中國

美軍連夜后撤,伊朗傳巨大爆炸聲,58國救兵到齊,俄防長通電中國

墨蘭史書
2026-01-30 12:45:07
布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

夜深愛雜談
2026-01-28 22:52:08
76年毛主席逝世后,華國鋒要求在悼詞中加上一句話,葉帥:我贊同

76年毛主席逝世后,華國鋒要求在悼詞中加上一句話,葉帥:我贊同

潯陽咸魚
2026-01-30 13:00:07
男子包山林放養(yǎng)139條蛇后出門打工,16年后回家,眼前一幕他呆住

男子包山林放養(yǎng)139條蛇后出門打工,16年后回家,眼前一幕他呆住

程哥講堂
2026-01-29 17:08:13
斯塔默在三里屯下館子,英使館官員:見識到中國如今多先進了吧?

斯塔默在三里屯下館子,英使館官員:見識到中國如今多先進了吧?

荊楚寰宇文樞
2026-01-29 23:25:24
委內(nèi)瑞拉軍方做出重大決定,馬杜羅總統(tǒng)頭銜被剝奪,美國圖謀得逞

委內(nèi)瑞拉軍方做出重大決定,馬杜羅總統(tǒng)頭銜被剝奪,美國圖謀得逞

史座y
2026-01-30 13:40:40
現(xiàn)貨黃金、白銀跌幅收窄至3%、3.8%

現(xiàn)貨黃金、白銀跌幅收窄至3%、3.8%

財聯(lián)社
2026-01-30 00:14:07
但斌轉發(fā)看空黃金觀點被吐槽

但斌轉發(fā)看空黃金觀點被吐槽

每日經(jīng)濟新聞
2026-01-30 18:34:59
金銀高位閃崩,是短暫調(diào)整,還是趨勢反轉的開始?

金銀高位閃崩,是短暫調(diào)整,還是趨勢反轉的開始?

華爾街見聞官方
2026-01-30 17:42:14
2026-01-30 21:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14445文章數(shù) 66549關注度
往期回顧 全部

科技要聞

意念控制機器人不是科幻 1-2年就落地

頭條要聞

澤連斯基:我邀請普京來基輔 不可能在莫斯科與他會面

頭條要聞

澤連斯基:我邀請普京來基輔 不可能在莫斯科與他會面

體育要聞

“假賭黑”的子彈,還要再飛一會兒嗎?

娛樂要聞

金晨出事前 曾靈魂發(fā)問未收到春晚邀請

財經(jīng)要聞

金銀閃崩,是調(diào)整還是趨勢反轉的開始?

汽車要聞

合資品牌首搭800V/5C快充 東風日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

本地
手機
時尚
家居
房產(chǎn)

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

手機要聞

3.07億部!2025手機出貨量揭曉,蘋果、小米成大贏家?

買10件退9件?到底怎么買紅衣服才能不踩雷

家居要聞

藍調(diào)空舍 自由與個性

房產(chǎn)要聞

藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風口,進階兌現(xiàn)美好生活新篇

無障礙瀏覽 進入關懷版