国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

NeurIPS25 | 清華&北大提出LinearDiff-ViT:讓Transformer學會“找不同”,實打實提升模型性能

0
分享至

文章來源:我愛計算機視覺(ID:aicvml)

大家好,我是CV君。今天想和大家聊一篇來自清華大學和北京大學的最新研究,它給熱門的Vision Transformer(ViT)帶來了一次相當漂亮的“線性提速”。

這篇被 NeurIPS 2025 錄用的論文,標題為《Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials》,提出了一種名為“視覺對比注意力”(Visual-Contrast Attention, VCA)的新模塊。簡單來說,VCA就像是給ViT裝上了一雙“火眼金睛”,讓它不再是“一視同仁”地看圖中所有內容,而是學會了主動“找不同”,聚焦于那些真正具有區(qū)分度的信息。最關鍵的是,這個新模塊幾乎不增加計算量,卻能實打實地提升模型性能。

下面是論文的基本信息,感興趣的朋友可以深入研究:



  • 論文標題 : Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

  • 作者團隊 : Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li

  • 所屬機構 : 清華大學、北京大學

  • 論文地址 : https://arxiv.org/abs/2511.00833

  • 項目主頁 : https://github.com/LeapLabTHU/LinearDiff

ViT的“甜蜜煩惱”與VCA的誕生

熟悉CV的朋友們都知道,Vision Transformer(ViT)現在是遍地開花,無論圖像識別還是圖像生成,都能看到它的身影。但ViT也有個“甜蜜的煩惱”——它的核心部件,多頭自注意力(Multi-Head Self-Attention, MHSA),計算量太大了。

MHSA會對圖像中的每一對圖塊(token)都進行相似度計算,這是一個平方級別的復雜度(O(N2))。這意味著,圖像越大、圖塊越多,計算成本就呈指數級增長。很多時候,模型把大量的算力都浪費在了計算那些沒啥信息量或者重復的區(qū)域關系上。

為了解決這個問題,研究者們想了不少辦法。有的方法限制注意力范圍,比如只在局部窗口內計算,但這又可能丟失全局信息。有的方法用低秩分解或傅里葉變換來近似注意力矩陣,但它們還是平等地對待所有信息,沒能抓住重點。

而這篇論文的作者們另辟蹊徑,他們認為,與其被動地處理所有信息,不如讓模型主動去發(fā)現“對比”和“差異”。這個想法催生了 視覺對比注意力(VCA)。

VCA如何實現“找不同”?

VCA的設計非常巧妙,可以即插即用地替換掉原來ViT中的MHSA模塊。它的核心思想分為兩步:

第一階段:生成全局對比信息

首先,VCA不再讓所有的查詢(query)都去和鍵(key)直接硬碰硬。它選擇了一種更聰明的方式:

  1. 信息壓縮 :對于每個注意力頭,VCA先把整個圖像的查詢特征圖(Query Feature Map)通過平均池化(Average Pooling)操作,壓縮成一個很小的網格(比如8x8)。這樣,原來成百上千的圖塊(token)就被濃縮成了幾十個“視覺對比令牌”(visual-contrast tokens)。

  2. 創(chuàng)建正負“視角” :接下來是關鍵一步。VCA為這些濃縮后的令牌添加兩種不同的、可學習的位置編碼,從而創(chuàng)造出兩個“流”:一個“正向流”(positive stream)和一個“負向流”(negative stream)。你可以把它們想象成從兩個略有不同的角度去觀察同一份濃縮信息。

  3. 差分交互 :這兩個流分別與全局的鍵(key)和值(value)進行交互,然后將得到的結果相減。這一減,神奇的事情發(fā)生了——那些在兩個“視角”下都差不多的普通信息被抵消了,而那些有顯著差異的、真正重要的對比信息就被凸顯了出來。

通過這個過程,VCA用很小的計算代價,就提煉出了一份信息量極高的“全局對比圖”。

第二階段:基于對比圖進行精細化注意力

有了這份“全局對比圖”,第二階段就簡單高效多了。原始的每個圖塊查詢(patch query)不再需要跟所有其他圖塊去比較,而是直接與這份濃縮的“對比圖”進行交互。

這個交互同樣是差分式的,查詢會同時關注對比圖的“正向”和“負向”信息,最終計算出每個圖塊在“對比”視角下的重要性。

整個過程下來,VCA成功地將計算復雜度從 O(N2C) 降低到了 O(NnC),其中 n 是對比令牌的數量,遠小于 N。這意味著計算成本與圖塊數量 N 之間變成了線性關系,ViT終于可以“減負”了。

效果如何?數據說話

理論說得再好,還得看實際效果。作者們在圖像分類和圖像生成兩大任務上對VCA進行了充分驗證。

圖像分類:精度顯著提升

在ImageNet-1K分類任務上,VCA的效果非常驚人。


從上表可以看到:

  • 給輕量的DeiT-Tiny模型換上VCA后,參數量只增加了0.3M,計算量(FLOPs)不變,但Top-1準確率直接從72.2%提升到了 75.6% ,足足高了 3.4 個百分點!

  • 即使是對于Swin Transformer這類已經經過優(yōu)化的層級式ViT,VCA同樣能帶來穩(wěn)定的性能提升,最高提升了 3.1 個百分點(在PVT-Tiny上)。

CV君認為,這個結果說明VCA的“對比”機制確實抓住了圖像識別的關鍵,而且它的普適性很好,能給各種ViT架構帶來增益。

圖像生成:生成質量更高

在類條件圖像生成任務上,作者們將VCA應用到了DiT(Diffusion Transformer)和SiT(Flow Transformer)模型上。評價指標是FID,這個值越低說明生成圖像的質量越高。


結果同樣令人印象深刻:

  • 在各種模型尺寸和配置下,VCA都穩(wěn)定地降低了FID分數。

  • 對于DiT-S/4模型,FID分數降低了 5.2 點;對于DiT-S/2模型,FID降低了 4.9 點。

  • 無論是基于擴散的DiT還是基于流的SiT,VCA都能起作用,證明了它對生成范式的普適性。

消融實驗:每個設計都不可或缺

為了證明VCA的設計不是“玄學”,作者還做了詳盡的消融實驗。


上表驗證了VCA兩個階段的協同作用。無論是只用第一階段的全局對比,還是只用第二階段的差分注意力,性能都有提升,但將兩者結合起來效果最好。


而這張表則證明了“空間池化”和“雙位置編碼”這兩個設計的必要性。簡單地使用可學習的嵌入(Embedding)雖然也有效果,但遠不如從圖像本身通過池化(Pooling)獲取信息,并用正負位置編碼來區(qū)分“視角”來得有效。這說明,讓模型從數據中學習對比線索,才是VCA成功的關鍵。

總結

總的來說,VCA用一個簡單、輕量且高效的“差分”思想,漂亮地解決了ViT的計算瓶頸,并帶來了實實在在的性能飛躍。它提醒我們,有時候注意力機制不一定非得是“相似性”的度量,也可以是“差異性”的發(fā)現者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

放開他讓wo來
2025-12-23 08:51:40
西部前六只有湖人想交易!現有報價難追瓊斯 專家建議送走里夫斯

西部前六只有湖人想交易!現有報價難追瓊斯 專家建議送走里夫斯

羅說NBA
2025-12-24 07:23:13
中國首次硬剛美國軍售,警告時代正式結束!

中國首次硬剛美國軍售,警告時代正式結束!

回京歷史夢
2025-12-24 00:45:02
南京博物院背后的徐院長、徐公子、徐小姐,都是人才??!

人格志
2025-12-23 00:04:02

重磅!這次中央企業(yè)負責人會議,釋放出的信號和政策動向極其深刻

重磅!這次中央企業(yè)負責人會議,釋放出的信號和政策動向極其深刻

識局Insight
2025-12-24 07:16:50
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
花費1億請趙本山代言,成本2毛騙農戶200億,創(chuàng)始人被判無期徒刑

花費1億請趙本山代言,成本2毛騙農戶200億,創(chuàng)始人被判無期徒刑

法老不說教
2025-12-17 20:08:06
白峰的香港粉絲見面會,真人很抗打

白峰的香港粉絲見面會,真人很抗打

貴圈真亂
2025-12-24 10:23:09
塞門約通知曼聯首選轉會曼城!決定原因曝光,阿莫林承諾無濟于事

塞門約通知曼聯首選轉會曼城!決定原因曝光,阿莫林承諾無濟于事

羅米的曼聯博客
2025-12-24 09:51:47
鐵道部長丁關根不知王震要來,跑步下樓接,王震:我來打土豪來了

鐵道部長丁關根不知王震要來,跑步下樓接,王震:我來打土豪來了

浩渺青史
2025-12-23 20:05:39
闞清子被曝早產女嬰,多重畸形搶救無效去世,細節(jié)曝光嘆真不應該

闞清子被曝早產女嬰,多重畸形搶救無效去世,細節(jié)曝光嘆真不應該

李健政觀察
2025-12-24 09:23:10
船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

顏小白的籃球夢
2025-12-24 09:33:21
央視曝光!真的不要買!頭皮發(fā)麻!這些“爆火產品”竟來自垃圾站

央視曝光!真的不要買!頭皮發(fā)麻!這些“爆火產品”竟來自垃圾站

凡知
2025-12-23 19:57:28
超級大國的最后遺產!美媒:中國獲得3架頂級戰(zhàn)機,成就超俄趕美

超級大國的最后遺產!美媒:中國獲得3架頂級戰(zhàn)機,成就超俄趕美

墨蘭史書
2025-12-06 16:55:04
2025,他們離我們遠去

2025,他們離我們遠去

新京報書評周刊
2025-12-23 10:00:37
硬剛中俄?與日本簽了稀土協議后,托卡耶夫直接趕往俄羅斯攤牌

硬剛中俄?與日本簽了稀土協議后,托卡耶夫直接趕往俄羅斯攤牌

云舟史策
2025-12-24 07:20:27
泰國軍隊攻入柬埔寨園區(qū)畫面疑曝光!電詐分子跪地,墻上中文扎眼

泰國軍隊攻入柬埔寨園區(qū)畫面疑曝光!電詐分子跪地,墻上中文扎眼

環(huán)球熱點快評
2025-12-23 16:48:49
喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細節(jié),想問發(fā)小一句話

喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細節(jié),想問發(fā)小一句話

阿纂看事
2025-12-23 14:49:23
祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

老特有話說
2025-12-23 21:35:49
南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

鋭娛之樂
2025-12-21 08:30:41
2025-12-24 11:23:00
算法與數學之美 incentive-icons
算法與數學之美
分享知識,交流思想
5276文章數 64598關注度
往期回顧 全部

科技要聞

黑產大軍壓境 快手"拔網線"為何慢了兩小時

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

曝闞清子女兒早產但沒保住

財經要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內飾官圖發(fā)布

態(tài)度原創(chuàng)

房產
親子
本地
數碼
健康

房產要聞

獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

親子要聞

王小騫痛心:11歲女兒減肥致心肌損傷,母女關系緊張

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

數碼要聞

光帆科技全球首款具備視覺感知能力的主動式AI耳機正式發(fā)布

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進入關懷版