網易首頁 > 網易號 > 正文申請入駐

通過注意力熵最小化實現測試時自適應

2026-02-24 14:25:19　來源: CreateAMind

上海舉報

分享至

LookSharp：通過注意力熵最小化實現測試時自適應

LOOKSHARP: ATTENTION ENTROPYMINIMIZATION FOR TEST-TIME ADAPTATION

https://www.arxiv.org/pdf/2511.18925

摘要

測試時自適應（TTA）旨在推理過程中更新模型，以減少因數據分布偏移而產生的誤差。雖然對輸出分布進行熵最小化已被證明是一種有效的TTA損失函數，但我們轉而研究利用Transformer在注意力機制中計算的中間分布。我們提出了LookSharp方法，該方法將最后一層中CLS令牌對圖像塊的注意力熵最小化作為新的TTA目標，促使模型在遇到偏移數據時仍能保持聚焦的注意力。我們證明，注意力熵最小化能夠提高模型在ImageNet-C數據集上的魯棒性。同時，我們還展示了該方法與輸出熵最小化互為補充，并能保持模型在干凈數據上的性能。

1 引言與相關工作

深度網絡在符合訓練分布的數據上表現優(yōu)異，但在部署于存在分布偏移的數據時，往往會遭遇災難性的性能下降。最近的測試時自適應方法探索了對輸出分布進行熵最小化，這有助于促使模型在測試時做出更自信的預測。盡管這種方法有效，但它將特征提取器視為一個黑盒，忽略了那些本可指導自適應的內部表征。視覺Transformer因其可擴展性，已成為視覺識別領域的主流架構，它提供了圖像塊上的注意力分布，能夠明確捕捉空間關系和特征重要性。

我們利用這些注意力分布進行測試時自適應，將視覺Transformer中注意力分布的熵最小化作為一種無監(jiān)督損失來更新模型參數。由于這種方法能使注意力分布變得“銳利”，更集中于更少的令牌上，我們將其命名為LookSharp。具體來說，我們最小化由最后一層注意力頭中CLS令牌對圖像塊令牌的注意力分數所定義的分布的熵。我們的方法主要基于兩個關鍵觀察。首先，如圖1(b)所示，如果注意力熵過于分散，模型的準確率會急劇下降。其次，像DINOv3這樣的現代視覺Transformer，通過互聯(lián)網規(guī)模的自監(jiān)督訓練，已經學會了可解釋且以目標為中心的注意力圖。

我們在ImageNet-C數據集上，采用批量情節(jié)性設置來演示我們的自適應方法應對圖像損壞的效果。即，模型在每個批次上更新，然后重置。我們還展示了結合注意力熵和輸出熵可以帶來進一步的性能提升。

自適應中的熵最小化。測試時自適應常常依賴于熵最小化。Tent方法更新歸一化層的統(tǒng)計量和參數以最小化輸出熵。MEMO通過使用測試時增強從單個樣本創(chuàng)建批次，并采用與Tent相同的損失情節(jié)性地更新所有參數，從而擴展了該方法。其他工作如SAR和EATA則將輸出熵與銳度感知最小化、數據篩選以及通過參數正則化錨定源模型相結合。

自適應中的注意力機制。利用注意力機制進行更新的研究相對較少。Attent方法將測試時的注意力統(tǒng)計量與存儲的源域統(tǒng)計量進行對齊。與Attent不同，我們的方法是純粹的測試時自適應，不需要存儲源域統(tǒng)計量。相反，它僅依賴于推理過程中注意力的置信度。因此，我們只與其他完全在測試時進行更新的方法進行比較。

2 方法：注意力熵最小化

我們排除了CLS令牌對自身以及對寄存器令牌的注意力分數，因為我們希望關注的是圖像的空間塊，而非全局信息。最小化此損失函數可以鼓勵每個注意力頭將其注意力集中（低熵地）放在一個較小的圖像塊令牌子集上，而不是分散地關注更多令牌。我們也嘗試了先對分布進行平均再計算其熵的方法，但效果較差。這結果是合理的，因為各個注意力頭往往會趨向于特化。我們利用最后一層的注意力分數，因為它們是最成熟的。

我們發(fā)現，將(Wang等人，2021)中使用的標準輸出熵最小化與注意力熵最小化相結合，可以進一步提升性能。我們使用的標準輸出熵最小化損失函數如下：

3 實驗與結果

我們使用一種通用架構和最新的自監(jiān)督骨干網絡，在圖像分類任務上采用標準的測試時自適應基準進行實驗。我們考慮的是按批次進行情節(jié)性測試時自適應的設置，即每個批次處理后參數會被重置（Zhang 等人，2022），同時我們也與在線（無重置）方法（Wang 等人，2021）進行了比較。

數據集：我們使用 ImageNet-C（Hendrycks & Dietterich，2019）進行評估，該數據集在標準的 ImageNet 驗證集基礎上，增加了 15 種不同類型的 corruption，每種有 5 個嚴重級別。我們僅在最嚴重的第 5 級上進行評估。同時，我們也在干凈數據上進行 TTA，以確保我們的方法在沒有分布偏移的情況下仍能保持性能。

模型：我們使用 DINOv3-Base（Siméon 等人，2025），該模型在互聯(lián)網規(guī)模的數據集上進行了預訓練。我們在源數據（ImageNet 訓練集）上，使用標準的交叉熵損失函數（即線性探測）訓練了一個線性分類頭。這在驗證集上達到了 83.57% 的 top-1 準確率。圖像按照 Krizhevsky 等人（2012）的方法，被預處理為標準的 ImageNet 尺寸（224×224）。

基線方法：我們評估了不進行任何測試時更新的情況，以衡量源模型的魯棒性。我們還將所提方法與 Tent（Wang 等人，2021）進行了比較，Tent 方法僅更新歸一化層的參數，分別在情節(jié)性和在線兩種情況下進行。

結果。表1顯示，與未經過自適應的源模型相比，我們的方法在ImageNet-C上提高了平均準確率。單獨使用輸出頭熵損失的效果優(yōu)于單獨使用注意力熵損失，但將兩者結合使用能取得更佳的結果。在干凈數據上，僅使用注意力損失會輕微損害性能（83.57% → 82.95%），而使用組合損失則能略微提升準確率（83.57% → 83.80%）。

總體而言，我們的組合目標函數實現了最佳的平均corruption準確率，將平均準確率從47.54%（源模型）提升到了54.02%（提升了6.48個百分點）。基于注意力的熵最小化方法在處理模糊類及類似模糊的corruption（如彈性變換）時效果最好。從圖2可以看出，這是因為模糊圖像會使注意力圖變得更加分散，而這正是注意力熵損失（）直接解決的問題。注意力損失的可視化效果見附錄A。

在我們的實驗中，我們發(fā)現Tent（在線）方法對學習率高度敏感，這與Zhao等人（2023）的觀察一致。較大的學習率能提升在某些corruption上的性能，但會導致模型在其他corruption上崩潰，使得平均準確率低于源模型。我們選擇的學習率是在第5級測試集上能達到最大平均準確率的值。

4 結論與未來工作

我們提出了LookSharp，一種簡單的測試時自適應方法，該方法通過最小化CLS令牌到圖像塊令牌的注意力熵來實現，并在ImageNet-C上展示了一致的性能提升，尤其是在處理模糊類corruption時。將注意力熵與輸出熵相結合能獲得最佳的整體準確率，這表明這兩種信號是互補的。

局限性。本方法由于需要進行前向-反向-前向傳播，會帶來額外的計算開銷，并且要求模型架構中包含自注意力機制。基于注意力的自適應很可能也依賴于學習到的注意力圖的質量，而注意力圖的質量會因不同的架構和預訓練方式而異。

盡管本工作側重于通過簡潔的實驗來展示注意力熵作為一種無監(jiān)督TTA損失函數的有效性，但未來的工作可以探索根據輸入特征對注意力熵和輸出熵進行動態(tài)加權，或者利用從淺層到深層的多層注意力損失，以期進一步提升性能。

原文鏈接：https://www.arxiv.org/pdf/2511.18925

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.