国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025 | DePass:通過單次前向傳播分解實現(xiàn)統(tǒng)一特征歸因

0
分享至



共同一作:洪翔宇,清華大學電子系大四本科生,曾獲清華大學蔣南翔獎學金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發(fā)表論文。姜澈,清華大學電子系博士三年級在讀,主要研究方向為LLM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發(fā)表論文。

隨著大型語言模型在各類任務中展現(xiàn)出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內(nèi)部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現(xiàn)有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨立的特定方法,缺乏統(tǒng)一且高效的分析框架。

針對這一問題,來自清華、上海 AI Lab 的研究團隊提出了全新的統(tǒng)一特征歸因框架——DePass(Decomposed Forward Pass)。

該方法通過將前向傳播中的每個隱藏狀態(tài)分解為多個可加子狀態(tài),并在固定注意力權重與 MLP 激活的情況下對其逐層傳播,實現(xiàn)了對 Transformer 內(nèi)部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經(jīng)元乃至殘差流子空間等多個層面上進行歸因分析,為機制可解釋性研究提供了統(tǒng)一而細粒度的新視角。



  • 論文標題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
  • 論文鏈接: https://arxiv.org/pdf/2510.18462
  • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

問題分析:

現(xiàn)有歸因方法的局限性

現(xiàn)有的歸因方法大致可以分為以下幾類:

  • 基于噪聲消融和激活修補的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
  • 基于梯度的歸因方法:這類方法在理論上面臨挑戰(zhàn),難以提供細粒度的解釋。
  • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認知對齊,但通常無法達到細粒度的組件級別(如神經(jīng)元或注意力頭),且非保守的近似可能會損害歸因的可信度。

DePass:

一種全新的歸因框架



實驗驗證:

DePass 的有效性

DePass 提供了一個統(tǒng)一的歸因框架,支持在輸入 token、注意力頭、神經(jīng)元以及殘差流子空間等多個層面進行一致歸因,無需修改模型結(jié)構(gòu)或依賴任務特定近似,并可自然銜接人類推理及稀疏字典學習(如 SAE)等方法。研究團隊在 token 級、模型組件級和子空間級歸因任務上驗證了 DePass 的有效性:

Token-Level DePass——輸出歸因到輸入:精準識別驅(qū)動預測的核心證據(jù)

我們首先在輸出到輸入 token 的歸因任務上驗證了 DePass 的表現(xiàn),目標是評估每個輸入 token 對模型最終輸出的實際貢獻。

在「Disrupt-top」實驗中,移除 DePass 判定最關鍵的 tokens 會導致模型輸出概率急劇下降,表明其捕捉到了真正驅(qū)動預測的核心證據(jù);而在「Recover-top」實驗中,DePass 保留的極少量 tokens 依然能高度恢復模型判斷。這表明 DePass 能夠更忠實地刻畫模型內(nèi)部的信息流動與輸入貢獻關系,實現(xiàn)高可信度的 token 級歸因分析。



Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

DePass 不僅能在 token 層面追蹤預測依據(jù),還能精準定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關鍵來源(如誤導性信息),并顯著提升模型的可控性與可解釋性。

在事實性任務中,團隊利用 DePass 將「虛假信息子空間」拆解后,進一步將其激活分配到每個輸入 token。歸因結(jié)果清晰揭示了哪些詞觸發(fā)了模型的錯誤方向?;谶@些 token 進行定向遮罩后,模型在 CounterFact 上的事實性準確率從約10% → 40%+大幅提升,顯著優(yōu)于現(xiàn)有 probe-based masking 方法。



Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經(jīng)元的實際功能

DePass 能直接量化每個注意力頭與 MLP 神經(jīng)元對預測的真實貢獻,在遮罩實驗中顯著優(yōu)于梯度、激活等傳統(tǒng)重要性指標。

當遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準確率下降更快;當僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務上均顯著超越 AtP、Norm 等主流歸因指標。



Subspace-Level DePass——子空間級歸因

DePass 還可以用于研究隱狀態(tài)中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進行分析。

我們訓練了一個語言分類器,并將其權重方向作為語言子空間的基向量。隨后,將中間層的隱狀態(tài)分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態(tài)在網(wǎng)絡中分別獨立傳播至最終層,并通過 LM Head 解碼,以觀察其對應輸出。

  • 語言子空間:經(jīng) t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現(xiàn)語言特征集中分布。
  • 語義子空間:獨立解碼結(jié)果跨語言一致,例如無論輸入語言為何,都會生成相同的事實答案(如「Dutch」)。

這一結(jié)果說明 DePass 能忠實保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



(左)對 token 在語言子空間上的投影進行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

總結(jié)

DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結(jié)并分配注意力得分和 MLP 激活,DePass 實現(xiàn)了無損的加性分解,可無縫適配各種 Transformer 架構(gòu)。

實驗結(jié)果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實性。我們期望 DePass 能成為機制可解釋性研究中的通用工具,推動社區(qū)在更廣泛的任務與模型上探索其潛力與應用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

懂球帝
2026-04-20 08:00:07
世錦賽戰(zhàn)報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

世錦賽戰(zhàn)報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

球場沒跑道
2026-04-20 05:38:54
39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

攬星河的筆記
2026-04-14 15:18:30
天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

抽象派大師
2026-04-19 15:45:34
貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
若沒有此人,中國歷史或?qū)⒏膶?!晚年離休后享受什么待遇?

若沒有此人,中國歷史或?qū)⒏膶懀⊥砟觌x休后享受什么待遇?

史之銘
2026-04-19 15:49:20
瑞典:國王拒絕與澤連斯基握手的說法,是“錯誤且丑陋的”。俄媒在這個問題上斷章取義!

瑞典:國王拒絕與澤連斯基握手的說法,是“錯誤且丑陋的”。俄媒在這個問題上斷章取義!

李未熟擒話2
2026-04-19 17:08:59
4月19日最新油價,國際油價大降21.8%,國內(nèi)汽柴油“顯著”下跌中

4月19日最新油價,國際油價大降21.8%,國內(nèi)汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
斯諾克世錦賽:丁俊暉首??!土豆哥單桿70分追平,張安達優(yōu)勢縮水

斯諾克世錦賽:丁俊暉首敗!土豆哥單桿70分追平,張安達優(yōu)勢縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

火山詩話
2026-04-20 06:31:57
55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經(jīng)縱橫談
2026-04-19 19:03:09
“鳥巢”要拆?花34億建成的奧運地標,如今是賺了還是賠了?

“鳥巢”要拆?花34億建成的奧運地標,如今是賺了還是賠了?

拳擊時空
2026-04-20 06:18:44
都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

長風文史
2026-04-18 16:39:15
“絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

“絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

瀟湘晨報
2026-04-19 11:48:20
黎筍長子曾坦言:越南當年敢打中國有3個原因,結(jié)果發(fā)現(xiàn)全是錯覺

黎筍長子曾坦言:越南當年敢打中國有3個原因,結(jié)果發(fā)現(xiàn)全是錯覺

顧史
2026-04-18 09:17:19
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
1910年,孫中山原配和三個孩子合影,容貌憔悴,命運坎坷!

1910年,孫中山原配和三個孩子合影,容貌憔悴,命運坎坷!

史之銘
2026-04-19 17:44:23
天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

心中的麥田
2026-03-06 19:27:32
25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫(yī)生:小事引發(fā)災難性后果

25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫(yī)生:小事引發(fā)災難性后果

大風新聞
2026-04-19 10:14:13
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
2026-04-20 09:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

游戲
本地
時尚
藝術
親子

寶可夢真的能吃!寶可夢30周年 御三家變美食

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

今年最流行的衣服竟然是它?高級又氣質(zhì)!

藝術要聞

鄭麗文手稿返臺,書圣時代是否重現(xiàn)?驚人細節(jié)曝光!

親子要聞

孩子這些異常行為,可能是隱蔽的求救信號!

無障礙瀏覽 進入關懷版