国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頂會研究系列 | EFLA:可精確求解的穩(wěn)定線性注意力!

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長。

wisemodel社區(qū)持續(xù)舉辦系列頂會會享,歡迎研究人員的團(tuán)隊(duì)報(bào)名分享與投稿

線性注意力和 SSM 這兩年被頻繁拿出來討論,原因很簡單:softmax attention 的二次復(fù)雜度在長上下文場景下已經(jīng)越來越難以接受。但與此同時,一個同樣反復(fù)出現(xiàn)的現(xiàn)象也越來越明顯——只要上下文一拉長、輸入尺度一放大,很多線性注意力模型就開始數(shù)值不穩(wěn)定,性能迅速退化。

通常的解釋路徑是熟悉的:線性注意力缺少 softmax 的歸一化、對輸入能量敏感、需要額外的 gate 或 decay 機(jī)制來穩(wěn)住訓(xùn)練。但 EFLA 這篇論文提出了一個更底層、也更“數(shù)學(xué)正確”的解釋:問題不在注意力本身,而在于之前一直在用一個過于粗糙的數(shù)值方法去實(shí)現(xiàn)它。


項(xiàng)目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

線性注意力其實(shí)在“解一個連續(xù)系統(tǒng)”

如果把 DeltaNet 這一類線性注意力的狀態(tài)更新寫下來,會發(fā)現(xiàn)它本質(zhì)上是在維護(hù)一個 key→value 的關(guān)聯(lián)矩陣,并在每個時間步對這個矩陣做一次小幅修正。這個過程通常被解釋為 online regression 或 fast weights:


但 EFLA 指出,更自然的理解其實(shí)是:

這是一個連續(xù)時間動力系統(tǒng),被強(qiáng)行離散化成了逐 token 的更新。


在連續(xù)時間里,這個系統(tǒng)的行為非常清晰:一方面,舊的記憶沿著當(dāng)前 key 的方向指數(shù)衰減;另一方面,新的 value 沿著同一個方向被注入進(jìn)狀態(tài)中。換句話說,這是一個帶衰減項(xiàng)和輸入項(xiàng)的一階線性 ODE。

而在代碼里看到的 DeltaNet 更新,其實(shí)只是對這個連續(xù)系統(tǒng)做了一步最簡單的數(shù)值積分。

02.

真正的問題:之前一直在用Euler

從數(shù)值分析的角度看,DeltaNet 使用的更新方式等價(jià)于顯式 Euler 方法。Euler 的優(yōu)點(diǎn)是簡單、快,但它也是最低階的一種數(shù)值積分方法。它的誤差在單步看起來很小,但會隨著步數(shù)線性累積。

把這個事實(shí)代回線性注意力,就會發(fā)現(xiàn)很多“經(jīng)驗(yàn)現(xiàn)象”突然說得通了:

為什么序列一長就容易不穩(wěn)?為什么 key 的范數(shù)一大,狀態(tài)就會爆?為什么在高能輸入或者 OOD scale 下模型直接崩掉?

不是模型設(shè)計(jì)出了問題,而是你在用一個一階方法,去長期積分一個本來就帶指數(shù)行為的系統(tǒng)。

03.

那為什么不直接“把系統(tǒng)解對”

聽起來很自然的一個想法是:既然這是一個連續(xù)系統(tǒng),那能不能直接用更高階的方法,甚至直接算解析解?

答案通常是否定的。原因也很現(xiàn)實(shí):連續(xù)系統(tǒng)的精確解會涉及矩陣指數(shù),而對一般矩陣來說,解 的計(jì)算代價(jià)是

,在注意力里根本不可接受。但 EFLA 的關(guān)鍵發(fā)現(xiàn)是:線性注意力里的這個系統(tǒng),有一個被長期忽略的特殊結(jié)構(gòu)。

04.

關(guān)鍵在于:這個矩陣幾乎永遠(yuǎn)是rank-1

在 DeltaNet 和類似方法中,決定衰減方向的矩陣,實(shí)際上是由當(dāng)前 key 的外積構(gòu)成的。也就是說,它只有一個非零方向,本質(zhì)上是 rank-1。


這個結(jié)構(gòu)帶來了一個非?!鞍讚臁钡慕Y(jié)果:矩陣指數(shù)可以被化簡成一個閉式表達(dá),而且計(jì)算量仍然是線性的。

換句話說,原本看起來不可能的“精確解”,在這里突然變成了可計(jì)算的。

05.

EFLA做的事情,其實(shí)非常克制

最終得到的 EFLA 更新形式,和 DeltaNet 幾乎一模一樣:


原來直接使用的地方,被替換成了一個由 key 能量自動調(diào)節(jié)的系數(shù)。


這個系數(shù)的行為非常直觀:當(dāng) key 的能量很大時,更新會自然飽和,避免狀態(tài)被一次輸入沖垮;當(dāng) key 很弱時,它又會退化回原來的 delta rule 行為。重要的是,這不是人為設(shè)計(jì)的 gate,而是連續(xù)系統(tǒng)的精確解本來就應(yīng)該長成這樣。

06.

穩(wěn)定性不是“調(diào)出來的”,而是算出來的

這也解釋了一個論文中看似反直覺、但非常一致的實(shí)驗(yàn)現(xiàn)象:EFLA 在訓(xùn)練早期通常更穩(wěn)、更抗噪,但在后期可能需要更大的全局學(xué)習(xí)率。原因并不復(fù)雜。精確解帶來的指數(shù)衰減,本身就會壓縮高能更新的幅度。如果學(xué)習(xí)率還沿用 DeltaNet 的設(shè)置,模型反而會“更新不夠”。這不是缺點(diǎn),而是精確解的自然代價(jià)。

07.

工程上,它并不更難用

一個很容易被誤解的點(diǎn)是:EFLA 會不會犧牲并行性,或者只能串行計(jì)算?

答案是否定的。因?yàn)樗母陆Y(jié)構(gòu)與 DeltaNet 完全同構(gòu),所有已有的 chunk-wise 并行技巧、硬件友好的實(shí)現(xiàn)路徑都可以直接復(fù)用。從工程視角看,它更像是把一個近似更新,替換成了一個物理上正確的更新核。

EFLA 并沒有試圖“發(fā)明一種更聰明的注意力”。它只是指出了一件被長期忽略的事實(shí):線性注意力本來就是一個連續(xù)時間系統(tǒng),而之前一直在用最低階的方法去解它。在 rank-1 這個極其常見的結(jié)構(gòu)下,精確解并不昂貴。而一旦把系統(tǒng)解對了,很多穩(wěn)定性問題會自然消失。

編輯:成蘊(yùn)年

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

觀史搜尋著
2026-03-26 01:10:50
理解城市 | 開封文旅原來這樣“火”

理解城市 | 開封文旅原來這樣“火”

澎湃新聞
2026-03-26 12:58:34
美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

矚望云霄
2026-03-25 18:20:59
揭開美國糧價(jià)低的真面目!他們騙人的鬼把戲終于被揭穿了!

揭開美國糧價(jià)低的真面目!他們騙人的鬼把戲終于被揭穿了!

老范談史
2026-03-25 22:45:51
出大事了,以色列新計(jì)劃曝光,聯(lián)合國急呼?;穑谝粋€反抗者出現(xiàn)

出大事了,以色列新計(jì)劃曝光,聯(lián)合國急呼?;?,第一個反抗者出現(xiàn)

李健政觀察
2026-03-26 17:00:52
國際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

國際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

每日經(jīng)濟(jì)新聞
2026-03-26 15:11:37
國內(nèi)航線燃油費(fèi)4月5日上漲

國內(nèi)航線燃油費(fèi)4月5日上漲

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-26 19:23:14
新加坡預(yù)測:印度將趕中超美!美印爭世界老大,中國將成新阿三

新加坡預(yù)測:印度將趕中超美!美印爭世界老大,中國將成新阿三

荷蘭豆愛健康
2026-03-26 08:26:08
省長劉捷在臺州專題調(diào)研開發(fā)區(qū)高質(zhì)量發(fā)展工作

省長劉捷在臺州專題調(diào)研開發(fā)區(qū)高質(zhì)量發(fā)展工作

臺州發(fā)布
2026-03-26 20:57:28
韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

體壇風(fēng)之子
2026-03-26 07:00:06
金智媛現(xiàn)身寶格麗米蘭大秀站C位,劉亦菲慘淪配角,尷尬表情曝光

金智媛現(xiàn)身寶格麗米蘭大秀站C位,劉亦菲慘淪配角,尷尬表情曝光

流云隨風(fēng)去遠(yuǎn)方
2026-03-26 18:36:05
伊朗兩名高級將領(lǐng)殞命,巴蓋里家族再添亡魂,強(qiáng)硬派折損慘重

伊朗兩名高級將領(lǐng)殞命,巴蓋里家族再添亡魂,強(qiáng)硬派折損慘重

老馬拉車莫少裝
2026-03-26 00:02:39
美軍司令:一旦臺海戰(zhàn)爭打響,6個航母戰(zhàn)斗群2個陸戰(zhàn)師將全都出動

美軍司令:一旦臺海戰(zhàn)爭打響,6個航母戰(zhàn)斗群2個陸戰(zhàn)師將全都出動

霽寒飄雪
2026-03-26 09:54:09
終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

另子維愛讀史
2026-03-25 22:34:08
長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調(diào)查36383名老人,給出答案

長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調(diào)查36383名老人,給出答案

39健康網(wǎng)
2026-03-11 20:11:03
2025年演唱會票房最高的10位歌手排行榜,這些歌手太賺錢了!

2025年演唱會票房最高的10位歌手排行榜,這些歌手太賺錢了!

小椰的奶奶
2026-03-26 08:40:13
烏克蘭摧毀俄羅斯最大的基里希煉油廠!俄最大港口持續(xù)燃燒

烏克蘭摧毀俄羅斯最大的基里希煉油廠!俄最大港口持續(xù)燃燒

項(xiàng)鵬飛
2026-03-26 21:13:57
薩巴倫卡贏鄭欽文后吃100美元漢堡 頂奢!魚子醬+金箔碎她說超好吃

薩巴倫卡贏鄭欽文后吃100美元漢堡 頂奢!魚子醬+金箔碎她說超好吃

勁爆體壇
2026-03-26 08:10:23
因禍得福!燒129年的地下火被滅,新疆憑空多了個金飯碗

因禍得福!燒129年的地下火被滅,新疆憑空多了個金飯碗

混沌錄
2026-03-24 23:03:10
2026-03-26 22:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
時尚
教育
游戲
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

這些才是適合春季的穿搭!不沉悶、不單調(diào),大方靚麗又減齡

教育要聞

罵人沒有殺傷力?那不是白忙活嗎?

50萬銷量達(dá)成!這款I(lǐng)GN 9分獨(dú)游走紅 官方發(fā)推慶賀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版