網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

再談注意力：阿里、Kimi 都在用的 DeltaNet 和線性注意力新改進(jìn)

2025-12-01 16:21:04　來(lái)源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

不僅是提升效率，線性注意力在數(shù)據(jù)受限情況下也可能提升效果。

訪談丨程曼祺

整理丨姚一楠

注意力機(jī)制（Attention）是 Transformer 架構(gòu)大型語(yǔ)言模型（LLM）的核心機(jī)制，它決定了模型如何處理、理解海量的文本信息。然而，傳統(tǒng)全注意力機(jī)制的計(jì)算開(kāi)銷(xiāo)會(huì)隨文本長(zhǎng)度呈平方級(jí)暴增，這正是限制模型處理長(zhǎng)文檔、長(zhǎng)上下文的關(guān)鍵瓶頸。

今年初，《晚點(diǎn)聊》的 103 期和 104 期節(jié)目分別討論了注意力機(jī)制改進(jìn)的兩個(gè)主要方向：“稀疏注意力” 和 “線性注意力”。（文字版見(jiàn)《大模型 “注意力簡(jiǎn)史”：與兩位 AI 研究者從 DeepSeek、Kimi 最新改進(jìn)聊起》和《3700 次預(yù)訓(xùn)練尋找 “線性注意力” 非共識(shí)，MiniMax-01 開(kāi)發(fā)者講述 4 年探索》）

這期節(jié)目，我們繼續(xù)關(guān)注線性注意力的新進(jìn)展。在 9 月和 10 月底，阿里巴巴和月之暗面先后開(kāi)源 Qwen3-Next 和 Kimi Linear 模型，其中的注意力機(jī)制都使用了線性注意力 DeltaNet 和 full attention（傳統(tǒng)的全注意力）混合的方式。

此后在社交媒體上，兩家公司的研究人員也透露，他們很可能在下一代旗艦?zāi)Ｐ椭?，使用新進(jìn)釋放的這些線性注意力改進(jìn)成果。

本期《晚點(diǎn)聊》，我們就邀請(qǐng)到了 DeltaNet 核心貢獻(xiàn)者之一楊松琳來(lái)聊聊 DeltaNet 和線性注意力的發(fā)展脈絡(luò)。她也是線性注意力開(kāi)源小組 FLA 的發(fā)起者，正在 MIT CSAIL 讀博士三年級(jí)。

DeltaNet 的發(fā)展是多位研究者長(zhǎng)期累積的結(jié)果。在 2021 年，Imanol Schlag、Kazuki Irie 和 Jürgen Schmidhuber 在線性注意力中引入類(lèi) Delta Rule 的可糾錯(cuò)更新規(guī)則；2023 年，Kazuki Irie 等從理論與形式語(yǔ)言視角刻畫(huà)線性 Transformer 及其擴(kuò)展的計(jì)算能力邊界；2024 年，楊松琳等提出沿序列長(zhǎng)度并行的 DeltaNet 訓(xùn)練算法以適配現(xiàn)代硬件；2025 年，楊松琳等進(jìn)一步引入門(mén)控形式提出 Gated DeltaNet，強(qiáng)化記憶控制與檢索表現(xiàn)。

楊松琳介紹了線性注意力和 DeltaNet 的發(fā)展脈絡(luò)，為何 21 年剛被提出時(shí)沒(méi)引起太多注意，后來(lái)怎么進(jìn)化的。我們也討論了重新去做 full attetnion 的 MiniMax（MiniMax 在今年初發(fā)布的 M1 中使用了線性注意力，在今年 10 月發(fā)布的 M2 中，轉(zhuǎn)向全部使用 full attention），和未來(lái)要在旗艦?zāi)Ｐ蜕嫌镁€性注意力的 Kimi 與阿里的不同選擇；線性注意力的優(yōu)劣勢(shì)，以及一些腦洞——如果算力無(wú)限，還需要線性注意力？楊松琳也分享了，作為 AI 研究員，怎么獲得交叉技能，怎么開(kāi)始發(fā)起 FLA 小組等成長(zhǎng)經(jīng)歷。

DeltaNet 在 2021 年就被提出，但并行

晚點(diǎn)：注意力機(jī)制在大語(yǔ)言模型里有什么用，為什么重要？

楊松琳：語(yǔ)言模型預(yù)測(cè)下一個(gè)詞時(shí)，若要用到前面的信息，就必須在句子層面做運(yùn)算，把不同位置的信息混合。注意力機(jī)制通過(guò)建模兩點(diǎn)之間成對(duì)的關(guān)系來(lái)整合前后文信息，最直接、最常用的是 Softmax Attention，平方復(fù)雜度的機(jī)制（如下圖）?，F(xiàn)在注意力也可以泛指在序列維度上做信息聚合的算子，比如線性注意力。

來(lái)源：Attention in transformers，3Blue1Brown

晚點(diǎn)：注意力機(jī)制最近好幾個(gè)新動(dòng)向都和你研究的 DeltaNet 有關(guān)，可以簡(jiǎn)單解釋下 DeltaNet 是什么？

楊松琳：線性注意力的核心思想，最初是將自注意力（Self-Attention）中的 Softmax 函數(shù)移除。經(jīng)過(guò)數(shù)學(xué)上的等價(jià)變換，它就可以被重寫(xiě)成循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的遞推形式，從而將復(fù)雜度從平方級(jí)降至線性。2020 年的論文 Transformers are RNNs（《Transformer 是循環(huán)神經(jīng)網(wǎng)絡(luò)》）最早確立了這個(gè)研究方向。

隨后的改進(jìn)主要集中在兩個(gè)方面：加門(mén)控（Gate）機(jī)制或引入 Delta Rule（Delta 規(guī)則）。

其中，Delta Rule 是基于 2021 年 LSTM 作者 Jürgen Schmidhuber（于爾根·施密德胡伯）團(tuán)隊(duì)的論文 Linear Transformers Are Secretly Fast Weight Programmers（《線性 Transformer 本質(zhì)上是快速權(quán)重編程器》）。該研究以快速權(quán)重編程的視角重新解釋了線性注意力，并指出：

- 線性注意力默認(rèn)使用的權(quán)重更新方式是赫布學(xué)習(xí)（Hebbian Learning）。

- 為了實(shí)現(xiàn)更高效的上下文檢索（Retrieval）能力——即 “前面寫(xiě)入一組 Key-Value，后面用 Key 就能取回對(duì)應(yīng)的 Value”——可以將更新規(guī)則替換為更強(qiáng)大的 Delta Rule。

DeltaNet 正是在這一思路下誕生的，它利用 Delta Rule 來(lái)更快地寫(xiě)入和更新權(quán)重（即記憶狀態(tài)）。

DeltaNet 起初不火，一是缺少關(guān)鍵架構(gòu)改進(jìn)，二是實(shí)現(xiàn)不夠好。我去年在 NeurIPS 發(fā)的 Parallelizing Linear Transformers with the Delta Rule over Sequence Length（《利用 Delta 規(guī)則在序列長(zhǎng)度上并行化線性 Transformer》）就是專(zhuān)門(mén)討論如何并行化這個(gè)遞歸更新。

晚點(diǎn)：那從 2021 年 DeltaNet 被提出，到你們做的這個(gè)并行化的優(yōu)化之間，還有哪些有關(guān) DeltaNet 或者說(shuō)線性注意力的改進(jìn)思路？

楊松琳：近幾年網(wǎng)絡(luò)模塊發(fā)展很快，如 TransNormerLLM 架構(gòu) 引入了新的歸一化方案，微軟亞研院 RetNet 用了輸出門(mén)模塊；后面 Mamba 把短卷積帶火。短卷積、輸出歸一化、門(mén)控成了標(biāo)配。

但這些大多是在架構(gòu)層面改進(jìn)，而非更新規(guī)則，包括線性注意力和許多 RNN 變體的更新規(guī)則基本仍在最初框架里，只是加了一點(diǎn)簡(jiǎn)單的衰減。

晚點(diǎn)：更新規(guī)則改進(jìn)和模型架構(gòu)改進(jìn)的區(qū)別是什么？

楊松琳：架構(gòu)改進(jìn)動(dòng)的是外層結(jié)構(gòu)，算子沒(méi)變，比如在輸出端加門(mén)控。線性注意力很早就在輸出上加門(mén)控，Qwen 的 Gated Attention 本質(zhì)也是輸出門(mén)控；底層算子還是 GQA，用 FlashAttention 訓(xùn)練。

更新規(guī)則的改進(jìn)則是直接改算子本身，外層架構(gòu)仍照著近年驗(yàn)證有效的方案來(lái)用就行。比如線性注意力一般能寫(xiě)成一階線性遞歸：輸入通常是外積，轉(zhuǎn)移矩陣默認(rèn)是單位矩陣，改更新規(guī)則就是改這個(gè)轉(zhuǎn)移矩陣。GLA、Mamba 把單位矩陣換成對(duì)角矩陣；DeltaNet 把它變成低秩單位矩陣；Kimi 把單位矩陣放寬為可學(xué)習(xí)的對(duì)角矩陣；RWKV-7 則用對(duì)角低秩矩陣作為轉(zhuǎn)移矩陣。

晚點(diǎn)：DeltaNet，包括你后面又做的 Gated DeltaNet 具體是怎么改進(jìn)更新規(guī)則的？

楊松琳：我們沒(méi)發(fā)明全新東西，更多是用新算法把老技術(shù)重新做到了可用。就是前面提到的，我去年在 NeurIPS 的那篇工作，就是把它并行化，讓它真正能大規(guī)模訓(xùn)練。

隨后我在英偉達(dá)實(shí)習(xí)做了 Gated DeltaNet，它在 DeltaNet 上加了一個(gè)衰減?？梢园阉闯?DeltaNet 與 Mamba 2 的結(jié)合：保留 RetNet、線性注意力等當(dāng)代架構(gòu)思路，同時(shí)繼承更強(qiáng)的 Delta Rule 更新，再加上衰減。衰減本質(zhì)類(lèi)似遺忘門(mén)，對(duì) RNN 很重要，因?yàn)樗碾[藏狀態(tài)有限，必須忘掉一些，否則狀態(tài)會(huì)被撐爆。

晚點(diǎn)：之前一些做算法的研究員告訴我，他們不擅長(zhǎng)改算子。我理解你也是算法出身的，但會(huì)自己來(lái)改算子，是因?yàn)槟阕詫W(xué)了 Infra？

楊松琳：可以這么說(shuō)。我碩士時(shí)，做過(guò) “上下文無(wú)關(guān)文法”，需要把大量 python 運(yùn)算并行到 GPU 上，就寫(xiě) CUDA 加速。后來(lái)做模型架構(gòu)，寫(xiě)算子更順手，于是做軟硬件結(jié)合的算法設(shè)計(jì)，讓模型在 GPU 上跑更快。

我對(duì)并行加速還挺有興趣的。剛讀博士時(shí)，斯坦福有個(gè)研究組叫 Hazy Research，F(xiàn)lashAttention、Mamba 都出自那兒，他們倡導(dǎo)硬件友好型算法。我有學(xué)習(xí)他們的風(fēng)格，既寫(xiě)算子也做算法。

Qwen 和 Kimi 下一代旗艦?zāi)Ｐ涂赡苻D(zhuǎn)向線性注意力，Minimax M2 則用回全注意力

晚點(diǎn)：回到最近的一些進(jìn)展，阿里的 Qwen3-Next 以及 Kimi 的 Kimi Linear 和 DeltaNet 的具體關(guān)系是？

楊松琳：Gated DeltaNet 今年被 Qwen 團(tuán)隊(duì)系統(tǒng)地測(cè)了一輪。他們對(duì)全局注意力、混合滑窗注意力、Mamba 2 和 Gated DeltaNet 做了真正的 apple-to-apple 的對(duì)比，結(jié)果 Gated DeltaNet 最好，于是用進(jìn)了 Qwen3-Next。

Kimi Linear 用的 KDA 基本是 Gated DeltaNet 的細(xì)粒度版：DeltaNet 部分不變，但把衰減從粗到細(xì)。原先 high-dim（高維，指模型的特征表示向量） 128 個(gè) channel 共用一個(gè)遺忘率，現(xiàn)在每個(gè) channel 各有一個(gè)，有的忘得快，有忘得的慢，用來(lái)存不同時(shí)間尺度的信息。細(xì)粒度衰減的思路本來(lái)也常見(jiàn)，比如我在 ICML 2024 的 Gated 線性注意力（Gated Linear Attention Transformers with Hardware-Efficient Training）就用了這種精細(xì)衰減。

因此 KDA 可以看成 Gated 線性注意力 + DeltaNet，而 Gated DeltaNet 是 DeltaNet + Mamba 2；在衰減粒度上，它們關(guān)系就像 GLA 和 Mamba 2 的差別。

晚點(diǎn)：為什么 Qwen3-Next 和 Kimi Linear 現(xiàn)在都要把線性注意力和完全注意力（full Attention）混用，不能全用線性的？

楊松琳：線性注意力給速度，完全注意力給容量。線性注意力的容量太小，短文本還可以應(yīng)付，到長(zhǎng)文本就會(huì)表現(xiàn)很爛。線性注意力機(jī)制每層有大小固定的 RNN 隱藏狀態(tài)，層數(shù)和維度一旦確定，整套模型的可存信息量也就固定了。

傳統(tǒng) Softmax Attention 的 KV Cache 可以看成隱藏狀態(tài)，會(huì)隨著 token 線性增加，長(zhǎng)文本不會(huì)被容量卡??；但推理時(shí)要從全局讀取信息，KV Cache 過(guò)大時(shí)會(huì)非常慢。（注：KV Cache ：在推理時(shí)緩存已生成 token 的 Key 和 Value，用來(lái)避免重復(fù)計(jì)算注意力，從而加速生成。）

晚點(diǎn)：現(xiàn)在用 DeltaNet 的模型都不大，Qwen3-Next 是 80B ，Kimi Linear 是 48B 。把線性注意力用到參數(shù)更大的模型上，有什么瓶頸嗎？

楊松琳：工業(yè)界的常見(jiàn)做法，就是先用小模型驗(yàn)證架構(gòu)、降風(fēng)險(xiǎn)，再訓(xùn)大模型；直接在超大規(guī)模上試，兩次失敗公司就破產(chǎn)了。

千問(wèn)和 Kimi 其實(shí)都在往大模型走。最近在 Reddit 上，Kimi 團(tuán)隊(duì)透露他們的下一代旗艦?zāi)Ｐ停褪?K3 大概率繼續(xù)沿混合 KDA 方向；Qwen3-Next 的最終版本 Qwen 3.5 應(yīng)該也會(huì)走混合架構(gòu)。

晚點(diǎn)：MiniMax 很早就把線性注意力用到了超大模型上，他們?cè)诮衲瓿醢l(fā)布的 4560 億參數(shù)的 MoE M1 上，就用了混合線性注意力與全注意力的 Lightning Attention，但 10 月底發(fā)布 MiniMax M2 又回到了完全注意力。從業(yè)者是怎么討論這個(gè)轉(zhuǎn)變的？

楊松琳：大家都覺(jué)得這個(gè)現(xiàn)象挺好玩。這有點(diǎn)像，線性注意力是一個(gè) “坑”，MiniMax 趕著跳出去，Qwen 和 Kimi 又急著往里跳；不過(guò) Minimax 也沒(méi)完全失去信心，還在驗(yàn)證混合架構(gòu)。

Minimax 可能之前受 Lightning Attention 的傷太大了，一朝被蛇咬十年怕井繩。Lightning Attention 很弱，只是在最原始線性注意力上疊了粗粒度、輸入無(wú)關(guān)的衰減。他們當(dāng)時(shí)直接 Scale Up 到幾百 B ，可能是 Eval（驗(yàn)證）沒(méi)搭好。

結(jié)果 MiniMax 發(fā)現(xiàn) Lightning Attention 在 MMLU（注：測(cè)試大模型在 57 個(gè)學(xué)科上綜合知識(shí)與理解能力的標(biāo)準(zhǔn)考試題測(cè)評(píng)）等短程任務(wù)上跟完全注意力差不多，用個(gè)比較短的滑窗就夠了。但在多跳推理（注：Multi-hop Reasoning，需要模型跨越多個(gè)信息點(diǎn)、分步驟串聯(lián)線索才能得出答案的推理方式，典型例題如 “愛(ài)因斯坦出生時(shí)德國(guó)的國(guó)家元首是誰(shuí)？”）上，完全注意力能直接建模點(diǎn)對(duì)點(diǎn)關(guān)系，疊幾層就能自然形成多跳推理；線性注意力或混合結(jié)構(gòu)會(huì)把信息壓得很模糊，準(zhǔn)確率掉得很厲害。

現(xiàn)在 Agent 做任務(wù)都會(huì)想很多，多跳推理在 Agentic AI 里非常重要。MiniMax 覺(jué)得混合架構(gòu)暫時(shí)解決不了想主攻的 Agentic AI，退回完全注意力挺自然的。

他們的反思里也有不少值得學(xué)的點(diǎn)，比如基準(zhǔn)選擇：一些多跳推理 benchmark，如 BBH 其實(shí)很容易，可以找方法讓架構(gòu)表現(xiàn)很好，但不代表模型在真實(shí)場(chǎng)景里就真的會(huì)推理。

晚點(diǎn)：據(jù)你所知，DeepSeek 有來(lái)研究線性注意力機(jī)制改進(jìn)嗎？

楊松琳：他們應(yīng)該更相信稀疏注意力，年初發(fā)的 MLA 和最近 DeepSeek V3.2 的 DeepSeek-Sparse-Attention 都是稀疏注意力的改進(jìn)。

晚點(diǎn)：對(duì)比稀疏注意力和線性注意力，未來(lái)的潛力有什么區(qū)別？

楊松琳：?jiǎn)螌訚摿隙ㄊ窍∈枳⒁饬Ω鼜?qiáng)，實(shí)際應(yīng)用中不好說(shuō)。

稀疏注意力通過(guò)減少激活的 KV Cache 讀取來(lái)加速，依然需要存全部 KV Cache，每次運(yùn)算時(shí)選一些出來(lái)。大家就會(huì)有滿滿的安全感，因?yàn)?token 不容易掉。理論上 KV Cache 夠大，效果就能逼近 Softmax Attention；Softmax Attention 的 Attention Map 相當(dāng)稀疏，所以稀疏注意力的效率會(huì)更高。但當(dāng)規(guī)模很大、序列很長(zhǎng)、KV Cache 的大小本身成為瓶頸時(shí)，稀疏注意力就愛(ài)莫能助了。

線性注意力有理論缺陷，因?yàn)闋顟B(tài)空間固定，但這也能是加速推理的動(dòng)力。混合線性注意力一般 75% 的層都被換成了 RNN，RNN 的 Cache Size 在長(zhǎng)文本推理時(shí)可以忽略，KV Cache 大小就減了 3/4，可以支持更大的批量推理。批量越大，做推理效率越高，同時(shí)服務(wù)很多用戶。

不僅是提效，在數(shù)據(jù)受限的后訓(xùn)練和強(qiáng)化學(xué)習(xí)中，線性注意力可能有性能優(yōu)勢(shì)

晚點(diǎn)：如果有無(wú)限算力，大家還有動(dòng)力做完全注意力外的方法改進(jìn)嗎？

楊松琳：給我無(wú)限數(shù)據(jù)和算力，我當(dāng)然直接用完全注意力。但 bound 住（約束）我們的不僅是算力，還有數(shù)據(jù)。

我們必須用有限數(shù)據(jù)下更高效的架構(gòu)；這時(shí)候完全注意力反而是個(gè)劣勢(shì)，因?yàn)樗瑯訑?shù)據(jù)下學(xué)的比較慢，沒(méi)有引入歸納偏見(jiàn)。歸納偏見(jiàn)就是人的先驗(yàn)。

線性注意力更關(guān)注鄰近 token，在數(shù)據(jù)受限時(shí)可能表現(xiàn)更好；后訓(xùn)練、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)更少，混合架構(gòu)的優(yōu)勢(shì)可能會(huì)慢慢顯現(xiàn)。

晚點(diǎn)：所以線性注意力除了省推理算力，在數(shù)據(jù)更少的后訓(xùn)練、強(qiáng)化學(xué)習(xí)里也可能更好？

楊松琳：從電路復(fù)雜度看，完全注意力屬于 TC?，表達(dá)能力不夠，所以 Transformer 要解決復(fù)雜問(wèn)題只能靠很長(zhǎng)的思維鏈。

這是 DeltaNet 另一個(gè)被忽視的優(yōu)勢(shì)，它從計(jì)算理論上是 NC1-complete 架構(gòu)，能超越 TC?，更擅長(zhǎng)狀態(tài)追蹤，這對(duì) Agentic AI 至關(guān)重要。比如你寫(xiě)代碼時(shí)變量名不斷變，模型得在內(nèi)部維護(hù)變量狀態(tài)；再比如網(wǎng)頁(yè)操作，Agent 得知道你按什么順序做了什么、到了什么狀態(tài)，才能決策。

前段時(shí)間有篇很有意思的論文 Recurrence-Complete Frame-based Action Models，專(zhuān)門(mén)講為什么 Agentic AI 更該關(guān)注狀態(tài)追蹤和循環(huán)機(jī)制。

（注：TC? 和 NC1 是不同的復(fù)雜性類(lèi)，復(fù)雜性類(lèi)是將有相似計(jì)算難度的一群?jiǎn)栴}歸納在一起的集合。簡(jiǎn)單來(lái)說(shuō)，NC1 的電路允許 “對(duì)數(shù)深度”，而 TC? 的電路只有 “常數(shù)深度”，但 TC? 允許使用閾值門(mén)，在很少的并行層數(shù)里完成相對(duì)復(fù)雜的運(yùn)算；從已知結(jié)果看，TC? 是被包含在 NC1 里的一個(gè)子類(lèi)。很多看起來(lái) “復(fù)雜” 的認(rèn)知任務(wù)，難點(diǎn)往往在于需要較長(zhǎng)的計(jì)算深度來(lái)逐步更新和傳遞信息，例如在讀代碼時(shí)持續(xù)追蹤程序狀態(tài)和變量取值，這類(lèi)能力更依賴足夠多輪的迭代計(jì)算，而不僅僅是單步中的并行算力。）

晚點(diǎn)：你說(shuō)線性注意力帶歸納偏見(jiàn)可能提升效果；而之前 AI 界著名文章 “The Bitter Lesson” 它認(rèn)為加人為結(jié)構(gòu)和先驗(yàn)通常不如尋找可以用更多算力、數(shù)據(jù)，做更大規(guī)模訓(xùn)練的方法。

楊松琳：100 個(gè)人有 100 種對(duì) Scaling 和 The Bitter Lesson 的解讀。大語(yǔ)言模型本身就是把人類(lèi)先驗(yàn)注入進(jìn)去的例子。我更支持先把方法做到效果和效率上能 scalable，歸納偏見(jiàn)不用管，好不好驗(yàn)一下就知道了，不用多做討論。

晚點(diǎn)：你這里說(shuō)的 scalable 的關(guān)鍵是什么？

楊松琳：一是大規(guī)模訓(xùn)練下效率要有保證、算法要硬件友好；二是模型放大后依然有效，很多改動(dòng)在小模型好用，規(guī)模擴(kuò)大就失效。

研究發(fā)現(xiàn)是連點(diǎn)成線：本科時(shí)形成對(duì)矩陣代數(shù)的興趣，算法優(yōu)化看多了熟能生巧

晚點(diǎn)：你自己開(kāi)始關(guān)注到線性注意力改進(jìn)和 DeltaNet 方向的過(guò)程是怎樣的？

楊松琳：我一直喜歡做模型和算法，碩士時(shí)就喜歡看各種魔改注意力的方法，但真正開(kāi)始研究是 2023 讀博之后。當(dāng)時(shí)在想怎么選方向，既感興趣又專(zhuān)業(yè)相關(guān)。完全注意力的長(zhǎng)文本問(wèn)題似乎一直解決不掉，還有有意思的算法可玩，我就跑來(lái)玩這個(gè)領(lǐng)域了。

晚點(diǎn)：你最初有哪些一起研究的伙伴？你之前有提到過(guò)斯坦福的 Hazy Research，還有嗎？

楊松琳：他們?cè)谛录軜?gòu)上做得很多，我和他們挺熟，比如 Simran Arora、Albert Gu、Tri Dao。國(guó)內(nèi)我覺(jué)得微軟亞研董力團(tuán)隊(duì)也很強(qiáng)，我跟 RetNet 一作孫宇濤討論挺多。還有之前鐘怡然（MiniMax 前算法總監(jiān)，曾在上海 AI lab 擔(dān)任 PI）那邊的秦臻，從知乎私信聯(lián)系到我，聊著聊著就合作了一兩篇論文，就是比較早的線性 RNN 工作 HGRN。

晚點(diǎn)：現(xiàn)在的導(dǎo)師會(huì)給你什么幫助？

楊松琳：他可以幫我搞來(lái)卡。（笑）老板在最開(kāi)始會(huì)有些大方向的感覺(jué)，然后提供算力和寫(xiě)論文的支持，別的方向也不一定能幫得上學(xué)生，因?yàn)榇蠹易x博的目標(biāo)就是在這個(gè)領(lǐng)域比自己老板還懂。

但我覺(jué)得老板還是很有眼光的。他建議我關(guān)注軟硬件結(jié)合的算法設(shè)計(jì)，以及數(shù)值代數(shù)的一些思路。比如 DeltaNet 用到數(shù)值代數(shù)里經(jīng)典的 Householder 矩陣做累乘，這和線性注意力的 Chunkwise 算法能很好結(jié)合，最后就成了 Parallelizing Linear Transformers with the Delta Rule over Sequence Length 的核心想法。

晚點(diǎn)：你做算法又寫(xiě) CUDA kenel，這些跨領(lǐng)域能力怎么積累的？

楊松琳：還是興趣驅(qū)動(dòng)，我喜歡矩陣運(yùn)算和 kernel 優(yōu)化。數(shù)值計(jì)算偏應(yīng)用數(shù)學(xué)，里面有很多矩陣加速算法，深度學(xué)習(xí)也離不開(kāi)矩陣。我對(duì)這些本身就感興趣，看得比較多，熟能生巧吧。

晚點(diǎn)：你本科是在南方科技大學(xué)，這本身是一所挺新的研究性大學(xué)，當(dāng)時(shí)的學(xué)習(xí)經(jīng)歷對(duì)積累交叉知識(shí)和視野有什么幫助？

楊松琳：這還真有一些關(guān)系。我本科最喜歡的課就是線性代數(shù)，用的是吉爾伯特·斯特朗（Gilbert Strang）的經(jīng)典教材。他從空間角度講，特別直觀，讓我對(duì)線性代數(shù)興趣很強(qiáng)。如果是國(guó)內(nèi)常見(jiàn)那種上來(lái)先講行列式、公式推導(dǎo)，我可能就沒(méi)什么興趣了。

晚點(diǎn)：你改進(jìn) DeltaNet 讓它能并行的過(guò)程中，具體是怎么突破，獲得思路的？

楊松琳：并行線性遞歸要先展開(kāi)，會(huì)出現(xiàn)轉(zhuǎn)移矩陣，繼續(xù)展開(kāi)就會(huì)出現(xiàn)一個(gè)累乘，難點(diǎn)就是高效算這個(gè)累乘。DeltaNet 的轉(zhuǎn)移矩陣像 Householder，我一開(kāi)始不知道怎么算，后來(lái)發(fā)現(xiàn)可以用 WY 算法把累乘變成累加，形式和線性注意力很像，我就意識(shí)到它可能能和 Chunkwise 算法兼容。之后推了一陣，推通了還挺開(kāi)心，又找到一個(gè)好玩的算法，也能把這個(gè)方向繼續(xù) scale 上去。

晚點(diǎn)：怎么想到 Householder 矩陣，怎么意識(shí)到這個(gè)關(guān)聯(lián)的？

楊松琳：就是一直想吧，我從 2023 年 9 月開(kāi)始想怎么并行 DeltaNet，到 2024 年 3 月才想出算法；然后碩士我在上科大上過(guò)一門(mén) “矩陣方法”，講 Householder 和 QR 分解；QR 是很經(jīng)典的算法，Householder 累乘最早就是用來(lái)做 QR 的，最近我發(fā)現(xiàn)它還能加速 DeltaNet。在英偉達(dá)做 Gated 線性注意力那個(gè)項(xiàng)目時(shí)，我對(duì)線性注意力的分塊算法理解更深，這些積累后來(lái)都啟發(fā)了新想法，整體還是循序漸進(jìn)。

晚點(diǎn)：基礎(chǔ)科學(xué)里，常發(fā)生把很多看似無(wú)關(guān)的東西放在一起產(chǎn)生新成果，比如物理學(xué)有時(shí)會(huì)從幾百年前的數(shù)學(xué)里獲得啟發(fā)。你覺(jué)得 AI 能什么時(shí)候能獨(dú)立產(chǎn)生這種聯(lián)想？

楊松琳：我覺(jué)得大模型應(yīng)該能獨(dú)立發(fā)明這個(gè)（讓 DeltaNet 并行化的）算法，只要提示詞合適，它可能就能把后面所有推導(dǎo)都做出來(lái)。檢驗(yàn)推導(dǎo)正確性可以用 RL 做，只要 reward 能驗(yàn)證，RL 就能解決，用在科學(xué)發(fā)現(xiàn)上也挺有用的。

FLA 小組：像運(yùn)營(yíng)產(chǎn)品一樣 “運(yùn)營(yíng)” 技術(shù)；Kimi 從 FLA 找到線性注意力研究員

晚點(diǎn)：你去年 1 月開(kāi)始維護(hù) FLA 這個(gè)線性注意力的開(kāi)源社區(qū)，契機(jī)是什么？做開(kāi)源的過(guò)程中有什么故事或收獲？我看到貢獻(xiàn)者里有 Kimi 的研究員，也有歐洲做 AI for science 的開(kāi)發(fā)者。

楊松琳：當(dāng)時(shí)在知乎看到一篇文章，說(shuō) Flash Attention 的成功本質(zhì)是產(chǎn)品成功。Tiling、online softmax 早就有了，xFormers 里也有初版思路，但 Tri Dao（ FlashAttention 的作者）把它當(dāng)產(chǎn)品做，重視接口、重視運(yùn)營(yíng)、積極和社區(qū)互動(dòng)、按用戶需求迭代，關(guān)鍵是好用，即插即用、裝個(gè)包就能跑。

我被這套產(chǎn)品思路打動(dòng)了，就想，線性注意力為什么不做一個(gè)？線性注意力有不少算法成果，但缺好實(shí)現(xiàn)，那我就做個(gè)開(kāi)源庫(kù)，把 Triton 算子和各種 layer 寫(xiě)好，讓用戶一個(gè)庫(kù)就能跑各種帶 kernel 的模型，大家覺(jué)得好用就會(huì)留下來(lái)，還會(huì)給反饋幫我們迭代。比如后來(lái)很多人要變長(zhǎng)訓(xùn)練模塊，我們發(fā)現(xiàn)需求巨大，我就和張宇商量，直接把可變長(zhǎng)度功能全部寫(xiě)進(jìn) FLA。

晚點(diǎn)：張宇是你做了 FLA 之后，他關(guān)注到這塊，加進(jìn)來(lái)成為核心貢獻(xiàn)者的嗎？

楊松琳：張宇是 FLA 的核心貢獻(xiàn)者，也是 Gated 線性注意力的作者。我和他 2020 年就認(rèn)識(shí)了，那時(shí)我們都在做 parsing，要寫(xiě)很多并行算法。他當(dāng)時(shí)維護(hù)一個(gè)叫 supar 的庫(kù)（su 是蘇州大學(xué)，par 是 parsing），實(shí)現(xiàn)非常 clean、并行效率很好，基本所有做 parsing 的人都會(huì)用，特別酷，所以做 FLA 時(shí)我第一時(shí)間就想把他拉進(jìn)來(lái)。

他做庫(kù)水平很高，也很適合寫(xiě)并行算法和 kernel。你翻 FLA 的 GitHub，貢獻(xiàn)行數(shù)和總貢獻(xiàn)數(shù)他都是最多的，代碼特別強(qiáng)。后來(lái) Kimi 想做混合線性注意力，就想找 FLA 的作者；我人在美國(guó)，他們不可能把我弄過(guò)去，就把張宇弄去 Kimi 做研究。（注：parsing：編譯，自然語(yǔ)言處理中的一個(gè)模塊，用來(lái)分析句子的結(jié)構(gòu)，例如解析句子 “I love you” 時(shí)，parsing 會(huì)把它拆成主語(yǔ)、動(dòng)詞和賓語(yǔ)。）

晚點(diǎn)：所以是 Kimi 想做線性注意力，從 FLA 社區(qū)里注意到了張宇，然后再邀請(qǐng)他加入的？

楊松琳：對(duì)。

晚點(diǎn)：Kimi 關(guān)注到這個(gè)方向，這是誰(shuí)的判斷了？

楊松琳：應(yīng)該是 Tim 吧，周昕宇（Kimi 的聯(lián)創(chuàng)）。

晚點(diǎn)：我看張宇的頭像是個(gè)二次元少女拿著實(shí)驗(yàn)筆記本。

楊松琳：（笑）經(jīng)典 stereotype（刻板印象），二次元頭像的人 coding 強(qiáng)。

希望下一步把稀疏注意力和線性注意力真正做通，徹底解決長(zhǎng)文本問(wèn)題

晚點(diǎn)：我們可以分別講講，注意力機(jī)制接下來(lái)的演進(jìn)，首先是稀疏注意力，你看到的趨勢(shì)是什么？

楊松琳：核心是動(dòng)態(tài)稀疏，靜態(tài)稀疏之前被證明效果不太好，難點(diǎn)卡在如何在硬件上高效實(shí)現(xiàn)。動(dòng)態(tài)稀疏現(xiàn)在有兩條路：block 級(jí)和 token 級(jí)。block 級(jí)快但漏信息風(fēng)險(xiǎn)大，所以怎么選準(zhǔn) block 很關(guān)鍵；token 級(jí)更靈活但實(shí)現(xiàn)更難。

比如 NSA 是 block 級(jí)，每次只選一個(gè) block，方便連續(xù)讀入、順序計(jì)算。DSA（DeepSeek Sparse Attention）把 block 的結(jié)構(gòu)化約束扔掉，回到不結(jié)構(gòu)化的 token 級(jí)動(dòng)態(tài)稀疏。比如要選 512 個(gè) token 刻畫(huà)一個(gè) token，選 512 個(gè)最相關(guān)的 token，而不是選 512/32 個(gè) block，顆粒度更細(xì)也更準(zhǔn)，但實(shí)現(xiàn)難度大的多。

Deepseek 訓(xùn)練不是從預(yù)訓(xùn)練開(kāi)始稀疏化，而是訓(xùn)練到中途才用：先蒸餾，把 DeepSeek 3.1 轉(zhuǎn)成 MQA，再把注意力分布蒸餾到 indexer，作為初始化。

DSA 的 trick 在于，用一個(gè)非常輕量的平方復(fù)雜度 Attention 做 “indexer” 來(lái)生成全局注意力矩陣，因?yàn)檫@個(gè)算子能在 FP8 下跑、不需要 online softmax，只是矩陣乘法，所以算得很快。indexer 得到 L×L 的注意力矩陣后，直接做 Top-K，每個(gè) token 找出最相關(guān)的前 K 個(gè) token。

稀疏還有梯度傳遞的問(wèn)題，block 選不準(zhǔn)可能也是梯度質(zhì)量差導(dǎo)致。

最后，稀疏注意力也可以考慮減少 KV cache?，F(xiàn)在大多數(shù)稀疏注意力保留全部 KV cache ，幾乎和完全注意力一樣，還是會(huì)卡在 KV cache 的規(guī)模瓶頸。

晚點(diǎn)：線性注意力呢？

楊松琳：線性注意力的架構(gòu)方向驗(yàn)證得差不多了，更值得探索的是更新規(guī)則?？梢韵胂?DeltaNet 外還有哪些更新方式既能更好地并行實(shí)現(xiàn)，又更具表達(dá)力。

另外，沿著 DeltaNet 還能繼續(xù)做很多，比如加衰減、norm 衰減；DeltaNet 在 test-time training 視角就是近似梯度下降，有些工作像 DeltaProduct 每步會(huì)做多次梯度下降，而不是一次；還有動(dòng)態(tài)擴(kuò)容思路，如記憶混合，把 RNN 的狀態(tài)當(dāng)成 MLP 的權(quán)重矩陣，既然可以在權(quán)重矩陣上做 MoE ，那么也能在 RNN 的記憶狀態(tài)做 MoE；最近也研究有把滑窗和線性注意力結(jié)合，鄰近 token 保留滑窗，遠(yuǎn)距離用線性注意力壓縮。

晚點(diǎn)：你覺(jué)得當(dāng)前的注意力機(jī)制離理想狀態(tài)還差什么？

楊松琳：先不說(shuō)理想，我更希望下一步看到有人把稀疏注意力和線性注意力真正做通。現(xiàn)在的混合注意力依然在全局保留完全注意力層，長(zhǎng)文本解碼時(shí)還是會(huì)被它拖慢。如果能把所有完全注意力都換成稀疏注意力，比如 DSA 混 KDA 之類(lèi)的組合，至少能把長(zhǎng)文本問(wèn)題階段性解決，KV cache 規(guī)模降下來(lái)，就能做更多長(zhǎng)文本應(yīng)用，也能做更多 agentic 任務(wù)。（01:18:43）

晚點(diǎn)：現(xiàn)在大家都是混線性注意力和完全注意力的，而不是混線性注意力和稀疏注意力，原因是什么？

楊松琳：我覺(jué)得架構(gòu)研究還是要扎實(shí)，一次動(dòng)一點(diǎn)、驗(yàn)證透，再動(dòng)下一步，不可能一步邁太大。先保留一些完全注意力，用來(lái)驗(yàn)線性注意力；混合架構(gòu)在旗艦?zāi)Ｐ蜕向?yàn)證穩(wěn)定后，再去驗(yàn)證稀疏注意力也不遲。（01:19:59）

晚點(diǎn)：更廣泛地說(shuō)，你現(xiàn)在會(huì)關(guān)注大模型在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)之后的下一步嗎？大家在討論預(yù)訓(xùn)練 + RL 可能到了瓶頸，也許需要新范式，比如在線學(xué)習(xí)、持續(xù)學(xué)習(xí)、自主學(xué)習(xí)。

楊松琳：持續(xù)學(xué)習(xí)大家都很關(guān)心。這里有很多 open question，怎么做沒(méi)有定論，效果也不顯著，但它一定很重要。如果 AI 能持續(xù)吸收外界信息，就不需要隔段時(shí)間重訓(xùn)一次；有也有強(qiáng)的商業(yè)價(jià)值，比如做個(gè)性化，用戶持續(xù)交互，模型積累了這些記憶就能更好地把握用戶喜好。

晚點(diǎn)：現(xiàn)在模型的記憶能力并不是內(nèi)化在模型里，而是靠工程或外掛方式實(shí)現(xiàn)的，是嗎？

楊松琳：對(duì)。預(yù)訓(xùn)練是把信息壓進(jìn) FFN 的權(quán)重里；另一類(lèi)是上下文工程，通過(guò)注意力做上下文學(xué)習(xí)。現(xiàn)在主要就是這兩種，再有就是一些記憶外掛。（注：FFN 是前饋神經(jīng)網(wǎng)絡(luò)，Transformer 中的前饋全連接層。在注意力之后，模型會(huì)把每個(gè) token 的向量分別送入兩層 MLP 作為存儲(chǔ)的記憶，這部分就是 FFN。）

晚點(diǎn)：如果模型能持續(xù)學(xué)習(xí)，它會(huì)越來(lái)越懂你，那上下文工程的空間不就變小了？

楊松琳：這依然是個(gè) open question：哪些信息該存進(jìn)權(quán)重矩陣，哪些該放在上下文里，沒(méi)有定論。

其實(shí)兩者是對(duì)偶的：梯度下降可視為一種上下文學(xué)習(xí)，而上下文學(xué)習(xí)也能視為梯度下降。現(xiàn)在流行的測(cè)試時(shí)訓(xùn)練（Test-Time Training）把每個(gè) token 當(dāng)訓(xùn)練樣本，輸入后做一次梯度下降快速權(quán)重更新；在 RNN 里快速權(quán)重可以視為隱狀態(tài)。既然有這種對(duì)偶，F(xiàn)FN 如何在訓(xùn)練中牢牢記住成千上萬(wàn)的 token，也能啟發(fā)長(zhǎng)文本問(wèn)題：把信息寫(xiě)進(jìn)權(quán)重，再用動(dòng)態(tài)的測(cè)試時(shí)訓(xùn)練，也許能走出更好的持續(xù)學(xué)習(xí)路徑。

我對(duì)這個(gè)路徑很看好的?，F(xiàn)在的權(quán)重推理時(shí)不更新，無(wú)法吸收新信息；測(cè)試時(shí)訓(xùn)練或快速權(quán)重編程（Fast Weight Programming）允許處理新 token 后實(shí)時(shí)更新權(quán)重。如果能把這套機(jī)制打通，長(zhǎng)文本問(wèn)題能靠更緊湊的權(quán)重存更多信息，持續(xù)學(xué)習(xí)也能順帶解決。（注：測(cè)試時(shí)訓(xùn)練：在推理階段對(duì)模型參數(shù)進(jìn)行快速更新，讓模型利用當(dāng)前輸入的信息提升輸出表現(xiàn)。例如模型在處理一篇醫(yī)學(xué)文章時(shí)，可以先用文章里的一小段內(nèi)容做一次快速梯度更新，讓模型立即更擅長(zhǎng)理解該領(lǐng)域的術(shù)語(yǔ)，再繼續(xù)生成答案。）

題圖來(lái)源：月升王國(guó)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.