国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再談注意力:阿里、Kimi 都在用的 DeltaNet 和線性注意力新改進(jìn)

0
分享至



不僅是提升效率,線性注意力在數(shù)據(jù)受限情況下也可能提升效果。

訪談丨程曼祺

整理丨姚一楠

注意力機(jī)制(Attention)是 Transformer 架構(gòu)大型語(yǔ)言模型(LLM)的核心機(jī)制,它決定了模型如何處理、理解海量的文本信息。然而,傳統(tǒng)全注意力機(jī)制的計(jì)算開(kāi)銷(xiāo)會(huì)隨文本長(zhǎng)度呈平方級(jí)暴增,這正是限制模型處理長(zhǎng)文檔、長(zhǎng)上下文的關(guān)鍵瓶頸。

今年初,《晚點(diǎn)聊》的 103 期和 104 期節(jié)目分別討論了注意力機(jī)制改進(jìn)的兩個(gè)主要方向:“稀疏注意力” 和 “線性注意力”。(文字版見(jiàn)《大模型 “注意力簡(jiǎn)史”:與兩位 AI 研究者從 DeepSeek、Kimi 最新改進(jìn)聊起》和《3700 次預(yù)訓(xùn)練尋找 “線性注意力” 非共識(shí),MiniMax-01 開(kāi)發(fā)者講述 4 年探索》)

這期節(jié)目,我們繼續(xù)關(guān)注線性注意力的新進(jìn)展。在 9 月和 10 月底,阿里巴巴和月之暗面先后開(kāi)源 Qwen3-Next 和 Kimi Linear 模型,其中的注意力機(jī)制都使用了線性注意力 DeltaNet 和 full attention(傳統(tǒng)的全注意力)混合的方式。

此后在社交媒體上,兩家公司的研究人員也透露,他們很可能在下一代旗艦?zāi)P椭?,使用新進(jìn)釋放的這些線性注意力改進(jìn)成果。

本期《晚點(diǎn)聊》,我們就邀請(qǐng)到了 DeltaNet 核心貢獻(xiàn)者之一楊松琳來(lái)聊聊 DeltaNet 和線性注意力的發(fā)展脈絡(luò)。她也是線性注意力開(kāi)源小組 FLA 的發(fā)起者,正在 MIT CSAIL 讀博士三年級(jí)。

DeltaNet 的發(fā)展是多位研究者長(zhǎng)期累積的結(jié)果。在 2021 年,Imanol Schlag、Kazuki Irie 和 Jürgen Schmidhuber 在線性注意力中引入類(lèi) Delta Rule 的可糾錯(cuò)更新規(guī)則;2023 年,Kazuki Irie 等從理論與形式語(yǔ)言視角刻畫(huà)線性 Transformer 及其擴(kuò)展的計(jì)算能力邊界;2024 年,楊松琳等提出沿序列長(zhǎng)度并行的 DeltaNet 訓(xùn)練算法以適配現(xiàn)代硬件;2025 年,楊松琳等進(jìn)一步引入門(mén)控形式提出 Gated DeltaNet,強(qiáng)化記憶控制與檢索表現(xiàn)。

楊松琳介紹了線性注意力和 DeltaNet 的發(fā)展脈絡(luò),為何 21 年剛被提出時(shí)沒(méi)引起太多注意,后來(lái)怎么進(jìn)化的。我們也討論了重新去做 full attetnion 的 MiniMax(MiniMax 在今年初發(fā)布的 M1 中使用了線性注意力,在今年 10 月發(fā)布的 M2 中,轉(zhuǎn)向全部使用 full attention),和未來(lái)要在旗艦?zāi)P蜕嫌镁€性注意力的 Kimi 與阿里的不同選擇;線性注意力的優(yōu)劣勢(shì),以及一些腦洞——如果算力無(wú)限,還需要線性注意力?楊松琳也分享了,作為 AI 研究員,怎么獲得交叉技能,怎么開(kāi)始發(fā)起 FLA 小組等成長(zhǎng)經(jīng)歷。

DeltaNet 在 2021 年就被提出,但并行

晚點(diǎn):注意力機(jī)制在大語(yǔ)言模型里有什么用,為什么重要?

楊松琳:語(yǔ)言模型預(yù)測(cè)下一個(gè)詞時(shí),若要用到前面的信息,就必須在句子層面做運(yùn)算,把不同位置的信息混合。注意力機(jī)制通過(guò)建模兩點(diǎn)之間成對(duì)的關(guān)系來(lái)整合前后文信息,最直接、最常用的是 Softmax Attention,平方復(fù)雜度的機(jī)制(如下圖)?,F(xiàn)在注意力也可以泛指在序列維度上做信息聚合的算子,比如線性注意力。



來(lái)源:Attention in transformers,3Blue1Brown

晚點(diǎn):注意力機(jī)制最近好幾個(gè)新動(dòng)向都和你研究的 DeltaNet 有關(guān),可以簡(jiǎn)單解釋下 DeltaNet 是什么?

楊松琳:線性注意力的核心思想,最初是將自注意力(Self-Attention)中的 Softmax 函數(shù)移除。經(jīng)過(guò)數(shù)學(xué)上的等價(jià)變換,它就可以被重寫(xiě)成 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的遞推形式,從而將復(fù)雜度從平方級(jí)降至線性。2020 年的論文 Transformers are RNNs(《Transformer 是循環(huán)神經(jīng)網(wǎng)絡(luò)》)最早確立了這個(gè)研究方向。

隨后的改進(jìn)主要集中在兩個(gè)方面:加門(mén)控(Gate)機(jī)制 或引入 Delta Rule(Delta 規(guī)則)。

其中,Delta Rule 是基于 2021 年 LSTM 作者 Jürgen Schmidhuber(于爾根·施密德胡伯) 團(tuán)隊(duì)的論文 Linear Transformers Are Secretly Fast Weight Programmers(《線性 Transformer 本質(zhì)上是快速權(quán)重編程器》)。該研究以快速權(quán)重編程的視角重新解釋了線性注意力,并指出:

- 線性注意力默認(rèn)使用的權(quán)重更新方式是赫布學(xué)習(xí)(Hebbian Learning)。

- 為了實(shí)現(xiàn)更高效的上下文檢索(Retrieval)能力——即 “前面寫(xiě)入一組 Key-Value,后面用 Key 就能取回對(duì)應(yīng)的 Value”——可以將更新規(guī)則替換為更強(qiáng)大的 Delta Rule。

DeltaNet 正是在這一思路下誕生的,它利用 Delta Rule 來(lái)更快地寫(xiě)入和更新權(quán)重(即記憶狀態(tài))。



DeltaNet 起初不火,一是缺少關(guān)鍵架構(gòu)改進(jìn),二是實(shí)現(xiàn)不夠好。我去年在 NeurIPS 發(fā)的 Parallelizing Linear Transformers with the Delta Rule over Sequence Length(《利用 Delta 規(guī)則在序列長(zhǎng)度上并行化線性 Transformer》)就是專(zhuān)門(mén)討論如何并行化這個(gè)遞歸更新。

晚點(diǎn):那從 2021 年 DeltaNet 被提出,到你們做的這個(gè)并行化的優(yōu)化之間,還有哪些有關(guān) DeltaNet 或者說(shuō)線性注意力的改進(jìn)思路?

楊松琳:近幾年網(wǎng)絡(luò)模塊發(fā)展很快,如 TransNormerLLM 架構(gòu) 引入了新的歸一化方案,微軟亞研院 RetNet 用了輸出門(mén)模塊;后面 Mamba 把短卷積帶火。短卷積、輸出歸一化、門(mén)控成了標(biāo)配。

但這些大多是在架構(gòu)層面改進(jìn),而非更新規(guī)則,包括線性注意力和許多 RNN 變體的更新規(guī)則基本仍在最初框架里,只是加了一點(diǎn)簡(jiǎn)單的衰減。

晚點(diǎn):更新規(guī)則改進(jìn)和模型架構(gòu)改進(jìn)的區(qū)別是什么?

楊松琳:架構(gòu)改進(jìn)動(dòng)的是外層結(jié)構(gòu),算子沒(méi)變,比如在輸出端加門(mén)控。線性注意力很早就在輸出上加門(mén)控,Qwen 的 Gated Attention 本質(zhì)也是輸出門(mén)控;底層算子還是 GQA,用 FlashAttention 訓(xùn)練。

更新規(guī)則的改進(jìn)則是直接改算子本身,外層架構(gòu)仍照著近年驗(yàn)證有效的方案來(lái)用就行。比如線性注意力一般能寫(xiě)成一階線性遞歸:輸入通常是外積,轉(zhuǎn)移矩陣默認(rèn)是單位矩陣,改更新規(guī)則就是改這個(gè)轉(zhuǎn)移矩陣。GLA、Mamba 把單位矩陣換成對(duì)角矩陣;DeltaNet 把它變成低秩單位矩陣;Kimi 把單位矩陣放寬為可學(xué)習(xí)的對(duì)角矩陣;RWKV-7 則用對(duì)角低秩矩陣作為轉(zhuǎn)移矩陣。

晚點(diǎn):DeltaNet,包括你后面又做的 Gated DeltaNet 具體是怎么改進(jìn)更新規(guī)則的?

楊松琳:我們沒(méi)發(fā)明全新東西,更多是用新算法把老技術(shù)重新做到了可用。就是前面提到的,我去年在 NeurIPS 的那篇工作,就是把它并行化,讓它真正能大規(guī)模訓(xùn)練。

隨后我在英偉達(dá)實(shí)習(xí)做了 Gated DeltaNet,它在 DeltaNet 上加了一個(gè)衰減??梢园阉闯?DeltaNet 與 Mamba 2 的結(jié)合:保留 RetNet、線性注意力等當(dāng)代架構(gòu)思路,同時(shí)繼承更強(qiáng)的 Delta Rule 更新,再加上衰減。衰減本質(zhì)類(lèi)似遺忘門(mén),對(duì) RNN 很重要,因?yàn)樗碾[藏狀態(tài)有限,必須忘掉一些,否則狀態(tài)會(huì)被撐爆。

晚點(diǎn):之前一些做算法的研究員告訴我,他們不擅長(zhǎng)改算子。我理解你也是算法出身的,但會(huì)自己來(lái)改算子,是因?yàn)槟阕詫W(xué)了 Infra?

楊松琳:可以這么說(shuō)。我碩士時(shí),做過(guò) “上下文無(wú)關(guān)文法”,需要把大量 python 運(yùn)算并行到 GPU 上,就寫(xiě) CUDA 加速。后來(lái)做模型架構(gòu),寫(xiě)算子更順手,于是做軟硬件結(jié)合的算法設(shè)計(jì),讓模型在 GPU 上跑更快。

我對(duì)并行加速還挺有興趣的。剛讀博士時(shí),斯坦福有個(gè)研究組叫 Hazy Research,F(xiàn)lashAttention、Mamba 都出自那兒,他們倡導(dǎo)硬件友好型算法。我有學(xué)習(xí)他們的風(fēng)格,既寫(xiě)算子也做算法。

Qwen 和 Kimi 下一代旗艦?zāi)P涂赡苻D(zhuǎn)向線性注意力,Minimax M2 則用回全注意力

晚點(diǎn):回到最近的一些進(jìn)展,阿里的 Qwen3-Next 以及 Kimi 的 Kimi Linear 和 DeltaNet 的具體關(guān)系是?

楊松琳:Gated DeltaNet 今年被 Qwen 團(tuán)隊(duì)系統(tǒng)地測(cè)了一輪。他們對(duì)全局注意力、混合滑窗注意力、Mamba 2 和 Gated DeltaNet 做了真正的 apple-to-apple 的對(duì)比,結(jié)果 Gated DeltaNet 最好,于是用進(jìn)了 Qwen3-Next。

Kimi Linear 用的 KDA 基本是 Gated DeltaNet 的細(xì)粒度版:DeltaNet 部分不變,但把衰減從粗到細(xì)。原先 high-dim(高維,指模型的特征表示向量) 128 個(gè) channel 共用一個(gè)遺忘率,現(xiàn)在每個(gè) channel 各有一個(gè),有的忘得快,有忘得的慢,用來(lái)存不同時(shí)間尺度的信息。細(xì)粒度衰減的思路本來(lái)也常見(jiàn),比如我在 ICML 2024 的 Gated 線性注意力(Gated Linear Attention Transformers with Hardware-Efficient Training)就用了這種精細(xì)衰減。

因此 KDA 可以看成 Gated 線性注意力 + DeltaNet,而 Gated DeltaNet 是 DeltaNet + Mamba 2;在衰減粒度上,它們關(guān)系就像 GLA 和 Mamba 2 的差別。

晚點(diǎn):為什么 Qwen3-Next 和 Kimi Linear 現(xiàn)在都要把線性注意力和完全注意力(full Attention)混用,不能全用線性的?

楊松琳:線性注意力給速度,完全注意力給容量。線性注意力的容量太小,短文本還可以應(yīng)付,到長(zhǎng)文本就會(huì)表現(xiàn)很爛。線性注意力機(jī)制每層有大小固定的 RNN 隱藏狀態(tài),層數(shù)和維度一旦確定,整套模型的可存信息量也就固定了。

傳統(tǒng) Softmax Attention 的 KV Cache 可以看成隱藏狀態(tài),會(huì)隨著 token 線性增加,長(zhǎng)文本不會(huì)被容量卡??;但推理時(shí)要從全局讀取信息,KV Cache 過(guò)大時(shí)會(huì)非常慢。(注:KV Cache :在推理時(shí)緩存已生成 token 的 Key 和 Value,用來(lái)避免重復(fù)計(jì)算注意力,從而加速生成。)

晚點(diǎn):現(xiàn)在用 DeltaNet 的模型都不大,Qwen3-Next 是 80B ,Kimi Linear 是 48B 。把線性注意力用到參數(shù)更大的模型上,有什么瓶頸嗎?

楊松琳:工業(yè)界的常見(jiàn)做法,就是先用小模型驗(yàn)證架構(gòu)、降風(fēng)險(xiǎn),再訓(xùn)大模型;直接在超大規(guī)模上試,兩次失敗公司就破產(chǎn)了。

千問(wèn)和 Kimi 其實(shí)都在往大模型走。最近在 Reddit 上 ,Kimi 團(tuán)隊(duì)透露他們的下一代旗艦?zāi)P停褪?K3 大概率繼續(xù)沿混合 KDA 方向;Qwen3-Next 的最終版本 Qwen 3.5 應(yīng)該也會(huì)走混合架構(gòu)。

晚點(diǎn):MiniMax 很早就把線性注意力用到了超大模型上,他們?cè)诮衲瓿醢l(fā)布的 4560 億參數(shù)的 MoE M1 上,就用了混合線性注意力與全注意力的 Lightning Attention,但 10 月底發(fā)布 MiniMax M2 又回到了完全注意力。從業(yè)者是怎么討論這個(gè)轉(zhuǎn)變的?

楊松琳:大家都覺(jué)得這個(gè)現(xiàn)象挺好玩。這有點(diǎn)像,線性注意力是一個(gè) “坑”,MiniMax 趕著跳出去,Qwen 和 Kimi 又急著往里跳;不過(guò) Minimax 也沒(méi)完全失去信心,還在驗(yàn)證混合架構(gòu)。

Minimax 可能之前受 Lightning Attention 的傷太大了,一朝被蛇咬十年怕井繩。Lightning Attention 很弱,只是在最原始線性注意力上疊了粗粒度、輸入無(wú)關(guān)的衰減。他們當(dāng)時(shí)直接 Scale Up 到幾百 B ,可能是 Eval(驗(yàn)證)沒(méi)搭好。

結(jié)果 MiniMax 發(fā)現(xiàn) Lightning Attention 在 MMLU(注:測(cè)試大模型在 57 個(gè)學(xué)科上綜合知識(shí)與理解能力的標(biāo)準(zhǔn)考試題測(cè)評(píng)) 等短程任務(wù)上跟完全注意力差不多,用個(gè)比較短的滑窗就夠了。但在多跳推理(注:Multi-hop Reasoning,需要模型跨越多個(gè)信息點(diǎn)、分步驟串聯(lián)線索才能得出答案的推理方式,典型例題如 “愛(ài)因斯坦出生時(shí)德國(guó)的國(guó)家元首是誰(shuí)?”)上,完全注意力能直接建模點(diǎn)對(duì)點(diǎn)關(guān)系,疊幾層就能自然形成多跳推理;線性注意力或混合結(jié)構(gòu)會(huì)把信息壓得很模糊,準(zhǔn)確率掉得很厲害。

現(xiàn)在 Agent 做任務(wù)都會(huì)想很多,多跳推理在 Agentic AI 里非常重要。MiniMax 覺(jué)得混合架構(gòu)暫時(shí)解決不了想主攻的 Agentic AI,退回完全注意力挺自然的。

他們的反思里也有不少值得學(xué)的點(diǎn),比如基準(zhǔn)選擇:一些多跳推理 benchmark,如 BBH 其實(shí)很容易,可以找方法讓架構(gòu)表現(xiàn)很好,但不代表模型在真實(shí)場(chǎng)景里就真的會(huì)推理。

晚點(diǎn):據(jù)你所知,DeepSeek 有來(lái)研究線性注意力機(jī)制改進(jìn)嗎?

楊松琳:他們應(yīng)該更相信稀疏注意力,年初發(fā)的 MLA 和最近 DeepSeek V3.2 的 DeepSeek-Sparse-Attention 都是稀疏注意力的改進(jìn)。

晚點(diǎn):對(duì)比稀疏注意力和線性注意力,未來(lái)的潛力有什么區(qū)別?

楊松琳:?jiǎn)螌訚摿隙ㄊ窍∈枳⒁饬Ω鼜?qiáng),實(shí)際應(yīng)用中不好說(shuō)。

稀疏注意力通過(guò)減少激活的 KV Cache 讀取來(lái)加速,依然需要存全部 KV Cache,每次運(yùn)算時(shí)選一些出來(lái)。大家就會(huì)有滿滿的安全感,因?yàn)?token 不容易掉。理論上 KV Cache 夠大,效果就能逼近 Softmax Attention;Softmax Attention 的 Attention Map 相當(dāng)稀疏,所以稀疏注意力的效率會(huì)更高。但當(dāng)規(guī)模很大、序列很長(zhǎng)、KV Cache 的大小本身成為瓶頸時(shí),稀疏注意力就愛(ài)莫能助了。

線性注意力有理論缺陷,因?yàn)闋顟B(tài)空間固定,但這也能是加速推理的動(dòng)力。混合線性注意力一般 75% 的層都被換成了 RNN,RNN 的 Cache Size 在長(zhǎng)文本推理時(shí)可以忽略,KV Cache 大小就減了 3/4,可以支持更大的批量推理。批量越大,做推理效率越高,同時(shí)服務(wù)很多用戶。

不僅是提效,在數(shù)據(jù)受限的后訓(xùn)練和強(qiáng)化學(xué)習(xí)中,線性注意力可能有性能優(yōu)勢(shì)

晚點(diǎn):如果有無(wú)限算力,大家還有動(dòng)力做完全注意力外的方法改進(jìn)嗎?

楊松琳:給我無(wú)限數(shù)據(jù)和算力,我當(dāng)然直接用完全注意力。但 bound 住(約束)我們的不僅是算力,還有數(shù)據(jù)。

我們必須用有限數(shù)據(jù)下更高效的架構(gòu);這時(shí)候完全注意力反而是個(gè)劣勢(shì),因?yàn)樗瑯訑?shù)據(jù)下學(xué)的比較慢,沒(méi)有引入歸納偏見(jiàn)。歸納偏見(jiàn)就是人的先驗(yàn)。

線性注意力更關(guān)注鄰近 token,在數(shù)據(jù)受限時(shí)可能表現(xiàn)更好;后訓(xùn)練、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)更少,混合架構(gòu)的優(yōu)勢(shì)可能會(huì)慢慢顯現(xiàn)。

晚點(diǎn):所以線性注意力除了省推理算力,在數(shù)據(jù)更少的后訓(xùn)練、強(qiáng)化學(xué)習(xí)里也可能更好?

楊松琳:從電路復(fù)雜度看,完全注意力屬于 TC?,表達(dá)能力不夠,所以 Transformer 要解決復(fù)雜問(wèn)題只能靠很長(zhǎng)的思維鏈。

這是 DeltaNet 另一個(gè)被忽視的優(yōu)勢(shì),它從計(jì)算理論上是 NC1-complete 架構(gòu),能超越 TC?,更擅長(zhǎng)狀態(tài)追蹤,這對(duì) Agentic AI 至關(guān)重要。比如你寫(xiě)代碼時(shí)變量名不斷變,模型得在內(nèi)部維護(hù)變量狀態(tài);再比如網(wǎng)頁(yè)操作,Agent 得知道你按什么順序做了什么、到了什么狀態(tài),才能決策。

前段時(shí)間有篇很有意思的論文 Recurrence-Complete Frame-based Action Models,專(zhuān)門(mén)講為什么 Agentic AI 更該關(guān)注狀態(tài)追蹤和循環(huán)機(jī)制。

(注:TC? 和 NC1 是不同的復(fù)雜性類(lèi),復(fù)雜性類(lèi)是將有相似計(jì)算難度的一群?jiǎn)栴}歸納在一起的集合。簡(jiǎn)單來(lái)說(shuō),NC1 的電路允許 “對(duì)數(shù)深度”,而 TC? 的電路只有 “常數(shù)深度”,但 TC? 允許使用閾值門(mén),在很少的并行層數(shù)里完成相對(duì)復(fù)雜的運(yùn)算;從已知結(jié)果看,TC? 是被包含在 NC1 里的一個(gè)子類(lèi)。很多看起來(lái) “復(fù)雜” 的認(rèn)知任務(wù),難點(diǎn)往往在于需要較長(zhǎng)的計(jì)算深度來(lái)逐步更新和傳遞信息,例如在讀代碼時(shí)持續(xù)追蹤程序狀態(tài)和變量取值,這類(lèi)能力更依賴足夠多輪的迭代計(jì)算,而不僅僅是單步中的并行算力。)

晚點(diǎn):你說(shuō)線性注意力帶歸納偏見(jiàn)可能提升效果;而之前 AI 界著名文章 “The Bitter Lesson” 它認(rèn)為加人為結(jié)構(gòu)和先驗(yàn)通常不如尋找可以用更多算力、數(shù)據(jù),做更大規(guī)模訓(xùn)練的方法。

楊松琳:100 個(gè)人有 100 種對(duì) Scaling 和 The Bitter Lesson 的解讀。大語(yǔ)言模型本身就是把人類(lèi)先驗(yàn)注入進(jìn)去的例子。我更支持先把方法做到效果和效率上能 scalable,歸納偏見(jiàn)不用管,好不好驗(yàn)一下就知道了,不用多做討論。

晚點(diǎn):你這里說(shuō)的 scalable 的關(guān)鍵是什么?

楊松琳:一是大規(guī)模訓(xùn)練下效率要有保證、算法要硬件友好;二是模型放大后依然有效,很多改動(dòng)在小模型好用,規(guī)模擴(kuò)大就失效。

研究發(fā)現(xiàn)是連點(diǎn)成線:本科時(shí)形成對(duì)矩陣代數(shù)的興趣,算法優(yōu)化看多了熟能生巧

晚點(diǎn):你自己開(kāi)始關(guān)注到線性注意力改進(jìn)和 DeltaNet 方向的過(guò)程是怎樣的?

楊松琳:我一直喜歡做模型和算法,碩士時(shí)就喜歡看各種魔改注意力的方法,但真正開(kāi)始研究是 2023 讀博之后。當(dāng)時(shí)在想怎么選方向,既感興趣又專(zhuān)業(yè)相關(guān)。完全注意力的長(zhǎng)文本問(wèn)題似乎一直解決不掉,還有有意思的算法可玩,我就跑來(lái)玩這個(gè)領(lǐng)域了。

晚點(diǎn):你最初有哪些一起研究的伙伴?你之前有提到過(guò)斯坦福的 Hazy Research,還有嗎?

楊松琳:他們?cè)谛录軜?gòu)上做得很多,我和他們挺熟,比如 Simran Arora、Albert Gu、Tri Dao。國(guó)內(nèi)我覺(jué)得微軟亞研董力團(tuán)隊(duì)也很強(qiáng),我跟 RetNet 一作孫宇濤討論挺多。還有之前鐘怡然(MiniMax 前算法總監(jiān),曾在上海 AI lab 擔(dān)任 PI)那邊的秦臻,從知乎私信聯(lián)系到我,聊著聊著就合作了一兩篇論文,就是比較早的線性 RNN 工作 HGRN。

晚點(diǎn):現(xiàn)在的導(dǎo)師會(huì)給你什么幫助?

楊松琳:他可以幫我搞來(lái)卡。(笑)老板在最開(kāi)始會(huì)有些大方向的感覺(jué),然后提供算力和寫(xiě)論文的支持,別的方向也不一定能幫得上學(xué)生,因?yàn)榇蠹易x博的目標(biāo)就是在這個(gè)領(lǐng)域比自己老板還懂。

但我覺(jué)得老板還是很有眼光的。他建議我關(guān)注軟硬件結(jié)合的算法設(shè)計(jì),以及數(shù)值代數(shù)的一些思路。比如 DeltaNet 用到數(shù)值代數(shù)里經(jīng)典的 Householder 矩陣做累乘,這和線性注意力的 Chunkwise 算法能很好結(jié)合,最后就成了 Parallelizing Linear Transformers with the Delta Rule over Sequence Length 的核心想法。

晚點(diǎn):你做算法又寫(xiě) CUDA kenel,這些跨領(lǐng)域能力怎么積累的?

楊松琳:還是興趣驅(qū)動(dòng),我喜歡矩陣運(yùn)算和 kernel 優(yōu)化。數(shù)值計(jì)算偏應(yīng)用數(shù)學(xué),里面有很多矩陣加速算法,深度學(xué)習(xí)也離不開(kāi)矩陣。我對(duì)這些本身就感興趣,看得比較多,熟能生巧吧。

晚點(diǎn):你本科是在南方科技大學(xué),這本身是一所挺新的研究性大學(xué),當(dāng)時(shí)的學(xué)習(xí)經(jīng)歷對(duì)積累交叉知識(shí)和視野有什么幫助?

楊松琳:這還真有一些關(guān)系。我本科最喜歡的課就是線性代數(shù),用的是吉爾伯特·斯特朗(Gilbert Strang)的經(jīng)典教材。他從空間角度講,特別直觀,讓我對(duì)線性代數(shù)興趣很強(qiáng)。如果是國(guó)內(nèi)常見(jiàn)那種上來(lái)先講行列式、公式推導(dǎo),我可能就沒(méi)什么興趣了。

晚點(diǎn):你改進(jìn) DeltaNet 讓它能并行的過(guò)程中,具體是怎么突破,獲得思路的?

楊松琳:并行線性遞歸要先展開(kāi),會(huì)出現(xiàn)轉(zhuǎn)移矩陣,繼續(xù)展開(kāi)就會(huì)出現(xiàn)一個(gè)累乘,難點(diǎn)就是高效算這個(gè)累乘。DeltaNet 的轉(zhuǎn)移矩陣像 Householder,我一開(kāi)始不知道怎么算,后來(lái)發(fā)現(xiàn)可以用 WY 算法把累乘變成累加,形式和線性注意力很像,我就意識(shí)到它可能能和 Chunkwise 算法兼容。之后推了一陣,推通了還挺開(kāi)心,又找到一個(gè)好玩的算法,也能把這個(gè)方向繼續(xù) scale 上去。

晚點(diǎn):怎么想到 Householder 矩陣,怎么意識(shí)到這個(gè)關(guān)聯(lián)的?

楊松琳:就是一直想吧,我從 2023 年 9 月開(kāi)始想怎么并行 DeltaNet,到 2024 年 3 月才想出算法;然后碩士我在上科大上過(guò)一門(mén) “矩陣方法”,講 Householder 和 QR 分解;QR 是很經(jīng)典的算法,Householder 累乘最早就是用來(lái)做 QR 的,最近我發(fā)現(xiàn)它還能加速 DeltaNet。在英偉達(dá)做 Gated 線性注意力那個(gè)項(xiàng)目時(shí),我對(duì)線性注意力的分塊算法理解更深,這些積累后來(lái)都啟發(fā)了新想法,整體還是循序漸進(jìn)。

晚點(diǎn):基礎(chǔ)科學(xué)里,常發(fā)生把很多看似無(wú)關(guān)的東西放在一起產(chǎn)生新成果,比如物理學(xué)有時(shí)會(huì)從幾百年前的數(shù)學(xué)里獲得啟發(fā)。你覺(jué)得 AI 能什么時(shí)候能獨(dú)立產(chǎn)生這種聯(lián)想?

楊松琳:我覺(jué)得大模型應(yīng)該能獨(dú)立發(fā)明這個(gè)(讓 DeltaNet 并行化的)算法,只要提示詞合適,它可能就能把后面所有推導(dǎo)都做出來(lái)。檢驗(yàn)推導(dǎo)正確性可以用 RL 做,只要 reward 能驗(yàn)證,RL 就能解決,用在科學(xué)發(fā)現(xiàn)上也挺有用的。

FLA 小組:像運(yùn)營(yíng)產(chǎn)品一樣 “運(yùn)營(yíng)” 技術(shù);Kimi 從 FLA 找到線性注意力研究員

晚點(diǎn):你去年 1 月開(kāi)始維護(hù) FLA 這個(gè)線性注意力的開(kāi)源社區(qū),契機(jī)是什么?做開(kāi)源的過(guò)程中有什么故事或收獲?我看到貢獻(xiàn)者里有 Kimi 的研究員,也有歐洲做 AI for science 的開(kāi)發(fā)者。

楊松琳:當(dāng)時(shí)在知乎看到一篇文章,說(shuō) Flash Attention 的成功本質(zhì)是產(chǎn)品成功。Tiling、online softmax 早就有了,xFormers 里也有初版思路,但 Tri Dao( FlashAttention 的作者)把它當(dāng)產(chǎn)品做,重視接口、重視運(yùn)營(yíng)、積極和社區(qū)互動(dòng)、按用戶需求迭代,關(guān)鍵是好用,即插即用、裝個(gè)包就能跑。

我被這套產(chǎn)品思路打動(dòng)了,就想,線性注意力為什么不做一個(gè)?線性注意力有不少算法成果,但缺好實(shí)現(xiàn),那我就做個(gè)開(kāi)源庫(kù),把 Triton 算子和各種 layer 寫(xiě)好,讓用戶一個(gè)庫(kù)就能跑各種帶 kernel 的模型,大家覺(jué)得好用就會(huì)留下來(lái),還會(huì)給反饋幫我們迭代。比如后來(lái)很多人要變長(zhǎng)訓(xùn)練模塊,我們發(fā)現(xiàn)需求巨大,我就和張宇商量,直接把可變長(zhǎng)度功能全部寫(xiě)進(jìn) FLA。

晚點(diǎn):張宇是你做了 FLA 之后,他關(guān)注到這塊,加進(jìn)來(lái)成為核心貢獻(xiàn)者的嗎?

楊松琳:張宇是 FLA 的核心貢獻(xiàn)者,也是 Gated 線性注意力的作者。我和他 2020 年就認(rèn)識(shí)了,那時(shí)我們都在做 parsing,要寫(xiě)很多并行算法。他當(dāng)時(shí)維護(hù)一個(gè)叫 supar 的庫(kù)(su 是蘇州大學(xué),par 是 parsing),實(shí)現(xiàn)非常 clean、并行效率很好,基本所有做 parsing 的人都會(huì)用,特別酷,所以做 FLA 時(shí)我第一時(shí)間就想把他拉進(jìn)來(lái)。

他做庫(kù)水平很高,也很適合寫(xiě)并行算法和 kernel。你翻 FLA 的 GitHub,貢獻(xiàn)行數(shù)和總貢獻(xiàn)數(shù)他都是最多的,代碼特別強(qiáng)。后來(lái) Kimi 想做混合線性注意力,就想找 FLA 的作者;我人在美國(guó),他們不可能把我弄過(guò)去,就把張宇弄去 Kimi 做研究。(注:parsing:編譯,自然語(yǔ)言處理中的一個(gè)模塊,用來(lái)分析句子的結(jié)構(gòu),例如解析句子 “I love you” 時(shí),parsing 會(huì)把它拆成主語(yǔ)、動(dòng)詞和賓語(yǔ)。)

晚點(diǎn):所以是 Kimi 想做線性注意力,從 FLA 社區(qū)里注意到了張宇,然后再邀請(qǐng)他加入的?

楊松琳:對(duì)。

晚點(diǎn):Kimi 關(guān)注到這個(gè)方向,這是誰(shuí)的判斷了?

楊松琳:應(yīng)該是 Tim 吧,周昕宇(Kimi 的聯(lián)創(chuàng))。

晚點(diǎn):我看張宇的頭像是個(gè)二次元少女拿著實(shí)驗(yàn)筆記本。

楊松琳:(笑)經(jīng)典 stereotype(刻板印象),二次元頭像的人 coding 強(qiáng)。

希望下一步把稀疏注意力和線性注意力真正做通,徹底解決長(zhǎng)文本問(wèn)題

晚點(diǎn):我們可以分別講講,注意力機(jī)制接下來(lái)的演進(jìn),首先是稀疏注意力,你看到的趨勢(shì)是什么?

楊松琳:核心是動(dòng)態(tài)稀疏,靜態(tài)稀疏之前被證明效果不太好,難點(diǎn)卡在如何在硬件上高效實(shí)現(xiàn)。動(dòng)態(tài)稀疏現(xiàn)在有兩條路:block 級(jí)和 token 級(jí)。block 級(jí)快但漏信息風(fēng)險(xiǎn)大,所以怎么選準(zhǔn) block 很關(guān)鍵;token 級(jí)更靈活但實(shí)現(xiàn)更難。

比如 NSA 是 block 級(jí),每次只選一個(gè) block,方便連續(xù)讀入、順序計(jì)算。DSA(DeepSeek Sparse Attention)把 block 的結(jié)構(gòu)化約束扔掉,回到不結(jié)構(gòu)化的 token 級(jí)動(dòng)態(tài)稀疏。比如要選 512 個(gè) token 刻畫(huà)一個(gè) token,選 512 個(gè)最相關(guān)的 token,而不是選 512/32 個(gè) block,顆粒度更細(xì)也更準(zhǔn),但實(shí)現(xiàn)難度大的多。

Deepseek 訓(xùn)練不是從預(yù)訓(xùn)練開(kāi)始稀疏化,而是訓(xùn)練到中途才用:先蒸餾,把 DeepSeek 3.1 轉(zhuǎn)成 MQA,再把注意力分布蒸餾到 indexer,作為初始化。

DSA 的 trick 在于,用一個(gè)非常輕量的平方復(fù)雜度 Attention 做 “indexer” 來(lái)生成全局注意力矩陣,因?yàn)檫@個(gè)算子能在 FP8 下跑、不需要 online softmax,只是矩陣乘法,所以算得很快。indexer 得到 L×L 的注意力矩陣后,直接做 Top-K,每個(gè) token 找出最相關(guān)的前 K 個(gè) token。

稀疏還有梯度傳遞的問(wèn)題,block 選不準(zhǔn)可能也是梯度質(zhì)量差導(dǎo)致。

最后,稀疏注意力也可以考慮減少 KV cache?,F(xiàn)在大多數(shù)稀疏注意力保留全部 KV cache ,幾乎和完全注意力一樣,還是會(huì)卡在 KV cache 的規(guī)模瓶頸。

晚點(diǎn):線性注意力呢?

楊松琳:線性注意力的架構(gòu)方向驗(yàn)證得差不多了,更值得探索的是更新規(guī)則??梢韵胂?DeltaNet 外還有哪些更新方式既能更好地并行實(shí)現(xiàn),又更具表達(dá)力。

另外,沿著 DeltaNet 還能繼續(xù)做很多,比如加衰減、norm 衰減;DeltaNet 在 test-time training 視角就是近似梯度下降,有些工作像 DeltaProduct 每步會(huì)做多次梯度下降,而不是一次;還有動(dòng)態(tài)擴(kuò)容思路,如記憶混合,把 RNN 的狀態(tài)當(dāng)成 MLP 的權(quán)重矩陣,既然可以在權(quán)重矩陣上做 MoE ,那么也能在 RNN 的記憶狀態(tài)做 MoE;最近也研究有把滑窗和線性注意力結(jié)合,鄰近 token 保留滑窗,遠(yuǎn)距離用線性注意力壓縮。

晚點(diǎn):你覺(jué)得當(dāng)前的注意力機(jī)制離理想狀態(tài)還差什么?

楊松琳:先不說(shuō)理想,我更希望下一步看到有人把稀疏注意力和線性注意力真正做通。現(xiàn)在的混合注意力依然在全局保留完全注意力層,長(zhǎng)文本解碼時(shí)還是會(huì)被它拖慢。如果能把所有完全注意力都換成稀疏注意力,比如 DSA 混 KDA 之類(lèi)的組合,至少能把長(zhǎng)文本問(wèn)題階段性解決,KV cache 規(guī)模降下來(lái),就能做更多長(zhǎng)文本應(yīng)用,也能做更多 agentic 任務(wù)。(01:18:43)

晚點(diǎn):現(xiàn)在大家都是混線性注意力和完全注意力的,而不是混線性注意力和稀疏注意力,原因是什么?

楊松琳:我覺(jué)得架構(gòu)研究還是要扎實(shí),一次動(dòng)一點(diǎn)、驗(yàn)證透,再動(dòng)下一步,不可能一步邁太大。先保留一些完全注意力,用來(lái)驗(yàn)線性注意力;混合架構(gòu)在旗艦?zāi)P蜕向?yàn)證穩(wěn)定后,再去驗(yàn)證稀疏注意力也不遲。(01:19:59)

晚點(diǎn):更廣泛地說(shuō),你現(xiàn)在會(huì)關(guān)注大模型在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)之后的下一步嗎?大家在討論預(yù)訓(xùn)練 + RL 可能到了瓶頸,也許需要新范式,比如在線學(xué)習(xí)、持續(xù)學(xué)習(xí)、自主學(xué)習(xí)。

楊松琳:持續(xù)學(xué)習(xí)大家都很關(guān)心。這里有很多 open question,怎么做沒(méi)有定論,效果也不顯著,但它一定很重要。如果 AI 能持續(xù)吸收外界信息,就不需要隔段時(shí)間重訓(xùn)一次;有也有強(qiáng)的商業(yè)價(jià)值,比如做個(gè)性化,用戶持續(xù)交互,模型積累了這些記憶就能更好地把握用戶喜好。

晚點(diǎn):現(xiàn)在模型的記憶能力并不是內(nèi)化在模型里,而是靠工程或外掛方式實(shí)現(xiàn)的,是嗎?

楊松琳:對(duì)。預(yù)訓(xùn)練是把信息壓進(jìn) FFN 的權(quán)重里;另一類(lèi)是上下文工程,通過(guò)注意力做上下文學(xué)習(xí)。現(xiàn)在主要就是這兩種,再有就是一些記憶外掛。(注:FFN 是前饋神經(jīng)網(wǎng)絡(luò),Transformer 中的前饋全連接層。在注意力之后,模型會(huì)把每個(gè) token 的向量分別送入兩層 MLP 作為存儲(chǔ)的記憶,這部分就是 FFN。)

晚點(diǎn):如果模型能持續(xù)學(xué)習(xí),它會(huì)越來(lái)越懂你,那上下文工程的空間不就變小了?

楊松琳:這依然是個(gè) open question:哪些信息該存進(jìn)權(quán)重矩陣,哪些該放在上下文里,沒(méi)有定論。

其實(shí)兩者是對(duì)偶的:梯度下降可視為一種上下文學(xué)習(xí),而上下文學(xué)習(xí)也能視為梯度下降。現(xiàn)在流行的測(cè)試時(shí)訓(xùn)練(Test-Time Training)把每個(gè) token 當(dāng)訓(xùn)練樣本,輸入后做一次梯度下降快速權(quán)重更新;在 RNN 里快速權(quán)重可以視為隱狀態(tài)。既然有這種對(duì)偶,F(xiàn)FN 如何在訓(xùn)練中牢牢記住成千上萬(wàn)的 token,也能啟發(fā)長(zhǎng)文本問(wèn)題:把信息寫(xiě)進(jìn)權(quán)重,再用動(dòng)態(tài)的測(cè)試時(shí)訓(xùn)練,也許能走出更好的持續(xù)學(xué)習(xí)路徑。

我對(duì)這個(gè)路徑很看好的?,F(xiàn)在的權(quán)重推理時(shí)不更新,無(wú)法吸收新信息;測(cè)試時(shí)訓(xùn)練或快速權(quán)重編程(Fast Weight Programming)允許處理新 token 后實(shí)時(shí)更新權(quán)重。如果能把這套機(jī)制打通,長(zhǎng)文本問(wèn)題能靠更緊湊的權(quán)重存更多信息,持續(xù)學(xué)習(xí)也能順帶解決。(注:測(cè)試時(shí)訓(xùn)練:在推理階段對(duì)模型參數(shù)進(jìn)行快速更新,讓模型利用當(dāng)前輸入的信息提升輸出表現(xiàn)。例如模型在處理一篇醫(yī)學(xué)文章時(shí),可以先用文章里的一小段內(nèi)容做一次快速梯度更新,讓模型立即更擅長(zhǎng)理解該領(lǐng)域的術(shù)語(yǔ),再繼續(xù)生成答案。)

題圖來(lái)源:月升王國(guó)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三星長(zhǎng)公主沒(méi)想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來(lái)

三星長(zhǎng)公主沒(méi)想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來(lái)

削桐作琴
2026-01-08 21:22:07
44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

健身迷
2026-01-10 09:47:21
當(dāng)我必須在寒冷的6點(diǎn)半起床給學(xué)習(xí)倒數(shù)兒子做早餐!評(píng)論區(qū)笑麻了

當(dāng)我必須在寒冷的6點(diǎn)半起床給學(xué)習(xí)倒數(shù)兒子做早餐!評(píng)論區(qū)笑麻了

夜深?lèi)?ài)雜談
2025-12-15 23:25:22
重慶女子用5年“套路”閨蜜哥哥,領(lǐng)證后笑到失控:閨蜜表情亮了

重慶女子用5年“套路”閨蜜哥哥,領(lǐng)證后笑到失控:閨蜜表情亮了

小蜜情感說(shuō)
2025-11-24 06:04:56
挖到寶了!國(guó)內(nèi)這7家腦機(jī)接口隱形龍頭,在多賽道已悄悄領(lǐng)跑

挖到寶了!國(guó)內(nèi)這7家腦機(jī)接口隱形龍頭,在多賽道已悄悄領(lǐng)跑

Thurman在昆明
2026-01-10 09:44:31
2026換證大潮來(lái)襲!身份證“長(zhǎng)期”竟是坑?這些人必須提前準(zhǔn)備

2026換證大潮來(lái)襲!身份證“長(zhǎng)期”竟是坑?這些人必須提前準(zhǔn)備

老特有話說(shuō)
2026-01-09 00:10:02
網(wǎng)友們把當(dāng)下國(guó)企的內(nèi)幕說(shuō)得明明白白

網(wǎng)友們把當(dāng)下國(guó)企的內(nèi)幕說(shuō)得明明白白

清暉有墨
2025-11-21 19:56:40
馬杜羅被抓細(xì)節(jié)曝光,4厘米的偏移,讓他沒(méi)躲進(jìn)近在咫尺的安全屋

馬杜羅被抓細(xì)節(jié)曝光,4厘米的偏移,讓他沒(méi)躲進(jìn)近在咫尺的安全屋

賤議你讀史
2026-01-08 04:25:03
燃油車(chē)大敗!12月SUV銷(xiāo)量完整排名:Model Y斷層領(lǐng)先,博越L第18

燃油車(chē)大?。?2月SUV銷(xiāo)量完整排名:Model Y斷層領(lǐng)先,博越L第18

小怪吃美食
2026-01-10 09:16:33
66歲倪萍廬山落淚:身家過(guò)億難買(mǎi)兒媳,兒子拒婚背后隱情太扎心

66歲倪萍廬山落淚:身家過(guò)億難買(mǎi)兒媳,兒子拒婚背后隱情太扎心

聞識(shí)
2026-01-09 14:52:01
副省部級(jí)鄭青,履新職

副省部級(jí)鄭青,履新職

上觀新聞
2026-01-10 11:59:02
杜月笙的發(fā)妻沈月英,和表哥私會(huì),云雨過(guò)后,她含淚囑咐表哥

杜月笙的發(fā)妻沈月英,和表哥私會(huì),云雨過(guò)后,她含淚囑咐表哥

百態(tài)人間
2026-01-07 16:41:09
狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長(zhǎng)越像?

狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長(zhǎng)越像?

豐譚筆錄
2026-01-03 07:50:06
皇馬大腿來(lái)了!姆巴佩抵達(dá)沙特:9戰(zhàn)巴薩轟12球 注射止痛藥也要上

皇馬大腿來(lái)了!姆巴佩抵達(dá)沙特:9戰(zhàn)巴薩轟12球 注射止痛藥也要上

風(fēng)過(guò)鄉(xiāng)
2026-01-10 06:23:08
圖片報(bào):多特認(rèn)為小貝林厄姆體型相對(duì)偏壯,希望他減肌

圖片報(bào):多特認(rèn)為小貝林厄姆體型相對(duì)偏壯,希望他減肌

懂球帝
2026-01-09 20:05:06
突發(fā)兩大利好!A股站上4100點(diǎn)、3萬(wàn)億成交,AI應(yīng)用取代商業(yè)航天?

突發(fā)兩大利好!A股站上4100點(diǎn)、3萬(wàn)億成交,AI應(yīng)用取代商業(yè)航天?

看財(cái)經(jīng)show
2026-01-09 16:51:11
閆學(xué)晶好友孫濤再發(fā)聲:誰(shuí)要是再敢說(shuō)閆學(xué)晶的壞話,我就跟誰(shuí)急

閆學(xué)晶好友孫濤再發(fā)聲:誰(shuí)要是再敢說(shuō)閆學(xué)晶的壞話,我就跟誰(shuí)急

小徐講八卦
2026-01-08 09:00:40
日本祖先真相大白,不是徐福后代,DNA檢測(cè)結(jié)果讓日本人無(wú)法接受

日本祖先真相大白,不是徐福后代,DNA檢測(cè)結(jié)果讓日本人無(wú)法接受

豐譚筆錄
2026-01-09 07:55:06
中國(guó)偏偏不讓出港口,19國(guó)軍隊(duì)堵門(mén),導(dǎo)彈都架好了,倒逼中方讓步

中國(guó)偏偏不讓出港口,19國(guó)軍隊(duì)堵門(mén),導(dǎo)彈都架好了,倒逼中方讓步

一個(gè)有靈魂的作者
2025-07-26 08:38:25
Rain和妻子金泰熙手牽手現(xiàn)身首爾,參加“國(guó)民演員”安圣基的追悼?jī)x式

Rain和妻子金泰熙手牽手現(xiàn)身首爾,參加“國(guó)民演員”安圣基的追悼?jī)x式

今古深日?qǐng)?bào)
2026-01-10 12:16:29
2026-01-10 12:52:49
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
3016文章數(shù) 21881關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

媒體:中國(guó)若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

頭條要聞

媒體:中國(guó)若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

體育要聞

楊瀚森:上場(chǎng)時(shí)間要去爭(zhēng)取 而不是要求

娛樂(lè)要聞

趙櫻子稱和蔣毅試婚三天:像試面膜

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車(chē)要聞

寶馬25年全球銷(xiāo)量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

游戲
家居
手機(jī)
親子
健康

V社罕見(jiàn)這么勤快!新作一年大翻新 節(jié)奏快到停不下來(lái)

家居要聞

木色留白 演繹現(xiàn)代自由

手機(jī)要聞

華為Pura 90大招曝光:2億像素、6500mAh、3D面容,配置全線拉滿

親子要聞

韓網(wǎng)熱帖:有這種想法難道不是因?yàn)槟闶恰懊哪信眴幔?/h3>

這些新療法,讓化療不再那么痛苦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版