国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Sebastian Raschka 2026預(yù)測:Transformer統(tǒng)治依舊,擴(kuò)散模型崛起

0
分享至



編輯|+0

站在 2026 年的開端回望,LLM 的架構(gòu)之爭似乎進(jìn)入了一個新的微妙階段。過去幾年,Transformer 架構(gòu)以絕對的統(tǒng)治力橫掃了人工智能領(lǐng)域,但隨著算力成本的博弈和對推理效率的極致追求,挑戰(zhàn)者們從未停止過腳步。

知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應(yīng)了關(guān)于「Transformer 是否會被取代」的年度終極之問,更敏銳地捕捉到了近期業(yè)界的一個重要轉(zhuǎn)向:從單純追求模型參數(shù)的「大力出奇跡」,轉(zhuǎn)向了混合架構(gòu)與效率微調(diào)的精細(xì)化戰(zhàn)爭。

同時,文章還探討了一個極具潛力的變量:擴(kuò)散語言模型。這類模型在 Google 等巨頭的布局下會有怎樣的表現(xiàn)?它們在「工具調(diào)用」上的天然缺陷是否會成為阿喀琉斯之踵?而在高質(zhì)量數(shù)據(jù)日益枯竭的今天,擴(kuò)散模型又是否能憑借「超級數(shù)據(jù)學(xué)習(xí)者」的特性,成為打破數(shù)據(jù)墻的關(guān)鍵?

以下內(nèi)容編譯自 Sebastian Raschka 的最新博文,并結(jié)合文中提及的前沿論文及往期深度分析進(jìn)行了系統(tǒng)性拓展,以便讀者獲取更完整的上下文視角。



  • 博客地址:https://x.com/rasbt/status/2010376305720594810

最近幾周,我經(jīng)常被問到的一個問題是:在 2026 年,我們是否會看到自回歸 Transformer 架構(gòu)(即標(biāo)準(zhǔn)的 LLM)的替代方案。

就目前而言,我堅(jiān)信Transformer 在未來(至少一到幾年內(nèi))仍將保持其在 SOTA 性能方面的地位。它是當(dāng)前 AI 生態(tài)系統(tǒng)的基石,擁有最成熟的工具鏈和優(yōu)化方案。

但是,情況確實(shí)會發(fā)生一些微調(diào)。這并不是說架構(gòu)會一成不變,而是這種變化更多體現(xiàn)在「效率」和「混合」上,而非徹底的推倒重來。

效率戰(zhàn)爭:

混合架構(gòu)與線性注意力的崛起

臨近去年年底,我們看到業(yè)界更加關(guān)注混合架構(gòu)以及如何提高其效率。當(dāng)然,這并不是什么新想法,但近期來自頂尖實(shí)驗(yàn)室的發(fā)布表明,目前的側(cè)重點(diǎn)已明顯向此傾斜。

我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強(qiáng)大之處。DeepSeek V3 通過 MLA 顯著減少了推理時的 KV Cache 占用,而 MoE 架構(gòu)則允許模型在擁有 6710 億參數(shù)的同時,每次推理僅激活 370 億參數(shù)。這種在保持模型巨大容量的同時極致壓縮推理成本的設(shè)計(jì)思路,正是 2025 年末到 2026 年的主旋律。

但這還不是全部。除了 MoE,我們看到了更激進(jìn)的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機(jī)制的 DeepSeek V3.2。(如果您對更多細(xì)節(jié)感興趣,我在之前的《Big LLM Architecture Comparison》一文中對此進(jìn)行了報(bào)道。)



帶有這類效率調(diào)整的 Transformer 架構(gòu)示意圖。

  • 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

為什么大家都在卷「線性注意力」或「稀疏注意力」?

標(biāo)準(zhǔn)的 Transformer 注意力機(jī)制(Scaled Dot-Product Attention)具有 O(N^2) 的復(fù)雜度,這意味著隨著上下文長度的增加,計(jì)算成本呈二次方爆炸式增長。

  • Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標(biāo)準(zhǔn)注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設(shè)計(jì)試圖在捕捉長距離依賴(全注意力的強(qiáng)項(xiàng))和推理速度(線性層的強(qiáng)項(xiàng))之間找到最佳平衡點(diǎn)。
  • DeepSeek V3.2則引入了稀疏注意力,通過只計(jì)算最重要的 Token 之間的相互作用,進(jìn)一步降低了計(jì)算開銷。

這些「微調(diào)」表明,2026 年的競爭不再僅僅是看誰的模型更聰明,而是看誰能在更長的上下文、更低的延遲下提供同等的智能。

擴(kuò)散語言模型:

速度與代價(jià)的博弈

話說回來,除了 Transformer 的變體,擴(kuò)散語言模型怎么樣?

擴(kuò)散語言模型之所以具有吸引力,是因?yàn)樗鼈兡軌蛞韵鄬焖偾业土某杀旧?Token。與自回歸模型(AR)那種「一個字接一個字」的串行生成不同,擴(kuò)散模型采用的是并行生成。

想象一下,自回歸模型像是一個人在打字,必須打完上一個字才能打下一個;而擴(kuò)散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時顯現(xiàn),經(jīng)過數(shù)次「去噪」迭代后變得清晰。

我前陣子在《Beyond Standard LLMs》一文中對此多寫了一些。簡而言之,我認(rèn)為 2026 年我們會看到更多相關(guān)內(nèi)容,Google 可能會推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經(jīng)在其技術(shù)博客中暗示了這一點(diǎn),強(qiáng)調(diào)其生成速度「明顯快于我們目前最快的模型」。

  • 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而,雖然擴(kuò)散語言模型的優(yōu)勢在于它們可以并行生成 Token,但這同時也是一個巨大的缺點(diǎn)。因?yàn)橛捎诓⑿猩傻奶匦裕?strong>它們無法在響應(yīng)鏈中原生地整合工具調(diào)用。

在自回歸模型中,模型可以生成「調(diào)用計(jì)算器」的指令,暫停,等待結(jié)果,然后再繼續(xù)生成。而在擴(kuò)散模型中,整個響應(yīng)是同時生成的,很難在中間插入一個外部工具的交互步驟。這使得它們在作為智能體使用時面臨巨大挑戰(zhàn)。



文本擴(kuò)散過程示例。

此外,雖然眾所周知文本擴(kuò)散推理效率更高,但最近的研究也表明,如果你為了提升質(zhì)量而增加去噪步數(shù)以匹配自回歸模型的性能,那么最終的計(jì)算預(yù)算其實(shí)是相差無幾的。

數(shù)據(jù)枯竭時代的「超級學(xué)習(xí)者」

那么,我想表達(dá)什么呢?既然擴(kuò)散模型有這些缺陷,為什么我還認(rèn)為它值得關(guān)注?

我原本計(jì)劃討論一月份發(fā)布的近期一系列有趣的研究,但我還是想簡要重點(diǎn)介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強(qiáng)調(diào)了擴(kuò)散語言模型的一個有趣優(yōu)勢:《Diffusion Language Models are Super Data Learners》。

  • 論文地址:https://arxiv.org/abs/2511.03276



來自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。

這篇論文提出了一個在 2026 年至關(guān)重要的觀點(diǎn):當(dāng)高質(zhì)量數(shù)據(jù)變得稀缺時,擴(kuò)散模型可能是更好的學(xué)習(xí)者。

眾所周知,互聯(lián)網(wǎng)上的高質(zhì)量文本數(shù)據(jù)正在接近枯竭。對于自回歸(AR)模型來說,通常我們只讓模型把數(shù)據(jù)「看」一遍(1 Epoch)。如果讓 AR 模型反復(fù)在同一份數(shù)據(jù)上訓(xùn)練,它們很容易過擬合,即死記硬背訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過的新任務(wù)上表現(xiàn)下降。

然而,上述論文表明,當(dāng)進(jìn)行多 Epoch 訓(xùn)練時,文本擴(kuò)散模型的表現(xiàn)可能優(yōu)于標(biāo)準(zhǔn)的自回歸(AR)大語言模型。

根據(jù)論文的研究結(jié)果,在嚴(yán)格控制的預(yù)訓(xùn)練設(shè)置下,當(dāng)唯一數(shù)據(jù)量有限時,通過增加訓(xùn)練輪數(shù),擴(kuò)散語言模型的表現(xiàn)持續(xù)超越了自回歸模型。

這一現(xiàn)象被稱為「Crossover(交叉點(diǎn))」:

  • 當(dāng)數(shù)據(jù)量充足時,AR 模型學(xué)得更快。
  • 但當(dāng)數(shù)據(jù)受限時,DLM 是最終的贏家。例如,一個 10 億參數(shù)的 DLM 模型,僅僅通過反復(fù)訓(xùn)練 10 億個 Token(這在今天看是非常小的數(shù)據(jù)量),在 HellaSwag 和 MMLU 基準(zhǔn)測試上分別達(dá)到了 >56% 和 >33% 的準(zhǔn)確率,且沒有使用任何特殊技巧。

為什么會這樣?論文歸結(jié)為三個因素:

  • 任意順序建模:AR 模型被迫只能從左到右學(xué)習(xí),而擴(kuò)散模型可以學(xué)習(xí)文本中任意位置之間的依賴關(guān)系。
  • 超高密度計(jì)算:通過迭代的雙向去噪,DLM 在訓(xùn)練時實(shí)際上對每個樣本進(jìn)行了更深度的壓榨。
  • 內(nèi)置的蒙特卡洛增強(qiáng):擴(kuò)散過程本身就是一種數(shù)據(jù)增強(qiáng)。同一個句子,每次加噪的方式都不一樣,相當(dāng)于把一條數(shù)據(jù)變成了無數(shù)條變體。

更有趣的是,論文發(fā)現(xiàn),對于 DLM 來說,驗(yàn)證集損失的上升并不意味著下游能力的下降。即便模型在驗(yàn)證集上看起來「過擬合」了,它在實(shí)際任務(wù)(如代碼生成、推理)上的表現(xiàn)仍在提升。

由于成本原因,過去沒有人會在多個 Epoch 上訓(xùn)練大語言模型。但在數(shù)據(jù)枯竭的今天,如果我們不得不進(jìn)行多 Epoch 訓(xùn)練,擴(kuò)散模型似乎提供了一條新出路。

這確實(shí)是有趣的結(jié)果!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
貝林厄姆爆發(fā):“簡直是一堆狗屎”

貝林厄姆爆發(fā):“簡直是一堆狗屎”

綠茵情報(bào)局
2026-01-14 04:52:49
國臺辦:將按照一個中國原則和APEC有關(guān)諒解備忘錄規(guī)定和慣例處理臺灣地區(qū)參會事宜

國臺辦:將按照一個中國原則和APEC有關(guān)諒解備忘錄規(guī)定和慣例處理臺灣地區(qū)參會事宜

環(huán)球網(wǎng)資訊
2026-01-14 11:05:56
宋慶齡拒絕與孫中山合葬,坦言:她陪我53年,我答應(yīng)要和她葬一起

宋慶齡拒絕與孫中山合葬,坦言:她陪我53年,我答應(yīng)要和她葬一起

史之銘
2026-01-12 16:26:19
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
天塌了!公司破產(chǎn)了,幾百人飯碗被砸!

天塌了!公司破產(chǎn)了,幾百人飯碗被砸!

黯泉
2026-01-13 22:17:44
杜蘭特28+10火箭戰(zhàn)勝公牛結(jié)束3連敗,申京23+7+11湯普森23分

杜蘭特28+10火箭戰(zhàn)勝公牛結(jié)束3連敗,申京23+7+11湯普森23分

湖人崛起
2026-01-14 11:28:33
賀嬌龍?jiān)Q冬天拍攝萬馬奔騰很緊張,容易打滑!已非首次墜馬

賀嬌龍?jiān)Q冬天拍攝萬馬奔騰很緊張,容易打滑!已非首次墜馬

南方都市報(bào)
2026-01-14 14:37:17
動向丨利好不斷,這個方向有望繼續(xù)爆發(fā)!

動向丨利好不斷,這個方向有望繼續(xù)爆發(fā)!

錢眼
2026-01-14 20:29:27
奉勸大家:為了家人安全,別在廚房做這7件事,真的很危險(xiǎn)!

奉勸大家:為了家人安全,別在廚房做這7件事,真的很危險(xiǎn)!

Home范
2026-01-03 14:57:10
烏情報(bào)局長:如果不是俄烏戰(zhàn)爭的爆發(fā),俄羅斯不會這么依賴中國。

烏情報(bào)局長:如果不是俄烏戰(zhàn)爭的爆發(fā),俄羅斯不會這么依賴中國。

百態(tài)人間
2026-01-13 16:42:44
何潔這變化也太大了,美得讓人都快認(rèn)不出來,狀態(tài)也太絕了吧!

何潔這變化也太大了,美得讓人都快認(rèn)不出來,狀態(tài)也太絕了吧!

可樂談情感
2026-01-14 12:58:40
朱媛媛遺作播出才1天,惡心的一幕上演,辛柏青一個舉動表明態(tài)度

朱媛媛遺作播出才1天,惡心的一幕上演,辛柏青一個舉動表明態(tài)度

畫畫影視
2026-01-13 16:30:33
青海獨(dú)家回應(yīng):4名評標(biāo)專家“餓暈”當(dāng)天經(jīng)歷了什么

青海獨(dú)家回應(yīng):4名評標(biāo)專家“餓暈”當(dāng)天經(jīng)歷了什么

中國新聞周刊
2026-01-13 18:25:10
廣東新賽季最大謎團(tuán)!胡明軒場均8.2分領(lǐng)銜多項(xiàng)數(shù)據(jù)創(chuàng)近七年新低

廣東新賽季最大謎團(tuán)!胡明軒場均8.2分領(lǐng)銜多項(xiàng)數(shù)據(jù)創(chuàng)近七年新低

狼叔評論
2026-01-14 20:42:42
再見,拜仁!“8000萬先生”決定轉(zhuǎn)投AC米蘭!主帥欽點(diǎn)1.8億強(qiáng)援

再見,拜仁!“8000萬先生”決定轉(zhuǎn)投AC米蘭!主帥欽點(diǎn)1.8億強(qiáng)援

頭狼追球
2026-01-14 11:42:05
福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時間在室內(nèi)…

福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時間在室內(nèi)…

小嵩
2026-01-10 19:34:08
1972年山東挖出一竹簡,才知龐涓殘害孫臏真相,被挖膝蓋骨真不冤

1972年山東挖出一竹簡,才知龐涓殘害孫臏真相,被挖膝蓋骨真不冤

史之銘
2026-01-09 06:29:23
委內(nèi)政部長表示美國襲擊致超過100人死亡,“爆炸威力巨大無法進(jìn)行DNA鑒定”

委內(nèi)政部長表示美國襲擊致超過100人死亡,“爆炸威力巨大無法進(jìn)行DNA鑒定”

大風(fēng)新聞
2026-01-14 10:15:03
煙花取消通知!

煙花取消通知!

東莞好生活
2026-01-14 15:29:57
2026-01-14 21:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12117文章數(shù) 142536關(guān)注度
往期回顧 全部

科技要聞

攜程因涉嫌壟斷被市場監(jiān)管總局調(diào)查

頭條要聞

國企領(lǐng)導(dǎo)超83%贓款來自境外:錢藏在10個國家和地區(qū)

頭條要聞

國企領(lǐng)導(dǎo)超83%贓款來自境外:錢藏在10個國家和地區(qū)

體育要聞

你是個好球員,我們就拿你交易吧

娛樂要聞

何晴去世30天,許亞軍終于發(fā)聲

財(cái)經(jīng)要聞

涉嫌壟斷!市場監(jiān)管總局對攜程立案調(diào)查

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
教育
本地
公開課

數(shù)碼要聞

全球首款2nm處理器!AMD EPYC Venice細(xì)節(jié)曝光:CCD密度翻倍、1GB緩存

房產(chǎn)要聞

熱銷17億后!天正·三亞灣壹號,被爆違建!

教育要聞

多圖直擊:北京各小學(xué)讓孩子在“樂”中“考”出未來素養(yǎng)

本地新聞

邵陽公益訴訟檢察主題曲:《守望星》

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版