3倍吞吐量、訪存減至1/10！螞蟻甩出兩大萬億參數(shù)開源模型，背后架構(gòu)成關(guān)鍵

2026-02-25 12:18:08　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達(dá)
編輯漠影

　　當(dāng)大模型在推理、編程等能力上不斷刷新紀(jì)錄時，一個新的問題也愈發(fā)突出：如何在持續(xù)提升模型能力的同時，控制算力與資源消耗？

　　就在本月，螞蟻集團(tuán)inclusionAI團(tuán)隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T（即時模型）與Ring-2.5-1T（思考模型）。

　　這兩款模型并非僅靠“堆參數(shù)”取勝，它們共享的技術(shù)底座——混合線性注意力架構(gòu)“Ling 2.5”，才是此次發(fā)布的關(guān)鍵。在當(dāng)前主流大模型仍以改進(jìn)型傳統(tǒng)注意力機(jī)制為核心架構(gòu)的背景下，Ling-2.5-1T是業(yè)內(nèi)少見的超大型混合線性注意力架構(gòu)模型，而Ring-2.5-1T成為了全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型。

　　得益于Ling 2.5這一新架構(gòu)，模型在長文本生成與長程推理場景中，將訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10，生成吞吐量達(dá)原來的3倍。換言之，它讓模型在“變聰明”的同時，也學(xué)會了“省著花”。

　　同時，效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準(zhǔn)測試中，Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

　　而Ring-2.5-1T則在國際數(shù)學(xué)奧林匹克競賽（IMO 2025）和中國數(shù)學(xué)奧林匹克（CMO 2025）達(dá)到金牌水平（自測分?jǐn)?shù)為IMO 35分、CMO 105分），開啟重度思考（Heavy Thinking）模式后，它在IMOAnswerBench、HMMT-25等數(shù)學(xué)競賽推理基準(zhǔn)和LiveCodeBench-v6代碼生成基準(zhǔn)中，超越所有對比模型，無論開源閉源。

　　那么，螞蟻百靈的混合線性架構(gòu)的技術(shù)路線究竟是如何實現(xiàn)的？又是如何在不犧牲性能的前提下，撬動如此顯著的效率提升？

　　一、萬億參數(shù)時代，傳統(tǒng)架構(gòu)還能走多遠(yuǎn)？

　　在大模型持續(xù)躍遷的進(jìn)程中，注意力機(jī)制始終處于舞臺中央，影響著模型理解長文本、捕捉復(fù)雜語義以及生成高質(zhì)量內(nèi)容的能力。而Softmax一直是主流架構(gòu)的核心注意力計算機(jī)制，幾乎所有Transformer模型都以此為基礎(chǔ)。

　　這種機(jī)制每次計算都“翻閱”完整上下文，精準(zhǔn)捕捉詞與詞的關(guān)聯(lián)，賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對齊能力。但其代價明顯：隨著文本長度增加，其計算量呈平方級增長，算力和顯存消耗迅速攀升。

　　隨著應(yīng)用場景向超長上下文延展，這種“精細(xì)化”的成本被重新審視。線性注意力（Linear Attention）由此進(jìn)入主流視野。

　　線性注意力通過數(shù)學(xué)重構(gòu)，降低計算復(fù)雜度，不再為每一個token反復(fù)回溯全部序列，而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽，每一步都承接前一步的成果，無需重走來路。效率的躍升是顯而易見的：更低的FLOPs、更小的顯存占用、更快的生成速度。

　　然而，線性機(jī)制也并非萬能。在需要精準(zhǔn)定位關(guān)鍵信息、進(jìn)行細(xì)粒度語義對齊或復(fù)雜長程依賴建模的任務(wù)中，其表現(xiàn)有時難以匹敵傳統(tǒng)注意力。于是，一條兼顧性能與效率的技術(shù)路徑逐漸成型——混合線性注意力架構(gòu)（Hybrid Linear Attention）。

　　這一思路其實很直觀。同一模型中進(jìn)行“分層分工”。部分層保留傳統(tǒng)注意力處理復(fù)雜語義與全局依賴，部分層采用線性機(jī)制以降低計算負(fù)擔(dān)，從而讓模型在表達(dá)能力與計算效率之間實現(xiàn)動態(tài)平衡。

　　然而，理念清晰并不意味著實現(xiàn)簡單。真正將混合架構(gòu)推向超大規(guī)模參數(shù)訓(xùn)練，仍面臨多重挑戰(zhàn)。

　　首先是訓(xùn)練穩(wěn)定性問題，兩種機(jī)制在同一網(wǎng)絡(luò)中協(xié)同運(yùn)行，在超大規(guī)模預(yù)訓(xùn)練下容易引發(fā)數(shù)值震蕩，影響收斂與梯度穩(wěn)定。

　　其次是比例調(diào)優(yōu)難題，多少層采用傳統(tǒng)注意力、多少層采用線性機(jī)制，并無通用公式，研究者需在工程與實驗中反復(fù)權(quán)衡。

　　再者，在上下文不斷擴(kuò)展的背景下，如何確保線性部分高效傳遞狀態(tài)而不丟失關(guān)鍵語義信息，也成為架構(gòu)設(shè)計的核心瓶頸之一。

　　二、告別暴力堆算力、堆參數(shù)，如何實現(xiàn)混合架構(gòu)的萬億級工程化躍遷

　　當(dāng)前，包括Minimax、月之暗面、阿里以及OpenAI等機(jī)構(gòu)均已探索了混合線性注意力架構(gòu)的應(yīng)用潛力，行業(yè)逐漸形成共識：混合結(jié)構(gòu)是突破大模型效率瓶頸的重要路徑之一。

　　在這一趨勢之中，螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線，可以分成兩個階段：技術(shù)可行性驗證階段與萬億規(guī)模工程化落地階段。

　　早在去年9月，螞蟻百靈團(tuán)隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，并發(fā)布技術(shù)報告，驗證了線性注意力在真實工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

　　報告中給出的核心架構(gòu)思想是將線性注意力與Softmax注意力進(jìn)行分組混合，每個layer group中包含M層線性attention加1層Softmax注意力，從而在保持表達(dá)能力的前提下，把復(fù)雜度從O(n2)拉向近似O(n)。

　　通過Scaling Law實驗，他們驗證了當(dāng)M=7（即1:7的混合比例）時，在高FLOP預(yù)算下表現(xiàn)優(yōu)于純softmax結(jié)構(gòu)。這個結(jié)論至關(guān)重要，因為它證明：在大模型規(guī)模下，“線性為主、softmax為輔”的結(jié)構(gòu)不是性能退化，而是效率與效果的更優(yōu)平衡。

　　在這項研究中，螞蟻還發(fā)布了兩大自研高性能融合算子。一方面，通過精細(xì)化的算子融合和自適應(yīng)重計算量化技術(shù)，更高效的FP8融合算子將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

　　在推理端，他們開發(fā)了更高效的線性注意力融合算子，支持更多的推理模式，進(jìn)一步提升推理引擎的吞吐。

　　架構(gòu)優(yōu)化與高性能算子協(xié)同之下，兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10，相較原有Ring系列成本也下降超過50%。

　　完成初步探索后，螞蟻百靈團(tuán)隊在其基礎(chǔ)上提出了Ling 2.5 架構(gòu)：在Ling 2.0的基礎(chǔ)之上，通過“增量訓(xùn)練”的方式，將原有GQA（改進(jìn)版的注意力機(jī)制，仍然基于Softmax）升級為1:7的MLA + Lightning Linear混合結(jié)構(gòu)，把混合線性注意力架構(gòu)真正推向萬億規(guī)模。

　　在Ling 2.5架構(gòu)中，大部分GQA層都被改造為了Lightning Linear Attention，以提升長程推理的吞吐能力；剩余GQA層近似轉(zhuǎn)為MLA，以壓縮KV Cache并保留表達(dá)能力。

　　整個改造過程中保留QK Norm、Partial RoPE等關(guān)鍵機(jī)制，并進(jìn)行了針對性適配，從而保證模型架構(gòu)遷移過程中表達(dá)能力不塌陷。

　　改造完成后，Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B，但在混合線性架構(gòu)支持下，推理吞吐仍然顯著提升，這說明架構(gòu)優(yōu)化帶來的收益，已經(jīng)超過參數(shù)規(guī)模增加帶來的負(fù)擔(dān)。

　　在架構(gòu)改造之后，螞蟻還進(jìn)一步對Ling-2.5-1T-base進(jìn)行了基于9T優(yōu)質(zhì)語料的持續(xù)預(yù)訓(xùn)練，重點強(qiáng)化了預(yù)訓(xùn)練基座的世界知識覆蓋與智能體交互的基礎(chǔ)能力。

　　同時，憑借混合線性注意力架構(gòu)在長文本處理上的高計算效率與可擴(kuò)展性，他們將Ling-2.5-1T的上下文窗口擴(kuò)展訓(xùn)練至256K tokens，并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

　　三、從實驗室到真實場景：架構(gòu)優(yōu)化帶來了什么？

　　在螞蟻對外發(fā)布的基準(zhǔn)測試中，我們能直觀感受到混合線性注意力帶來的性能提升。

　　以AIME 2026評測為例，當(dāng)平均輸出長度約為5890個token時，新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T，并已逼近前沿思考模型的水平。值得注意的是，后者通常需要生成15000到23000個token才能完成同樣復(fù)雜的任務(wù)。

　　在衡量長文本處理能力的RULER與MRCR基準(zhǔn)測試（覆蓋16K至256K token范圍）中，Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構(gòu)的主流大型即時模型（如Kimi K2.5、DeepSeek V3.2）的分?jǐn)?shù)。

　　Ring-2.5-1T則在數(shù)學(xué)、代碼、邏輯等高難推理任務(wù)和智能體搜索、軟件工程、工具調(diào)用等長程任務(wù)執(zhí)行上均達(dá)到了開源領(lǐng)先水平。這些任務(wù)的性能提升，與混合線性注意力架構(gòu)在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關(guān)。線性機(jī)制實現(xiàn)了高效的上下文信息傳遞，有效支撐了復(fù)雜推理任務(wù)對長序列建模的需求。

　　這種架構(gòu)上的優(yōu)勢也直接轉(zhuǎn)化為工程實踐上的紅利。即便在激活參數(shù)量增加至63B的情況下，基于混合線性注意力的Ling-2.5在單機(jī)8卡H200的配置下，其長文本生成的解碼吞吐量（decode throughput）仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。

　　并且，隨著生成文本長度的增加，這種吞吐量優(yōu)勢變得越發(fā)明顯，充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。

　　模型能力的提升在實際應(yīng)用案例中同樣得到了體現(xiàn)。在下方這個關(guān)于《知識產(chǎn)權(quán)質(zhì)押糾紛》的復(fù)雜法律指令遵循任務(wù)中，Ling-2.5-1T能夠嚴(yán)格遵循超過10項涵蓋內(nèi)容框架、細(xì)節(jié)、格式和字?jǐn)?shù)等多維度的指令約束，生成條理清晰、邏輯連貫的答復(fù)。

　　這得益于優(yōu)化后的長上下文能力，確保了模型能在跨越多個細(xì)分指令的過程中始終保持一致性，避免信息斷裂。

　　而在這個財報解讀案例中，模型可以對數(shù)十頁的財報進(jìn)行信息的抽取匯總，并對重點財務(wù)衍生指標(biāo)進(jìn)行計算，得到財報的深度分析結(jié)論。

　　龐大的長上下文窗口與高效的token利用率，使得這類復(fù)雜任務(wù)無需分解，即可一次性流暢完成。

　　這些技術(shù)特性在實際應(yīng)用中具有明確的商業(yè)價值。長期以來，大模型在規(guī)模化部署中主要受限于推理成本，而此次架構(gòu)層面的優(yōu)化直接降低了單位請求的算力開銷，使企業(yè)能夠在同等硬件條件下支持更高并發(fā)，進(jìn)而降低AI功能集成的門檻。

　　百萬token級別的長上下文支持，拓展了模型在復(fù)雜文檔處理場景中的可用性，例如長篇幅法律文書的語義解析、科研文獻(xiàn)的批量梳理等。同時，模型在多步推理與跨段落信息整合方面的表現(xiàn)，也為構(gòu)建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術(shù)基礎(chǔ)。

　　結(jié)語：跳出“參數(shù)競賽”，回歸架構(gòu)進(jìn)化的本質(zhì)

　　就在2月，螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布：原生全模態(tài)模型Ming-flash-2.0、擴(kuò)散語言模型LLaDA2.1、思考模型Ring-2.5-1T，以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關(guān)鍵基準(zhǔn)上具備競爭力，讓螞蟻穩(wěn)居國內(nèi)大模型行業(yè)第一梯隊，而全系列開源的策略，也讓其成為當(dāng)下AI開源生態(tài)中不可忽視的新力量。

　　回溯百靈家族的整體布局，其演進(jìn)邏輯清晰可見：并非單一追求參數(shù)規(guī)模攀升，而是在多模態(tài)感知、語言生成機(jī)制、深度推理能力與即時響應(yīng)效率等核心維度上全面布局，構(gòu)建互為補(bǔ)充、協(xié)同進(jìn)化的模型矩陣。

　　而站在更宏觀的行業(yè)視角，Ling 2.5架構(gòu)的成功，傳遞出一個重要信號：架構(gòu)創(chuàng)新仍是大模型演進(jìn)的關(guān)鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構(gòu)革新帶來的系統(tǒng)性優(yōu)勢，正在重新定義大模型的能力邊界。

　　當(dāng)技術(shù)路線趨于多元，當(dāng)開源生態(tài)持續(xù)繁榮，開發(fā)者也就擁有了更靈活的工具組合來應(yīng)對不同場景的挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.