国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

0
分享至

  

智東西
作者 陳駿達(dá)
編輯 漠影

  當(dāng)大模型在推理、編程等能力上不斷刷新紀(jì)錄時,一個新的問題也愈發(fā)突出:如何在持續(xù)提升模型能力的同時,控制算力與資源消耗?

  就在本月,螞蟻集團(tuán)inclusionAI團(tuán)隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T(即時模型)與Ring-2.5-1T(思考模型)。

  這兩款模型并非僅靠“堆參數(shù)”取勝,它們共享的技術(shù)底座——混合線性注意力架構(gòu)“Ling 2.5”,才是此次發(fā)布的關(guān)鍵。在當(dāng)前主流大模型仍以改進(jìn)型傳統(tǒng)注意力機(jī)制為核心架構(gòu)的背景下,Ling-2.5-1T是業(yè)內(nèi)少見的超大型混合線性注意力架構(gòu)模型,而Ring-2.5-1T成為了全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型。

  得益于Ling 2.5這一新架構(gòu),模型在長文本生成與長程推理場景中,將訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量達(dá)原來的3倍。換言之,它讓模型在“變聰明”的同時,也學(xué)會了“省著花”。

  同時,效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準(zhǔn)測試中,Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

  

  而Ring-2.5-1T則在國際數(shù)學(xué)奧林匹克競賽(IMO 2025)和中國數(shù)學(xué)奧林匹克(CMO 2025)達(dá)到金牌水平(自測分?jǐn)?shù)為IMO 35分、CMO 105分),開啟重度思考(Heavy Thinking)模式后,它在IMOAnswerBench、HMMT-25等數(shù)學(xué)競賽推理基準(zhǔn)和LiveCodeBench-v6代碼生成基準(zhǔn)中,超越所有對比模型,無論開源閉源。

  

  那么,螞蟻百靈的混合線性架構(gòu)的技術(shù)路線究竟是如何實現(xiàn)的?又是如何在不犧牲性能的前提下,撬動如此顯著的效率提升?

  一、萬億參數(shù)時代,傳統(tǒng)架構(gòu)還能走多遠(yuǎn)?

  在大模型持續(xù)躍遷的進(jìn)程中,注意力機(jī)制始終處于舞臺中央,影響著模型理解長文本、捕捉復(fù)雜語義以及生成高質(zhì)量內(nèi)容的能力。而Softmax一直是主流架構(gòu)的核心注意力計算機(jī)制,幾乎所有Transformer模型都以此為基礎(chǔ)。

  這種機(jī)制每次計算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對齊能力。但其代價明顯:隨著文本長度增加,其計算量呈平方級增長,算力和顯存消耗迅速攀升。

  隨著應(yīng)用場景向超長上下文延展,這種“精細(xì)化”的成本被重新審視。線性注意力(Linear Attention)由此進(jìn)入主流視野。

  線性注意力通過數(shù)學(xué)重構(gòu),降低計算復(fù)雜度,不再為每一個token反復(fù)回溯全部序列,而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽,每一步都承接前一步的成果,無需重走來路。效率的躍升是顯而易見的:更低的FLOPs、更小的顯存占用、更快的生成速度。

  然而,線性機(jī)制也并非萬能。在需要精準(zhǔn)定位關(guān)鍵信息、進(jìn)行細(xì)粒度語義對齊或復(fù)雜長程依賴建模的任務(wù)中,其表現(xiàn)有時難以匹敵傳統(tǒng)注意力。于是,一條兼顧性能與效率的技術(shù)路徑逐漸成型——混合線性注意力架構(gòu)(Hybrid Linear Attention)

  這一思路其實很直觀。同一模型中進(jìn)行“分層分工”。部分層保留傳統(tǒng)注意力處理復(fù)雜語義與全局依賴,部分層采用線性機(jī)制以降低計算負(fù)擔(dān),從而讓模型在表達(dá)能力與計算效率之間實現(xiàn)動態(tài)平衡。

  然而,理念清晰并不意味著實現(xiàn)簡單。真正將混合架構(gòu)推向超大規(guī)模參數(shù)訓(xùn)練,仍面臨多重挑戰(zhàn)。

  首先是訓(xùn)練穩(wěn)定性問題,兩種機(jī)制在同一網(wǎng)絡(luò)中協(xié)同運(yùn)行,在超大規(guī)模預(yù)訓(xùn)練下容易引發(fā)數(shù)值震蕩,影響收斂與梯度穩(wěn)定。

  其次是比例調(diào)優(yōu)難題,多少層采用傳統(tǒng)注意力、多少層采用線性機(jī)制,并無通用公式,研究者需在工程與實驗中反復(fù)權(quán)衡。

  再者,在上下文不斷擴(kuò)展的背景下,如何確保線性部分高效傳遞狀態(tài)而不丟失關(guān)鍵語義信息,也成為架構(gòu)設(shè)計的核心瓶頸之一。

  二、告別暴力堆算力、堆參數(shù),如何實現(xiàn)混合架構(gòu)的萬億級工程化躍遷

  當(dāng)前,包括Minimax、月之暗面、阿里以及OpenAI等機(jī)構(gòu)均已探索了混合線性注意力架構(gòu)的應(yīng)用潛力,行業(yè)逐漸形成共識:混合結(jié)構(gòu)是突破大模型效率瓶頸的重要路徑之一。

  在這一趨勢之中,螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線,可以分成兩個階段:技術(shù)可行性驗證階段萬億規(guī)模工程化落地階段。

  早在去年9月,螞蟻百靈團(tuán)隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,并發(fā)布技術(shù)報告,驗證了線性注意力在真實工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

  報告中給出的核心架構(gòu)思想是將線性注意力與Softmax注意力進(jìn)行分組混合,每個layer group中包含M層線性attention加1層Softmax注意力,從而在保持表達(dá)能力的前提下,把復(fù)雜度從O(n2)拉向近似O(n)。

  通過Scaling Law實驗,他們驗證了當(dāng)M=7(即1:7的混合比例)時,在高FLOP預(yù)算下表現(xiàn)優(yōu)于純softmax結(jié)構(gòu)。這個結(jié)論至關(guān)重要,因為它證明:在大模型規(guī)模下,“線性為主、softmax為輔”的結(jié)構(gòu)不是性能退化,而是效率與效果的更優(yōu)平衡。

  在這項研究中,螞蟻還發(fā)布了兩大自研高性能融合算子。一方面,通過精細(xì)化的算子融合和自適應(yīng)重計算量化技術(shù),更高效的FP8融合算子將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

  

  在推理端,他們開發(fā)了更高效的線性注意力融合算子,支持更多的推理模式,進(jìn)一步提升推理引擎的吞吐。

  架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10,相較原有Ring系列成本也下降超過50%。

  完成初步探索后,螞蟻百靈團(tuán)隊在其基礎(chǔ)上提出了Ling 2.5 架構(gòu):在Ling 2.0的基礎(chǔ)之上,通過“增量訓(xùn)練”的方式,將原有GQA(改進(jìn)版的注意力機(jī)制,仍然基于Softmax)升級為1:7的MLA + Lightning Linear混合結(jié)構(gòu),把混合線性注意力架構(gòu)真正推向萬億規(guī)模。

  

  在Ling 2.5架構(gòu)中,大部分GQA層都被改造為了Lightning Linear Attention,以提升長程推理的吞吐能力;剩余GQA層近似轉(zhuǎn)為MLA,以壓縮KV Cache并保留表達(dá)能力。

  整個改造過程中保留QK Norm、Partial RoPE等關(guān)鍵機(jī)制,并進(jìn)行了針對性適配,從而保證模型架構(gòu)遷移過程中表達(dá)能力不塌陷。

  改造完成后,Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B,但在混合線性架構(gòu)支持下,推理吞吐仍然顯著提升,這說明架構(gòu)優(yōu)化帶來的收益,已經(jīng)超過參數(shù)規(guī)模增加帶來的負(fù)擔(dān)。

  在架構(gòu)改造之后,螞蟻還進(jìn)一步對Ling-2.5-1T-base進(jìn)行了基于9T優(yōu)質(zhì)語料的持續(xù)預(yù)訓(xùn)練,重點強(qiáng)化了預(yù)訓(xùn)練基座的世界知識覆蓋與智能體交互的基礎(chǔ)能力。

  同時,憑借混合線性注意力架構(gòu)在長文本處理上的高計算效率與可擴(kuò)展性,他們將Ling-2.5-1T的上下文窗口擴(kuò)展訓(xùn)練至256K tokens,并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

  三、從實驗室到真實場景:架構(gòu)優(yōu)化帶來了什么?

  在螞蟻對外發(fā)布的基準(zhǔn)測試中,我們能直觀感受到混合線性注意力帶來的性能提升。

  以AIME 2026評測為例,當(dāng)平均輸出長度約為5890個token時,新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T,并已逼近前沿思考模型的水平。值得注意的是,后者通常需要生成15000到23000個token才能完成同樣復(fù)雜的任務(wù)。

  

  在衡量長文本處理能力的RULER與MRCR基準(zhǔn)測試(覆蓋16K至256K token范圍)中,Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構(gòu)的主流大型即時模型(如Kimi K2.5、DeepSeek V3.2)的分?jǐn)?shù)。

  Ring-2.5-1T則在數(shù)學(xué)、代碼、邏輯等高難推理任務(wù)和智能體搜索、軟件工程、工具調(diào)用等長程任務(wù)執(zhí)行上均達(dá)到了開源領(lǐng)先水平。這些任務(wù)的性能提升,與混合線性注意力架構(gòu)在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關(guān)。線性機(jī)制實現(xiàn)了高效的上下文信息傳遞,有效支撐了復(fù)雜推理任務(wù)對長序列建模的需求。

  這種架構(gòu)上的優(yōu)勢也直接轉(zhuǎn)化為工程實踐上的紅利。即便在激活參數(shù)量增加至63B的情況下,基于混合線性注意力的Ling-2.5在單機(jī)8卡H200的配置下,其長文本生成的解碼吞吐量(decode throughput)仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。

  并且,隨著生成文本長度的增加,這種吞吐量優(yōu)勢變得越發(fā)明顯,充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。

  

  模型能力的提升在實際應(yīng)用案例中同樣得到了體現(xiàn)。在下方這個關(guān)于《知識產(chǎn)權(quán)質(zhì)押糾紛》的復(fù)雜法律指令遵循任務(wù)中,Ling-2.5-1T能夠嚴(yán)格遵循超過10項涵蓋內(nèi)容框架、細(xì)節(jié)、格式和字?jǐn)?shù)等多維度的指令約束,生成條理清晰、邏輯連貫的答復(fù)。

  這得益于優(yōu)化后的長上下文能力,確保了模型能在跨越多個細(xì)分指令的過程中始終保持一致性,避免信息斷裂。

  

  而在這個財報解讀案例中,模型可以對數(shù)十頁的財報進(jìn)行信息的抽取匯總,并對重點財務(wù)衍生指標(biāo)進(jìn)行計算,得到財報的深度分析結(jié)論。

  

  龐大的長上下文窗口與高效的token利用率,使得這類復(fù)雜任務(wù)無需分解,即可一次性流暢完成。

  這些技術(shù)特性在實際應(yīng)用中具有明確的商業(yè)價值。長期以來,大模型在規(guī)模化部署中主要受限于推理成本,而此次架構(gòu)層面的優(yōu)化直接降低了單位請求的算力開銷,使企業(yè)能夠在同等硬件條件下支持更高并發(fā),進(jìn)而降低AI功能集成的門檻。

  百萬token級別的長上下文支持,拓展了模型在復(fù)雜文檔處理場景中的可用性,例如長篇幅法律文書的語義解析、科研文獻(xiàn)的批量梳理等。同時,模型在多步推理與跨段落信息整合方面的表現(xiàn),也為構(gòu)建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術(shù)基礎(chǔ)。

  結(jié)語:跳出“參數(shù)競賽”,回歸架構(gòu)進(jìn)化的本質(zhì)

  就在2月,螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布:原生全模態(tài)模型Ming-flash-2.0、擴(kuò)散語言模型LLaDA2.1、思考模型Ring-2.5-1T,以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關(guān)鍵基準(zhǔn)上具備競爭力,讓螞蟻穩(wěn)居國內(nèi)大模型行業(yè)第一梯隊,而全系列開源的策略,也讓其成為當(dāng)下AI開源生態(tài)中不可忽視的新力量。

  回溯百靈家族的整體布局,其演進(jìn)邏輯清晰可見:并非單一追求參數(shù)規(guī)模攀升,而是在多模態(tài)感知、語言生成機(jī)制、深度推理能力與即時響應(yīng)效率等核心維度上全面布局,構(gòu)建互為補(bǔ)充、協(xié)同進(jìn)化的模型矩陣。

  而站在更宏觀的行業(yè)視角,Ling 2.5架構(gòu)的成功,傳遞出一個重要信號:架構(gòu)創(chuàng)新仍是大模型演進(jìn)的關(guān)鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構(gòu)革新帶來的系統(tǒng)性優(yōu)勢,正在重新定義大模型的能力邊界。

  當(dāng)技術(shù)路線趨于多元,當(dāng)開源生態(tài)持續(xù)繁榮,開發(fā)者也就擁有了更靈活的工具組合來應(yīng)對不同場景的挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
猴票從120萬天價到3025元競拍價,集郵大軍老去,年輕人不玩了

猴票從120萬天價到3025元競拍價,集郵大軍老去,年輕人不玩了

瓜哥的動物日記
2026-03-02 15:51:49
當(dāng)你接觸的人多了,你會明白:如果一個人還在穿5年前的衣服,只說明3個問題

當(dāng)你接觸的人多了,你會明白:如果一個人還在穿5年前的衣服,只說明3個問題

LULU生活家
2026-01-16 18:51:53
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

證券時報e公司
2026-03-02 23:05:14
讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

大嘴爵爺侃球
2026-03-02 15:28:51
俄羅斯很聰明,哈梅內(nèi)伊遇襲后,不到24小時,普京向中方打了電話

俄羅斯很聰明,哈梅內(nèi)伊遇襲后,不到24小時,普京向中方打了電話

起喜電影
2026-03-03 01:24:05
美俄烏談崩了,普京新增一要求,扎哈羅娃點名中國:穩(wěn)住國際局勢

美俄烏談崩了,普京新增一要求,扎哈羅娃點名中國:穩(wěn)住國際局勢

老嘪科普
2026-03-03 02:08:29
悄無聲息的從21漲到254,因為一個概念,近一年低調(diào)的漲了12倍

悄無聲息的從21漲到254,因為一個概念,近一年低調(diào)的漲了12倍

有范又有料
2026-03-02 16:16:13
哈梅內(nèi)伊沒有“遇害”

哈梅內(nèi)伊沒有“遇害”

西樓飲月
2026-03-02 22:33:08
中紀(jì)委明確:公職人員犯罪符合這些情形可以不開除(含公務(wù)員、參公、事業(yè)和國企)

中紀(jì)委明確:公職人員犯罪符合這些情形可以不開除(含公務(wù)員、參公、事業(yè)和國企)

微法官
2026-02-28 00:04:56
外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

每日經(jīng)濟(jì)新聞
2026-03-02 17:20:01
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
郵輪因中東局勢滯留迪拜 船上有約200名中國游客 旅行社稱“該想的辦法都想了”

郵輪因中東局勢滯留迪拜 船上有約200名中國游客 旅行社稱“該想的辦法都想了”

閃電新聞
2026-03-02 22:20:51
上海旅客講述迪拜驚魂夜:百余人手機(jī)同時響警報,航班再延期

上海旅客講述迪拜驚魂夜:百余人手機(jī)同時響警報,航班再延期

南方都市報
2026-03-02 09:25:52
央媽定調(diào)!4大板塊爆發(fā),超1.9萬億資金托舉牛市

央媽定調(diào)!4大板塊爆發(fā),超1.9萬億資金托舉牛市

慧眼看世界哈哈
2026-03-03 00:29:41
梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

百態(tài)人間
2026-03-02 15:16:23
6人將離隊?男籃備戰(zhàn)世預(yù)賽下一階段,郭士強(qiáng)齊聚三大旅美王牌!

6人將離隊?男籃備戰(zhàn)世預(yù)賽下一階段,郭士強(qiáng)齊聚三大旅美王牌!

緋雨兒
2026-03-02 11:36:15
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂
2026-02-27 12:42:23
突發(fā),美國國防部出手了!

突發(fā),美國國防部出手了!

君臨財富
2026-03-02 11:40:17
又有兩國加入戰(zhàn)場?關(guān)鍵時刻,美媒曝出消息:沙特把中國也騙了?

又有兩國加入戰(zhàn)場?關(guān)鍵時刻,美媒曝出消息:沙特把中國也騙了?

易昂楊
2026-03-03 01:23:40
2026-03-03 03:31:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11280文章數(shù) 116984關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

旅游
數(shù)碼
房產(chǎn)
本地
教育

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

數(shù)碼要聞

高通MWC 2026發(fā)布多項通信技術(shù),定檔2029年開啟6G商用

房產(chǎn)要聞

方案突然曝光!?诒睅煷蟾叫,又有書包大盤殺出!

本地新聞

津南好·四時總相宜

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

無障礙瀏覽 進(jìn)入關(guān)懷版