国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小眾架構(gòu)贏麻了:讓100B擴(kuò)散模型飆出892 tokens/秒的速度!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

誰能想到啊,在自回歸模型(Autoregressive,AR)當(dāng)?shù)赖默F(xiàn)在,一個(gè)非主流架構(gòu)的模型突然殺了回馬槍——

被長期視為學(xué)術(shù)玩具的擴(kuò)散語言模型,直接在復(fù)雜編程任務(wù)中飆出了892 tokens/秒的速度!



你沒看錯(cuò),當(dāng)主流大模型還在以幾十token的速度逐字蹦詞時(shí),這個(gè)非主流模型已經(jīng)在100B參數(shù)規(guī)模上,跑出了如此的速度。

2025年,螞蟻集團(tuán)資深技術(shù)專家趙俊博曾經(jīng)帶著LLaDA2.0登上量子位MEET大會(huì)的舞臺(tái),而如今,他們的最新版本LLaDA2.1來了,螞蟻技術(shù)研究院重磅開源!



三個(gè)月前,在LLaDA2.0時(shí)代,這更多是一個(gè)充滿挑戰(zhàn)的研究性模型。

而這一次,LLaDA2.1的誕生,標(biāo)志著這個(gè)路線的歷史性轉(zhuǎn)折。它不再只是一個(gè)“學(xué)術(shù)研究”,而是真正可用、甚至在效率上更為優(yōu)越的強(qiáng)大工具。

那么在整個(gè)行業(yè)都在卷更大的自回歸模型時(shí),螞蟻到底是怎么低調(diào)修了另一條“能跑通的高速公路”的?

接下來,我們就再一起扒一扒這個(gè)非共識技術(shù)背后的原理。

怎么做到的?

在深入技術(shù)之前,我們先得聊聊為什么現(xiàn)在的ChatGPT、Claude們總是慢條斯理。

因?yàn)樗鼈儙缀跞坎捎米曰貧w架構(gòu),這種模式如同一個(gè)不能打草稿的考生,必須從左到右、一字一句地生成文本,寫完即定稿,無法回頭修改。

而擴(kuò)散模型的理論優(yōu)勢在于并行,可以同時(shí)處理所有文本位置,理論上能一次成篇,擁有巨大的速度潛力。

但擴(kuò)散語言模型在早期一直有個(gè)致命傷,那就是容易胡說八道,且缺乏全局一致性。因?yàn)椴⑿猩蓵r(shí),各個(gè)部分可能是各玩各的,導(dǎo)致前后文邏輯不通。

為此,螞蟻的LLaDA2.1先亮出了第一個(gè)技術(shù)殺手锏:

一個(gè)模型兩種模式設(shè)計(jì),把怎么用模型的權(quán)力交給用戶

基于可糾錯(cuò)編輯的底層能力,LLaDA2.1引入了靈活的雙模式解碼策略,實(shí)現(xiàn)了單個(gè)模型,同時(shí)支持極速與質(zhì)量兩種模式:

  • Speedy Mode(極速模式):大幅降低τ_mask閾值,激進(jìn)并行生成初稿,依賴T2T編輯進(jìn)行后期修正。適合代碼草稿、快速推理、多輪試探式生成等對吞吐量敏感的場景。
  • Quality Mode(質(zhì)量模式):采用保守閾值,減少編輯次數(shù),優(yōu)先保障輸出準(zhǔn)確性。適合正式文檔生成、高精度推理等對結(jié)果質(zhì)量要求嚴(yán)苛的場合。

在此之前,LLaDA-MoE和LLaDA2.0需要二次開發(fā)提供額外的加速版本,比如基于路徑蒸餾的加速等;這類加速版本因?yàn)榉锹?lián)合訓(xùn)練優(yōu)化,雖然實(shí)現(xiàn)了對基礎(chǔ)版本的一定加速,但是精度掉點(diǎn)普遍嚴(yán)重;同時(shí)一個(gè)模型多個(gè)版本,也增加用戶選擇的難度以及模型管理的成本。

單模型雙模式,避免了上述問題。用戶可以根據(jù)具體需求,僅需一條config就能實(shí)現(xiàn)模式切換。

這種設(shè)計(jì)標(biāo)志著LLaDA系列從研究模型向?qū)嵱卯a(chǎn)品的關(guān)鍵轉(zhuǎn)變。

技術(shù)報(bào)告顯示,在HumanEval+編程基準(zhǔn)上,LLaDA2.1-flash(100B)在Speedy Mode下達(dá)到892 TPS的峰值速度,而Quality Mode則在多項(xiàng)推理任務(wù)上超越了前代模型。



可糾錯(cuò)編輯,讓模型像人類一樣“寫作+修改”

為了更好的理解雙模式背后的機(jī)制,我們可以回憶一下自己寫作的流程。

自回歸模型像是一個(gè)不允許帶草稿紙、不允許帶提綱的作者,它下筆無悔,不允許修改自己寫好的內(nèi)容。

但現(xiàn)實(shí)中,大部分情況下我們可能是先有了想法去寫草稿,哪怕有錯(cuò)別字,先動(dòng)筆寫著;寫完之后,我們再回頭細(xì)讀一遍,把不通順的、有錯(cuò)別字的地方改掉。

LLaDA2.1工作原理正是如此,引入的機(jī)制叫做可糾錯(cuò)編輯(Error-Correcting Editable,ECE)。

它的推理過程被分為了兩個(gè)階段:

  • 階段一(M2T, Mask-to-Token):模型以極高的速度,并行生成一個(gè)草稿。這個(gè)階段可能會(huì)有一些噪聲和錯(cuò)誤,但速度極快。
  • 階段二(T2T, Token-to-Token):立即啟動(dòng)編輯模式。模型站在全局視角,對剛才生成的草稿進(jìn)行檢查。如果發(fā)現(xiàn)某些token置信度低或者邏輯不通,就直接進(jìn)行回溯式修正。

技術(shù)報(bào)告中的一個(gè)例子生動(dòng)說明了其價(jià)值。



當(dāng)模型嘗試補(bǔ)全赫拉克利特名言“No man ever steps in the same river twice”時(shí),傳統(tǒng)擴(kuò)散模型在早期步驟錯(cuò)誤生成了“walks”,由于狀態(tài)凍結(jié),最終輸出錯(cuò)誤的“walks in the same river twice”。

而LLaDA2.1在后續(xù)步驟中檢測到“steps”的置信度更高,果斷將“walks”替換為“steps”,成功恢復(fù)正確引文。

這種允許自我修正的能力,從根本上解決了擴(kuò)散模型的曝光偏差問題。它讓模型敢于在初稿階段追求速度,再通過編輯階段保障質(zhì)量。

它在毫秒級的閃電采樣中完成了“草稿”到“正卷”的華麗轉(zhuǎn)身,不再被困在序列的起點(diǎn),而是直接站在全局的高度,去編輯、去重塑、去定義AGI時(shí)代的推理新范式。

這是第一次在擴(kuò)散架構(gòu)上實(shí)現(xiàn)了速度與質(zhì)量的解耦。

首次在100B擴(kuò)散語言模型上跑通強(qiáng)化學(xué)習(xí)

如果說可糾錯(cuò)編輯解決了怎么生成的問題,那么強(qiáng)化學(xué)習(xí)則是解決了生成得好不好的問題。

但此前,在擴(kuò)散模型上應(yīng)用RL曾被視為不可能的任務(wù)。

原因在于,自回歸模型的序列似然可直接分解為token級概率乘積,而擴(kuò)散模型基于塊狀采樣(block-diffusion),序列級似然難以直接計(jì)算,導(dǎo)致傳統(tǒng)策略梯度方法失效。

LLaDA2.1團(tuán)隊(duì)為此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:

  • 以證據(jù)下界(ELBO)作為序列似然的代理目標(biāo);
  • 通過向量化似然估計(jì)技術(shù),并行計(jì)算多時(shí)間步的塊條件概率;
  • 設(shè)計(jì)專門的梯度穩(wěn)定機(jī)制,適配擴(kuò)散模型的編輯特性。

這是業(yè)界首次在100B規(guī)模擴(kuò)散模型上成功實(shí)施大規(guī)模RL訓(xùn)練。

結(jié)果顯而易見:LLaDA2.1在IFEval(指令遵循評估)、BFCL(函數(shù)調(diào)用)等對齊類任務(wù)上顯著提升,證明擴(kuò)散模型不僅能快,更能懂你。



魚和熊掌,可以兼得

正如我們剛才提到的,LLaDA2.1百億參數(shù)版本在處理HumanEval+等復(fù)雜編程任務(wù)時(shí),實(shí)現(xiàn)了892 tokens/秒的峰值速度。

在同級別的基準(zhǔn)測試中,這一速度表現(xiàn)已經(jīng)對主流自回歸架構(gòu)形成了顯著優(yōu)勢。

更值得關(guān)注的是,這種速度并非以犧牲質(zhì)量為代價(jià)。

在涵蓋知識、推理、代碼、數(shù)學(xué)及指令遵循的33個(gè)權(quán)威基準(zhǔn)測試 中,LLaDA2.1在質(zhì)量模式下全面超越了前代LLaDA2.0。

即使在追求速度的極速模式下,其性能下降也微乎其微,真正做到了 “魚與熊掌可以兼得”。

除此之外,團(tuán)隊(duì)還開源了16B的Mini版本,其在部分任務(wù)上的峰值速度甚至超過1500 tokens/秒,為更輕量化的部署提供了可能。

最后,LLaDA2.1背后的哲學(xué)也是值得說道說道。

它證明了一件事:

在大模型時(shí)代,有敢把非共識走到底的耐心,亦可取得勝利。

技術(shù)報(bào)告:
https://huggingface.co/papers/2602.08676

GitHub地址:
https://github.com/inclusionAI/LLaDA2.X

項(xiàng)目權(quán)重:
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
七八十年代流行全國的“的確良”,為何突然消失了?其實(shí)它改了名

七八十年代流行全國的“的確良”,為何突然消失了?其實(shí)它改了名

云霄紀(jì)史觀
2026-01-06 02:00:19
韋伯望遠(yuǎn)鏡拍到時(shí)空彎曲,位于120億光年外,愛因斯坦又對了

韋伯望遠(yuǎn)鏡拍到時(shí)空彎曲,位于120億光年外,愛因斯坦又對了

觀察宇宙
2026-02-26 18:50:03
“我就是她取精生子的工具”清華學(xué)霸哭訴,撕開了女富豪的遮羞布

“我就是她取精生子的工具”清華學(xué)霸哭訴,撕開了女富豪的遮羞布

百態(tài)中的情感起伏
2026-02-23 12:25:50
62歲劉金山現(xiàn)狀:盡顯富態(tài),住北京四合院,10歲獨(dú)女成全家團(tuán)寵

62歲劉金山現(xiàn)狀:盡顯富態(tài),住北京四合院,10歲獨(dú)女成全家團(tuán)寵

查爾菲的筆記
2026-02-26 16:21:22
46歲謝霆鋒與陳坤亮相,一個(gè)臉垮一個(gè)臃腫,骨相和皮相差距很明顯

46歲謝霆鋒與陳坤亮相,一個(gè)臉垮一個(gè)臃腫,骨相和皮相差距很明顯

查爾菲的筆記
2026-02-26 14:16:04
外交部:德國總理默茨此次訪華成果豐碩、富有意義

外交部:德國總理默茨此次訪華成果豐碩、富有意義

環(huán)球網(wǎng)資訊
2026-02-26 15:58:26
勇士懵了!打不上球的庫明加在老鷹升級成鋒線巨頭

勇士懵了!打不上球的庫明加在老鷹升級成鋒線巨頭

湖人侃球師
2026-02-25 23:25:03
馬筱梅前夫鄭揚(yáng)融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實(shí)

馬筱梅前夫鄭揚(yáng)融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實(shí)

攬星河的筆記
2026-02-26 16:19:41
贏了日本隊(duì),依舊不樂觀!中國男籃出線前景探究,下場仍是生死戰(zhàn)

贏了日本隊(duì),依舊不樂觀!中國男籃出線前景探究,下場仍是生死戰(zhàn)

萌蘭聊個(gè)球
2026-02-26 22:05:53
門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

瓜哥的動(dòng)物日記
2026-02-25 15:33:17
外媒首次承認(rèn):中國核潛艇數(shù)量已超俄羅斯,096 更將改變力量格局

外媒首次承認(rèn):中國核潛艇數(shù)量已超俄羅斯,096 更將改變力量格局

議紀(jì)史
2026-02-25 23:20:03
不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

古代經(jīng)典
2026-02-25 15:40:12
國網(wǎng)四川省電力公司招人中!約700人!

國網(wǎng)四川省電力公司招人中!約700人!

掌上金牛
2026-02-26 12:07:05
全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

福建平子
2026-02-25 10:54:52
35秒內(nèi)男籃吃2T+1違體!富永空氣2+1令人發(fā)笑 裁判送日本5罰1球權(quán)

35秒內(nèi)男籃吃2T+1違體!富永空氣2+1令人發(fā)笑 裁判送日本5罰1球權(quán)

顏小白的籃球夢
2026-02-26 20:50:29
日本隊(duì)太囂張,宣布重要決定,中國男籃被動(dòng)收好消息,贏球穩(wěn)了

日本隊(duì)太囂張,宣布重要決定,中國男籃被動(dòng)收好消息,贏球穩(wěn)了

宗介說體育
2026-02-26 09:31:08
35歲中國音樂家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂交流中堅(jiān)力量

35歲中國音樂家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂交流中堅(jiān)力量

紅星新聞
2026-02-26 12:36:32
河南牧原離職員工家屬發(fā)文,吐槽“想結(jié)婚來牧原,想離婚來牧原”,董事長秦英林現(xiàn)身評論區(qū):獎(jiǎng)勵(lì)2000元;員工:錢已收到

河南牧原離職員工家屬發(fā)文,吐槽“想結(jié)婚來牧原,想離婚來牧原”,董事長秦英林現(xiàn)身評論區(qū):獎(jiǎng)勵(lì)2000元;員工:錢已收到

大象新聞
2026-02-26 20:51:30
印陸軍前參謀長終于承認(rèn):印軍白死了!加勒萬那夜,輸?shù)牟皇悄懥?>
    </a>
        <h3>
      <a href=梁濆愛玩車
2026-02-26 00:45:15
歐冠附加賽皇馬2-1險(xiǎn)勝本菲卡,賽后不得不承認(rèn)的三大事實(shí)!

歐冠附加賽皇馬2-1險(xiǎn)勝本菲卡,賽后不得不承認(rèn)的三大事實(shí)!

田先生籃球
2026-02-26 09:43:43
2026-02-26 23:35:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12205文章數(shù) 176395關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

家居
藝術(shù)
房產(chǎn)
游戲
親子

家居要聞

歸隱于都市 慢享自由

藝術(shù)要聞

2025第三屆全國水粉畫大展 | 入選作品選刊

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

金亨泰曬AI賀圖翻車 被《尼爾》建模師公開痛批?

親子要聞

概率六千萬分之一!新疆24歲產(chǎn)婦在武漢誕下“一兄四妹”五胞胎

無障礙瀏覽 進(jìn)入關(guān)懷版