国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

7B擴(kuò)散語(yǔ)言模型單樣例1000+ tokens/s!上交大聯(lián)合華為推出LoPA

0
分享至



視頻 1:?jiǎn)螛永评硭俣葘?duì)比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平臺(tái)相同,配置對(duì)齊)

在大語(yǔ)言模型(LLMs)領(lǐng)域,擴(kuò)散大語(yǔ)言模型(dLLMs)因其并行預(yù)測(cè)特性,理論上具備超越傳統(tǒng)自回歸(AR)模型的推理速度潛力。然而在實(shí)踐中,受限于現(xiàn)有的解碼策略,dLLMs 的單步生成往往局限于 1-3 個(gè) Token,難以真正釋放其并行潛力。

近期,上海交通大學(xué) DENG Lab 聯(lián)合華為的一項(xiàng)新研究打破了這一瓶頸。該工作提出了一種名為LoPA (Lookahead Parallel Decoding) 的無(wú)需訓(xùn)練的解碼算法,通過(guò)主動(dòng)探索最優(yōu)填詞順序,顯著提升了 dLLMs 的推理并行度和吞吐量。

本文作者團(tuán)隊(duì)來(lái)自上海交通大學(xué) DENG Lab 與華為。該研究由徐晨開、金義杰同學(xué)等人共同完成,指導(dǎo)教師為鄧志杰老師。DENG Lab 隸屬上海交通大學(xué),致力于高效、跨模態(tài)生成模型的研究。



  • 論文地址:https://arxiv.org/abs/2512.16229
  • 代碼地址:https://github.com/zhijie-group/LoPA
  • 博客地址:https://zhijie-group.github.io/blogs/lopa

實(shí)驗(yàn)顯示,LoPA 將 D2F-Dream 在 GSM8K 基準(zhǔn)上的單步生成 Token 數(shù)(TPF)從 3.1 提升至 10.1,并行度提升超 3 倍。配合團(tuán)隊(duì)自研的 LoPA-Dist 分布式推理系統(tǒng),在華為 Ascend 910C 平臺(tái)上實(shí)現(xiàn)了 1073.9 tokens/s 的單樣本吞吐量,不僅大幅超越基線模型,更將 dLLMs 的推理效率推向了新高度。



圖 1:LoPA 的吞吐量結(jié)果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達(dá) 1073.9 和 856.5 個(gè) token/s,顯著優(yōu)于基線方法。

簡(jiǎn)單來(lái)說(shuō),LoPA 為 dLLMs 賦予了以下核心特性:

1.極高的并行度:首次將 dLLMs 的每步生成數(shù)量(TPF)提升至 10 Token 量級(jí),突破了傳統(tǒng)方法的效率瓶頸。

2.無(wú)需訓(xùn)練:作為一種即插即用的解碼算法,無(wú)需對(duì)模型進(jìn)行重訓(xùn)或微調(diào)。

3.前瞻并行解碼:通過(guò)引入分支并行機(jī)制,主動(dòng)探索不同的填詞順序(TFO),避免模型陷入低置信度的局部最優(yōu)。

4.系統(tǒng)級(jí)加速:配套設(shè)計(jì)的 LoPA-Dist 系統(tǒng),支持 CUDA 和 Ascend 雙平臺(tái),通過(guò)分支并行最大化硬件利用率。



圖 2:對(duì)不同分支數(shù)的 D2F-Dream 進(jìn)行 LoPA 擴(kuò)展性分析。結(jié)果表明,LoPA 能有效擴(kuò)展 D2F 的 TPF,使其峰值超過(guò) 10,從而顯著減少解碼總步驟數(shù)。

問(wèn)題的根源:填詞順序限制并行潛力

dLLMs 理論上支持全序列并行生成,但在實(shí)際應(yīng)用中,現(xiàn)有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驅(qū)動(dòng)采樣(Confidence-Driven Sampling)。這種策略傾向于貪婪地優(yōu)先填充當(dāng)前置信度最高的位置。

研究團(tuán)隊(duì)發(fā)現(xiàn),并行度的高低與填詞順序(Token Filling Order, TFO)高度相關(guān)。貪婪策略雖然在當(dāng)前步驟保證了準(zhǔn)確性,但并不考慮后續(xù)步驟的預(yù)測(cè)置信度,導(dǎo)致模型在后續(xù)迭代中并沒(méi)有充分釋放并行度。



圖 3:LoPA 算法流程概覽。在每次迭代中,LoPA 通過(guò)獨(dú)立采樣高置信度位置,生成一個(gè)錨定分支以及多個(gè)前瞻分支。然后,分支置信度驗(yàn)證機(jī)制并行評(píng)估所有分支,以選擇最優(yōu)路徑。

LoPA 的核心設(shè)計(jì):前瞻并行與分支驗(yàn)證

為了解決上述問(wèn)題,LoPA 引入了前瞻并行解碼機(jī)制。其核心思想是:利用少量的額外計(jì)算開銷,同時(shí)探索多種填詞順序,從而找到一條能讓未來(lái)預(yù)測(cè) “更自信” 的路徑。

LoPA 的工作流程包含三個(gè)關(guān)鍵階段:

1. 多分支并行探索

LoPA 在保留標(biāo)準(zhǔn)錨點(diǎn)分支(Anchor Branch,即常規(guī)貪婪策略)的同時(shí),額外對(duì)當(dāng)前的最高置信度的 k 個(gè)位置分別采樣得到 k 個(gè)前瞻分支(Lookahead Branches)。每個(gè)分支代表一種不同的填詞順序嘗試。

2. 分支置信度驗(yàn)證

團(tuán)隊(duì)設(shè)計(jì)了分支置信度(Branch Confidence)指標(biāo),用于量化分支中剩余未填位置的平均預(yù)測(cè)置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token,具備更高的并行潛力。

3. 并行驗(yàn)證與復(fù)用

通過(guò)隔離不同分支的注意力設(shè)計(jì),所有候選分支(錨點(diǎn) + 前瞻)可以在一次前向傳遞中并行完成驗(yàn)證。系統(tǒng)最終選擇未來(lái)潛力最大的分支作為本次迭代結(jié)果。驗(yàn)證過(guò)程中計(jì)算的 Logits 被直接復(fù)用于下一步生成,無(wú)需額外前向傳播。



圖 4:LoPA 分支并行分布式推理系統(tǒng)設(shè)計(jì)展示。關(guān)鍵區(qū)別在于針對(duì)不同后端定制的鍵值緩存管理協(xié)議:LoPA-Dist-NV 采用穩(wěn)健的兩階段更新機(jī)制以確保一致性,而 LoPA-Dist-Ascend 則采用精簡(jiǎn)的單階段更新策略以優(yōu)化服務(wù)效率。

系統(tǒng)級(jí)創(chuàng)新:LoPA-Dist 分布式推理

為了承載 LoPA 的多分支計(jì)算,團(tuán)隊(duì)設(shè)計(jì)了 LoPA-Dist 分布式推理系統(tǒng),引入了全新的分支并行(Branch Parallelism, BP)策略,可與張量并行(Tensor Parallelism,TP)等現(xiàn)有并行機(jī)制混合使用。

該系統(tǒng)針對(duì)不同硬件平臺(tái)進(jìn)行了定制優(yōu)化:

1.LoPA-Dist-NV(CUDA):面向低延遲場(chǎng)景。采用靜態(tài) KV Cache 和獨(dú)創(chuàng)兩階段更新協(xié)議(Pre-Write & Commit-Winner-Cache),確保分支切換時(shí)的緩存一致性。

2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服務(wù)場(chǎng)景。采用混合并行策略(TP+BP),結(jié)合圖編譯技術(shù)融合算子,異步調(diào)度,以及量化機(jī)制,大幅降低 Kernel 啟動(dòng)開銷。



圖 5:LoPA 的并行度擴(kuò)展曲線。在 GSM8K 和 HumanEval+ 上,LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴(kuò)展至高達(dá) 10.1 和 8.3,并保持和基線相當(dāng)?shù)男阅堋?/p>

實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的雙重提升

并行度:?jiǎn)尾酵黄?10 Token

LoPA 在 SOTA 擴(kuò)散語(yǔ)言模型 D2F 上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,隨著前瞻分支數(shù)量的增加,模型的 TPF 呈現(xiàn)顯著上升趨勢(shì)。在 GSM8K 任務(wù)上,LoPA 將 D2F-Dream 的 TPF 推高至 10.1,大幅縮短了總推理步數(shù)。



表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了保持精度的 TPF 提升。



表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務(wù)中實(shí)現(xiàn)了保持精度的 TPF 提升。

系統(tǒng)吞吐量

在系統(tǒng)層面,LoPA-Dist 展現(xiàn)了優(yōu)異的擴(kuò)展能力。在華為 Ascend 910C 平臺(tái)上,系統(tǒng)實(shí)現(xiàn)了 1073.86 tokens/s 的峰值吞吐量。



表 3:LoPA 系統(tǒng)性能。結(jié)果表明,我們的系統(tǒng)能夠有效地將算法并行性(高 TPF)轉(zhuǎn)化為顯著的實(shí)際運(yùn)行時(shí)間加速,在專用的 LoPA-Dist-Ascend 引擎上實(shí)現(xiàn)了超過(guò) 1000 token/s 的平均吞吐量。

總結(jié)與展望

LoPA 通過(guò)算法與系統(tǒng)的協(xié)同設(shè)計(jì),成功突破了 dLLM 推理的并行度瓶頸,證明了非自回歸模型在保持高性能的同時(shí),能夠?qū)崿F(xiàn)遠(yuǎn)超傳統(tǒng)模型的推理速度。團(tuán)隊(duì)表示,未來(lái)將進(jìn)一步探索 LoPA 在 SDAR 等更多 dLLM 架構(gòu)上的應(yīng)用,推動(dòng)高效生成模型的落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閆學(xué)晶的事越鬧越大,遼寧衛(wèi)視估計(jì)要慌了

閆學(xué)晶的事越鬧越大,遼寧衛(wèi)視估計(jì)要慌了

麥杰遜
2026-01-07 20:16:03
錢交了、單鎖了、承諾卻沒(méi)了? 極氪“食言”購(gòu)置稅兜底,數(shù)百車主怒斥“言而無(wú)信”

錢交了、單鎖了、承諾卻沒(méi)了? 極氪“食言”購(gòu)置稅兜底,數(shù)百車主怒斥“言而無(wú)信”

新浪財(cái)經(jīng)
2026-01-07 08:30:09
20歲福建網(wǎng)紅被騙柬埔寨,8萬(wàn)榨干涉毒瀕死,暴富夢(mèng)碎街頭流浪

20歲福建網(wǎng)紅被騙柬埔寨,8萬(wàn)榨干涉毒瀕死,暴富夢(mèng)碎街頭流浪

星辰夜語(yǔ)
2026-01-07 20:43:22
80年代一名剛做完結(jié)扎手術(shù)的農(nóng)村婦女被人抬上板車準(zhǔn)備回家的情景

80年代一名剛做完結(jié)扎手術(shù)的農(nóng)村婦女被人抬上板車準(zhǔn)備回家的情景

霹靂炮
2026-01-01 23:29:30
最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

林雁飛
2026-01-04 19:29:51
全國(guó)最好的醫(yī)院排名,建議收藏!

全國(guó)最好的醫(yī)院排名,建議收藏!

霹靂炮
2025-11-24 22:55:34
一天只能吃一個(gè)雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

一天只能吃一個(gè)雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

小胡軍事愛好
2025-12-27 17:38:58
加時(shí)三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

加時(shí)三分絕殺,拒絕18分大逆轉(zhuǎn)!班凱羅30分14板6助,小波特34分

無(wú)術(shù)不學(xué)
2026-01-08 12:26:55
讓日本汽車業(yè)心臟停跳!中國(guó)祭出最狠“斷供令”,高市這回真慌了

讓日本汽車業(yè)心臟停跳!中國(guó)祭出最狠“斷供令”,高市這回真慌了

胖哥不胡說(shuō)
2026-01-07 15:10:31
英超3連平新年不勝!曼城1-1布萊頓距榜首5分  哈蘭德破荒+失絕殺

英超3連平新年不勝!曼城1-1布萊頓距榜首5分 哈蘭德破荒+失絕殺

我愛英超
2026-01-08 05:32:57
郭富城大房:掌管郭富城20億身家,卻30年沒(méi)有名分,甘愿為郭帶娃

郭富城大房:掌管郭富城20億身家,卻30年沒(méi)有名分,甘愿為郭帶娃

玥來(lái)玥好講故事
2025-12-27 17:01:58
32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

局勢(shì)帝
2026-01-07 12:49:22
日本抗議無(wú)效!不到48小時(shí),中方發(fā)布第2號(hào)公告,對(duì)日反傾銷調(diào)查

日本抗議無(wú)效!不到48小時(shí),中方發(fā)布第2號(hào)公告,對(duì)日反傾銷調(diào)查

說(shuō)歷史的老牢
2026-01-08 12:00:32
出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

千言?shī)蕵?lè)記
2025-12-13 18:34:13
“蘭州瓜農(nóng)刺死城管”案一審宣判:法院認(rèn)定被害方有明顯過(guò)錯(cuò),對(duì)被告減輕處罰

“蘭州瓜農(nóng)刺死城管”案一審宣判:法院認(rèn)定被害方有明顯過(guò)錯(cuò),對(duì)被告減輕處罰

封面新聞
2026-01-07 22:21:04
有膽識(shí)!邵佳一公布國(guó)足戰(zhàn)術(shù)體系,回歸高洪波路線,無(wú)懼外界爭(zhēng)議

有膽識(shí)!邵佳一公布國(guó)足戰(zhàn)術(shù)體系,回歸高洪波路線,無(wú)懼外界爭(zhēng)議

國(guó)足風(fēng)云
2026-01-07 08:55:41
杜潤(rùn)旺動(dòng)態(tài)引關(guān)注,崔永熙稱河北神驢,孫世睿公開致歉

杜潤(rùn)旺動(dòng)態(tài)引關(guān)注,崔永熙稱河北神驢,孫世睿公開致歉

小潌拍客在北漂
2026-01-08 12:40:52
既然強(qiáng)調(diào)文化自信,那么很多西方擅自定義的東西,就該改改名字了

既然強(qiáng)調(diào)文化自信,那么很多西方擅自定義的東西,就該改改名字了

歷史擺渡
2025-12-30 14:20:03
閆學(xué)晶這次恐怕真要哭了,被資本“拋棄”,或?qū)⒚媾R巨額賠款

閆學(xué)晶這次恐怕真要哭了,被資本“拋棄”,或?qū)⒚媾R巨額賠款

社會(huì)日日鮮
2026-01-07 08:09:34
“出生在你家真晦氣”,4個(gè)臥室舍不得給倆女兒用,家長(zhǎng)被罵慘了

“出生在你家真晦氣”,4個(gè)臥室舍不得給倆女兒用,家長(zhǎng)被罵慘了

卷史
2025-12-30 21:43:27
2026-01-08 13:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142531關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營(yíng)銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

頭條要聞

委內(nèi)瑞拉外長(zhǎng):感謝中方支持

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂(lè)要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來(lái)人類會(huì)花錢"戒手機(jī)"

汽車要聞

不談?lì)嵏才c奇跡,智駕企業(yè)還能聊點(diǎn)什么?

態(tài)度原創(chuàng)

親子
藝術(shù)
房產(chǎn)
手機(jī)
家居

親子要聞

“她真丟了就好了!”寶媽稱厭惡10歲女兒,引眾多網(wǎng)友共鳴!

藝術(shù)要聞

頤和園金光穿洞

房產(chǎn)要聞

三亞新房,又全國(guó)第一了!

手機(jī)要聞

雷軍:小米終端今年有望實(shí)現(xiàn)自研芯片、OS、AI大模型“大會(huì)師”

家居要聞

理性主義 冷調(diào)自由居所

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版