国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

7B擴(kuò)散語(yǔ)言模型單樣例1000+ tokens/s!上交大聯(lián)合華為推出LoPA

0
分享至



視頻 1:?jiǎn)螛永评硭俣葘?duì)比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平臺(tái)相同,配置對(duì)齊)

在大語(yǔ)言模型(LLMs)領(lǐng)域,擴(kuò)散大語(yǔ)言模型(dLLMs)因其并行預(yù)測(cè)特性,理論上具備超越傳統(tǒng)自回歸(AR)模型的推理速度潛力。然而在實(shí)踐中,受限于現(xiàn)有的解碼策略,dLLMs 的單步生成往往局限于 1-3 個(gè) Token,難以真正釋放其并行潛力。

近期,上海交通大學(xué) DENG Lab 聯(lián)合華為的一項(xiàng)新研究打破了這一瓶頸。該工作提出了一種名為LoPA (Lookahead Parallel Decoding) 的無(wú)需訓(xùn)練的解碼算法,通過(guò)主動(dòng)探索最優(yōu)填詞順序,顯著提升了 dLLMs 的推理并行度和吞吐量。

本文作者團(tuán)隊(duì)來(lái)自上海交通大學(xué) DENG Lab 與華為。該研究由徐晨開、金義杰同學(xué)等人共同完成,指導(dǎo)教師為鄧志杰老師。DENG Lab 隸屬上海交通大學(xué),致力于高效、跨模態(tài)生成模型的研究。



  • 論文地址:https://arxiv.org/abs/2512.16229
  • 代碼地址:https://github.com/zhijie-group/LoPA
  • 博客地址:https://zhijie-group.github.io/blogs/lopa

實(shí)驗(yàn)顯示,LoPA 將 D2F-Dream 在 GSM8K 基準(zhǔn)上的單步生成 Token 數(shù)(TPF)從 3.1 提升至 10.1,并行度提升超 3 倍。配合團(tuán)隊(duì)自研的 LoPA-Dist 分布式推理系統(tǒng),在華為 Ascend 910C 平臺(tái)上實(shí)現(xiàn)了 1073.9 tokens/s 的單樣本吞吐量,不僅大幅超越基線模型,更將 dLLMs 的推理效率推向了新高度。



圖 1:LoPA 的吞吐量結(jié)果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達(dá) 1073.9 和 856.5 個(gè) token/s,顯著優(yōu)于基線方法。

簡(jiǎn)單來(lái)說(shuō),LoPA 為 dLLMs 賦予了以下核心特性:

1.極高的并行度:首次將 dLLMs 的每步生成數(shù)量(TPF)提升至 10 Token 量級(jí),突破了傳統(tǒng)方法的效率瓶頸。

2.無(wú)需訓(xùn)練:作為一種即插即用的解碼算法,無(wú)需對(duì)模型進(jìn)行重訓(xùn)或微調(diào)。

3.前瞻并行解碼:通過(guò)引入分支并行機(jī)制,主動(dòng)探索不同的填詞順序(TFO),避免模型陷入低置信度的局部最優(yōu)。

4.系統(tǒng)級(jí)加速:配套設(shè)計(jì)的 LoPA-Dist 系統(tǒng),支持 CUDA 和 Ascend 雙平臺(tái),通過(guò)分支并行最大化硬件利用率。



圖 2:對(duì)不同分支數(shù)的 D2F-Dream 進(jìn)行 LoPA 擴(kuò)展性分析。結(jié)果表明,LoPA 能有效擴(kuò)展 D2F 的 TPF,使其峰值超過(guò) 10,從而顯著減少解碼總步驟數(shù)。

問(wèn)題的根源:填詞順序限制并行潛力

dLLMs 理論上支持全序列并行生成,但在實(shí)際應(yīng)用中,現(xiàn)有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驅(qū)動(dòng)采樣(Confidence-Driven Sampling)。這種策略傾向于貪婪地優(yōu)先填充當(dāng)前置信度最高的位置。

研究團(tuán)隊(duì)發(fā)現(xiàn),并行度的高低與填詞順序(Token Filling Order, TFO)高度相關(guān)。貪婪策略雖然在當(dāng)前步驟保證了準(zhǔn)確性,但并不考慮后續(xù)步驟的預(yù)測(cè)置信度,導(dǎo)致模型在后續(xù)迭代中并沒(méi)有充分釋放并行度。



圖 3:LoPA 算法流程概覽。在每次迭代中,LoPA 通過(guò)獨(dú)立采樣高置信度位置,生成一個(gè)錨定分支以及多個(gè)前瞻分支。然后,分支置信度驗(yàn)證機(jī)制并行評(píng)估所有分支,以選擇最優(yōu)路徑。

LoPA 的核心設(shè)計(jì):前瞻并行與分支驗(yàn)證

為了解決上述問(wèn)題,LoPA 引入了前瞻并行解碼機(jī)制。其核心思想是:利用少量的額外計(jì)算開銷,同時(shí)探索多種填詞順序,從而找到一條能讓未來(lái)預(yù)測(cè) “更自信” 的路徑。

LoPA 的工作流程包含三個(gè)關(guān)鍵階段:

1. 多分支并行探索

LoPA 在保留標(biāo)準(zhǔn)錨點(diǎn)分支(Anchor Branch,即常規(guī)貪婪策略)的同時(shí),額外對(duì)當(dāng)前的最高置信度的 k 個(gè)位置分別采樣得到 k 個(gè)前瞻分支(Lookahead Branches)。每個(gè)分支代表一種不同的填詞順序嘗試。

2. 分支置信度驗(yàn)證

團(tuán)隊(duì)設(shè)計(jì)了分支置信度(Branch Confidence)指標(biāo),用于量化分支中剩余未填位置的平均預(yù)測(cè)置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token,具備更高的并行潛力。

3. 并行驗(yàn)證與復(fù)用

通過(guò)隔離不同分支的注意力設(shè)計(jì),所有候選分支(錨點(diǎn) + 前瞻)可以在一次前向傳遞中并行完成驗(yàn)證。系統(tǒng)最終選擇未來(lái)潛力最大的分支作為本次迭代結(jié)果。驗(yàn)證過(guò)程中計(jì)算的 Logits 被直接復(fù)用于下一步生成,無(wú)需額外前向傳播。



圖 4:LoPA 分支并行分布式推理系統(tǒng)設(shè)計(jì)展示。關(guān)鍵區(qū)別在于針對(duì)不同后端定制的鍵值緩存管理協(xié)議:LoPA-Dist-NV 采用穩(wěn)健的兩階段更新機(jī)制以確保一致性,而 LoPA-Dist-Ascend 則采用精簡(jiǎn)的單階段更新策略以優(yōu)化服務(wù)效率。

系統(tǒng)級(jí)創(chuàng)新:LoPA-Dist 分布式推理

為了承載 LoPA 的多分支計(jì)算,團(tuán)隊(duì)設(shè)計(jì)了 LoPA-Dist 分布式推理系統(tǒng),引入了全新的分支并行(Branch Parallelism, BP)策略,可與張量并行(Tensor Parallelism,TP)等現(xiàn)有并行機(jī)制混合使用。

該系統(tǒng)針對(duì)不同硬件平臺(tái)進(jìn)行了定制優(yōu)化:

1.LoPA-Dist-NV(CUDA):面向低延遲場(chǎng)景。采用靜態(tài) KV Cache 和獨(dú)創(chuàng)兩階段更新協(xié)議(Pre-Write & Commit-Winner-Cache),確保分支切換時(shí)的緩存一致性。

2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服務(wù)場(chǎng)景。采用混合并行策略(TP+BP),結(jié)合圖編譯技術(shù)融合算子,異步調(diào)度,以及量化機(jī)制,大幅降低 Kernel 啟動(dòng)開銷。



圖 5:LoPA 的并行度擴(kuò)展曲線。在 GSM8K 和 HumanEval+ 上,LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴(kuò)展至高達(dá) 10.1 和 8.3,并保持和基線相當(dāng)?shù)男阅堋?/p>

實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的雙重提升

并行度:?jiǎn)尾酵黄?10 Token

LoPA 在 SOTA 擴(kuò)散語(yǔ)言模型 D2F 上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,隨著前瞻分支數(shù)量的增加,模型的 TPF 呈現(xiàn)顯著上升趨勢(shì)。在 GSM8K 任務(wù)上,LoPA 將 D2F-Dream 的 TPF 推高至 10.1,大幅縮短了總推理步數(shù)。



表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了保持精度的 TPF 提升。



表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務(wù)中實(shí)現(xiàn)了保持精度的 TPF 提升。

系統(tǒng)吞吐量

在系統(tǒng)層面,LoPA-Dist 展現(xiàn)了優(yōu)異的擴(kuò)展能力。在華為 Ascend 910C 平臺(tái)上,系統(tǒng)實(shí)現(xiàn)了 1073.86 tokens/s 的峰值吞吐量。



表 3:LoPA 系統(tǒng)性能。結(jié)果表明,我們的系統(tǒng)能夠有效地將算法并行性(高 TPF)轉(zhuǎn)化為顯著的實(shí)際運(yùn)行時(shí)間加速,在專用的 LoPA-Dist-Ascend 引擎上實(shí)現(xiàn)了超過(guò) 1000 token/s 的平均吞吐量。

總結(jié)與展望

LoPA 通過(guò)算法與系統(tǒng)的協(xié)同設(shè)計(jì),成功突破了 dLLM 推理的并行度瓶頸,證明了非自回歸模型在保持高性能的同時(shí),能夠?qū)崿F(xiàn)遠(yuǎn)超傳統(tǒng)模型的推理速度。團(tuán)隊(duì)表示,未來(lái)將進(jìn)一步探索 LoPA 在 SDAR 等更多 dLLM 架構(gòu)上的應(yīng)用,推動(dòng)高效生成模型的落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
云南副局長(zhǎng)出軌被抓:不雅畫面流出,三人對(duì)話內(nèi)容曝光,原配被扒

云南副局長(zhǎng)出軌被抓:不雅畫面流出,三人對(duì)話內(nèi)容曝光,原配被扒

博士觀察
2025-12-30 18:59:06
伊朗要出大問(wèn)題了,貨幣里亞爾暴跌至145萬(wàn)兌1美元

伊朗要出大問(wèn)題了,貨幣里亞爾暴跌至145萬(wàn)兌1美元

金召點(diǎn)評(píng)
2025-12-30 07:55:02
紅軍長(zhǎng)征之后,留守蘇區(qū)的領(lǐng)導(dǎo)人大多是主席一派的人,這些人最終有著怎樣的結(jié)局?

紅軍長(zhǎng)征之后,留守蘇區(qū)的領(lǐng)導(dǎo)人大多是主席一派的人,這些人最終有著怎樣的結(jié)局?

史海孤雁
2025-12-30 21:15:34
上映1天,票房破1500萬(wàn),卡梅隆申奧都?jí)翰蛔?,元旦檔大黑馬誕生

上映1天,票房破1500萬(wàn),卡梅隆申奧都?jí)翰蛔?,元旦檔大黑馬誕生

糊咖娛樂(lè)
2025-12-31 15:13:51
為何美國(guó)扣中國(guó)油輪咱卻不強(qiáng)硬反制呢?我們的反擊,根本不在一時(shí)爽

為何美國(guó)扣中國(guó)油輪咱卻不強(qiáng)硬反制呢?我們的反擊,根本不在一時(shí)爽

這班我上夠了
2025-12-30 17:40:03
遼粵兩隊(duì)“放走”的球員,本賽季在其他俱樂(lè)部過(guò)得如何?

遼粵兩隊(duì)“放走”的球員,本賽季在其他俱樂(lè)部過(guò)得如何?

男足的小球童
2025-12-31 19:46:41
4700萬(wàn)人齊戒煙,是健康覺(jué)醒還是消費(fèi)降級(jí)?

4700萬(wàn)人齊戒煙,是健康覺(jué)醒還是消費(fèi)降級(jí)?

細(xì)雨中的呼喊
2025-12-30 21:03:44
解放軍離登島只差一步,特朗普一句話讓臺(tái)當(dāng)局如墜冰窖,高市沉默

解放軍離登島只差一步,特朗普一句話讓臺(tái)當(dāng)局如墜冰窖,高市沉默

時(shí)時(shí)有聊
2025-12-30 17:37:32
羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

巧手曉廚娘
2025-12-31 16:11:17
99年,山東一男子預(yù)感鋼材要大漲,在2千一噸時(shí)砸下重金囤了500噸

99年,山東一男子預(yù)感鋼材要大漲,在2千一噸時(shí)砸下重金囤了500噸

卡西莫多的故事
2025-12-31 10:08:32
小馬科斯與莎拉支持率兩極分化,菲律賓政壇要變天?南海轉(zhuǎn)機(jī)來(lái)了

小馬科斯與莎拉支持率兩極分化,菲律賓政壇要變天?南海轉(zhuǎn)機(jī)來(lái)了

知鑒明史
2025-12-30 18:28:27
剛剛,中國(guó)電信原總經(jīng)理李正茂突爆重大動(dòng)向!

剛剛,中國(guó)電信原總經(jīng)理李正茂突爆重大動(dòng)向!

通信頭條
2025-12-30 21:46:11
被裁員那天,我拉黑了所有同事,直到在醫(yī)院看到老板的繳費(fèi)單

被裁員那天,我拉黑了所有同事,直到在醫(yī)院看到老板的繳費(fèi)單

文雅筆墨
2025-12-31 11:41:02
普京談列寧:一生關(guān)鍵的錯(cuò)誤,就是把一個(gè)統(tǒng)一國(guó)家改造成聯(lián)盟

普京談列寧:一生關(guān)鍵的錯(cuò)誤,就是把一個(gè)統(tǒng)一國(guó)家改造成聯(lián)盟

阿籫你好
2025-12-29 22:29:20
臺(tái)灣問(wèn)題難以解決!主要原因不是臺(tái)獨(dú),而是島內(nèi)的反共情緒

臺(tái)灣問(wèn)題難以解決!主要原因不是臺(tái)獨(dú),而是島內(nèi)的反共情緒

史之銘
2025-12-31 03:44:31
兒子和同學(xué)打架,媽媽去道歉竟被侵犯并懷孕,事后對(duì)方不承認(rèn)!

兒子和同學(xué)打架,媽媽去道歉竟被侵犯并懷孕,事后對(duì)方不承認(rèn)!

極品小牛肉
2025-08-31 13:27:17
太期待!中乙近3年金靴全部征戰(zhàn)明年中超:3人共打進(jìn)58球!

太期待!中乙近3年金靴全部征戰(zhàn)明年中超:3人共打進(jìn)58球!

邱澤云
2025-12-31 15:44:59
受林彪直接領(lǐng)導(dǎo)的老將軍們:談紅軍時(shí)期的林彪,大都評(píng)價(jià)相似

受林彪直接領(lǐng)導(dǎo)的老將軍們:談紅軍時(shí)期的林彪,大都評(píng)價(jià)相似

春秋硯
2025-12-30 06:00:05
保衛(wèi)中央首長(zhǎng)進(jìn)北平之人,58年被連降十級(jí),毛主席:我要親自過(guò)問(wèn)

保衛(wèi)中央首長(zhǎng)進(jìn)北平之人,58年被連降十級(jí),毛主席:我要親自過(guò)問(wèn)

海佑講史
2025-12-30 14:10:04
演員閆學(xué)晶“哭窮”引爭(zhēng)議!稱兒子年入不到40萬(wàn),卻需負(fù)擔(dān)家庭年開支80-100萬(wàn)元,否則家庭無(wú)法運(yùn)轉(zhuǎn)

演員閆學(xué)晶“哭窮”引爭(zhēng)議!稱兒子年入不到40萬(wàn),卻需負(fù)擔(dān)家庭年開支80-100萬(wàn)元,否則家庭無(wú)法運(yùn)轉(zhuǎn)

大象新聞
2025-12-29 16:45:02
2025-12-31 20:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12031文章數(shù) 142525關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

墨西哥將對(duì)1463種進(jìn)口商品加稅 中國(guó)首次自主立案回應(yīng)

頭條要聞

墨西哥將對(duì)1463種進(jìn)口商品加稅 中國(guó)首次自主立案回應(yīng)

體育要聞

快船大勝國(guó)王解鎖5連勝 小卡33+5+5

娛樂(lè)要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

態(tài)度原創(chuàng)

家居
本地
親子
房產(chǎn)
公開課

家居要聞

無(wú)形有行 自然與靈感詩(shī)意

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

親子要聞

幼兒園娃娃當(dāng)家作“市”義賣,迎新日里愛(ài)心暖滿園

房產(chǎn)要聞

終于等來(lái)了!2026年首個(gè)買房大利好

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版