国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦北大聯(lián)合美團(tuán)提出TDAR:破解Block Diffusion速度精度悖論

0
分享至



如今,Test-Time Scaling(測試時擴(kuò)展)已成為提升模型推理能力的關(guān)鍵路徑。而在這一浪潮中,塊擴(kuò)散語言模型(Block Diffusion Language Models, BDLMs)憑借其獨(dú)特的并行解碼能力,被視為超越傳統(tǒng)自回歸(AR)模型推理效率的有力競爭者。

然而,現(xiàn)有的 BDLMs 在面對長鏈推理時,陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快,但在復(fù)雜推理中容易出錯,導(dǎo)致性能大幅下降;而小塊(Small Block)雖然推理準(zhǔn)確,但退化為接近自回歸的速度,失去了擴(kuò)散模型的并行優(yōu)勢。同時,現(xiàn)有的解碼策略(如固定置信度)無法適應(yīng)長推理鏈中 “難易交替” 的動態(tài)特性。這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優(yōu)勢的同時,解鎖其在復(fù)雜推理任務(wù)上的 Test-Time Scaling 潛力?

近期,復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室(FDU NLP)、北京大學(xué)知識計算實(shí)驗(yàn)室(KCL)聯(lián)合美團(tuán) LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通過引入“粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式與有界自適應(yīng)置信度解碼 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度與精度的零和博弈。



  • 論文標(biāo)題:Advancing Block Diffusion Language Models for Test-Time Scaling
  • 論文鏈接:https://arxiv.org/abs/2602.09555
  • 代碼鏈接:https://github.com/LuLuLuyi/TDAR
  • 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking



TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖。TDAR 位于右上角,展示了在保持高推理速度的同時實(shí)現(xiàn)了 SOTA 的準(zhǔn)確率。

核心創(chuàng)新:雙重自適應(yīng)機(jī)制

為了解決上述痛點(diǎn),研究團(tuán)隊(duì)提出了一套統(tǒng)一的測試時擴(kuò)展框架 TDAR,如下圖所示,該框架包含兩個核心設(shè)計:有界自適應(yīng)置信度解碼(BACD)與 “粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式。



TDAR 方法概覽。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的動態(tài)閾值機(jī)制。

1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)

傳統(tǒng)的動態(tài)解碼往往依賴固定的置信度閾值,這在長鏈推理中極易導(dǎo)致 “一步錯,步步錯”。研究團(tuán)隊(duì)提出了有界自適應(yīng)置信度解碼(BACD)算法,該算法利用已生成 token 的平均置信度作為信號,動態(tài)調(diào)整當(dāng)前的去噪閾值。同時,為了實(shí)現(xiàn)效率和效果的兼顧,增加了雙重邊界保護(hù)機(jī)制:上限(Upper Bound)負(fù)責(zé)在模型自信時激進(jìn)加速,下限(Lower Bound)負(fù)責(zé)在模型不確定時強(qiáng)制保守,防止錯誤累積。這使得模型能夠像人類一樣,簡單步驟快思考,困難步驟慢推敲。



2. 范式層:TCCF (Think Coarse, Critic Fine)

長鏈推理并非均勻的過程,而是由 “探索” 和 “驗(yàn)證” 組成的異質(zhì)序列。在探索階段,思維發(fā)散但推理內(nèi)容較為粗糙,而在驗(yàn)證階段,需要更加精細(xì)的驗(yàn)證和總結(jié)。研究團(tuán)隊(duì)提出了 TCCF 范式,根據(jù)推理階段的功能分配不同的計算粒度:

  • Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進(jìn)行快速的探索性推理,迅速鋪開思維路徑。
  • Critic Fine(細(xì)求證):使用 小 Block Size (block_size=1) 進(jìn)行精細(xì)的驗(yàn)證、糾錯和總結(jié),確保最終答案的正確性。

此外,為了支持大 Block 的高效訓(xùn)練,研究團(tuán)隊(duì)引入了 Progressive Block Size Extension(漸進(jìn)式塊大小擴(kuò)展) 策略,有效緩解了 Block Size 增大帶來的性能衰退。

實(shí)驗(yàn)結(jié)果:速度與精度的雙重飛躍

研究團(tuán)隊(duì)在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準(zhǔn)上評估了 TDAR-8B-Thinking。

實(shí)驗(yàn)結(jié)果表明,TDAR-8B-Thinking 在 8B 規(guī)模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點(diǎn),解碼速度從 1.27 TPF 飆升至 2.97 TPF。

結(jié)合 BACD 算法后,速度進(jìn)一步提升至 3.37 TPF 且性能再漲 1.6 個百分點(diǎn);疊加 TCCF 范式后,在 AIME24 復(fù)雜數(shù)學(xué)任務(wù)上準(zhǔn)確率從 36.3% 提升至 42.9%,同時維持 3.04 TPF 的高速度,實(shí)現(xiàn)了速度與性能的完美平衡。



實(shí)驗(yàn)結(jié)果表格。TDAR-8B 及其變體在各項(xiàng)指標(biāo)上均優(yōu)于現(xiàn)有的自回歸和擴(kuò)散模型基線。

深度分析:解構(gòu) TDAR 的性能來源

為了探究 TDAR 高效背后的機(jī)制,研究團(tuán)隊(duì)對 Block Size、解碼策略及 TCCF 范式進(jìn)行了多維度的量化分析。

1. 突破效率瓶頸:BACD 解鎖高能效區(qū)間

研究團(tuán)隊(duì)將 BACD 與 BDLMs 中主流的采樣算法進(jìn)行了對比,包括 Static Confidence Decoding(固定步數(shù),性能上限但效率低)和 Dynamic Confidence Decoding(動態(tài)閾值)。

首先,研究團(tuán)隊(duì)比較了在不同閾值下的性能與速度權(quán)衡。如下圖所示,對于 Dynamic Confidence Decoding,隨著置信度閾值(Threshold)的降低,模型的性能會出現(xiàn)肉眼可見的衰退。相比之下,BACD 在獲得持續(xù)效率增益的同時,依然維持了穩(wěn)定的性能表現(xiàn)。



BACD 與 Dynamic Confidence 等方法的效率 - 準(zhǔn)確率在不同 threshold 對比

研究團(tuán)隊(duì)對 BACD 在不同閾值下,模型輸出的行為進(jìn)行了分析,相比于標(biāo)準(zhǔn)的動態(tài)置信度解碼,BACD 在不同閾值下表現(xiàn)出極高的穩(wěn)定性。分析顯示,BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復(fù)生成” 問題,證明了 BACD 在動態(tài)調(diào)整去噪步數(shù)時具有顯著的優(yōu)越性。



BACD 在不同閾值下的性能穩(wěn)定性分析。

2. Block Size 的權(quán)衡

Block Size 是影響 BDLMs 性能與效率的關(guān)鍵變量。研究團(tuán)隊(duì)深入探究了其非線性影響:

如下圖所示,隨著 Block Size 增大,推理速度呈線性增長,但生成質(zhì)量會出現(xiàn)顯著衰退。通過權(quán)衡分析,研究團(tuán)隊(duì)鎖定 B=16 為 8B 模型的最佳平衡點(diǎn)(Sweet Spot)。TDAR 在此設(shè)置下,既保留了并行解碼的速度優(yōu)勢,又通過漸進(jìn)式訓(xùn)練(Progressive Extension)維持了強(qiáng)大的推理能力。



不同 Block Size 下模型性能與效率的 Trade-off 分析。

3. TCCF 的普適性增益

在不同的解碼算法下應(yīng)用 TCCF 機(jī)制,比較其在 AIME24 上的表現(xiàn),如下圖所示。結(jié)果表明,無論是在 Dynamic Confidence 還是 BACD 算法下,引入 TCCF(即從 Coarse 到 Fine 的轉(zhuǎn)換)都能帶來一致且顯著的性能提升。

特別是在 BACD 算法中,TCCF 有效提升了不同閾值下的性能下限。這證明了 “粗思考,細(xì)求證” 機(jī)制能有效彌補(bǔ)單一解碼策略在細(xì)節(jié)處理上的不足,實(shí)現(xiàn)了 1+1>2 的效果。



TCCF 策略在不同解碼算法及閾值下的性能增益分析。

結(jié)論與展望:釋放 BDLMs 的推理潛力

TDAR 的提出,標(biāo)志著 Block Diffusion 語言模型在復(fù)雜推理任務(wù)上邁出了重要一步。從此以后,大 Block Size 不再是禁區(qū),通過漸進(jìn)式訓(xùn)練和 BACD 解碼,大 Block 也可以兼顧質(zhì)量與速度。而 TCCF 范式的提出,證明了針對推理階段動態(tài)分配計算粒度的必要性。

TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案,也為未來并行推理模型的設(shè)計提供了新的思路。

團(tuán)隊(duì)成員均來自美團(tuán)LongCat后訓(xùn)練團(tuán)隊(duì):

陸毅,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室碩士在讀,研究方向?yàn)榇笳Z言模型,復(fù)雜推理,導(dǎo)師為桂韜老師。

孔德陽,北京大學(xué)軟件工程國家研究中心碩士在讀,研究方向?yàn)榇笳Z言模型,復(fù)雜推理,導(dǎo)師為葉蔚副研究員。

王嘉寧,獲得華東師范大學(xué)博士學(xué)位,曾前往UCSD訪問學(xué)習(xí),在ACL、EMNLP、AAAI、ICLR等頂會發(fā)表論文數(shù)十篇,目前就職于美團(tuán),LongCat-Flash-Thinking核心作者之一,研究方向?yàn)榇竽P陀?xùn)練與復(fù)雜推理。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
張凌赫9年前素人期的采訪火了,190cm身高鶴立雞群,像胖版李敏鎬

張凌赫9年前素人期的采訪火了,190cm身高鶴立雞群,像胖版李敏鎬

大鐵貓娛樂
2026-03-12 14:55:04
伊朗伊斯蘭革命衛(wèi)隊(duì)稱襲擊美國油輪

伊朗伊斯蘭革命衛(wèi)隊(duì)稱襲擊美國油輪

界面新聞
2026-03-12 17:32:42
伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

點(diǎn)燃好奇心
2026-03-12 15:16:00
外媒最新爆料:伊朗最高領(lǐng)袖穆杰塔巴足部骨折、左眼周圍淤青,面部被劃傷?

外媒最新爆料:伊朗最高領(lǐng)袖穆杰塔巴足部骨折、左眼周圍淤青,面部被劃傷?

王爺說圖表
2026-03-12 18:09:48
美媒高度警惕:中國六代機(jī)或?qū)燧d霹靂-17作戰(zhàn)

美媒高度警惕:中國六代機(jī)或?qū)燧d霹靂-17作戰(zhàn)

楊風(fēng)
2026-03-11 20:42:13
30分慘??!2大新援難挽3連敗,CBA關(guān)鍵1戰(zhàn):青島摧枯拉朽升第5!

30分慘??!2大新援難挽3連敗,CBA關(guān)鍵1戰(zhàn):青島摧枯拉朽升第5!

話體壇
2026-03-12 22:05:51
意難平!得分賽季新高+超鄧肯,無人問津啊,北境之王真的落寞了

意難平!得分賽季新高+超鄧肯,無人問津啊,北境之王真的落寞了

球童無忌
2026-03-12 22:45:05
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
揚(yáng)州一女子車禍被打,樣貌曝光,細(xì)節(jié)被扒,眾人直呼打得好

揚(yáng)州一女子車禍被打,樣貌曝光,細(xì)節(jié)被扒,眾人直呼打得好

天天熱點(diǎn)見聞
2026-03-11 20:52:30
七輪增資仍“缺血”,廣州銀行為何陷入資本惡性循環(huán)?

七輪增資仍“缺血”,廣州銀行為何陷入資本惡性循環(huán)?

九州商業(yè)觀察
2026-03-12 11:21:36
手機(jī)頂部出現(xiàn)這 3 個圖標(biāo),請立刻警惕!你的隱私正在被偷偷泄露

手機(jī)頂部出現(xiàn)這 3 個圖標(biāo),請立刻警惕!你的隱私正在被偷偷泄露

小柱解說游戲
2026-03-11 08:34:44
3-0!沒姆巴佩,皇馬更像皇馬!哈蘭德向皇馬交“投名狀”

3-0!沒姆巴佩,皇馬更像皇馬!哈蘭德向皇馬交“投名狀”

體育世界
2026-03-12 12:58:59
演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

一娛三分地
2026-03-03 13:51:03
伊朗有言在先,日本8萬噸貨輪爆炸,發(fā)往中國的原油一天都沒中斷

伊朗有言在先,日本8萬噸貨輪爆炸,發(fā)往中國的原油一天都沒中斷

原來仙女不講理
2026-03-12 12:21:21
新戰(zhàn)衣:居家蕾絲睡裙的誘惑

新戰(zhàn)衣:居家蕾絲睡裙的誘惑

疾跑的小蝸牛
2026-03-12 22:03:29
外媒:中國六代機(jī)殲-36第二架改進(jìn)型原型機(jī)再試飛,首飛指日可待

外媒:中國六代機(jī)殲-36第二架改進(jìn)型原型機(jī)再試飛,首飛指日可待

止戈軍是我
2026-03-12 21:26:44
狂賣2000萬!年輕人把“國產(chǎn)鳥”買成“新工服”

狂賣2000萬!年輕人把“國產(chǎn)鳥”買成“新工服”

表外表里
2026-03-11 22:50:07
俄軍被迫從紅軍村調(diào)出增援部隊(duì)!烏克蘭突破第聶伯羅南部防線

俄軍被迫從紅軍村調(diào)出增援部隊(duì)!烏克蘭突破第聶伯羅南部防線

項(xiàng)鵬飛
2026-03-12 18:12:52
15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個美男子;說法語時聲音渾厚,網(wǎng)友評“肯定比劉燁法語好”

15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個美男子;說法語時聲音渾厚,網(wǎng)友評“肯定比劉燁法語好”

極目新聞
2026-03-12 14:17:12
2026-03-13 00:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12488文章數(shù) 142584關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財經(jīng)要聞

盧鋒:從特朗普團(tuán)隊(duì)群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

本地
時尚
家居
手機(jī)
教育

本地新聞

坐標(biāo)北京,過敏季反向遷徒

就這樣從頭拿捏松弛感

家居要聞

觸感本真 家的跡象

手機(jī)要聞

榮耀Magic9標(biāo)準(zhǔn)版曝光:潛望鏡+無線充+超聲波指紋,仍沒有3D人臉

教育要聞

2026年春假安排告家長書

無障礙瀏覽 進(jìn)入關(guān)懷版