国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026 |?越推越快!?首個面向「Test-Time Scaling」的投機解碼基準

0
分享至


SpecTTS-Bench:首個面向「Test-Time Scaling」的投機解碼基準,收割冗余紅利,越推越快!

本文由來自香港城市大學(xué)、華為的多位研究者共同完成。第一作者為來自香港城市大學(xué)的博士生孫圣印和來自華為的研究員李一鳴,通信作者為來自香港城市大學(xué)的助理教授馬辰。

在推理大模型的應(yīng)用里,一個樸素但有效的策略正在成為共識:推理階段擴展(Test-Time Scaling, TTS)—— 在推理階段額外分配計算(例如反復(fù)思考,多輪推理),往往能顯著提升推理大模型解決復(fù)雜問題的正確率與穩(wěn)健性。但TTS應(yīng)用于推理大模型的代價也同樣明顯:大量冗余、重復(fù)的推理軌跡被生成出來,吞噬了推理時延與算力預(yù)算,讓模型的“更聰明”變得“不夠劃算”。

基于此,本文提出了首個面向TTS的投機解碼(Speculative Decoding)加速綜合基準。評測結(jié)果顯示,在結(jié)構(gòu)化且重復(fù)密集的 TTS 場景里,樸素的N-gram方法更能精準“吃到”重復(fù)帶來的紅利,釋放出不容忽視的加速潛力。

論文標題:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


論文地址:
https://arxiv.org/abs/2509.04474

論文代碼:
https://github.com/sunshy-1/SpecTTS-Bench


圖1 TTS的過程中大量冗余和重復(fù)的推理軌跡示例。

1. 「疊床架屋」為什么 TTS 會“慢得不劃算”?

隨著大模型能力的持續(xù)提升,業(yè)界逐漸意識到一個重要現(xiàn)象——即所謂的 Scaling Law 在推理階段同樣成立。簡單來說,只要在推理階段投入更多的計算資源,就能夠在一定程度上換取更強的復(fù)雜推理能力。換句話說,即便模型參數(shù)規(guī)模固定,通過擴大推理時的“思考深度”或“思考廣度”,同樣可能獲得更高質(zhì)量的輸出。典型方式包括:

? Best-of-N:針對同一個問題,模型生成多條不同的推理路徑或候選答案,然后再通過評分機制或后驗判斷,選出最優(yōu)方案;

? Multi-round Thinking:讓模型以多輪“想—寫—再想—再寫”的形式進行自我復(fù)審和反思,不斷修正先前的推理錯誤或補充遺漏的邏輯。

然而,這種范式并非沒有代價。它的核心問題在于推理效率極低,往往會出現(xiàn)所謂的“疊床架屋式冗余計算”。在多輪或多樣采樣的過程中,模型往往會反復(fù)生成類似的分析開頭、重復(fù)的中間結(jié)論、固定化的檢查步驟,甚至對前文內(nèi)容進行機械式重述。這些內(nèi)容雖然表面上增加了推理“長度”,但實際信息增益有限。結(jié)果就是,TTS的推理過程不可避免地充斥著大量重復(fù)和無效的計算軌跡——算力在自說自話的過程里被浪費掉了。這也帶來了一個頗為尷尬的現(xiàn)實:我們確實找到了提升大模型上限、激發(fā)其潛在推理能力的有效路徑,但同時必須付出極高的計算代價與延遲成本。換言之,TTS 在質(zhì)量與效率之間形成了難以調(diào)和的矛盾——它能讓模型“更聰明”,卻讓推理過程“慢得不劃算”。

2. 「以小博大」:投機解碼如何破解“慢思考”困局?

面對TTS帶來的巨大算力消耗,投機解碼提供了一種高效的計算范式,旨在緩解大模型推理過程中的訪存瓶頸。其核心機制在于解耦了“生成”與“驗證”兩個過程:系統(tǒng)首先利用一個參數(shù)量較小、推理速度極快的“草稿模型”(Draft Model)預(yù)先生成一系列候選 Token,隨后由參數(shù)量龐大的“目標模型”(Target Model)以并行計算的方式對這些候選序列進行批量驗證。由于大模型在處理單個 Token 和并行處理多個 Token 時的延遲差異較小,這種“預(yù)測-驗證”機制能夠顯著減少目標模型昂貴的串行前向傳播次數(shù),從而在保證輸出分布與目標模型完全一致(即無損加速)的前提下,大幅提升整體推理吞吐量。

在TTS的具體實踐中,無論是通過Best-of-N尋找最優(yōu)解,還是通過多輪迭代進行自我修正,其計算過程本質(zhì)上都伴隨著大量的文本重復(fù)。例如,在生成多個推理路徑時,不同樣本間往往共享著長段的公共前綴或標準化的思維模板;而在迭代修正過程中,模型又不可避免地需要復(fù)述上下文或?qū)扔形谋具M行微調(diào)。這種由采樣策略和迭代機制直接導(dǎo)致的重復(fù)性,恰恰是投機解碼能夠利用的最大紅利。內(nèi)容的高頻重復(fù)顯著降低了預(yù)測難度,使得草稿模型能夠以極高的命中率通過驗證。因此,TTS 場景下算力擴張所帶來的文本冗余,反而在投機解碼的機制下轉(zhuǎn)化為加速推理的關(guān)鍵杠桿。


圖2 針對高效TTS的投機解碼方法框架。

3. 「SpecTTS-Bench」首個面向 TTS 的投機解碼評測基準

為了系統(tǒng)性地量化投機解碼在TTS推理場景下的效能,本文構(gòu)建了首個面向 TTS 的投機解碼評測基準。該基準不僅制定了統(tǒng)一且嚴格的實驗協(xié)議,更全面覆蓋了當前最具代表性的兩大 TTS 范式:旨在通過廣度搜索尋找最優(yōu)解的 Best-of-N 采樣,以及通過深度迭代提升推理質(zhì)量的多輪思考。在投機解碼方法論的維度上,本文涵蓋了多樣化的技術(shù)路徑,包含如下四大類:

? 基于模型(Model-based)的方法,即經(jīng)典的利用同源小模型生成候選序列、再由目標模型驗證的范式;

? 基于訓(xùn)練(Training-based)的方法,側(cè)重于通過特定訓(xùn)練優(yōu)化推測器或策略,使其更緊密地貼合目標模型的分布特征;

? 基于 N-gram(N-gram-based)的方法,直接利用文本統(tǒng)計規(guī)律中的重復(fù)模式進行極低成本的快速預(yù)測。

4. 「群雄逐鹿」九種投機解碼方法在兩類主流TTS框架中的統(tǒng)一評測

本基準對九種投機解碼方法在兩類主流 TTS框架中進行了統(tǒng)一評測,涵蓋 Best-of-N(圖3)與多輪思考(圖4)兩大典型場景。實驗選取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高難度推理基準上對比了各方法的平均接受Token數(shù)(MAT)與端到端加速比(Speed)。

評測結(jié)果揭示了一個關(guān)鍵發(fā)現(xiàn):在結(jié)構(gòu)化且重復(fù)密集的 TTS 場景中,能夠利用歷史信息的非訓(xùn)練N-gram方法展現(xiàn)出驚人的適應(yīng)性。如圖3所示,在 DSL-8B (T=0) 的貪婪解碼設(shè)定下,SAM方法表現(xiàn)尤為亮眼,其在 GPQA 任務(wù)上取得了3.57的MAT和3.20×的加速比,整體評測中也保持了平均2.66×的穩(wěn)健加速。這表明,TTS 推理過程中產(chǎn)生的思維鏈包含大量重復(fù)的推理步驟和格式化表達,樸素的N-gram或基于歷史匹配的機制(如SAM)能夠精準利用這些重復(fù)模式帶來的紅利。

基于這一洞察,我們進一步驗證了將N-gram機制與基于訓(xùn)練的投機解碼方法相結(jié)合的混合策略。實驗數(shù)據(jù)顯示,SAM[EAGLE-3]這種混合策略集兩者之長,在各類設(shè)定下均實現(xiàn)了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場景中,SAM[EAGLE-3]在GPQA任務(wù)上的MAT達到了驚人的7.00,并在整體評測中實現(xiàn)了最高3.97×的加速比。同樣,在QW3-8B 的多輪思考場景(圖4)中,該混合策略依然保持領(lǐng)先,穩(wěn)定提供約2.7×至3.5×的加速收益。


圖3 不同投機解碼方法在Best-of-N場景中的性能。


圖4 不同投機解碼方法在多輪思考場景中的性能。

5. 「以簡馭繁」:重塑大模型推理的效率邊界


圖5 Scaling Up, Speeding Up!N-gram投機解碼方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多輪思考(T=0.6)。

本基準不僅為TTS場景中的大模型推理提供了標準化的度量衡,更揭示了“重復(fù)即紅利”這一關(guān)鍵洞察。在追求模型“深思熟慮”的道路上,簡單的 N-gram 機制與混合策略展現(xiàn)出了“四兩撥千斤”的潛力,有效緩解了長思維鏈帶來的推理時延。我們期待這一基準能推動社區(qū)進一步挖掘推理結(jié)構(gòu)中的加速潛力,讓“越推越快”成為TTS的新常態(tài)。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

瀟湘晨報
2026-03-10 19:14:12
伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

念洲
2026-03-10 19:45:58
新款奧迪A6L預(yù)售價公布:32.3萬元起

新款奧迪A6L預(yù)售價公布:32.3萬元起

界面新聞
2026-03-10 15:38:51
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風(fēng)

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風(fēng)

老特有話說
2026-03-08 15:30:41
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風(fēng)過鄉(xiāng)
2026-03-10 21:14:19
江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

科學(xué)發(fā)掘
2026-03-10 11:12:41
1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

史之銘
2026-03-10 17:55:32
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

風(fēng)過鄉(xiāng)
2026-03-10 21:00:08
打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

史政先鋒
2026-03-09 19:30:53
第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

裝甲鏟史官
2026-03-10 14:12:51
毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

優(yōu)趣紀史記
2026-03-10 11:15:34
陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

江江食研社
2026-03-10 14:13:03
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

側(cè)身凌空斬
2026-03-10 19:01:07
行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

科普100克克
2026-03-10 16:14:17
「俠客島」美國打伊朗,歐洲為啥“不跟”?

「俠客島」美國打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

鈦媒體APP
2026-03-10 17:22:25
伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

上游新聞
2026-03-10 13:40:14
中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
2026-03-10 23:12:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
親子
藝術(shù)
健康
家居

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

親子要聞

程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

自然肌理 溫度質(zhì)感婚房

無障礙瀏覽 進入關(guān)懷版