網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NVIDIA研究團(tuán)隊(duì)打造"加速大模型推理"的統(tǒng)一標(biāo)準(zhǔn)

2026-04-22 22:55:35　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由NVIDIA研究團(tuán)隊(duì)主導(dǎo)完成的研究成果，以預(yù)印本形式發(fā)布于2026年2月，論文編號(hào)為arXiv:2604.09557v1，收錄于計(jì)算機(jī)分布式系統(tǒng)領(lǐng)域（cs.DC）。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查閱完整論文。

每次你向ChatGPT或者其他大型語(yǔ)言模型提問，背后發(fā)生的事情比你想象中復(fù)雜得多。模型不是一次性"想出"完整答案然后發(fā)給你的，而是像打字員一樣，一個(gè)字一個(gè)字地生成。這種逐字生成的方式，在今天的硬件條件下，成了制約AI速度的最大瓶頸。為了突破這個(gè)瓶頸，研究人員想出了一種叫做"推測(cè)解碼"（Speculative Decoding，簡(jiǎn)稱SD）的聰明辦法——但評(píng)估這個(gè)辦法到底好不好，本身就是一門大學(xué)問。

NVIDIA的研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的評(píng)估方法存在嚴(yán)重缺陷：測(cè)試題目不夠多樣、測(cè)試環(huán)境脫離現(xiàn)實(shí)、測(cè)試指標(biāo)只看單用戶場(chǎng)景。于是他們構(gòu)建了一套全新的評(píng)測(cè)體系，命名為SPEED-Bench（推測(cè)解碼評(píng)估數(shù)據(jù)集）。這套體系不僅提供了精心挑選的多樣化數(shù)據(jù)，還配備了能對(duì)接真實(shí)生產(chǎn)環(huán)境的測(cè)量框架，試圖為整個(gè)行業(yè)建立一套公平、可信的評(píng)測(cè)標(biāo)準(zhǔn)。

一、大模型"一個(gè)字一個(gè)字說話"的困境

要理解SPEED-Bench解決的問題，得先明白大模型推理究竟慢在哪里。可以把大型語(yǔ)言模型比作一本放在遠(yuǎn)處書架上的百科全書，每次你想知道下一個(gè)詞，圖書管理員就得跑到書架把這本厚重的書搬過來翻一下，然后再放回去，然后再跑過去翻下一個(gè)詞。這里最耗時(shí)間的不是翻書的動(dòng)作本身，而是"來回搬運(yùn)"這本大書的過程——在計(jì)算機(jī)術(shù)語(yǔ)里，這叫做從高帶寬內(nèi)存（HBM）到芯片緩存的數(shù)據(jù)搬運(yùn)，是一種"內(nèi)存受限"的操作。

在只有一兩個(gè)用戶同時(shí)請(qǐng)求的低并發(fā)場(chǎng)景下，GPU的計(jì)算單元大部分時(shí)間都在等待數(shù)據(jù)搬運(yùn)完成，閑置得相當(dāng)厲害。推測(cè)解碼的核心思路，就是利用這些閑置的計(jì)算能力。具體做法是引入一個(gè)體量小得多的"草稿模型"，讓它先快速猜出接下來可能的一批詞（比如一次猜3到7個(gè)），然后讓大模型一次性驗(yàn)證這批猜測(cè)是否正確。因?yàn)轵?yàn)證多個(gè)詞和驗(yàn)證一個(gè)詞在數(shù)據(jù)搬運(yùn)成本上相差無幾，所以一旦猜對(duì)了多個(gè)，整體速度就會(huì)顯著提升。更關(guān)鍵的是，通過一種叫做"拒絕采樣"的數(shù)學(xué)機(jī)制，這個(gè)過程完全不會(huì)改變最終輸出的質(zhì)量，結(jié)果和大模型自己逐字生成的完全一致。

DeepSeek-R1、Qwen3-Next、NVIDIA的Nemotron-3、小米的MiMo-V2-Flash等前沿模型，已經(jīng)把這種多詞預(yù)測(cè)能力直接內(nèi)嵌進(jìn)了自己的架構(gòu)之中。

二、現(xiàn)有評(píng)測(cè)方法的三個(gè)致命傷

然而，一個(gè)技術(shù)再好，如果沒有靠譜的評(píng)測(cè)方法，研究人員就無法判斷它到底進(jìn)步了多少，也無法比較不同方法的優(yōu)劣。NVIDIA團(tuán)隊(duì)梳理了當(dāng)前SD評(píng)測(cè)領(lǐng)域的三大痛點(diǎn)。

第一個(gè)問題是數(shù)據(jù)不夠多樣。推測(cè)解碼的效果高度依賴于輸入文本的類型和復(fù)雜度——寫代碼的提示詞和寫詩(shī)的提示詞，對(duì)草稿模型來說難度天差地別。但現(xiàn)有研究常用的數(shù)據(jù)集，比如MT-Bench，每個(gè)類別只有10個(gè)樣本，而且這10個(gè)樣本彼此相似度極高，完全無法代表真實(shí)世界用戶的多樣需求。更有甚者，MT-Bench的多語(yǔ)言子集清一色都是"把德語(yǔ)翻譯成英語(yǔ)"這種模板式任務(wù)，而在SPEED-Bench的對(duì)比分析中，這個(gè)類別被發(fā)現(xiàn)存在嚴(yán)重的代表性偏差。

第二個(gè)問題是評(píng)測(cè)環(huán)境脫離現(xiàn)實(shí)。許多論文用HuggingFace這類面向研究者的高層庫(kù)來測(cè)速度，但真實(shí)的生產(chǎn)部署環(huán)境用的是vLLM、TensorRT-LLM、SGLang這類經(jīng)過深度優(yōu)化的推理引擎，兩者的性能差異不可忽視。在研究環(huán)境里測(cè)出來的漂亮數(shù)字，到了真實(shí)部署里可能大打折扣。

第三個(gè)問題是只測(cè)單用戶場(chǎng)景。大量論文只報(bào)告批量大小為1（即一次只處理一個(gè)請(qǐng)求）的加速比，但真實(shí)的模型服務(wù)要同時(shí)應(yīng)對(duì)幾十甚至幾百個(gè)用戶的并發(fā)請(qǐng)求。隨著并發(fā)量增加，系統(tǒng)會(huì)從"內(nèi)存受限"轉(zhuǎn)向"計(jì)算受限"，推測(cè)解碼的優(yōu)勢(shì)會(huì)迅速收縮，有時(shí)甚至?xí)兂韶?fù)擔(dān)。此外，現(xiàn)有數(shù)據(jù)集幾乎都是短文本，而當(dāng)今越來越多的應(yīng)用場(chǎng)景需要處理長(zhǎng)達(dá)數(shù)萬(wàn)詞的上下文，這個(gè)領(lǐng)域的評(píng)測(cè)幾乎是空白。

三、SPEED-Bench的核心設(shè)計(jì)：兩套數(shù)據(jù)加一個(gè)測(cè)量框架

針對(duì)上述三個(gè)問題，SPEED-Bench提出了三位一體的解決方案。

首先是"質(zhì)量評(píng)估數(shù)據(jù)集"（Qualitative Split）。這套數(shù)據(jù)的核心任務(wù)是衡量草稿模型的預(yù)測(cè)準(zhǔn)確率，因此必須盡可能覆蓋各種不同類型的文本。研究團(tuán)隊(duì)從18個(gè)公開數(shù)據(jù)集中取材，劃分成11個(gè)大類：編程、數(shù)學(xué)、人文學(xué)科、自然科學(xué)、寫作、摘要、角色扮演、檢索增強(qiáng)問答、多語(yǔ)言、推理、問答。每個(gè)類別精選80個(gè)樣本，總計(jì)880個(gè)樣本。這個(gè)規(guī)?？此撇淮螅總€(gè)樣本都經(jīng)過精心篩選，確保語(yǔ)義上盡可能不重復(fù)。與SpecBench相比，SPEED-Bench在多語(yǔ)言類別覆蓋了23種不同語(yǔ)言和多種任務(wù)類型，而不是只有德英翻譯；在編程類別涵蓋了Python、C++、Java、Go、JavaScript、Rust等多種語(yǔ)言；大約20%的樣本還包含多輪對(duì)話，最多五輪，遠(yuǎn)超SpecBench只有兩輪的限制。此外，每個(gè)樣本都附有難度標(biāo)簽和子類別標(biāo)簽，數(shù)學(xué)、編程、人文和自然科學(xué)類別中約80%的樣本屬于"困難"級(jí)別，且經(jīng)過驗(yàn)證，用GPT-4生成的回答平均長(zhǎng)度約650個(gè)詞，足以產(chǎn)生有意義的評(píng)測(cè)信號(hào)。

其次是"吞吐量評(píng)估數(shù)據(jù)集"（Throughput Split）。這套數(shù)據(jù)專門用于評(píng)測(cè)系統(tǒng)在不同負(fù)載下的實(shí)際速度表現(xiàn)。數(shù)據(jù)按照輸入長(zhǎng)度被劃分成5個(gè)固定桶：1千、2千、8千、1.6萬(wàn)、3.2萬(wàn)個(gè)詞元，每個(gè)桶里包含來自3個(gè)難度層次（低熵、混合熵、高熵）的各512個(gè)樣本，合計(jì)每個(gè)桶1536個(gè)樣本。"低熵"指的是結(jié)果比較確定、可預(yù)測(cè)的任務(wù)，比如代碼排序；"高熵"指的是開放性強(qiáng)、創(chuàng)意成分多的任務(wù)，比如自由寫作；"混合熵"則介于兩者之間，如自然科學(xué)問題。這種設(shè)計(jì)允許研究人員在現(xiàn)實(shí)負(fù)載下繪制出"吞吐量-延遲"的權(quán)衡曲線，直觀看出在什么并發(fā)條件下推測(cè)解碼是否有益。對(duì)于過短的樣本會(huì)用中性后綴"請(qǐng)現(xiàn)在作答"補(bǔ)齊，對(duì)于過長(zhǎng)的則截?cái)?，確保每個(gè)桶的輸入長(zhǎng)度完全統(tǒng)一。

第三個(gè)組件是統(tǒng)一測(cè)量框架。這個(gè)框架充當(dāng)一個(gè)"標(biāo)準(zhǔn)翻譯官"，在把同一批數(shù)據(jù)送給不同推理引擎時(shí)，確保每個(gè)引擎收到的詞元序列完全一致——所有分詞和格式化操作都在框架外部完成，繞過各引擎內(nèi)部可能不一致的預(yù)處理邏輯。框架通過異步事件循環(huán)同時(shí)發(fā)送大量并發(fā)請(qǐng)求，模擬真實(shí)的高并發(fā)服務(wù)場(chǎng)景，并通過分析引擎返回的流式響應(yīng)來計(jì)算接受率、接受長(zhǎng)度、首詞延遲、用戶每秒詞元數(shù)、整體吞吐量等關(guān)鍵指標(biāo)。目前原生支持TensorRT-LLM、vLLM、SGLang三大生產(chǎn)級(jí)引擎，以及面向研究社區(qū)的SpecBench接口。

四、"最大語(yǔ)義多樣性"的選樣算法

質(zhì)量評(píng)估數(shù)據(jù)集的880個(gè)樣本并非隨機(jī)抽取的，而是通過一套精心設(shè)計(jì)的算法篩選出來的。研究團(tuán)隊(duì)用OpenAI的文本嵌入模型把每個(gè)候選樣本轉(zhuǎn)換成一個(gè)高維數(shù)字向量，然后用余弦相似度來衡量任意兩個(gè)樣本之間的"語(yǔ)義距離"——距離越大，說明兩個(gè)樣本內(nèi)容差異越大。

選樣的目標(biāo)是找到一組樣本，使得它們兩兩之間的相似度之和最小，也就是讓整個(gè)子集盡可能地"散開"，覆蓋語(yǔ)義空間的各個(gè)角落。這個(gè)優(yōu)化問題在數(shù)學(xué)上屬于NP難問題（意味著暴力窮舉計(jì)算量大到無法實(shí)現(xiàn)），于是研究團(tuán)隊(duì)采用了一種"貪心選擇加局部交換"的啟發(fā)式算法：先隨機(jī)選一個(gè)起點(diǎn)，然后每次加入與當(dāng)前集合相似度最低的那個(gè)候選樣本；初步選完后，反復(fù)嘗試將集合內(nèi)的某個(gè)樣本換成集合外的某個(gè)樣本，只要這次交換能降低總相似度就執(zhí)行，直到無法繼續(xù)優(yōu)化為止。

實(shí)測(cè)結(jié)果相當(dāng)令人信服：與SpecBench相比，SPEED-Bench的平均樣本間相似度降低了40%，在多語(yǔ)言類別降低了整整83%。更有趣的是，即使對(duì)同樣的候選數(shù)據(jù)集做隨機(jī)抽樣，效果也普遍優(yōu)于SpecBench——這說明SPEED-Bench數(shù)據(jù)來源本身的質(zhì)量就更高，而優(yōu)化算法又在此基礎(chǔ)上進(jìn)一步挖掘了多樣性。團(tuán)隊(duì)還嘗試了一種基于二次規(guī)劃的數(shù)學(xué)近似算法，結(jié)果表明貪心算法得到的多樣性分?jǐn)?shù)與之相當(dāng)，但速度更快、可擴(kuò)展性更好。

五、合成數(shù)據(jù)的陷阱：隨機(jī)詞元為何會(huì)欺騙你

在講述實(shí)驗(yàn)發(fā)現(xiàn)之前，有必要先說一個(gè)業(yè)界常見的壞習(xí)慣，以及SPEED-Bench如何揭示了它的危害。

工業(yè)界評(píng)測(cè)推理吞吐量時(shí)，有人會(huì)圖省事，用隨機(jī)生成的詞元序列來充當(dāng)測(cè)試輸入，省去收集真實(shí)數(shù)據(jù)的麻煩。但SPEED-Bench的研究表明，這種做法對(duì)于推測(cè)解碼評(píng)測(cè)來說是根本錯(cuò)誤的。

隨機(jī)詞元輸入會(huì)觸發(fā)兩種截然相反的模型行為，都會(huì)扭曲評(píng)測(cè)結(jié)果。第一種是"平凡響應(yīng)"：模型識(shí)別出輸入是亂碼，然后輸出一段通用的"我看不懂你說什么，能否說清楚一點(diǎn)"之類的套話。因?yàn)椴莞迥Ｐ鸵埠苋菀撞碌竭@種模板式回應(yīng)，所以接受率會(huì)被人為抬高。論文舉了一個(gè)實(shí)例，用隨機(jī)輸入測(cè)試GPT-OSS 120B配合EAGLE3草稿模型時(shí)，平均接受長(zhǎng)度高達(dá)3.44，模型回答是"看起來您粘貼了一段混合語(yǔ)言文本，我需要更多信息……"第二種是"話題鎖定"：隨機(jī)詞元中偶爾出現(xiàn)的某個(gè)詞讓模型抓住了一個(gè)話題，開始天馬行空地?cái)U(kuò)展。論文另一個(gè)實(shí)例中，模型看到隨機(jī)輸入后扯到了Unity游戲引擎，洋洋灑灑地開始講制作2D平臺(tái)游戲的教程，但此時(shí)草稿模型跟不上這種任意跳躍的思路，接受長(zhǎng)度只有1.877，遠(yuǎn)低于正常水平。

除了影響推測(cè)解碼，隨機(jī)詞元對(duì)混合專家（MoE）架構(gòu)模型的基礎(chǔ)性能評(píng)測(cè)也會(huì)造成扭曲。MoE模型每次只激活一部分"專家"子網(wǎng)絡(luò)，由路由器根據(jù)輸入內(nèi)容決定激活哪些。隨機(jī)詞元會(huì)讓路由器"崩潰"到少數(shù)幾個(gè)專家上，違背負(fù)載均衡假設(shè)，導(dǎo)致步驟延遲測(cè)量失真。實(shí)驗(yàn)數(shù)據(jù)顯示，GPT-OSS 120B在處理8千詞元長(zhǎng)度、批量32的輸入時(shí)，隨機(jī)詞元會(huì)導(dǎo)致某些層有20%到30%的專家根本不被激活，而SPEED-Bench的真實(shí)數(shù)據(jù)則產(chǎn)生接近均勻的專家激活分布。正因如此，開啟推測(cè)解碼后，隨機(jī)數(shù)據(jù)測(cè)出的吞吐量平均比SPEED-Bench真實(shí)數(shù)據(jù)高出23%，是嚴(yán)重的高估。

六、主要實(shí)驗(yàn)發(fā)現(xiàn)：從接受率到跨引擎性能

研究團(tuán)隊(duì)用SPEED-Bench對(duì)多個(gè)前沿模型和SD方法進(jìn)行了系統(tǒng)評(píng)測(cè)，包括Llama 3.3 70B、GPT-OSS 120B、Qwen3 235B、Qwen3-Next和DeepSeek R1，以及N-Gram、Vanilla SD（外部草稿模型）、EAGLE3和原生MTP四種SD方案。所有質(zhì)量評(píng)測(cè)均使用批量大小32，草稿長(zhǎng)度3，運(yùn)行環(huán)境為單塊NVIDIA B200 GPU（DeepSeek和Qwen模型使用8塊）。

從質(zhì)量評(píng)估數(shù)據(jù)集的結(jié)果來看，不同類別之間的接受長(zhǎng)度差異相當(dāng)顯著，與直覺相符：編程和數(shù)學(xué)等"低熵"任務(wù)的接受長(zhǎng)度最高，而角色扮演等"高熵"任務(wù)最低。以Llama 3.3 70B配合EAGLE3為例，編程類的平均接受長(zhǎng)度達(dá)到3.00，而角色扮演只有2.04。N-Gram方案在批量32的條件下出現(xiàn)了凈減速（加速比低于1），說明在這種并發(fā)水平下驗(yàn)證成本已經(jīng)超過了收益。Vanilla SD（外部小模型）在某些配置下速度低于EAGLE3，盡管接受長(zhǎng)度相近，原因在于運(yùn)行獨(dú)立草稿模型本身有額外開銷。

原生MTP方案（Qwen3-Next）表現(xiàn)出色，在草稿長(zhǎng)度3時(shí)接受長(zhǎng)度達(dá)2.81，顯著高于同模型的EAGLE3方案（2.36）。更有意思的是隨草稿長(zhǎng)度增加的趨勢(shì)：Qwen3-Next的MTP接受率隨草稿長(zhǎng)度延長(zhǎng)依然保持高位，而EAGLE3在草稿長(zhǎng)度超過5之后會(huì)出現(xiàn)比較明顯的精度衰退。研究團(tuán)隊(duì)將此歸結(jié)為預(yù)訓(xùn)練集成的多詞預(yù)測(cè)與后訓(xùn)練附加的推測(cè)頭在長(zhǎng)推測(cè)鏈上的根本性差異——預(yù)訓(xùn)練的方式顯然更有優(yōu)勢(shì)。Vanilla SD（外部模型）也表現(xiàn)出比EAGLE3更好的長(zhǎng)草稿鏈穩(wěn)定性，盡管其單步開銷更大。

在吞吐量評(píng)估數(shù)據(jù)集上，不同熵類別的接受長(zhǎng)度走勢(shì)與預(yù)期一致：低熵任務(wù)始終最高，高熵任務(wù)最低，混合熵居中。不過GPT-OSS 120B配合EAGLE3出現(xiàn)了一個(gè)有趣的異常：在短上下文（1千詞元）時(shí)低熵類別表現(xiàn)最好，但隨著輸入長(zhǎng)度增加，低熵類別的接受長(zhǎng)度急劇下滑，甚至跌至混合熵以下。研究團(tuán)隊(duì)將此歸因于該EAGLE3草稿模型的訓(xùn)練數(shù)據(jù)來源——主要是UltraChat和Magpie數(shù)據(jù)集，其中編程內(nèi)容極少，自然在代碼排序這類低熵任務(wù)上缺乏適應(yīng)性。

關(guān)于最優(yōu)草稿長(zhǎng)度隨批量大小的變化，實(shí)驗(yàn)結(jié)果非常直觀：在低批量（系統(tǒng)處于內(nèi)存受限狀態(tài)）時(shí)，更長(zhǎng)的草稿鏈更有優(yōu)勢(shì)，比如草稿長(zhǎng)度3明顯優(yōu)于草稿長(zhǎng)度1；但隨著批量增大到128甚至更高，系統(tǒng)逐漸進(jìn)入計(jì)算受限狀態(tài)，驗(yàn)證多個(gè)草稿詞元的額外計(jì)算成本開始?jí)哼^收益，草稿長(zhǎng)度1反而更高效。SPEED-Bench通過吞吐量-延遲曲線幫助工程師找到這個(gè)"交叉點(diǎn)"，從而為自己的實(shí)際部署場(chǎng)景選擇合適的草稿長(zhǎng)度。

關(guān)于推理引擎之間的差異，TensorRT-LLM在峰值吞吐量上優(yōu)于vLLM，主要原因是TensorRT-LLM支持"單模型運(yùn)行時(shí)"模式——將草稿頭直接附加到目標(biāo)模型上，用一個(gè)統(tǒng)一的CUDA計(jì)算圖捕獲整個(gè)草稿-驗(yàn)證循環(huán)，大幅減少了主機(jī)端的調(diào)度開銷。vLLM采用"雙模型"方式，草稿模型作為獨(dú)立引擎運(yùn)行，兩者之間的通信會(huì)引入額外延遲，盡管異步調(diào)度機(jī)制能部分掩蓋這種開銷。不過vLLM的分段式圖構(gòu)建在需要?jiǎng)討B(tài)調(diào)整草稿策略時(shí)有更大的靈活性。

七、詞匯表裁剪：優(yōu)化手段的雙刃劍

EAGLE3為了降低計(jì)算瓶頸，采用了一種"詞匯表裁剪"技術(shù)：從完整的詞匯表（可能有十幾萬(wàn)個(gè)詞元）中只保留最高頻的3.2萬(wàn)個(gè)，用這個(gè)縮減版詞匯表來預(yù)測(cè)草稿詞元，從而大幅減少最后投影層的計(jì)算量。這個(gè)做法在標(biāo)準(zhǔn)輸入上效果不錯(cuò)，但SPEED-Bench的多樣性評(píng)測(cè)揭示了它隱藏的代價(jià)。

研究團(tuán)隊(duì)分析了GPT-OSS 120B用貪心采樣生成的輸出中，有多少詞元落在不同大小的裁剪詞匯表之外。結(jié)果顯示：在使用3.2萬(wàn)詞匯表時(shí)，整體覆蓋率達(dá)到94.7%，看上去還不錯(cuò)；但在多語(yǔ)言類別上，覆蓋率只有76.9%，意味著每4個(gè)目標(biāo)詞元就有1個(gè)不在詞匯表里，草稿模型根本無法預(yù)測(cè)這些詞元，接受率必然大幅下滑。實(shí)測(cè)接受長(zhǎng)度數(shù)據(jù)印證了這一點(diǎn)：與使用完整詞匯表相比，數(shù)學(xué)類別的接受長(zhǎng)度下降了2.28%，編程類別下降了2.94%，寫作類別基本持平（下降0.65%），而RAG（檢索增強(qiáng)問答）下降了10.05%，摘要類別下降了9.51%，多語(yǔ)言類別下降了10.22%，平均下降5.53%。

這個(gè)發(fā)現(xiàn)表明，如果只在編程和數(shù)學(xué)任務(wù)上評(píng)測(cè)，詞匯表裁剪幾乎沒有感知成本；但一旦部署到多語(yǔ)言客服、文檔摘要等場(chǎng)景，性能損失就會(huì)相當(dāng)顯著。SPEED-Bench的寬覆蓋評(píng)測(cè)正是為了把這類"長(zhǎng)尾失效"暴露出來。

八、從SpecBench到SPEED-Bench：一個(gè)具體的案例對(duì)比

為了直觀展示評(píng)測(cè)數(shù)據(jù)集多樣性的重要性，研究團(tuán)隊(duì)做了一個(gè)對(duì)比實(shí)驗(yàn)：用SpecBench和SPEED-Bench分別評(píng)測(cè)Llama 3.3 70B上的EAGLE3和Vanilla SD，草稿長(zhǎng)度設(shè)為7。

在SpecBench的編程類別（只有10個(gè)樣本）上，EAGLE3和Vanilla SD的接受長(zhǎng)度非常接近，看起來兩者水平相當(dāng)。但切換到SPEED-Bench的編程類別（80個(gè)語(yǔ)義多樣的樣本）后，Vanilla SD的接受長(zhǎng)度明顯高于EAGLE3，符合外部模型在長(zhǎng)草稿鏈上更穩(wěn)定的預(yù)期。

多語(yǔ)言類別的差距更為戲劇性。SpecBench的多語(yǔ)言子集全部是德英翻譯，在這種高度同質(zhì)的任務(wù)上，兩種方法差距不大。但SPEED-Bench的多語(yǔ)言子集覆蓋23種語(yǔ)言和多種任務(wù)類型，在這里Vanilla SD展現(xiàn)出了對(duì)EAGLE3相當(dāng)顯著的優(yōu)勢(shì)。這一結(jié)果與詞匯表裁剪分析相互印證：EAGLE3在詞匯表外詞元比例高的語(yǔ)言上表現(xiàn)更差，而SpecBench的兩種語(yǔ)言根本無法暴露這個(gè)問題。這也正是SPEED-Bench多語(yǔ)言選樣算法取得最高多樣性提升（語(yǔ)義相似度降低83%）的類別——多樣性最高的地方，也是最能區(qū)分方法優(yōu)劣的地方。

九、訓(xùn)練上下文長(zhǎng)度對(duì)草稿模型的影響

吞吐量數(shù)據(jù)集的另一項(xiàng)重要應(yīng)用，是評(píng)測(cè)草稿模型在超出其訓(xùn)練上下文長(zhǎng)度時(shí)的性能穩(wěn)定性。研究團(tuán)隊(duì)專門訓(xùn)練了多個(gè)不同訓(xùn)練序列長(zhǎng)度（1千、2千、4千詞元）的GPT-OSS 120B EAGLE3草稿模型，并在SPEED-Bench的全部5個(gè)上下文長(zhǎng)度桶上評(píng)測(cè)。

結(jié)論是清晰的：一旦推理時(shí)的輸入長(zhǎng)度超過訓(xùn)練時(shí)的最大長(zhǎng)度，接受率就會(huì)迅速崩潰。以1千詞元訓(xùn)練的模型在4千詞元輸入時(shí)接受率已經(jīng)大幅下滑，在1.6萬(wàn)詞元時(shí)幾乎接近基線。不過，研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)相對(duì)簡(jiǎn)單的補(bǔ)救措施：在推理時(shí)應(yīng)用YaRN位置編碼縮放技術(shù)，即使對(duì)訓(xùn)練序列只有1千詞元的模型，也能在長(zhǎng)上下文下顯著恢復(fù)接受率。用2千詞元訓(xùn)練、配合YaRN縮放的模型，甚至能在3.2萬(wàn)詞元輸入上維持接近合理的性能。

這對(duì)實(shí)踐者的指導(dǎo)意義很直接：如果你部署的應(yīng)用場(chǎng)景涉及長(zhǎng)文本處理，草稿模型的訓(xùn)練序列長(zhǎng)度必須足夠，并且推理配置中要正確設(shè)置位置編碼縮放，否則實(shí)際效果會(huì)與短文本測(cè)試結(jié)果天差地別。研究團(tuán)隊(duì)還順帶檢查了HuggingFace上兩個(gè)公開EAGLE3模型在長(zhǎng)上下文下的表現(xiàn)，發(fā)現(xiàn)都存在明顯的接受率衰退，并分析了可能的原因——其中一個(gè)模型可能位置編碼配置與實(shí)際訓(xùn)練長(zhǎng)度不一致。

說到底，SPEED-Bench這項(xiàng)工作解決的不是一個(gè)花哨的新算法問題，而是一個(gè)更基礎(chǔ)卻常被忽視的問題：如何可信地評(píng)測(cè)已有算法。推測(cè)解碼技術(shù)本身已經(jīng)相當(dāng)成熟，但評(píng)測(cè)方法的混亂讓研究人員無法準(zhǔn)確判斷進(jìn)步的真實(shí)幅度，也讓工程師無法放心地在生產(chǎn)環(huán)境中選擇合適的方案。

NVIDIA團(tuán)隊(duì)通過這項(xiàng)工作揭示了若干在傳統(tǒng)評(píng)測(cè)中看不見的現(xiàn)象：合成數(shù)據(jù)會(huì)系統(tǒng)性高估23%的吞吐量；詞匯表裁剪在多語(yǔ)言場(chǎng)景下會(huì)帶來10%以上的接受率損失；最優(yōu)草稿長(zhǎng)度會(huì)隨并發(fā)量變化發(fā)生質(zhì)的躍遷；訓(xùn)練上下文長(zhǎng)度不足會(huì)在長(zhǎng)文本場(chǎng)景下造成草稿模型的"斷崖式"失效，而YaRN縮放是一個(gè)值得嘗試的低成本緩解手段。

這對(duì)普通用戶意味著什么？歸根結(jié)底，更好的評(píng)測(cè)標(biāo)準(zhǔn)會(huì)推動(dòng)更可靠的技術(shù)進(jìn)步，最終讓每次與AI對(duì)話的等待時(shí)間更短、響應(yīng)更流暢。有深度興趣的讀者可以通過arXiv編號(hào)2604.09557查閱完整論文，或訪問HuggingFace上的SPEED-Bench數(shù)據(jù)集頁(yè)面直接體驗(yàn)這套評(píng)測(cè)工具。

Q&A

Q1：推測(cè)解碼（Speculative Decoding）是什么原理，為什么能加速大模型？

A：推測(cè)解碼利用一個(gè)體量小得多的"草稿模型"先快速猜出接下來可能出現(xiàn)的若干詞，然后讓大模型一次性驗(yàn)證這批猜測(cè)。由于驗(yàn)證多個(gè)詞和驗(yàn)證一個(gè)詞的內(nèi)存搬運(yùn)成本相差不大，猜對(duì)了就相當(dāng)于"一步走了多步"，整體速度明顯提升。通過拒絕采樣機(jī)制，這個(gè)過程不改變輸出質(zhì)量，結(jié)果與大模型逐字生成完全一致。

Q2：SPEED-Bench和SpecBench相比有哪些具體改進(jìn)？

A：SPEED-Bench在多個(gè)維度上超越了SpecBench。數(shù)據(jù)量方面，每類別80個(gè)樣本對(duì)比SpecBench的10個(gè)；數(shù)據(jù)來源方面，24個(gè)數(shù)據(jù)集對(duì)比5個(gè)；語(yǔ)義多樣性上平均相似度降低40%，多語(yǔ)言類別降低83%；多語(yǔ)言覆蓋23種語(yǔ)言和多種任務(wù)，而非只有德英翻譯；還新增了最長(zhǎng)3.2萬(wàn)詞元的長(zhǎng)上下文評(píng)測(cè)和大批量并發(fā)吞吐量測(cè)試，這些在SpecBench中完全沒有。

Q3：詞匯表裁剪對(duì)EAGLE3在不同任務(wù)上的影響有多大？

A：影響差異很大。在數(shù)學(xué)和編程任務(wù)上，接受長(zhǎng)度下降只有2%到3%，基本可以忽略；但在多語(yǔ)言、檢索增強(qiáng)問答和摘要類任務(wù)上，接受長(zhǎng)度下降高達(dá)10%左右，原因是這些類別中約22%的目標(biāo)詞元不在裁剪后的3.2萬(wàn)詞匯表內(nèi)，草稿模型根本無法預(yù)測(cè)。這說明詞匯表裁剪在單一領(lǐng)域評(píng)測(cè)中看起來無害，但在真實(shí)多樣化部署場(chǎng)景中代價(jià)不小。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.