国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NVIDIA研究團(tuán)隊(duì)打造"加速大模型推理"的統(tǒng)一標(biāo)準(zhǔn)

0
分享至


這項(xiàng)由NVIDIA研究團(tuán)隊(duì)主導(dǎo)完成的研究成果,以預(yù)印本形式發(fā)布于2026年2月,論文編號(hào)為arXiv:2604.09557v1,收錄于計(jì)算機(jī)分布式系統(tǒng)領(lǐng)域(cs.DC)。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查閱完整論文。

每次你向ChatGPT或者其他大型語(yǔ)言模型提問,背后發(fā)生的事情比你想象中復(fù)雜得多。模型不是一次性"想出"完整答案然后發(fā)給你的,而是像打字員一樣,一個(gè)字一個(gè)字地生成。這種逐字生成的方式,在今天的硬件條件下,成了制約AI速度的最大瓶頸。為了突破這個(gè)瓶頸,研究人員想出了一種叫做"推測(cè)解碼"(Speculative Decoding,簡(jiǎn)稱SD)的聰明辦法——但評(píng)估這個(gè)辦法到底好不好,本身就是一門大學(xué)問。

NVIDIA的研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的評(píng)估方法存在嚴(yán)重缺陷:測(cè)試題目不夠多樣、測(cè)試環(huán)境脫離現(xiàn)實(shí)、測(cè)試指標(biāo)只看單用戶場(chǎng)景。于是他們構(gòu)建了一套全新的評(píng)測(cè)體系,命名為SPEED-Bench(推測(cè)解碼評(píng)估數(shù)據(jù)集)。這套體系不僅提供了精心挑選的多樣化數(shù)據(jù),還配備了能對(duì)接真實(shí)生產(chǎn)環(huán)境的測(cè)量框架,試圖為整個(gè)行業(yè)建立一套公平、可信的評(píng)測(cè)標(biāo)準(zhǔn)。

一、大模型"一個(gè)字一個(gè)字說話"的困境

要理解SPEED-Bench解決的問題,得先明白大模型推理究竟慢在哪里。可以把大型語(yǔ)言模型比作一本放在遠(yuǎn)處書架上的百科全書,每次你想知道下一個(gè)詞,圖書管理員就得跑到書架把這本厚重的書搬過來翻一下,然后再放回去,然后再跑過去翻下一個(gè)詞。這里最耗時(shí)間的不是翻書的動(dòng)作本身,而是"來回搬運(yùn)"這本大書的過程——在計(jì)算機(jī)術(shù)語(yǔ)里,這叫做從高帶寬內(nèi)存(HBM)到芯片緩存的數(shù)據(jù)搬運(yùn),是一種"內(nèi)存受限"的操作。

在只有一兩個(gè)用戶同時(shí)請(qǐng)求的低并發(fā)場(chǎng)景下,GPU的計(jì)算單元大部分時(shí)間都在等待數(shù)據(jù)搬運(yùn)完成,閑置得相當(dāng)厲害。推測(cè)解碼的核心思路,就是利用這些閑置的計(jì)算能力。具體做法是引入一個(gè)體量小得多的"草稿模型",讓它先快速猜出接下來可能的一批詞(比如一次猜3到7個(gè)),然后讓大模型一次性驗(yàn)證這批猜測(cè)是否正確。因?yàn)轵?yàn)證多個(gè)詞和驗(yàn)證一個(gè)詞在數(shù)據(jù)搬運(yùn)成本上相差無幾,所以一旦猜對(duì)了多個(gè),整體速度就會(huì)顯著提升。更關(guān)鍵的是,通過一種叫做"拒絕采樣"的數(shù)學(xué)機(jī)制,這個(gè)過程完全不會(huì)改變最終輸出的質(zhì)量,結(jié)果和大模型自己逐字生成的完全一致。

DeepSeek-R1、Qwen3-Next、NVIDIA的Nemotron-3、小米的MiMo-V2-Flash等前沿模型,已經(jīng)把這種多詞預(yù)測(cè)能力直接內(nèi)嵌進(jìn)了自己的架構(gòu)之中。

二、現(xiàn)有評(píng)測(cè)方法的三個(gè)致命傷

然而,一個(gè)技術(shù)再好,如果沒有靠譜的評(píng)測(cè)方法,研究人員就無法判斷它到底進(jìn)步了多少,也無法比較不同方法的優(yōu)劣。NVIDIA團(tuán)隊(duì)梳理了當(dāng)前SD評(píng)測(cè)領(lǐng)域的三大痛點(diǎn)。

第一個(gè)問題是數(shù)據(jù)不夠多樣。推測(cè)解碼的效果高度依賴于輸入文本的類型和復(fù)雜度——寫代碼的提示詞和寫詩(shī)的提示詞,對(duì)草稿模型來說難度天差地別。但現(xiàn)有研究常用的數(shù)據(jù)集,比如MT-Bench,每個(gè)類別只有10個(gè)樣本,而且這10個(gè)樣本彼此相似度極高,完全無法代表真實(shí)世界用戶的多樣需求。更有甚者,MT-Bench的多語(yǔ)言子集清一色都是"把德語(yǔ)翻譯成英語(yǔ)"這種模板式任務(wù),而在SPEED-Bench的對(duì)比分析中,這個(gè)類別被發(fā)現(xiàn)存在嚴(yán)重的代表性偏差。

第二個(gè)問題是評(píng)測(cè)環(huán)境脫離現(xiàn)實(shí)。許多論文用HuggingFace這類面向研究者的高層庫(kù)來測(cè)速度,但真實(shí)的生產(chǎn)部署環(huán)境用的是vLLM、TensorRT-LLM、SGLang這類經(jīng)過深度優(yōu)化的推理引擎,兩者的性能差異不可忽視。在研究環(huán)境里測(cè)出來的漂亮數(shù)字,到了真實(shí)部署里可能大打折扣。

第三個(gè)問題是只測(cè)單用戶場(chǎng)景。大量論文只報(bào)告批量大小為1(即一次只處理一個(gè)請(qǐng)求)的加速比,但真實(shí)的模型服務(wù)要同時(shí)應(yīng)對(duì)幾十甚至幾百個(gè)用戶的并發(fā)請(qǐng)求。隨著并發(fā)量增加,系統(tǒng)會(huì)從"內(nèi)存受限"轉(zhuǎn)向"計(jì)算受限",推測(cè)解碼的優(yōu)勢(shì)會(huì)迅速收縮,有時(shí)甚至?xí)兂韶?fù)擔(dān)。此外,現(xiàn)有數(shù)據(jù)集幾乎都是短文本,而當(dāng)今越來越多的應(yīng)用場(chǎng)景需要處理長(zhǎng)達(dá)數(shù)萬(wàn)詞的上下文,這個(gè)領(lǐng)域的評(píng)測(cè)幾乎是空白。

三、SPEED-Bench的核心設(shè)計(jì):兩套數(shù)據(jù)加一個(gè)測(cè)量框架

針對(duì)上述三個(gè)問題,SPEED-Bench提出了三位一體的解決方案。

首先是"質(zhì)量評(píng)估數(shù)據(jù)集"(Qualitative Split)。這套數(shù)據(jù)的核心任務(wù)是衡量草稿模型的預(yù)測(cè)準(zhǔn)確率,因此必須盡可能覆蓋各種不同類型的文本。研究團(tuán)隊(duì)從18個(gè)公開數(shù)據(jù)集中取材,劃分成11個(gè)大類:編程、數(shù)學(xué)、人文學(xué)科、自然科學(xué)、寫作、摘要、角色扮演、檢索增強(qiáng)問答、多語(yǔ)言、推理、問答。每個(gè)類別精選80個(gè)樣本,總計(jì)880個(gè)樣本。這個(gè)規(guī)??此撇淮螅總€(gè)樣本都經(jīng)過精心篩選,確保語(yǔ)義上盡可能不重復(fù)。與SpecBench相比,SPEED-Bench在多語(yǔ)言類別覆蓋了23種不同語(yǔ)言和多種任務(wù)類型,而不是只有德英翻譯;在編程類別涵蓋了Python、C++、Java、Go、JavaScript、Rust等多種語(yǔ)言;大約20%的樣本還包含多輪對(duì)話,最多五輪,遠(yuǎn)超SpecBench只有兩輪的限制。此外,每個(gè)樣本都附有難度標(biāo)簽和子類別標(biāo)簽,數(shù)學(xué)、編程、人文和自然科學(xué)類別中約80%的樣本屬于"困難"級(jí)別,且經(jīng)過驗(yàn)證,用GPT-4生成的回答平均長(zhǎng)度約650個(gè)詞,足以產(chǎn)生有意義的評(píng)測(cè)信號(hào)。

其次是"吞吐量評(píng)估數(shù)據(jù)集"(Throughput Split)。這套數(shù)據(jù)專門用于評(píng)測(cè)系統(tǒng)在不同負(fù)載下的實(shí)際速度表現(xiàn)。數(shù)據(jù)按照輸入長(zhǎng)度被劃分成5個(gè)固定桶:1千、2千、8千、1.6萬(wàn)、3.2萬(wàn)個(gè)詞元,每個(gè)桶里包含來自3個(gè)難度層次(低熵、混合熵、高熵)的各512個(gè)樣本,合計(jì)每個(gè)桶1536個(gè)樣本。"低熵"指的是結(jié)果比較確定、可預(yù)測(cè)的任務(wù),比如代碼排序;"高熵"指的是開放性強(qiáng)、創(chuàng)意成分多的任務(wù),比如自由寫作;"混合熵"則介于兩者之間,如自然科學(xué)問題。這種設(shè)計(jì)允許研究人員在現(xiàn)實(shí)負(fù)載下繪制出"吞吐量-延遲"的權(quán)衡曲線,直觀看出在什么并發(fā)條件下推測(cè)解碼是否有益。對(duì)于過短的樣本會(huì)用中性后綴"請(qǐng)現(xiàn)在作答"補(bǔ)齊,對(duì)于過長(zhǎng)的則截?cái)?,確保每個(gè)桶的輸入長(zhǎng)度完全統(tǒng)一。

第三個(gè)組件是統(tǒng)一測(cè)量框架。這個(gè)框架充當(dāng)一個(gè)"標(biāo)準(zhǔn)翻譯官",在把同一批數(shù)據(jù)送給不同推理引擎時(shí),確保每個(gè)引擎收到的詞元序列完全一致——所有分詞和格式化操作都在框架外部完成,繞過各引擎內(nèi)部可能不一致的預(yù)處理邏輯。框架通過異步事件循環(huán)同時(shí)發(fā)送大量并發(fā)請(qǐng)求,模擬真實(shí)的高并發(fā)服務(wù)場(chǎng)景,并通過分析引擎返回的流式響應(yīng)來計(jì)算接受率、接受長(zhǎng)度、首詞延遲、用戶每秒詞元數(shù)、整體吞吐量等關(guān)鍵指標(biāo)。目前原生支持TensorRT-LLM、vLLM、SGLang三大生產(chǎn)級(jí)引擎,以及面向研究社區(qū)的SpecBench接口。

四、"最大語(yǔ)義多樣性"的選樣算法

質(zhì)量評(píng)估數(shù)據(jù)集的880個(gè)樣本并非隨機(jī)抽取的,而是通過一套精心設(shè)計(jì)的算法篩選出來的。研究團(tuán)隊(duì)用OpenAI的文本嵌入模型把每個(gè)候選樣本轉(zhuǎn)換成一個(gè)高維數(shù)字向量,然后用余弦相似度來衡量任意兩個(gè)樣本之間的"語(yǔ)義距離"——距離越大,說明兩個(gè)樣本內(nèi)容差異越大。

選樣的目標(biāo)是找到一組樣本,使得它們兩兩之間的相似度之和最小,也就是讓整個(gè)子集盡可能地"散開",覆蓋語(yǔ)義空間的各個(gè)角落。這個(gè)優(yōu)化問題在數(shù)學(xué)上屬于NP難問題(意味著暴力窮舉計(jì)算量大到無法實(shí)現(xiàn)),于是研究團(tuán)隊(duì)采用了一種"貪心選擇加局部交換"的啟發(fā)式算法:先隨機(jī)選一個(gè)起點(diǎn),然后每次加入與當(dāng)前集合相似度最低的那個(gè)候選樣本;初步選完后,反復(fù)嘗試將集合內(nèi)的某個(gè)樣本換成集合外的某個(gè)樣本,只要這次交換能降低總相似度就執(zhí)行,直到無法繼續(xù)優(yōu)化為止。

實(shí)測(cè)結(jié)果相當(dāng)令人信服:與SpecBench相比,SPEED-Bench的平均樣本間相似度降低了40%,在多語(yǔ)言類別降低了整整83%。更有趣的是,即使對(duì)同樣的候選數(shù)據(jù)集做隨機(jī)抽樣,效果也普遍優(yōu)于SpecBench——這說明SPEED-Bench數(shù)據(jù)來源本身的質(zhì)量就更高,而優(yōu)化算法又在此基礎(chǔ)上進(jìn)一步挖掘了多樣性。團(tuán)隊(duì)還嘗試了一種基于二次規(guī)劃的數(shù)學(xué)近似算法,結(jié)果表明貪心算法得到的多樣性分?jǐn)?shù)與之相當(dāng),但速度更快、可擴(kuò)展性更好。

五、合成數(shù)據(jù)的陷阱:隨機(jī)詞元為何會(huì)欺騙你

在講述實(shí)驗(yàn)發(fā)現(xiàn)之前,有必要先說一個(gè)業(yè)界常見的壞習(xí)慣,以及SPEED-Bench如何揭示了它的危害。

工業(yè)界評(píng)測(cè)推理吞吐量時(shí),有人會(huì)圖省事,用隨機(jī)生成的詞元序列來充當(dāng)測(cè)試輸入,省去收集真實(shí)數(shù)據(jù)的麻煩。但SPEED-Bench的研究表明,這種做法對(duì)于推測(cè)解碼評(píng)測(cè)來說是根本錯(cuò)誤的。

隨機(jī)詞元輸入會(huì)觸發(fā)兩種截然相反的模型行為,都會(huì)扭曲評(píng)測(cè)結(jié)果。第一種是"平凡響應(yīng)":模型識(shí)別出輸入是亂碼,然后輸出一段通用的"我看不懂你說什么,能否說清楚一點(diǎn)"之類的套話。因?yàn)椴莞迥P鸵埠苋菀撞碌竭@種模板式回應(yīng),所以接受率會(huì)被人為抬高。論文舉了一個(gè)實(shí)例,用隨機(jī)輸入測(cè)試GPT-OSS 120B配合EAGLE3草稿模型時(shí),平均接受長(zhǎng)度高達(dá)3.44,模型回答是"看起來您粘貼了一段混合語(yǔ)言文本,我需要更多信息……"第二種是"話題鎖定":隨機(jī)詞元中偶爾出現(xiàn)的某個(gè)詞讓模型抓住了一個(gè)話題,開始天馬行空地?cái)U(kuò)展。論文另一個(gè)實(shí)例中,模型看到隨機(jī)輸入后扯到了Unity游戲引擎,洋洋灑灑地開始講制作2D平臺(tái)游戲的教程,但此時(shí)草稿模型跟不上這種任意跳躍的思路,接受長(zhǎng)度只有1.877,遠(yuǎn)低于正常水平。

除了影響推測(cè)解碼,隨機(jī)詞元對(duì)混合專家(MoE)架構(gòu)模型的基礎(chǔ)性能評(píng)測(cè)也會(huì)造成扭曲。MoE模型每次只激活一部分"專家"子網(wǎng)絡(luò),由路由器根據(jù)輸入內(nèi)容決定激活哪些。隨機(jī)詞元會(huì)讓路由器"崩潰"到少數(shù)幾個(gè)專家上,違背負(fù)載均衡假設(shè),導(dǎo)致步驟延遲測(cè)量失真。實(shí)驗(yàn)數(shù)據(jù)顯示,GPT-OSS 120B在處理8千詞元長(zhǎng)度、批量32的輸入時(shí),隨機(jī)詞元會(huì)導(dǎo)致某些層有20%到30%的專家根本不被激活,而SPEED-Bench的真實(shí)數(shù)據(jù)則產(chǎn)生接近均勻的專家激活分布。正因如此,開啟推測(cè)解碼后,隨機(jī)數(shù)據(jù)測(cè)出的吞吐量平均比SPEED-Bench真實(shí)數(shù)據(jù)高出23%,是嚴(yán)重的高估。

六、主要實(shí)驗(yàn)發(fā)現(xiàn):從接受率到跨引擎性能

研究團(tuán)隊(duì)用SPEED-Bench對(duì)多個(gè)前沿模型和SD方法進(jìn)行了系統(tǒng)評(píng)測(cè),包括Llama 3.3 70B、GPT-OSS 120B、Qwen3 235B、Qwen3-Next和DeepSeek R1,以及N-Gram、Vanilla SD(外部草稿模型)、EAGLE3和原生MTP四種SD方案。所有質(zhì)量評(píng)測(cè)均使用批量大小32,草稿長(zhǎng)度3,運(yùn)行環(huán)境為單塊NVIDIA B200 GPU(DeepSeek和Qwen模型使用8塊)。

從質(zhì)量評(píng)估數(shù)據(jù)集的結(jié)果來看,不同類別之間的接受長(zhǎng)度差異相當(dāng)顯著,與直覺相符:編程和數(shù)學(xué)等"低熵"任務(wù)的接受長(zhǎng)度最高,而角色扮演等"高熵"任務(wù)最低。以Llama 3.3 70B配合EAGLE3為例,編程類的平均接受長(zhǎng)度達(dá)到3.00,而角色扮演只有2.04。N-Gram方案在批量32的條件下出現(xiàn)了凈減速(加速比低于1),說明在這種并發(fā)水平下驗(yàn)證成本已經(jīng)超過了收益。Vanilla SD(外部小模型)在某些配置下速度低于EAGLE3,盡管接受長(zhǎng)度相近,原因在于運(yùn)行獨(dú)立草稿模型本身有額外開銷。

原生MTP方案(Qwen3-Next)表現(xiàn)出色,在草稿長(zhǎng)度3時(shí)接受長(zhǎng)度達(dá)2.81,顯著高于同模型的EAGLE3方案(2.36)。更有意思的是隨草稿長(zhǎng)度增加的趨勢(shì):Qwen3-Next的MTP接受率隨草稿長(zhǎng)度延長(zhǎng)依然保持高位,而EAGLE3在草稿長(zhǎng)度超過5之后會(huì)出現(xiàn)比較明顯的精度衰退。研究團(tuán)隊(duì)將此歸結(jié)為預(yù)訓(xùn)練集成的多詞預(yù)測(cè)與后訓(xùn)練附加的推測(cè)頭在長(zhǎng)推測(cè)鏈上的根本性差異——預(yù)訓(xùn)練的方式顯然更有優(yōu)勢(shì)。Vanilla SD(外部模型)也表現(xiàn)出比EAGLE3更好的長(zhǎng)草稿鏈穩(wěn)定性,盡管其單步開銷更大。

在吞吐量評(píng)估數(shù)據(jù)集上,不同熵類別的接受長(zhǎng)度走勢(shì)與預(yù)期一致:低熵任務(wù)始終最高,高熵任務(wù)最低,混合熵居中。不過GPT-OSS 120B配合EAGLE3出現(xiàn)了一個(gè)有趣的異常:在短上下文(1千詞元)時(shí)低熵類別表現(xiàn)最好,但隨著輸入長(zhǎng)度增加,低熵類別的接受長(zhǎng)度急劇下滑,甚至跌至混合熵以下。研究團(tuán)隊(duì)將此歸因于該EAGLE3草稿模型的訓(xùn)練數(shù)據(jù)來源——主要是UltraChat和Magpie數(shù)據(jù)集,其中編程內(nèi)容極少,自然在代碼排序這類低熵任務(wù)上缺乏適應(yīng)性。

關(guān)于最優(yōu)草稿長(zhǎng)度隨批量大小的變化,實(shí)驗(yàn)結(jié)果非常直觀:在低批量(系統(tǒng)處于內(nèi)存受限狀態(tài))時(shí),更長(zhǎng)的草稿鏈更有優(yōu)勢(shì),比如草稿長(zhǎng)度3明顯優(yōu)于草稿長(zhǎng)度1;但隨著批量增大到128甚至更高,系統(tǒng)逐漸進(jìn)入計(jì)算受限狀態(tài),驗(yàn)證多個(gè)草稿詞元的額外計(jì)算成本開始?jí)哼^收益,草稿長(zhǎng)度1反而更高效。SPEED-Bench通過吞吐量-延遲曲線幫助工程師找到這個(gè)"交叉點(diǎn)",從而為自己的實(shí)際部署場(chǎng)景選擇合適的草稿長(zhǎng)度。

關(guān)于推理引擎之間的差異,TensorRT-LLM在峰值吞吐量上優(yōu)于vLLM,主要原因是TensorRT-LLM支持"單模型運(yùn)行時(shí)"模式——將草稿頭直接附加到目標(biāo)模型上,用一個(gè)統(tǒng)一的CUDA計(jì)算圖捕獲整個(gè)草稿-驗(yàn)證循環(huán),大幅減少了主機(jī)端的調(diào)度開銷。vLLM采用"雙模型"方式,草稿模型作為獨(dú)立引擎運(yùn)行,兩者之間的通信會(huì)引入額外延遲,盡管異步調(diào)度機(jī)制能部分掩蓋這種開銷。不過vLLM的分段式圖構(gòu)建在需要?jiǎng)討B(tài)調(diào)整草稿策略時(shí)有更大的靈活性。

七、詞匯表裁剪:優(yōu)化手段的雙刃劍

EAGLE3為了降低計(jì)算瓶頸,采用了一種"詞匯表裁剪"技術(shù):從完整的詞匯表(可能有十幾萬(wàn)個(gè)詞元)中只保留最高頻的3.2萬(wàn)個(gè),用這個(gè)縮減版詞匯表來預(yù)測(cè)草稿詞元,從而大幅減少最后投影層的計(jì)算量。這個(gè)做法在標(biāo)準(zhǔn)輸入上效果不錯(cuò),但SPEED-Bench的多樣性評(píng)測(cè)揭示了它隱藏的代價(jià)。

研究團(tuán)隊(duì)分析了GPT-OSS 120B用貪心采樣生成的輸出中,有多少詞元落在不同大小的裁剪詞匯表之外。結(jié)果顯示:在使用3.2萬(wàn)詞匯表時(shí),整體覆蓋率達(dá)到94.7%,看上去還不錯(cuò);但在多語(yǔ)言類別上,覆蓋率只有76.9%,意味著每4個(gè)目標(biāo)詞元就有1個(gè)不在詞匯表里,草稿模型根本無法預(yù)測(cè)這些詞元,接受率必然大幅下滑。實(shí)測(cè)接受長(zhǎng)度數(shù)據(jù)印證了這一點(diǎn):與使用完整詞匯表相比,數(shù)學(xué)類別的接受長(zhǎng)度下降了2.28%,編程類別下降了2.94%,寫作類別基本持平(下降0.65%),而RAG(檢索增強(qiáng)問答)下降了10.05%,摘要類別下降了9.51%,多語(yǔ)言類別下降了10.22%,平均下降5.53%。

這個(gè)發(fā)現(xiàn)表明,如果只在編程和數(shù)學(xué)任務(wù)上評(píng)測(cè),詞匯表裁剪幾乎沒有感知成本;但一旦部署到多語(yǔ)言客服、文檔摘要等場(chǎng)景,性能損失就會(huì)相當(dāng)顯著。SPEED-Bench的寬覆蓋評(píng)測(cè)正是為了把這類"長(zhǎng)尾失效"暴露出來。

八、從SpecBench到SPEED-Bench:一個(gè)具體的案例對(duì)比

為了直觀展示評(píng)測(cè)數(shù)據(jù)集多樣性的重要性,研究團(tuán)隊(duì)做了一個(gè)對(duì)比實(shí)驗(yàn):用SpecBench和SPEED-Bench分別評(píng)測(cè)Llama 3.3 70B上的EAGLE3和Vanilla SD,草稿長(zhǎng)度設(shè)為7。

在SpecBench的編程類別(只有10個(gè)樣本)上,EAGLE3和Vanilla SD的接受長(zhǎng)度非常接近,看起來兩者水平相當(dāng)。但切換到SPEED-Bench的編程類別(80個(gè)語(yǔ)義多樣的樣本)后,Vanilla SD的接受長(zhǎng)度明顯高于EAGLE3,符合外部模型在長(zhǎng)草稿鏈上更穩(wěn)定的預(yù)期。

多語(yǔ)言類別的差距更為戲劇性。SpecBench的多語(yǔ)言子集全部是德英翻譯,在這種高度同質(zhì)的任務(wù)上,兩種方法差距不大。但SPEED-Bench的多語(yǔ)言子集覆蓋23種語(yǔ)言和多種任務(wù)類型,在這里Vanilla SD展現(xiàn)出了對(duì)EAGLE3相當(dāng)顯著的優(yōu)勢(shì)。這一結(jié)果與詞匯表裁剪分析相互印證:EAGLE3在詞匯表外詞元比例高的語(yǔ)言上表現(xiàn)更差,而SpecBench的兩種語(yǔ)言根本無法暴露這個(gè)問題。這也正是SPEED-Bench多語(yǔ)言選樣算法取得最高多樣性提升(語(yǔ)義相似度降低83%)的類別——多樣性最高的地方,也是最能區(qū)分方法優(yōu)劣的地方。

九、訓(xùn)練上下文長(zhǎng)度對(duì)草稿模型的影響

吞吐量數(shù)據(jù)集的另一項(xiàng)重要應(yīng)用,是評(píng)測(cè)草稿模型在超出其訓(xùn)練上下文長(zhǎng)度時(shí)的性能穩(wěn)定性。研究團(tuán)隊(duì)專門訓(xùn)練了多個(gè)不同訓(xùn)練序列長(zhǎng)度(1千、2千、4千詞元)的GPT-OSS 120B EAGLE3草稿模型,并在SPEED-Bench的全部5個(gè)上下文長(zhǎng)度桶上評(píng)測(cè)。

結(jié)論是清晰的:一旦推理時(shí)的輸入長(zhǎng)度超過訓(xùn)練時(shí)的最大長(zhǎng)度,接受率就會(huì)迅速崩潰。以1千詞元訓(xùn)練的模型在4千詞元輸入時(shí)接受率已經(jīng)大幅下滑,在1.6萬(wàn)詞元時(shí)幾乎接近基線。不過,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)相對(duì)簡(jiǎn)單的補(bǔ)救措施:在推理時(shí)應(yīng)用YaRN位置編碼縮放技術(shù),即使對(duì)訓(xùn)練序列只有1千詞元的模型,也能在長(zhǎng)上下文下顯著恢復(fù)接受率。用2千詞元訓(xùn)練、配合YaRN縮放的模型,甚至能在3.2萬(wàn)詞元輸入上維持接近合理的性能。

這對(duì)實(shí)踐者的指導(dǎo)意義很直接:如果你部署的應(yīng)用場(chǎng)景涉及長(zhǎng)文本處理,草稿模型的訓(xùn)練序列長(zhǎng)度必須足夠,并且推理配置中要正確設(shè)置位置編碼縮放,否則實(shí)際效果會(huì)與短文本測(cè)試結(jié)果天差地別。研究團(tuán)隊(duì)還順帶檢查了HuggingFace上兩個(gè)公開EAGLE3模型在長(zhǎng)上下文下的表現(xiàn),發(fā)現(xiàn)都存在明顯的接受率衰退,并分析了可能的原因——其中一個(gè)模型可能位置編碼配置與實(shí)際訓(xùn)練長(zhǎng)度不一致。

說到底,SPEED-Bench這項(xiàng)工作解決的不是一個(gè)花哨的新算法問題,而是一個(gè)更基礎(chǔ)卻常被忽視的問題:如何可信地評(píng)測(cè)已有算法。推測(cè)解碼技術(shù)本身已經(jīng)相當(dāng)成熟,但評(píng)測(cè)方法的混亂讓研究人員無法準(zhǔn)確判斷進(jìn)步的真實(shí)幅度,也讓工程師無法放心地在生產(chǎn)環(huán)境中選擇合適的方案。

NVIDIA團(tuán)隊(duì)通過這項(xiàng)工作揭示了若干在傳統(tǒng)評(píng)測(cè)中看不見的現(xiàn)象:合成數(shù)據(jù)會(huì)系統(tǒng)性高估23%的吞吐量;詞匯表裁剪在多語(yǔ)言場(chǎng)景下會(huì)帶來10%以上的接受率損失;最優(yōu)草稿長(zhǎng)度會(huì)隨并發(fā)量變化發(fā)生質(zhì)的躍遷;訓(xùn)練上下文長(zhǎng)度不足會(huì)在長(zhǎng)文本場(chǎng)景下造成草稿模型的"斷崖式"失效,而YaRN縮放是一個(gè)值得嘗試的低成本緩解手段。

這對(duì)普通用戶意味著什么?歸根結(jié)底,更好的評(píng)測(cè)標(biāo)準(zhǔn)會(huì)推動(dòng)更可靠的技術(shù)進(jìn)步,最終讓每次與AI對(duì)話的等待時(shí)間更短、響應(yīng)更流暢。有深度興趣的讀者可以通過arXiv編號(hào)2604.09557查閱完整論文,或訪問HuggingFace上的SPEED-Bench數(shù)據(jù)集頁(yè)面直接體驗(yàn)這套評(píng)測(cè)工具。

Q&A

Q1:推測(cè)解碼(Speculative Decoding)是什么原理,為什么能加速大模型?

A:推測(cè)解碼利用一個(gè)體量小得多的"草稿模型"先快速猜出接下來可能出現(xiàn)的若干詞,然后讓大模型一次性驗(yàn)證這批猜測(cè)。由于驗(yàn)證多個(gè)詞和驗(yàn)證一個(gè)詞的內(nèi)存搬運(yùn)成本相差不大,猜對(duì)了就相當(dāng)于"一步走了多步",整體速度明顯提升。通過拒絕采樣機(jī)制,這個(gè)過程不改變輸出質(zhì)量,結(jié)果與大模型逐字生成完全一致。

Q2:SPEED-Bench和SpecBench相比有哪些具體改進(jìn)?

A:SPEED-Bench在多個(gè)維度上超越了SpecBench。數(shù)據(jù)量方面,每類別80個(gè)樣本對(duì)比SpecBench的10個(gè);數(shù)據(jù)來源方面,24個(gè)數(shù)據(jù)集對(duì)比5個(gè);語(yǔ)義多樣性上平均相似度降低40%,多語(yǔ)言類別降低83%;多語(yǔ)言覆蓋23種語(yǔ)言和多種任務(wù),而非只有德英翻譯;還新增了最長(zhǎng)3.2萬(wàn)詞元的長(zhǎng)上下文評(píng)測(cè)和大批量并發(fā)吞吐量測(cè)試,這些在SpecBench中完全沒有。

Q3:詞匯表裁剪對(duì)EAGLE3在不同任務(wù)上的影響有多大?

A:影響差異很大。在數(shù)學(xué)和編程任務(wù)上,接受長(zhǎng)度下降只有2%到3%,基本可以忽略;但在多語(yǔ)言、檢索增強(qiáng)問答和摘要類任務(wù)上,接受長(zhǎng)度下降高達(dá)10%左右,原因是這些類別中約22%的目標(biāo)詞元不在裁剪后的3.2萬(wàn)詞匯表內(nèi),草稿模型根本無法預(yù)測(cè)。這說明詞匯表裁剪在單一領(lǐng)域評(píng)測(cè)中看起來無害,但在真實(shí)多樣化部署場(chǎng)景中代價(jià)不小。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對(duì)秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來審美點(diǎn)上

態(tài)度原創(chuàng)

親子
本地
時(shí)尚
教育
公開課

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

本地新聞

用青花瓷的方式,打開西溪濕地

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版