国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

0
分享至

機器之心編輯部


在大語言模型推理領(lǐng)域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標(biāo)準(zhǔn)配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。

近日,來自斯坦福、普林斯頓大學(xué)和 Together AI 的研究團隊提出SSD 框架及其優(yōu)化算法 SAGUARO,成功實現(xiàn)了草擬和驗證的并行化。



  • 論文鏈接:https://arxiv.org/pdf/2603.03251
  • GitHub 鏈接:https://github.com/tanishqkumar/ssd

據(jù)介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。



「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統(tǒng)的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。

而在 SSD 中,這兩個過程是并行發(fā)生的,完全消除了運行小模型的開銷。



并行執(zhí)行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內(nèi)容。在 SSD 中,研究者預(yù)先設(shè)定驗證結(jié)果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結(jié)果出現(xiàn),推測就能立即生效。

雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現(xiàn)代推理引擎中各種優(yōu)化技術(shù)(Paged Attention、Prefix Caching、CUDAGraphs 等)協(xié)同工作上。

作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠(yuǎn)遠(yuǎn)超過了我的預(yù)期」。



要使新算法達到 SOTA 水平,需要精心設(shè)計系統(tǒng)和算法??偟膩碚f,SSD 推動了延遲 - 吞吐量帕累托前沿的發(fā)展,其方式與普通推測解碼推進標(biāo)準(zhǔn)自回歸算法的發(fā)展非常相似。



Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關(guān)注的一個人工智能工作負(fù)載是超長時域推理。想象一下,一個擁有大量 B200 的數(shù)據(jù)中心完全用于運行一個模型,該模型需要處理數(shù)十億個 token 來證明 P 與 NP 的區(qū)別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」



SSD 如何實現(xiàn)草擬與驗證并行?

現(xiàn)代 AI 對推理速度有著極高的要求。然而,標(biāo)準(zhǔn)的語言模型解碼是按順序生成單個 token,未能利用現(xiàn)代硬件上可用的大規(guī)模并行計算。

推測性解碼(SD)是一種為了解決這個問題而引入的技術(shù)。它使用一個快速的「草擬模型」來預(yù)測目標(biāo)模型可能將生成的下幾個 token,而不是從目標(biāo)模型中進行緩慢的自回歸采樣,然后通過目標(biāo)模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標(biāo)模型的分布中采樣的。

在每次驗證中,目標(biāo)模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當(dāng)前驗證完成后,才能開始下一輪推測。

那么,我們能否消除草擬和驗證之間的順序依賴呢?

研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統(tǒng)一框架。

在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預(yù)測最可能的驗證結(jié)果,并在驗證進行的同時,針對所有可能的結(jié)果進行并行的提前推測。如果這些預(yù)準(zhǔn)備的結(jié)果中的任何一個發(fā)生,草擬模型可以立即將預(yù)推測的 token 發(fā)送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標(biāo)模型不同的硬件上。

優(yōu)化 SSD 算法主要面臨三大挑戰(zhàn)。

首先,草擬模型必須準(zhǔn)確預(yù)測驗證結(jié)果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預(yù)測驗證結(jié)果的能力之間存在微妙的權(quán)衡,必須謹(jǐn)慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預(yù)測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預(yù)測失敗會頻繁發(fā)生,若處理不當(dāng),即時補救的開銷將抵消異步帶來的收益。

為此,他們推出了Saguaro,這是一個優(yōu)化的 SSD 算法,針對上述挑戰(zhàn)進行了定向優(yōu)化。

  • 將預(yù)測驗證結(jié)果的問題轉(zhuǎn)化為約束優(yōu)化問題,并引入了一種技術(shù),利用最可能的草擬 logits 來預(yù)測獎勵 token,準(zhǔn)確率最高可達 90%。
  • 識別了預(yù)測準(zhǔn)確性與生成高質(zhì)量推測之間的張力,并開發(fā)了一種能夠平衡二者的采樣算法。
  • 探討了處理預(yù)測失敗的多種策略,發(fā)現(xiàn)最優(yōu)回退策略隨批處理大小而異。通過采用這些優(yōu)化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結(jié)果),其表現(xiàn)仍比標(biāo)準(zhǔn) SD 高出 20%。

總的來看,Saguaro 相比優(yōu)化的推測性解碼實現(xiàn)了高達 2 倍的加速,相比自回歸生成實現(xiàn)了高達 5 倍的加速,并在各種批處理規(guī)模下均顯著提升了吞吐量與延遲的帕累托前沿。

不過,該領(lǐng)域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術(shù)以及token-tree推測(Token-tree speculation)相結(jié)合,但這種聯(lián)合設(shè)計及其權(quán)衡空間在很大程度上尚未被發(fā)掘。

此外,通過擴展草擬設(shè)備的數(shù)量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標(biāo)模型部署共享推測端點——類似于預(yù)填充-解碼分解)——是另一個自然的研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
從巴西主力到中國聯(lián)賽水貨,只用了3年時間,大羅前隊友盛名難副

從巴西主力到中國聯(lián)賽水貨,只用了3年時間,大羅前隊友盛名難副

足籃大世界
2026-04-01 16:53:17
比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
巴圖姆:開賽21勝6負(fù)后盧調(diào)整了70%的戰(zhàn)術(shù),將一切推倒重來

巴圖姆:開賽21勝6負(fù)后盧調(diào)整了70%的戰(zhàn)術(shù),將一切推倒重來

林子說事
2026-04-01 12:45:47
一個能破解任何復(fù)雜問題的頂級思維

一個能破解任何復(fù)雜問題的頂級思維

德魯克博雅管理
2026-04-01 17:03:10
羅永浩力挺楊笠遭"精準(zhǔn)打擊",直播間被下單后發(fā)貨再退款

羅永浩力挺楊笠遭"精準(zhǔn)打擊",直播間被下單后發(fā)貨再退款

戧詞奪理
2026-04-01 11:14:44
CBA男籃動態(tài)更新!遼寧87-75新疆,賽后遼寧隊迎來三個消息以及一個壞消息,趙繼偉持續(xù)低迷

CBA男籃動態(tài)更新!遼寧87-75新疆,賽后遼寧隊迎來三個消息以及一個壞消息,趙繼偉持續(xù)低迷

凱豐侃球
2026-04-02 00:18:14
上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

讀懂世界歷史
2025-11-23 11:18:04
小眼睛歌手威脅又能怎

小眼睛歌手威脅又能怎

毒舌扒姨太
2026-04-01 22:36:21
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

燦若銀爛
2026-02-27 20:11:39
國民黨有兩個黨主席:一個地上,一個地下

國民黨有兩個黨主席:一個地上,一個地下

雪中風(fēng)車
2026-02-26 08:36:13
靜安新城,終于跌到大家不愿自我安慰了

靜安新城,終于跌到大家不愿自我安慰了

靚仔情感
2026-04-01 12:22:16
“以軍瀕臨崩潰”,內(nèi)塔尼亞胡還能打多久?| 京釀館

“以軍瀕臨崩潰”,內(nèi)塔尼亞胡還能打多久?| 京釀館

新京報評論
2026-03-29 19:05:41
美論壇:一旦美國突破中國的海上防御,入侵其陸地,中國該如何?

美論壇:一旦美國突破中國的海上防御,入侵其陸地,中國該如何?

Ck的蜜糖
2026-04-02 00:12:16
庫班曝猛料:基德深度參與決策送走東契奇,與濃眉私交很好

庫班曝猛料:基德深度參與決策送走東契奇,與濃眉私交很好

夜白侃球
2026-04-01 16:48:04
退休教師夫婦從16樓跳下,賬戶流水500萬,遺言:活著沒意思

退休教師夫婦從16樓跳下,賬戶流水500萬,遺言:活著沒意思

黃家湖的憂傷
2025-04-17 16:57:27
單依純風(fēng)波升級,官媒出手給她指了條明路,汪峰的話確實沒說錯

單依純風(fēng)波升級,官媒出手給她指了條明路,汪峰的話確實沒說錯

史鹷的生活科普
2026-03-31 22:01:51
單依純的舅舅是天龍人???

單依純的舅舅是天龍人?。?/a>

八卦瘋叔
2026-03-31 10:49:19
山東男籃逆轉(zhuǎn)福建,高詩巖被驅(qū)逐出場 郭凱7中7 新外援24+7高效

山東男籃逆轉(zhuǎn)福建,高詩巖被驅(qū)逐出場 郭凱7中7 新外援24+7高效

替補席看球
2026-04-01 21:47:35
長島華人夫婦憑空消失一整年 FBI查懵 280萬被偷 孩子滯留國內(nèi)房快沒

長島華人夫婦憑空消失一整年 FBI查懵 280萬被偷 孩子滯留國內(nèi)房快沒

小虎新車推薦員
2026-04-02 04:35:09
打!賠光1770億也要打?以色列最新民調(diào):75%民眾要求打到底

打!賠光1770億也要打?以色列最新民調(diào):75%民眾要求打到底

梁訊
2026-03-29 14:09:20
2026-04-02 05:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12657文章數(shù) 142602關(guān)注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團隊僅留3人

頭條要聞

特朗普計劃奪取伊朗濃縮鈾:空運挖掘設(shè)備 修建飛機跑道

頭條要聞

特朗普計劃奪取伊朗濃縮鈾:空運挖掘設(shè)備 修建飛機跑道

體育要聞

NBA擴軍,和籃球無關(guān)?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經(jīng)要聞

電商售械三水光針 機構(gòu)倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態(tài)度原創(chuàng)

教育
時尚
本地
旅游
家居

教育要聞

省政府:對就業(yè)質(zhì)量不好的專業(yè),落實紅黃牌提示制度

襯衫當(dāng)外套,好時髦

本地新聞

從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

旅游要聞

瞰中國|河北徐水:春色滿園 踏青賞花

家居要聞

經(jīng)典配色 晝色銀河

無障礙瀏覽 進入關(guān)懷版