国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多Token預(yù)測技術(shù)將大語言模型推理速度提升三倍

0
分享至


對于部署智能體AI系統(tǒng)的IT領(lǐng)導(dǎo)者而言,高推理延遲和不斷攀升的GPU成本已成為主要瓶頸。這些工作流程每次查詢通常需要生成數(shù)千個Token,造成了當(dāng)前硬件難以彌合的性能差距。

來自馬里蘭大學(xué)、勞倫斯利弗莫爾國家實(shí)驗(yàn)室、哥倫比亞大學(xué)和TogetherAI的研究人員表示,他們可以通過對預(yù)訓(xùn)練模型進(jìn)行微調(diào),將加速能力嵌入到模型權(quán)重中,從而在推理基準(zhǔn)測試中實(shí)現(xiàn)三倍的推理速度提升,無需投機(jī)解碼或輔助草稿模型。

在本月發(fā)表的一篇論文中,研究團(tuán)隊(duì)描述了一種多Token預(yù)測技術(shù),該技術(shù)通過特殊的掩碼Token和在線自蒸餾目標(biāo),將標(biāo)準(zhǔn)的下一Token模型轉(zhuǎn)換為并行解碼器。

基準(zhǔn)測試結(jié)果顯示,該方法在準(zhǔn)確率損失極小的情況下實(shí)現(xiàn)了超過3倍的加速,這種權(quán)衡對于在生產(chǎn)AI系統(tǒng)中努力平衡成本和模型質(zhì)量的企業(yè)具有吸引力。

據(jù)報(bào)道,最終模型保持了與預(yù)訓(xùn)練初始檢查點(diǎn)相同的實(shí)現(xiàn)方式,可在不添加任何輔助驗(yàn)證器或其他專門推理代碼的情況下部署。

傳統(tǒng)架構(gòu)的局限性

傳統(tǒng)大語言模型每次前向傳遞生成一個Token,這種設(shè)計(jì)本身就限制了吞吐量。對于推理模型而言,這種串行瓶頸尤其成問題,因?yàn)榧词故呛喍痰淖罱K回答,在"思維鏈"過程中也會生成數(shù)千個Token。一次傳遞生成多個Token可以減少延遲和成本。

為確保連貫性,研究人員采用了學(xué)生-教師設(shè)置。使用動物園管理員的類比,他們指出,獨(dú)立預(yù)測多個詞的模型可能會無意義地輸出動物園管理員給"熊貓喂肉"。教師模型評估這些多Token片段,確保它們在一起有意義。

研究人員在論文中表示:"我們提出了一種受強(qiáng)化學(xué)習(xí)啟發(fā)的訓(xùn)練范式,學(xué)生模型生成同時(shí)Token預(yù)測的片段。為了避免標(biāo)準(zhǔn)離線目標(biāo)的陷阱,學(xué)生輸出由大語言模型評判者/教師評分,而不是與已知的真實(shí)Token序列對比評分。"

他們補(bǔ)充道:"通過將學(xué)生的預(yù)測與教師提出的下一Token建議進(jìn)行比較,我們產(chǎn)生了一個策略內(nèi)獎勵信號,使學(xué)生能夠快速提高其多Token預(yù)測的質(zhì)量。"

技術(shù)實(shí)現(xiàn)與性能表現(xiàn)

在推理時(shí),系統(tǒng)使用置信度自適應(yīng)(ConfAdapt)解碼策略,動態(tài)確定每次傳遞發(fā)出多少個Token。當(dāng)模型高度自信時(shí),它輸出更大的塊。當(dāng)不確定性增加時(shí),它回退到較小的步驟,在保持速度增益的同時(shí)保持準(zhǔn)確性。

在GSM8K數(shù)學(xué)推理基準(zhǔn)測試實(shí)驗(yàn)中,80億參數(shù)模型在準(zhǔn)確率下降不到3%的情況下實(shí)現(xiàn)了超過3倍的加速。較小的40億參數(shù)模型達(dá)到了類似的加速,盡管準(zhǔn)確率下降了7%。更激進(jìn)的配置將加速推至5倍,但準(zhǔn)確率成本更高。

與需要輔助推測模型和專門推理管道的投機(jī)解碼不同,該方法訓(xùn)練單個模型,保持與原始檢查點(diǎn)相同的實(shí)現(xiàn)方式,無需輔助驗(yàn)證器。

市場分析與應(yīng)用前景

分析師表示,更大的問題是這種方法是否會有意義地改變生產(chǎn)環(huán)境中推理堆棧的設(shè)計(jì)方式。

Greyhound Research首席分析師Sanchit Vir Gogia表示:"投機(jī)解碼試圖通過引入提出Token的草稿模型和驗(yàn)證它們的目標(biāo)模型來打破這種約束。理論上,這產(chǎn)生無損加速。實(shí)際上,驗(yàn)證成本、批處理交互和草稿-目標(biāo)漂移減少了實(shí)際收益。"

相比之下,他說,多Token方法保留了自回歸骨架,但將優(yōu)化轉(zhuǎn)移到訓(xùn)練階段。

"經(jīng)濟(jì)影響取決于輸出的熵分布,"Gogia說。"在推理密集型或結(jié)構(gòu)化任務(wù)中,可預(yù)測片段可以以較大塊發(fā)出,降級有限。在高熵、開放式生成中,加速收縮。這是選擇性壓縮,不是通用速度。"

這種區(qū)別對企業(yè)部署很重要。Gogia表示:"ConfAdapt從根本上是熵敏感的。其戰(zhàn)略優(yōu)勢在具有結(jié)構(gòu)化支架、確定性語言段和受人類監(jiān)督的咨詢輸出特征的工作負(fù)載中最大化。"

Gogia說,企業(yè)應(yīng)該將該技術(shù)視為校準(zhǔn)的效率杠桿,而不是通用加速開關(guān)。

Q&A

Q1:多Token預(yù)測技術(shù)是什么?它如何提升大語言模型的推理速度?

A:多Token預(yù)測技術(shù)是一種將標(biāo)準(zhǔn)的下一Token模型轉(zhuǎn)換為并行解碼器的方法,通過特殊的掩碼Token和在線自蒸餾目標(biāo)實(shí)現(xiàn)。它讓模型在一次前向傳遞中生成多個Token,而不是傳統(tǒng)的每次只生成一個Token,從而大幅提升推理速度,在基準(zhǔn)測試中可實(shí)現(xiàn)超過3倍的加速。

Q2:這種技術(shù)相比投機(jī)解碼有什么優(yōu)勢?

A:與投機(jī)解碼不同,多Token預(yù)測技術(shù)無需輔助推測模型和專門的推理管道,只需訓(xùn)練單個模型就能實(shí)現(xiàn)加速。該方法保持與原始檢查點(diǎn)相同的實(shí)現(xiàn)方式,無需添加輔助驗(yàn)證器或其他專門推理代碼,部署更簡單。

Q3:ConfAdapt解碼策略是如何工作的?

A:ConfAdapt是置信度自適應(yīng)解碼策略,能動態(tài)確定每次傳遞發(fā)出多少個Token。當(dāng)模型高度自信時(shí),它輸出更大的Token塊;當(dāng)不確定性增加時(shí),它回退到較小的步驟。這種策略在保持速度增益的同時(shí)保持準(zhǔn)確性,特別適合結(jié)構(gòu)化任務(wù)和推理密集型工作負(fù)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
難以接受!國際籃聯(lián)道歉真實(shí)原因曝光,3名裁判逃過處罰?

難以接受!國際籃聯(lián)道歉真實(shí)原因曝光,3名裁判逃過處罰?

何老師呀
2026-02-28 10:43:13
國際籃聯(lián)向中國隊(duì)道歉

國際籃聯(lián)向中國隊(duì)道歉

觀察者網(wǎng)
2026-02-27 18:58:13
你見過最不會點(diǎn)菜的人是什么樣子?網(wǎng)友:火鍋很清淡啊

你見過最不會點(diǎn)菜的人是什么樣子?網(wǎng)友:火鍋很清淡啊

夜深愛雜談
2026-02-19 21:55:22
17年血戰(zhàn)史,比太平軍更狠的捻軍,為何史書幾乎不記載?

17年血戰(zhàn)史,比太平軍更狠的捻軍,為何史書幾乎不記載?

長風(fēng)文史
2026-02-28 10:32:44
唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

法老不說教
2026-02-26 19:14:53
蔡磊“抗凍”第七年:完全失語,“每天吃飯喝水都像戰(zhàn)斗”

蔡磊“抗凍”第七年:完全失語,“每天吃飯喝水都像戰(zhàn)斗”

封面新聞
2026-02-28 09:09:02
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

通文知史
2026-02-26 22:00:04
5.5億元索賠“砍”至6400萬元,實(shí)地探訪東莞大面積停運(yùn)純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機(jī)稱顯示能跑近400公里實(shí)際只跑160公里

5.5億元索賠“砍”至6400萬元,實(shí)地探訪東莞大面積停運(yùn)純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機(jī)稱顯示能跑近400公里實(shí)際只跑160公里

每日經(jīng)濟(jì)新聞
2026-02-26 22:31:30
金正恩:美國撤回?cái)骋曊?,朝鮮將轉(zhuǎn)變態(tài)度 白宮回應(yīng)

金正恩:美國撤回?cái)骋曊?,朝鮮將轉(zhuǎn)變態(tài)度 白宮回應(yīng)

中國網(wǎng)
2026-02-27 17:27:15
秦檜32世孫發(fā)聲:讓祖宗跪岳飛我認(rèn)了,憑什么還要跪岳飛的母親?

秦檜32世孫發(fā)聲:讓祖宗跪岳飛我認(rèn)了,憑什么還要跪岳飛的母親?

不八卦掌門人
2026-02-23 13:35:25
實(shí)測Nano Banana 2,這次香蕉可算掌握4K多圖片多尺寸了

實(shí)測Nano Banana 2,這次香蕉可算掌握4K多圖片多尺寸了

卡爾的AI沃茨
2026-02-27 13:55:55
女婿當(dāng)眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

女婿當(dāng)眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

大熊歡樂坊
2026-02-28 01:40:08
銦價(jià)大漲88%!四大龍頭價(jià)值重估,誰的護(hù)城河更穩(wěn)?

銦價(jià)大漲88%!四大龍頭價(jià)值重估,誰的護(hù)城河更穩(wěn)?

慧眼看世界哈哈
2026-02-28 06:42:18
張自忠殉國真相:副官身中9刀頭顱被劈,拼死還原將軍戰(zhàn)死全程

張自忠殉國真相:副官身中9刀頭顱被劈,拼死還原將軍戰(zhàn)死全程

阿器談史
2026-02-27 18:11:11
一夜暴富!20歲小哥意外中2億彩票,瞞家人5年吃光了所有,最后你絕對想不到....

一夜暴富!20歲小哥意外中2億彩票,瞞家人5年吃光了所有,最后你絕對想不到....

澳洲紅領(lǐng)巾
2026-02-27 13:33:53
花了18年,他把孩子送上世界名校:1個月后,兒子去世了

花了18年,他把孩子送上世界名校:1個月后,兒子去世了

社會日日鮮
2026-02-16 09:09:56
輸光10億真相大白僅3天,黃曉明新女友被扒,楊穎葉珂輸?shù)貌辉?>
    </a>
        <h3>
      <a href=錯過美好
2026-02-27 07:14:18
WTT大滿貫!女單4強(qiáng)對陣出爐,國乒2人出局,孫穎莎迎大挑戰(zhàn)

WTT大滿貫!女單4強(qiáng)對陣出爐,國乒2人出局,孫穎莎迎大挑戰(zhàn)

銜春信
2026-02-28 11:52:51
羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴(yán)

羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴(yán)

嘮叨說歷史
2026-01-15 16:34:01
三進(jìn)萬安灘,從屈辱撤離到揚(yáng)眉吐氣,越南已不在威脅中國的名單中

三進(jìn)萬安灘,從屈辱撤離到揚(yáng)眉吐氣,越南已不在威脅中國的名單中

觸摸史跡
2026-02-26 11:28:32
2026-02-28 16:03:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
16379文章數(shù) 49692關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
本地
房產(chǎn)
軍事航空

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

藝術(shù)要聞

2025第十四屆中國藝術(shù)節(jié)全國優(yōu)秀美術(shù)作品展 | 入選油畫選刊

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

軍事要聞

新華社:美國伊朗要打了嗎

無障礙瀏覽 進(jìn)入關(guān)懷版