国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

計算所嚴(yán)明玉團(tuán)隊新作: Attention 并非永遠(yuǎn)是瓶頸,多 GPU 并不一定更快

0
分享至


系統(tǒng)實(shí)驗(yàn)表明,模型推理分為計算受限的 Prefill 與內(nèi)存受限的 Decode。

作者丨鄭佳美

編輯丨岑峰

隨著大語言模型逐漸走向真實(shí)應(yīng)用,推理階段的性能問題正在成為制約落地的關(guān)鍵因素。

模型規(guī)模不斷增大、上下文持續(xù)拉長,再加上 RAG、MoE 等新用法的引入,使得延遲、吞吐和能耗不再只是“調(diào)一調(diào)參數(shù)”的問題,而是直接影響系統(tǒng)架構(gòu)和算力成本的核心挑戰(zhàn)。

圍繞這些問題,來自中國科學(xué)院計算所的嚴(yán)明玉團(tuán)隊,聯(lián)合中國電信云計算研究院、浙江實(shí)驗(yàn)室和北京大學(xué)的研究者,在論文《A Systematic Characterization of LLM Inference on GPUs》中,對大語言模型在 GPU 上的推理行為進(jìn)行了系統(tǒng)研究。

不同于以往側(cè)重單一模型、單一算子或局部優(yōu)化的研究路徑,嚴(yán)明玉團(tuán)隊從系統(tǒng)和硬件協(xié)同的視角出發(fā),通過大規(guī)模實(shí)驗(yàn),對大語言模型在 GPU 上的推理行為進(jìn)行了全面刻畫,試圖從根本上回答一個長期困擾工程實(shí)踐的問題:大模型推理為什么會呈現(xiàn)出現(xiàn)在這樣的性能特征。

這項工作并沒有直接給出如何優(yōu)化的現(xiàn)成答案,而是首先建立了一套統(tǒng)一、可解釋的性能認(rèn)知框架,將 Prefill 與 Decode 的差異上升為系統(tǒng)級的基本規(guī)律,并在不同模型規(guī)模、不同硬件平臺以及 MoE、RAG 等新型推理范式下進(jìn)行了驗(yàn)證。

在這一框架下,推理延遲、資源利用率和能耗不再是孤立的指標(biāo),而是隨著工作負(fù)載和系統(tǒng)配置發(fā)生有規(guī)律的變化。這種從現(xiàn)象出發(fā)、最終回到系統(tǒng)根因的研究方式,使得這項工作更像是在為大模型推理建立一張可理解、可推演的性能全景圖,而不是提供某個場景下的經(jīng)驗(yàn)結(jié)論。


論文鏈接:https://arxiv.org/pdf/2512.01644v1

01
一次對大模型推理性能的系統(tǒng)性拆解

嚴(yán)明玉團(tuán)隊的這項工作通過大量有組織的實(shí)驗(yàn),系統(tǒng)地總結(jié)了大語言模型在推理階段的性能規(guī)律,而不是停留在零散的經(jīng)驗(yàn)觀察上。研究團(tuán)隊發(fā)現(xiàn),LLM 的推理過程在本質(zhì)上可以分成兩個完全不同的階段,而且這種差異并不是靠優(yōu)化就能消除的。


具體來說,第一個階段是 Prefill 階段,主要任務(wù)是一次性處理用戶輸入的 prompt。這個階段可以并行執(zhí)行,核心計算是大規(guī)模矩陣乘法,因此計算量大、算得很滿,GPU 的計算單元利用率很高,整體性能主要受限于算力本身。


第二個階段是 Decode 階段,用來逐個生成輸出 token。由于生成過程是一步一步進(jìn)行的,每一步都需要訪問已經(jīng)緩存的上下文信息(KV Cache),實(shí)際計算量不大,但內(nèi)存訪問非常頻繁,因此性能瓶頸從算力轉(zhuǎn)移到了內(nèi)存帶寬和訪問延遲上。


在此基礎(chǔ)上,論文進(jìn)一步指出,推理過程中到底是 Prefill 慢還是 Decode 慢,并不是固定的,而是取決于具體的輸入和輸出情況。當(dāng)輸入較短時,雖然每一步 Decode 的計算不多,但需要執(zhí)行很多步,因此 Decode 往往成為主要耗時部分。

而當(dāng)輸入變長時,Prefill 階段需要處理的 token 數(shù)迅速增加,其計算量增長更快,在超過某個長度之后就會反過來成為整體延遲的主要來源。這種從 Decode 主導(dǎo)到 Prefill 主導(dǎo)的轉(zhuǎn)變說明,性能瓶頸更多是由工作負(fù)載決定的,而不是模型本身天生慢在哪。


如果進(jìn)一步拆到模型內(nèi)部的算子層面,研究團(tuán)隊發(fā)現(xiàn)瓶頸同樣不是固定的。在常見的上下文長度下,Prefill 階段的主要時間往往花在前饋網(wǎng)絡(luò)(FFN)上,但在上下文特別長的情況下,由于注意力計算的復(fù)雜度增長更快,Attention 會逐漸成為主要瓶頸。


Decode 階段的情況則和模型規(guī)模有關(guān):對于較小的模型,頻繁訪問 KV Cache 的 Attention 更容易成為瓶頸;而對于大模型,由于前饋網(wǎng)絡(luò)權(quán)重更大,F(xiàn)FN 的內(nèi)存加載成本反而更突出。這說明,單純地說 Attention 是瓶頸或 FFN 是瓶頸都是不準(zhǔn)確的,必須結(jié)合所處階段、上下文長度和模型規(guī)模來判斷。


性能可預(yù)測性方面,論文發(fā)現(xiàn) Prefill 階段的行為非常規(guī)律。它的執(zhí)行時間幾乎只由真正需要計算的輸入 token 數(shù)量決定,而且二者之間呈現(xiàn)非常穩(wěn)定的線性關(guān)系。這意味著,只要知道輸入長度和緩存命中情況,就可以比較準(zhǔn)確地預(yù)測 Prefill 的延遲,這對系統(tǒng)調(diào)度和資源規(guī)劃非常有用。相比之下,Decode 階段由于是逐步生成,并且受到采樣和串行依賴的影響,性能波動更大,也更難提前預(yù)測。


能耗分析中,論文給出了一個非常直觀但重要的結(jié)論:整個推理過程消耗的能量,幾乎全部來自 Decode 階段。輸入有多長,對總能耗影響很小,而輸出生成了多少 token,幾乎直接決定了能耗大小。同時,模型參數(shù)越多,總能耗也會隨之增加。這說明,在真實(shí)系統(tǒng)中,如果想要降低推理能耗,限制輸出長度往往比優(yōu)化 Prefill 更有效。


多 GPU 擴(kuò)展實(shí)驗(yàn)中,研究團(tuán)隊發(fā)現(xiàn)并行化并不是在所有情況下都有效。Prefill 階段由于計算量大,把計算分?jǐn)偟蕉鄰?GPU 上通常能帶來收益,但 Decode 階段每一步計算都很小,多 GPU 之間的通信和同步反而會成為負(fù)擔(dān),導(dǎo)致性能提升不明顯甚至變慢。因此,在 Decode 為主的場景下,使用單 GPU 或較輕量的流水并行往往更合適,這也打破了GPU 越多越快的直覺。


最后,論文還分析了新的推理范式。對于 MoE 模型,推理速度主要取決于每次實(shí)際參與計算的參數(shù)規(guī)模,而不是模型的總參數(shù)量,這帶來了明顯的性能優(yōu)勢,但同時,在 Decode 階段會額外引入專家選擇和調(diào)度的開銷,使性能表現(xiàn)更加復(fù)雜。


對于RAG 工作流,研究團(tuán)隊發(fā)現(xiàn)隨著外部知識規(guī)模變大,系統(tǒng)瓶頸會從 GPU 推理轉(zhuǎn)移到 CPU 側(cè)的檢索和內(nèi)存訪問上,形成新的性能限制。盡管推理流程變得更加復(fù)雜,但 Prefill 和 Decode 在性能上的根本差異依然存在,仍然是理解整體行為的關(guān)鍵。


02
面向系統(tǒng)理解的大模型推理實(shí)驗(yàn)框架

為了讓結(jié)論更完整、也更容易理解,這篇論文在實(shí)驗(yàn)設(shè)計上采用了一種由淺入深的分析思路。研究團(tuán)隊并不是一開始就研究底層硬件細(xì)節(jié),而是先觀察整體推理性能表現(xiàn),再逐步深入到 GPU 的執(zhí)行和存儲行為,最后把得到的規(guī)律放回到真實(shí)系統(tǒng)和新型推理場景中進(jìn)行驗(yàn)證。

實(shí)驗(yàn)平臺方面,論文同時使用了數(shù)據(jù)中心級的 GPU(A100)和邊緣設(shè)備上的 GPU(Jetson AGX Orin)。這樣做的目的,是檢驗(yàn)前面總結(jié)出的性能規(guī)律是否只在高端服務(wù)器上成立,還是在算力和內(nèi)存條件更受限的設(shè)備上同樣適用。


模型選擇上,研究團(tuán)隊覆蓋了多種主流的 dense 模型(從 7B 到 32B),同時還引入了一個具有代表性的 MoE 模型,以觀察不同參數(shù)規(guī)模和不同架構(gòu)設(shè)計對推理性能的影響。為了保證對比公平,所有實(shí)驗(yàn)都在同一套推理框架和相同精度設(shè)置下進(jìn)行,盡量減少實(shí)現(xiàn)細(xì)節(jié)帶來的干擾。


工作負(fù)載設(shè)計上,研究團(tuán)隊并沒有簡單地跑幾組固定 benchmark,而是有針對性地設(shè)計了多種輸入和輸出組合。例如,有的任務(wù)輸入短、輸出長,有的輸入長、輸出短,還有真實(shí)對話數(shù)據(jù)和可控的合成數(shù)據(jù)。這樣的設(shè)計是為了有意識地制造 Prefill 占主導(dǎo)或 Decode 占主導(dǎo)的不同場景,從而驗(yàn)證兩階段在不同條件下是否始終表現(xiàn)出不同的性能特征。


性能分析方法上,論文采用了分層剖析的方式。首先在整體層面上,測量端到端的延遲、吞吐量和能耗,建立對系統(tǒng)行為的直觀認(rèn)識;接著在階段和算子層面,分析 Prefill 和 Decode 各自占用了多少時間,以及不同算子在其中的作用;最后深入到硬件層面,通過 Roofline 模型、warp 停頓分析,以及緩存命中率和內(nèi)存帶寬使用情況,來判斷性能究竟是受限于計算還是受限于內(nèi)存。


能耗分析中,研究人員通過高頻功率采樣并扣除空閑功耗的方式,盡量保證測量結(jié)果的準(zhǔn)確性。在涉及 RAG 的實(shí)驗(yàn)中,還額外使用了 CPU 側(cè)的性能分析工具,專門分析檢索階段的瓶頸來源。

通過這種從“看現(xiàn)象”到“找原因”的逐步分析過程,論文避免了只憑經(jīng)驗(yàn)判斷或簡單相關(guān)性分析下結(jié)論的問題,使得每一個宏觀層面的性能現(xiàn)象,都能在底層硬件執(zhí)行機(jī)制上找到清晰的解釋。

03
當(dāng)問題被看清,優(yōu)化才有方向

這篇論文的意義不在于提出某一種新的優(yōu)化技巧,而在于建立了一套統(tǒng)一、可解釋的大模型推理性能認(rèn)知框架。它首次將 Prefill 與 Decode 的階段差異提升為系統(tǒng)級基本規(guī)律,并證明這一規(guī)律在不同模型規(guī)模、硬件平臺和新興推理范式下均成立。

從工程角度看,論文糾正了多個長期存在的直覺性誤解,例如Attention 永遠(yuǎn)是瓶頸、多 GPU 一定更快、Prefill 是主要能耗來源等,并給出了明確的反例和機(jī)制解釋。這些結(jié)論對實(shí)際推理服務(wù)的部署策略、資源配置和成本控制具有直接指導(dǎo)意義。

從系統(tǒng)研究角度看,這篇內(nèi)容為后續(xù)工作提供了清晰的問題分解方式:優(yōu)化 Prefill 和優(yōu)化 Decode 不應(yīng)混為一談,而應(yīng)針對各自的根本瓶頸分別設(shè)計機(jī)制。這一思想對調(diào)度器設(shè)計、并行策略選擇以及新硬件特性利用都具有啟發(fā)作用。

從未來發(fā)展看,論文指出了 MoE 和 RAG 等新范式如何重塑瓶頸位置,提示研究者在模型和系統(tǒng)協(xié)同設(shè)計時需要關(guān)注路由開銷、內(nèi)存局部性和 CPU–GPU 協(xié)同,而不僅僅是算力規(guī)模。

總體而言,這是一篇以實(shí)驗(yàn)為基礎(chǔ)、以解釋為核心、以系統(tǒng)認(rèn)知為目標(biāo)的論文,其價值在于回答了“為什么 LLM 推理會這樣表現(xiàn)”,而不僅是“如何讓它更快一點(diǎn)”。

04
工作背后的研究者

本文通訊作者為中國科學(xué)院計算技術(shù)研究所的嚴(yán)明玉教授。他主要從事計算機(jī)體系結(jié)構(gòu)相關(guān)研究,研究方向涵蓋圖機(jī)器學(xué)習(xí)、設(shè)計空間探索以及復(fù)雜計算系統(tǒng)的性能分析等問題。


參考鏈接:https://mingyuyan-ict.github.io/MingyuYan-ICT/

在學(xué)術(shù)研究方面,嚴(yán)明玉教授已在多個國際頂級會議和期刊上發(fā)表近 20 篇論文,相關(guān)成果發(fā)表于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要學(xué)術(shù)平臺,覆蓋體系結(jié)構(gòu)、系統(tǒng)與應(yīng)用交叉等多個研究領(lǐng)域。

除科研工作外,嚴(yán)明玉教授也是 IEEE 和中國計算機(jī)學(xué)會(CCF)的高級會員,并多次擔(dān)任 HPCA、ISCA、MICRO、IJCAI、ISPASS 等國際會議的技術(shù)程序委員會委員或?qū)徃迦?,長期參與相關(guān)領(lǐng)域的學(xué)術(shù)評審與社區(qū)建設(shè)。

在學(xué)術(shù)培養(yǎng)與科研經(jīng)歷方面,他于中國科學(xué)院大學(xué)獲得博士學(xué)位,并曾赴美國加州大學(xué)圣塔芭芭拉分校進(jìn)行聯(lián)合培養(yǎng)。其博士論文曾獲得中國計算機(jī)學(xué)會優(yōu)秀博士論文獎。此外,他還入選北京市科技新星計劃、中國科學(xué)院青年創(chuàng)新促進(jìn)會,并主持或參與中國科學(xué)院青年團(tuán)隊項目等科研計劃。

總體而言,嚴(yán)明玉教授長期致力于從系統(tǒng)視角理解復(fù)雜計算負(fù)載在硬件平臺上的執(zhí)行行為,強(qiáng)調(diào)通過系統(tǒng)性實(shí)驗(yàn)和硬件行為分析揭示性能瓶頸的形成機(jī)理,其研究成果兼具理論深度與工程實(shí)踐價值。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
墊資數(shù)百萬改造承包高校餐廳,期限沒到無奈停業(yè),200多萬元餐費(fèi)未付;校方:多部門商議決定不續(xù)簽

墊資數(shù)百萬改造承包高校餐廳,期限沒到無奈停業(yè),200多萬元餐費(fèi)未付;校方:多部門商議決定不續(xù)簽

大風(fēng)新聞
2025-12-23 23:43:09
大狂歡!集體漲停!剛剛,央行,利好來了!

大狂歡!集體漲停!剛剛,央行,利好來了!

中國基金報
2025-12-24 16:22:14
葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

清風(fēng)鑒史
2025-12-24 15:02:13
長城魏建軍回應(yīng)魏牌“九年八換CEO”:并不是我們辭退人家,是他們自己感覺壓力特別大

長城魏建軍回應(yīng)魏牌“九年八換CEO”:并不是我們辭退人家,是他們自己感覺壓力特別大

紅星資本局
2025-12-24 11:41:09
特朗普正式宣布:香港世紀(jì)號及180萬桶原油,將由美國永久保留。

特朗普正式宣布:香港世紀(jì)號及180萬桶原油,將由美國永久保留。

云鵬敘事
2025-12-24 13:41:16
李凱爾公開發(fā)聲!還是中國國籍,愿意回歸國家隊,未來可能打CBA

李凱爾公開發(fā)聲!還是中國國籍,愿意回歸國家隊,未來可能打CBA

籃球資訊達(dá)人
2025-12-24 15:20:53
南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

火山詩話
2025-12-24 14:29:42
昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

財經(jīng)智多星
2025-12-24 16:51:49
漢字存在缺陷?諾貝爾獎得主羅素一針見血:漢字有這3大缺點(diǎn)!

漢字存在缺陷?諾貝爾獎得主羅素一針見血:漢字有這3大缺點(diǎn)!

興趣知識
2025-12-24 00:31:53
爭議!曝周琦腰反應(yīng)大恐無緣客戰(zhàn)新疆 重返CBA后從未打過新疆客場

爭議!曝周琦腰反應(yīng)大恐無緣客戰(zhàn)新疆 重返CBA后從未打過新疆客場

醉臥浮生
2025-12-24 19:24:05
85后韓國財閥千金,在柬埔寨被捕!她被曝為電詐園區(qū)洗錢、招攬性交易和販毒,曾多次因吸毒被判刑

85后韓國財閥千金,在柬埔寨被捕!她被曝為電詐園區(qū)洗錢、招攬性交易和販毒,曾多次因吸毒被判刑

每日經(jīng)濟(jì)新聞
2025-12-24 17:22:08
“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

揚(yáng)子晚報
2025-12-24 19:23:11
如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

爆角追蹤
2025-12-24 12:37:06
極氪汽車正式退市,震驚行業(yè)!

極氪汽車正式退市,震驚行業(yè)!

互聯(lián)網(wǎng)品牌官
2025-12-24 12:36:49
利比亞總參謀長土耳其墜機(jī)身亡,其被認(rèn)為是“結(jié)束國家分裂”的希望

利比亞總參謀長土耳其墜機(jī)身亡,其被認(rèn)為是“結(jié)束國家分裂”的希望

紅星新聞
2025-12-24 15:22:18
搶瘋了!各地門店大排長龍,排號炒到400元一個!網(wǎng)友:怎么又火了?

搶瘋了!各地門店大排長龍,排號炒到400元一個!網(wǎng)友:怎么又火了?

觀威海
2025-12-24 10:14:23
他姓胡,曾被視為中共“接班人”之一,58歲官至正國級,今年95歲

他姓胡,曾被視為中共“接班人”之一,58歲官至正國級,今年95歲

大運(yùn)河時空
2025-12-24 11:50:03
1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

宅家伍菇?jīng)?/span>
2025-12-22 09:00:03
F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

鷹眼Defence
2025-12-24 16:17:27
大收藏家谷牧——

大收藏家谷牧——

跟著老李看世界
2025-12-23 13:26:40
2025-12-24 21:00:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

月薪3850元男子為漲薪給領(lǐng)導(dǎo)發(fā)紅包被開 案子打到高院

頭條要聞

月薪3850元男子為漲薪給領(lǐng)導(dǎo)發(fā)紅包被開 案子打到高院

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
數(shù)碼
親子
游戲

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

手機(jī)要聞

真我Neo8一月亮相 徐起:有點(diǎn)東西

數(shù)碼要聞

MAINGEAR推出BYO RAM模式:用戶自帶內(nèi)存,規(guī)避漲價沖擊

親子要聞

用職場方式打開孕晚期會得到……

《刺客信條》圣誕賀圖:黑武士彌助C位出道!

無障礙瀏覽 進(jìn)入關(guān)懷版