網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福與亞馬遜聯(lián)手打造AI芯片"自動(dòng)調(diào)音師"

2026-04-27 21:19:34　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由斯坦福大學(xué)計(jì)算機(jī)科學(xué)系與亞馬遜云服務(wù)（AWS）聯(lián)合開(kāi)展的研究，發(fā)表于2026年第九屆MLSys機(jī)器學(xué)習(xí)與系統(tǒng)國(guó)際會(huì)議（MLSys 2026），會(huì)議地點(diǎn)位于美國(guó)華盛頓州貝爾維尤。論文編號(hào)為arXiv:2511.15915v2，發(fā)布于2026年4月15日，感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

一、為什么一塊芯片發(fā)揮不出應(yīng)有的力量

每當(dāng)我們使用ChatGPT、Gemini或任何大型AI工具時(shí)，背后都有成千上萬(wàn)塊專(zhuān)用芯片在瘋狂運(yùn)轉(zhuǎn)。這些芯片被稱(chēng)為AI加速器，它們就像一臺(tái)臺(tái)精密的樂(lè)器，天生具備演奏高難度樂(lè)章的能力。然而，樂(lè)器再好，如果演奏者不懂得如何駕馭它，也只能彈出平庸的音符。

在A(yíng)I芯片的世界里，這個(gè)"演奏者"就是所謂的**內(nèi)核程序**（kernel）——一段專(zhuān)門(mén)告訴芯片如何處理矩陣乘法、注意力機(jī)制等計(jì)算任務(wù)的底層代碼。內(nèi)核寫(xiě)得好，芯片可以發(fā)揮出接近理論極限的性能；內(nèi)核寫(xiě)得差，再貴的芯片也只能跑在30%甚至更低的效率上。問(wèn)題在于，針對(duì)每一塊新芯片寫(xiě)出高質(zhì)量的內(nèi)核，需要具備深厚專(zhuān)業(yè)知識(shí)的硬件工程師花費(fèi)大量時(shí)間和精力去摸索調(diào)試。英偉達(dá)H100芯片于2022年發(fā)布，工程師們花了將近一年時(shí)間才把注意力機(jī)制的內(nèi)核調(diào)到理論峰值的37%，又花了一年多才勉強(qiáng)接近85%。

亞馬遜自研的Trainium芯片是這個(gè)故事的主角背景。它是一款專(zhuān)門(mén)用于訓(xùn)練大型AI模型的加速器，擁有獨(dú)特的硬件架構(gòu)，對(duì)應(yīng)的編程接口叫做神經(jīng)元內(nèi)核接口（NKI，Neuron Kernel Interface）。由于這套接口相對(duì)較新，工程師們?nèi)狈Τ墒斓恼{(diào)優(yōu)經(jīng)驗(yàn)和現(xiàn)成的優(yōu)化套路，很多內(nèi)核程序都還運(yùn)行在遠(yuǎn)低于硬件極限的水平上。

研究團(tuán)隊(duì)注意到這個(gè)困境，提出了一個(gè)大膽的想法：既然大型語(yǔ)言模型（LLM，就是ChatGPT那類(lèi)會(huì)寫(xiě)文章、能聊天的AI）在理解和生成代碼方面已經(jīng)頗有造詣，能不能讓AI來(lái)幫AI芯片調(diào)音？更進(jìn)一步，能不能讓這個(gè)AI調(diào)音師在工作中不斷積累經(jīng)驗(yàn)，越調(diào)越好，最終不需要任何人工干預(yù)就能自主掌握優(yōu)化技巧？

這就是AccelOpt（Accelerator Optimizer，加速器優(yōu)化器）誕生的初衷。

二、AccelOpt是什么：一位會(huì)自我進(jìn)化的調(diào)音師

以調(diào)鋼琴為比喻來(lái)理解AccelOpt會(huì)非常直觀(guān)。一位頂尖鋼琴調(diào)音師第一次面對(duì)一臺(tái)從未見(jiàn)過(guò)的新型鋼琴，他會(huì)怎么做？他會(huì)先試彈幾個(gè)音，聽(tīng)聽(tīng)哪里跑調(diào)了，再根據(jù)經(jīng)驗(yàn)判斷可能的原因，然后動(dòng)手調(diào)整，反復(fù)驗(yàn)證。更重要的是，每次成功調(diào)好一臺(tái)琴，他都會(huì)把這次的經(jīng)驗(yàn)記錄下來(lái)——"這個(gè)型號(hào)的琴，中音區(qū)的弦往往偏緊，要用某種特定的手法處理"——下次遇到類(lèi)似的琴，他就能更快更準(zhǔn)地找到問(wèn)題所在。

AccelOpt做的事情與此如出一轍。它面對(duì)的"鋼琴"是Trainium芯片上運(yùn)行的NKI內(nèi)核程序，面對(duì)的"調(diào)音任務(wù)"是讓這些程序跑得更快、更接近芯片的理論極限。整個(gè)系統(tǒng)由三個(gè)相互協(xié)作的AI智能體組成，分別扮演不同的角色，再加上一套"束搜索"機(jī)制和一個(gè)持續(xù)更新的"優(yōu)化記憶庫(kù)"，共同構(gòu)成了這臺(tái)自動(dòng)調(diào)音機(jī)器。

三個(gè)智能體各司其職，形成一條完整的調(diào)音流水線(xiàn)。**規(guī)劃師**（Planner）負(fù)責(zé)分析當(dāng)前內(nèi)核的運(yùn)行剖析數(shù)據(jù)——也就是芯片在執(zhí)行這段代碼時(shí)，哪個(gè)部分耗時(shí)最長(zhǎng)、哪里在白白浪費(fèi)資源——然后提出一個(gè)具體的優(yōu)化方向。**執(zhí)行師**（Executor）拿到規(guī)劃師的方案后，動(dòng)手將其轉(zhuǎn)化為實(shí)際的代碼改動(dòng)，真正生成一個(gè)新版本的內(nèi)核程序。**總結(jié)師**（Summarizer）則在一次成功的優(yōu)化完成之后，把這次的經(jīng)驗(yàn)提煉成可以復(fù)用的通用規(guī)律，存入記憶庫(kù)，供未來(lái)的任務(wù)參考。

三、束搜索：不把寶押在一次嘗試上

光有三個(gè)智能體還不夠。一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師知道，面對(duì)一臺(tái)復(fù)雜的鋼琴，光靠一次嘗試找到最優(yōu)解幾乎是不可能的。他可能需要嘗試多種不同的調(diào)整思路，分頭推進(jìn)，看看哪條路走得最順。

AccelOpt采用的**束搜索**（beam search）機(jī)制正是這個(gè)道理。在每一輪迭代中，系統(tǒng)不是只保留一個(gè)最新的內(nèi)核版本，而是同時(shí)維護(hù)著一批表現(xiàn)最好的候選內(nèi)核——就像調(diào)音師同時(shí)在腦子里保留著幾套并行的方案。具體來(lái)說(shuō)，系統(tǒng)會(huì)給每個(gè)候選內(nèi)核生成若干條不同的優(yōu)化方向（由規(guī)劃師提出），再對(duì)每個(gè)方向嘗試若干次代碼實(shí)現(xiàn)（由執(zhí)行師完成），最后從所有這些新生成的版本中，挑選出表現(xiàn)最佳的一批，作為下一輪迭代的起點(diǎn)。

這套機(jī)制的好處在于，它避免了"走進(jìn)死胡同"的風(fēng)險(xiǎn)。如果某次優(yōu)化嘗試走錯(cuò)了方向，損失的只是其中一個(gè)分支，其余分支還在繼續(xù)前進(jìn)。隨著迭代輪次的增加，整個(gè)候選集的整體質(zhì)量會(huì)穩(wěn)步攀升。研究團(tuán)隊(duì)的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn)：束搜索比單純地重復(fù)采樣同一個(gè)提示詞效果要好得多，因?yàn)樗嬲龑?shí)現(xiàn)了從優(yōu)秀走向更優(yōu)秀，而不是在原地反復(fù)打轉(zhuǎn)。

四、優(yōu)化記憶庫(kù)：經(jīng)驗(yàn)比黃金更值錢(qián)

束搜索解決了"怎么探索"的問(wèn)題，但還有另一個(gè)挑戰(zhàn)：AI系統(tǒng)在這次優(yōu)化任務(wù)中學(xué)到的東西，能不能在下一次任務(wù)中發(fā)揮作用？

這就是**優(yōu)化記憶庫(kù)**（optimization memory）的用武之地。它本質(zhì)上是一個(gè)動(dòng)態(tài)更新的經(jīng)驗(yàn)檔案，記錄著每次成功或失敗的優(yōu)化嘗試中，哪段代碼的哪種改動(dòng)帶來(lái)了顯著的速度提升或下降。更重要的是，總結(jié)師會(huì)把這些具體的代碼改動(dòng)抽象成更通用的規(guī)律，比如"把不變的矩陣轉(zhuǎn)置操作移到循環(huán)外面，可以避免重復(fù)計(jì)算"。

記憶庫(kù)的設(shè)計(jì)有幾個(gè)值得關(guān)注的細(xì)節(jié)。一方面，它不僅記錄"成功案例"（慢變快），也記錄"失敗案例"（快變慢），因?yàn)橹朗裁床辉撟鲇袝r(shí)候和知道什么該做同樣重要。另一方面，為了防止記憶庫(kù)被重復(fù)的、相似的經(jīng)驗(yàn)刷屏，系統(tǒng)在選取經(jīng)驗(yàn)條目時(shí)會(huì)刻意保持多樣性——不同的候選內(nèi)核、不同的優(yōu)化方向，各自貢獻(xiàn)一個(gè)最有代表性的經(jīng)驗(yàn)點(diǎn)。

記憶庫(kù)有兩個(gè)關(guān)鍵參數(shù)控制其行為：ExpN控制庫(kù)的容量（能保存多少條歷史經(jīng)驗(yàn)），TopK控制每輪迭代能往庫(kù)里新增多少條新經(jīng)驗(yàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，增大容量（ExpN）比增大每輪更新量（TopK）更劃算——保留更多歷史沉淀的價(jià)值，高于在每輪迭代中急著塞入更多新經(jīng)驗(yàn)。這就好像一位調(diào)音師，積累十年工齡的深厚閱歷，比剛?cè)胄袝r(shí)每天快速記筆記要更有價(jià)值。

五、NKIBench：給調(diào)音師設(shè)計(jì)一套考題

研究團(tuán)隊(duì)在評(píng)估AccelOpt時(shí)遇到了另一個(gè)問(wèn)題：沒(méi)有合適的標(biāo)準(zhǔn)考題。已有的AI芯片內(nèi)核基準(zhǔn)測(cè)試，要么不包含NKI程序，要么只是簡(jiǎn)單地比較"優(yōu)化后比優(yōu)化前快了多少倍"，卻無(wú)法告訴你這個(gè)內(nèi)核距離芯片的極限還有多遠(yuǎn)的路要走。

于是研究團(tuán)隊(duì)自己動(dòng)手構(gòu)建了**NKIBench**，這是第一個(gè)專(zhuān)門(mén)針對(duì)Trainium芯片NKI內(nèi)核的基準(zhǔn)測(cè)試套件。所有14個(gè)測(cè)試任務(wù)都來(lái)自真實(shí)的大模型工作負(fù)載，包括DeepSeek、Qwen3、Falcon等主流模型中涉及的矩陣乘法、批量矩陣乘、注意力機(jī)制、RMSNorm歸一化、LoRA微調(diào)、Mamba序列模型等關(guān)鍵算子。

NKIBench的一個(gè)重要?jiǎng)?chuàng)新在于，它為每個(gè)任務(wù)計(jì)算了硬件理論峰值性能，并用實(shí)際運(yùn)行時(shí)間占峰值性能的百分比來(lái)衡量?jī)?nèi)核的優(yōu)化程度。這就好比一輛賽車(chē)在跑圈，不是只看它比上一版車(chē)快了幾秒，而是直接告訴你它已經(jīng)跑到了這條賽道理論最快圈速的多少百分比。這個(gè)指標(biāo)更能客觀(guān)反映優(yōu)化工作還有多大的提升空間。

理論峰值的計(jì)算基于芯片的三個(gè)核心瓶頸：HBM帶寬（芯片從外部?jī)?nèi)存讀寫(xiě)數(shù)據(jù)的速度）、張量引擎算力（專(zhuān)門(mén)做矩陣乘法的計(jì)算單元的速度）、向量引擎算力（做其他數(shù)學(xué)運(yùn)算的計(jì)算單元的速度）。具體公式是取這三個(gè)瓶頸中最緊的那個(gè)作為理論最快速度，然后用實(shí)際延遲與之相比。

六、調(diào)音的成果：從49%到61%

經(jīng)過(guò)系統(tǒng)性的測(cè)試，AccelOpt的表現(xiàn)相當(dāng)令人滿(mǎn)意。在Trainium 1芯片上，NKIBench測(cè)試集的平均峰值吞吐量占比從優(yōu)化前的49%提升到了61%；在更新的Trainium 2芯片上，則從45%提升到59%。換句話(huà)說(shuō)，這批內(nèi)核程序在優(yōu)化后，能榨取出芯片更多的潛力，平均提升幅度在12到14個(gè)百分點(diǎn)之間。

更有趣的是與頂尖商業(yè)模型的對(duì)比。Anthropic公司的Claude Sonnet 4是當(dāng)前公認(rèn)的最強(qiáng)代碼生成模型之一，研究團(tuán)隊(duì)也用它來(lái)做同樣的內(nèi)核優(yōu)化任務(wù)（采用重復(fù)采樣的方式，不斷生成新版本直到預(yù)算用完）。最終，AccelOpt在使用開(kāi)源模型（Qwen3-Coder-480B作為執(zhí)行師，gpt-oss-120b負(fù)責(zé)其余角色）的情況下，達(dá)到了與Claude Sonnet 4相近的優(yōu)化效果，但花費(fèi)的API調(diào)用費(fèi)用僅為后者的二十六分之一。

這個(gè)對(duì)比背后有一個(gè)很有意思的發(fā)現(xiàn)：Claude Sonnet 4的"重復(fù)采樣"策略，本質(zhì)上是在同一個(gè)起點(diǎn)反復(fù)嘗試，就像一個(gè)調(diào)音師一遍遍地試彈同一個(gè)音，期望某次偶然能找到最優(yōu)解。而AccelOpt的束搜索則是從優(yōu)秀的版本出發(fā)繼續(xù)精進(jìn)，每一步都站在前一步的肩膀上。這種迭代式進(jìn)化的策略，讓開(kāi)源模型在成本上大幅領(lǐng)先的同時(shí)，仍能保持競(jìng)爭(zhēng)力。

七、AccelOpt發(fā)現(xiàn)了哪些具體的優(yōu)化技巧

研究團(tuán)隊(duì)特別列舉了AccelOpt自主發(fā)現(xiàn)的幾類(lèi)典型優(yōu)化，展示了這套系統(tǒng)的實(shí)際能力深度。

第一類(lèi)是**窺孔優(yōu)化**（peephole optimization），也就是對(duì)局部代碼片段進(jìn)行精簡(jiǎn)和替換。比如，AccelOpt會(huì)自動(dòng)識(shí)別出`θ_t–1 – γλθ_t–1`可以化簡(jiǎn)為`(1–γλ)θ_t–1`，從而把一次減法和一次乘法合并成一次乘法，減少計(jì)算量。它還能識(shí)別`reciprocal(sqrt(...))`這個(gè)組合可以被替換為更高效的`rsqrt(...)`單一指令，減少中間臨時(shí)變量的創(chuàng)建。對(duì)于SiLU激活函數(shù)，AccelOpt發(fā)現(xiàn)`x/(1+e^{-x})`可以改寫(xiě)為`x·sigmoid(x)`，從而調(diào)用NKI專(zhuān)門(mén)優(yōu)化過(guò)的sigmoid指令，獲得更高效率。

第二類(lèi)是**循環(huán)變換優(yōu)化**，這類(lèi)優(yōu)化需要更深層次的推理。研究團(tuán)隊(duì)展示了一個(gè)BatchMatmul加Softmax融合算子的優(yōu)化案例，非常能說(shuō)明問(wèn)題。初始版本的內(nèi)核因?yàn)橹虚g變量`v`和`p`需要跨越兩個(gè)循環(huán)存活，被迫溢出到芯片外部的慢速內(nèi)存（HBM）中，造成大量額外的數(shù)據(jù)搬運(yùn)開(kāi)銷(xiāo)，延遲高達(dá)12毫秒，向量引擎利用率只有46%。AccelOpt在第一步發(fā)現(xiàn)了這個(gè)溢出問(wèn)題，提出重新計(jì)算`v'`來(lái)消除溢出，延遲降到8.2毫秒，但代價(jià)是引入了額外的矩陣乘法計(jì)算。系統(tǒng)沒(méi)有滿(mǎn)足于這個(gè)結(jié)果，繼續(xù)推進(jìn)，在下一步徹底重構(gòu)了循環(huán)結(jié)構(gòu)，去掉了重新計(jì)算和多余的外層循環(huán)，最終版本延遲降到6.4毫秒，向量引擎利用率躍升至84%。

第三類(lèi)是**循環(huán)不變量外提**（loop invariant code motion）。這個(gè)概念用大家熟悉的場(chǎng)景來(lái)說(shuō)：假設(shè)你要做20道數(shù)學(xué)題，每道題開(kāi)始都要先查一遍同一張乘法表——合理的做法顯然是只查一次，把結(jié)果記在手邊。AccelOpt在Transpose+Matmul的內(nèi)核中發(fā)現(xiàn)，LHS矩陣的轉(zhuǎn)置操作在每次外層循環(huán)迭代中都被重復(fù)執(zhí)行了16次，而這個(gè)轉(zhuǎn)置結(jié)果其實(shí)從不改變。系統(tǒng)自動(dòng)將這個(gè)操作提到循環(huán)外面，緩存在全局緩沖區(qū)里，消除了冗余的15次重復(fù)計(jì)算。

八、哪里調(diào)不動(dòng)：AccelOpt的局限性

公平的評(píng)估不僅要看成績(jī)，也要誠(chéng)實(shí)面對(duì)局限。研究團(tuán)隊(duì)通過(guò)細(xì)致的觀(guān)察，總結(jié)出AccelOpt遭遇"停滯"的兩類(lèi)典型情況。

第一類(lèi)是"已經(jīng)夠好了"的停滯。當(dāng)一個(gè)內(nèi)核在經(jīng)過(guò)若干輪優(yōu)化后，已經(jīng)達(dá)到了硬件峰值的80%以上，剩下的提升空間自然越來(lái)越小。在Matmul(K=5120)這個(gè)測(cè)試案例中，系統(tǒng)在第7次迭代后達(dá)到約82%峰值吞吐量后便不再有顯著進(jìn)展——但這并非因?yàn)橄到y(tǒng)停止了探索，從后續(xù)迭代的數(shù)據(jù)變化可以看出，系統(tǒng)仍在嘗試各種不同策略，只是已經(jīng)沒(méi)有足夠的提升余地了。這類(lèi)停滯是"勝利后的停滯"，本質(zhì)上是好事。

第二類(lèi)是"無(wú)從下手"的停滯。BatchMatmul(B=16, K=64)這個(gè)案例是最典型的例子。這個(gè)算子的問(wèn)題規(guī)模很小，所有數(shù)據(jù)都能放進(jìn)芯片的片上緩存中，因此內(nèi)存?zhèn)鬏斝侍烊痪徒咏?00%，沒(méi)什么可優(yōu)化的余地。更棘手的是，它的縮減維度K=64只有芯片張量引擎原生支持的維度128的一半，導(dǎo)致硬件利用率很難提上去，當(dāng)前的NKI接口也缺乏應(yīng)對(duì)這種情況的有效工具。在這個(gè)案例的整個(gè)優(yōu)化過(guò)程中，幾乎所有的性能指標(biāo)都紋絲不動(dòng)，系統(tǒng)生成的大多數(shù)改動(dòng)要么正確率極低，要么性能不見(jiàn)起色。這類(lèi)問(wèn)題提示了NKI接口本身的設(shè)計(jì)局限，也指出了未來(lái)可以改進(jìn)的方向。

九、與專(zhuān)家對(duì)決：AI能超過(guò)人工調(diào)優(yōu)嗎

研究團(tuán)隊(duì)還做了一個(gè)很有說(shuō)服力的比較實(shí)驗(yàn)，把AccelOpt的成果與人類(lèi)專(zhuān)家手工優(yōu)化的版本放在一起評(píng)判。

對(duì)于Mamba序列模型的內(nèi)核，NKI官方教程提供了三個(gè)由人工逐步優(yōu)化的版本，分別達(dá)到28.4%、30.1%和52.7%的峰值吞吐量占比。AccelOpt從同一個(gè)起點(diǎn)（28.4%的版本）出發(fā)，自主優(yōu)化到了54.6%，略高于人類(lèi)專(zhuān)家的最佳版本（52.7%）。更有趣的是，AccelOpt生成的最優(yōu)內(nèi)核采用了與人類(lèi)專(zhuān)家完全不同的循環(huán)順序，走的是另一條路，卻到達(dá)了更高的終點(diǎn)。

對(duì)于RoPE位置編碼的內(nèi)核，NKI官方示例提供了一個(gè)達(dá)到21.1%峰值的參考版本。AccelOpt從這個(gè)版本出發(fā)，將其提升到29.6%，實(shí)現(xiàn)了1.4倍的加速。

研究團(tuán)隊(duì)指出，AccelOpt超越人類(lèi)專(zhuān)家的根本原因在于**規(guī)模效應(yīng)**：人類(lèi)工程師通常只能串行地逐個(gè)優(yōu)化內(nèi)核，而AccelOpt可以同時(shí)并行探索大量不同的優(yōu)化方向。當(dāng)人類(lèi)工程師還在仔細(xì)思考某個(gè)方向是否值得深入時(shí)，AccelOpt已經(jīng)同時(shí)跑完了幾十個(gè)并行實(shí)驗(yàn)。

此外，研究團(tuán)隊(duì)還把AccelOpt應(yīng)用到了斯坦福大學(xué)CS149并行計(jì)算課程的教學(xué)中。在2025年秋季學(xué)期，他們用AccelOpt優(yōu)化了一個(gè)課程外的二維卷積（Conv2D）內(nèi)核，從去年的參考實(shí)現(xiàn)（9.54%峰值吞吐量）提升到了48.8%?；贏(yíng)ccelOpt提出的優(yōu)化思路，課程組設(shè)計(jì)了一道附加題，131支學(xué)生隊(duì)伍中有33.6%成功完成了挑戰(zhàn)。學(xué)生們?cè)谶@個(gè)過(guò)程中具體學(xué)到了兩個(gè)原則：把時(shí)序上順序執(zhí)行的計(jì)算轉(zhuǎn)化為空間上并行執(zhí)行，以及針對(duì)特定工作負(fù)載在硬件約束下進(jìn)行專(zhuān)門(mén)化設(shè)計(jì)。

十、成本控制：聰明地花每一分錢(qián)

AccelOpt是一個(gè)需要持續(xù)調(diào)用AI模型接口的系統(tǒng)，因此成本控制是不得不考慮的現(xiàn)實(shí)問(wèn)題。研究團(tuán)隊(duì)對(duì)各種參數(shù)組合和模型選擇做了細(xì)致的成本收益分析。

在模型選擇方面，一個(gè)出人意料的發(fā)現(xiàn)是：換用不同的規(guī)劃師模型（無(wú)論是小巧的gpt-oss-20b還是強(qiáng)大的Qwen3-235B-Thinking），對(duì)最終優(yōu)化效果幾乎沒(méi)有顯著影響；但換用不同的執(zhí)行師模型，效果差距則非常明顯。這說(shuō)明，在A(yíng)ccelOpt的工作流程中，正確理解并實(shí)現(xiàn)代碼改動(dòng)的能力（執(zhí)行師的任務(wù)）遠(yuǎn)比制定優(yōu)化方向的能力（規(guī)劃師的任務(wù)）更關(guān)鍵。因此，提升系統(tǒng)性能應(yīng)該優(yōu)先考慮用更強(qiáng)的執(zhí)行師，而不是花錢(qián)升級(jí)規(guī)劃師。

在內(nèi)存配置方面，研究團(tuán)隊(duì)發(fā)現(xiàn)增大ExpN（擴(kuò)大記憶庫(kù)容量、保留更多歷史經(jīng)驗(yàn)）比增大TopK（每輪迭代更激進(jìn)地更新記憶）更具性?xún)r(jià)比。以Qwen3-Coder-30B為執(zhí)行師為例，將ExpN從8增加到16，額外花費(fèi)12.33美元換來(lái)了4.6%的加速提升；而gpt-oss-120b在同樣條件下，額外花費(fèi)13.81美元只帶來(lái)了0.6%的提升，顯示不同模型對(duì)擴(kuò)充歷史經(jīng)驗(yàn)的敏感度差異很大。

在整體對(duì)比中，使用Claude Sonnet 4做重復(fù)采樣的總花費(fèi)約為5806美元，最終平均加速比約1.222倍；而AccelOpt使用gpt-oss-120b，花費(fèi)約139美元，達(dá)到1.235倍加速。成本差距高達(dá)四十倍，效果還略有反超。

十一、不只是Trainium：通用性展望

AccelOpt的設(shè)計(jì)從一開(kāi)始就考慮了通用性。束搜索機(jī)制和優(yōu)化記憶庫(kù)的核心設(shè)計(jì)與具體硬件無(wú)關(guān)，要把系統(tǒng)遷移到新的平臺(tái)，只需要兩樣?xùn)|西：一是針對(duì)新平臺(tái)的性能剖析服務(wù)，二是包含新平臺(tái)基礎(chǔ)知識(shí)的提示詞模板。

研究團(tuán)隊(duì)已經(jīng)在GPU平臺(tái)上做了初步驗(yàn)證。他們將AccelOpt應(yīng)用于FlashInfer-Bench中的24個(gè)Triton內(nèi)核（運(yùn)行在英偉達(dá)H100 GPU上），使用gpt-oss-120b實(shí)現(xiàn)了平均1.27倍的加速，其中對(duì)GQA解碼內(nèi)核的峰值加速達(dá)到3.19倍。研究團(tuán)隊(duì)認(rèn)為，由于大型語(yǔ)言模型在訓(xùn)練數(shù)據(jù)中見(jiàn)過(guò)大量GPU編程的示例，AccelOpt在GPU上的效果應(yīng)該比在相對(duì)陌生的Trainium上更好，這一初步結(jié)果也印證了這個(gè)判斷。

說(shuō)到底，AccelOpt做的事情是把"讓AI芯片發(fā)揮最大效能"這件原本需要頂尖專(zhuān)家耗費(fèi)數(shù)年時(shí)光的工作，部分自動(dòng)化了。它不是萬(wàn)能的——面對(duì)某些特殊情況它也會(huì)束手無(wú)策，也還無(wú)法跨越硬件接口本身的設(shè)計(jì)限制——但它確實(shí)證明了一件事：AI可以通過(guò)自我探索和經(jīng)驗(yàn)積累，在一個(gè)全新的、陌生的技術(shù)領(lǐng)域里，逐步逼近甚至偶爾超越人類(lèi)專(zhuān)家的水平，而且代價(jià)可以比人工低得多。

對(duì)于普通用戶(hù)來(lái)說(shuō)，這意味著未來(lái)大模型的推理速度可能更快、運(yùn)行成本更低，因?yàn)轵?qū)動(dòng)這些模型的底層代碼會(huì)越來(lái)越高效。對(duì)于A(yíng)I工程師來(lái)說(shuō)，這意味著他們不再需要在每款新芯片上從頭開(kāi)始漫長(zhǎng)的調(diào)優(yōu)之旅，而是可以把這項(xiàng)繁重的初步工作交給系統(tǒng)自動(dòng)完成，然后在系統(tǒng)探索的基礎(chǔ)上做更有創(chuàng)意的工作。

AccelOpt和NKIBench的代碼與數(shù)據(jù)已經(jīng)開(kāi)源，這14個(gè)測(cè)試任務(wù)也作為了一個(gè)起點(diǎn)，供未來(lái)的研究者繼續(xù)深入探索。對(duì)這個(gè)方向感興趣的讀者，可以通過(guò)arXiv編號(hào)2511.15915v2查閱完整論文，以及在GitHub上訪(fǎng)問(wèn)zhang677/AccelOpt項(xiàng)目獲取代碼。

Q&A

Q1：AccelOpt的優(yōu)化記憶庫(kù)和普通AI的上下文窗口有什么區(qū)別？

A：普通AI的上下文窗口是單次對(duì)話(huà)的臨時(shí)記憶，對(duì)話(huà)結(jié)束后清空。AccelOpt的優(yōu)化記憶庫(kù)則是跨輪次持續(xù)積累的經(jīng)驗(yàn)檔案，專(zhuān)門(mén)存儲(chǔ)那些經(jīng)過(guò)實(shí)際硬件驗(yàn)證、帶來(lái)真實(shí)速度提升的代碼改動(dòng)規(guī)律。它會(huì)被整理成通用的優(yōu)化原則和代碼片段對(duì)，并在之后的每一輪優(yōu)化中作為參考提供給規(guī)劃師智能體，相當(dāng)于一本通過(guò)實(shí)戰(zhàn)不斷擴(kuò)充的經(jīng)驗(yàn)手冊(cè)，而不是每次從零開(kāi)始。

Q2：AccelOpt能用來(lái)優(yōu)化普通Python或C++代碼嗎？

A：目前AccelOpt的設(shè)計(jì)專(zhuān)門(mén)針對(duì)AI加速器的內(nèi)核程序（如Trainium的NKI程序和GPU的Triton程序），它的優(yōu)化邏輯依賴(lài)硬件性能剖析數(shù)據(jù)（如內(nèi)存帶寬占用、引擎利用率等），以及對(duì)特定硬件架構(gòu)的專(zhuān)業(yè)知識(shí)。不過(guò)系統(tǒng)的核心框架——束搜索加上自我更新的經(jīng)驗(yàn)記憶——理論上可以遷移到其他代碼優(yōu)化場(chǎng)景，只需要替換對(duì)應(yīng)的性能評(píng)估工具和領(lǐng)域知識(shí)提示詞。

Q3：NKIBench中哪類(lèi)內(nèi)核最難優(yōu)化？

A：從測(cè)試結(jié)果來(lái)看，規(guī)模較小、數(shù)據(jù)能完全裝入片上緩存的內(nèi)核最難通過(guò)代碼層面的優(yōu)化來(lái)提升性能，比如BatchMatmul（B=16, K=64）這個(gè)案例。這類(lèi)問(wèn)題的瓶頸不在于數(shù)據(jù)搬運(yùn)或計(jì)算冗余，而在于硬件規(guī)格本身的限制——例如Trainium的張量引擎原生支持128維度的縮減，而K=64只有這個(gè)維度的一半，導(dǎo)致硬件利用率天花板極低。AccelOpt在這類(lèi)情況下幾乎無(wú)能為力，這也提示了NKI編程接口本身還有改進(jìn)空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.