国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福與亞馬遜聯(lián)手打造AI芯片"自動(dòng)調(diào)音師"

0
分享至


這項(xiàng)由斯坦福大學(xué)計(jì)算機(jī)科學(xué)系與亞馬遜云服務(wù)(AWS)聯(lián)合開(kāi)展的研究,發(fā)表于2026年第九屆MLSys機(jī)器學(xué)習(xí)與系統(tǒng)國(guó)際會(huì)議(MLSys 2026),會(huì)議地點(diǎn)位于美國(guó)華盛頓州貝爾維尤。論文編號(hào)為arXiv:2511.15915v2,發(fā)布于2026年4月15日,感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

一、為什么一塊芯片發(fā)揮不出應(yīng)有的力量

每當(dāng)我們使用ChatGPT、Gemini或任何大型AI工具時(shí),背后都有成千上萬(wàn)塊專(zhuān)用芯片在瘋狂運(yùn)轉(zhuǎn)。這些芯片被稱(chēng)為AI加速器,它們就像一臺(tái)臺(tái)精密的樂(lè)器,天生具備演奏高難度樂(lè)章的能力。然而,樂(lè)器再好,如果演奏者不懂得如何駕馭它,也只能彈出平庸的音符。

在A(yíng)I芯片的世界里,這個(gè)"演奏者"就是所謂的**內(nèi)核程序**(kernel)——一段專(zhuān)門(mén)告訴芯片如何處理矩陣乘法、注意力機(jī)制等計(jì)算任務(wù)的底層代碼。內(nèi)核寫(xiě)得好,芯片可以發(fā)揮出接近理論極限的性能;內(nèi)核寫(xiě)得差,再貴的芯片也只能跑在30%甚至更低的效率上。問(wèn)題在于,針對(duì)每一塊新芯片寫(xiě)出高質(zhì)量的內(nèi)核,需要具備深厚專(zhuān)業(yè)知識(shí)的硬件工程師花費(fèi)大量時(shí)間和精力去摸索調(diào)試。英偉達(dá)H100芯片于2022年發(fā)布,工程師們花了將近一年時(shí)間才把注意力機(jī)制的內(nèi)核調(diào)到理論峰值的37%,又花了一年多才勉強(qiáng)接近85%。

亞馬遜自研的Trainium芯片是這個(gè)故事的主角背景。它是一款專(zhuān)門(mén)用于訓(xùn)練大型AI模型的加速器,擁有獨(dú)特的硬件架構(gòu),對(duì)應(yīng)的編程接口叫做神經(jīng)元內(nèi)核接口(NKI,Neuron Kernel Interface)。由于這套接口相對(duì)較新,工程師們?nèi)狈Τ墒斓恼{(diào)優(yōu)經(jīng)驗(yàn)和現(xiàn)成的優(yōu)化套路,很多內(nèi)核程序都還運(yùn)行在遠(yuǎn)低于硬件極限的水平上。

研究團(tuán)隊(duì)注意到這個(gè)困境,提出了一個(gè)大膽的想法:既然大型語(yǔ)言模型(LLM,就是ChatGPT那類(lèi)會(huì)寫(xiě)文章、能聊天的AI)在理解和生成代碼方面已經(jīng)頗有造詣,能不能讓AI來(lái)幫AI芯片調(diào)音?更進(jìn)一步,能不能讓這個(gè)AI調(diào)音師在工作中不斷積累經(jīng)驗(yàn),越調(diào)越好,最終不需要任何人工干預(yù)就能自主掌握優(yōu)化技巧?

這就是AccelOpt(Accelerator Optimizer,加速器優(yōu)化器)誕生的初衷。

二、AccelOpt是什么:一位會(huì)自我進(jìn)化的調(diào)音師

以調(diào)鋼琴為比喻來(lái)理解AccelOpt會(huì)非常直觀(guān)。一位頂尖鋼琴調(diào)音師第一次面對(duì)一臺(tái)從未見(jiàn)過(guò)的新型鋼琴,他會(huì)怎么做?他會(huì)先試彈幾個(gè)音,聽(tīng)聽(tīng)哪里跑調(diào)了,再根據(jù)經(jīng)驗(yàn)判斷可能的原因,然后動(dòng)手調(diào)整,反復(fù)驗(yàn)證。更重要的是,每次成功調(diào)好一臺(tái)琴,他都會(huì)把這次的經(jīng)驗(yàn)記錄下來(lái)——"這個(gè)型號(hào)的琴,中音區(qū)的弦往往偏緊,要用某種特定的手法處理"——下次遇到類(lèi)似的琴,他就能更快更準(zhǔn)地找到問(wèn)題所在。

AccelOpt做的事情與此如出一轍。它面對(duì)的"鋼琴"是Trainium芯片上運(yùn)行的NKI內(nèi)核程序,面對(duì)的"調(diào)音任務(wù)"是讓這些程序跑得更快、更接近芯片的理論極限。整個(gè)系統(tǒng)由三個(gè)相互協(xié)作的AI智能體組成,分別扮演不同的角色,再加上一套"束搜索"機(jī)制和一個(gè)持續(xù)更新的"優(yōu)化記憶庫(kù)",共同構(gòu)成了這臺(tái)自動(dòng)調(diào)音機(jī)器。

三個(gè)智能體各司其職,形成一條完整的調(diào)音流水線(xiàn)。**規(guī)劃師**(Planner)負(fù)責(zé)分析當(dāng)前內(nèi)核的運(yùn)行剖析數(shù)據(jù)——也就是芯片在執(zhí)行這段代碼時(shí),哪個(gè)部分耗時(shí)最長(zhǎng)、哪里在白白浪費(fèi)資源——然后提出一個(gè)具體的優(yōu)化方向。**執(zhí)行師**(Executor)拿到規(guī)劃師的方案后,動(dòng)手將其轉(zhuǎn)化為實(shí)際的代碼改動(dòng),真正生成一個(gè)新版本的內(nèi)核程序。**總結(jié)師**(Summarizer)則在一次成功的優(yōu)化完成之后,把這次的經(jīng)驗(yàn)提煉成可以復(fù)用的通用規(guī)律,存入記憶庫(kù),供未來(lái)的任務(wù)參考。

三、束搜索:不把寶押在一次嘗試上

光有三個(gè)智能體還不夠。一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師知道,面對(duì)一臺(tái)復(fù)雜的鋼琴,光靠一次嘗試找到最優(yōu)解幾乎是不可能的。他可能需要嘗試多種不同的調(diào)整思路,分頭推進(jìn),看看哪條路走得最順。

AccelOpt采用的**束搜索**(beam search)機(jī)制正是這個(gè)道理。在每一輪迭代中,系統(tǒng)不是只保留一個(gè)最新的內(nèi)核版本,而是同時(shí)維護(hù)著一批表現(xiàn)最好的候選內(nèi)核——就像調(diào)音師同時(shí)在腦子里保留著幾套并行的方案。具體來(lái)說(shuō),系統(tǒng)會(huì)給每個(gè)候選內(nèi)核生成若干條不同的優(yōu)化方向(由規(guī)劃師提出),再對(duì)每個(gè)方向嘗試若干次代碼實(shí)現(xiàn)(由執(zhí)行師完成),最后從所有這些新生成的版本中,挑選出表現(xiàn)最佳的一批,作為下一輪迭代的起點(diǎn)。

這套機(jī)制的好處在于,它避免了"走進(jìn)死胡同"的風(fēng)險(xiǎn)。如果某次優(yōu)化嘗試走錯(cuò)了方向,損失的只是其中一個(gè)分支,其余分支還在繼續(xù)前進(jìn)。隨著迭代輪次的增加,整個(gè)候選集的整體質(zhì)量會(huì)穩(wěn)步攀升。研究團(tuán)隊(duì)的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn):束搜索比單純地重復(fù)采樣同一個(gè)提示詞效果要好得多,因?yàn)樗嬲龑?shí)現(xiàn)了從優(yōu)秀走向更優(yōu)秀,而不是在原地反復(fù)打轉(zhuǎn)。

四、優(yōu)化記憶庫(kù):經(jīng)驗(yàn)比黃金更值錢(qián)

束搜索解決了"怎么探索"的問(wèn)題,但還有另一個(gè)挑戰(zhàn):AI系統(tǒng)在這次優(yōu)化任務(wù)中學(xué)到的東西,能不能在下一次任務(wù)中發(fā)揮作用?

這就是**優(yōu)化記憶庫(kù)**(optimization memory)的用武之地。它本質(zhì)上是一個(gè)動(dòng)態(tài)更新的經(jīng)驗(yàn)檔案,記錄著每次成功或失敗的優(yōu)化嘗試中,哪段代碼的哪種改動(dòng)帶來(lái)了顯著的速度提升或下降。更重要的是,總結(jié)師會(huì)把這些具體的代碼改動(dòng)抽象成更通用的規(guī)律,比如"把不變的矩陣轉(zhuǎn)置操作移到循環(huán)外面,可以避免重復(fù)計(jì)算"。

記憶庫(kù)的設(shè)計(jì)有幾個(gè)值得關(guān)注的細(xì)節(jié)。一方面,它不僅記錄"成功案例"(慢變快),也記錄"失敗案例"(快變慢),因?yàn)橹朗裁床辉撟鲇袝r(shí)候和知道什么該做同樣重要。另一方面,為了防止記憶庫(kù)被重復(fù)的、相似的經(jīng)驗(yàn)刷屏,系統(tǒng)在選取經(jīng)驗(yàn)條目時(shí)會(huì)刻意保持多樣性——不同的候選內(nèi)核、不同的優(yōu)化方向,各自貢獻(xiàn)一個(gè)最有代表性的經(jīng)驗(yàn)點(diǎn)。

記憶庫(kù)有兩個(gè)關(guān)鍵參數(shù)控制其行為:ExpN控制庫(kù)的容量(能保存多少條歷史經(jīng)驗(yàn)),TopK控制每輪迭代能往庫(kù)里新增多少條新經(jīng)驗(yàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),增大容量(ExpN)比增大每輪更新量(TopK)更劃算——保留更多歷史沉淀的價(jià)值,高于在每輪迭代中急著塞入更多新經(jīng)驗(yàn)。這就好像一位調(diào)音師,積累十年工齡的深厚閱歷,比剛?cè)胄袝r(shí)每天快速記筆記要更有價(jià)值。

五、NKIBench:給調(diào)音師設(shè)計(jì)一套考題

研究團(tuán)隊(duì)在評(píng)估AccelOpt時(shí)遇到了另一個(gè)問(wèn)題:沒(méi)有合適的標(biāo)準(zhǔn)考題。已有的AI芯片內(nèi)核基準(zhǔn)測(cè)試,要么不包含NKI程序,要么只是簡(jiǎn)單地比較"優(yōu)化后比優(yōu)化前快了多少倍",卻無(wú)法告訴你這個(gè)內(nèi)核距離芯片的極限還有多遠(yuǎn)的路要走。

于是研究團(tuán)隊(duì)自己動(dòng)手構(gòu)建了**NKIBench**,這是第一個(gè)專(zhuān)門(mén)針對(duì)Trainium芯片NKI內(nèi)核的基準(zhǔn)測(cè)試套件。所有14個(gè)測(cè)試任務(wù)都來(lái)自真實(shí)的大模型工作負(fù)載,包括DeepSeek、Qwen3、Falcon等主流模型中涉及的矩陣乘法、批量矩陣乘、注意力機(jī)制、RMSNorm歸一化、LoRA微調(diào)、Mamba序列模型等關(guān)鍵算子。

NKIBench的一個(gè)重要?jiǎng)?chuàng)新在于,它為每個(gè)任務(wù)計(jì)算了硬件理論峰值性能,并用實(shí)際運(yùn)行時(shí)間占峰值性能的百分比來(lái)衡量?jī)?nèi)核的優(yōu)化程度。這就好比一輛賽車(chē)在跑圈,不是只看它比上一版車(chē)快了幾秒,而是直接告訴你它已經(jīng)跑到了這條賽道理論最快圈速的多少百分比。這個(gè)指標(biāo)更能客觀(guān)反映優(yōu)化工作還有多大的提升空間。

理論峰值的計(jì)算基于芯片的三個(gè)核心瓶頸:HBM帶寬(芯片從外部?jī)?nèi)存讀寫(xiě)數(shù)據(jù)的速度)、張量引擎算力(專(zhuān)門(mén)做矩陣乘法的計(jì)算單元的速度)、向量引擎算力(做其他數(shù)學(xué)運(yùn)算的計(jì)算單元的速度)。具體公式是取這三個(gè)瓶頸中最緊的那個(gè)作為理論最快速度,然后用實(shí)際延遲與之相比。

六、調(diào)音的成果:從49%到61%

經(jīng)過(guò)系統(tǒng)性的測(cè)試,AccelOpt的表現(xiàn)相當(dāng)令人滿(mǎn)意。在Trainium 1芯片上,NKIBench測(cè)試集的平均峰值吞吐量占比從優(yōu)化前的49%提升到了61%;在更新的Trainium 2芯片上,則從45%提升到59%。換句話(huà)說(shuō),這批內(nèi)核程序在優(yōu)化后,能榨取出芯片更多的潛力,平均提升幅度在12到14個(gè)百分點(diǎn)之間。

更有趣的是與頂尖商業(yè)模型的對(duì)比。Anthropic公司的Claude Sonnet 4是當(dāng)前公認(rèn)的最強(qiáng)代碼生成模型之一,研究團(tuán)隊(duì)也用它來(lái)做同樣的內(nèi)核優(yōu)化任務(wù)(采用重復(fù)采樣的方式,不斷生成新版本直到預(yù)算用完)。最終,AccelOpt在使用開(kāi)源模型(Qwen3-Coder-480B作為執(zhí)行師,gpt-oss-120b負(fù)責(zé)其余角色)的情況下,達(dá)到了與Claude Sonnet 4相近的優(yōu)化效果,但花費(fèi)的API調(diào)用費(fèi)用僅為后者的二十六分之一。

這個(gè)對(duì)比背后有一個(gè)很有意思的發(fā)現(xiàn):Claude Sonnet 4的"重復(fù)采樣"策略,本質(zhì)上是在同一個(gè)起點(diǎn)反復(fù)嘗試,就像一個(gè)調(diào)音師一遍遍地試彈同一個(gè)音,期望某次偶然能找到最優(yōu)解。而AccelOpt的束搜索則是從優(yōu)秀的版本出發(fā)繼續(xù)精進(jìn),每一步都站在前一步的肩膀上。這種迭代式進(jìn)化的策略,讓開(kāi)源模型在成本上大幅領(lǐng)先的同時(shí),仍能保持競(jìng)爭(zhēng)力。

七、AccelOpt發(fā)現(xiàn)了哪些具體的優(yōu)化技巧

研究團(tuán)隊(duì)特別列舉了AccelOpt自主發(fā)現(xiàn)的幾類(lèi)典型優(yōu)化,展示了這套系統(tǒng)的實(shí)際能力深度。

第一類(lèi)是**窺孔優(yōu)化**(peephole optimization),也就是對(duì)局部代碼片段進(jìn)行精簡(jiǎn)和替換。比如,AccelOpt會(huì)自動(dòng)識(shí)別出`θ_t–1 – γλθ_t–1`可以化簡(jiǎn)為`(1–γλ)θ_t–1`,從而把一次減法和一次乘法合并成一次乘法,減少計(jì)算量。它還能識(shí)別`reciprocal(sqrt(...))`這個(gè)組合可以被替換為更高效的`rsqrt(...)`單一指令,減少中間臨時(shí)變量的創(chuàng)建。對(duì)于SiLU激活函數(shù),AccelOpt發(fā)現(xiàn)`x/(1+e^{-x})`可以改寫(xiě)為`x·sigmoid(x)`,從而調(diào)用NKI專(zhuān)門(mén)優(yōu)化過(guò)的sigmoid指令,獲得更高效率。

第二類(lèi)是**循環(huán)變換優(yōu)化**,這類(lèi)優(yōu)化需要更深層次的推理。研究團(tuán)隊(duì)展示了一個(gè)BatchMatmul加Softmax融合算子的優(yōu)化案例,非常能說(shuō)明問(wèn)題。初始版本的內(nèi)核因?yàn)橹虚g變量`v`和`p`需要跨越兩個(gè)循環(huán)存活,被迫溢出到芯片外部的慢速內(nèi)存(HBM)中,造成大量額外的數(shù)據(jù)搬運(yùn)開(kāi)銷(xiāo),延遲高達(dá)12毫秒,向量引擎利用率只有46%。AccelOpt在第一步發(fā)現(xiàn)了這個(gè)溢出問(wèn)題,提出重新計(jì)算`v'`來(lái)消除溢出,延遲降到8.2毫秒,但代價(jià)是引入了額外的矩陣乘法計(jì)算。系統(tǒng)沒(méi)有滿(mǎn)足于這個(gè)結(jié)果,繼續(xù)推進(jìn),在下一步徹底重構(gòu)了循環(huán)結(jié)構(gòu),去掉了重新計(jì)算和多余的外層循環(huán),最終版本延遲降到6.4毫秒,向量引擎利用率躍升至84%。

第三類(lèi)是**循環(huán)不變量外提**(loop invariant code motion)。這個(gè)概念用大家熟悉的場(chǎng)景來(lái)說(shuō):假設(shè)你要做20道數(shù)學(xué)題,每道題開(kāi)始都要先查一遍同一張乘法表——合理的做法顯然是只查一次,把結(jié)果記在手邊。AccelOpt在Transpose+Matmul的內(nèi)核中發(fā)現(xiàn),LHS矩陣的轉(zhuǎn)置操作在每次外層循環(huán)迭代中都被重復(fù)執(zhí)行了16次,而這個(gè)轉(zhuǎn)置結(jié)果其實(shí)從不改變。系統(tǒng)自動(dòng)將這個(gè)操作提到循環(huán)外面,緩存在全局緩沖區(qū)里,消除了冗余的15次重復(fù)計(jì)算。

八、哪里調(diào)不動(dòng):AccelOpt的局限性

公平的評(píng)估不僅要看成績(jī),也要誠(chéng)實(shí)面對(duì)局限。研究團(tuán)隊(duì)通過(guò)細(xì)致的觀(guān)察,總結(jié)出AccelOpt遭遇"停滯"的兩類(lèi)典型情況。

第一類(lèi)是"已經(jīng)夠好了"的停滯。當(dāng)一個(gè)內(nèi)核在經(jīng)過(guò)若干輪優(yōu)化后,已經(jīng)達(dá)到了硬件峰值的80%以上,剩下的提升空間自然越來(lái)越小。在Matmul(K=5120)這個(gè)測(cè)試案例中,系統(tǒng)在第7次迭代后達(dá)到約82%峰值吞吐量后便不再有顯著進(jìn)展——但這并非因?yàn)橄到y(tǒng)停止了探索,從后續(xù)迭代的數(shù)據(jù)變化可以看出,系統(tǒng)仍在嘗試各種不同策略,只是已經(jīng)沒(méi)有足夠的提升余地了。這類(lèi)停滯是"勝利后的停滯",本質(zhì)上是好事。

第二類(lèi)是"無(wú)從下手"的停滯。BatchMatmul(B=16, K=64)這個(gè)案例是最典型的例子。這個(gè)算子的問(wèn)題規(guī)模很小,所有數(shù)據(jù)都能放進(jìn)芯片的片上緩存中,因此內(nèi)存?zhèn)鬏斝侍烊痪徒咏?00%,沒(méi)什么可優(yōu)化的余地。更棘手的是,它的縮減維度K=64只有芯片張量引擎原生支持的維度128的一半,導(dǎo)致硬件利用率很難提上去,當(dāng)前的NKI接口也缺乏應(yīng)對(duì)這種情況的有效工具。在這個(gè)案例的整個(gè)優(yōu)化過(guò)程中,幾乎所有的性能指標(biāo)都紋絲不動(dòng),系統(tǒng)生成的大多數(shù)改動(dòng)要么正確率極低,要么性能不見(jiàn)起色。這類(lèi)問(wèn)題提示了NKI接口本身的設(shè)計(jì)局限,也指出了未來(lái)可以改進(jìn)的方向。

九、與專(zhuān)家對(duì)決:AI能超過(guò)人工調(diào)優(yōu)嗎

研究團(tuán)隊(duì)還做了一個(gè)很有說(shuō)服力的比較實(shí)驗(yàn),把AccelOpt的成果與人類(lèi)專(zhuān)家手工優(yōu)化的版本放在一起評(píng)判。

對(duì)于Mamba序列模型的內(nèi)核,NKI官方教程提供了三個(gè)由人工逐步優(yōu)化的版本,分別達(dá)到28.4%、30.1%和52.7%的峰值吞吐量占比。AccelOpt從同一個(gè)起點(diǎn)(28.4%的版本)出發(fā),自主優(yōu)化到了54.6%,略高于人類(lèi)專(zhuān)家的最佳版本(52.7%)。更有趣的是,AccelOpt生成的最優(yōu)內(nèi)核采用了與人類(lèi)專(zhuān)家完全不同的循環(huán)順序,走的是另一條路,卻到達(dá)了更高的終點(diǎn)。

對(duì)于RoPE位置編碼的內(nèi)核,NKI官方示例提供了一個(gè)達(dá)到21.1%峰值的參考版本。AccelOpt從這個(gè)版本出發(fā),將其提升到29.6%,實(shí)現(xiàn)了1.4倍的加速。

研究團(tuán)隊(duì)指出,AccelOpt超越人類(lèi)專(zhuān)家的根本原因在于**規(guī)模效應(yīng)**:人類(lèi)工程師通常只能串行地逐個(gè)優(yōu)化內(nèi)核,而AccelOpt可以同時(shí)并行探索大量不同的優(yōu)化方向。當(dāng)人類(lèi)工程師還在仔細(xì)思考某個(gè)方向是否值得深入時(shí),AccelOpt已經(jīng)同時(shí)跑完了幾十個(gè)并行實(shí)驗(yàn)。

此外,研究團(tuán)隊(duì)還把AccelOpt應(yīng)用到了斯坦福大學(xué)CS149并行計(jì)算課程的教學(xué)中。在2025年秋季學(xué)期,他們用AccelOpt優(yōu)化了一個(gè)課程外的二維卷積(Conv2D)內(nèi)核,從去年的參考實(shí)現(xiàn)(9.54%峰值吞吐量)提升到了48.8%?;贏(yíng)ccelOpt提出的優(yōu)化思路,課程組設(shè)計(jì)了一道附加題,131支學(xué)生隊(duì)伍中有33.6%成功完成了挑戰(zhàn)。學(xué)生們?cè)谶@個(gè)過(guò)程中具體學(xué)到了兩個(gè)原則:把時(shí)序上順序執(zhí)行的計(jì)算轉(zhuǎn)化為空間上并行執(zhí)行,以及針對(duì)特定工作負(fù)載在硬件約束下進(jìn)行專(zhuān)門(mén)化設(shè)計(jì)。

十、成本控制:聰明地花每一分錢(qián)

AccelOpt是一個(gè)需要持續(xù)調(diào)用AI模型接口的系統(tǒng),因此成本控制是不得不考慮的現(xiàn)實(shí)問(wèn)題。研究團(tuán)隊(duì)對(duì)各種參數(shù)組合和模型選擇做了細(xì)致的成本收益分析。

在模型選擇方面,一個(gè)出人意料的發(fā)現(xiàn)是:換用不同的規(guī)劃師模型(無(wú)論是小巧的gpt-oss-20b還是強(qiáng)大的Qwen3-235B-Thinking),對(duì)最終優(yōu)化效果幾乎沒(méi)有顯著影響;但換用不同的執(zhí)行師模型,效果差距則非常明顯。這說(shuō)明,在A(yíng)ccelOpt的工作流程中,正確理解并實(shí)現(xiàn)代碼改動(dòng)的能力(執(zhí)行師的任務(wù))遠(yuǎn)比制定優(yōu)化方向的能力(規(guī)劃師的任務(wù))更關(guān)鍵。因此,提升系統(tǒng)性能應(yīng)該優(yōu)先考慮用更強(qiáng)的執(zhí)行師,而不是花錢(qián)升級(jí)規(guī)劃師。

在內(nèi)存配置方面,研究團(tuán)隊(duì)發(fā)現(xiàn)增大ExpN(擴(kuò)大記憶庫(kù)容量、保留更多歷史經(jīng)驗(yàn))比增大TopK(每輪迭代更激進(jìn)地更新記憶)更具性?xún)r(jià)比。以Qwen3-Coder-30B為執(zhí)行師為例,將ExpN從8增加到16,額外花費(fèi)12.33美元換來(lái)了4.6%的加速提升;而gpt-oss-120b在同樣條件下,額外花費(fèi)13.81美元只帶來(lái)了0.6%的提升,顯示不同模型對(duì)擴(kuò)充歷史經(jīng)驗(yàn)的敏感度差異很大。

在整體對(duì)比中,使用Claude Sonnet 4做重復(fù)采樣的總花費(fèi)約為5806美元,最終平均加速比約1.222倍;而AccelOpt使用gpt-oss-120b,花費(fèi)約139美元,達(dá)到1.235倍加速。成本差距高達(dá)四十倍,效果還略有反超。

十一、不只是Trainium:通用性展望

AccelOpt的設(shè)計(jì)從一開(kāi)始就考慮了通用性。束搜索機(jī)制和優(yōu)化記憶庫(kù)的核心設(shè)計(jì)與具體硬件無(wú)關(guān),要把系統(tǒng)遷移到新的平臺(tái),只需要兩樣?xùn)|西:一是針對(duì)新平臺(tái)的性能剖析服務(wù),二是包含新平臺(tái)基礎(chǔ)知識(shí)的提示詞模板。

研究團(tuán)隊(duì)已經(jīng)在GPU平臺(tái)上做了初步驗(yàn)證。他們將AccelOpt應(yīng)用于FlashInfer-Bench中的24個(gè)Triton內(nèi)核(運(yùn)行在英偉達(dá)H100 GPU上),使用gpt-oss-120b實(shí)現(xiàn)了平均1.27倍的加速,其中對(duì)GQA解碼內(nèi)核的峰值加速達(dá)到3.19倍。研究團(tuán)隊(duì)認(rèn)為,由于大型語(yǔ)言模型在訓(xùn)練數(shù)據(jù)中見(jiàn)過(guò)大量GPU編程的示例,AccelOpt在GPU上的效果應(yīng)該比在相對(duì)陌生的Trainium上更好,這一初步結(jié)果也印證了這個(gè)判斷。

說(shuō)到底,AccelOpt做的事情是把"讓AI芯片發(fā)揮最大效能"這件原本需要頂尖專(zhuān)家耗費(fèi)數(shù)年時(shí)光的工作,部分自動(dòng)化了。它不是萬(wàn)能的——面對(duì)某些特殊情況它也會(huì)束手無(wú)策,也還無(wú)法跨越硬件接口本身的設(shè)計(jì)限制——但它確實(shí)證明了一件事:AI可以通過(guò)自我探索和經(jīng)驗(yàn)積累,在一個(gè)全新的、陌生的技術(shù)領(lǐng)域里,逐步逼近甚至偶爾超越人類(lèi)專(zhuān)家的水平,而且代價(jià)可以比人工低得多。

對(duì)于普通用戶(hù)來(lái)說(shuō),這意味著未來(lái)大模型的推理速度可能更快、運(yùn)行成本更低,因?yàn)轵?qū)動(dòng)這些模型的底層代碼會(huì)越來(lái)越高效。對(duì)于A(yíng)I工程師來(lái)說(shuō),這意味著他們不再需要在每款新芯片上從頭開(kāi)始漫長(zhǎng)的調(diào)優(yōu)之旅,而是可以把這項(xiàng)繁重的初步工作交給系統(tǒng)自動(dòng)完成,然后在系統(tǒng)探索的基礎(chǔ)上做更有創(chuàng)意的工作。

AccelOpt和NKIBench的代碼與數(shù)據(jù)已經(jīng)開(kāi)源,這14個(gè)測(cè)試任務(wù)也作為了一個(gè)起點(diǎn),供未來(lái)的研究者繼續(xù)深入探索。對(duì)這個(gè)方向感興趣的讀者,可以通過(guò)arXiv編號(hào)2511.15915v2查閱完整論文,以及在GitHub上訪(fǎng)問(wèn)zhang677/AccelOpt項(xiàng)目獲取代碼。

Q&A

Q1:AccelOpt的優(yōu)化記憶庫(kù)和普通AI的上下文窗口有什么區(qū)別?

A:普通AI的上下文窗口是單次對(duì)話(huà)的臨時(shí)記憶,對(duì)話(huà)結(jié)束后清空。AccelOpt的優(yōu)化記憶庫(kù)則是跨輪次持續(xù)積累的經(jīng)驗(yàn)檔案,專(zhuān)門(mén)存儲(chǔ)那些經(jīng)過(guò)實(shí)際硬件驗(yàn)證、帶來(lái)真實(shí)速度提升的代碼改動(dòng)規(guī)律。它會(huì)被整理成通用的優(yōu)化原則和代碼片段對(duì),并在之后的每一輪優(yōu)化中作為參考提供給規(guī)劃師智能體,相當(dāng)于一本通過(guò)實(shí)戰(zhàn)不斷擴(kuò)充的經(jīng)驗(yàn)手冊(cè),而不是每次從零開(kāi)始。

Q2:AccelOpt能用來(lái)優(yōu)化普通Python或C++代碼嗎?

A:目前AccelOpt的設(shè)計(jì)專(zhuān)門(mén)針對(duì)AI加速器的內(nèi)核程序(如Trainium的NKI程序和GPU的Triton程序),它的優(yōu)化邏輯依賴(lài)硬件性能剖析數(shù)據(jù)(如內(nèi)存帶寬占用、引擎利用率等),以及對(duì)特定硬件架構(gòu)的專(zhuān)業(yè)知識(shí)。不過(guò)系統(tǒng)的核心框架——束搜索加上自我更新的經(jīng)驗(yàn)記憶——理論上可以遷移到其他代碼優(yōu)化場(chǎng)景,只需要替換對(duì)應(yīng)的性能評(píng)估工具和領(lǐng)域知識(shí)提示詞。

Q3:NKIBench中哪類(lèi)內(nèi)核最難優(yōu)化?

A:從測(cè)試結(jié)果來(lái)看,規(guī)模較小、數(shù)據(jù)能完全裝入片上緩存的內(nèi)核最難通過(guò)代碼層面的優(yōu)化來(lái)提升性能,比如BatchMatmul(B=16, K=64)這個(gè)案例。這類(lèi)問(wèn)題的瓶頸不在于數(shù)據(jù)搬運(yùn)或計(jì)算冗余,而在于硬件規(guī)格本身的限制——例如Trainium的張量引擎原生支持128維度的縮減,而K=64只有這個(gè)維度的一半,導(dǎo)致硬件利用率天花板極低。AccelOpt在這類(lèi)情況下幾乎無(wú)能為力,這也提示了NKI編程接口本身還有改進(jìn)空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線(xiàn)男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線(xiàn)男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話(huà)
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿(mǎn)血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿(mǎn)血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱(chēng)自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱(chēng)自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀(guān)
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開(kāi)始慌了

倒查13年,央國(guó)企開(kāi)始慌了

職場(chǎng)資深秘書(shū)
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
健康
游戲
教育
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫(huà)面

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版