網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

英偉達(dá)革了自己的命:智能體進(jìn)化7天,干掉所有算子工程師、GPU專家

2026-03-26 11:35:16　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

這應(yīng)該是今天剛剛出爐的、最炸裂的文章。

在很多算子開發(fā)的微信群組，已經(jīng)掀起了軒然大波。

「這或許是超人類智能在軟件領(lǐng)域的真正首次展露。」英偉達(dá)許冰剛剛在 X 上發(fā)出了如此斷言。他所評論的，正是他與 Terry Chen 和 Zhifan Ye 為共同一作的一項英偉達(dá)新研究AVO

在本周四剛剛提交到 arXiv 上的這項研究中，英偉達(dá)構(gòu)建了Agentic Variation Operator（AVO），這是一類新型進(jìn)化變異算子，它用自主編碼智能體取代了經(jīng)典進(jìn)化搜索中固定的變異、交叉和人工設(shè)計的啟發(fā)式方法，并取得了相當(dāng)震撼的實(shí)際表現(xiàn)。

許冰表示：「在一些經(jīng)過高度優(yōu)化的注意力機(jī)制工作負(fù)載中，智能體在沒有人工干預(yù)的情況下，即可在優(yōu)化循環(huán)中連續(xù)搜索 7 天，從而超越幾乎所有人類 GPU 專家。」——AVO 的如此表現(xiàn)可能會讓許多內(nèi)核/DSL 瑟瑟發(fā)抖。

黃之鵬的 X 推文

有意思的是，在 X 推文中，許冰還分享說一年半之前他與 Terry Chen 剛開始在英偉達(dá)研究智能體編程時，他們還不懂 GPU 編程，「所以從一開始我們就致力于開發(fā)完全自動化、無需人工干預(yù)的系統(tǒng)?！顾麄兎Q之為「盲編程（blind coding）」。

「在過去一年半的時間里，我們兩人在兩個智能體系統(tǒng)中開發(fā)了四代智能體。從第二代開始，這些智能體棧就開始自我演化?，F(xiàn)在每個智能體的代碼行數(shù)都約為 10 萬行（非空代碼）。」

他還重點(diǎn)強(qiáng)調(diào)了 AVO 背后的重大意義：「我敢打賭：盲編程是軟件工程的未來。人類認(rèn)知能力是瓶頸。

下面我們就來詳細(xì)看看這篇或?qū)㈤_啟「盲編程」新時代的論文究竟做出了什么貢獻(xiàn)。

論文標(biāo)題：AVO: Agentic Variation Operators for Autonomous Evolutionary Search
論文地址：https://arxiv.org/abs/2603.24517v1

大語言模型已成為進(jìn)化搜索（Evolutionary Search）中的強(qiáng)大組件，它以學(xué)習(xí)代碼生成取代了手工設(shè)計的變異算子。在這些系統(tǒng)中，LLM 根據(jù)選定的父代生成候選解，而通?；趩l(fā)式的框架則負(fù)責(zé)父代采樣、評估和種群管理。這種組合在數(shù)學(xué)優(yōu)化和算法發(fā)現(xiàn)領(lǐng)域取得了顯著成果，包括 FunSearch 和 AlphaEvolve 等旗艦系統(tǒng)。

然而，將 LLM 限制在預(yù)設(shè)流程中的候選解生成功能從根本上限制了其發(fā)現(xiàn)能力：每次調(diào)用僅產(chǎn)生一個輸出，無法主動查閱參考資料、測試其更改、解讀反饋或在提交候選方案前修正方案。對于那些已經(jīng)過極致人工調(diào)優(yōu)、需要深度迭代工程才能進(jìn)一步改進(jìn)的實(shí)現(xiàn)，這種限制尤為突出。

研究者針對注意力機(jī)制背景下的這一問題進(jìn)行了研究。注意力機(jī)制是 Transformer 架構(gòu)的核心算子，也是優(yōu)化最密集的 GPU 算子之一。FlashAttention 系列和英偉達(dá)的 cuDNN 庫已將歷代 GPU 的注意力吞吐量推向硬件極限；在最新的 Blackwell 架構(gòu)上，F(xiàn)lashAttention-4 (FA4) 和 cuDNN 均需要數(shù)月的人工優(yōu)化。若要超越這些實(shí)現(xiàn)，需要與開發(fā)環(huán)境進(jìn)行持續(xù)、迭代的交互：研究硬件文檔、分析分析器（Profiler）輸出以識別瓶頸、實(shí)現(xiàn)并測試候選優(yōu)化方案、診斷正確性故障，并根據(jù)積累的經(jīng)驗(yàn)修正策略。

深度智能體（Deep Agents）的最新進(jìn)展表明，結(jié)合了規(guī)劃、持久內(nèi)存和工具使用能力的 LLM 可以自主處理此類多步工程工作流，應(yīng)用范圍涵蓋從解決復(fù)雜的 GitHub 問題到生成關(guān)鍵深度學(xué)習(xí)軟件。這促使 LLM 在演化搜索中扮演一種截然不同的角色：與其將其限制在固定流水線內(nèi)，不如將深度智能體提升為變異算子本身。

為此，英偉達(dá)提出了智能體式變異算子（Agentic Variation Operators, AVO）。在這種模式下，一個自導(dǎo)向的代碼代理取代了以往基于單輪 LLM 或固定工作流系統(tǒng)中的變異和交叉過程。AVO 智能體擁有訪問所有先前方案、特定領(lǐng)域知識庫和評估工具的權(quán)限。它能自主決定查閱內(nèi)容、修改對象以及評估時機(jī)，從而實(shí)現(xiàn)在長周期內(nèi)的持續(xù)改進(jìn)。

為了驗(yàn)證其有效性，英偉達(dá)將 AVO 應(yīng)用于NVIDIA Blackwell B200 GPU上的多頭注意力（MHA）內(nèi)核，并直接與專家優(yōu)化的 cuDNN 和 FlashAttention-4 內(nèi)核進(jìn)行對比。在無需人工干預(yù)、長達(dá) 7 天的連續(xù)自主演化中，智能體探索了超過 500 個優(yōu)化方向，演化出 40 個內(nèi)核版本。最終生成的 MHA 內(nèi)核在 BF16 精度下達(dá)到了最高1668 TFLOPS的吞吐量，在測試配置中分別超越 cuDNN 高達(dá)3.5%，超越 FlashAttention-4 高達(dá)10.5%

英偉達(dá)對智能體發(fā)現(xiàn)的優(yōu)化方案進(jìn)行分析后發(fā)現(xiàn)，這些優(yōu)化涵蓋了內(nèi)核設(shè)計的多個層面，包括寄存器分配、指令流水線調(diào)度和負(fù)載分布，反映了真正的硬件級推理。實(shí)驗(yàn)表明，在 MHA 上發(fā)現(xiàn)的優(yōu)化技術(shù)能有效遷移至分組查詢注意力（GQA）：智能體僅需 30 分鐘的額外自主適配，即可完成演化版 MHA 內(nèi)核對 GQA 的支持，其性能相比 cuDNN 提升高達(dá) 7.0%，相比 FlashAttention-4 提升 9.3%。

該研究的主要貢獻(xiàn)如下：

提出代理式變異算子（AVO）：這是一類新型的演化變異算子，將智能體從單純的候選生成器提升為變異算子。智能體通過與環(huán)境的迭代交互，自主探索領(lǐng)域知識、實(shí)施修改并驗(yàn)證結(jié)果。
實(shí)現(xiàn) SOTA 性能：在 NVIDIA B200 GPU 上，研究者在基準(zhǔn)測試配置中實(shí)現(xiàn)了最頂尖的 MHA 吞吐量，達(dá)到 1668 TFLOPS，性能超越 cuDNN 高達(dá) 3.5%，超越 FlashAttention-4 高達(dá) 10.5%。此外，他們證明了這些優(yōu)化可以輕松遷移至 GQA，僅需 30 分鐘的自主演化即可獲得顯著性能增益。
微架構(gòu)優(yōu)化分析：研究者對智能體在基準(zhǔn)測試設(shè)置下發(fā)現(xiàn)的微架構(gòu)優(yōu)化進(jìn)行了詳細(xì)分析，表明代理進(jìn)行的是真正的硬件級推理，而非表層的代碼變換。

告別流水線

AI 智能體成為真正的「進(jìn)化操盤手」

在傳統(tǒng)的基于 LLM 的進(jìn)化搜索框架中，模型往往被困在固定的流水線里，僅僅充當(dāng)候選代碼的生成器。它們每次調(diào)用只能輸出一次結(jié)果，無法主動查閱參考資料、測試代碼、理解反饋或在最終提交前修正策略。對于需要深度、反復(fù)迭代的頂級硬件優(yōu)化任務(wù)來說，這種限制尤為致命。

AVO 打破了這一局限，將「變異算子」實(shí)例化為一個自我驅(qū)動的智能體循環(huán)。這個 AI 智能體可以自由查閱之前的代碼版本記錄、調(diào)用領(lǐng)域?qū)俚闹R庫（如 CUDA 編程指南和 PTX 架構(gòu)文檔），并根據(jù)執(zhí)行反饋來主動提出、修復(fù)、批判和驗(yàn)證代碼修改。

簡而言之，AVO 將 AI 從被動的「代碼生成器」提升為了掌握全局的「進(jìn)化操盤手」。

7 天自主運(yùn)轉(zhuǎn)

在 Blackwell 架構(gòu)上擊敗頂尖基準(zhǔn)

研究團(tuán)隊將 AVO 部署在一項極具挑戰(zhàn)性的任務(wù)上：在 NVIDIA Blackwell (B200) GPU 上優(yōu)化多頭注意力（Multi-head Attention，簡稱 MHA）核心代碼。注意力機(jī)制是目前 Transformer 架構(gòu)的核心，也是 AI 芯片上被優(yōu)化得最極致的計算目標(biāo)之一。

在完全沒有人類干預(yù)的情況下，AVO 智能體連續(xù)自主運(yùn)行了 7 天

在這 7 天里，智能體在后臺探索了超過 500 個優(yōu)化方向，并最終提交了 40 個有效迭代版本。最終，它生成的 MHA 核心在 BF16 精度下實(shí)現(xiàn)了高達(dá) 1668 TFLOPS 的吞吐量。

在基準(zhǔn)測試中，AVO 交出的答卷令人驚嘆：

相比英偉達(dá)官方為 Blackwell 定制的閉源 cuDNN 庫，吞吐量提升了最高3.5%
相比目前最前沿的開源基準(zhǔn) FlashAttention-4，吞吐量提升了最高10.5%

強(qiáng)大的泛化能力

30 分鐘遷移至分組查詢注意力

更令人印象深刻的是，這些由智能體發(fā)現(xiàn)的底層微架構(gòu)優(yōu)化，并非只針對特定場景的過度擬合。當(dāng)研究人員要求 AVO 將優(yōu)化好的 MHA 核心適配到如今大模型常用的分組查詢注意力（Grouped-query Attention，簡稱 GQA）時，智能體僅用了約 30 分鐘的自主調(diào)整就完成了任務(wù)。

在 GQA 的測試中，AVO 依然保持了絕對的領(lǐng)先優(yōu)勢，性能比 cuDNN 高出最高 7.0%，比 FlashAttention-4 高出最高 9.3%。這表明，智能體在 MHA 進(jìn)化過程中發(fā)現(xiàn)的計算和內(nèi)存訪問優(yōu)化模式，能夠有效泛化到具有不同計算特征的 GQA 任務(wù)中。

深入底層的微架構(gòu)推理

分析 AVO 提交的代碼變更可以看出，AI 智能體并非在做表面功夫，而是進(jìn)行了真正深入硬件底層的邏輯推理：

無分支累加器重縮放：通過消除條件分支，智能體排除了 warp 同步的開銷，并替換了更輕量級的內(nèi)存屏障，使得非因果注意力的吞吐量一次性提升了 8.1%。
糾錯與張量核心（MMA）流水線重疊：智能體重新組織了執(zhí)行流水線，將原本順序執(zhí)行的依賴關(guān)系轉(zhuǎn)化為交疊的流水線執(zhí)行，大幅減少了硬件的空閑等待時間。
跨 warp 組的寄存器重新平衡：智能體通過分析性能分析器的數(shù)據(jù)，發(fā)現(xiàn)某些運(yùn)算組因?yàn)榧拇嫫鞑蛔愣鴮?dǎo)致數(shù)據(jù)溢出至慢速本地內(nèi)存。它果斷對 Blackwell 的 2048 個寄存器預(yù)算進(jìn)行了重新分配，進(jìn)一步壓榨出 2.1% 的性能提升。

英偉達(dá)的這項研究證明，AI 智能體已經(jīng)具備了處理多硬件子系統(tǒng)（如同步、內(nèi)存排序、流水線調(diào)度和寄存器分配）聯(lián)合推理的能力。AVO 作為一種不局限于特定領(lǐng)域的進(jìn)化變異算子，為未來的自動化軟件系統(tǒng)優(yōu)化指出了一條明路。它不僅能用于 AI 芯片和深度學(xué)習(xí)底層生態(tài)的開發(fā)，未來更有望在所有對算力有著極致苛求的科學(xué)和工程領(lǐng)域中大展拳腳。

AI 智能體的自我進(jìn)化能夠達(dá)到這種水平，你怕了嗎？

https://x.com/bingxu_/status/2036983004200149460?s=46

https://x.com/nopainkiller/status/2036986666410532972

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.