国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

AI寫CUDA算子國產芯片不行?上交方法直線拉升,DeepSeek也適用

0
分享至



GPT-5.2 寫 CUDA 算子,正確率 92%。同樣的模型,給華為 Ascend NPU 寫算子,正確率只有 4%。不是模型變笨了,是它壓根沒見過這類代碼。公開數據幾乎為零,專家寥寥無幾,編譯報錯你還看不懂 —— 這就是 "新硬件冷啟動" 的真實處境。

上海交大團隊的 EvoKernel 不訓新模型、不標新數據,而是讓大模型像老工程師一樣積累經驗:每寫一次算子,記住什么管用、什么不管用,下次優(yōu)先調用最有價值的歷史經驗。結果:同一個 GPT-5.2,正確率從 4% 拉到 83%,最快的算子比 PyTorch 基線快了 42 倍。不僅如此,團隊還將方法拓展到 DeepSeek 最新 mHC 架構的算子上,同樣取得了顯著效果。

該方案的早期實踐已在昇騰 AI 創(chuàng)新大賽 2025 全國總決賽中斬獲初創(chuàng)賽道金獎 ,項目獲華為計算·夢想起航種子計劃支持。相關團隊成員亦在第十九屆"挑戰(zhàn)杯"全國揭榜掛帥擂臺賽中獲得擂主(特等獎第一名)。

算子(Kernel)是大模型直接運行在加速芯片上的底層計算程序 —— 矩陣乘法、卷積、Softmax 等每一個基礎運算,都需要一段精細適配硬件的算子代碼才能高效執(zhí)行,它的調優(yōu)和硬件適配,長期以來一直是需要專家參與的 “手藝活”。在 CUDA 生態(tài)里,算子開發(fā)有海量開源代碼和成熟工具鏈做支撐,近期以來,大模型也能寫出不錯的 GPU 算子。但昇騰等國產 NPU 有自己的編程語言(如 Ascend C)和硬件架構,公開代碼幾乎為零、開發(fā)者社區(qū)尚在起步,大模型在這些新生態(tài)上近乎 "裸考"。

論文中的實驗把這種落差量化得非常直接。以 GPT-5.2 為例,在 CUDA Level 1 任務上正確率可達 92%,遷移到 Ascend C 后只剩 14%;更難的 Level 2 任務,正確率從 90% 直接跌到 2%。公開數據少、專家經驗稀缺、編譯反饋不透明、性能調優(yōu)高度依賴真實硬件 —— 這些因素共同構成了一堵典型的 "數據墻",現(xiàn)有模型并沒有真正學會為新硬件編程,更多是在復用預訓練中見過的 CUDA 模式。



  • 論文標題:Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis
  • 作者單位:上海交通大學、上海人工智能實驗室 等
  • 項目主頁:https://evokernel.zhuo.li
  • arXiv 論文:https://arxiv.org/abs/2603.10846

EvoKernel 想做的

不是再訓一個模型

圍繞這一冷啟動難題,EvoKernel 給出的答案不是繼續(xù)堆標注數據,也不是重新訓練一個專門模型,而是設計了一套從初稿生成到持續(xù)優(yōu)化的自演化智能體框架。系統(tǒng)分成兩個連續(xù)階段:

  • 冷啟動生成(Cold-Start Drafting):先找到一個能編譯、能運行、結果正確的初始算子。
  • 持續(xù)改善(Continual Refining):在有了第一個可行版本之后,再持續(xù)做延遲優(yōu)化和性能改進。



圖 1:EvoKernel 的整體框架。系統(tǒng)先在冷啟動階段生成可行初稿,再在共享記憶與驗證反饋的幫助下持續(xù)做性能精煉。

這套框架最關鍵的設計,是論文提出的價值驅動記憶(Value-Driven Memory)。和常見的相似度檢索不同,EvoKernel 不只是問 "哪些歷史樣本看起來更像當前任務",而是進一步學習 "哪些歷史經驗在當前階段真正更有用"。為此,團隊引入了階段感知的 Q 值機制:在生成階段,系統(tǒng)優(yōu)先檢索更可能幫助模型通過編譯和正確性驗證的經驗;在精煉階段,則優(yōu)先保留更可能帶來性能收益的優(yōu)化軌跡、候選起點和上下文信息。

換句話說,EvoKernel 不是簡單地 "給模型喂更多例子",而是在讓模型逐漸學會:面對不同階段的目標,應該參考哪類記憶,忽略哪類噪聲。

為什么它不像傳統(tǒng)智能體一樣 "試一試運氣"?

為了讓這套記憶真正可用,團隊還構建了多層驗證機制。每一次生成的結果,都會經歷 reward hacking 檢查、編譯驗證、正確性校驗和延遲測量四個環(huán)節(jié):既要避免模型通過 Python 綁定層繞過算子實現(xiàn),又要檢查代碼能否在真實 Ascend C 工具鏈中成功編譯,并驗證輸出是否與 PyTorch 參考實現(xiàn)一致;只有通過這些檢查,候選結果才會進入下一輪性能優(yōu)化。具體而言,團隊針對語義繞過、常量偽造、高層 API 替代等多類 reward hacking 模式,設計了規(guī)則篩查與智能體篩查兩級反作弊機制,從源頭降低無效結果進入記憶庫的可能性。

也正因為驗證器足夠嚴格,EvoKernel 的迭代過程并不是提示詞工程式的 "多試幾次",而是圍繞真實執(zhí)行反饋不斷調整檢索策略、補充歷史經驗、擴大可用優(yōu)化起點。

從方法上看,EvoKernel 的關鍵并不只是 "有記憶",而是它能夠逐步學會哪些記憶在當前階段最值得取用。這也是它和一般基于靜態(tài)相似度檢索的方法最主要的區(qū)別。

主結果:從 4% 正確率一路拉到 83%

團隊基于 KernelBench 構建了 NPU 版本評測環(huán)境,經過 30 輪的迭代后,EvoKernel 在 GPT-5.2 上把整體結果顯著拉升:

  • 整體編譯率從 11.0% 提升到 98.5%
  • 整體正確率從 4.0% 提升到 83.0%
  • 在更難的 Level 2 任務上,實現(xiàn)了 100% 編譯率和 76% 正確率



圖 2:論文中的主實驗結果。表中同時給出了 Level 1、Level 2 和 Overall 三組結果,也展示了首輪到最終輪的變化幅度。對 GPT-5.2 而言,EvoKernel 在整體編譯率和正確率上都顯著優(yōu)于 Pass@k、Refinement 和 Codex。

作為對比,在相同 30 次預算下,Codex 智能體的整體結果為 83.0% 編譯率和 46.0% 正確率,傳統(tǒng)精煉基線則只有 71.5% 編譯率和 22.0% 正確率。也就是說,即便 Codex 擁有更強的自主工具調用能力,EvoKernel 依然在這個數據稀缺的 NPU 算子開發(fā)場景里,表現(xiàn)出了更強的穩(wěn)定性和成功率。

做對還不夠

EvoKernel 還在繼續(xù)把它做快

論文里另一個很值得關注的點,是 EvoKernel 不只停留在 "生成一個能跑的算子",而是在正確版本出現(xiàn)之后,繼續(xù)做持續(xù)優(yōu)化。



圖 3:EvoKernel 的優(yōu)化結果。左側展示不同類別算子在正確率和加速比上的分布,右側展示同一算子從首個正確版本到最佳版本的持續(xù)優(yōu)化收益。

實驗顯示,在已經找到首個正確版本的前提下,系統(tǒng)進一步通過持續(xù)精煉,把算子的中位數速度提升做到 3.60 倍,四分位區(qū)間為 1.38 倍到 10.05 倍。更重要的是,這并不是少數偶然樣本帶來的假象。論文統(tǒng)計了 159 個至少出現(xiàn)過 "正確且可繼續(xù)優(yōu)化" 候選的算子,發(fā)現(xiàn)其中不少都能隨著迭代持續(xù)獲得穩(wěn)定收益,部分算子相對首個正確版本的加速甚至超過 200 倍。

這意味著 EvoKernel 并不只是一個代碼修復工具,而是開始展現(xiàn)出更接近算子工程師的優(yōu)化能力。

記憶為什么有用

因為它真的能跨任務遷移

如果說主結果回答的是 "EvoKernel 能不能把一個任務做出來",那么這部分結果回答的則是 "它能不能把經驗留下來,下次繼續(xù)用"。



圖 4:EvoKernel 在跨難度、跨模型設置下的遷移能力。

團隊發(fā)現(xiàn),當系統(tǒng)先在更簡單的 L1 任務上積累經驗,再遷移到更難的 L2 任務時,正確率上升明顯快于從零開始。在第 17 次迭代時,L1 → L2 的遷移設置已經達到 64% 的 L2 正確率,顯著超過混合訓練和從零開始兩種方式。

更進一步,論文還驗證了跨模型遷移。用 GPT-5.2 構建出的記憶庫,能夠把 DeepSeek-V3.2 在保留測試集上的編譯率從 26% 提升到 80%,正確率從 6% 提升到 58%;對 Qwen3-Coder-30B,同樣可以把編譯率從 14% 提升到 84%,正確率從 4% 提升到 32%。這些結果說明,這種記憶更像是一種可復用的 "任務經驗資產",而不只是一次性上下文拼接。

不止 KernelBench

它還開始走向更真實的工程場景

如果一套方法只在基準測試上好看,意義其實有限 —— 已有研究表明,在 KernelBench 上表現(xiàn)優(yōu)異的模型,面對新出現(xiàn)的算子或真實硬件需求時,正確率可能直線下降。EvoKernel 的另一個亮點,是團隊把它繼續(xù)擴展到了主實驗分布之外的任務。

團隊額外構建了一組包含 70 個 Attention 類算子的測試集(Attention Set)。這些算子從 FlashAttention、xformers 等主流開源社區(qū)倉庫中手動篩選而來,覆蓋了當前大模型推理與訓練中需求最迫切、迭代最快的 Attention 算子變體 —— 這恰恰是芯片廠商在實際落地中優(yōu)先需要解決的算子類別。

在這組更貼近真實工程需求的任務上,EvoKernel 在 CUDA 平臺上達到了 100% 編譯率和 97.1% 正確率;在昇騰平臺上,也取得了 100% 編譯率和 78.6% 正確率。更進一步,在面向 DeepSeek 今年 1 月份發(fā)布的流形約束超連接(Manifold-Constrained Hyper-Connections, mHC)新架構的 15 個相關算子上,EvoKernel 成功得到 10 個正確實現(xiàn),其中 6 個超過 PyTorch 基線,代表性結果包括 SinkhornKnopp 的 41.96 倍加速。



圖 5:在 DeepSeek mHC 算子上的擴展結果。EvoKernel 不只在原始 KernelBench 分布上有效,也開始展現(xiàn)出對新算子族和新架構模式的適配能力。

換句話說,這項工作展示出的并不只是對某個基準測試的適配能力,而是在向更真實的跨任務、跨場景泛化邁出一步。

這項工作的意義

可能不止于 NPU 算子開發(fā)

從更大的視角看,EvoKernel 的意義可能不止于 NPU 算子開發(fā)。本質上,它回答的是這樣一個問題:當目標領域幾乎沒有現(xiàn)成訓練數據、只有嚴格可驗證反饋時,通用大模型還有沒有辦法通過非參數化、可積累的方式逐漸掌握新技能?

這篇工作給出了一個積極信號。隨著硬件生態(tài)越來越分化,真正稀缺的也許不只是算力,而是能夠快速適應新架構、新領域專用語言(DSL)、新工具鏈的工程能力。EvoKernel 試圖把這部分能力,從 "依賴少數專家" 變成 "可以被記憶、檢索和持續(xù)放大的系統(tǒng)能力"。

一句話總結

EvoKernel 提出了一種面向數據稀缺 NPU 編程場景的價值驅動記憶框架,不依賴昂貴微調,僅通過可驗證反饋和跨任務經驗積累,就把 GPT-5.2 在 Ascend C 算子開發(fā)任務上的整體正確率從 4.0% 提升到 83.0%,并在正確初稿基礎上實現(xiàn)了 3.60 倍的中位數性能優(yōu)化。

如果你對 NPU 算子開發(fā)、跨硬件代碼生成或 LLM agent 在系統(tǒng)軟件領域的應用感興趣,歡迎訪問項目主頁(https://evokernel.zhuo.li)獲取更多細節(jié)。本工作由上海交通大學人工智能學院鄭雨杰、李卓主導完成,王翰竟(上海人工智能實驗室)參與合作,溫睦寧(助理研究員,通訊作者)和溫穎(副教授)擔任指導,也歡迎通過論文聯(lián)系方式與團隊交流合作。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

財聯(lián)社
2026-03-26 19:44:11
國足VS庫拉索:留洋小將坐鎮(zhèn)中場,韋世豪王鈺棟領銜,張玉寧沖鋒

國足VS庫拉索:留洋小將坐鎮(zhèn)中場,韋世豪王鈺棟領銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
4月1日起,微信支付寶轉賬規(guī)則大變!這3個習慣趕緊改

4月1日起,微信支付寶轉賬規(guī)則大變!這3個習慣趕緊改

老特有話說
2026-03-25 15:30:13
張雪峰追悼會周六將在蘇州殯儀館舉行

張雪峰追悼會周六將在蘇州殯儀館舉行

界面新聞
2026-03-26 07:04:27
辛芷蕾沒遮副乳,全網吵翻天,到底在吵什么?

辛芷蕾沒遮副乳,全網吵翻天,到底在吵什么?

動物奇奇怪怪
2026-03-27 01:23:39
觀眾不買單了?上海德云社剛開業(yè)發(fā)生反常事情,郭德綱于謙傻眼了

觀眾不買單了?上海德云社剛開業(yè)發(fā)生反常事情,郭德綱于謙傻眼了

一盅情懷
2026-03-26 14:51:05
字母哥的哥哥:我也想不通為什么尼克斯選我,我都不抱希望

字母哥的哥哥:我也想不通為什么尼克斯選我,我都不抱希望

林子說事
2026-03-26 14:42:15
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內娛的臉

橙星文娛
2026-03-26 13:40:27
快訊!歐爾班的回旋鏢來了!

快訊!歐爾班的回旋鏢來了!

達文西看世界
2026-03-26 12:23:16
4.2萬股民嗨了:鋰電池龍頭“603026”,又爆了!

4.2萬股民嗨了:鋰電池龍頭“603026”,又爆了!

看財經show
2026-03-26 17:17:48
德媒點名對我們進行批評!

德媒點名對我們進行批評!

南權先生
2026-03-25 15:19:22
《奔跑吧14》錄制:孟子義的腰比名牌還細,和李昀銳同框避嫌

《奔跑吧14》錄制:孟子義的腰比名牌還細,和李昀銳同框避嫌

椰黃娛樂
2026-03-26 15:45:32
喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態(tài)好到出人意料

喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

懂球帝
2026-03-26 06:43:02
老了才明白:父母一旦超過81,立刻停止兩種行為,否則晚景或凄涼

老了才明白:父母一旦超過81,立刻停止兩種行為,否則晚景或凄涼

匹夫來搞笑
2026-03-22 12:07:07
春分后一定要補腎!早餐把雞蛋換成它,連吃5天,潤燥清火又養(yǎng)肝

春分后一定要補腎!早餐把雞蛋換成它,連吃5天,潤燥清火又養(yǎng)肝

江江食研社
2026-03-26 23:00:03
為什么氰化物入口幾秒,還沒到胃呢,人立馬就會死了?

為什么氰化物入口幾秒,還沒到胃呢,人立馬就會死了?

心中的麥田
2026-03-24 19:53:20
上海市中心知名醫(yī)院要“沒了”?醫(yī)生發(fā)文“世上再無”,最新情況→

上海市中心知名醫(yī)院要“沒了”?醫(yī)生發(fā)文“世上再無”,最新情況→

上海約飯局
2026-03-24 20:47:10
跟伊朗還沒打完,美國調轉槍口又轟炸另一國,人員死傷慘重

跟伊朗還沒打完,美國調轉槍口又轟炸另一國,人員死傷慘重

大國之翼
2026-03-25 06:41:01
出差遭上司猥褻后被調崗降薪,女子起訴獲賠,公司管理失職被判擔責

出差遭上司猥褻后被調崗降薪,女子起訴獲賠,公司管理失職被判擔責

紅星新聞
2026-03-26 18:23:16
2026-03-27 04:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數 142594關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時尚
數碼
房產
家居

教育要聞

2026年高考可能“扎堆報考”的五大專業(yè):就業(yè)缺口大,穩(wěn)定且高薪

400萬人愛過的女孩,被黃謠網暴180天后

數碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

房產要聞

突發(fā),三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

無障礙瀏覽 進入關懷版