国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院團隊提出SparseRL,深度強化學習可自動生成高性能CUDA代碼

0
分享至



如何讓 AI 不僅寫出「能跑」的代碼,還能寫出「跑得快」的代碼?這個問題困擾了 AI 系統(tǒng)研究者很久。

近日,中科院計算所團隊提出了一種名為 SparseRL 的新框架,首次將深度強化學習引入稀疏 CUDA 代碼生成任務(wù)。簡單來說,就是讓 AI 學會根據(jù)稀疏矩陣的結(jié)構(gòu),自動生成最優(yōu)的 CUDA 實現(xiàn)代碼。

實驗顯示,在經(jīng)典的 SpMV 任務(wù)上,這種方法能讓編譯成功率提升 20%,代碼執(zhí)行速度提升 30%。

目前,該項成果已入選 ICLR 2026 Oral。



  • 論文地址:https://openreview.net/pdf?id=VdLEaGPYWT
  • 代碼鏈接:https://github.com/QiWu-NCIC/SparseRL

為什么稀疏代碼這么難寫?

要理解這項工作的價值,得先說說稀疏矩陣運算的特殊性。

稀疏矩陣在 LLM 推理、圖神經(jīng)網(wǎng)絡(luò)、科學計算中無處不在。但和稠密矩陣不同,稀疏矩陣的非零元素分布是不規(guī)則的,這導致一個核心問題:最優(yōu)的 CUDA 代碼實現(xiàn)取決于矩陣的具體結(jié)構(gòu),而這個結(jié)構(gòu)只有在運行時才能知道。

換句話說,沒有一種「萬能」的高性能實現(xiàn)能應(yīng)對所有稀疏矩陣。工程師們不得不針對不同的稀疏模式手動調(diào)優(yōu),這個過程既耗時又依賴經(jīng)驗。

現(xiàn)有的 AI 代碼生成方法也幫不上太大忙。原因有三:

  • 第一,傳統(tǒng)監(jiān)督學習只關(guān)心代碼「對不對」,不關(guān)心「快不快」。同一個稀疏矩陣可能有多種正確的 CUDA 實現(xiàn),但執(zhí)行速度可能相差數(shù)倍,監(jiān)督學習無法區(qū)分這種差異。
  • 第二,執(zhí)行效率這個核心指標是「不可微」的,沒法通過傳統(tǒng)的反向傳播來優(yōu)化。
  • 第三,稀疏矩陣的輸入(行列索引序列)和 CUDA 代碼之間存在巨大的語義鴻溝,模型很難理解矩陣結(jié)構(gòu)和最優(yōu)代碼策略之間的關(guān)聯(lián)。



圖片 1:展示不同稀疏矩陣需要不同 CUDA 實現(xiàn)策略的示例

SparseRL 怎么做到的?

研究團隊的思路很巧妙:既然執(zhí)行效率不可微,那就用強化學習來優(yōu)化。

SparseRL 把預(yù)訓練語言模型當作一個策略網(wǎng)絡(luò),每生成一個 token 就是一次動作,而代碼的編譯結(jié)果和執(zhí)行時間就是獎勵信號。

整個訓練過程分為三個階段:

  • 第一階段是預(yù)訓練:在大量 CUDA 代碼語料上訓練語言模型,讓它建立對 GPU 編程的基礎(chǔ)認知;
  • 第二階段是監(jiān)督微調(diào):用「稀疏矩陣 - 正確代碼」的配對數(shù)據(jù)教模型生成語法正確、功能正確的代碼;
  • 第三階段是強化學習優(yōu)化:這一步是關(guān)鍵 —— 引入深度強化學習,以編譯正確性和執(zhí)行效率為獎勵,讓模型學會生成高性能代碼。



圖片 2:展示三階段訓練流程的整體框架圖

為了讓模型真正「看懂」稀疏矩陣的結(jié)構(gòu),研究團隊設(shè)計了一個關(guān)鍵技術(shù):正弦位置嵌入。

稀疏矩陣的輸入是非零元素的行列索引序列,傳統(tǒng)的 token 嵌入無法捕捉這種二維坐標之間的空間關(guān)系。SparseRL 對行列索引分別進行正弦 / 余弦編碼,類似于 Transformer 的位置編碼,但專門針對二維坐標做了定制。

用通俗的話說,這就像給模型裝上了一副「坐標眼鏡」,讓它能看見非零元素在哪里、是怎么分布的。

另一個核心創(chuàng)新是層級獎勵函數(shù)。這個獎勵函數(shù)同時考慮兩個層面:正確性獎勵確保代碼能編譯、結(jié)果正確;效率獎勵則優(yōu)化執(zhí)行速度。設(shè)計邏輯是先保證「對」,再追求「快」。

效果如何?

研究團隊在 SpMV(稀疏矩陣 - 向量乘法)和 SpMM(稀疏矩陣 - 稠密矩陣乘法)兩個任務(wù)上驗證了方法的有效性。

在 SpMV 任務(wù)上,SparseRL 相比傳統(tǒng)監(jiān)督學習方法,編譯成功率提升了 20%,平均執(zhí)行速度提升了 30%。更重要的是,模型能根據(jù)不同的稀疏結(jié)構(gòu)自動選擇不同的代碼策略,在對角型、帶狀型、隨機稀疏型等多種矩陣上都有優(yōu)勢,部分場景下生成的代碼甚至接近或超越了手工調(diào)優(yōu)的水平。



圖片 3:展示 SparseRL 與基線方法的差距

團隊還做了消融實驗來驗證各個組件的必要性。

結(jié)果顯示,去掉 RL 階段后性能顯著下降,說明強化學習確實是關(guān)鍵;去掉正弦嵌入后模型難以理解輸入結(jié)構(gòu),編譯率下降;只用正確性獎勵而不用效率獎勵,代碼能跑但不夠快。

當然,這個方法也有局限。論文提到,RL 訓練需要大量的編譯 - 執(zhí)行反饋循環(huán),計算成本較高;模型是針對特定 GPU 架構(gòu)訓練的,遷移到新硬件可能需要重新微調(diào);生成的代碼可能缺乏人類工程師的編碼風格,可解釋性不足。

意義與展望

SparseRL 的價值在于它代表了一個范式轉(zhuǎn)變:代碼生成的目標從「生成能運行的代碼」轉(zhuǎn)向「生成高性能代碼」。

對于 HPC 工程師和 AI 基礎(chǔ)設(shè)施開發(fā)者來說,這項工作展示了一種新可能 ——讓 AI 來處理那些繁瑣的性能優(yōu)化工作,而人類可以把精力放在更高層次的設(shè)計上。

研究團隊表示,未來計劃將方法擴展到多 GPU 分布式稀疏計算,探索與傳統(tǒng) AutoTuning 技術(shù)的結(jié)合,并支持更多類型的稀疏算子。同時,他們也在研究如何降低 RL 訓練成本,讓這種方法更實用。

作者介紹

王耀宇,中國科學院計算技術(shù)研究所博士生(共同一作),主要研究方向為深度學習編譯優(yōu)化與高性能計算。

譚光明,中國科學院計算技術(shù)研究所研究員、博士生導師,主要從事高性能計算、GPU 編譯優(yōu)化與深度學習系統(tǒng)研究,在多 GPU 分布式計算、稀疏矩陣計算、深度學習編譯器等領(lǐng)域取得多項重要成果,發(fā)表多篇高性能計算與機器學習相關(guān)論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“春養(yǎng)肝,病不沾”,3種天然“養(yǎng)肝菜”換著吃,養(yǎng)肝排毒強免疫

“春養(yǎng)肝,病不沾”,3種天然“養(yǎng)肝菜”換著吃,養(yǎng)肝排毒強免疫

江江食研社
2026-03-22 08:30:14
短短1年,靈活就業(yè)者暴增4千萬

短短1年,靈活就業(yè)者暴增4千萬

深度報
2026-03-23 21:47:58
黃仁勛呼吁所有人使用AI提升自己:大學生畢業(yè)時都要成AI專家

黃仁勛呼吁所有人使用AI提升自己:大學生畢業(yè)時都要成AI專家

快科技
2026-03-24 22:46:04
成都又一幼兒園突然宣告將停辦,家長著急了

成都又一幼兒園突然宣告將停辦,家長著急了

天府觀察
2026-03-25 16:13:49
語出驚人!摩根大通CEO戴蒙稱,伊朗戰(zhàn)爭長期來看是好事!為什么這樣說?

語出驚人!摩根大通CEO戴蒙稱,伊朗戰(zhàn)爭長期來看是好事!為什么這樣說?

王爺說圖表
2026-03-25 18:51:12
伊朗據(jù)悉要求希望通過霍爾木茲海峽的船舶提供船員和貨物詳情

伊朗據(jù)悉要求希望通過霍爾木茲海峽的船舶提供船員和貨物詳情

財聯(lián)社
2026-03-25 18:48:03
2026年開年,增程突然不香了?最大反轉(zhuǎn):油混正在悄悄翻盤!

2026年開年,增程突然不香了?最大反轉(zhuǎn):油混正在悄悄翻盤!

華庭講美食
2026-03-25 07:13:09
出軌的女人,你陪男人睡,不是因為你的美,是因為你的天真和廉價

出軌的女人,你陪男人睡,不是因為你的美,是因為你的天真和廉價

加油丁小文
2026-03-25 08:30:09
皇馬5-1曼城后0-1負弱旅,百年頑疾拖垮球隊

皇馬5-1曼城后0-1負弱旅,百年頑疾拖垮球隊

徐纗老表哥
2026-03-25 07:21:41
腳神張純燁食品級小腳丫

腳神張純燁食品級小腳丫

情感大頭說說
2026-03-25 18:04:07
風云突變!伊朗拒絕和談計劃,美軍調(diào)派82空降師前往中東,準備地面作戰(zhàn)

風云突變!伊朗拒絕和談計劃,美軍調(diào)派82空降師前往中東,準備地面作戰(zhàn)

大洛杉磯LA
2026-03-26 05:29:32
華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

王爺說圖表
2026-03-25 22:43:39
俄方發(fā)出警告,普京搶在特朗普之前訪華?美財長:已無法阻止中國

俄方發(fā)出警告,普京搶在特朗普之前訪華?美財長:已無法阻止中國

浪子阿邴聊體育
2026-03-25 03:25:35
四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

紅星新聞
2026-03-25 20:09:43
張雪峰“被去世”烏龍:全網(wǎng)慌了!誰來替寒門說真話

張雪峰“被去世”烏龍:全網(wǎng)慌了!誰來替寒門說真話

舟望停云
2026-03-26 00:55:54
合肥市廬陽區(qū)教體局通報:合肥安信地產(chǎn)大廈398室等被查!

合肥市廬陽區(qū)教體局通報:合肥安信地產(chǎn)大廈398室等被查!

肥東論壇
2026-03-25 22:22:28
張雪峰8億遺產(chǎn)如何分?法定繼承vs遺囑繼承,妻子女兒份額大不同

張雪峰8億遺產(chǎn)如何分?法定繼承vs遺囑繼承,妻子女兒份額大不同

別人都叫我阿螫
2026-03-25 17:35:23
20歲女生長期開燈睡覺胖到200斤

20歲女生長期開燈睡覺胖到200斤

觀威海
2026-03-24 09:35:51
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

影視高原說
2026-03-24 19:32:39
2026-03-26 06:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

家居
旅游
本地
教育
公開課

家居要聞

輕奢堇天府 小資情調(diào)

旅游要聞

保山隆陽水寨:海棠花開艷如霞,一樹紅花迎春來

本地新聞

來永泰同安 赴一場春天的約會

教育要聞

雄安新區(qū):北京史家胡同小學分校,傳承“和諧教育”理念

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版