国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

天下苦CUDA久矣,又一國產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

國產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒變:芯片夠不夠多?

但對開發(fā)者來說,真正扎心的問題其實是:好不好使?

如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

國產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習慣用那套進口調(diào)料包(生態(tài))

這正是當下AI落地最真實的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長進骨子里的開發(fā)流程。


△圖片由AI生成

算力只是敲門磚,真正的勝負手,是那段算法與硬件之間的“翻譯權(quán)”

說白了,如果拿不到這支“翻譯筆”,再強悍的國產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

終于,那個讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個不一樣的國產(chǎn)答案

KernelCAT:計算加速專家級別的Agent

這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見的。

模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場,感受卻更復(fù)雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺,最終也會被算子支持和工具鏈完整度擋在門外。

這讓一個事實變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

其中最關(guān)鍵的一環(huán),正是高性能算子的開發(fā)

算子(Kernel),是連接AI算法與計算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開發(fā)可以被理解為內(nèi)核級別的編程工作,目前行業(yè)仍停留在“手工作坊”時代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗與反復(fù)試錯,周期動輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

若把開發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機械表”。

但如果,讓AI來開發(fā)算子呢?

傳統(tǒng)大模型或知識增強型Agent在此類任務(wù)面前往往力不從心。因為它們擅長模式匹配,卻難以理解復(fù)雜計算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

唯有超越經(jīng)驗式推理,深入建模問題本質(zhì),才能實現(xiàn)真正的“智能級”優(yōu)化。

正是在這一“地獄級”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運而生。


△終端版

具體來看,KernelCAT是一款本地運行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務(wù),提供了CLI終端命令行版與簡潔桌面版兩種形態(tài)供開發(fā)者使用。

不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯誤診斷與腳本編寫,從而在復(fù)雜場景中實現(xiàn)端到端自主閉環(huán)。


△桌面版

為國產(chǎn)芯片生態(tài)寫高性能算子

在算子開發(fā)中,有一類問題很像“調(diào)參”——面對幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗試錯,費時費力,而且還容易踩坑。

KernelCAT的思路是——引入運籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動對該算子的分塊參數(shù)調(diào)優(yōu)問題進行運籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達22%,吞吐量提升最高近30%,而且整個過程無需人工干預(yù)。

這正是KernelCAT的獨特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運籌優(yōu)化算法的嚴謹,能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

在對KernelCAT的另一場測試中,該團隊選取了7個不同規(guī)模的向量加法任務(wù),測試目標明確——

即在華為昇騰平臺上,直接對比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實現(xiàn)的執(zhí)行效率。

結(jié)果同樣令人振奮,在這個案例的7個測試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢,且任務(wù)完成僅用時10分鐘

這意味著,即便面對經(jīng)過商業(yè)級調(diào)優(yōu)的閉源實現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競爭力。



這不僅是數(shù)值層面的勝利,更是國產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

沒有堅不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過90%的重要AI訓(xùn)練任務(wù)運行于英偉達GPU之上,推理占比亦達80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫規(guī)模逾400個,深度嵌入90%頂級AI學(xué)術(shù)論文的實現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達,是為了加速軟件,芯片設(shè)計反而是次要的。

這句話揭示了一個關(guān)鍵真相:在現(xiàn)代計算體系中,軟件才是真正的護城河。

英偉達的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗,即使在架構(gòu)與制程上具備充足的競爭力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動英偉達的地位。

這類案例清晰地表明,模型性能并不簡單等價于算力規(guī)模的堆疊,而是取決于算法設(shè)計、算子實現(xiàn)與硬件特性的協(xié)同程度。當算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團隊圍繞模型在本土算力平臺上的高效遷移,進行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對抗“版本地獄”:KernelCAT對任務(wù)目標和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實現(xiàn),通過精準的依賴識別和補丁注入,解決了vLLM、torch和torch_npu的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實現(xiàn)模型的開箱即用。
  • 準確修補:它敏銳地識別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實現(xiàn),并果斷通過插件包進行調(diào)用替換,讓模型在國產(chǎn)芯片上“說上了母語”。
  • 實現(xiàn)35倍加速:在引入vllm-ascend原生MOE實現(xiàn)補丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無需人工大量介入:在這種復(fù)雜任務(wù)目標下,KernelCAT可以自己規(guī)劃和完成任務(wù),無需研發(fā)提供大量提示詞指導(dǎo)模型工作。

這意味著,原本需要頂尖工程師團隊花費數(shù)周才能完成進行的適配工作,現(xiàn)在可以縮短至小時級(包含模型下載、環(huán)境構(gòu)建的時間)。

與此同時,它讓國產(chǎn)芯片從“能跑”到“飛起”,實現(xiàn)了35倍的加速

也就是說,KernelCAT讓國產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級多模態(tài)模型推理任務(wù)的性能引擎。



“天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動的號角。

KernelCAT所代表的,不只是一個AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

從依賴既有生態(tài),到構(gòu)建能夠自我演進的計算基礎(chǔ)。

KernelCAT正限時免費內(nèi)測中,歡迎體驗:
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2-0領(lǐng)先遭拖入搶五拒逆轉(zhuǎn)!17歲張本美和破魔咒:王曼昱仰天長嘯

2-0領(lǐng)先遭拖入搶五拒逆轉(zhuǎn)!17歲張本美和破魔咒:王曼昱仰天長嘯

顏小白的籃球夢
2026-05-10 19:01:48
大丫頭無緣破不勝魔咒!蒯曼1-3日本最強削球手,國乒陷入絕境

大丫頭無緣破不勝魔咒!蒯曼1-3日本最強削球手,國乒陷入絕境

釘釘陌上花開
2026-05-10 20:32:26
震驚!小馬云18歲成年首播,在線人數(shù)破7萬,與女生接吻刷爆網(wǎng)絡(luò)

震驚!小馬云18歲成年首播,在線人數(shù)破7萬,與女生接吻刷爆網(wǎng)絡(luò)

火山詩話
2026-05-09 16:02:57
誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

別人都叫我阿腈
2026-05-08 10:57:36
新帥徐正源搞砸了:升班馬主場淪陷,恥辱6連敗,姆本扎補時進球

新帥徐正源搞砸了:升班馬主場淪陷,恥辱6連敗,姆本扎補時進球

足球狗說
2026-05-10 20:54:29
黃博文:平局大家都不愿意接受,相信勝利下一場就會到來

黃博文:平局大家都不愿意接受,相信勝利下一場就會到來

懂球帝
2026-05-10 20:47:09
烏克蘭的“機器狗”們已實戰(zhàn),單次俘虜多名俄士兵,摧毀俄軍坦克

烏克蘭的“機器狗”們已實戰(zhàn),單次俘虜多名俄士兵,摧毀俄軍坦克

網(wǎng)易新聞出品
2026-05-09 11:37:34
中美,重磅!國常會,最新部署!證監(jiān)會出手!超級賽道,大利好!影響一周市場的十大消息

中美,重磅!國常會,最新部署!證監(jiān)會出手!超級賽道,大利好!影響一周市場的十大消息

證券時報
2026-05-10 19:23:06
李嘉誠兒子拿下世界杯轉(zhuǎn)播權(quán),全網(wǎng)炸鍋

李嘉誠兒子拿下世界杯轉(zhuǎn)播權(quán),全網(wǎng)炸鍋

新浪財經(jīng)
2026-05-09 18:37:21
懷化市召開領(lǐng)導(dǎo)干部會議 宣布省委有關(guān)人事安排決定

懷化市召開領(lǐng)導(dǎo)干部會議 宣布省委有關(guān)人事安排決定

環(huán)球網(wǎng)資訊
2026-05-10 16:20:10
孫穎莎獨得2分!中國女團逆轉(zhuǎn)日本,世乒賽團體賽七連冠

孫穎莎獨得2分!中國女團逆轉(zhuǎn)日本,世乒賽團體賽七連冠

澎湃新聞
2026-05-10 21:38:28
炸裂!熊孩子刮花6張PS5光盤 家長僅200元打發(fā)了事

炸裂!熊孩子刮花6張PS5光盤 家長僅200元打發(fā)了事

游民星空
2026-05-10 17:44:13
新規(guī)落地!手機不用再交月租,聯(lián)通率先實行,移動電信全都跟上

新規(guī)落地!手機不用再交月租,聯(lián)通率先實行,移動電信全都跟上

笑熬漿糊111
2026-05-09 04:47:09
孫穎莎拒絕沾光!讓日本輸?shù)眯姆诜?,張本美和對王曼昱成功祛?>
    </a>
        <h3>
      <a href=三十年萊斯特城球迷
2026-05-10 19:59:48
紅場閱兵結(jié)束!普京感謝中國,特朗普最不愿意看到的一幕發(fā)生

紅場閱兵結(jié)束!普京感謝中國,特朗普最不愿意看到的一幕發(fā)生

書紀文譚
2026-05-10 21:14:35
做夢?張本智和狂言:開創(chuàng)日本時代!國乒男團決賽王楚欽扛著一單,梁靖崑或打二單

做夢?張本智和狂言:開創(chuàng)日本時代!國乒男團決賽王楚欽扛著一單,梁靖崑或打二單

好乒乓
2026-05-10 21:11:23
全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

簡易科技
2026-05-10 15:18:40
縣交警隊長被舉報工作日KTV飲酒;鎮(zhèn)雄公安:事先已請假,未違規(guī)違紀

縣交警隊長被舉報工作日KTV飲酒;鎮(zhèn)雄公安:事先已請假,未違規(guī)違紀

大風新聞
2026-05-10 15:07:12
休學(xué)門診擠滿了初三學(xué)生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

休學(xué)門診擠滿了初三學(xué)生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

三言四拍
2026-05-10 10:34:00
不訪華了?魯比奧稱美方愿讓步,中俄高抬貴手,已為自己找好臺階

不訪華了?魯比奧稱美方愿讓步,中俄高抬貴手,已為自己找好臺階

書紀文譚
2026-05-10 21:13:02
2026-05-10 22:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12598文章數(shù) 176461關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

談判陷僵局 世界杯轉(zhuǎn)播費報價大幅降低央視仍不接招

頭條要聞

談判陷僵局 世界杯轉(zhuǎn)播費報價大幅降低央視仍不接招

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學(xué)畢業(yè)了

娛樂要聞

趙露思老實人豁出去了 沒舞蹈天賦硬跳

財經(jīng)要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

旅游
教育
家居
時尚
軍事航空

旅游要聞

一路向前,自在騎行!田園社騎行驛站成為慶云打卡新地標

教育要聞

請教會你的孩子有能力分辨和說不!

家居要聞

菁英人居 全能豪宅

真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

軍事要聞

伊朗革命衛(wèi)隊深夜警告

無障礙瀏覽 進入關(guān)懷版