国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

天下苦CUDA久矣,又一國(guó)產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

國(guó)產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒變:芯片夠不夠多?

但對(duì)開發(fā)者來說,真正扎心的問題其實(shí)是:好不好使?

如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

國(guó)產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習(xí)慣用那套進(jìn)口調(diào)料包(生態(tài))

這正是當(dāng)下AI落地最真實(shí)的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀(jì)錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長(zhǎng)進(jìn)骨子里的開發(fā)流程。


△圖片由AI生成

算力只是敲門磚,真正的勝負(fù)手,是那段算法與硬件之間的“翻譯權(quán)”

說白了,如果拿不到這支“翻譯筆”,再?gòu)?qiáng)悍的國(guó)產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

終于,那個(gè)讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個(gè)不一樣的國(guó)產(chǎn)答案

KernelCAT:計(jì)算加速專家級(jí)別的Agent

這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見的。

模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場(chǎng),感受卻更復(fù)雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長(zhǎng),性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺(tái),最終也會(huì)被算子支持和工具鏈完整度擋在門外。

這讓一個(gè)事實(shí)變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

其中最關(guān)鍵的一環(huán),正是高性能算子的開發(fā)

算子(Kernel),是連接AI算法與計(jì)算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開發(fā)可以被理解為內(nèi)核級(jí)別的編程工作,目前行業(yè)仍停留在“手工作坊”時(shí)代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗(yàn)與反復(fù)試錯(cuò),周期動(dòng)輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

若把開發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機(jī)械表”。

但如果,讓AI來開發(fā)算子呢?

傳統(tǒng)大模型或知識(shí)增強(qiáng)型Agent在此類任務(wù)面前往往力不從心。因?yàn)樗鼈兩瞄L(zhǎng)模式匹配,卻難以理解復(fù)雜計(jì)算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

唯有超越經(jīng)驗(yàn)式推理,深入建模問題本質(zhì),才能實(shí)現(xiàn)真正的“智能級(jí)”優(yōu)化。

正是在這一“地獄級(jí)”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運(yùn)而生。


△終端版

具體來看,KernelCAT是一款本地運(yùn)行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計(jì)算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務(wù),提供了CLI終端命令行版與簡(jiǎn)潔桌面版兩種形態(tài)供開發(fā)者使用。

不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實(shí)的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級(jí)別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯(cuò)誤診斷與腳本編寫,從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)端到端自主閉環(huán)。


△桌面版

為國(guó)產(chǎn)芯片生態(tài)寫高性能算子

在算子開發(fā)中,有一類問題很像“調(diào)參”——面對(duì)幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗(yàn)試錯(cuò),費(fèi)時(shí)費(fèi)力,而且還容易踩坑。

KernelCAT的思路是——引入運(yùn)籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動(dòng)對(duì)該算子的分塊參數(shù)調(diào)優(yōu)問題進(jìn)行運(yùn)籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達(dá)22%,吞吐量提升最高近30%,而且整個(gè)過程無需人工干預(yù)。

這正是KernelCAT的獨(dú)特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運(yùn)籌優(yōu)化算法的嚴(yán)謹(jǐn),能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

在對(duì)KernelCAT的另一場(chǎng)測(cè)試中,該團(tuán)隊(duì)選取了7個(gè)不同規(guī)模的向量加法任務(wù),測(cè)試目標(biāo)明確——

即在華為昇騰平臺(tái)上,直接對(duì)比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實(shí)現(xiàn)的執(zhí)行效率。

結(jié)果同樣令人振奮,在這個(gè)案例的7個(gè)測(cè)試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢(shì),且任務(wù)完成僅用時(shí)10分鐘

這意味著,即便面對(duì)經(jīng)過商業(yè)級(jí)調(diào)優(yōu)的閉源實(shí)現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競(jìng)爭(zhēng)力。



這不僅是數(shù)值層面的勝利,更是國(guó)產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

沒有堅(jiān)不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過90%的重要AI訓(xùn)練任務(wù)運(yùn)行于英偉達(dá)GPU之上,推理占比亦達(dá)80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫(kù)規(guī)模逾400個(gè),深度嵌入90%頂級(jí)AI學(xué)術(shù)論文的實(shí)現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達(dá),是為了加速軟件,芯片設(shè)計(jì)反而是次要的。

這句話揭示了一個(gè)關(guān)鍵真相:在現(xiàn)代計(jì)算體系中,軟件才是真正的護(hù)城河。

英偉達(dá)的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗(yàn),即使在架構(gòu)與制程上具備充足的競(jìng)爭(zhēng)力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動(dòng)英偉達(dá)的地位。

這類案例清晰地表明,模型性能并不簡(jiǎn)單等價(jià)于算力規(guī)模的堆疊,而是取決于算法設(shè)計(jì)、算子實(shí)現(xiàn)與硬件特性的協(xié)同程度。當(dāng)算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團(tuán)隊(duì)圍繞模型在本土算力平臺(tái)上的高效遷移,進(jìn)行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對(duì)抗“版本地獄”:KernelCAT對(duì)任務(wù)目標(biāo)和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實(shí)現(xiàn),通過精準(zhǔn)的依賴識(shí)別和補(bǔ)丁注入,解決了vLLM、torch和torch_npu的各個(gè)依賴庫(kù)間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實(shí)現(xiàn)模型的開箱即用。
  • 準(zhǔn)確修補(bǔ):它敏銳地識(shí)別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實(shí)現(xiàn),并果斷通過插件包進(jìn)行調(diào)用替換,讓模型在國(guó)產(chǎn)芯片上“說上了母語”。
  • 實(shí)現(xiàn)35倍加速:在引入vllm-ascend原生MOE實(shí)現(xiàn)補(bǔ)丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實(shí)現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無需人工大量介入:在這種復(fù)雜任務(wù)目標(biāo)下,KernelCAT可以自己規(guī)劃和完成任務(wù),無需研發(fā)提供大量提示詞指導(dǎo)模型工作。

這意味著,原本需要頂尖工程師團(tuán)隊(duì)花費(fèi)數(shù)周才能完成進(jìn)行的適配工作,現(xiàn)在可以縮短至小時(shí)級(jí)(包含模型下載、環(huán)境構(gòu)建的時(shí)間)。

與此同時(shí),它讓國(guó)產(chǎn)芯片從“能跑”到“飛起”,實(shí)現(xiàn)了35倍的加速

也就是說,KernelCAT讓國(guó)產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級(jí)多模態(tài)模型推理任務(wù)的性能引擎。



“天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動(dòng)的號(hào)角。

KernelCAT所代表的,不只是一個(gè)AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

從依賴既有生態(tài),到構(gòu)建能夠自我演進(jìn)的計(jì)算基礎(chǔ)。

KernelCAT正限時(shí)免費(fèi)內(nèi)測(cè)中,歡迎體驗(yàn):
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
欠中國(guó)的錢,委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無法繼續(xù)獲得委石油

欠中國(guó)的錢,委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無法繼續(xù)獲得委石油

萌城少年強(qiáng)
2026-01-22 12:47:40
中國(guó)腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

中國(guó)腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

蜉蝣說
2026-03-24 10:00:57
特朗普呼吁匈牙利人投票給歐爾班

特朗普呼吁匈牙利人投票給歐爾班

一種觀點(diǎn)
2026-03-26 09:04:46
Google Messages破100億下載:蘋果晚入局3年

Google Messages破100億下載:蘋果晚入局3年

閃存獵手
2026-03-26 09:00:43
看了新加坡媒體的披露,我才知道,中國(guó)已經(jīng)沒必要向世界證明什么

看了新加坡媒體的披露,我才知道,中國(guó)已經(jīng)沒必要向世界證明什么

觸摸史跡
2026-03-21 02:58:06
20分慘?。BA焦點(diǎn)1戰(zhàn),山東大破新疆男籃,鞏曉彬苦笑:都輸麻了

20分慘?。BA焦點(diǎn)1戰(zhàn),山東大破新疆男籃,鞏曉彬苦笑:都輸麻了

話體壇
2026-03-25 22:16:29
誰給的信心?14投13鐵毫不收手,7%命中率坑慘球隊(duì),賽后烏戈暗批

誰給的信心?14投13鐵毫不收手,7%命中率坑慘球隊(duì),賽后烏戈暗批

南海浪花
2026-03-26 06:09:05
拒給侄子擔(dān)保80萬,大哥罵我無情,我卻查到他早已偷偷轉(zhuǎn)移了財(cái)產(chǎn)

拒給侄子擔(dān)保80萬,大哥罵我無情,我卻查到他早已偷偷轉(zhuǎn)移了財(cái)產(chǎn)

千秋文化
2026-03-24 21:39:05
侃爺夫婦出街畫風(fēng)獵奇 比安卡銀褲辣眼引圍觀

侃爺夫婦出街畫風(fēng)獵奇 比安卡銀褲辣眼引圍觀

述家娛記
2026-03-23 19:46:51
為什么要對(duì)成品油價(jià)格采取臨時(shí)調(diào)控措施?專家解讀→

為什么要對(duì)成品油價(jià)格采取臨時(shí)調(diào)控措施?專家解讀→

極目新聞
2026-03-23 16:35:50
斷水?dāng)嗉Z還斷藥!超7萬人喪生,局勢(shì)在惡化,以色列為何趕盡殺絕

斷水?dāng)嗉Z還斷藥!超7萬人喪生,局勢(shì)在惡化,以色列為何趕盡殺絕

安安說
2026-03-23 12:16:27
好消息!2026年城管進(jìn)駐小區(qū),亂停、油煙、違建、噪音都有人管

好消息!2026年城管進(jìn)駐小區(qū),亂停、油煙、違建、噪音都有人管

另子維愛讀史
2026-03-24 21:12:59
伊朗尋求對(duì)通過霍爾木茲海峽的船只征收通行費(fèi)

伊朗尋求對(duì)通過霍爾木茲海峽的船只征收通行費(fèi)

新京報(bào)
2026-03-26 09:16:06
華爾街大鱷稱:黃金正重演2008年劇本!金價(jià)將漲到11400美元?

華爾街大鱷稱:黃金正重演2008年劇本!金價(jià)將漲到11400美元?

王爺說圖表
2026-03-25 22:43:39
網(wǎng)傳互聯(lián)網(wǎng)瘋狂裁員,計(jì)算機(jī)死了…

網(wǎng)傳互聯(lián)網(wǎng)瘋狂裁員,計(jì)算機(jī)死了…

慧翔百科
2026-03-24 12:18:17
以色列全境被打穿,防空淪為擺設(shè),海灣國(guó)家不甘示弱,或下場(chǎng)打仗

以色列全境被打穿,防空淪為擺設(shè),海灣國(guó)家不甘示弱,或下場(chǎng)打仗

鐵錘簡(jiǎn)科
2026-03-26 00:35:12
黃文雅任深圳市政府副秘書長(zhǎng),此前任龍崗區(qū)委副書記

黃文雅任深圳市政府副秘書長(zhǎng),此前任龍崗區(qū)委副書記

南方都市報(bào)
2026-03-25 20:54:03
老人雨天河邊洗拖把墜河身亡 家屬起訴河道管理部門索賠91萬余元,一審二審均被駁回

老人雨天河邊洗拖把墜河身亡 家屬起訴河道管理部門索賠91萬余元,一審二審均被駁回

紅星新聞
2026-03-25 18:49:38
遼寧隊(duì)為何輸給吉林?賽后烏戈怒批球隊(duì),直指三問題,一針見血

遼寧隊(duì)為何輸給吉林?賽后烏戈怒批球隊(duì),直指三問題,一針見血

南海浪花
2026-03-25 23:18:59
以色列稱伊朗40分鐘內(nèi)向以發(fā)射四輪導(dǎo)彈

以色列稱伊朗40分鐘內(nèi)向以發(fā)射四輪導(dǎo)彈

財(cái)聯(lián)社
2026-03-25 18:00:21
2026-03-26 09:47:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12344文章數(shù) 176424關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

舉天價(jià)零件發(fā)出靈魂拷問的美官員 自己被大學(xué)生質(zhì)問了

頭條要聞

舉天價(jià)零件發(fā)出靈魂拷問的美官員 自己被大學(xué)生質(zhì)問了

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

時(shí)尚
健康
旅游
房產(chǎn)
軍事航空

《非窮盡列舉》,好看又絕望

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

白如雪粉如霞!玉盞輕舉,盛放廟行春光

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個(gè)大城更,最新方案曝光!

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版