網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

開源模型首超Opus4.6！智譜GLM-5.1登場，14小時(shí)后CUDA專家被沖了

2026-04-08 14:37:34　來源: 量子位

吉林舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號 QbitAI

優(yōu)化CUDA Kernel這件事，剛剛被AI狠狠地沖擊了一波。

因?yàn)楝F(xiàn)在，給AI十四個小時(shí)，它就能幫你把CUDA Kernel優(yōu)化，加速比從2.6×推至35.7×！

什么概念？

以前人類資深CUDA工程師要完成這個任務(wù)，需要數(shù)月反復(fù)測試、調(diào)優(yōu)、推翻重來才行；但現(xiàn)在，AI在你睡覺的時(shí)候就能解決掉。

而且AI在這個過程中還展現(xiàn)出了專家級的直覺。

例如在優(yōu)化初期，它嘗試在現(xiàn)有高層框架內(nèi)尋找解法，但很快通過自主跑測試發(fā)現(xiàn)性能觸及了天花板，然后它便做出了人類專家才有的決策——

自主判斷放棄高層框架，直接轉(zhuǎn)向底層C++進(jìn)行硬核重寫。

整整14個小時(shí)里，這個AI主打一個全自動：AI自己發(fā)現(xiàn)瓶頸，自己改變技術(shù)棧，自己重新編譯，自己測試。

那這到底是何許AI是也？

不賣關(guān)子，正是大家熟悉的，來自智譜的開源模型——GLM-5.1。

隨著這次長程任務(wù)（Long Horizon Task）能力的提升，智譜官方也宣布了一個重要的突破：

首次解鎖了開源模型與當(dāng)前全球最頂尖閉源模型Claude Opus 4.6的全面對齊！

嗯，是妥妥穩(wěn)坐全球最強(qiáng)開源模型寶座的感覺了。

而且，從更多的權(quán)威評測榜單中來看，也是印證了這一點(diǎn)。

在被稱為“軟件工程能力試金石”的SWE-bench Pro基準(zhǔn)測試中，GLM-5.1刷新了全球最佳成績，直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型，拿下全球第一：

甚至在海外網(wǎng)友們的圈子中，已經(jīng)吹起了棄用Claude Max的風(fēng)了：

它的手感和Opus一模一樣，使用額度是Claude Code的3倍，成本卻只有1/3。

HuggingFace CEO也出面站臺，稱SWE-Bench Pro中性能最強(qiáng)的模型開源了：

而這一切成績的背后，正是智譜面向小時(shí)級的長程任務(wù)能力。

給AI幾個小時(shí)，一切都不一樣了

當(dāng)前主流的大模型，可以說大多數(shù)還是處于“分鐘級交互”的階段。

但到了GLM-5.1這邊，它的交付單位就不同了——一個完整的項(xiàng)目。

接下來，我們就通過實(shí)測的方式，來看下GLM-5.1的實(shí)力到底幾何。

調(diào)用工具1000輪，優(yōu)化真實(shí)機(jī)器學(xué)習(xí)模型負(fù)載

第一個實(shí)測，我們順著前面的CUDA的例子，繼續(xù)讓GLM-5.1進(jìn)行一場考驗(yàn)：

KernelBench Level 3優(yōu)化基準(zhǔn)，這一基準(zhǔn)涵蓋50個真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載，主打一個還原真實(shí)工業(yè)場景，考驗(yàn)的是端到端的完整優(yōu)化能力而非單一算子調(diào)試。

在超過24小時(shí)的不間斷迭代中，GLM-5.1全程自主發(fā)力，無需人類專家干預(yù)，一遍遍完成“編譯—測試—分析—重寫”的閉環(huán)循環(huán)，最終交出了這樣的結(jié)果——

3.6倍幾何平均加速比，而作為對比，torch.compile max-autotune模式僅能達(dá)到1.49倍，差距直接翻倍不止！

從這個過程中可以看到，GLM-5.1能夠自主編寫定制Triton Kernel和CUDA Kernel，運(yùn)用cuBLASLt epilogue融合并實(shí)施shared memory tiling與CUDA Graph優(yōu)化。

這些優(yōu)化策略覆蓋了從高層算子融合到微架構(gòu)級調(diào)優(yōu)的完整技術(shù)棧，每一步都是模型的自主決策。

結(jié)果再次表明，在GPU內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗(yàn)的領(lǐng)域，AI模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計(jì)到迭代調(diào)優(yōu)的端到端自主工作能力。

1小時(shí)從零構(gòu)建MacOS桌面環(huán)境

在這個實(shí)測中，我們給GLM-5.1扔了一份3000字的PRD，核心要求只有一個：

從0開始復(fù)刻MacOS核心UI與交互，不僅要前端殼子，還必須包含窗口管理器、Dock欄調(diào)度、以及模擬的底層文件系統(tǒng)。

這是一個標(biāo)準(zhǔn)的前端工程團(tuán)隊(duì)至少需要數(shù)天才能打磨出原型的任務(wù)，但在GLM-5.1這里，時(shí)間被壓縮到了小時(shí)級別。

瞧，待它分析完任務(wù)之后，自己就開始唰唰地編程了：

1個小時(shí)之后，在沒有任何人工參與的情況下，一個MacOS的桌面環(huán)境，就這么水靈靈地誕生了！

視頻地址：
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

可以看到，更改桌面背景、放大縮小Docker、終端命令執(zhí)行、系統(tǒng)自帶的截圖功能等，統(tǒng)統(tǒng)都能實(shí)現(xiàn)。

而在智譜官方的demo中，展示了GLM-5.1耗時(shí)8小時(shí)實(shí)現(xiàn)的更加復(fù)雜的Linux系統(tǒng)：

視頻地址：
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

執(zhí)行了1200多步，完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN管理器、中文字體支持、游戲庫等……相當(dāng)于一個4人團(tuán)隊(duì)一周的開發(fā)工作量。

不得不說，現(xiàn)在GLM-5.1的每一次提交，都是具有實(shí)質(zhì)意義的系統(tǒng)級演進(jìn)。

全自動重寫屎山代碼

寫代碼的人都知道，比從零寫一個新項(xiàng)目更痛苦的，是重構(gòu)別人留下的屎山代碼。

但現(xiàn)在有了GLM-5.1，我們可以把這個任務(wù)交給它來處理了。

例如這段代碼就堪稱是屎山中的經(jīng)典：變量名完全無意義、五層嵌套if、重復(fù)計(jì)算總和三遍、全局變量到處亂改、函數(shù)幾百行不拆分……

能運(yùn)行嗎？能運(yùn)行；惡心嗎？也是真惡心。

而在GLM-5.1只需半小時(shí)的自動重寫之后，一份注釋清晰、符合標(biāo)準(zhǔn)的代碼就誕生了：

655次迭代，打破向量數(shù)據(jù)庫性能瓶頸

如果說重構(gòu)代碼還只是把已有的東西做好，那向量數(shù)據(jù)庫優(yōu)化，考驗(yàn)的就是AI自主迭代、持續(xù)突破的能力。

這也或許正是人類資深工程師最核心的價(jià)值。

在這項(xiàng)測試中，GLM-5.1的需求是優(yōu)化現(xiàn)有向量數(shù)據(jù)庫的查詢性能，盡可能提升QPS。

隨后，它開啟了完全自主的“測試-分析-優(yōu)化-再測試”閉環(huán)。

每一輪優(yōu)化后，它都會主動跑完整的Benchmark，獲取QPS、延遲、內(nèi)存占用等核心數(shù)據(jù)，自主分析性能瓶頸。

視頻地址：
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

最終，在655輪迭代之后，GLM-5.1把向量數(shù)據(jù)庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS，提升到初始正式版本的6.9倍。

AI能獨(dú)立工作多久，成了新標(biāo)準(zhǔn)

之所以GLM-5.1這次能夠炸場，本質(zhì)上是它踩中了AI行業(yè)的下一個核心賽點(diǎn)：長程任務(wù)（Long Horizon Task）能力。

2025年3月，全球頂尖的AI安全研究機(jī)構(gòu)METR（Model Evaluation and Threat Research）便提出了一個徹底改變行業(yè)認(rèn)知的新指標(biāo)，叫做Task-Completion Time Horizon（任務(wù)完成時(shí)間線）。

這個指標(biāo)的核心思想是，不再用做題的準(zhǔn)確率來衡量模型有多聰明，而是用時(shí)間來衡量它能獨(dú)立完成多長時(shí)間的人類專家任務(wù)。

研究顯示，前沿模型的時(shí)間線每7個月就會翻一倍，這條指數(shù)曲線，被MIT Technology Review稱為“AI領(lǐng)域最重要的一張圖”。紅杉資本更是在2026年初直接宣告：“這就是AGI的核心方向”，并直言：2023-2024年的AI，是只會對話的“talker”，而2026-2027年的AI，將成為能真正落地做事的“doer”。

而GLM-5.1，是全球第一個在真實(shí)工程任務(wù)中，驗(yàn)證了8小時(shí)持續(xù)工作能力的開源模型。

它能在單次任務(wù)中，持續(xù)、自主地工作長達(dá)8小時(shí)，過程中自主規(guī)劃、自主執(zhí)行、自主測試，碰壁時(shí)主動切換策略，出錯后自行修復(fù)，最終交付完整的工程級成果。

GLM-5.1之所以能做到這一點(diǎn)，核心源于三個維度的系統(tǒng)性技術(shù)突破：

第一，更強(qiáng)的長程規(guī)劃與目標(biāo)保持能力。

它能把一個復(fù)雜的大目標(biāo)，拆解為可執(zhí)行的多階段計(jì)劃，并且在長達(dá)十幾小時(shí)、上千步的執(zhí)行鏈路中，始終圍繞最終交付目標(biāo)推進(jìn)。簡單來說，就是干到第十步，還記得第二步定的規(guī)矩。

第二，更穩(wěn)的自適應(yīng)糾錯與持續(xù)執(zhí)行能力。

它實(shí)現(xiàn)了代碼編寫、工具調(diào)用、環(huán)境調(diào)試、API對接等多個環(huán)節(jié)的穩(wěn)定銜接，中途出錯時(shí)，不會停下來等人工介入，而是會自主查看錯誤日志、定位問題根源、修復(fù)bug，甚至自己寫回歸測試用例驗(yàn)證修復(fù)效果。

第三，更好的狀態(tài)延續(xù)與上下文整合能力。

面對長時(shí)間跨度、多輪反饋和百萬級token的上下文信息，它能穩(wěn)定追蹤已完成的工作、當(dāng)前所處的階段和下一步的核心動作，持續(xù)整合新的信息，保持整個執(zhí)行鏈路的一致性。

開源模型看中國，更得看智譜

GLM-5.1的出現(xiàn)，不僅是模型能力的升級，更改寫了全球大模型行業(yè)的敘事邏輯。

長久以來，中國開源模型始終帶著追趕者的標(biāo)簽，與美國頂尖閉源模型存在差距，而GLM-5.1徹底打破這一局面：

它在權(quán)威榜單上對齊Claude Opus 4.6，在SWE-bench Pro等核心工程指標(biāo)上實(shí)現(xiàn)反超，讓中國開源AI在核心工程能力上與全球前沿并駕齊驅(qū)。

更重要的是，它的變革遠(yuǎn)超模型本身，正重構(gòu)萬億級IT服務(wù)市場的底層邏輯。

AI Coding的進(jìn)化有清晰路徑：從程序員提效工具，到降低代碼門檻，再到能自主做事的初級工程師，而GLM-5.1的Long Horizon能力，直接將AI推向能持續(xù)工作數(shù)小時(shí)、交付完整項(xiàng)目的新階段。

當(dāng)AI的交付單位從一行代碼變?yōu)橐粋€完整項(xiàng)目，便沖擊了整個軟件工程的生產(chǎn)關(guān)系——4人團(tuán)隊(duì)一周的工作量、資深工程師數(shù)月的優(yōu)化任務(wù)，它數(shù)小時(shí)就能完成，這將重構(gòu)多個行業(yè)的定價(jià)與人力配置邏輯。

當(dāng)然，我們不必陷入AI會替代程序員的無謂焦慮。就像當(dāng)年計(jì)算機(jī)的普及，沒有淘汰會計(jì)這個職業(yè)，只是淘汰了不會用計(jì)算機(jī)的會計(jì)；AI的到來，也不會淘汰開發(fā)者，只會淘汰不會駕馭AI的開發(fā)者。

GLM-5.1的出現(xiàn)，真正給整個行業(yè)拋出的核心問題是：當(dāng)AI已經(jīng)能自主完成長達(dá)數(shù)小時(shí)的復(fù)雜長程任務(wù)，實(shí)現(xiàn)從規(guī)劃、執(zhí)行、糾錯到完整項(xiàng)目交付的全閉環(huán)時(shí)，人類的不可替代性到底在哪里？

答案或許就是定義問題、創(chuàng)造價(jià)值、做出核心決策的能力，畢竟這是AI暫時(shí)無法替代的核心護(hù)城河。

而對中國AI行業(yè)而言，GLM-5.1只是開始，當(dāng)開源模型達(dá)到全球頂尖工程能力、AI從對話者變?yōu)閳?zhí)行者，行業(yè)必將迎來更徹底、更深刻的變革。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.