網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GLM-5.1 開源：零介入，交付整套的 Linux 桌面系統(tǒng)

2026-04-08 11:06:31　來源: 賽博禪心

北京舉報(bào)

分享至

PRODUCT

今天，智譜開源了 GLM-5.1：744B 參數(shù)，40B 激活，MIT 協(xié)議

零人工介入，能獨(dú)立工作超過 8 小時(shí)，GLM-5.1 從零交付了一套完整的 Linux 桌面系統(tǒng)：窗口管理器、文件瀏覽器、終端、文本編輯器、系統(tǒng)監(jiān)視器、游戲庫等，共計(jì) 4.8MB

8小時(shí)，構(gòu)建Linux 桌面系統(tǒng)

SWE-Bench Pro 58.4，超過 GPT-5.4 和 Claude Opus 4.6，全球最高

三項(xiàng)編碼基準(zhǔn)綜合平均，全球第三、開源第一

三項(xiàng)編碼基準(zhǔn)綜合平均分

給更多時(shí)間，真的會(huì)更好

GLM-5.1 能夠在長時(shí)間任務(wù)中持續(xù)保持有效工作，這讓它可以做到以前短對(duì)話里做不了的事情。以下是兩個(gè)硬核的例子

自主優(yōu)化一個(gè)搜索引擎，連續(xù)跑了 655 輪

AI 搜索和推薦系統(tǒng)的背后都有一個(gè)向量數(shù)據(jù)庫，它的查詢速度直接決定用戶體驗(yàn)。GLM-5.1 用 Rust 從零寫了一個(gè)向量搜索引擎，然后自己反復(fù)跑測試、看結(jié)果、改代碼，連續(xù)迭代了 655 輪

向量數(shù)據(jù)庫 655 輪優(yōu)化

過程中模型完成了 6 次結(jié)構(gòu)性的策略跳躍，從全庫掃描一路優(yōu)化到兩級(jí)路由 + 提前剪枝，最終把查詢速度從 3108 QPS 提升到 21472 QPS，提高了 6.9 倍

向量數(shù)據(jù)庫優(yōu)化軌跡：階梯型跳躍模式

給 50 個(gè) AI 模型寫加速代碼，跑了 1000 多輪

KernelBench 給模型一個(gè)挑戰(zhàn)：拿到 50 個(gè)真實(shí) AI 模型（MobileNet、VGG、MiniGPT、Mamba 等）的 PyTorch 代碼，想辦法寫出運(yùn)行更快的 GPU 版本，功能完全一樣但速度要快

KernelBench Level 3 優(yōu)化曲線：四個(gè)模型對(duì)比

GLM-5.1 在 1000 多輪工具調(diào)用中自主編寫了 Triton 和 CUDA 加速代碼，最終達(dá)到 3.6 倍加速，遠(yuǎn)超 PyTorch 自帶優(yōu)化器 torch.compile 的 1.49 倍

Benchmark 詳細(xì)數(shù)據(jù)

GLM-5.1 的提升集中在編碼和智能體兩個(gè)維度，提升幅度在 19%-42% 之間。推理能力和 GLM-5 基本持平，和 Gemini 3.1 Pro、GPT-5.4 還有明顯差距

GLM-5.1 Benchmark 總覽

編碼能力

SWE-Bench Pro 衡量的是模型能否在真實(shí) GitHub 倉庫中定位并修復(fù)高難度工程 Bug，是目前最接近真實(shí)軟件開發(fā)的單項(xiàng)指標(biāo)。GLM-5.1 得分 58.4，全球最高，超過 GPT-5.4（57.7）和 Claude Opus 4.6（57.3）

NL2Repo 要求模型根據(jù)自然語言描述從零構(gòu)建完整的代碼倉庫，測試的是系統(tǒng)級(jí)工程能力。GLM-5.1 得分 42.7，vs GLM-5 的 35.9，提升 19%。和 Claude Opus 4.6（49.8）還有 7 分差距

Terminal-Bench 2.0 讓模型在真實(shí)終端環(huán)境中解決系統(tǒng)管理、運(yùn)維和開發(fā)任務(wù)。GLM-5.1 得分 63.5，vs GLM-5 的 56.2

CyberGym 是網(wǎng)絡(luò)安全編碼基準(zhǔn)，要求模型完成滲透測試、漏洞分析等安全工程任務(wù)。GLM-5.1 得分 68.7，vs GLM-5 的 48.3，提升 42%，進(jìn)步最大的單項(xiàng)

編碼能力詳細(xì)對(duì)比

智能體能力

BrowseComp 測試模型能否通過自主瀏覽網(wǎng)頁解決復(fù)雜信息檢索問題。GLM-5.1 帶上下文管理得分 79.3

τ3-Bench 在模擬客服場景中測試對(duì)話式 Agent 的雙向控制能力。GLM-5.1 得分 70.6

MCP-Atlas 衡量模型在多步驟工作流中調(diào)用外部工具（MCP 服務(wù)器）的能力。GLM-5.1 得分 71.8

Vending Bench 2 讓模型經(jīng)營一年的模擬自動(dòng)售貨機(jī)生意，測試長期規(guī)劃和資源管理。GLM-5.1 最終賬戶余額 $5634，vs GLM-5 的 $4432。和 Claude Opus 4.6（$8017）還有明顯差距

智能體能力詳細(xì)對(duì)比

推理能力

HLE 被稱為「人類最后的考試」，由各領(lǐng)域?qū)＜页鲱}，專門測試模型的知識(shí)和推理極限。GLM-5.1 得分 31.0，和 Gemini 3.1 Pro（45.0）、GPT-5.4（39.8）有明顯差距

AIME 2026 是美國數(shù)學(xué)邀請(qǐng)賽 2026 年賽題。GLM-5.1 得分 95.3，各家模型在這項(xiàng)上已經(jīng)非常接近

GPQA-Diamond 是由博士級(jí)專家出題的科學(xué)問答，涵蓋物理、化學(xué)、生物等領(lǐng)域。GLM-5.1 得分 86.2

推理維度整體和 GLM-5 持平，GLM-5.1 的提升集中在編碼和智能體

推理能力詳細(xì)對(duì)比

技術(shù)報(bào)告解讀

GLM-5.1 的技術(shù)細(xì)節(jié)沿用 GLM-5 的論文框架，論文已公開在 arXiv（2602.15763）。這里提取幾個(gè)和長程能力直接相關(guān)的核心要點(diǎn)

異步 RL 基礎(chǔ)設(shè)施

GLM-5 整體訓(xùn)練管線

傳統(tǒng)同步 RL 處理 Agent 任務(wù)時(shí) GPU 空閑嚴(yán)重，因?yàn)椴煌蝿?wù)的軌跡長度差異極大。智譜把訓(xùn)練引擎和推理引擎解耦到不同 GPU 設(shè)備上：推理引擎持續(xù)生成軌跡，達(dá)到閾值后批量送訓(xùn)練引擎更新模型，權(quán)重定期同步

通過一個(gè)「多任務(wù) Rollout 編排器」支持超過 1000 個(gè)并發(fā) rollout，每個(gè)任務(wù)實(shí)現(xiàn)為獨(dú)立的微服務(wù)，注冊到中央編排器統(tǒng)一調(diào)度

TITO（Token-in-Token-out）

異步 RL 中一個(gè)容易被忽視的問題：把推理引擎當(dāng)作黑箱只取最終文本，訓(xùn)練器需要重新分詞來重建軌跡。分詞邊界的微小不一致會(huì)在數(shù)千步的 Agent 任務(wù)中逐步累積

TITO 直接消費(fèi)推理引擎產(chǎn)出的 token ID 流和元數(shù)據(jù)，保持 action 級(jí)別的精確對(duì)應(yīng)，消除重新分詞帶來的誤差

DSA 與 RL 的適配

DSA 訓(xùn)練 SFT loss 對(duì)比

GLM-5 在預(yù)訓(xùn)練階段引入 DSA（DeepSeek Sparse Attention），用動(dòng)態(tài)稀疏注意力把長上下文的注意力計(jì)算降低約 1.5-2 倍

在 RL 階段出現(xiàn)了一個(gè)實(shí)踐發(fā)現(xiàn)：DSA 的 indexer 必須使用確定性的 torch.topk。非確定性的 CUDA 實(shí)現(xiàn)會(huì)導(dǎo)致 RL 訓(xùn)練幾步之后 entropy 急劇下降，性能嚴(yán)重退化

雙側(cè)重要性采樣

異步 RL 中不同軌跡可能由不同版本的模型生成，off-policy 問題嚴(yán)重。傳統(tǒng)方案需要維護(hù)歷史策略檢查點(diǎn)來計(jì)算重要性采樣比率

智譜的做法更直接：直接用 rollout 時(shí)的 log-probability 作為行為策略的代理，用 token 級(jí)別的雙側(cè)裁剪機(jī)制控制信任域，超出區(qū)間的 token 從梯度計(jì)算中屏蔽。不需要跟蹤歷史策略

環(huán)境規(guī)模

BrowseComp 上下文管理策略對(duì)比

編碼任務(wù)：構(gòu)建超過 10000 個(gè)可驗(yàn)證訓(xùn)練環(huán)境，覆蓋 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 種語言

搜索任務(wù)：構(gòu)建 Web 知識(shí)圖譜，從 200 萬+ 高信息網(wǎng)頁中抽取實(shí)體和關(guān)系，合成高難度多跳 QA 對(duì)

國產(chǎn)芯片全棧適配

GLM-5 從第一天起就完成了七家國產(chǎn)芯片平臺(tái)的全棧適配：華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、沐曦、燧原

在華為昇騰上通過 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 預(yù)處理優(yōu)化等手段，單節(jié)點(diǎn)性能接近雙卡國際集群

開源與使用

GLM-5.1 權(quán)重以 MIT 協(xié)議開源，提供 BF16 和 FP8 兩個(gè)版本。支持 vLLM、SGLang、xLLM（華為昇騰）、Ktransformers 本地部署

API 方面，GLM-5.1 已納入 GLM Coding Plan（Max/Pro/Lite 套餐），支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入

GLM-5.1 即將上線 chat.z.ai

參考材料

GLM-5.1 Blog
https://z.ai/blog/glm-5.1

GLM-5 Technical Report
https://arxiv.org/abs/2602.15763

GitHub
https://github.com/zai-org/GLM-5

Hugging Face
https://huggingface.co/zai-org/GLM-5.1

ModelScope 魔搭社區(qū)
https://modelscope.cn/models/ZhipuAI/GLM-5.1

GLM Coding Plan
https://z.ai/subscribe

BigModel 開放平臺(tái)
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.