網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GLM 5.1 開源了，Claude Opus 又被“碾壓”了

2026-04-08 11:28:12　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

先說結(jié)論

GLM-5.1 是智譜的新一代旗艦?zāi)Ｐ停?44B 參數(shù)（40B 激活），MIT 開源協(xié)議，主打"長(zhǎng)時(shí)間自主任務(wù)"。官方數(shù)據(jù)很漂亮：SWE-Bench Pro 拿了 58.4 分，超過了 Claude Opus 4.6（57.3）、GPT-5.4（57.7）和 Gemini 3.1 Pro（54.2），成為開源模型新標(biāo)桿。

但我實(shí)測(cè)下來，感受和跑分之間有一道鴻溝。

先說好的，再說問題。

GLM-5.1 的核心賣點(diǎn) 1. 長(zhǎng)時(shí)間自主任務(wù)，這是真正的亮點(diǎn)

過去的模型——包括 GLM-5——有個(gè)通?。洪_局猛如虎，跑著跑著就沒招了。給再多時(shí)間也白搭，到了瓶頸就開始原地踏步。

GLM-5.1 最大的突破在于：運(yùn)行時(shí)間越長(zhǎng)，結(jié)果越好。

官方給了三個(gè)場(chǎng)景來證明這一點(diǎn)，我逐個(gè)解讀：

場(chǎng)景一：向量數(shù)據(jù)庫(kù)優(yōu)化，600+ 輪迭代

VectorDBBench 是一個(gè)開源編程挑戰(zhàn)，讓模型用 Rust 構(gòu)建高性能近似最近鄰搜索數(shù)據(jù)庫(kù)。之前最好的成績(jī)是 Claude Opus 4.6 在 50 輪工具調(diào)用內(nèi)達(dá)到的 3,547 QPS。

GLM-5.1 換了個(gè)玩法：不限制輪次，讓模型自主決定什么時(shí)候提交新版本、下一步試什么。結(jié)果是經(jīng)過 600+ 次迭代、6000+ 次工具調(diào)用，最終達(dá)到 21,500 QPS——是 50 輪限制下最佳成績(jī)的6 倍。

優(yōu)化過程呈現(xiàn)典型的階梯式躍升：大約第 90 輪，模型從全表掃描切換到 IVF 聚簇探測(cè) + f16 向量壓縮，QPS 跳到 6.4k；大約第 240 輪，引入兩階段流水線（u8 預(yù)篩選 + f16 重排），QPS 跳到 13.4k。整個(gè)過程中出現(xiàn)了 6 次這樣的結(jié)構(gòu)性轉(zhuǎn)變，每次都是模型分析自己的性能日志后主動(dòng)發(fā)起的。

VectorDBBench 優(yōu)化過程，600+ 輪迭代從 3.5k 到 21.5k QPS

場(chǎng)景二：GPU 核優(yōu)化，1000+ 輪

KernelBench Level 3 包含 50 個(gè)問題，要求模型把 PyTorch 參考實(shí)現(xiàn)優(yōu)化成更快的 GPU kernel。作為參考，torch.compile 默認(rèn)設(shè)置能達(dá)到 1.15 倍加速，max-autotune 能達(dá)到 1.49 倍。

GLM-5.1 最終達(dá)到了3.6 倍加速，并且在實(shí)驗(yàn)后期還在持續(xù)進(jìn)步。Claude Opus 4.6 在這個(gè)任務(wù)上更強(qiáng)，達(dá)到 4.2 倍，但 GLM-5.1 比 GLM-5 有質(zhì)的飛躍——GLM-5 早早就見頂了。

場(chǎng)景三：8 小時(shí)構(gòu)建 Linux 桌面環(huán)境

這個(gè)最夸張。給模型一個(gè)提示詞：用網(wǎng)頁(yè)技術(shù)構(gòu)建一個(gè) Linux 風(fēng)格桌面環(huán)境。沒有模板代碼，沒有設(shè)計(jì)稿，沒有中間指導(dǎo)。

大多數(shù)模型——包括早期版本的 GLM——很快就放棄了：搞個(gè)靜態(tài)任務(wù)欄加一兩個(gè)占位窗口，就宣布完成了。

GLM-5.1 套了一個(gè)簡(jiǎn)單的外循環(huán)：每輪執(zhí)行完后，模型審視自己的輸出，找出可以改進(jìn)的地方——缺少的功能、粗糙的樣式、有 bug 的交互——然后繼續(xù)。這個(gè)循環(huán)跑了 8 個(gè)小時(shí)。

最終成果是一個(gè)完整的、視覺一致的瀏覽器端桌面環(huán)境：文件瀏覽器、終端、文本編輯器、系統(tǒng)監(jiān)控器、計(jì)算器、游戲……每個(gè)新增功能都集成在統(tǒng)一的 UI 中，樣式越來越精致，交互越來越流暢。

這才是 GLM-5.1 真正讓我眼前一亮的地方——不是單次對(duì)話有多強(qiáng)，而是持續(xù)工作有多持久。

2. SWE-Bench Pro 開源第一

來看看官方測(cè)評(píng)數(shù)據(jù)：

GLM-5.1 完整 Benchmark 對(duì)比表

重點(diǎn)數(shù)據(jù)拎出來看：

Benchmark

GLM-5.1

GLM-5

Qwen3.6-Plus

Claude Opus 4.6

GPT-5.4

SWE-Bench Pro

58.4

55.1

56.6

57.3

57.7

NL2Repo

42.7

35.9

37.9

49.8

41.3

Terminal-Bench 2.0

63.5

56.2

61.6

65.4

CyberGym

68.7

48.3

66.6

BrowseComp

68.0

62.0

HLE

31.0

30.5

28.8

36.7

39.8

AIME 2026

95.3

95.4

95.1

95.6

98.7

GPQA-Diamond

86.2

86.0

90.4

91.3

92.0

幾個(gè)關(guān)鍵發(fā)現(xiàn)：

編程（SWE-Bench Pro）確實(shí)是開源第一，58.4 的成績(jī)超越了所有閉源模型，MIT 協(xié)議開源，這個(gè)含金量很高
CyberGym 網(wǎng)絡(luò)安全任務(wù)表現(xiàn)驚艷，68.7 超過 Opus 4.6 的 66.6，從 GLM-5 的 48.3 到 5.1 的 68.7，提升了 42%
BrowseComp 瀏覽器任務(wù)也是開源最強(qiáng)，68.0 vs GLM-5 的 62.0
數(shù)學(xué)推理并沒有顯著提升，AIME 2026 幾乎和 GLM-5 持平（95.3 vs 95.4），和 GPT-5.4 的 98.7 還有差距
NL2Repo 倉(cāng)庫(kù)生成還是 Opus 4.6 最強(qiáng)，49.8 vs GLM-5.1 的 42.7

一句話總結(jié)：GLM-5.1 在編程和 Agent 任務(wù)上確實(shí)達(dá)到了頂級(jí)水準(zhǔn)，但在純推理（數(shù)學(xué)、科學(xué)）方面依然不是最強(qiáng)的。

SWE-Bench Pro 對(duì)比柱狀圖開源 vs 閉源差距正在縮小 3. 第三方競(jìng)技場(chǎng)評(píng)測(cè)

除了官方跑分，第三方競(jìng)技場(chǎng)的表現(xiàn)也很搶眼：

Design Arena（設(shè)計(jì)競(jìng)技場(chǎng)）：

GLM 5 Turbo 和 GLM-5.1 分別拿到第 2 和第 4 名，Elo 評(píng)分 1355 和 1352。開源模型里前 4 名全是 GLM 家族的，和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一檔位。

Design Arena 排名

Text Arena（文本競(jìng)技場(chǎng)）：

GLM-5.1 是當(dāng)前開源模型第一名，超越 GLM-5 +11 分，超越 Kimi K2.5 Thinking +15 分。

具體強(qiáng)項(xiàng)：

長(zhǎng)文本查詢：開源第一（總排第四）
生命科學(xué)/物理/社會(huì)科學(xué)：開源第一（總排第五）
娛樂/體育/媒體：開源第一（總排第八）
編程：開源第一（總排第十）

Text Arena 排名

對(duì)比三代 GLM 模型（4.7 → 5 → 5.1），GLM-5.1 相比 GLM-5 的最大進(jìn)步：

編程 +28 名
長(zhǎng)文本查詢 +23 名
軟件/IT 服務(wù) +22 名
娛樂/體育/媒體 +17 名

但有意思的是，GLM-5 在某些領(lǐng)域反而比 5.1 更強(qiáng)：

醫(yī)療健康 +24 名
法律/政務(wù) +6 名
數(shù)學(xué) +2 名

三代 GLM 模型能力對(duì)比

這說明 GLM-5.1 是一次"有取舍的升級(jí)"，重點(diǎn)強(qiáng)化了編程和 Agent 能力，在其他一些通用任務(wù)上做了讓步。

個(gè)人實(shí)測(cè)：跑分歸跑分，實(shí)際歸實(shí)際

說完漂亮的數(shù)據(jù)，來說說我自己的真實(shí)感受。

我拿最常用的測(cè)試題來試：閱讀理解 + SVG 代碼生成 + 審美。

先測(cè)了 GLM-5（發(fā)稿時(shí)官網(wǎng)還沒有 5.1），結(jié)果讓我失望——連"4 次背影"這個(gè)閱讀理解都沒搞對(duì)：

GLM-5 沒有理解到 4 次背影

GLM 5 Turbo 好一點(diǎn)，理解力上去了，但代碼寫得差點(diǎn)意思，排版也很差：

GLM 5 Turbo 的代碼生成排版很粗糙

怎么連 Claude Sonnet 3.7 都比不過呢？注意??是 Sonnet，是 3.7！

然后 Ollama 倒是放出了 5.1 的云端版本，可以免費(fèi)使用：

Ollama 支持 GLM-5.1 云端調(diào)用

測(cè)了一下，也很失望。

最起碼的閱讀理解都沒做好，懶得預(yù)覽了：

GLM-5.1 通過 Ollama 的測(cè)試結(jié)果，閱讀理解不達(dá)標(biāo)GLM-5.1 SVG 代碼生成效果

目前實(shí)際體感，GLM-5.1 在我這個(gè)測(cè)試上不如 Qwen3.6-Plus：

Qwen3.6-Plus 的 SVG 生成效果明顯更好

更何況 Qwen3.6-Plus 還能在 OpenCode 中免費(fèi)調(diào)用，加上 Skills 加持，體驗(yàn)好太多：

OpenCode 中免費(fèi)調(diào)用 Qwen3.6-Plus + Skills 加持

我的理解是：GLM-5.1 的長(zhǎng)處在于長(zhǎng)時(shí)間、多輪次的 Agent 任務(wù)（SWE-Bench 那種需要反復(fù)讀代碼、改代碼、跑測(cè)試的場(chǎng)景），在單次對(duì)話的"快速生成"能力上，目前表現(xiàn)確實(shí)沒有跑分那么驚艷。

模型架構(gòu)與參數(shù)

簡(jiǎn)單過一下參數(shù)：

參數(shù)規(guī)模：744B 總參數(shù)，40B 激活參數(shù)（MoE 架構(gòu)）
上下文窗口：200K token
開源協(xié)議：MIT（商用友好）
模型格式：BF16 全精度 + FP8 量化版
權(quán)重下載：HuggingFace / ModelScope

GLM-5.1 和 GLM-5 同架構(gòu)（和 DeepSeek V3.2 也是同結(jié)構(gòu)），主要的改進(jìn)體現(xiàn)在訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上，特別是強(qiáng)化了工具調(diào)用、推理歷史重建和工具消息渲染。

本地部署全攻略

這是大家最關(guān)心的部分。GLM-5.1 的 744B 參數(shù)，全精度需要1.65TB磁盤空間，所以本地部署基本上只能用量化版本或者 FP8。下面按不同場(chǎng)景分別介紹。

方案一：vLLM 部署（推薦，生產(chǎn)環(huán)境）

vLLM 0.19.0+ 已經(jīng)支持 GLM-5.1。

vLLM 部署 GLM-5.1

Docker 一鍵啟動(dòng)（最省事）：

docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
    --tensor-parallel-size 8 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-5.1-fp8

CUDA 13 以上的用vllm/vllm-openai:glm51-cu130鏡像。

從源碼安裝：

uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"

注意：FP8 模型需要額外安裝 DeepGEMM。

FP8 模型在 8×H200（或 H20）上運(yùn)行：

vllm serve zai-org/GLM-5.1-FP8 \
     --tensor-parallel-size 8 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 3 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5.1-fp8

幾個(gè)注意點(diǎn)：

思考模式默認(rèn)開啟，不需要額外參數(shù)。想關(guān)閉的話加"chat_template_kwargs": {"enable_thinking": false}
支持 OpenAI 格式的工具調(diào)用
支持投機(jī)解碼（MTP），實(shí)測(cè)輸出吞吐量可達(dá) 526 tok/s（8k/1k，8×H200）

Python 客戶端調(diào)用：

from openai import OpenAI

 client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1",
)

 # 思考模式（默認(rèn)開啟）
resp = client.chat.completions.create(
    model="glm-5.1-fp8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用 Python 實(shí)現(xiàn)快速排序"},
    ],
    temperature=1,
    max_tokens=4096,
)
print("思考過程：", resp.choices[0].message.reasoning)
print("回答：", resp.choices[0].message.content)

方案二：SGLang 部署（高并發(fā)場(chǎng)景）

SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常廣泛：NVIDIA H100、H200、B200、GB300，還有 AMD MI300X/MI325X/MI355X。

SGLang 部署 GLM-5.1

FP8 + H200 + 全功能啟動(dòng)：

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp 8 \
  --reasoning-parser glm45 \
  --tool-call-parser glm47 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85

不同硬件的 TP（Tensor Parallel）配置：

硬件

FP8

BF16

H100

tp=16

tp=32

H200

tp=8

tp=16

B200

tp=8

tp=16

GB300

tp=4

MI300X/MI325X

tp=8

MI355X

tp=8

注意：BF16 全精度需要的 GPU 數(shù)量是 FP8 的2 倍。如果你有 8 張 H200，F(xiàn)P8 剛好夠用；全精度需要 16 張。

SGLang 還有幾個(gè)獨(dú)特優(yōu)勢(shì)：

DP Attention：高并發(fā)下用數(shù)據(jù)并行注意力，吞吐量更高（低并發(fā)場(chǎng)景關(guān)掉，會(huì)影響延遲）
投機(jī)解碼（EAGLE）：顯著降低交互延遲
GLM-5.1 和 DeepSeek V3.2 同架構(gòu)，SGLang 對(duì)兩者的優(yōu)化技術(shù)是通用的（MTP、DSA kernel、Context Parallel 等）

方案三：Ollama 云端（最簡(jiǎn)單，免費(fèi)）

一行命令搞定：

ollama run glm-5.1:cloud

Ollama 運(yùn)行 GLM-5.1

這是最低門檻的體驗(yàn)方式，不需要本地 GPU。但正如我前面實(shí)測(cè)的，效果嘛……老實(shí)說有點(diǎn)拉胯。

方案四：Unsloth 量化版（消費(fèi)級(jí)硬件的希望）

Unsloth 提供了各種精度的 GGUF 量化版本，這才是普通人本地跑的正確姿勢(shì)。

Unsloth 提供的 GLM-5.1 量化方案

模型文件：unsloth/GLM-5.1-GGUF

各精度模型大小對(duì)比：

不同量化精度的模型文件大小

關(guān)鍵數(shù)據(jù)：

Dynamic 2-bit（UD-IQ2_M）：約 236GB → 可以在256GB 統(tǒng)一內(nèi)存的 Mac上跑，也可以在 1×24GB GPU + 256GB 內(nèi)存上跑（MoE 卸載）
Dynamic 1-bit：約 200GB → 可以塞進(jìn) 220GB 內(nèi)存
8-bit：需要 805GB 內(nèi)存
完整模型（BF16）：1.65TB

Unsloth 用的是 Dynamic 2.0 量化技術(shù)——重要層會(huì)自動(dòng)升到 8-bit 或 16-bit，低位量化掉精度損失的地方集中在不太重要的層上，整體效果比均勻量化好不少。

Unsloth Studio 一鍵運(yùn)行（推薦新手）：

Mac/Linux 安裝：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

啟動(dòng) Studio：

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://localhost:8888，搜索 GLM-5.1，選擇量化版本下載即可。推薦選UD-Q2_K_XL（動(dòng)態(tài) 2-bit），平衡體積和精度。

llama.cpp 命令行運(yùn)行：

先編譯 llama.cpp（Mac 用戶把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF，Metal 加速默認(rèn)開啟）：

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
    --clean-first --target llama-cli llama-server

下載模型：

pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
    --local-dir unsloth/GLM-5.1-GGUF \
    --include "*UD-IQ2_M*"

運(yùn)行（通用指令模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 1.0

運(yùn)行（工具調(diào)用模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95

部署為 OpenAI 兼容 API 服務(wù)：

./llama.cpp/llama-server \
    --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
    --alias "unsloth/GLM-5.1" \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

然后就可以用 OpenAI SDK 調(diào)用了：

from openai import OpenAI


 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
    model="unsloth/GLM-5.1",
    messages=[{"role": "user", "content": "用 Python 寫個(gè)貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)

小貼士：

--ctx-size 16384是上下文長(zhǎng)度，最大支持 202,752，按需調(diào)整
--threads 32可以指定 CPU 線程數(shù)
--n-gpu-layers 2控制 GPU 卸載層數(shù)，顯存不夠就調(diào)小
默認(rèn)開啟思考模式，想關(guān)閉加--chat-template-kwargs '{"enable_thinking":false}'

其他部署方案

除了上面四種主流方式，還支持：

xLLM（v0.8.0+）：支持華為昇騰 NPU，國(guó)產(chǎn)化部署的選擇
Transformers（v0.5.3+）：HuggingFace 原生推理
KTransformers（v0.5.3+）：KV Cache 優(yōu)化，適合長(zhǎng)上下文場(chǎng)景

API 調(diào)用

如果不想自己部署，直接用官方 API 也行。

cURL 調(diào)用：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
    "model": "glm-5.1",
    "messages": [
        {"role": "user", "content": "幫我寫一段Python快速排序"}
    ],
    "thinking": {"type": "enabled"},
    "max_tokens": 4096,
    "temperature": 1.0
}'

Python SDK 調(diào)用：

# 安裝 SDK
# pip install zai-sdk

 from zai import ZaiClient

 client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
    thinking={"type": "enabled"},
    max_tokens=4096,
    temperature=1.0,
)
print(response.choices[0].message)

兼容 OpenAI SDK（推薦！遷移成本為零）：

from openai import OpenAI


 client = OpenAI(
    api_key="your-Z.AI-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
)
print(completion.choices[0].message.content)

改個(gè) base_url 和 api_key 就行，原來用 OpenAI SDK 的代碼幾乎不用動(dòng)。

另外，GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流編程 Agent 中使用。對(duì) GLM Coding Plan 訂閱用戶，高峰時(shí)段（北京時(shí)間 14:00-18:00）消耗 3 倍額度，非高峰 2 倍；4 月底前非高峰按 1 倍計(jì)費(fèi)，算是一個(gè)限時(shí)優(yōu)惠。

和同類開源模型的橫向?qū)Ρ?br/>

維度

GLM-5.1

Qwen3.6-Plus

Kimi K2.5

DeepSeek-V3.2

參數(shù)

744B（40B 激活）

未公開

開源協(xié)議

MIT

Apache 2.0

MIT

編程（SWE-Bench Pro）

58.4

56.6

53.8

數(shù)學(xué)（AIME 2026）

95.3

95.1

94.5

95.1

Agent（τ3-Bench）

70.6

70.7

66.0

69.2

工具調(diào)用（MCP-Atlas）

71.8

74.1

63.8

62.2

網(wǎng)絡(luò)安全（CyberGym）

68.7

41.3

17.3

長(zhǎng)時(shí)間任務(wù)

? 核心優(yōu)勢(shì)

未驗(yàn)證

本地部署門檻

高（2-bit 需 236GB）

相對(duì)低

中等

GLM-5.1 的定位非常清晰：Agent 工程的旗艦?zāi)Ｐ?/strong>。如果你需要一個(gè)能在 Claude Code 里跑幾個(gè)小時(shí)自動(dòng)修 bug 的模型，GLM-5.1 是當(dāng)前開源最佳選擇。

但如果你要的是日常對(duì)話、通用問答，Qwen3.6-Plus 目前體驗(yàn)更好、門檻更低。兩者并不矛盾，場(chǎng)景不同選擇不同。

總結(jié)

優(yōu)點(diǎn)：

SWE-Bench Pro 58.4 分，開源模型第一，超越所有閉源模型
長(zhǎng)時(shí)間自主任務(wù)的持久力是獨(dú)一份的核心競(jìng)爭(zhēng)力（600+ 輪迭代、8 小時(shí)持續(xù)開發(fā)）
MIT 開源協(xié)議，商用零負(fù)擔(dān)
部署生態(tài)完善：vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆蓋
兼容 OpenAI API 格式，遷移成本低
兼容 Claude Code、OpenCode 等主流編程 Agent

不足：

單次對(duì)話的表現(xiàn)和跑分之間有落差（至少在我的測(cè)試題上是這樣）
純推理能力（數(shù)學(xué)/科學(xué)）相比 GPT-5.4 和 Gemini 3.1 Pro 還有差距
本地部署門檻高，即使 2-bit 量化也需要 236GB 內(nèi)存
和 GLM-5 相比，醫(yī)療/法律/數(shù)學(xué)領(lǐng)域反而有退步

適合誰：

需要長(zhǎng)時(shí)間自動(dòng)化編程任務(wù)的團(tuán)隊(duì)（CI/CD 自動(dòng)修復(fù)、代碼遷移、大規(guī)模重構(gòu)）
在 Claude Code / OpenCode 等 Agent 框架中尋找開源替代品的開發(fā)者
有 H200/H100 集群的企業(yè)，想要私有化部署頂級(jí)編程模型
Mac Studio 256GB 用戶可以試試 Unsloth 量化版

不太適合：

日常聊天和通用問答（Qwen3.6-Plus 體驗(yàn)更好）
只有 16GB/32GB 內(nèi)存的輕量用戶（模型太大了）
對(duì)數(shù)學(xué)/科學(xué)推理有極高要求的場(chǎng)景

官方鏈接匯總：

博客：https://z.ai/blog/glm-5.1
模型權(quán)重：https://huggingface.co/zai-org/GLM-5.1
API 文檔：https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程：https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程：https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版：https://huggingface.co/unsloth/GLM-5.1-GGUF
技術(shù)報(bào)告：https://arxiv.org/abs/2602.15763

制作不易，如果這篇文章覺得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

美方已與古巴會(huì)談：要求古巴引入"星鏈" 釋放政治犯

魯中晨報(bào) 2026-04-21 09:56:06
8249 跟貼 8249

女子乘船時(shí)同大雁“齊飛”，兩手輕撫托舉畫面和諧美好

北青網(wǎng)-北京青年報(bào) 2026-04-21 04:02:12
1176 跟貼 1176

湖北松滋市教育局通報(bào)“某學(xué)校要求走讀生將背包改為透明書袋”：已責(zé)令涉事學(xué)校立即糾正、認(rèn)真整改

環(huán)球網(wǎng)資訊 2026-04-21 12:17:57
7678 跟貼 7678

快檢查自家陽(yáng)臺(tái)！有人家里已大量出現(xiàn)，官方提醒：千萬別摸

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
609 跟貼 609

“領(lǐng)小姐姐看電影不買吃喝好意思么”，山東臨沂一影院條幅令人不適，當(dāng)?shù)兀阂岩筇幚?/a>

瀟湘晨報(bào) 2026-04-21 16:44:21
383 跟貼 383

霍爾木茲海峽，通航新消息！

證券時(shí)報(bào) 2026-04-21 21:24:03
1 跟貼 1

小伙80萬元開面館十幾天倒閉，兩年后40萬開包子店，日營(yíng)業(yè)額過萬正籌備第二家門店

極目新聞 2026-04-21 13:34:19
288 跟貼 288

黎巴嫩再成戰(zhàn)場(chǎng) 民眾：在這沒有人沒有失去過親近的人

新京報(bào) 2026-04-20 08:22:24
875 跟貼 875

男子爬上泰山“五岳獨(dú)尊”石刻拍照，景區(qū)：將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào) 2026-04-17 12:09:40
1288 跟貼 1288

周亮被免去國(guó)家金融監(jiān)督管理總局副局長(zhǎng)職務(wù)

界面新聞 2026-04-21 09:53:49
5 跟貼 5

上海一家奧樂齊超市銷售的經(jīng)典凱撒沙拉檢出李斯特菌國(guó)標(biāo)要求“不得檢出”

信網(wǎng) 2026-04-21 19:25:05
55 跟貼 55

拜仁摘隊(duì)史德甲第34冠，主帥孔帕尼：“一切還沒結(jié)束”

環(huán)球網(wǎng)資訊 2026-04-21 06:48:12
240 跟貼 240

80多年來首次放開殺傷性武器出口日本邁出危險(xiǎn)的一步

上觀新聞 2026-04-21 21:18:03
382 跟貼 382

減速機(jī)訂單已排到明年！

財(cái)聯(lián)社 2026-04-21 07:54:05
669 跟貼 669

寧德時(shí)代發(fā)布第三代神行超充電池，滿電僅需6分鐘！從10%充到80%，則只需要3分44秒

大象新聞 2026-04-21 20:47:11
31 跟貼 31

“五一”出行前瞻：“扎堆打卡”到“像本地人生活”

南方都市報(bào) 2026-04-21 18:56:12
45 跟貼 45

經(jīng)濟(jì)大省調(diào)研行｜吞吐之間見活力——透視長(zhǎng)三角港口群的韌性支撐

新華社 2026-04-21 16:51:07
25 跟貼 25

俄軍總參謀長(zhǎng)稱已完全控制盧甘斯克地區(qū)

財(cái)聯(lián)社 2026-04-21 17:16:23
287 跟貼 287

可達(dá)5G的10倍全國(guó)首個(gè)Pre6G試驗(yàn)網(wǎng)在南京投入運(yùn)行

界面新聞 2026-04-21 16:08:31
727 跟貼 727

一季度31個(gè)省份規(guī)上工業(yè)增加值全部實(shí)現(xiàn)正增長(zhǎng)

央視新聞客戶端 2026-04-21 10:08:48
1 跟貼 1

億縷陽(yáng)光｜在春天邂逅美好

環(huán)球網(wǎng)資訊 2026-04-21 20:39:50
25 跟貼 25

儀征一村莊家禽接連慘遭毒手!

視覺儀征 2026-04-22 01:47:26
0 跟貼 0

格力回應(yīng)鋁線電機(jī)爭(zhēng)議：相關(guān)工程機(jī)已停產(chǎn)，海信稱靠多三兩銅多500元時(shí)代已終結(jié)

紅星資本局 2026-04-21 20:40:16
0 跟貼 0

下調(diào)！廣東最新油價(jià)公布：92號(hào)汽油，最高8.48元/升
南方都市報(bào)
2026-04-21 17:59:31

不是高價(jià)，而是白菜價(jià)！3月，中國(guó)低價(jià)向日本出口7.5萬噸天然氣
南生今世說
2026-04-21 16:34:03

住建部：已查清全國(guó)住房數(shù)量，房屋過剩問題嚴(yán)重，7.7億㎡待售
談史論天地
2026-04-21 07:46:52

“我是宣威人為何不能賣火腿？”云南一商家網(wǎng)售“宣威火腿”被訴侵權(quán)
封面新聞
2026-04-21 18:15:02

中方不再伺候了！對(duì)荷光刻機(jī)優(yōu)待全部取消，450億芯片不做了！
錯(cuò)過美好
2026-04-21 19:01:41

解決掉提問的人，問題就解決了？北師大“神操作”火了
虔青
2026-04-20 14:07:53

貴州網(wǎng)紅曉浪哥去世，僅34歲，愛在墓地拍視頻，早給自己選好墓地
奇思妙想草葉君
2026-04-21 16:24:04

中國(guó)高校只剩7年窗口期學(xué)生數(shù)量斷崖式塌方后一半高校都得死
六子吃涼粉
2026-04-20 19:10:49

特朗普已做好開戰(zhàn)準(zhǔn)備？王毅曾警告：中美一旦沖突，結(jié)局只剩一個(gè)
蜉蝣說
2026-04-21 11:23:11

雷神山院長(zhǎng)落馬，最揪心的是無數(shù)女醫(yī)護(hù)背后的家庭
社會(huì)日日鮮
2026-04-21 08:34:40

注意！6月1日起大醫(yī)院不再隨意接診，看病不按規(guī)矩可能白跑
夜深愛雜談
2026-04-21 07:45:20

大快人心！張敬軒復(fù)出泡湯，霍汶希被拖下水，英皇如坐針氈
一盅情懷
2026-04-21 19:20:32

港媒曝張曼玉“五官?gòu)氐追蛛x”，61歲生圖惹爭(zhēng)議，倆部位面目全非
冷紫葉
2026-04-20 17:12:17

美稱扣押的船只與制造導(dǎo)彈有關(guān)？外交部：中方反對(duì)惡意關(guān)聯(lián)和炒作
澎湃新聞
2026-04-21 15:36:26

存款大局已定！若無意外，2026年銀行利率或?qū)⒂瓉?大變化
復(fù)轉(zhuǎn)這些年
2026-04-21 18:33:57

伊朗將缺席談判，美高官點(diǎn)名：不排除對(duì)前往中國(guó)伊朗油輪強(qiáng)制檢查
健身狂人
2026-04-21 18:01:12

炸裂！女子剛分手就獻(xiàn)身異性，男友尾隨當(dāng)場(chǎng)抓獲，情夫赤裸一臉懵
李晚書
2026-04-21 16:43:59

1-4到5-4！小特上半場(chǎng)逆轉(zhuǎn)3冠王，對(duì)轟破百，小將4轟50+仍落后！
劉姚堯的文字城堡
2026-04-21 21:46:07

女子21萬全款購(gòu)車后發(fā)現(xiàn)該車為“展車”，4S店稱“工作失誤” 當(dāng)?shù)厥斜O(jiān)部門已介入
紅星新聞
2026-04-21 14:51:54

最后24小時(shí)，伊朗仍未點(diǎn)頭赴會(huì)，特朗普挑明后果，美國(guó)敵人浮現(xiàn)
軍機(jī)Talk
2026-04-21 20:07:17

2026-04-22 02:32:49

Ai學(xué)習(xí)的老章

Ai學(xué)習(xí)的老章

3343文章數(shù) 11139關(guān)注度

往期回顧全部

科技要聞

創(chuàng)造4萬億帝國(guó)、訪華20次，庫(kù)克留下了什么

愛奇藝AI藝人庫(kù)爭(zhēng)議背后：為何要推進(jìn)

重磅官宣：庫(kù)克卸任，特努斯接任蘋果CEO

HUAWEI Pura X Max發(fā)布售價(jià)10999元起

拋棄OpenAI，Anthropic為何成中國(guó)AI新偶像

頭條要聞

三國(guó)取消飛航許可賴清德無法竄訪斯威士蘭

媒體：中國(guó)戰(zhàn)艦坦蕩過航橫當(dāng)水道日媒緊張

"武漢高啟強(qiáng)"黃大發(fā)一審被判死刑涉多起暴力強(qiáng)拆事件

男子玩18米高"窩囊版"蹦極時(shí)摔傷起訴景區(qū)索賠幾十萬

十年來首次美國(guó)高級(jí)代表團(tuán)到訪古巴：要求重大改革

頭條要聞

三國(guó)取消飛航許可賴清德無法竄訪斯威士蘭

媒體：中國(guó)戰(zhàn)艦坦蕩過航橫當(dāng)水道日媒緊張

"武漢高啟強(qiáng)"黃大發(fā)一審被判死刑涉多起暴力強(qiáng)拆事件

男子玩18米高"窩囊版"蹦極時(shí)摔傷起訴景區(qū)索賠幾十萬

十年來首次美國(guó)高級(jí)代表團(tuán)到訪古巴：要求重大改革

體育要聞

一到NBA季后賽，四屆DPOY就成了主角

中超-蓉城2-1逆轉(zhuǎn)玉昆費(fèi)利佩替補(bǔ)制勝拜合拉木2球被吹

中超-陳純新弒舊主+連續(xù)3輪建功銅梁龍客場(chǎng)2-1海港

近6輪中超首勝！國(guó)安1-0送新鵬城3連敗 35歲張稀哲替補(bǔ)世界波絕殺

NBL歷史首次3連冠！香港金牛3-0橫掃上海玄鳥成沖CBA大熱

娛樂要聞

宋承炫曬寶寶B超照，宣布老婆懷孕

九周年了，生了三個(gè)女兒，郭天王還在被嘲諷!

33歲嫁10億富豪，生了冠軍兒子，50歲成人生贏家

鄭秀文說許志安有工作替他開心

孫儷基因太強(qiáng)大 14歲兒子神似“少年甄嬛”引熱議

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

寧德時(shí)代電池產(chǎn)品集中上新：6分鐘充滿，續(xù)航1500公里，鈉離子電池今年量產(chǎn)

注冊(cè)資本1億美元，Costco設(shè)立北京公司，加注中國(guó)

液冷龍頭，越賣越不賺？

中美AI差距縮至2.7%，然后呢？

汽車要聞

全新坦克700正式上市售價(jià)42.8萬-50.8萬元

海豹08/海獅08及全新概念車比亞迪海洋網(wǎng)車展陣容

拒絕“堆料”內(nèi)卷華為乾崑死磕安全底線

車長(zhǎng)5米3 華為乾崑奕境首款旗艦大六座SUV定名X9

北京車展首發(fā)GT跑車，領(lǐng)克只造有難度的，還難賣的車？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

親子

房產(chǎn)

健康

時(shí)尚

家居要聞

詩(shī)意光影窺見自然之境

自然慢調(diào) 慢享時(shí)光

法式線條時(shí)光靜淌

智能舒適簡(jiǎn)約風(fēng)尚

親子要聞

寶藍(lán)和弟弟妹妹們一起去游樂園，玩了很多游樂設(shè)施，還一起打水仗

Baby hair in the wind

孤獨(dú)力有多重要？聰明的父母懂得牢牢把握，影響孩子的人生高度

專注力對(duì)孩子的影響超乎想象，你可能錯(cuò)過了一個(gè)學(xué)霸

卵巢功能減退還能不能懷孕？高齡備孕吃什么懷孕率高？

房產(chǎn)要聞

年薪40-50萬！海南地產(chǎn)圈還在猛招人

重要信號(hào)！海南公積金的用途，又要擴(kuò)大了！

大規(guī)模商改?。『？谖骱０?，這波項(xiàng)目要贏麻了！

重磅！海口北站來了！多項(xiàng)信息曝光，過海時(shí)間將大幅縮短！

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藍(lán)莓也有粉色的，專家：不等于營(yíng)養(yǎng)價(jià)值高

谷雨時(shí)節(jié)，建議你多吃這些食物

驚蟄節(jié)氣，疏肝潤(rùn)燥正當(dāng)時(shí)

如何保護(hù)心臟健康？來看醫(yī)生怎么說

頂流復(fù)工，已判若兩人

浪姐七年，被這位姐姐掀桌了

71歲老太，專治窮病

時(shí)尚啟蒙必看片單，終于更新了

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GLM 5.1 開源了，Claude Opus 又被“碾壓”了

創(chuàng)造4萬億帝國(guó)、訪華20次，庫(kù)克留下了什么

三國(guó)取消飛航許可 賴清德無法竄訪斯威士蘭

三國(guó)取消飛航許可 賴清德無法竄訪斯威士蘭

一到NBA季后賽，四屆DPOY就成了主角

宋承炫曬寶寶B超照，宣布老婆懷孕

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

全新坦克700正式上市 售價(jià)42.8萬-50.8萬元

態(tài)度原創(chuàng)

詩(shī)意光影 窺見自然之境

寶藍(lán)和弟弟妹妹們一起去游樂園，玩了很多游樂設(shè)施，還一起打水仗

年薪40-50萬！海南地產(chǎn)圈還在猛招人

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

頂流復(fù)工，已判若兩人

GLM 5.1 開源了，Claude Opus 又被“碾壓”了

創(chuàng)造4萬億帝國(guó)、訪華20次，庫(kù)克留下了什么

三國(guó)取消飛航許可賴清德無法竄訪斯威士蘭

三國(guó)取消飛航許可賴清德無法竄訪斯威士蘭

一到NBA季后賽，四屆DPOY就成了主角

全新坦克700正式上市售價(jià)42.8萬-50.8萬元

詩(shī)意光影窺見自然之境

寶藍(lán)和弟弟妹妹們一起去游樂園，玩了很多游樂設(shè)施，還一起打水仗

年薪40-50萬！海南地產(chǎn)圈還在猛招人

頂流復(fù)工，已判若兩人