国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GLM-5.1 開源:零介入,交付整套的 Linux 桌面系統(tǒng)

0
分享至

PRODUCT

今天,智譜開源了 GLM-5.1:744B 參數(shù),40B 激活,MIT 協(xié)議

零人工介入,能獨(dú)立工作超過 8 小時(shí),GLM-5.1 從零交付了一套完整的 Linux 桌面系統(tǒng):窗口管理器、文件瀏覽器、終端、文本編輯器、系統(tǒng)監(jiān)視器、游戲庫等,共計(jì) 4.8MB

8小時(shí),構(gòu)建Linux 桌面系統(tǒng)

SWE-Bench Pro 58.4,超過 GPT-5.4 和 Claude Opus 4.6,全球最高

三項(xiàng)編碼基準(zhǔn)綜合平均,全球第三、開源第一


三項(xiàng)編碼基準(zhǔn)綜合平均分

給更多時(shí)間,真的會(huì)更好

GLM-5.1 能夠在長時(shí)間任務(wù)中持續(xù)保持有效工作,這讓它可以做到以前短對(duì)話里做不了的事情。以下是兩個(gè)硬核的例子

自主優(yōu)化一個(gè)搜索引擎,連續(xù)跑了 655 輪

AI 搜索和推薦系統(tǒng)的背后都有一個(gè)向量數(shù)據(jù)庫,它的查詢速度直接決定用戶體驗(yàn)。GLM-5.1 用 Rust 從零寫了一個(gè)向量搜索引擎,然后自己反復(fù)跑測試、看結(jié)果、改代碼,連續(xù)迭代了 655 輪

向量數(shù)據(jù)庫 655 輪優(yōu)化

過程中模型完成了 6 次結(jié)構(gòu)性的策略跳躍,從全庫掃描一路優(yōu)化到兩級(jí)路由 + 提前剪枝,最終把查詢速度從 3108 QPS 提升到 21472 QPS,提高了 6.9 倍


向量數(shù)據(jù)庫優(yōu)化軌跡:階梯型跳躍模式

給 50 個(gè) AI 模型寫加速代碼,跑了 1000 多輪

KernelBench 給模型一個(gè)挑戰(zhàn):拿到 50 個(gè)真實(shí) AI 模型(MobileNet、VGG、MiniGPT、Mamba 等)的 PyTorch 代碼,想辦法寫出運(yùn)行更快的 GPU 版本,功能完全一樣但速度要快


KernelBench Level 3 優(yōu)化曲線:四個(gè)模型對(duì)比

GLM-5.1 在 1000 多輪工具調(diào)用中自主編寫了 Triton 和 CUDA 加速代碼,最終達(dá)到 3.6 倍加速,遠(yuǎn)超 PyTorch 自帶優(yōu)化器 torch.compile 的 1.49 倍

Benchmark 詳細(xì)數(shù)據(jù)

GLM-5.1 的提升集中在編碼和智能體兩個(gè)維度,提升幅度在 19%-42% 之間。推理能力和 GLM-5 基本持平,和 Gemini 3.1 Pro、GPT-5.4 還有明顯差距


GLM-5.1 Benchmark 總覽

編碼能力

SWE-Bench Pro 衡量的是模型能否在真實(shí) GitHub 倉庫中定位并修復(fù)高難度工程 Bug,是目前最接近真實(shí)軟件開發(fā)的單項(xiàng)指標(biāo)。GLM-5.1 得分 58.4,全球最高,超過 GPT-5.4(57.7)和 Claude Opus 4.6(57.3)

NL2Repo 要求模型根據(jù)自然語言描述從零構(gòu)建完整的代碼倉庫,測試的是系統(tǒng)級(jí)工程能力。GLM-5.1 得分 42.7,vs GLM-5 的 35.9,提升 19%。和 Claude Opus 4.6(49.8)還有 7 分差距

Terminal-Bench 2.0 讓模型在真實(shí)終端環(huán)境中解決系統(tǒng)管理、運(yùn)維和開發(fā)任務(wù)。GLM-5.1 得分 63.5,vs GLM-5 的 56.2

CyberGym 是網(wǎng)絡(luò)安全編碼基準(zhǔn),要求模型完成滲透測試、漏洞分析等安全工程任務(wù)。GLM-5.1 得分 68.7,vs GLM-5 的 48.3,提升 42%,進(jìn)步最大的單項(xiàng)


編碼能力詳細(xì)對(duì)比

智能體能力

BrowseComp 測試模型能否通過自主瀏覽網(wǎng)頁解決復(fù)雜信息檢索問題。GLM-5.1 帶上下文管理得分 79.3

τ3-Bench 在模擬客服場景中測試對(duì)話式 Agent 的雙向控制能力。GLM-5.1 得分 70.6

MCP-Atlas 衡量模型在多步驟工作流中調(diào)用外部工具(MCP 服務(wù)器)的能力。GLM-5.1 得分 71.8

Vending Bench 2 讓模型經(jīng)營一年的模擬自動(dòng)售貨機(jī)生意,測試長期規(guī)劃和資源管理。GLM-5.1 最終賬戶余額 $5634,vs GLM-5 的 $4432。和 Claude Opus 4.6($8017)還有明顯差距


智能體能力詳細(xì)對(duì)比

推理能力

HLE 被稱為「人類最后的考試」,由各領(lǐng)域?qū)<页鲱},專門測試模型的知識(shí)和推理極限。GLM-5.1 得分 31.0,和 Gemini 3.1 Pro(45.0)、GPT-5.4(39.8)有明顯差距

AIME 2026 是美國數(shù)學(xué)邀請(qǐng)賽 2026 年賽題。GLM-5.1 得分 95.3,各家模型在這項(xiàng)上已經(jīng)非常接近

GPQA-Diamond 是由博士級(jí)專家出題的科學(xué)問答,涵蓋物理、化學(xué)、生物等領(lǐng)域。GLM-5.1 得分 86.2

推理維度整體和 GLM-5 持平,GLM-5.1 的提升集中在編碼和智能體


推理能力詳細(xì)對(duì)比

技術(shù)報(bào)告解讀

GLM-5.1 的技術(shù)細(xì)節(jié)沿用 GLM-5 的論文框架,論文已公開在 arXiv(2602.15763)。這里提取幾個(gè)和長程能力直接相關(guān)的核心要點(diǎn)


異步 RL 基礎(chǔ)設(shè)施


GLM-5 整體訓(xùn)練管線

傳統(tǒng)同步 RL 處理 Agent 任務(wù)時(shí) GPU 空閑嚴(yán)重,因?yàn)椴煌蝿?wù)的軌跡長度差異極大。智譜把訓(xùn)練引擎和推理引擎解耦到不同 GPU 設(shè)備上:推理引擎持續(xù)生成軌跡,達(dá)到閾值后批量送訓(xùn)練引擎更新模型,權(quán)重定期同步

通過一個(gè)「多任務(wù) Rollout 編排器」支持超過 1000 個(gè)并發(fā) rollout,每個(gè)任務(wù)實(shí)現(xiàn)為獨(dú)立的微服務(wù),注冊到中央編排器統(tǒng)一調(diào)度

TITO(Token-in-Token-out)

異步 RL 中一個(gè)容易被忽視的問題:把推理引擎當(dāng)作黑箱只取最終文本,訓(xùn)練器需要重新分詞來重建軌跡。分詞邊界的微小不一致會(huì)在數(shù)千步的 Agent 任務(wù)中逐步累積

TITO 直接消費(fèi)推理引擎產(chǎn)出的 token ID 流和元數(shù)據(jù),保持 action 級(jí)別的精確對(duì)應(yīng),消除重新分詞帶來的誤差

DSA 與 RL 的適配


DSA 訓(xùn)練 SFT loss 對(duì)比

GLM-5 在預(yù)訓(xùn)練階段引入 DSA(DeepSeek Sparse Attention),用動(dòng)態(tài)稀疏注意力把長上下文的注意力計(jì)算降低約 1.5-2 倍

在 RL 階段出現(xiàn)了一個(gè)實(shí)踐發(fā)現(xiàn):DSA 的 indexer 必須使用確定性的 torch.topk。非確定性的 CUDA 實(shí)現(xiàn)會(huì)導(dǎo)致 RL 訓(xùn)練幾步之后 entropy 急劇下降,性能嚴(yán)重退化

雙側(cè)重要性采樣

異步 RL 中不同軌跡可能由不同版本的模型生成,off-policy 問題嚴(yán)重。傳統(tǒng)方案需要維護(hù)歷史策略檢查點(diǎn)來計(jì)算重要性采樣比率

智譜的做法更直接:直接用 rollout 時(shí)的 log-probability 作為行為策略的代理,用 token 級(jí)別的雙側(cè)裁剪機(jī)制控制信任域,超出區(qū)間的 token 從梯度計(jì)算中屏蔽。不需要跟蹤歷史策略

環(huán)境規(guī)模


BrowseComp 上下文管理策略對(duì)比

編碼任務(wù):構(gòu)建超過 10000 個(gè)可驗(yàn)證訓(xùn)練環(huán)境,覆蓋 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 種語言

搜索任務(wù):構(gòu)建 Web 知識(shí)圖譜,從 200 萬+ 高信息網(wǎng)頁中抽取實(shí)體和關(guān)系,合成高難度多跳 QA 對(duì)

國產(chǎn)芯片全棧適配

GLM-5 從第一天起就完成了七家國產(chǎn)芯片平臺(tái)的全棧適配:華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、沐曦、燧原

在華為昇騰上通過 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 預(yù)處理優(yōu)化等手段,單節(jié)點(diǎn)性能接近雙卡國際集群

開源與使用

GLM-5.1 權(quán)重以 MIT 協(xié)議開源,提供 BF16 和 FP8 兩個(gè)版本。支持 vLLM、SGLang、xLLM(華為昇騰)、Ktransformers 本地部署

API 方面,GLM-5.1 已納入 GLM Coding Plan(Max/Pro/Lite 套餐),支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入

GLM-5.1 即將上線 chat.z.ai

參考材料

GLM-5.1 Blog
https://z.ai/blog/glm-5.1

GLM-5 Technical Report
https://arxiv.org/abs/2602.15763

GitHub
https://github.com/zai-org/GLM-5

Hugging Face
https://huggingface.co/zai-org/GLM-5.1

ModelScope 魔搭社區(qū)
https://modelscope.cn/models/ZhipuAI/GLM-5.1

GLM Coding Plan
https://z.ai/subscribe

BigModel 開放平臺(tái)
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
毛主席審閱正軍級(jí)任免名單,看到一個(gè)人的名字后:讓他去江西軍區(qū)

毛主席審閱正軍級(jí)任免名單,看到一個(gè)人的名字后:讓他去江西軍區(qū)

歷史的煙火
2026-03-22 05:31:04
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
安徽蕪湖一;ㄌ亮,身高170五官精致, 美得讓人移不開眼

安徽蕪湖一;ㄌ亮,身高170五官精致, 美得讓人移不開眼

鄉(xiāng)野小珥
2026-04-18 18:31:21
千萬不能傷害這3種人,弘一法師警示,后果都是現(xiàn)世報(bào)

千萬不能傷害這3種人,弘一法師警示,后果都是現(xiàn)世報(bào)

阿鄭的讀書日常
2025-04-07 16:00:11
投訴公交車私自縮短運(yùn)營時(shí)間,怎么工作丟了?

投訴公交車私自縮短運(yùn)營時(shí)間,怎么工作丟了?

新民周刊
2026-04-18 15:35:30
老年人的性生活多久一次合理?要戴套嗎?答案顛覆認(rèn)知

老年人的性生活多久一次合理?要戴套嗎?答案顛覆認(rèn)知

賤議你讀史
2026-03-06 23:28:50
武漢一辦公樓被整體改建成醫(yī)院,預(yù)計(jì)6月正式投入使用,旁邊就是萬達(dá)廣場!

武漢一辦公樓被整體改建成醫(yī)院,預(yù)計(jì)6月正式投入使用,旁邊就是萬達(dá)廣場!

越喬
2026-04-18 22:32:20
為什么山姆越來越多,麥德龍卻快倒光了?網(wǎng)友:降本增效的問題

為什么山姆越來越多,麥德龍卻快倒光了?網(wǎng)友:降本增效的問題

另子維愛讀史
2026-04-13 13:14:30
女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

亦暖追劇隨筆
2026-04-17 12:28:50
樓市反轉(zhuǎn)信號(hào)明顯,上海房價(jià)又上漲了,購房者都笑了,有人要哭了

樓市反轉(zhuǎn)信號(hào)明顯,上海房價(jià)又上漲了,購房者都笑了,有人要哭了

許穋很機(jī)智
2026-04-19 01:28:31
曝錫安社媒搭訕悉尼妹遭強(qiáng)烈拒絕!多位NBA球星曾示愛美國甜心

曝錫安社媒搭訕悉尼妹遭強(qiáng)烈拒絕!多位NBA球星曾示愛美國甜心

Emily說個(gè)球
2026-04-18 13:49:43
廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

大象新聞
2026-04-15 12:57:04
收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

曉徙娛樂
2026-03-23 16:35:39
砸6700億建雄安,面積抵3個(gè)紐約,如今究竟咋樣了?

砸6700億建雄安,面積抵3個(gè)紐約,如今究竟咋樣了?

娛樂圈的筆娛君
2026-03-26 12:15:32
岸田文雄出山!當(dāng)著30國的面,對(duì)國民發(fā)出呼吁:日本不能重演悲劇

岸田文雄出山!當(dāng)著30國的面,對(duì)國民發(fā)出呼吁:日本不能重演悲劇

標(biāo)體
2026-04-18 13:35:56
單依純新MV又撞王菲!網(wǎng)友:唱功造型全是菲味,可惜只學(xué)了皮毛

單依純新MV又撞王菲!網(wǎng)友:唱功造型全是菲味,可惜只學(xué)了皮毛

觀魚聽雨
2026-04-17 22:21:39
Lululemon“避孕門”曝光!3億中產(chǎn)天塌了!

Lululemon“避孕門”曝光!3億中產(chǎn)天塌了!

廣告案例精選
2026-04-16 08:28:23
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽風(fēng)喃
2026-04-06 11:16:04
賣地收入大縮水,市面上正在迎來巨大的改變!

賣地收入大縮水,市面上正在迎來巨大的改變!

房產(chǎn)有點(diǎn)意思
2026-04-17 21:34:38
為什么說女人和老公同房十次,不如偷情一次?

為什么說女人和老公同房十次,不如偷情一次?

思絮
2026-04-18 15:59:07
2026-04-19 03:32:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
公開課
軍事航空

教育要聞

畢業(yè)容易但申請(qǐng)難的幾所英國大學(xué)!

數(shù)碼要聞

華為版的科技春晚來了!Pura 90/Pura X Max下周發(fā):陣容豪華

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

無障礙瀏覽 進(jìn)入關(guān)懷版