網易首頁 > 網易號 > 正文申請入駐

揭秘GLM-5技術底牌：「異步強化學習框架Slime」成終極殺招

2026-02-23 18:49:46　來源: 機器之心Pro

北京舉報

分享至

編輯｜杜偉、陳陳

一邊放出新一代旗艦基座模型 GLM-5 技術報告，展現(xiàn)其從底層架構到異步強化學習基準設施的深層創(chuàng)新硬實力；一邊馬年港股首個交易日收盤暴漲近 43%，市值突破 3200 億港元。這一波，智譜屬實「兩開花」了。

到今天，對于打工人來說，這個「AI 味」?jié)夂竦鸟R年春節(jié)即將迎來尾聲！

過去一周多的時間，機器人無疑是頂流中的頂流，「機器人全面入侵春晚」的詞條更是一度占據了各大社交平臺的熱搜榜首。與此同時，作為當前主流機器人「大腦」的 AI 大模型，其范式與技術創(chuàng)新同樣值得我們復盤。

這個春節(jié)，DeepSeek V4「鴿了」，但以字節(jié) Seedance、智譜為代表的大廠及 AI 明星獨角獸相繼發(fā)布模型，同樣是在技術路徑上的一次「強勢亮劍」。

其中，憑借新一代旗艦基座大模型 GLM-5 引爆全球開發(fā)者社區(qū)的智譜，在幾天前將該模型完整的技術報告放了出來。

我們先來回顧一下 GLM-5 的核心亮點：

它面向 Agentic Engineering 打造，憑借更強的代碼能力、更長的 200K 上下文、更好的 Agent 工具調用能力，尤其擅長處理復雜系統(tǒng)工程與長程 Agent 任務，準確率攀升明顯。

在 Coding 與 Agent 任務上，GLM-5 在 SWE-bench、Terminal-Bench、BrowseComp、MCP-Atlas 等多個主流基準測試中取得開源 SOTA 級表現(xiàn)。這使得 GLM-5 成為構建通用 Agent 助手的理想基座選擇，并推動 Agent 從「跑通 Demo」的玩具階段跨越到「解決現(xiàn)實世界復雜工程問題」的生產力臨界點。

隨著技術報告的釋出，我們得以揭開其強悍性能背后的技術秘訣?？偨Y來看，GLM-5 的核心創(chuàng)新點可以歸納為三點：

首先，GLM-5 在底層架構層面采用DSA（DeepSeek Sparse Attention），在「長文本推理能力」與「訓推成本」之間取得絕佳平衡。

其次，GLM-5 通過異步強化學習基礎設施 —— Slime 框架，將「生成過程」與「訓練過程」解耦，顯著提升后訓練階段的效率。

最后，Agent 強化學習算法是 GLM-5 能夠更高效地從復雜、長時序交互中學習的關鍵。

針對 GLM-5 的一系列創(chuàng)新，X 平臺上一些大 V 給出了極高評價，「在處理端到端的軟件工程挑戰(zhàn)時，GLM-5 顯著超越現(xiàn)有基線，標志著模型能力從『片段式響應』進化到『系統(tǒng)級交付』?！?/p>

圖源：X@omarsar0

在大模型的發(fā)展歷程中，很少有能力是憑空產生的。無論是架構設計、訓練范式，還是數(shù)據處理與優(yōu)化技巧，幾乎所有領先模型都建立在既有研究成果與工程實踐的基礎之上。

從 Transformer 的提出到注意力機制的演進，再到強化學習與知識遷移方法的成熟，每一次突破都來自持續(xù)的迭代與吸收。

但在仔細研讀 GLM-5 的技術報告之后，我們發(fā)現(xiàn)了智譜獨特的技術品味。

技術報告原文鏈接：https://arxiv.org/pdf/2602.15763
GitHub 開源地址：https://github.com/zai-org/GLM-5

DSA：降低訓練與推理成本

DSA（DeepSeek Sparse Attention）是 DeepSeek 提出的一種高效注意力機制。要理解它解決了什么問題，我們先要知道注意力機制是干什么的：模型在理解每一個詞時，需要參考上下文中其他所有詞，句子越長，需要參考的詞越多，計算量呈平方級增長。對于動輒十萬詞的長文本，這個開銷是災難性的。

DSA 的核心思路是：不是每個詞都同等重要，大多數(shù)詞其實可以忽略。它通過動態(tài)打分，只挑出真正相關的少數(shù) token 參與計算。實驗證明，長文本中約 90% 的注意力計算是冗余的，DSA 把這部分直接省掉，在不犧牲理解能力的前提下，將長序列的計算量壓縮了 1.5 到 2 倍。

得益于 DSA，GLM-5 得以將模型參數(shù)規(guī)模擴展至 744B（40B 激活參數(shù)），訓練 token 總量提升至 28.5T。但用 DSA 和把 DSA 真正用好之間，有一段不短的工程距離。

當 DSA 與 MLA（Multi-Latent Attention）、自研 Muon 優(yōu)化器等既有組件疊加時，團隊發(fā)現(xiàn)模型在多個基準上出現(xiàn)性能退化。

為此，GLM-5 提出Muon Split 機制：將矩陣拆分為不同頭的更小矩陣，并對這些獨立矩陣應用矩陣正交化，使得不同注意力頭的投影權重能夠以不同尺度更新。

另外，針對 MLA 解碼計算成本高難題，GLM 團隊提出了MLA-256 變體：把 head dimension 從 192 提到 256，同時把注意力頭數(shù)減少 1/3，使訓練計算量和參數(shù)量保持不變，但解碼計算量顯著下降。

為進一步提升基礎模型性能，智譜還提出在訓練階段共享 3 層 MTP 的參數(shù)。這樣既保持了草稿模型與 DeepSeek-V3 相同的內存開銷，又提升了 token 的接受率。

在當前大模型競爭格局中，參數(shù)規(guī)模已不再是唯一的護城河。真正的壁壘在于如何在算力預算、長上下文忠實度與工程穩(wěn)定性之間取得平衡。

GLM-5 在 DSA 體系上的實踐提供了一個清晰的答案：不再盲目追求無限堆砌算力，而是通過重構計算路徑，讓模型在同等資源下完成更高效的工作。如果說大模型的前半場是在比拼「誰做得更大」，那么 GLM-5 則標志著下半場的開啟，在長程推理與 Agent 時代，誰能把計算結構設計得更「聰明」，誰才能在端到端的軟件工程等復雜任務中勝出。

異步 RL 基礎設施：Slime 框架的工程創(chuàng)新

在從「文本生成」向「自主代理（Agent）」進化的過程中，傳統(tǒng)同步強化學習的低效與長程推理的昂貴成本成為了最大的阻礙。

傳統(tǒng)同步 RL 的流程是：生成一批軌跡→等所有軌跡完成→送入訓練→更新權重→再生成下一批。但問題在于，智能體任務的軌跡長度極度不均勻，修一個簡單 bug 可能 3 步，實現(xiàn)一個復雜功能可能需要 50 步以上。同步模式下整批訓練的速度由最慢的那條軌跡決定，GPU 在等待中大量空轉，造成資源浪費。

GLM-5 的核心解法是將推理引擎與訓練引擎部署在不同 GPU 設備上，完全異步并行運行。推理引擎持續(xù)生成軌跡，積累到預定閾值后批量推送給訓練引擎；訓練引擎持續(xù)消費數(shù)據、更新參數(shù)，每完成 K 次梯度更新后將新權重同步回推理引擎。兩條流水線互不阻塞，GPU 利用率大幅提升。

但異步 RL 中有一個看似微小但后果嚴重的問題：如果推理引擎輸出文本，訓練端再重新 tokenize，哪怕是空白符處理、特殊 token 位置、截斷方式的細微差異，都可能導致 action 和 reward 之間的對應位置出錯，這種錯位會持續(xù)累積，最終破壞 RL 信號的準確性。

TITO Gateway的解法是直接截獲推理引擎產生的 token ID 序列和元數(shù)據，繞過任何文本中轉，確保訓練端使用與采樣完全一致的 token 流。

此外，異步訓練中，一條軌跡的生成過程中模型可能已經更新了多次，精確追蹤行為策略概率幾乎不可行，否則需要維護大量歷史 checkpoint，存儲和通信開銷極高。

GLM 團隊提出直接雙側重要性采樣：直接復用 rollout 時記錄的 log 概率作為行為策略代理。并采用雙側 token 級掩碼：重要性采樣比落在區(qū)間范圍內的 token 正常計算梯度，超出范圍的 token 梯度直接置零。

這些設計聽上去像是工程層面的補丁，但它們解決的，其實是一個更根本的問題：如何讓大規(guī)模 Agent 強化學習在現(xiàn)實算力條件下真正跑得起來、穩(wěn)得住。如果說同步 RL 更適合短軌跡、規(guī)則明確的任務，那么 GLM-5 這一套異步機制，則是為長程軟件工程、復雜工具調用、多輪交互決策場景量身打造的。它讓模型不再被訓練框架拖慢節(jié)奏，而是能夠在持續(xù)交互中不斷生成、評估、更新，形成近似在線學習的循環(huán)。

鍛造工業(yè)級長程智能體，非一役之功

解決了訓推效率與工程落地難題，接下來就要進入長程軟件工程的實戰(zhàn)環(huán)節(jié)了。

GLM 團隊發(fā)現(xiàn)，在將底層 DSA 架構與大規(guī)模 RL 訓練結合時，短短數(shù)步之內就會出現(xiàn)崩潰、損失異常以及模型能力快速退化等情況。在一番摸查之后，根源定位到了 DSA 內部使用的非確定性 CUDA top-k 算子，其輸出的不穩(wěn)定性干擾了 RL 的梯度更新。

因此，在將該算子替換為確定性的 torch.topk 之后，雖然犧牲了微小的運行速度，但可以讓訓練立刻恢復穩(wěn)定并帶來顯著的性能收益。同時，為了避免 RL 階段的無效學習干擾，還對索引器參數(shù)（Indexer）進行了凍結。

不僅如此，GLM 團隊還通過以下一系列創(chuàng)新性解法，全方位克服 RL 在復雜智能體任務中的數(shù)據短缺、審美、遺忘等其他難題。

首先，軟件工程任務的 RL 訓練最缺的是「考場」，現(xiàn)有數(shù)據集不僅規(guī)模小，還極易受到數(shù)據污染。

GLM 團隊基于 RepoLaunch 框架，構建了10000 + 可驗證的 SWE 環(huán)境，覆蓋了 Python、Java、Go 等 9 種主流編程語言。并且，每個環(huán)境支持從依賴安裝到測試解析的全流程自動化。這意味著，模型對代碼的修改是否有效，全憑單元測試說了算，不再依賴主觀且低效的人工打分，從而實現(xiàn) RL 信號的真實可靠。

其次，智能體不僅要會寫代碼，還要懂設計。GLM-5 引入了以 HTML 幻燈片為載體的三級獎勵體系，在結構化文檔生成的「審美」方面形成了自己的風格：

Level-1（靜態(tài)規(guī)則）：檢查布局、間距、字體等基礎屬性，并利用 AI 識別幻覺與重復圖片。
Level-2（運行布局）：通過分布式渲染，抓取渲染后 DOM 節(jié)點的寬高、邊界框等真實幾何指標，搞定靜態(tài)代碼看不出的排版沖突。
Level-3（視覺感知）：直接從視覺層面檢測異?？瞻谆驑媹D失衡，確?？雌饋硎娣?。

一套流程走下來，效果立竿見影，GLM 團隊識別并修復了兩類獎勵破解行為，將 16:9 合規(guī)率從 40% 提升至 92%。

接下來要面對多階段 RL 訓練中的災難性遺忘問題。GLM-5 的后訓練依次分為推理 RL、智能體 RL、通用對齊 RL 等三個階段，遺忘問題會導致后續(xù)階段覆蓋前序積累的能力。

為此，GLM 團隊引入了「跨階段蒸餾」，將當前策略與各個前序階段的最優(yōu)教師模型進行對數(shù)概率對比。這樣既可以讓模型掌握新能力，也會靠攏之前的最優(yōu)狀態(tài)。一種設計達成兩個目標：在克服遺忘的同時通過簡化算法邏輯提升訓練效率。

最后還要為搜索智能體配上「長短期記憶」。GLM 團隊發(fā)現(xiàn)，當上下文超過 100K 時，傳統(tǒng)的清空所有工具記錄的方案會造成浪費，而保留所有記錄又可能導致混亂。

GLM 團隊提出了分層上下文管理（HCM，Hierarchical Context Management）策略，在實踐中先試著折疊早期記錄，并保留最近 5 輪記憶。如果還是太大，則清空所有工具調用歷史，然后重置。結果顯示，這種分層組合方案讓 GLM-5 在 BrowseComp 任務上的準確率從 55.3% 暴漲至 75.9%，一舉超越了現(xiàn)有已知的開源上下文管理方案。

可以看到，通過對長程交互中每一個細節(jié)的極致掌控，包括底層算子、環(huán)境構建以及如何讓模型長記性，GLM 團隊全給理順了。

當然，GLM-5 還全棧適配了國產 GPU，包括華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦、燧原等七家主流國產芯片平臺，進一步拓寬算力生態(tài)。

以上構成了 GLM-5 技術底色的完整輪廓，它們不是調參的結果，不是重新包裝的已有工作，而是在真實工程實踐中遇到真實問題、提出真實解法的過程。

十天前，圖靈獎得主、RL 大佬 Richard Sutton 以遠程連線的方式，在加州大學洛杉磯分校（UCLA）的純粹與應用數(shù)學研究所（IPAM）發(fā)表了名為《AI 的未來》（The Future of AI）的最新演講。

圖源：https://www.youtube.com/watch?v=lieqoaBV6ww

演講中，Sutton 表達了這樣一種觀點：盡管當下的 AI 仍受限于對人類數(shù)據的學習，但未來的 AI 將立足于從交互經驗中學習。這樣的范式能讓模型持續(xù)獲取新知識，從而爆發(fā)出遠超現(xiàn)狀的演進潛力。

這一觀點與 GLM-5 發(fā)力 Agentic Engineering 并推進「系統(tǒng)級交付」的范式選擇不謀而合：讓 AI 脫離人類預設的指令集，轉而在長程真實或虛擬環(huán)境中通過 RL 實現(xiàn)自我進化。

在長程規(guī)劃與資源管理能力上，GLM-5 證明了其實力。如下圖左的 Vending-Bench 2（讓 AI 模擬自動售貨機一整年）和圖右的 CC-Bench-V2（智譜 AI 官方內部測試）基準結果所示，GLM-5 的表現(xiàn)接近并在一些任務上能夠超越 Claude Opus 4.5。

根據 Artificial Analysis 最近的一項數(shù)據顯示，相較于 Anthropic 最強的 Claude Opus 4.6，作為開源模型的 GLM-5 與其之間的智能差距已經縮小到史無前例的程度。

在開源步步逼近閉源競品的路上，GLM-5 交出了一份令業(yè)界驚嘆的答卷。

而這僅僅是智譜在 Agentic Engineering 路徑上的首次出手，下一代 GLM 旗艦模型又將進化到何種程度，我們拭目以待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.