国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

揭秘GLM-5技術底牌:「異步強化學習框架Slime」成終極殺招

0
分享至



編輯|杜偉、陳陳

一邊放出新一代旗艦基座模型 GLM-5 技術報告,展現(xiàn)其從底層架構到異步強化學習基準設施的深層創(chuàng)新硬實力;一邊馬年港股首個交易日收盤暴漲近 43%,市值突破 3200 億港元。這一波,智譜屬實「兩開花」了。

到今天,對于打工人來說,這個「AI 味」?jié)夂竦鸟R年春節(jié)即將迎來尾聲!

過去一周多的時間,機器人無疑是頂流中的頂流,「機器人全面入侵春晚」的詞條更是一度占據了各大社交平臺的熱搜榜首。與此同時,作為當前主流機器人「大腦」的 AI 大模型,其范式與技術創(chuàng)新同樣值得我們復盤。

這個春節(jié),DeepSeek V4「鴿了」,但以字節(jié) Seedance、智譜為代表的大廠及 AI 明星獨角獸相繼發(fā)布模型,同樣是在技術路徑上的一次「強勢亮劍」。

其中,憑借新一代旗艦基座大模型 GLM-5 引爆全球開發(fā)者社區(qū)的智譜,在幾天前將該模型完整的技術報告放了出來。



我們先來回顧一下 GLM-5 的核心亮點:

它面向 Agentic Engineering 打造,憑借更強的代碼能力、更長的 200K 上下文、更好的 Agent 工具調用能力,尤其擅長處理復雜系統(tǒng)工程與長程 Agent 任務,準確率攀升明顯。

在 Coding 與 Agent 任務上,GLM-5 在 SWE-bench、Terminal-Bench、BrowseComp、MCP-Atlas 等多個主流基準測試中取得開源 SOTA 級表現(xiàn)。這使得 GLM-5 成為構建通用 Agent 助手的理想基座選擇,并推動 Agent 從「跑通 Demo」的玩具階段跨越到「解決現(xiàn)實世界復雜工程問題」的生產力臨界點。



隨著技術報告的釋出,我們得以揭開其強悍性能背后的技術秘訣??偨Y來看,GLM-5 的核心創(chuàng)新點可以歸納為三點:

首先,GLM-5 在底層架構層面采用DSA(DeepSeek Sparse Attention),在「長文本推理能力」與「訓推成本」之間取得絕佳平衡。

其次,GLM-5 通過異步強化學習基礎設施 —— Slime 框架,將「生成過程」與「訓練過程」解耦,顯著提升后訓練階段的效率。

最后,Agent 強化學習算法是 GLM-5 能夠更高效地從復雜、長時序交互中學習的關鍵。

針對 GLM-5 的一系列創(chuàng)新,X 平臺上一些大 V 給出了極高評價,「在處理端到端的軟件工程挑戰(zhàn)時,GLM-5 顯著超越現(xiàn)有基線,標志著模型能力從『片段式響應』進化到『系統(tǒng)級交付』?!?/p>



圖源:X@omarsar0

在大模型的發(fā)展歷程中,很少有能力是憑空產生的。無論是架構設計、訓練范式,還是數(shù)據處理與優(yōu)化技巧,幾乎所有領先模型都建立在既有研究成果與工程實踐的基礎之上。

從 Transformer 的提出到注意力機制的演進,再到強化學習與知識遷移方法的成熟,每一次突破都來自持續(xù)的迭代與吸收。

但在仔細研讀 GLM-5 的技術報告之后,我們發(fā)現(xiàn)了智譜獨特的技術品味。



  • 技術報告原文鏈接:https://arxiv.org/pdf/2602.15763
  • GitHub 開源地址:https://github.com/zai-org/GLM-5

DSA:降低訓練與推理成本

DSA(DeepSeek Sparse Attention)是 DeepSeek 提出的一種高效注意力機制。要理解它解決了什么問題,我們先要知道注意力機制是干什么的:模型在理解每一個詞時,需要參考上下文中其他所有詞,句子越長,需要參考的詞越多,計算量呈平方級增長。對于動輒十萬詞的長文本,這個開銷是災難性的。

DSA 的核心思路是:不是每個詞都同等重要,大多數(shù)詞其實可以忽略。它通過動態(tài)打分,只挑出真正相關的少數(shù) token 參與計算。實驗證明,長文本中約 90% 的注意力計算是冗余的,DSA 把這部分直接省掉,在不犧牲理解能力的前提下,將長序列的計算量壓縮了 1.5 到 2 倍。

得益于 DSA,GLM-5 得以將模型參數(shù)規(guī)模擴展至 744B(40B 激活參數(shù)),訓練 token 總量提升至 28.5T。但用 DSA 和把 DSA 真正用好之間,有一段不短的工程距離。

當 DSA 與 MLA(Multi-Latent Attention)、自研 Muon 優(yōu)化器等既有組件疊加時,團隊發(fā)現(xiàn)模型在多個基準上出現(xiàn)性能退化。

為此,GLM-5 提出Muon Split 機制:將矩陣拆分為不同頭的更小矩陣,并對這些獨立矩陣應用矩陣正交化,使得不同注意力頭的投影權重能夠以不同尺度更新。

另外,針對 MLA 解碼計算成本高難題,GLM 團隊提出了MLA-256 變體:把 head dimension 從 192 提到 256,同時把注意力頭數(shù)減少 1/3,使訓練計算量和參數(shù)量保持不變,但解碼計算量顯著下降。

為進一步提升基礎模型性能,智譜還提出在訓練階段共享 3 層 MTP 的參數(shù)。這樣既保持了草稿模型與 DeepSeek-V3 相同的內存開銷,又提升了 token 的接受率。

在當前大模型競爭格局中,參數(shù)規(guī)模已不再是唯一的護城河。真正的壁壘在于如何在算力預算、長上下文忠實度與工程穩(wěn)定性之間取得平衡。

GLM-5 在 DSA 體系上的實踐提供了一個清晰的答案:不再盲目追求無限堆砌算力,而是通過重構計算路徑,讓模型在同等資源下完成更高效的工作。 如果說大模型的前半場是在比拼「誰做得更大」,那么 GLM-5 則標志著下半場的開啟,在長程推理與 Agent 時代,誰能把計算結構設計得更「聰明」,誰才能在端到端的軟件工程等復雜任務中勝出。

異步 RL 基礎設施:Slime 框架的工程創(chuàng)新

在從「文本生成」向「自主代理(Agent)」進化的過程中,傳統(tǒng)同步強化學習的低效與長程推理的昂貴成本成為了最大的阻礙。

傳統(tǒng)同步 RL 的流程是:生成一批軌跡→等所有軌跡完成→送入訓練→更新權重→再生成下一批。但問題在于,智能體任務的軌跡長度極度不均勻,修一個簡單 bug 可能 3 步,實現(xiàn)一個復雜功能可能需要 50 步以上。同步模式下整批訓練的速度由最慢的那條軌跡決定,GPU 在等待中大量空轉,造成資源浪費。

GLM-5 的核心解法是將推理引擎與訓練引擎部署在不同 GPU 設備上,完全異步并行運行。 推理引擎持續(xù)生成軌跡,積累到預定閾值后批量推送給訓練引擎;訓練引擎持續(xù)消費數(shù)據、更新參數(shù),每完成 K 次梯度更新后將新權重同步回推理引擎。兩條流水線互不阻塞,GPU 利用率大幅提升。



但異步 RL 中有一個看似微小但后果嚴重的問題:如果推理引擎輸出文本,訓練端再重新 tokenize,哪怕是空白符處理、特殊 token 位置、截斷方式的細微差異,都可能導致 action 和 reward 之間的對應位置出錯,這種錯位會持續(xù)累積,最終破壞 RL 信號的準確性。

TITO Gateway的解法是直接截獲推理引擎產生的 token ID 序列和元數(shù)據,繞過任何文本中轉,確保訓練端使用與采樣完全一致的 token 流。

此外,異步訓練中,一條軌跡的生成過程中模型可能已經更新了多次,精確追蹤行為策略概率幾乎不可行,否則需要維護大量歷史 checkpoint,存儲和通信開銷極高。

GLM 團隊提出直接雙側重要性采樣:直接復用 rollout 時記錄的 log 概率作為行為策略代理。并采用雙側 token 級掩碼:重要性采樣比落在區(qū)間范圍內的 token 正常計算梯度,超出范圍的 token 梯度直接置零。

這些設計聽上去像是工程層面的補丁,但它們解決的,其實是一個更根本的問題:如何讓大規(guī)模 Agent 強化學習在現(xiàn)實算力條件下真正跑得起來、穩(wěn)得住。如果說同步 RL 更適合短軌跡、規(guī)則明確的任務,那么 GLM-5 這一套異步機制,則是為長程軟件工程、復雜工具調用、多輪交互決策場景量身打造的。它讓模型不再被訓練框架拖慢節(jié)奏,而是能夠在持續(xù)交互中不斷生成、評估、更新,形成近似在線學習的循環(huán)。

鍛造工業(yè)級長程智能體,非一役之功

解決了訓推效率與工程落地難題,接下來就要進入長程軟件工程的實戰(zhàn)環(huán)節(jié)了。

GLM 團隊發(fā)現(xiàn),在將底層 DSA 架構與大規(guī)模 RL 訓練結合時,短短數(shù)步之內就會出現(xiàn)崩潰、損失異常以及模型能力快速退化等情況。在一番摸查之后,根源定位到了 DSA 內部使用的非確定性 CUDA top-k 算子,其輸出的不穩(wěn)定性干擾了 RL 的梯度更新。

因此,在將該算子替換為確定性的 torch.topk 之后,雖然犧牲了微小的運行速度,但可以讓訓練立刻恢復穩(wěn)定并帶來顯著的性能收益。同時,為了避免 RL 階段的無效學習干擾,還對索引器參數(shù)(Indexer)進行了凍結。

不僅如此,GLM 團隊還通過以下一系列創(chuàng)新性解法,全方位克服 RL 在復雜智能體任務中的數(shù)據短缺、審美、遺忘等其他難題。

首先,軟件工程任務的 RL 訓練最缺的是「考場」,現(xiàn)有數(shù)據集不僅規(guī)模小,還極易受到數(shù)據污染。

GLM 團隊基于 RepoLaunch 框架,構建了10000 + 可驗證的 SWE 環(huán)境,覆蓋了 Python、Java、Go 等 9 種主流編程語言。并且,每個環(huán)境支持從依賴安裝到測試解析的全流程自動化。這意味著,模型對代碼的修改是否有效,全憑單元測試說了算,不再依賴主觀且低效的人工打分,從而實現(xiàn) RL 信號的真實可靠。

其次,智能體不僅要會寫代碼,還要懂設計。GLM-5 引入了以 HTML 幻燈片為載體的三級獎勵體系,在結構化文檔生成的「審美」方面形成了自己的風格:

  • Level-1(靜態(tài)規(guī)則):檢查布局、間距、字體等基礎屬性,并利用 AI 識別幻覺與重復圖片。
  • Level-2(運行布局):通過分布式渲染,抓取渲染后 DOM 節(jié)點的寬高、邊界框等真實幾何指標,搞定靜態(tài)代碼看不出的排版沖突。
  • Level-3(視覺感知):直接從視覺層面檢測異??瞻谆驑媹D失衡,確??雌饋硎娣?。

一套流程走下來,效果立竿見影,GLM 團隊識別并修復了兩類獎勵破解行為,將 16:9 合規(guī)率從 40% 提升至 92%。

接下來要面對多階段 RL 訓練中的災難性遺忘問題。GLM-5 的后訓練依次分為推理 RL、智能體 RL、通用對齊 RL 等三個階段,遺忘問題會導致后續(xù)階段覆蓋前序積累的能力。

為此,GLM 團隊引入了「跨階段蒸餾」,將當前策略與各個前序階段的最優(yōu)教師模型進行對數(shù)概率對比。這樣既可以讓模型掌握新能力,也會靠攏之前的最優(yōu)狀態(tài)。一種設計達成兩個目標:在克服遺忘的同時通過簡化算法邏輯提升訓練效率。

最后還要為搜索智能體配上「長短期記憶」。GLM 團隊發(fā)現(xiàn),當上下文超過 100K 時,傳統(tǒng)的清空所有工具記錄的方案會造成浪費,而保留所有記錄又可能導致混亂。

GLM 團隊提出了分層上下文管理(HCM,Hierarchical Context Management)策略,在實踐中先試著折疊早期記錄,并保留最近 5 輪記憶。如果還是太大,則清空所有工具調用歷史,然后重置。結果顯示,這種分層組合方案讓 GLM-5 在 BrowseComp 任務上的準確率從 55.3% 暴漲至 75.9%,一舉超越了現(xiàn)有已知的開源上下文管理方案。

可以看到,通過對長程交互中每一個細節(jié)的極致掌控,包括底層算子、環(huán)境構建以及如何讓模型長記性,GLM 團隊全給理順了。

當然,GLM-5 還全棧適配了國產 GPU,包括華為昇騰、摩爾線程、海光、 寒武紀、昆侖芯、沐曦、燧原等七家主流國產芯片平臺,進一步拓寬算力生態(tài)。

以上構成了 GLM-5 技術底色的完整輪廓,它們不是調參的結果,不是重新包裝的已有工作,而是在真實工程實踐中遇到真實問題、提出真實解法的過程。

十天前,圖靈獎得主、RL 大佬 Richard Sutton 以遠程連線的方式,在加州大學洛杉磯分校(UCLA)的純粹與應用數(shù)學研究所(IPAM)發(fā)表了名為《AI 的未來》(The Future of AI)的最新演講。



圖源:https://www.youtube.com/watch?v=lieqoaBV6ww

演講中,Sutton 表達了這樣一種觀點:盡管當下的 AI 仍受限于對人類數(shù)據的學習,但未來的 AI 將立足于從交互經驗中學習。這樣的范式能讓模型持續(xù)獲取新知識,從而爆發(fā)出遠超現(xiàn)狀的演進潛力。

這一觀點與 GLM-5 發(fā)力 Agentic Engineering 并推進「系統(tǒng)級交付」的范式選擇不謀而合:讓 AI 脫離人類預設的指令集,轉而在長程真實或虛擬環(huán)境中通過 RL 實現(xiàn)自我進化。

在長程規(guī)劃與資源管理能力上,GLM-5 證明了其實力。如下圖左的 Vending-Bench 2(讓 AI 模擬自動售貨機一整年)和圖右的 CC-Bench-V2(智譜 AI 官方內部測試)基準結果所示,GLM-5 的表現(xiàn)接近并在一些任務上能夠超越 Claude Opus 4.5。



根據 Artificial Analysis 最近的一項數(shù)據顯示,相較于 Anthropic 最強的 Claude Opus 4.6,作為開源模型的 GLM-5 與其之間的智能差距已經縮小到史無前例的程度。



在開源步步逼近閉源競品的路上,GLM-5 交出了一份令業(yè)界驚嘆的答卷。

而這僅僅是智譜在 Agentic Engineering 路徑上的首次出手,下一代 GLM 旗艦模型又將進化到何種程度,我們拭目以待。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
杉杉集團破產,事實證明:美女主持人只會排節(jié)目,對管理無能為力

杉杉集團破產,事實證明:美女主持人只會排節(jié)目,對管理無能為力

天天熱點見聞
2026-02-26 08:06:55
不打了!哈登突發(fā)拇指骨折!NBA最佳交易誕生

不打了!哈登突發(fā)拇指骨折!NBA最佳交易誕生

籃球實戰(zhàn)寶典
2026-02-26 15:19:31
為什么大部分昆蟲死了都是背部著地

為什么大部分昆蟲死了都是背部著地

迷你科普知識
2026-02-25 08:35:24
男子春節(jié)前將一碗牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其發(fā)霉長出15厘米高“黑色叢林”

男子春節(jié)前將一碗牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其發(fā)霉長出15厘米高“黑色叢林”

環(huán)球網資訊
2026-02-26 14:11:46
勇士輸球還爆內訌!兩大球星比賽中直接吵起來

勇士輸球還爆內訌!兩大球星比賽中直接吵起來

體育妞世界
2026-02-25 20:08:38
“i茅臺”即日開搶:正月初一起生產的“馬茅”,可自選農歷生產日期了

“i茅臺”即日開搶:正月初一起生產的“馬茅”,可自選農歷生產日期了

每日經濟新聞
2026-02-26 16:00:25
新加坡大滿貫賽:首個女單8強出爐!張本美和3:0晉級,沖擊冠軍

新加坡大滿貫賽:首個女單8強出爐!張本美和3:0晉級,沖擊冠軍

國乒二三事
2026-02-26 14:24:36
著名演員羅伯特自殺離世,享年71歲,被躁郁癥折磨選擇輕生

著名演員羅伯特自殺離世,享年71歲,被躁郁癥折磨選擇輕生

素素娛樂
2026-02-25 15:29:00
國乒混雙大潰???24分鐘速敗出局,扯下最后遮羞布,王楚欽太難

國乒混雙大潰?。?4分鐘速敗出局,扯下最后遮羞布,王楚欽太難

清衣渡a
2026-02-26 11:44:50
戰(zhàn)場大反轉!烏軍2月打出意外戰(zhàn)果,默茨直言:抵抗遠超外界想象

戰(zhàn)場大反轉!烏軍2月打出意外戰(zhàn)果,默茨直言:抵抗遠超外界想象

老馬拉車莫少裝
2026-02-25 22:29:53
上海海港官宣三人離隊

上海海港官宣三人離隊

五星體育
2026-02-26 15:30:57
一波又起,一本菲卡球迷在伯納烏用香蕉“喂食”維尼修斯引爭議

一波又起,一本菲卡球迷在伯納烏用香蕉“喂食”維尼修斯引爭議

懂球帝
2026-02-26 10:06:08
1-4慘??!斯諾克爆大冷:世界第2無緣16強!趙心童3連冠希望增加

1-4慘??!斯諾克爆大冷:世界第2無緣16強!趙心童3連冠希望增加

球場沒跑道
2026-02-26 08:29:03
在縣城,“月薪三千”屬于高工資

在縣城,“月薪三千”屬于高工資

星海情報局
2026-02-26 11:17:25
已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

風流女漢
2026-02-25 07:25:20
佛山順德一4A景區(qū)灰塑被人拿下,官方通報

佛山順德一4A景區(qū)灰塑被人拿下,官方通報

南方都市報
2026-02-26 12:58:14
小霖兒剛出生舊照曝光,和小馬寶簡直復制粘貼,汪小菲基因太強大

小霖兒剛出生舊照曝光,和小馬寶簡直復制粘貼,汪小菲基因太強大

東方不敗然多多
2026-02-26 14:31:16
日本教練:執(zhí)教蘇翊鳴直到死去 西方對中國偏見很深 愿當中日橋梁

日本教練:執(zhí)教蘇翊鳴直到死去 西方對中國偏見很深 愿當中日橋梁

念洲
2026-02-26 08:34:54
廖明哲接受紀律審查和監(jiān)察調查

廖明哲接受紀律審查和監(jiān)察調查

吉刻新聞
2026-02-26 11:08:04
18年前,揭露“三鹿奶粉”的上海記者簡光洲,最后被報復了嗎?

18年前,揭露“三鹿奶粉”的上海記者簡光洲,最后被報復了嗎?

毛豆何時歸
2026-02-22 07:19:18
2026-02-26 17:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12368文章數(shù) 142569關注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

女子家水費兩個月1847元 整整一個月每天用水都是13噸

頭條要聞

女子家水費兩個月1847元 整整一個月每天用水都是13噸

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經要聞

人民幣升破6.85,創(chuàng)3年新高

汽車要聞

別克君越/昂科威Plus直降5000元 限時優(yōu)惠價15.49萬起

態(tài)度原創(chuàng)

教育
本地
房產
藝術
軍事航空

教育要聞

毀掉一個孩子最快的方式:父母既要又要還要(推薦)

本地新聞

津南好·四時總相宜

房產要聞

2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

藝術要聞

2025年百家金陵畫展 | 油畫作品選刊

軍事要聞

美政府給新伊核協(xié)議設限內容遭披露

無障礙瀏覽 進入關懷版