網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

開源界的 Opus 時刻：GLM-5 能否接住 Agentic Coding 的接力棒？

2026-02-12 14:10:58　來源: 極客公園

北京舉報

分享至

開源模型同樣能承擔復(fù)雜工程任務(wù)。

作者｜連冉

編輯｜鄭玄

如果你問一個開發(fā)者，AI 編程最讓人崩潰的時刻是什么？

他給你的答案很可能會是它在報錯面前那句機械的「對不起，我理解錯了」，然后復(fù)讀一段同樣錯誤的代碼。

過去一年，Coding 大模型的進步，更多體現(xiàn)在「生成能力」上：一句話生成網(wǎng)頁、組件、小游戲——15 秒內(nèi)搓出一個像素風(fēng)網(wǎng)頁、一個炫酷的 SVG 圖標，或者一個能跑的貪吃蛇。這些 Demo 足夠驚艷，但也足夠「輕」，它們有點像是在 Vibe Coding（氛圍感編程）時代產(chǎn)出的高級玩具。但當涉及到高并發(fā)架構(gòu)、底層驅(qū)動適配或者復(fù)雜的系統(tǒng)重構(gòu)，它們就成了「溫室里的花朵」。

所以最近，硅谷的風(fēng)向已經(jīng)變了。

不管是 Claude Opus 4.6 還是 GPT-5.3，這些頂級大模型開始強調(diào) Agentic Coding：不追求「秒出結(jié)果」，而是通過規(guī)劃、拆解、反復(fù)運行，完成系統(tǒng)級任務(wù)。

這種從「前端審美」向「系統(tǒng)工程」的范式轉(zhuǎn)移，曾被認為是閉源巨頭的壟斷區(qū)。直到我測試了 GLM-5，才意識到，開源社區(qū)的「架構(gòu)師時代」提前開啟了。

從「前端」到「系統(tǒng)工程」

之前談起 AI Coding，大多會想到一個熟悉的敘事里——一句話生成網(wǎng)頁、一分鐘做個小游戲、十秒鐘搭個炫酷動效。它們強調(diào)的是「可視化爽感」：按鈕會動、頁面好看、特效豐富。

但真正進入工程現(xiàn)場的人都知道，能生成一個 Demo，不等于能撐起一個系統(tǒng)。

復(fù)雜任務(wù)的難度，并不在「寫出代碼」，而在于模塊如何拆分、狀態(tài)如何管理、異常如何兜底、性能如何優(yōu)化，以及當系統(tǒng)開始變復(fù)雜時，是否還能維持結(jié)構(gòu)穩(wěn)定。

這也是我們選擇復(fù)雜任務(wù)作為實測對象的原因。

GLM-5 的定位，與很多競品不同。

如果說多數(shù)模型更像「優(yōu)秀前端」——擅長快速生成交互界面和視覺效果，那么 GLM-5 更偏向「系統(tǒng)工程角色」。它強調(diào)多模塊協(xié)作、長鏈路任務(wù)、生產(chǎn)環(huán)境可運行的結(jié)構(gòu)穩(wěn)定性。

為了驗證這一點，我們設(shè)計了兩個完全不同維度的實測案例。

視頻來源：極客公園

第一個測試，一個看似輕松、實則高度系統(tǒng)化的任務(wù)——基于瀏覽器與攝像頭，實現(xiàn)一個「AI 視覺隔空操控?zé)熁ā沟拇汗?jié)主題互動游戲。

在實測視頻中可以看到，用戶站在攝像頭前，通過手勢控制煙花發(fā)射方向與節(jié)奏；煙花在空中綻放，伴隨粒子特效與動態(tài)光效反饋，整體交互流暢自然。

但這并不是一個簡單的前端動效項目。它至少包含以下幾個核心模塊：手勢識別與視覺輸入處理；手勢坐標到發(fā)射邏輯的映射；煙花粒子系統(tǒng)與綻放特效；實時渲染與幀率控制；瀏覽器兼容與攝像頭權(quán)限異常處理；交互狀態(tài)管理與用戶反饋機制

可以說是一個結(jié)構(gòu)完整、體驗流暢的小型交互系統(tǒng)。從實測過程看，GLM-5 并沒有直接進入編碼，而是先對整體架構(gòu)進行規(guī)劃：視覺輸入模塊、控制邏輯層、渲染層、特效層如何分離；數(shù)據(jù)流如何傳遞；哪些部分可能成為性能瓶頸。

隨后，它逐層實現(xiàn)邏輯，從手勢識別的數(shù)據(jù)處理開始，到發(fā)射軌跡計算，再到粒子爆炸效果的參數(shù)調(diào)優(yōu)。

當渲染出現(xiàn)卡頓時，它主動建議減少粒子數(shù)量、優(yōu)化循環(huán)結(jié)構(gòu)；當手勢識別誤判時，它調(diào)整閾值與濾波策略。

視頻里呈現(xiàn)出來的效果，是「看起來很自然的互動」。但背后體現(xiàn)的，是完整的工程鏈條：規(guī)劃 → 編寫 → 調(diào)試 → 性能優(yōu)化 → 交互校正。

最終生成的代碼可以直接運行，交互穩(wěn)定，幀率平滑，異常情況可處理。更重要的是，它的工作方式呈現(xiàn)出清晰的系統(tǒng)思維：模塊邊界清楚，邏輯分層合理，而不是把所有功能堆疊在一個文件里。

第二個案例測試的，是結(jié)構(gòu)系統(tǒng)能力。這個場景可以說是媒體工作的日?！獙?dǎo)入一段采訪速記，概括總結(jié)內(nèi)容，輸出選題角度和思路。

視頻來源：極客公園

在實測中可以看到，操作流程非常直接：我粘貼了前段時間的一份采訪速記內(nèi)容，模型開始分析，隨后輸出內(nèi)容總結(jié)和選題角度，從結(jié)果來看，它生成的選題角度還是很有操作性的。

相比視覺交互系統(tǒng)，錄音整理看似簡單，但它其實考驗?zāi)Ｐ偷摹附Y(jié)構(gòu)抽象能力」。一段真實采訪錄音，往往是高度非結(jié)構(gòu)化的：觀點跳躍、信息重復(fù)、主線與支線交織。所以在這個案例中，GLM-5 展現(xiàn)出的能力，是在系統(tǒng)層面。

首先是主題識別與主線抽取能力。模型并沒有按原始文本順序生成摘要，而是先判斷核心議題是什么，再圍繞這一議題重新組織內(nèi)容。這意味著它在內(nèi)部完成了一次掃描，識別哪些信息屬于主線，哪些屬于補充或噪音。這種能力本質(zhì)上是規(guī)劃能力，也就是在輸出之前，先建立一個抽象結(jié)構(gòu)框架。

第二，是模塊化重組能力。它會將分散在不同段落中的相關(guān)觀點歸類到同一個模塊中。這種跨段整合能力，說明模型在處理長文本時具備全局一致性。

第三，邏輯順序的主動調(diào)整能力。實際輸出的提綱往往與原始錄音順序不同?？梢钥吹?，GLM-5 有在根據(jù)因果關(guān)系或論證邏輯重新排列層級。這體現(xiàn)的是一種「邏輯優(yōu)先于原始輸入順序」的判斷力。這種「先結(jié)構(gòu)、后輸出」的模式，正是系統(tǒng)工程思維的核心。

這兩個案例，一個是實時視覺交互系統(tǒng)，一個是媒體信息結(jié)構(gòu)處理系統(tǒng)，看似完全不同。但它們驗證的是同一件事——GLM-5 具備完整的任務(wù)閉環(huán)能力：規(guī)劃 → 執(zhí)行 → 調(diào)試 → 優(yōu)化。

在煙花游戲中，這體現(xiàn)在模塊分層、性能優(yōu)化與異常處理；在錄音處理器中，這體現(xiàn)在主題判斷、結(jié)構(gòu)拆解與邏輯重組。它們的共同點在于，模型并沒有停留在「生成結(jié)果」，而是在維持一個可持續(xù)演進的結(jié)構(gòu)。

視頻來源：極客公園

我繼續(xù)嘗試了一個相對復(fù)雜的任務(wù)，「構(gòu)建一個極簡操作系統(tǒng)內(nèi)核」。在這個實測中。真正值得注意的，并不是視頻里代碼最終跑通，而是 GLM-5 在整個過程中的行為方式。

它并沒有接到任務(wù)就立刻進入生成狀態(tài)，而是先明確任務(wù)邊界，主動拆分模塊，規(guī)劃系統(tǒng)結(jié)構(gòu)，再進入實現(xiàn)階段。這種「結(jié)構(gòu)先行」的路徑，本質(zhì)上是前面所說過工程思維——先定義系統(tǒng)如何組成，再討論具體實現(xiàn)細節(jié)，而不是邊寫邊拼。

在多輪編寫、運行、報錯、修正的循環(huán)中，GLM-5 也沒有出現(xiàn)結(jié)構(gòu)塌陷。每一次修改都圍繞既定架構(gòu)展開，而不是推翻重來或局部打補丁。這說明它在內(nèi)部維持著一個完整的系統(tǒng)模型，能夠在長鏈路任務(wù)中保持一致性。很多模型在上下文拉長后容易前后矛盾，而視頻中的表現(xiàn)恰恰體現(xiàn)出它對整體結(jié)構(gòu)的持續(xù)記憶能力。

還有它處理錯誤的方式。當報錯出現(xiàn)時，它并沒有停留在「可能是某一行代碼問題」的表層猜測，而是先判斷錯誤類型，區(qū)分邏輯問題、環(huán)境問題或依賴沖突，再規(guī)劃排查路徑。這是一種策略級 Debug，旨在修復(fù)問題路徑。

如果結(jié)合工具調(diào)用來看，這種能力會更加明顯。它不只是給出命令建議，還結(jié)合主動調(diào)度終端執(zhí)行、分析日志、修復(fù)環(huán)境，再繼續(xù)推進任務(wù)。這種行為已經(jīng)有點接近一種「自動駕駛」式的工程推進。目標沒有完成，它就持續(xù)迭代。

先規(guī)劃再執(zhí)行、在長鏈路中保持結(jié)構(gòu)穩(wěn)定、以策略方式排查問題，以及圍繞目標持續(xù)推進——正是系統(tǒng)工程所需要的四個核心能力的疊加，讓 GLM-5 開始呈現(xiàn)出接近工程師工作方式的行為模式。

為什么 GLM-5

能接住「架構(gòu)師」的接棒？

如果說第一部分的實測證明了 GLM-5「能干復(fù)雜活」，那接下來的問題就是：它憑什么能？答案在于其一整套隱藏在輸出背后的「工程級行為模式」。

關(guān)鍵的一點，是 GLM-5 明顯引入了類似 Claude Opus 4.6 的思維鏈自檢查機制。

在實際使用中可以感受到，它并不是接到任務(wù)就立刻開始「填代碼」，而是會在后臺進行多輪邏輯推演：預(yù)判模塊之間的耦合關(guān)系、主動規(guī)避死循環(huán)路徑、提前發(fā)現(xiàn)資源沖突和邊界條件問題。這種行為帶來的直接變化是——為了確保方案在工程上站得住腳，它愿意慢下來，把問題想完整。

在復(fù)雜任務(wù)中，GLM-5 會先給出一個清晰的模塊拆解：系統(tǒng)由哪些子模塊組成、每個模塊的輸入輸出是什么、哪些部分可以并行推進、哪些必須串行完成。然后再逐一攻克，而不是邊寫邊想。這讓它的工作方式更像一個真正的工程師：先畫架構(gòu)圖，再寫實現(xiàn)細節(jié)。明顯感覺到，它具備了一種「不把問題解決干凈就不肯停下來的韌性」，而不是完成一個看似正確的局部就草草收尾。

這種差異，在和傳統(tǒng) Coding 模型的對比中尤其明顯。過往很多模型在遇到報錯時，會迅速滑入一種熟悉的模式：道歉、復(fù)述錯誤信息、給出一個未經(jīng)驗證的修補建議；如果再次失敗，就開始循環(huán)輸出近似答案。 GLM-5 的處理方式則更接近老牌架構(gòu)師。實測中，當項目因為環(huán)境依賴問題無法運行時，它并沒有停留在表層報錯信息，而是主動分析依賴樹（Dependency Tree），判斷沖突來源，并進一步指揮 OpenClaw 進行環(huán)境修復(fù)。

整個過程更像是「自動駕駛」式部署：模型不是被動響應(yīng)，而是在持續(xù)讀取日志、修正路徑、驗證結(jié)果。

另一個常被忽視、但在系統(tǒng)工程中極其重要的能力，是上下文完整性。

GLM-5 的百萬級 Token 窗口，使它能夠在同一上下文中理解整個項目的代碼結(jié)構(gòu)、歷史修改、配置文件與運行日志。這意味著它已經(jīng)能夠站在全局視角判斷一次修改會對哪些模塊產(chǎn)生連鎖反應(yīng)。在長鏈路任務(wù)中，這種能力直接決定了模型是「聰明但短視」，還是「穩(wěn)健而可控」。

綜合來看，GLM-5 真正接住「架構(gòu)師」角色，主要就是因為它開始像架構(gòu)師一樣思考問題：先規(guī)劃、再執(zhí)行；持續(xù)校驗、不斷修正；關(guān)注系統(tǒng)整體，而不是單點成功。

這也是它能夠完成第一部分中那些系統(tǒng)級實測任務(wù)的根本原因。

開源界的 Opus？

放到 2026 年的大模型生態(tài)中看，GLM-5 的價值更多在于它打破了一件此前幾乎被默認接受的事：系統(tǒng)級智能，似乎只能存在于閉源模型里。

此前，Claude Opus 4.6 和 GPT-5.3 確實把「Agentic Coding」這條路跑通了——模型不再追求即時反饋，而是通過規(guī)劃、拆解、反復(fù)運行，完成真正復(fù)雜的工程任務(wù)。但代價也很高：高強度任務(wù)的 Token 消耗極高，一次完整的系統(tǒng)級嘗試，往往就意味著不菲的調(diào)用成本。

GLM-5 在這里提供了一個不同的解法。作為開源模型，它把「系統(tǒng)架構(gòu)師級 AI」從云端和賬單里，帶回到了開發(fā)者自己的環(huán)境中。你可以在本地部署它，讓它花時間去啃那些臟活、累活、大活：調(diào)日志、查依賴、改老代碼、補邊界條件。

這可以看作是一次性價比結(jié)構(gòu)性的改變——架構(gòu)師級智能不再是少數(shù)團隊的特權(quán)。

如果用職業(yè)隱喻來理解這種差異，會更加直觀。像 Kimi 2.5 這樣的模型，更像是審美在線、交互感極強的優(yōu)秀前端工程師，擅長 One-shot 生成、視覺呈現(xiàn)和快速反饋；而 GLM-5 的風(fēng)格則明顯不同，它更像一個守底線、重邏輯的資深系統(tǒng)架構(gòu)師：關(guān)注模塊關(guān)系、異常路徑、可維護性和長期穩(wěn)定運行。

這背后，其實是編程 AI 一次清晰的職業(yè)進階——從追求「看起來很爽」的 Vibe Coding，走向強調(diào)魯棒性和工程紀律的 Engineering。

更重要的是，GLM-5 的出現(xiàn)，讓一人公司的概念變得更加可落地。

當一個開發(fā)者可以在本地擁有一個懂系統(tǒng)設(shè)計、能長期運行、能自我修正的 AI 合伙人時，很多原本需要團隊規(guī)模才能完成的工程工作，開始被壓縮到個人可控的范圍內(nèi)。接下來，GLM-5 有潛力成為一人公司中，負責(zé)核心工程實現(xiàn)的那位「數(shù)字合伙人」。

*頭圖來源：視覺中國

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待 GLM-5？

馬斯克最新野心：將在月球建廠，生產(chǎn)用于 AI 算力的衛(wèi)星。

點贊關(guān)注極客公園視頻號，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.