從"氛圍編程"到"工程智能體"：GLM-5想改變什么

2026-05-01 23:12:55　來源: 字節(jié)漫游指南

北京舉報

分享至

深夜兩點，你對著聊天框描述需求："做個記錄喝水的小應用。"模型秒回五十行代碼，看起來專業(yè)，運行就崩。你把報錯貼回去，又收到五十行。循環(huán)往復，你不再是在寫軟件，而是在玩一場"鬧鬼的電話游戲"——系統(tǒng)不斷自信地遞來壞掉的工具，然后轉(zhuǎn)身離開。

AI圈給這種體驗起了個名字：氛圍編程（vibe coding）。你描述氛圍，模型生成片段，你打補丁。嚴格來說，沒人真的在做工程。這更像是在街頭畫家那里定制速寫——快，偶爾驚艷，但絕對承重不了什么。

中國研究團隊Z.ai發(fā)布的GLM-5，一份標題為《從氛圍編程到智能體工程》的論文，宣告這個時代該結(jié)束了。他們的賭注不是"生成更好的代碼片段"，而是打造一個能真正扮演初級工程師的模型：讀工單、做規(guī)劃、跨文件編輯、跑測試、修bug、持續(xù)數(shù)小時不跑偏。

這比"我們刷榜了"難證明得多。值得放慢速度，看看他們到底改了什么，每項改動又在解決什么問題。

兩種五金店請求

想象你去五金店的兩種方式。

第一種："我要大概這么長的木板。"店員遞一塊，你回家切壞了，再來，再拿一塊。這就是氛圍編程。每次交互很短，每份輸出很小，每個錯誤都讓你再跑一趟。

第二種："我要在后院搭個露臺。這是院子照片，你能搞定嗎？"承包商現(xiàn)場勘查、辦許可、預約混凝土、訂木材、監(jiān)督施工、欄桿裂了修欄桿，兩周后交鑰匙。這是智能體工程（agentic engineering）：不是單次輸出，而是持續(xù)數(shù)小時的規(guī)劃、執(zhí)行、觀察、自我修正，目標需要數(shù)百個小決策才能達成。

今天大多數(shù)聊天式AI，哪怕是最頂尖的，本質(zhì)上還是那個遞木板的店員。GLM-5團隊的核心賭注是：能當承包商的AI——能在長項目中守住目標的AI——是 genuinely 不同的工具類別，需要的改動遠不止把模型做大。

什么在崩壞

理解GLM-5的架構(gòu)，先得看清舊方案哪里斷裂。

現(xiàn)代語言模型的工作方式，粗略說是讀取上下文窗口里的每個詞，計算每個詞與其他每個詞的關系。這叫注意力機制（attention），最容易想象的方式是：模型在讀一句話時，每個詞都"回頭"看所有前面的詞，也"前瞻"所有后面的詞，形成一張巨大的關系網(wǎng)。

問題是，這張網(wǎng)的計算成本隨長度平方增長。上下文窗口從4K token擴展到128K，注意力計算量不是32倍，而是約1000倍。這讓長文本處理成為工程噩夢。

更隱蔽的問題是注意力稀釋。當上下文塞滿數(shù)萬token，模型對每個具體位置的關注被攤薄。就像同時盯著二十個監(jiān)控畫面，每個畫面的細節(jié)都在流失。代碼庫級別的工程任務——理解模塊依賴、追蹤變量跨文件流動、記住三小時前寫的測試用例——在這種架構(gòu)下天然吃力。

現(xiàn)有解決方案是"檢索增強生成"（RAG）：把長文檔切成塊，需要時檢索相關片段喂給模型。但這像讓工程師每次查資料都重新讀一遍手冊，而非真正記住項目結(jié)構(gòu)。氛圍編程的碎片化交互，部分正是這套架構(gòu)的宿命。

GLM-5的三處手術

論文披露了三個關鍵改動，每處都針對上述斷裂。

第一，混合專家架構(gòu)的重新設計。 GLM-5采用MoE（Mixture of Experts），但每次前向傳播只激活部分參數(shù)。關鍵是"路由"機制：模型學會把不同類型的推理任務分配給不同的專家子網(wǎng)絡。代碼生成、數(shù)學證明、長文本摘要——各找各的專家，而非一個巨型網(wǎng)絡硬撐所有任務。這讓總參數(shù)量膨脹的同時，推理成本可控。

第二，遞歸摘要與分層記憶。 模型不再平等對待所有上下文，而是建立層次化的記憶結(jié)構(gòu)：近期對話保持高分辨率細節(jié)，遠期內(nèi)容壓縮為語義摘要，關鍵決策節(jié)點標記為"錨點"。這模仿了人類工程師的工作記憶——手頭代碼清晰，上周的架構(gòu)決策記得結(jié)論但遺忘細節(jié)，三個月前的技術選型只留印象。

第三，工具使用與執(zhí)行反饋的內(nèi)嵌。 GLM-5的訓練數(shù)據(jù)不僅包含"問題→答案"對，更包含"問題→行動→觀察→修正"的完整軌跡。模型學會調(diào)用代碼解釋器、運行測試、讀取報錯、自主迭代。這不是事后拼接的插件能力，而是基礎架構(gòu)層面的行為模式。

三處改動的共同指向：讓模型從"生成器"變成"執(zhí)行者"。

正方：為什么這次可能不同

支持GLM-5路線的論據(jù)，在論文和社區(qū)討論中逐漸清晰。

工程任務的天然結(jié)構(gòu)被低估了。 軟件工程不是連續(xù)創(chuàng)作，而是離散決策的鏈條：理解需求、選擇方案、編寫實現(xiàn)、驗證行為、修復偏差。每個環(huán)節(jié)都有可驗證的反饋信號——編譯錯誤、測試失敗、運行時崩潰。這種"行動-觀察-修正"的循環(huán)，比開放域?qū)υ捀m合強化學習優(yōu)化。GLM-5把訓練目標從"預測下一個token"擴展到"完成多步任務"，理論上更貼合實際工程場景。

長上下文的技術瓶頸正在被擊穿。 混合專家架構(gòu)降低了長序列推理的成本，分層記憶緩解了注意力稀釋。論文披露的基準測試顯示，在代碼倉庫級別的任務上（跨文件重構(gòu)、遺留代碼理解、大規(guī)模測試套件維護），GLM-5相比同規(guī)�；€有顯著優(yōu)勢。這些任務恰恰是氛圍編程的盲區(qū)——它們需要持續(xù)數(shù)小時的專注，而非片段化的交互。

開源權重的戰(zhàn)略價值。 Z.ai選擇開放模型權重，意味著企業(yè)可以在私有代碼庫上微調(diào)，讓模型習得內(nèi)部技術棧、編碼規(guī)范、遺留系統(tǒng)的怪癖。這比調(diào)用通用API更可能產(chǎn)生"懂我們代碼"的工程師智能體。論文提到某金融科技公司的早期測試：微調(diào)后的GLM-5在處理內(nèi)部框架的bug時，首次嘗試成功率從基線的23%提升到61%。

反方：舊劇本的幽靈

質(zhì)疑的聲音同樣具體，且多有先例。

"智能體"承諾的兌現(xiàn)記錄不佳。 從AutoGPT到Devin，每次"AI工程師"的演示都引發(fā)轟動，隨后是漫長的沉默。共同模式是：demo場景精心挑選，真實代碼庫充滿意外。GLM-5論文中的基準測試——SWE-bench、HumanEval——是標準化問題集，與生產(chǎn)環(huán)境的混亂相距甚遠。一位參與早期測試的工程師在社區(qū)評論：「它在我們的單體代碼庫上表現(xiàn)不錯，直到遇到那個2017年的Perl腳本，然后徹底迷失�！�

規(guī)劃能力的硬邊界未明。 智能體工程的核心是"制定計劃并堅持執(zhí)行"，但語言模型的規(guī)劃能力來源仍存爭議。是 genuine 的因果推理，還是訓練數(shù)據(jù)中類似模式的插值？GLM-5的分層記憶架構(gòu)幫助"記住"目標，但遇到計劃外的障礙時——依賴庫突然棄用、需求中途變更、測試環(huán)境與生產(chǎn)環(huán)境不一致——模型能否靈活調(diào)整，還是陷入循環(huán)？論文對此著墨不多。

成本與延遲的現(xiàn)實約束。 數(shù)小時的自主執(zhí)行意味著數(shù)百次模型調(diào)用、代碼執(zhí)行、環(huán)境交互。即使單次推理成本下降，總費用仍可能遠超人工工程師。更關鍵的是時間：人類初級工程師數(shù)小時能完成的調(diào)試，智能體若需同等時長，價值何在？若需更久，商業(yè)模型是否成立？Z.ai尚未公布定價，但技術報告中的效率數(shù)據(jù)——"相比基線降低40%的token消耗"——暗示這仍是昂貴的基礎設施。

我的判斷：工具鏈的重構(gòu)比單點突破更重要

GLM-5的技術改動是真實的，但其價值不會單獨兌現(xiàn)。

氛圍編程的困境，根源不在模型能力，而在交互范式。聊天框是糟糕的工程界面：線性、易失、缺乏結(jié)構(gòu)。你把需求扔進去，得到代碼扔回來，上下文在每次粘貼中磨損。GLM-5試圖用"智能體"突破這個界面，但智能體本身需要新的容器——不是聊天框，而是與IDE、版本控制、CI/CD管道深度集成的運行時環(huán)境。

論文暗示了這個方向：模型被訓練調(diào)用工具、讀取反饋、持續(xù)迭代。但工具鏈的另一半——環(huán)境如何向模型暴露狀態(tài)、人類如何介入監(jiān)督、錯誤如何回滾——尚未標準化。這是Devin、Cursor、以及無數(shù)內(nèi)部工具的混戰(zhàn)領域。GLM-5的開源權重提供了基礎模型，但真正的產(chǎn)品形態(tài)仍在演化。

更深層的問題是責任歸屬。當智能體工程師提交代碼，誰為生產(chǎn)事故負責？模型、微調(diào)它的企業(yè)、還是監(jiān)督它的人類？法律框架滯后于技術，而企業(yè)采購決策對模糊責任高度敏感。GLM-5的技術報告回避了這個問題，但任何實際部署都必須面對。

所以GLM-5的重要性，不在于它"解決了"AI工程，而在于它把競爭焦點從"生成質(zhì)量"轉(zhuǎn)向"執(zhí)行可靠性"。這是正確的方向。氛圍編程的天花板已經(jīng)可見——更好的4K上下文模型，仍是更好的木板店員。真正的差異化來自誰能把數(shù)小時的自主執(zhí)行做得穩(wěn)定、可審計、可干預。

Z.ai的賭注是：中國團隊可以在開源權重的基礎上，圍繞工程場景構(gòu)建完整的技術棧。這與閉源巨頭的路線形成對照。后者擁有更強的基礎模型，但工程智能體的迭代速度受限于內(nèi)部產(chǎn)品節(jié)奏。開源生態(tài)的碎片化是劣勢，也是優(yōu)勢——更多實驗，更快試錯，更可能涌現(xiàn)意外的集成方案。

對25-40歲的科技從業(yè)者，GLM-5的實用指向是具體的：如果你管理技術團隊，關注智能體工具鏈的集成成本，比關注模型參數(shù)更重要；如果你是工程師，理解"如何與AI協(xié)作"正在成為核心技能，而這項技能的形態(tài)尚未固定；如果你在評估技術投資，區(qū)分"能跑demo"和"能跑季度"仍是關鍵判斷力。

氛圍編程不會消失�？焖僭�、個人項目、探索性代碼——這些場景仍需要那個遞木板的店員。但GLM-5試圖證明的是：在需要承重的場景里，我們可以有別的選擇。這不是終點，而是新一輪工具鏈重構(gòu)的起點。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.