国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

正面硬剛Claude Opus 4.6:我們給GLM-5.1使了三個“絆子”,它居然…

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西4月8日報道,今天,智譜正式開源其最強模型GLM-5.1,這一模型在專業(yè)軟件開發(fā)基準(zhǔn)測試SWE-Bench Pro中,GLM-5.1刷新全球最佳成績,得分達(dá)到58.4,超過了GPT-5.4、Claude Opus 4.6等已經(jīng)正式發(fā)布的閉源模型,和MiniMax M2.7、Kimi K2.5等開源模型。


GLM-5.1并非只能跑跑簡單的Vibe Coding小案例,它專門面向長程任務(wù)設(shè)計,能持續(xù)地自主規(guī)劃、執(zhí)行并迭代,最終交付完整的工程結(jié)果。

兩個官方演示,直接把“長程任務(wù)”的能力具象化了:

在向量數(shù)據(jù)庫的調(diào)優(yōu)任務(wù)中,GLM-5.1沒有人類手把手教,自己跑了655輪迭代——測試、分析、改代碼、再測試……最終把性能硬生生提升至3.6倍。

它還靠著一張架構(gòu)草圖,連續(xù)自主工作了超過8小時,執(zhí)行了1200多個步驟,最終輸出了一套功能完備的Linux桌面系統(tǒng)。官方測算,這相當(dāng)于一個4人小團(tuán)隊連軸轉(zhuǎn)一周的工作量。

這個“8小時不間斷工作”的紀(jì)錄,讓它成為了全球首個在真實工程任務(wù)中驗證這一能力的開源模型。

這意味著,那些過去只屬于人類團(tuán)隊的復(fù)雜、長周期工程級任務(wù),現(xiàn)在對逐漸AI也敞開了大門。

一、海外網(wǎng)友火速體驗:體感接近Opus 4.6,成本暴砍至1/30

GLM-5.1一經(jīng)發(fā)布,就吸引了海量關(guān)注,其推文的閱讀量在12小時內(nèi)就沖破了200萬次,目前已經(jīng)飆到227萬次了。


不少體驗過GLM-5.1的網(wǎng)友紛紛發(fā)帖評價,在這些帖子中,有一個關(guān)鍵信息被反復(fù)提及:GLM-5.1的使用體感,已經(jīng)接近Claude Opus 4.6。

AI開發(fā)者toli拿GLM-5.1和Opus 4.6跑了113個編程任務(wù),發(fā)現(xiàn)GLM-5.1的體感就和Opus一樣。同時,智譜的Coding Plan提供了Claude Code訂閱三倍的用量,價格只有后者的1/3。Toli認(rèn)為,GLM-5.1是絕對的殺手級產(chǎn)品。


另一位開發(fā)者Beau Johnson分享,他已經(jīng)將自己部署的OpenClaw背后的模型,從Opus 4.6替換為GLM-5.1,作為協(xié)調(diào)和執(zhí)行Agent。這一切換沒有帶來任何體驗上的差別,而成本卻從1000美元暴砍至30美元左右。


軟件定制公司Zenoware的創(chuàng)始人JP分享了他用GLM-5.1 one-shot做出來的10個案例,JP認(rèn)為這是最接近Claude Opus 4.6的中國模型,給Opus 4.6帶來了嚴(yán)重威脅。以下是JP部分案例的集錦:


口碑之外,GLM-5.1在多項基準(zhǔn)測試中的表現(xiàn),同樣值得仔細(xì)拆解。

在編程能力這一維度,有三個基準(zhǔn)測試的成績較有參考性,包括衡量模型專業(yè)軟件開發(fā)工作的SWE-Bench Pro、操作命令行解決問題的Terminal-Bench 2.0、從零構(gòu)建完整代碼倉庫的NL2Repo。在這三個基準(zhǔn)測試中,GLM-5.1的得分已經(jīng)拍到全球第三、國產(chǎn)第一、開源第一。


而在考察模型設(shè)計能力的Design Arena上,GLM 5.1排名第四,同時多款GLM模型也包攬了這一榜單上的前四名,這個表現(xiàn),基本可以和Opus 4.6還有Sonnet 4.6一塊兒坐主桌了。


而在文本能力維度,Text Arena上GLM-5.1被評為排名第一的開源模型。


二、真刀真槍一手實測:連續(xù)接受十幾條需求變更,還扛住了拔網(wǎng)線和復(fù)雜遺留代碼

榜單好看,用戶也叫好,但真正的考驗還是在實際使用里。這次,智譜格外強調(diào)“長程任務(wù)(Long-Horizon Tasks)”,確實精準(zhǔn)判斷了當(dāng)前大模型在工業(yè)界落地的痛點。

在真實的軟件工程或復(fù)雜業(yè)務(wù)場景中,幾乎沒有任何有價值的問題是可以通過“一問一答”或“單次生成”解決的。只有真正具備了自主試錯和策略演進(jìn)的能力,模型才能像中高級工程師一樣去“啃”硬骨頭,而不是只寫個初版就罷工。

這已經(jīng)幾乎成為了行業(yè)共識。無論是GLM-5.1、Claude Opus 4.6還是GPT-5.4,各家都在將長程能力作為核心賣點。

原因是,對于真正要拿AI干活、提效的企業(yè)而言,分?jǐn)?shù)、正確率、排行榜都只是參考,他們關(guān)心的是模型能否在拿到一個任務(wù)后無需人工干預(yù),自動診斷并修復(fù)問題,能否用8小時替代一個初級工程師一周的重復(fù)勞動,這些,才是可見的真實生產(chǎn)力。

那么,GLM-5.1到底能不能打?它真的能成為Opus 4.6的國產(chǎn)平替嗎?我們拿GLM-5.1和Opus 4.6跑了兩個完整工程任務(wù),燒掉幾百萬token,看看它們的真實表現(xiàn)到底如何。

1、從零搭建待辦看板,前后端+數(shù)據(jù)庫全閉環(huán)

Prompt: 在一個空目錄下,從零搭建一個完整的“待辦事項看板”前端+后端,使用FastAPI+React,連接PostgresSQL數(shù)據(jù)庫,實現(xiàn)增刪改查。

拿到這一任務(wù)后,GLM-5.1和Opus 4.6都進(jìn)行了初步的項目規(guī)劃,拆解提示詞中的要求,然后再開始開發(fā)。值得一提的是,我們用于測試的電腦環(huán)境相對老舊,還缺失部分依賴。率先進(jìn)行開發(fā)的GLM-5.1馬上定位了這些問題,直接“動手”幫我們裝好了。


其實,GLM-5.1和Opus 4.6一開始給出的結(jié)果都有點簡陋。于是我們向兩個模型發(fā)送了十幾條修改意見,包括要打造完整的導(dǎo)航菜單、配備全局搜索框+通知系統(tǒng)+用戶頭像、三級分組菜單等等。

GLM-5.1并沒有被這一連串的“干擾”打斷自己的開發(fā)節(jié)奏,在多輪需求變更后仍然可以成功交付。最終它打造的任務(wù)看板功能完整度較高,交互體驗流暢,前后端數(shù)據(jù)也是聯(lián)動的——新增的項目的確能在數(shù)據(jù)庫中找到。


此外,網(wǎng)頁的UI細(xì)節(jié)也很到位,字體大小層級分明,光標(biāo)懸停在卡片上時有微動效,還通過顏色區(qū)分了任務(wù)的優(yōu)先級。

再來看看Opus 4.6的表現(xiàn)。在基礎(chǔ)功能上,Opus 4.6同樣實現(xiàn)了基于數(shù)據(jù)庫的增刪改查核心功能,不過網(wǎng)頁的色彩選擇和UI設(shè)計有些單調(diào)。


這一表現(xiàn)源于智譜在訓(xùn)練策略上的創(chuàng)新:通過顯著擴展任務(wù)過程的訓(xùn)練窗口,采用多輪監(jiān)督微調(diào)(multi-turn SFT)與強化學(xué)習(xí)(RL)結(jié)合的訓(xùn)練范式,GLM-5.1得以在完整的任務(wù)流程中學(xué)習(xí),從“接受任務(wù)→規(guī)劃→執(zhí)行→調(diào)整→交付”的全過程都被納入學(xué)習(xí)信號。因此,它不會因新指令的影響,丟掉原本的目標(biāo)與方向。

2、網(wǎng)絡(luò)中斷+遺留代碼+中文亂碼:GLM-5.1如何自救?

Prompt: 搭建一個簡易的電商后臺,需要實現(xiàn)商品管理、訂單流程和支付對接。

當(dāng)AI模型進(jìn)入企業(yè),面臨的往往是更多復(fù)雜的不確定性,比如模糊的目標(biāo),混亂的項目結(jié)構(gòu)等等。在這些因素的干擾下,GLM-5.1還能穩(wěn)定交付嗎?

GLM-5.1的新任務(wù),是搭建一個簡易的電商后臺,發(fā)送指令后,我們刻意使了點壞,在GLM-5.1快寫完項目的時候把網(wǎng)給掐了,并關(guān)閉了現(xiàn)有的上下文窗口。重啟Claude Code之后,再讓它根據(jù)之前的項目文件繼續(xù)開發(fā)。

GLM-5.1沒有被這一小插曲影響。在告訴它原項目的地址后,GLM-5.1花了3分鐘梳理了這個項目的后端部分,然后開始補齊前端缺失的代碼。


理解遺留代碼是開發(fā)的前提,理解程度直接影響著后續(xù)的開發(fā)質(zhì)量。在GLM-5.1輸出的前端設(shè)計框架中,可以看到它對原本的后端代碼分析十分到位,不僅準(zhǔn)確識別了Express 5+SQLite的技術(shù)棧,還敏銳地發(fā)現(xiàn)了后端缺少全局支付列表接口這一設(shè)計缺陷,并據(jù)此提出了“訂單列表+展開行加載支付記錄”的解決方案。


這得益于GLM-5.1更好的狀態(tài)延續(xù)與上下文整合。面對長時間跨度和大量上下文信息,GLM-5.1能穩(wěn)定地追蹤已完成的內(nèi)容、當(dāng)前所處階段和下一步關(guān)鍵動作,持續(xù)整合新信息,保持執(zhí)行鏈路的一致性。

在即將完成開發(fā)時,GLM-5.1在我們沒有要求的情況下,主動檢查了后端的API路徑,并發(fā)現(xiàn)并逐一修復(fù)了5個問題。這種“實驗→分析→優(yōu)化”的閉環(huán),正是GLM-5.1能在長任務(wù)中始終保持方向不偏、質(zhì)量統(tǒng)一、無需人工頻繁糾偏的重要原因。


最終,GLM-5.1交付了這一電商后臺項目,核心功能運轉(zhuǎn)正常,還將后臺數(shù)據(jù)進(jìn)行了可視化。不過,我們刻意人為動手修改了中文字符的編碼,讓這一電商后臺的中文字符顯示為小方塊。


為排查這一問題,GLM-5.1進(jìn)行了29次工具調(diào)用,主要都是閱讀文件,多工具協(xié)同效果穩(wěn)定。最后,它發(fā)現(xiàn)數(shù)據(jù)庫中多處中文字段都是亂碼(GBK編碼被錯誤當(dāng)UTF-8存入),于是很快進(jìn)行了修復(fù)。可以說,GLM-5.1在多輪工具調(diào)用和長上下文場景中,表現(xiàn)出工程師般的自主診斷和修復(fù)能力。


經(jīng)歷這兩個小插曲,GLM-5.1用大概45分鐘的時間完成了整個項目的開發(fā),修復(fù)后的結(jié)果如下。


它交付了整整兩個文件夾的成果,算上代碼、組件庫等等,有數(shù)百個文件,大小也來到了40多兆。


拿到同樣任務(wù)的Opus 4.6,交付的結(jié)果如下:


從結(jié)果上來看,即便是我們?nèi)藶榻oGLM-5.1上強度,它交付的結(jié)果也和Opus 4.6的結(jié)果保持在相似的水平線上。在保持原有功能、優(yōu)化代碼結(jié)構(gòu)等多重任務(wù)中,GLM-5.1仍然完成了高質(zhì)量的方案設(shè)計與執(zhí)行,充分驗證了其在復(fù)雜開發(fā)和維護(hù)任務(wù)中的工程化能力。

結(jié)語:開源模型長程任務(wù)能力突破:從“回答問題”到“交付項目”

頂尖開源模型,正極大地拉近與閉源模型的差距。長程任務(wù)是Claude引以為傲的能力之一,模型不僅要會寫代碼,還要像人一樣在數(shù)小時內(nèi)保持目標(biāo)感、處理意外、自我糾偏、并堅持到最后一刻。

過去,這一直是閉源模型的護(hù)城河,也是開源模型難以逾越的分水嶺。

智譜稱,GLM-5.1是全球第一個在真實工程任務(wù)中驗證了8小時持續(xù)工作能力的開源模型。同時,我們的實測也顯示,GLM-5.1不是靠“更長的上下文窗口”去死記硬背,而是真正學(xué)會了“規(guī)劃→執(zhí)行→檢查→修復(fù)→交付”的完整工作流。

大模型正在從“回答問題”走向“交付項目”。在這一方向上,GLM-5.1已具備了在真實、混亂、長周期的工程環(huán)境中,獨立承擔(dān)任務(wù)的底氣。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國造不出光刻機?中科大副院長:美國造不出,中國永遠(yuǎn)都不可能

中國造不出光刻機?中科大副院長:美國造不出,中國永遠(yuǎn)都不可能

勇敢的人享受生活
2026-04-07 11:26:46
難怪特朗普不想打!美媒爆出猛料,局勢愈發(fā)嚴(yán)峻,或引爆美國內(nèi)亂

難怪特朗普不想打!美媒爆出猛料,局勢愈發(fā)嚴(yán)峻,或引爆美國內(nèi)亂

史智文道
2026-04-07 11:37:49
曝字母哥遭遇重大經(jīng)濟(jì)損失!只愿效力兩隊 熱火報價差點打動雄鹿

曝字母哥遭遇重大經(jīng)濟(jì)損失!只愿效力兩隊 熱火報價差點打動雄鹿

羅說NBA
2026-04-08 05:27:41
《浪姐7》首個翻車姐姐,全場跑調(diào),周杰倫前女友頭銜也不頂用

《浪姐7》首個翻車姐姐,全場跑調(diào),周杰倫前女友頭銜也不頂用

娛樂圈十三太保
2026-04-08 15:37:44
3-2力克U19世界第2!中國女乒16歲新星崛起:無懼對抗日乒新星

3-2力克U19世界第2!中國女乒16歲新星崛起:無懼對抗日乒新星

李喜林籃球絕殺
2026-04-08 15:33:37
WTI原油期貨跌幅擴大至19%

WTI原油期貨跌幅擴大至19%

證券時報
2026-04-08 07:44:04
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
潘石屹再預(yù)言未來樓市,前兩次已應(yīng)驗,今明兩年或大概率也是對的

潘石屹再預(yù)言未來樓市,前兩次已應(yīng)驗,今明兩年或大概率也是對的

專業(yè)聊房君
2026-04-06 17:35:09
隊史第二!上海雙殺寧波豪取17連勝 李添榮24分古德溫32+8

隊史第二!上海雙殺寧波豪取17連勝 李添榮24分古德溫32+8

醉臥浮生
2026-04-08 21:21:25
汪寶兒百日宴將在臺北舉辦,張?zhí)m生日當(dāng)天發(fā)兩條視頻先失落后憤怒

汪寶兒百日宴將在臺北舉辦,張?zhí)m生日當(dāng)天發(fā)兩條視頻先失落后憤怒

娛樂圈的筆娛君
2026-04-08 17:12:20
1896年,德國人造出一把重心失衡的失敗品,隨手扔進(jìn)倉庫角落,二十八年后,竟被中國軍人用成“近身屠夫”:洋人垃圾如何變身華夏神兵?

1896年,德國人造出一把重心失衡的失敗品,隨手扔進(jìn)倉庫角落,二十八年后,竟被中國軍人用成“近身屠夫”:洋人垃圾如何變身華夏神兵?

起飛做故事
2026-03-30 18:07:14
80歲潘迎紫參加演唱會,唱歌不對麥頻走神,身邊的楊麗菁五官僵硬

80歲潘迎紫參加演唱會,唱歌不對麥頻走神,身邊的楊麗菁五官僵硬

青橘罐頭
2026-04-07 19:48:25
美軍跳傘飛行員身背“小金庫”,步槍金條電臺一應(yīng)俱全,非常難捉

美軍跳傘飛行員身背“小金庫”,步槍金條電臺一應(yīng)俱全,非常難捉

利刃號
2026-04-05 23:38:07
俄羅斯沒想到,美國也沒料到,如今中國石油早已轉(zhuǎn)型成為全球老大

俄羅斯沒想到,美國也沒料到,如今中國石油早已轉(zhuǎn)型成為全球老大

興史興談
2026-04-08 11:55:32
700億補貼全砍!國家正式斷奶,2026年最痛一刀,這行業(yè)該漲價了

700億補貼全砍!國家正式斷奶,2026年最痛一刀,這行業(yè)該漲價了

興史興談
2026-04-07 23:15:11
夫妻性生活:別再傻傻用力了!讓妻子上癮的三個技巧,男人必看!

夫妻性生活:別再傻傻用力了!讓妻子上癮的三個技巧,男人必看!

精彩分享快樂
2025-11-20 00:05:03
巴薩vs馬競大名單:亞馬爾、萊萬、阿勞霍在列,德容缺席

巴薩vs馬競大名單:亞馬爾、萊萬、阿勞霍在列,德容缺席

懂球帝
2026-04-08 19:33:08
4人被棄用!王勵勤秦志戩痛下決心換血,新陣背后藏著什么狠招?

4人被棄用!王勵勤秦志戩痛下決心換血,新陣背后藏著什么狠招?

徐觳解說
2026-04-08 11:20:40
塵封46年的秘密:那個慫恿袁世凱稱帝的人,竟是周恩來親批的黨員

塵封46年的秘密:那個慫恿袁世凱稱帝的人,竟是周恩來親批的黨員

老范談史
2026-04-08 15:17:15
陳麗華去世不到24小時,陳光標(biāo)不再隱瞞,公開與她的“真實關(guān)系”

陳麗華去世不到24小時,陳光標(biāo)不再隱瞞,公開與她的“真實關(guān)系”

阿雹娛樂
2026-04-08 05:57:13
2026-04-08 23:11:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11534文章數(shù) 117025關(guān)注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

無法說話、四肢癱瘓女孩誤購演唱會門票 申請退票遭拒

頭條要聞

無法說話、四肢癱瘓女孩誤購演唱會門票 申請退票遭拒

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經(jīng)要聞

天津海河乳業(yè)回應(yīng)直播間涉黃

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

房產(chǎn)
旅游
教育
本地
公開課

房產(chǎn)要聞

正式動工!珠城馬場地塊,簽約華爾道夫!

旅游要聞

合川有座被國字號認(rèn)證的古鎮(zhèn),煙火氣十足,比想象中的還要驚艷

教育要聞

北京30學(xué)校入選!最新國家級特色學(xué)校名單出爐

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版