国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.6一天內(nèi)被超兩次,這次來自國(guó)產(chǎn)模型

0
分享至

前兩天 APPSO 提到,大模型即將迎來史上最殘酷的一個(gè)月,這就來了。

而Claude Opus 4.6 「不幸」成為背景板,一天之內(nèi)被超越兩次。

早上,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。這個(gè)分?jǐn)?shù)意味著它能在真實(shí) GitHub 倉(cāng)庫(kù)里定位并修復(fù)高難度工程 Bug,已經(jīng)超過了絕大多數(shù)人類程序員。

可 Mythos Preview 暫時(shí)不對(duì)普通用戶開放,與此同時(shí),另外一個(gè)超 Opus 4.6 的模型出現(xiàn)了——智譜開源了 GLM-5.1。


GLM-5.1 SWE-bench Pro 得分 58.4%,超過 Opus 4.6 的 57.3%,也超過 GPT-5.4 的 57.7%。

HuggingFace CEO Clement Delangue 也發(fā)推祝賀:「SWE-Bench Pro 上表現(xiàn)最好的模型現(xiàn)在在 HuggingFace 上開源了!歡迎 GLM 5.1!」


全球第三,開源第一。雖然沒等來 DeepSeek V4,但開源新一哥還是來了,依然是咱們國(guó)產(chǎn)大模型。

說實(shí)話,我第一反應(yīng)是又來了,大模型的「榜單狂歡」,每次發(fā)布會(huì)都是「史詩(shī)級(jí)進(jìn)步」,各家模型在榜單上各領(lǐng)風(fēng)數(shù)小時(shí),這次的劇本有什么不同呢。

APPSO 看完 GLM-5.1 的技術(shù)細(xì)節(jié)和體驗(yàn)后,帶你看看這個(gè)模型是什么水平

從 20 步到 1700 步,持續(xù)工作 8 小時(shí)

GLM-5.1 最讓人沒想到的,不是跑分,是它能工作多久。

智譜有一個(gè)案例讓我印象比較深。8 小時(shí)從零構(gòu)建 Linux 桌面系統(tǒng)。

不是寫幾個(gè) demo 文件那種「構(gòu)建」,是真的從零開始,畫架構(gòu)、寫代碼、跑測(cè)試、修 bug,歷時(shí) 8 小時(shí)整,執(zhí)行了 1200 多步,最后產(chǎn)出了一套功能完善的 Linux 桌面系統(tǒng)。

包括完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN 管理器、中文字體支持、游戲庫(kù),4.8MB 的配套文件。這相當(dāng)于一個(gè) 4 人團(tuán)隊(duì)一周的工作量。

全程沒有人參與測(cè)試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測(cè)試,而且跑過了。

知乎程序員博主 Toyama nao 做了個(gè)更狠的測(cè)試。他給 GLM-5.1 扔了三個(gè)工程項(xiàng)目:用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發(fā)全功能聊天軟件同時(shí)用 Golang 開發(fā)服務(wù)端、自選技術(shù)棧開發(fā)純網(wǎng)頁(yè)端視頻剪輯應(yīng)用。每個(gè)項(xiàng)目跑 10-12 輪提示詞,每輪 1500-2000 字。

結(jié)果 GLM-5.1 成為第一個(gè)通過他全部測(cè)試工程的國(guó)產(chǎn)模型,也是第一個(gè)正式超越 Sonnet 4.5 Thinking 的國(guó)產(chǎn)模型。


他的評(píng)價(jià)是:「GLM-5.1 大幅擴(kuò)展了編程的適應(yīng)范圍,不再是前端 only 戰(zhàn)神,也不只是 oneshot 樣子貨,是可以在復(fù)雜工況下充當(dāng)編程主力?!沟仓赋隽藛栴}:「超長(zhǎng)上下文時(shí)容易幻覺爆炸,如果遇到 2 輪改不好一個(gè)問題,不要抱有僥幸,直接重開?!?/p>

去年年底,AI 智能體大約只能完成 20 個(gè)步驟。GLM-5.1 現(xiàn)在可以完成 1700 個(gè)步驟。這是模型能不能真正「獨(dú)立工作」的分水嶺。

智譜在技術(shù)報(bào)告里解釋了關(guān)鍵突破點(diǎn):以前的模型,包括 GLM-5,會(huì)在早期快速取得收益后就進(jìn)入瓶頸期。它們反復(fù)嘗試已知的優(yōu)化手段,但無法在一條路走不通時(shí)主動(dòng)切換策略。

GLM-5.1 的訓(xùn)練目標(biāo)就是突破這個(gè)瓶頸,讓模型能夠在一個(gè)固定策略內(nèi)進(jìn)行增量調(diào)優(yōu),當(dāng)收益趨于停滯時(shí),主動(dòng)分析 Benchmark 日志、定位當(dāng)前瓶頸,然后跳轉(zhuǎn)到結(jié)構(gòu)性不同的方案。

向量數(shù)據(jù)庫(kù)優(yōu)化案例就是典型的「階梯型」優(yōu)化軌跡。GLM-5.1 用了 655 次迭代,把查詢吞吐從 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。


這個(gè)過程中,模型自己完成了從全庫(kù)掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級(jí)路由,再到提前剪枝的整套優(yōu)化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降,因?yàn)槟P驮谔剿餍路较驎r(shí)會(huì)暫時(shí)打破約束,隨后再調(diào)回來。這個(gè)「打破-修復(fù)」的循環(huán)本身就是有效優(yōu)化的標(biāo)志。

在 KernelBench Level 3 優(yōu)化基準(zhǔn)上,GLM-5.1 對(duì) 50 個(gè)真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載進(jìn)行了超過 24 小時(shí)的不間斷迭代,最終取得 3.6 倍的幾何平均加速比,顯著高于 torch.compile max-autotune 模式的 1.49 倍。

模型自主編寫定制 Triton Kernel 和 CUDA Kernel,運(yùn)用 cuBLASLt epilogue 融合并實(shí)施 shared memory tiling 與 CUDA Graph 優(yōu)化,覆蓋了從高層算子融合到微架構(gòu)級(jí)調(diào)優(yōu)的完整技術(shù)棧。


還有一個(gè)更有意思的測(cè)試:Vending Bench 2。這個(gè)基準(zhǔn)要求模型模擬經(jīng)營(yíng)一年的自動(dòng)售貨機(jī)業(yè)務(wù),需要長(zhǎng)期規(guī)劃和資源管理。GLM-5.1 最終賬戶余額達(dá)到 $4,432,在開源模型中排名第一,接近 Claude Opus 4.5 的水平。


744B 參數(shù),零英偉達(dá)芯片,成本降低 97%

GLM-5.1 的技術(shù)規(guī)格值得細(xì)看:744B 參數(shù)的混合專家模型(MoE),每個(gè) token 激活 40B 參數(shù),28.5T tokens 訓(xùn)練數(shù)據(jù),集成了 DeepSeek Sparse Attention(DSA)來降低部署成本同時(shí)保持長(zhǎng)上下文能力。200K 上下文窗口,最大輸出 131,072 tokens。

更關(guān)鍵的是,整個(gè)模型全部使用華為昇騰 910B 芯片訓(xùn)練,沒有英偉達(dá) GPU 參與。在算力被卡脖子的情況下,國(guó)產(chǎn)模型依然能做到全球第三、開源第一。

開發(fā)者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1,體驗(yàn)上沒有任何差別,但成本從 1000 美元暴砍至 30 美元左右,降低了 97%。

GLM-5.1 的輸入成本是 Claude Opus 的 1/5,輸出成本是 1/8。簡(jiǎn)單來說:接近 Opus 的能力,20% 的價(jià)格。


而且GLM-5.1 是開源的。MIT License,最寬松的開源許可證之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

當(dāng)然 GLM-5.1 也不是沒有提升的空間,部分開發(fā)者反饋,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同類產(chǎn)品沒太大優(yōu)勢(shì)。復(fù)雜任務(wù)甚至要一小時(shí)起步,哪怕 Pro 套餐額度是 Claude 的 15 倍,也可能不太夠用。

這些問題都是真實(shí)存在的。GLM-5.1 不是完美的,但這不妨礙它成為一個(gè)里程碑。

GLM-5.1 的意義,不在于它比 Opus 4.6 強(qiáng)多少,而在于它證明了,在算力被卡脖子的情況下,國(guó)產(chǎn)模型依然能做到開源第一。而且它是開源的,任何人都可以用,任何人都可以改。

你睡覺的 8 小時(shí),現(xiàn)在可以是 AI 上班的 8 小時(shí)了。而且這個(gè) AI ,是開源的,是國(guó)產(chǎn)的,是任何人都可以用的。

附開源與體驗(yàn)方式

  1. 1.官方 API 接入

  • BigModel開放平臺(tái):https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
  • Z.ai:https://docs.z.ai/guides/llm/glm-5.1
  1. 2.產(chǎn)品體驗(yàn)

  • GLM-5.1即將登陸Z.ai:https://chat.z.ai
  • GLM-5.1已納入GLM Coding Plan(Max/Pro/Lite),支持Claude Code、OpenCode等主流開發(fā)工具。

  1. 3.開源鏈接

  • GitHub:https://github.com/zai-org/GLM-5
  • Hugging Face:https://huggingface.co/zai-org/GLM-5.1
  • ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

愛范兒
2026-04-21 22:36:25
杜蕾斯供應(yīng)商宣布漲價(jià)

杜蕾斯供應(yīng)商宣布漲價(jià)

第一財(cái)經(jīng)資訊
2026-04-22 14:42:25
任澤平退款731萬(wàn),恒大高管們開始退錢了

任澤平退款731萬(wàn),恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

蹲坑看世界
2026-04-22 15:18:22
女子機(jī)艙鬧事致飛機(jī)延誤起飛遭勸離,自稱是空姐,多名乘客因此錯(cuò)過銜接航班,滯留吉隆坡,乘客:損失數(shù)千元,商務(wù)行程被打亂;多方回應(yīng)

女子機(jī)艙鬧事致飛機(jī)延誤起飛遭勸離,自稱是空姐,多名乘客因此錯(cuò)過銜接航班,滯留吉隆坡,乘客:損失數(shù)千元,商務(wù)行程被打亂;多方回應(yīng)

大風(fēng)新聞
2026-04-22 20:37:03
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

海峽導(dǎo)報(bào)社
2026-04-22 15:32:03
35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長(zhǎng)子成他的驕傲

35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長(zhǎng)子成他的驕傲

冷紫葉
2026-04-21 16:09:57
活久見!網(wǎng)傳河南一千萬(wàn)富家兒子結(jié)婚,女方接受不辦婚禮不給彩禮

活久見!網(wǎng)傳河南一千萬(wàn)富家兒子結(jié)婚,女方接受不辦婚禮不給彩禮

火山詩(shī)話
2026-04-22 15:04:24
中方不再伺候了!對(duì)荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

中方不再伺候了!對(duì)荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

泠泠說史
2026-04-21 21:13:01
凈利潤(rùn)暴跌86%,理想汽車怎么了?

凈利潤(rùn)暴跌86%,理想汽車怎么了?

牛頓頓頓
2026-04-20 17:07:20
全軍覆沒!已公布的28個(gè)城市,地鐵全虧損,為什么還要瘋狂建?

全軍覆沒!已公布的28個(gè)城市,地鐵全虧損,為什么還要瘋狂建?

養(yǎng)牛的大昆
2026-04-21 11:45:51
朝鮮發(fā)聲痛批日本,要求日本向中國(guó)道歉:針對(duì)中國(guó)駐日使館的連環(huán)恐怖威脅,是對(duì)國(guó)際法的粗暴違反與公然挑釁

朝鮮發(fā)聲痛批日本,要求日本向中國(guó)道歉:針對(duì)中國(guó)駐日使館的連環(huán)恐怖威脅,是對(duì)國(guó)際法的粗暴違反與公然挑釁

大風(fēng)新聞
2026-04-22 18:42:23
《生化9》大尺度mod!牛奶比基尼內(nèi)含大雷比頭還大

《生化9》大尺度mod!牛奶比基尼內(nèi)含大雷比頭還大

游民星空
2026-04-22 16:09:39
剛剛,歐盟批準(zhǔn)向?yàn)蹩颂m發(fā)放900億歐元以及第20輪對(duì)俄制裁方案

剛剛,歐盟批準(zhǔn)向?yàn)蹩颂m發(fā)放900億歐元以及第20輪對(duì)俄制裁方案

山河路口
2026-04-22 20:03:26
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機(jī)未逃離當(dāng)場(chǎng)被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機(jī)未逃離當(dāng)場(chǎng)被控制

極目新聞
2026-04-22 15:36:21
中國(guó)籃協(xié):祝賀王治郅

中國(guó)籃協(xié):祝賀王治郅

新京報(bào)政事兒
2026-04-22 10:24:04
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩(shī)話
2026-04-22 17:56:13
國(guó)際刑事法院裁定:對(duì)菲律賓前總統(tǒng)杜特爾特相關(guān)案件擁有管轄權(quán)

國(guó)際刑事法院裁定:對(duì)菲律賓前總統(tǒng)杜特爾特相關(guān)案件擁有管轄權(quán)

新京報(bào)
2026-04-22 17:43:16
伊朗把“大殺器”搬到廣場(chǎng)展示!美軍否認(rèn)從韓國(guó)運(yùn)走“薩德”:只是換個(gè)基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

伊朗把“大殺器”搬到廣場(chǎng)展示!美軍否認(rèn)從韓國(guó)運(yùn)走“薩德”:只是換個(gè)基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

每日經(jīng)濟(jì)新聞
2026-04-22 20:16:08
一個(gè)奇怪的社會(huì)現(xiàn)象,凡是有退休金的老人,都不愿意和兒女住一起

一個(gè)奇怪的社會(huì)現(xiàn)象,凡是有退休金的老人,都不愿意和兒女住一起

筆墨V
2026-04-22 16:15:16
2026-04-22 21:28:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6299文章數(shù) 26823關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗扣留兩艘船并強(qiáng)調(diào)"紅線" 責(zé)令美國(guó)釋放被扣貨船

頭條要聞

伊朗扣留兩艘船并強(qiáng)調(diào)"紅線" 責(zé)令美國(guó)釋放被扣貨船

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

本地
教育
親子
公開課
軍事航空

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

教育要聞

叮咚!全校科創(chuàng)青年聚集!“搖籃杯”科創(chuàng)作品展!

親子要聞

素食飲食減緩衰老,根據(jù)一項(xiàng)新的雙胞胎研究

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長(zhǎng)?;?伊朗表態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版