国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM-4.5技術(shù)報(bào)告揭秘:如何圍繞Agent構(gòu)建一個模型

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

智譜GLM-4.5的發(fā)布,在近期的AI開源社區(qū)中引發(fā)了不小的討論。模型放出后,它在Hugging Face社區(qū)的趨勢榜單上表現(xiàn)亮眼,綜合性能也在多個基準(zhǔn)測試中位列前茅。其原生Agent能力的提法和頗具競爭力的定價,都成為了開發(fā)者們關(guān)注和討論的焦點(diǎn)。

在模型獲得了一波社區(qū)的實(shí)踐和反饋之后,智譜緊接著發(fā)布了長達(dá)25頁的詳盡技術(shù)報(bào)告。這份報(bào)告同樣獲得了很高的關(guān)注度,登上了Hugging Face Daily Papers的熱度榜首。

這份報(bào)告的價值在于,它系統(tǒng)性地闡述了其模型的設(shè)計(jì)思路,明確將Agent、Reasoning(推理)和Coding(代碼)三種能力的統(tǒng)一,即ARC,作為衡量通才模型的核心標(biāo)準(zhǔn)。

報(bào)告鏈接:https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

ARC三位一體

GLM-4.5的設(shè)計(jì)哲學(xué)的核心聚焦于Agent、推理和代碼三者的原生統(tǒng)一。報(bào)告在開篇就明確提出了這個主張。它認(rèn)為,大語言模型(LLM)正從通用知識庫演變?yōu)橥ㄓ脝栴}解決者,一個真正的通才模型,需要統(tǒng)一掌握三項(xiàng)相互關(guān)聯(lián)的核心能力:

Agentic abilities (Agent能力):與外部工具和真實(shí)世界進(jìn)行交互。

complex Reasoning (復(fù)雜推理能力):解決數(shù)學(xué)、科學(xué)等多步驟問題。

advanced Coding (高級代碼技能):處理真實(shí)的軟件工程任務(wù)。

這三者之間存在著緊密的內(nèi)在邏輯。一個強(qiáng)大的Agent,必須具備調(diào)用工具的能力,而代碼(Coding)正是與數(shù)字世界交互的終極工具;同時,要完成一個復(fù)雜任務(wù),例如根據(jù)用戶需求去修復(fù)一個GitHub倉庫里的Bug,必然需要嚴(yán)密的邏輯推理(Reasoning)能力來規(guī)劃步驟和理解依賴關(guān)系。

因此,GLM-4.5的設(shè)計(jì)目標(biāo)就是將這三者進(jìn)行原生集成,讓Agent能夠基于優(yōu)秀的推理和代碼能力,去思考和行動,后續(xù)大量的技術(shù)細(xì)節(jié),都是圍繞這個目標(biāo)展開。

為Agent打造的技術(shù)路徑

一個清晰的目標(biāo),需要一條嚴(yán)謹(jǐn)?shù)募夹g(shù)路徑來實(shí)現(xiàn)。GLM-4.5的技術(shù)報(bào)告用大量篇幅介紹了其如何從模型架構(gòu)、數(shù)據(jù)處理、訓(xùn)練流程到最終的強(qiáng)化學(xué)習(xí),一步步地將Agent能力注入到模型中。

模型架構(gòu):更深、更專的MoE設(shè)計(jì)

GLM-4.5采用了當(dāng)前大模型領(lǐng)域主流的混合專家(MoE)架構(gòu),以在保證性能的同時提升計(jì)算效率。報(bào)告揭示了其在具體實(shí)現(xiàn)上的一些獨(dú)特設(shè)計(jì)選擇,例如“瘦高”結(jié)構(gòu)。與一些模型追求更“寬”(更多的專家數(shù)量、更大的隱藏層維度)不同,GLM-4.5團(tuán)隊(duì)選擇了減少寬度,但增加模型深度的結(jié)構(gòu)。報(bào)告提到,他們發(fā)現(xiàn)更深的模型在推理能力上表現(xiàn)更出色,這直接服務(wù)于ARC能力中的推理基礎(chǔ)。此外,報(bào)告還提到了一些為增強(qiáng)推理能力而做的精細(xì)調(diào)整,例如模型使用了倍數(shù)于常規(guī)模型的注意力頭,并引入QK-Norm技術(shù)來穩(wěn)定訓(xùn)練。這些改動共同為模型打下了堅(jiān)實(shí)的推理和代碼功底。

GLM-4.5與DeepSeek-V3 與 Kimi K2的模型架構(gòu)對比

訓(xùn)練流程:從“廣積糧”到“中場強(qiáng)攻”

一個好的模型架構(gòu)需要海量且優(yōu)質(zhì)的數(shù)據(jù)來喂養(yǎng)。報(bào)告詳細(xì)介紹了其復(fù)雜的多階段訓(xùn)練流程,清晰地展示了從通用到專精的演進(jìn)過程。在兩階段預(yù)訓(xùn)練中,模型先在15T Tokens的通用語料上進(jìn)行學(xué)習(xí),可以理解為“廣積糧”。隨后,則在一個7T Tokens的數(shù)據(jù)集上繼續(xù)訓(xùn)練,這個數(shù)據(jù)集會重點(diǎn)上采樣與代碼和推理相關(guān)的高質(zhì)量內(nèi)容,相當(dāng)于開始為ARC能力“定向施肥”。

報(bào)告中一個非常有趣的環(huán)節(jié)是獨(dú)特的中期訓(xùn)練(Mid-training)。在完成大規(guī)模預(yù)訓(xùn)練后,模型會進(jìn)入一個專門的“中期訓(xùn)練”階段,針對性地“強(qiáng)攻”特定能力。這個階段主要包含三類數(shù)據(jù):一是代碼倉庫級數(shù)據(jù),將同一個代碼庫的多個文件拼接訓(xùn)練,讓模型學(xué)習(xí)跨文件的依賴關(guān)系;二是合成推理數(shù)據(jù),利用已有模型生成大量帶有推理過程的問答數(shù)據(jù);三是長上下文與Agent軌跡數(shù)據(jù)。這是最關(guān)鍵的一步,模型開始接觸并學(xué)習(xí)大量的、由機(jī)器合成的Agent任務(wù)軌跡,同時訓(xùn)練的序列長度也從預(yù)訓(xùn)練時的4K,一路擴(kuò)展至最終的128K。

Pre-training和Mid-training的多階段流

后訓(xùn)練:RL注入Agent靈魂

如果說預(yù)訓(xùn)練和中期訓(xùn)練是為模型打造了強(qiáng)健的“軀體”,那么后訓(xùn)練,特別是強(qiáng)化學(xué)習(xí),則是為其注入“靈魂”的關(guān)鍵。正如一位社區(qū)開發(fā)者評論的那樣,這份報(bào)告的大部分篇幅都在講述一個復(fù)雜的后訓(xùn)練策略。

報(bào)告中的RL訓(xùn)練設(shè)計(jì),處處體現(xiàn)出為Agent服務(wù)的思想。例如,Agentic RL的訓(xùn)練聚焦于兩類可以被程序自動驗(yàn)證結(jié)果的任務(wù):基于信息檢索的問答和軟件工程,因?yàn)檫@類任務(wù)有明確的成功或失敗信號,便于模型進(jìn)行高效的強(qiáng)化學(xué)習(xí)。報(bào)告中一個值得注意的細(xì)節(jié),是為模型的工具調(diào)用設(shè)計(jì)了一套新的XML格式模板,旨在解決常見JSON格式在參數(shù)包含代碼時需要大量轉(zhuǎn)義字符的痛點(diǎn),直接提升了Agent最核心的工具調(diào)用環(huán)節(jié)的穩(wěn)定性和效率。

另一個例子體現(xiàn)在模型的交互式解決問題能力上。如下圖所示,在網(wǎng)頁瀏覽這類典型的Agent任務(wù)中,模型的準(zhǔn)確率會隨著與環(huán)境交互輪次的增多而穩(wěn)步提升。這說明模型學(xué)會的不是一次性地給出答案,而是通過持續(xù)的探索、試錯和信息整合來逼近正確解,這正是Agent模式的核心價值所在。

BrowseComp模型的準(zhǔn)確率隨交互輪次(測試時計(jì)算量)的增加而變化。

為了支撐如此復(fù)雜的RL訓(xùn)練,智譜還專門設(shè)計(jì)并開源了名為slime的RL訓(xùn)練框架。根據(jù)報(bào)告描述,這個框架的核心設(shè)計(jì)(如異步、解耦的訓(xùn)練架構(gòu))就是為了高效處理Agent任務(wù)中常見的數(shù)據(jù)生成慢、交互耗時長的痛點(diǎn),體現(xiàn)了其構(gòu)建開發(fā)者生態(tài)的意圖。

總體來看,GLM-4.5的技術(shù)報(bào)告用詳盡的數(shù)據(jù),對其以Agent為核心的設(shè)計(jì)理念進(jìn)行了驗(yàn)證。

報(bào)告的評測部分體現(xiàn)了模型綜合性能。在涵蓋Agent、推理、代碼的12項(xiàng)基準(zhǔn)測試中,GLM-4.5的綜合得分位列全球第三,Agent能力單項(xiàng)排名全球第二。

報(bào)告還提供了更深入的Agent能力評測細(xì)節(jié)。例如,在一個名為CC-Bench的真實(shí)編程任務(wù)測試中,GLM-4.5的工具調(diào)用成功率達(dá)到了90.6%,超過了多個強(qiáng)有力的競爭對手。這種在實(shí)際任務(wù)中表現(xiàn)出的高可靠性,也讓一些海外開發(fā)者評價其為“當(dāng)今最精通工具、最原生的Agent模型”。

不同模型在 CC-Bench 上的平均工具調(diào)用成功率與單輪交互的平均 Token 消耗對比。

社區(qū)的討論也指向了另一個維度:性價比。有用戶評論認(rèn)為,“性價比才是大模型落地的真正核心指標(biāo)”。這一點(diǎn)與GLM-4.5的技術(shù)選型不謀而合。其采用的MoE架構(gòu)本身就是一種平衡效果與成本的高效方案,這種技術(shù)效率也反映在了它的市場策略上,使其能以一個普惠的價格,鼓勵更多開發(fā)者進(jìn)行調(diào)用和嘗試,形成生態(tài)的正向循環(huán)。

這份技術(shù)報(bào)告,本質(zhì)上是智譜將其以Agent為核心的設(shè)計(jì)思路,完整地?cái)傇诹俗烂嫔?。?dāng)模型權(quán)重、技術(shù)報(bào)告、以及RL訓(xùn)練框架slime三者同時被推向社區(qū),其意義就不再只是發(fā)布一個供人調(diào)用的工具。這更像是一種開放的邀請,開發(fā)者不僅可以“用”這個模型,更可以深入地“學(xué)”它的實(shí)現(xiàn)方法,甚至“改”它的訓(xùn)練流程。這或許是更深層的價值所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對中國駐日使館的連環(huán)恐怖威脅,是對國際法的粗暴違反與公然挑釁

朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對中國駐日使館的連環(huán)恐怖威脅,是對國際法的粗暴違反與公然挑釁

大風(fēng)新聞
2026-04-22 18:42:23
雷來了,11萬股東今晚無眠,盤后1家公司被立案調(diào)查,1家公司被st

雷來了,11萬股東今晚無眠,盤后1家公司被立案調(diào)查,1家公司被st

丁丁鯉史紀(jì)
2026-04-22 19:57:24
老人不要拼命追求長壽,該走就走,60歲去世和80歲去世沒本質(zhì)區(qū)別

老人不要拼命追求長壽,該走就走,60歲去世和80歲去世沒本質(zhì)區(qū)別

暖風(fēng)吹過竹林
2026-04-22 08:11:22
英雄航天員陳冬肩章已更為少將軍銜 系我國第二批航天員,在軌時長超400天

英雄航天員陳冬肩章已更為少將軍銜 系我國第二批航天員,在軌時長超400天

紅星新聞
2026-04-22 16:31:28
連車企的名字都不敢報(bào)道,這樣的新聞有什么意義

連車企的名字都不敢報(bào)道,這樣的新聞有什么意義

林中木白
2026-04-21 15:51:28
伊朗公開展示對美以反擊“大殺器”

伊朗公開展示對美以反擊“大殺器”

新華社
2026-04-22 16:41:42
任澤平退款731萬,恒大高管們開始退錢了

任澤平退款731萬,恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
剛剛,歐盟批準(zhǔn)向?yàn)蹩颂m發(fā)放900億歐元以及第20輪對俄制裁方案

剛剛,歐盟批準(zhǔn)向?yàn)蹩颂m發(fā)放900億歐元以及第20輪對俄制裁方案

山河路口
2026-04-22 20:03:26
19歲女兒挪用父親公司公款1700萬元當(dāng)“榜一大姐”,父親帶其自首,律師:錢款能否追回和自首無關(guān),關(guān)鍵在打賞是否會被認(rèn)定為善意取得

19歲女兒挪用父親公司公款1700萬元當(dāng)“榜一大姐”,父親帶其自首,律師:錢款能否追回和自首無關(guān),關(guān)鍵在打賞是否會被認(rèn)定為善意取得

極目新聞
2026-04-22 21:48:16
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
縱火嫌疑人被叫去警局還死不認(rèn)罪!警察無語:你眉毛燒剩一條,全身燒傷,還裝??

縱火嫌疑人被叫去警局還死不認(rèn)罪!警察無語:你眉毛燒剩一條,全身燒傷,還裝??

英國那些事兒
2026-04-21 23:04:12
中央定調(diào)!4月起公務(wù)員退休徹底取消彈性延遲,體制內(nèi)真繃不住了

中央定調(diào)!4月起公務(wù)員退休徹底取消彈性延遲,體制內(nèi)真繃不住了

愛下廚的阿椅
2026-04-22 17:30:09
伊朗不打算給面子,美軍三航母就位,特朗普想把中國拖下水

伊朗不打算給面子,美軍三航母就位,特朗普想把中國拖下水

林子說事
2026-04-22 20:10:33
WCBA總決賽:山西女籃險(xiǎn)勝四川追到2-2 奧貢鮑爾被驅(qū)逐布朗34分

WCBA總決賽:山西女籃險(xiǎn)勝四川追到2-2 奧貢鮑爾被驅(qū)逐布朗34分

醉臥浮生
2026-04-22 21:14:40
斯坦丘世界波絕殺!大連英博1-0贏下遼寧德比,5連勝穩(wěn)居第3

斯坦丘世界波絕殺!大連英博1-0贏下遼寧德比,5連勝穩(wěn)居第3

中超偽球迷
2026-04-22 21:31:23
余承東:我們成本扛不住了,希望大家早點(diǎn)購買

余承東:我們成本扛不住了,希望大家早點(diǎn)購買

映射生活的身影
2026-04-20 21:53:17
偷了機(jī)場114盞燈!沒留照片、指紋、DNA的機(jī)場大盜被抓

偷了機(jī)場114盞燈!沒留照片、指紋、DNA的機(jī)場大盜被抓

環(huán)球網(wǎng)資訊
2026-04-22 17:00:50
職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

運(yùn)籌帷幄的籃球
2026-04-22 14:25:28
AI時代的豪華汽車該是什么樣子?從魏牌V9X上或許能看到答案

AI時代的豪華汽車該是什么樣子?從魏牌V9X上或許能看到答案

大眾侃車
2026-04-22 17:11:49
烏克蘭沒錢打俄羅斯了?國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒錢打俄羅斯了?國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
2026-04-23 00:43:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來源不明" 被指向女兒轉(zhuǎn)賬超800萬

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來源不明" 被指向女兒轉(zhuǎn)賬超800萬

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

旅游
親子
本地
公開課
軍事航空

旅游要聞

日照五蓮:云海繞群山,九仙山杜鵑花競相綻放

親子要聞

媽媽看不到的時候,孩子能拒絕才真的放心!

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長?;?伊朗表態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版