国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型“降智”真相,找到了

0
分享至


智東西
作者 陳駿達(dá)
編輯 云鵬

智東西4月30日?qǐng)?bào)道,今天,智譜發(fā)布了一篇名為《Scaling Pain:超大規(guī)模Coding Agent推理實(shí)踐》的技術(shù)報(bào)告,披露了GLM-5系列模型在Coding Agent場(chǎng)景下遇到的推理基礎(chǔ)設(shè)施挑戰(zhàn)與對(duì)應(yīng)解法。

報(bào)告透露,在每日數(shù)億次Coding Agent調(diào)用壓力下,部分用戶(hù)遭遇了GLM-5系列模型亂碼、復(fù)讀和生僻字等異常,這些現(xiàn)象在表面上與長(zhǎng)上下文場(chǎng)景下常見(jiàn)的“降智”相似,但智譜并未進(jìn)行降低模型精度的優(yōu)化,相關(guān)問(wèn)題主要由高并發(fā)、長(zhǎng)上下文的極端條件觸發(fā)。

通過(guò)數(shù)周排查,智譜鎖定了兩個(gè)底層競(jìng)態(tài)問(wèn)題:PD分離架構(gòu)下的KV Cache異步Abort引發(fā)顯存寫(xiě)入沖突,以及HiCache加載流水線(xiàn)缺少同步約束導(dǎo)致“數(shù)據(jù)未就緒即被讀取”。針對(duì)性修復(fù)后,相關(guān)異常發(fā)生率從約萬(wàn)分之十幾降至萬(wàn)分之三以下。

報(bào)告還公開(kāi)了智譜自研的KV Cache分層存儲(chǔ)方案LayerSplit,在Context Parallel場(chǎng)景下將單卡KV Cache顯存壓力大幅降低,實(shí)測(cè)系統(tǒng)吞吐提升10%至132%,且上下文越長(zhǎng)收益越大。

一、本地?zé)o法復(fù)現(xiàn),高壓才露頭:投機(jī)采樣指標(biāo)成“照妖鏡”

從今年3月起,智譜GLM-5出現(xiàn)了三類(lèi)異常:亂碼、復(fù)讀、生僻字。排查初期,智譜對(duì)線(xiàn)上異常案例做了本地回放,但未能復(fù)現(xiàn),說(shuō)明大概率不是模型問(wèn)題。進(jìn)一步模擬線(xiàn)上高壓環(huán)境后,在每萬(wàn)次請(qǐng)求中穩(wěn)定復(fù)現(xiàn)3-5次異常。這種“與內(nèi)容無(wú)關(guān)、與壓力相關(guān)的特征”,將問(wèn)題指向高負(fù)載下的推理狀態(tài)管理。

三類(lèi)異常中,復(fù)讀較易檢測(cè),亂碼和生僻字則難以用正則或模型判別高效覆蓋。分析推理日志后,智譜發(fā)現(xiàn)投機(jī)采樣指標(biāo)可作為重要參考:

投機(jī)采樣本為性能優(yōu)化而設(shè)計(jì):草稿模型生成draft token,目標(biāo)模型校驗(yàn)后決定是否接受,并記錄spec_accept_length與spec_accept_rate,從而在不改變最終輸出分布的前提下提升解碼效率。

針對(duì)亂碼/生僻字問(wèn)題,智譜發(fā)現(xiàn)spec_accept_length極低,draft token幾乎全被拒絕,表明KV Cache狀態(tài)存在顯著偏差。

針對(duì)復(fù)讀問(wèn)題,智譜發(fā)現(xiàn)spec_accept_rate偏高,損壞的KV Cache使注意力退化,陷入重復(fù)循環(huán)。

據(jù)此,智譜團(tuán)隊(duì)建立了在線(xiàn)監(jiān)控策略。將投機(jī)采樣從一項(xiàng)單純的性能優(yōu)化技術(shù),拓展為質(zhì)量監(jiān)控信號(hào)。

二、鎖定時(shí)序漏洞,兩個(gè)競(jìng)態(tài)Bug如何導(dǎo)致輸出異常

定位問(wèn)題后,智譜進(jìn)一步分析其原因。通過(guò)對(duì)請(qǐng)求生命周期以及推理引擎中PD分離執(zhí)行時(shí)序的分析,智譜發(fā)現(xiàn)該問(wèn)題源于請(qǐng)求生命周期與KV Cache回收與復(fù)用時(shí)序之間的不一致,從而引發(fā)的KV Cache復(fù)用沖突。


為消除上述問(wèn)題,智譜在推理引擎中引入了更嚴(yán)格的時(shí)序約束,在請(qǐng)求終止與KV Cache寫(xiě)入完成之間建立顯式同步關(guān)系。

這一問(wèn)題的具體修復(fù)方案是在Decode觸發(fā)Abort后通知Prefill側(cè),僅在RDMA未開(kāi)始或已完成時(shí)才允許回收復(fù)用,確保KV寫(xiě)入不跨越顯存復(fù)用邊界。修復(fù)后,異常發(fā)生率從萬(wàn)分之十幾降至萬(wàn)分之三以下。

智譜面臨的第二個(gè)bug與Coding Agent場(chǎng)景的特性有關(guān)。Coding Agent場(chǎng)景輸入長(zhǎng)、前綴復(fù)用率高,HiCache成為關(guān)鍵優(yōu)化。但KV Cache換入與計(jì)算重疊執(zhí)行時(shí),未保證數(shù)據(jù)加載完成后再使用。

為修復(fù)這一問(wèn)題,智譜在Indexer算子啟動(dòng)前引入同步點(diǎn),確保數(shù)據(jù)就緒后才啟動(dòng)計(jì)算。修復(fù)后,相關(guān)問(wèn)題完全消失,相關(guān)修復(fù)已提交至SGLang社區(qū)。


三、Prefill吞吐成瓶頸,LayerSplit讓吞吐最高漲132%

上述兩個(gè)問(wèn)題揭示了一個(gè)共同的系統(tǒng)瓶頸:在長(zhǎng)上下文的Coding Agent服務(wù)場(chǎng)景中,Prefill階段主導(dǎo)了系統(tǒng)性能。修復(fù)狀態(tài)一致性問(wèn)題后,核心挑戰(zhàn)回歸瓶頸本身,也就是如何提升Prefill吞吐、降低KV Cache顯存占用。為此,智譜團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了KV Cache分層存儲(chǔ)方案LayerSplit。

Coding Agent負(fù)載具有上下文長(zhǎng)、Prefix Cache命中率高的特征,使得Context Parallel(CP,上下文并行)成為Prefill節(jié)點(diǎn)的主要并行策略。然而,SGLang開(kāi)源實(shí)現(xiàn)中每張GPU保存全部層的KV Cache,冗余存儲(chǔ)導(dǎo)致顯存容量成為計(jì)算資源利用率的瓶頸。

LayerSplit方案的核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計(jì)算時(shí),持有某一層Cache的CP rank會(huì)在Attention計(jì)算前將其廣播給其他rank。


為進(jìn)一步減少開(kāi)銷(xiāo),智譜設(shè)計(jì)了KV Cache廣播與Indexer計(jì)算的重疊機(jī)制,使二者在時(shí)間上相互掩蓋。整個(gè)流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對(duì)性能影響可忽略。

實(shí)驗(yàn)結(jié)果表明,在Cache命中率90%的條件下,請(qǐng)求長(zhǎng)度從40k到120k區(qū)間內(nèi),系統(tǒng)吞吐量提升幅度在10%至132%之間,且上下文越長(zhǎng)收益越顯著。


該優(yōu)化從架構(gòu)層面緩解了Prefill側(cè)的顯存瓶頸,與此前兩項(xiàng)BugFix共同構(gòu)成了一套完整的推理基礎(chǔ)設(shè)施優(yōu)化方案,提升了智譜GLM-5在Coding Agent場(chǎng)景下的服務(wù)能力。

結(jié)語(yǔ):輸出質(zhì)量成高并發(fā)長(zhǎng)上下文場(chǎng)景新痛點(diǎn)

高并發(fā)長(zhǎng)上下文場(chǎng)景下,推理基礎(chǔ)設(shè)施的挑戰(zhàn)已不止于吞吐和延遲,輸出質(zhì)量同樣不可忽視。智譜此次公開(kāi)的技術(shù)細(xì)節(jié),從異常識(shí)別方法、兩個(gè)競(jìng)態(tài)Bug的定位與修復(fù),到LayerSplit顯存優(yōu)化,構(gòu)成了一套相對(duì)完整的排查與優(yōu)化鏈路。

對(duì)于同樣在大規(guī)模部署推理服務(wù)的團(tuán)隊(duì)而言,這份報(bào)告在故障復(fù)現(xiàn)、指標(biāo)選型、架構(gòu)層面的時(shí)序一致性等方面提供了可參考的實(shí)踐經(jīng)驗(yàn)。智譜將這些經(jīng)驗(yàn)公開(kāi)分享,客觀上為社區(qū)填補(bǔ)了部分長(zhǎng)上下文推理場(chǎng)景下的工程資料空白。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊能靜被偶遇,穿緊身裙胯大腰粗,與秦昊十指緊扣像小女人

伊能靜被偶遇,穿緊身裙胯大腰粗,與秦昊十指緊扣像小女人

仙味少女心
2026-04-29 20:44:51
一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

川渝視覺(jué)
2026-04-25 20:19:24
5月1日起,這抽煙買(mǎi)煙的習(xí)慣再不改,錢(qián)包真要“大出血”了!

5月1日起,這抽煙買(mǎi)煙的習(xí)慣再不改,錢(qián)包真要“大出血”了!

瓜哥的動(dòng)物日記
2026-04-30 18:11:01
ChatGPT卸載暴漲413%,Claude下載激增100%!奧特曼帝國(guó)開(kāi)始漏水了

ChatGPT卸載暴漲413%,Claude下載激增100%!奧特曼帝國(guó)開(kāi)始漏水了

新智元
2026-04-30 17:24:46
CBA各俱樂(lè)部下賽季合同到期球員,各隊(duì)趕緊下手吧

CBA各俱樂(lè)部下賽季合同到期球員,各隊(duì)趕緊下手吧

男足的小球童
2026-04-30 17:00:56
吃蘭州拉面的人為什么越來(lái)越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說(shuō)錯(cuò)話(huà)

吃蘭州拉面的人為什么越來(lái)越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說(shuō)錯(cuò)話(huà)

另子維愛(ài)讀史
2026-02-27 20:31:34
五萬(wàn)億江蘇銀行新掌門(mén):沒(méi)有“躺贏”可能也沒(méi)有“躺平”捷徑

五萬(wàn)億江蘇銀行新掌門(mén):沒(méi)有“躺贏”可能也沒(méi)有“躺平”捷徑

南方都市報(bào)
2026-04-29 14:56:08
每集都像X片,這末世神劇看得毛骨悚然!

每集都像X片,這末世神劇看得毛骨悚然!

君君電影院
2026-04-22 23:44:55
44歲任家萱近況曝光!與張承中離婚已經(jīng)10年,如今未婚生子很幸福

44歲任家萱近況曝光!與張承中離婚已經(jīng)10年,如今未婚生子很幸福

代軍哥哥談娛樂(lè)
2026-04-29 08:26:15
電磁爐為啥悄無(wú)聲息退出中國(guó)家庭??jī)?nèi)行人透底玄機(jī),看完徹底懂了

電磁爐為啥悄無(wú)聲息退出中國(guó)家庭??jī)?nèi)行人透底玄機(jī),看完徹底懂了

老特有話(huà)說(shuō)
2026-04-30 11:36:13
國(guó)家為何保留廢棄鐵路?你以為的垃圾,其實(shí)是國(guó)家的“底牌”!

國(guó)家為何保留廢棄鐵路?你以為的垃圾,其實(shí)是國(guó)家的“底牌”!

無(wú)情有思ss
2026-04-30 01:54:20
追覓干得漂亮!發(fā)布會(huì)開(kāi)到硅谷,更把航天精密技術(shù)用到家用空調(diào)上

追覓干得漂亮!發(fā)布會(huì)開(kāi)到硅谷,更把航天精密技術(shù)用到家用空調(diào)上

瞰瞰數(shù)碼
2026-04-30 23:10:56
西蒙尼:當(dāng)我看到5-4的比分,我會(huì)想他們進(jìn)了五個(gè)也丟了四個(gè)

西蒙尼:當(dāng)我看到5-4的比分,我會(huì)想他們進(jìn)了五個(gè)也丟了四個(gè)

懂球帝
2026-04-30 07:42:01
湖人輸火箭,賽后收4好1壞消息,罪魁禍?zhǔn)撞皇撬柜R特,而是肯納德

湖人輸火箭,賽后收4好1壞消息,罪魁禍?zhǔn)撞皇撬柜R特,而是肯納德

鯨探所長(zhǎng)
2026-04-30 16:54:22
東方甄選YOYO評(píng)論區(qū)淪陷,拒絕跟風(fēng)石明裸辭,保住高薪工作才精明

東方甄選YOYO評(píng)論區(qū)淪陷,拒絕跟風(fēng)石明裸辭,保住高薪工作才精明

小徐講八卦
2026-04-29 06:03:38
她一生僅一首詩(shī),卻可拆成7958首,被譽(yù)為千古第一奇詩(shī)

她一生僅一首詩(shī),卻可拆成7958首,被譽(yù)為千古第一奇詩(shī)

掠影后有感
2026-03-17 10:32:57
火箭新替補(bǔ)三人組真好用!合砍18分,攻守兼?zhèn)?,上?chǎng)能鞏固住優(yōu)勢(shì)

火箭新替補(bǔ)三人組真好用!合砍18分,攻守兼?zhèn)洌蠄?chǎng)能鞏固住優(yōu)勢(shì)

籃球資訊達(dá)人
2026-04-30 14:31:51
旁觀者冷眼觀察:60萬(wàn)長(zhǎng)江電力小股東是冤大頭,到底是多冤的大頭

旁觀者冷眼觀察:60萬(wàn)長(zhǎng)江電力小股東是冤大頭,到底是多冤的大頭

風(fēng)風(fēng)順
2026-02-20 03:10:03
升級(jí)版的仙人跳,比戴綠帽子還憋屈

升級(jí)版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
華工科技:1.6T FRO、1.6T LRO光模塊產(chǎn)品正在海外客戶(hù)送樣測(cè)試

華工科技:1.6T FRO、1.6T LRO光模塊產(chǎn)品正在海外客戶(hù)送樣測(cè)試

每日經(jīng)濟(jì)新聞
2026-04-30 19:32:42
2026-04-30 23:59:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專(zhuān)注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)變革。
11741文章數(shù) 117059關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開(kāi)大"有需要盡管敲"

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開(kāi)大"有需要盡管敲"

體育要聞

季后賽場(chǎng)均5.4分,他憑啥在騎士打首發(fā)?

娛樂(lè)要聞

孫楊博士學(xué)歷有問(wèn)題?官方含糊其辭

財(cái)經(jīng)要聞

易會(huì)滿(mǎn)被“雙開(kāi)”!

汽車(chē)要聞

專(zhuān)訪(fǎng)捷途汪如生:捷途雙線(xiàn)作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

教育
親子
本地
公開(kāi)課
軍事航空

教育要聞

事關(guān)高中教輔,市教委最新要求來(lái)了

親子要聞

4月30日,國(guó)際不打小孩日,今天請(qǐng)緊急收住巴掌,放過(guò)家里的小孩,也放過(guò)崩潰的自己

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

意大利議會(huì)批準(zhǔn):捐贈(zèng)航母給印度尼西亞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版