国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型“降智”真相,找到了

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西4月30日報道,今天,智譜發(fā)布了一篇名為《Scaling Pain:超大規(guī)模Coding Agent推理實踐》的技術(shù)報告,披露了GLM-5系列模型在Coding Agent場景下遇到的推理基礎設施挑戰(zhàn)與對應解法。

報告透露,在每日數(shù)億次Coding Agent調(diào)用壓力下,部分用戶遭遇了GLM-5系列模型亂碼、復讀和生僻字等異常,這些現(xiàn)象在表面上與長上下文場景下常見的“降智”相似,但智譜并未進行降低模型精度的優(yōu)化,相關(guān)問題主要由高并發(fā)、長上下文的極端條件觸發(fā)。

通過數(shù)周排查,智譜鎖定了兩個底層競態(tài)問題:PD分離架構(gòu)下的KV Cache異步Abort引發(fā)顯存寫入沖突,以及HiCache加載流水線缺少同步約束導致“數(shù)據(jù)未就緒即被讀取”。針對性修復后,相關(guān)異常發(fā)生率從約萬分之十幾降至萬分之三以下。

報告還公開了智譜自研的KV Cache分層存儲方案LayerSplit,在Context Parallel場景下將單卡KV Cache顯存壓力大幅降低,實測系統(tǒng)吞吐提升10%至132%,且上下文越長收益越大。

一、本地無法復現(xiàn),高壓才露頭:投機采樣指標成“照妖鏡”

從今年3月起,智譜GLM-5出現(xiàn)了三類異常:亂碼、復讀、生僻字。排查初期,智譜對線上異常案例做了本地回放,但未能復現(xiàn),說明大概率不是模型問題。進一步模擬線上高壓環(huán)境后,在每萬次請求中穩(wěn)定復現(xiàn)3-5次異常。這種“與內(nèi)容無關(guān)、與壓力相關(guān)的特征”,將問題指向高負載下的推理狀態(tài)管理。

三類異常中,復讀較易檢測,亂碼和生僻字則難以用正則或模型判別高效覆蓋。分析推理日志后,智譜發(fā)現(xiàn)投機采樣指標可作為重要參考:

投機采樣本為性能優(yōu)化而設計:草稿模型生成draft token,目標模型校驗后決定是否接受,并記錄spec_accept_length與spec_accept_rate,從而在不改變最終輸出分布的前提下提升解碼效率。

針對亂碼/生僻字問題,智譜發(fā)現(xiàn)spec_accept_length極低,draft token幾乎全被拒絕,表明KV Cache狀態(tài)存在顯著偏差。

針對復讀問題,智譜發(fā)現(xiàn)spec_accept_rate偏高,損壞的KV Cache使注意力退化,陷入重復循環(huán)。

據(jù)此,智譜團隊建立了在線監(jiān)控策略。將投機采樣從一項單純的性能優(yōu)化技術(shù),拓展為質(zhì)量監(jiān)控信號。

二、鎖定時序漏洞,兩個競態(tài)Bug如何導致輸出異常

定位問題后,智譜進一步分析其原因。通過對請求生命周期以及推理引擎中PD分離執(zhí)行時序的分析,智譜發(fā)現(xiàn)該問題源于請求生命周期與KV Cache回收與復用時序之間的不一致,從而引發(fā)的KV Cache復用沖突。


為消除上述問題,智譜在推理引擎中引入了更嚴格的時序約束,在請求終止與KV Cache寫入完成之間建立顯式同步關(guān)系。

這一問題的具體修復方案是在Decode觸發(fā)Abort后通知Prefill側(cè),僅在RDMA未開始或已完成時才允許回收復用,確保KV寫入不跨越顯存復用邊界。修復后,異常發(fā)生率從萬分之十幾降至萬分之三以下。

智譜面臨的第二個bug與Coding Agent場景的特性有關(guān)。Coding Agent場景輸入長、前綴復用率高,HiCache成為關(guān)鍵優(yōu)化。但KV Cache換入與計算重疊執(zhí)行時,未保證數(shù)據(jù)加載完成后再使用。

為修復這一問題,智譜在Indexer算子啟動前引入同步點,確保數(shù)據(jù)就緒后才啟動計算。修復后,相關(guān)問題完全消失,相關(guān)修復已提交至SGLang社區(qū)。


三、Prefill吞吐成瓶頸,LayerSplit讓吞吐最高漲132%

上述兩個問題揭示了一個共同的系統(tǒng)瓶頸:在長上下文的Coding Agent服務場景中,Prefill階段主導了系統(tǒng)性能。修復狀態(tài)一致性問題后,核心挑戰(zhàn)回歸瓶頸本身,也就是如何提升Prefill吞吐、降低KV Cache顯存占用。為此,智譜團隊設計并實現(xiàn)了KV Cache分層存儲方案LayerSplit。

Coding Agent負載具有上下文長、Prefix Cache命中率高的特征,使得Context Parallel(CP,上下文并行)成為Prefill節(jié)點的主要并行策略。然而,SGLang開源實現(xiàn)中每張GPU保存全部層的KV Cache,冗余存儲導致顯存容量成為計算資源利用率的瓶頸。

LayerSplit方案的核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計算時,持有某一層Cache的CP rank會在Attention計算前將其廣播給其他rank。


為進一步減少開銷,智譜設計了KV Cache廣播與Indexer計算的重疊機制,使二者在時間上相互掩蓋。整個流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對性能影響可忽略。

實驗結(jié)果表明,在Cache命中率90%的條件下,請求長度從40k到120k區(qū)間內(nèi),系統(tǒng)吞吐量提升幅度在10%至132%之間,且上下文越長收益越顯著。


該優(yōu)化從架構(gòu)層面緩解了Prefill側(cè)的顯存瓶頸,與此前兩項BugFix共同構(gòu)成了一套完整的推理基礎設施優(yōu)化方案,提升了智譜GLM-5在Coding Agent場景下的服務能力。

結(jié)語:輸出質(zhì)量成高并發(fā)長上下文場景新痛點

高并發(fā)長上下文場景下,推理基礎設施的挑戰(zhàn)已不止于吞吐和延遲,輸出質(zhì)量同樣不可忽視。智譜此次公開的技術(shù)細節(jié),從異常識別方法、兩個競態(tài)Bug的定位與修復,到LayerSplit顯存優(yōu)化,構(gòu)成了一套相對完整的排查與優(yōu)化鏈路。

對于同樣在大規(guī)模部署推理服務的團隊而言,這份報告在故障復現(xiàn)、指標選型、架構(gòu)層面的時序一致性等方面提供了可參考的實踐經(jīng)驗。智譜將這些經(jīng)驗公開分享,客觀上為社區(qū)填補了部分長上下文推理場景下的工程資料空白。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強3D就是他

誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強3D就是他

球毛鬼胎
2026-05-06 19:53:11
賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實是AI生成

賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實是AI生成

紅星新聞
2026-05-06 15:47:36
毛主席的壓力,到底有多大?放眼全球,無人能比!

毛主席的壓力,到底有多大?放眼全球,無人能比!

溫讀史
2026-05-05 15:56:05
她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

以茶帶書
2026-05-05 16:57:12
52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

一盅情懷
2026-05-06 10:52:19
國乒女團變陣沖8強!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

國乒女團變陣沖8強!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

劉姚堯的文字城堡
2026-05-06 19:00:40
男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

蝴蝶花雨話教育
2026-05-06 00:20:05
合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

國籃會自強
2026-05-06 19:41:11
終身不讓吸,史上最嚴禁煙來了

終身不讓吸,史上最嚴禁煙來了

南風窗
2026-05-06 15:24:30
段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

呆子的故事
2026-02-10 14:44:11
次輪8支球隊全部亮相,具備奪冠實力的只有2隊,騎士馬刺希望不大

次輪8支球隊全部亮相,具備奪冠實力的只有2隊,騎士馬刺希望不大

毒舌NBA
2026-05-06 14:06:31
002731、688121,被證監(jiān)會立案!

002731、688121,被證監(jiān)會立案!

證券時報e公司
2026-05-06 19:57:07
筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

觀察者海風
2026-05-06 18:00:11
斯內(nèi)德打趣:歐足聯(lián)應直接把拜仁和巴黎的比賽設置成歐冠決賽

斯內(nèi)德打趣:歐足聯(lián)應直接把拜仁和巴黎的比賽設置成歐冠決賽

懂球帝
2026-05-06 08:13:34
波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

體壇周報
2026-05-06 10:36:14
威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

齊魯壹點
2026-05-06 18:07:39
秦昊真坦誠?。汉鸵聊莒o結(jié)婚時,她卡里有6000萬,我就20萬

秦昊真坦誠?。汉鸵聊莒o結(jié)婚時,她卡里有6000萬,我就20萬

阿廢冷眼觀察所
2026-05-06 15:16:12
倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強,王楚欽拿2分,梁靖崑輸球

倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強,王楚欽拿2分,梁靖崑輸球

國乒二三事
2026-05-06 19:10:53
50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

侃球熊弟
2026-05-06 01:24:34
上千噸香蕉爛在手里,菲律賓香蕉協(xié)會:中國斷了30萬蕉農(nóng)的生計!

上千噸香蕉爛在手里,菲律賓香蕉協(xié)會:中國斷了30萬蕉農(nóng)的生計!

據(jù)說說娛樂
2026-05-06 14:56:48
2026-05-06 20:32:50
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

游戲
本地
藝術(shù)
房產(chǎn)
公開課

《生化危機9》大量廢案曝光 里昂有8項身體強化

本地新聞

用青花瓷的方式,打開西溪濕地

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

房產(chǎn)要聞

遙遙領先!這個澄邁頂流紅盤,憑什么持續(xù)霸榜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版