国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別Demo、真正跑進生產(chǎn),華為新框架把Agent端到端效率拉升2.5倍

0
分享至



大模型 Agent 正在從 Demo 走向生產(chǎn):多輪推理、工具調用、長上下文記憶、并發(fā)會話同時運行…… 但也正是在這些「真實工作流」里,很多看似先進的推理加速在落地時會失效:單步推理快了,端到端卻更慢;吞吐更高了,高并發(fā)下卻開始抖動;壓縮了上下文,Agent 反而更容易迷路、回合數(shù)暴漲。

華為諾亞方舟實驗室、先進計算與存儲實驗室聯(lián)合在最新工作中提出了AgentInfer:一個面向工業(yè) Agent 的端到端加速框架,把「推理架構設計」和「推理服務系統(tǒng)」放在一起協(xié)同優(yōu)化。

它不是某個單點技巧,而是一套可拆可合的系統(tǒng)化方案:每個模塊單獨啟用都有收益,組合在一起仍能疊加,并且在高并發(fā)、多會話、長上下文的真實負載下依然 work。



  • 論文標題:Towards Efficient Agents: A Co-Design of Inference Architecture and System
  • arXiv 鏈接:https://arxiv.org/pdf/2512.18337

為什么 Agent 的「加速」必須從端到端出發(fā)?

在傳統(tǒng) LLM 服務里,我們習慣用 tokens/s、單次延遲來衡量優(yōu)化。但 Agent 的本質是一個持續(xù)運行的Think–Act–Observe循環(huán):

  • 每次 Think 都要帶著越來越長的上下文;
  • Act/Observe 會引入異構工具延遲與并行請求;
  • 一旦某一步質量下降,就會觸發(fā)糾錯、重試、冗余搜索,導致回合數(shù)上升、總體更慢。

團隊在分析中總結了 Agent 場景的三個典型「工業(yè)坑」:

1. 量化陷阱:單步更快但精度更差,觸發(fā)大量自我修復回路,端到端時間反而上升。



2. 文本總結不靠譜:大量的研究工作展示可以通過對過程信息總結來進行 token 壓縮,但是本文的實測發(fā)現(xiàn),很多場景中引入總結后單輪變短了,但是整體輪次變多了,甚至降低了精度。



3. 記憶持久性瓶頸(KV-cache):高并發(fā)下,常見的短作業(yè)優(yōu)先(SJF)會頻繁淘汰長上下文會話的 KV-cache,導致下一輪被迫重算大段 prefill,延遲尖刺明顯,系統(tǒng)吞吐和穩(wěn)定性一起掉。



結論很直接:Agent 的效率不是「每步快一點」,而是「更少的無效回合、更少的重算、更高的跨輪次復用」。

AgentInfer:四個可獨立部署、可疊加增益的模塊

AgentInfer 把 Agent 的端到端瓶頸拆成四類問題,并給出四個互補模塊。它們分別作用在不同層次:有的減少「用大模型的次數(shù)」,有的控制「上下文變長」,有的提升「并發(fā)下的緩存命中」,有的加速「token 級生成」。



1)AgentCollab:難度感知的大小模型協(xié)作(少用大模型,但不掉質量)

核心思路是把常規(guī)工作交給小模型,把關鍵規(guī)劃與卡住的推理交給大模型。關鍵不在「靜態(tài)分工」,而在一個結構化的Progress Check 自評機制:每一步判斷「是否取得實質進展」,若停滯則升級到大模型救場;恢復進展后再降級回小模型繼續(xù)跑。

這讓系統(tǒng)在工業(yè)場景里更「像人」:多數(shù)時間用便宜模型推進流程,只有在真的困難段落才調用昂貴模型,從而在質量與成本之間更接近 Pareto 最優(yōu)。

2)AgentCompress:語義壓縮與異步蒸餾(壓縮不等于刪記憶)



真實的深度研究 / 搜索型 Agent,上下文很快被搜索結果、網(wǎng)頁內(nèi)容、工具輸出撐爆,序列長度飆升帶來注意力成本激增。AgentCompress 做兩件事:

  • 搜索結果過濾排序:先用輕量模型把 URL / 摘要排序剪枝,減少無關內(nèi)容進入后續(xù)爬蟲與文檔問答,降低并行工具調用壓力。
  • 異步上下文蒸餾:壓縮工具輸出等「環(huán)境交互記憶」,但關鍵是保留推理軌跡(reasoning memory)。團隊觀察到:只保留壓縮后的環(huán)境信息會讓 Agent 「失憶」,無法判斷是否完成任務,導致回合數(shù)暴漲;保留推理軌跡才能維持認知連續(xù)性,壓縮才真正帶來端到端收益。

這也是工業(yè)落地里非常實用的一點:壓縮必須服務于「少走彎路」,而不是只追求「prompt 變短」。

3)AgentSched:KV-cache 感知的混合調度(高并發(fā)下依然穩(wěn)定)



在多會話并發(fā)中,短請求和超長上下文請求會同時出現(xiàn)。純 FCFS 會被長請求阻塞,純 SJF 又會犧牲長會話的 KV-cache 持久性,導致反復重算前綴、延遲尖刺。

AgentSched 引入一個可解釋的控制信號(shadow-price),在「優(yōu)先短請求低延遲」和「優(yōu)先高 KV 復用」之間自適應切換:

  • 緩存寬松時更像 SJF,快速響應短請求;
  • 緩存緊張時更偏 KV-aware,保護長會話上下文,減少昂貴 prefill 重算。

這解決的是「工業(yè)高并發(fā)下仍然 work」的關鍵:不是某一次跑得快,而是在壓力上來時系統(tǒng)不抖、不崩、吞吐還能上去。

4)AgentSAM:跨會話投機解碼(把「重復模式」變成真加速)

Agent 推理中常出現(xiàn)高重復:同一任務多輪反復提問、相似用戶請求復用模板、檢索證據(jù)被多次引用。AgentSAM 用后綴自動機(SAM)把當前會話與語義相似的歷史會話組合起來,為投機解碼提供更高命中率的草稿;同時用異步構建避免長上下文下 SAM 構建阻塞首 token 延遲,并帶有自適應開關:當 batch 太大、投機收益變差時自動回退,避免「為了投機而投機」。

工業(yè)可用性的證據(jù):高并發(fā)下 QPS 仍能持續(xù)提升

在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基準上,我們把四個模塊集成到同一套服務棧中進行端到端評估。



結果顯示兩點:

1)它不是實驗室「單請求優(yōu)化」,而是高并發(fā)下依然能跑的系統(tǒng)

在并發(fā)會話數(shù)提升時(例如從 4 提升到 16),系統(tǒng)仍然能穩(wěn)定獲得收益,QPS 提升可達 2.52×。這意味著優(yōu)化不僅對單次推理有效,更能在資源爭用、緩存壓力、長短請求混合的真實負載里保持穩(wěn)定。

2)它不是「只能全套上」,而是模塊化、可組合、增益可疊加

團隊做了逐步疊加實驗:

  • 只上 AgentCollab 就有提升;
  • 再加 AgentCompress、AgentSched,收益繼續(xù)增長;
  • 最后加 AgentSAM,整體進一步提升(并且在高并發(fā)下會根據(jù)收益自動啟停投機,避免副作用)。

這正是 AgentInfer 的設計目標:每個組件解決一類確定的工業(yè)瓶頸;組合起來仍能協(xié)同增益,而不是相互抵消。

寫在最后:Agent 的效率問題,本質是「系統(tǒng)問題」

AgentInfer 想強調的并不是「把某個指標卷到極致」,而是一個更現(xiàn)實的工程結論:

真正能落地的 Agent 加速,必須同時優(yōu)化推理架構與推理系統(tǒng),并且以端到端任務完成為目標。

團隊在實驗中觀察到:AgentInfer 能將無效 token 消耗降低50%+,實現(xiàn)1.8×–2.5×的端到端加速,同時保持任務準確率穩(wěn)定。

當 Agent 進入生產(chǎn)環(huán)境,決定體驗的往往不是單步 tokens/s,而是「少走彎路、少重算、抗并發(fā)」。這也是我們把 AgentInfer 定位為一套Self-Evolution Engine(自演進引擎)的原因:它讓 Agent 在長周期任務與高并發(fā)環(huán)境中,依然保持效率與認知穩(wěn)定。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
坎通納:我希望制定一項國際法,發(fā)動戰(zhàn)爭的總統(tǒng)需第一個上前線

坎通納:我希望制定一項國際法,發(fā)動戰(zhàn)爭的總統(tǒng)需第一個上前線

懂球帝
2026-03-13 14:28:30
72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財經(jīng)
2026-02-22 10:38:14
50年制裁致3800萬人死亡 美知名學者:“美國極其殘酷無情”

50年制裁致3800萬人死亡 美知名學者:“美國極其殘酷無情”

新華社
2026-03-13 15:50:16
安徽省紀委監(jiān)委通報:鐘巖、王守俊、劉明權被查!

安徽省紀委監(jiān)委通報:鐘巖、王守俊、劉明權被查!

鳳凰網(wǎng)安徽
2026-03-14 16:57:29
突發(fā)公告!董事長葉文光、總經(jīng)理陳凱,全被立案

突發(fā)公告!董事長葉文光、總經(jīng)理陳凱,全被立案

新浪財經(jīng)
2026-03-14 11:08:41
悲哀!老兩口先后去世,兒女迅速賣房,鄰居感慨他們快速徹底消失

悲哀!老兩口先后去世,兒女迅速賣房,鄰居感慨他們快速徹底消失

火山詩話
2026-03-13 06:36:11
特朗普失算了,開戰(zhàn)第十天,除了俄羅斯,又有一個強國選擇了伊朗

特朗普失算了,開戰(zhàn)第十天,除了俄羅斯,又有一個強國選擇了伊朗

鐵錘簡科
2026-03-10 14:18:24
杭州洋蔥頂整改大快人心!國法大于教規(guī),誰敢搞特殊絕不容忍

杭州洋蔥頂整改大快人心!國法大于教規(guī),誰敢搞特殊絕不容忍

眼界看視野
2026-03-13 11:41:20
12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

就一點
2026-03-08 23:09:47
伊拉克巴格達機場內(nèi)美使館專用跑道遭火箭彈襲擊

伊拉克巴格達機場內(nèi)美使館專用跑道遭火箭彈襲擊

財聯(lián)社
2026-03-14 14:27:06
連續(xù)5個漲停板!股民:新的妖股要出山了!

連續(xù)5個漲停板!股民:新的妖股要出山了!

數(shù)據(jù)挖掘分析
2026-03-14 14:40:51
朝鮮不忍了!日本增兵挑釁,同時得罪中俄兩大鄰居

朝鮮不忍了!日本增兵挑釁,同時得罪中俄兩大鄰居

聽風50
2026-03-14 15:48:18
延長供暖!河南多地明確

延長供暖!河南多地明確

大象新聞
2026-03-14 12:13:08
上個月去了次河南駐馬店,我實話實說:當?shù)厝说乃刭|徹底顛覆認

上個月去了次河南駐馬店,我實話實說:當?shù)厝说乃刭|徹底顛覆認

天氣觀察站
2026-03-14 10:44:33
25歲福登徹底迷失:3個月球荒+歐冠坐冷板凳,1.5億身價攔腰跌!

25歲福登徹底迷失:3個月球荒+歐冠坐冷板凳,1.5億身價攔腰跌!

田先生籃球
2026-03-13 15:45:46
離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

火山詩話
2026-03-12 08:48:15
暴跌73%!價格大跳水!

暴跌73%!價格大跳水!

東莞好生活
2026-03-14 09:40:36
連夜通告全球后,特朗普急喊話中國!他的計劃是,從中國大賺一筆

連夜通告全球后,特朗普急喊話中國!他的計劃是,從中國大賺一筆

娛樂的宅急便
2026-03-14 15:45:11
孫立人遺骸將遷回大陸,國臺辦未作表態(tài),其中究竟有何隱情?

孫立人遺骸將遷回大陸,國臺辦未作表態(tài),其中究竟有何隱情?

文史明鑒
2026-02-15 10:45:17
5年才發(fā)現(xiàn)兩家孩子被抱錯,雙方含淚換子,可孩子的話卻讓人心疼

5年才發(fā)現(xiàn)兩家孩子被抱錯,雙方含淚換子,可孩子的話卻讓人心疼

阿紵美食
2026-03-12 17:12:17
2026-03-14 17:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12497文章數(shù) 142585關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

家居
親子
房產(chǎn)
手機
健康

家居要聞

藝術之家 法式優(yōu)雅

親子要聞

把添加劑當嬰幼兒消化酶賣,這錢賺得太黑心 | 新京報快評

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

手機要聞

蘋果50周年慶典首站紐約:庫克親臨,iPhone 17 Pro實況記錄

轉頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關懷版