讓AI越用越聰明——斯坦福這篇ICLR論文讓微調(diào)信仰開始動搖

2026-02-25 21:47:04　來源: 至頂AI實驗室

北京舉報

分享至

這是一篇來自斯坦福大學(xué)、SambaNova Systems與UC Berkeley的聯(lián)合研究，標(biāo)題叫《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》，中文可以譯作"智能體上下文工程：為自我進(jìn)化的語言模型構(gòu)建動態(tài)語境"。

論文的核心主張只有一句話：與其修改模型的權(quán)重，不如讓模型的"記憶"越來越好用。發(fā)表后，這篇論文在AI社區(qū)引發(fā)了不小的討論，甚至有工程師直接喊出"微調(diào)已死"。原因在于，他們用一個更小的開源模型，通過這套方法，在公開榜單上追平了IBM用GPT-4.1構(gòu)建的生產(chǎn)級智能體——而且沒有花一分錢去做微調(diào)。

這個結(jié)果足夠令人吃驚，值得認(rèn)真拆解一遍。

先說一個被低估的問題：上下文工程

在深入ACE之前，需要先厘清一個術(shù)語：上下文適配（Context Adaptation），或者更通俗地說，"上下文工程"。

對LLM來說，提升性能有兩條路：一條是改模型本身，也就是微調(diào)（fine-tuning）；另一條是改模型的輸入，也就是往prompt里塞更好的指令、策略、示例、領(lǐng)域知識。后者就是上下文工程。

這條路并不新鮮。每個認(rèn)真做過RAG、寫過system prompt、調(diào)過few-shot的工程師都在無意識地做上下文工程。它的優(yōu)勢顯而易見：不需要動模型權(quán)重，改起來快、看得見、可以隨時回滾。

但它的天花板在哪里？

研究者在論文里指出了兩個老對手從未解決的根本缺陷。

第一個：簡潔偏差（Brevity Bias）。現(xiàn)有的提示優(yōu)化方法，比如GEPA，傾向于把上下文壓縮成簡短的通用指令。這在某些場景里夠用，但在需要大量領(lǐng)域知識的任務(wù)里，把"當(dāng)分頁API返回為空時停止循環(huán)"這類具體的工程經(jīng)驗濃縮成"請注意API規(guī)范"，就等于把最有價值的東西扔掉了。

第二個：上下文崩塌（Context Collapse）。這個現(xiàn)象更危險。當(dāng)讓一個LLM在每次更新時全量重寫上下文，隨著內(nèi)容越來越多，模型會傾向于把它壓縮成更短的摘要。論文里給出了一個實測數(shù)據(jù)：在AppWorld基準(zhǔn)測試的第60步，上下文里有18,282個token，準(zhǔn)確率達(dá)到66.7。但下一步，LLM全量重寫后，上下文直接塌縮到了122個token，準(zhǔn)確率跌到57.1，比什么都不做（基準(zhǔn)線63.7）還要差。一次重寫，把60步積累的所有經(jīng)驗清零了。

這就是ACE要解決的核心問題。

ACE的核心思路：把上下文當(dāng)成一本會生長的手冊

ACE的設(shè)計哲學(xué)可以用一句話概括："上下文不是摘要，而是劇本（playbook）。"

背后有一個關(guān)鍵判斷——人類和LLM的處理習(xí)慣恰好相反。人類喜歡高度濃縮的信息，靠背景知識和直覺填補(bǔ)空白；而LLM在接收詳細(xì)、具體、豐富的上下文時，表現(xiàn)往往更好，它們有能力在推理時自己判斷哪些內(nèi)容有用。

所以，與其幫LLM"提煉"，不如幫它"積累"。

ACE的架構(gòu)由三個角色協(xié)同完成：

Generator（生成器）執(zhí)行實際任務(wù)，產(chǎn)出推理軌跡——哪些步驟走通了，哪些報錯了，哪些API用錯了，完整記錄。

Reflector（反思器）拿著這份軌跡做診斷。它會分析哪里出了問題，為什么出問題，正確做法應(yīng)該是什么，并提煉出"關(guān)鍵洞察"。它還會對劇本里現(xiàn)有的每個知識條目打標(biāo)簽：這次有沒有幫上忙？

Curator（整理器）把反思器的輸出轉(zhuǎn)化為結(jié)構(gòu)化的"增量條目"（delta entries），然后用非LLM的確定性邏輯合并進(jìn)劇本。合并、去重、修改計數(shù)器——全部不需要再跑一次大模型。

這里有一個細(xì)節(jié)值得注意：Curator在合并時用的是代碼邏輯，而不是讓LLM重寫整個劇本。這直接消除了上下文崩塌的根源。更新是原子的、局部的，過去積累的內(nèi)容不會因為一次新的迭代而消失。

增量更新與"生長再精煉"機(jī)制

ACE的防崩塌設(shè)計有兩個具體機(jī)制，值得展開說。

增量delta更新：劇本由一條條帶ID的知識條目（bullets）組成，每個條目記錄著它被標(biāo)記為"有用"和"有害"的次數(shù)。新的經(jīng)驗只會追加或修改已有條目，不會觸發(fā)全量重寫。多個增量可以并行處理，然后一次性合并——這也是為什么ACE的延遲能大幅低于傳統(tǒng)方法。

生長再精煉（Grow-and-Refine）：劇本會持續(xù)變長，但這不能無限膨脹。ACE用語義嵌入做相似度比較，把語義相近的條目合并或去重。這個精煉操作可以主動觸發(fā)（每次delta之后），也可以懶觸發(fā)（只有當(dāng)上下文窗口快撐不住了才運行）。

論文里展示了一個AppWorld生成的劇本樣例，里面分成"策略與硬規(guī)則"、"可用代碼片段與模板"、"故障排查與陷阱"三個板塊。比如其中一條寫道：如果身份驗證失敗，按順序嘗試用手機(jī)號而非郵箱作為用戶名，清除supervisor里的憑證，查閱API文檔確認(rèn)正確參數(shù)，不要使用變通方法（workaround）。

這不是一條抽象的"注意認(rèn)證問題"，而是一條可以直接指導(dǎo)下一次操作的具體經(jīng)驗。這正是ACE與之前方法的本質(zhì)區(qū)別。

實驗結(jié)果：更小的模型，頂尖的成績

研究團(tuán)隊在兩類任務(wù)上做了系統(tǒng)評測。

智能體基準(zhǔn)（AppWorld）：這是一個要求LLM通過Python代碼調(diào)用API、完成日常任務(wù)的復(fù)雜環(huán)境，包含郵件、文件系統(tǒng)、音樂、支付等場景。任務(wù)分"普通"和"挑戰(zhàn)"兩個難度級別，公開榜單上有來自工業(yè)界的對標(biāo)系統(tǒng)。

在離線適配（先用訓(xùn)練集優(yōu)化劇本，再在測試集上評估）的設(shè)置下，ReAct + ACE的平均準(zhǔn)確率達(dá)到59.4%，而ICL基準(zhǔn)線是46.0%，GEPA是46.4%，提升幅度接近13個百分點。在線適配（邊測試邊更新劇本）的設(shè)置下，ACE達(dá)到59.5%，比Dynamic Cheatsheet高出7.6個點。

更重要的比較來自公開榜單快照（2025年9月20日）。榜首是IBM的CUGA，使用GPT-4.1，平均準(zhǔn)確率60.3%。ACE使用的是DeepSeek-V3.1（一個更小的開源模型），平均59.4%，基本持平。在更難的test-challenge分項上，ACE的TGC（任務(wù)目標(biāo)完成率）比CUGA高8.4個百分點。

金融領(lǐng)域基準(zhǔn)（FiNER + Formula）：這兩個任務(wù)要求對XBRL格式的財務(wù)文件做實體識別和數(shù)值推理，需要大量金融領(lǐng)域的專門知識。有標(biāo)注監(jiān)督時，ACE在FiNER上比基線提升7.6個點，在Formula上提升高達(dá)18個點。平均來看，比GEPA高出10.9個點。

還有一個值得關(guān)注的數(shù)字：在無標(biāo)注場景下（只靠執(zhí)行反饋，沒有人工標(biāo)注的正確答案），ACE在AppWorld上仍然比基準(zhǔn)線高14.8個點。這說明ACE的自我改進(jìn)機(jī)制不依賴人工監(jiān)督，代碼執(zhí)行的成功或失敗本身就是足夠強(qiáng)的信號。

效率的對比同樣戲劇性。在離線適配上，ACE的適配延遲比GEPA低82.3%，需要的rollout數(shù)量少75.1%。在線適配上，比Dynamic Cheatsheet的延遲低91.5%，token費用低83.6%。

消融實驗揭示了什么

論文花了不少篇幅做消融（逐步拆掉某個組件，看性能如何變化），結(jié)論比較清晰。

去掉Reflector和多輪迭代，只保留基本框架，AppWorld平均準(zhǔn)確率從59.4%跌到55.1%，損失4.3個點。只去掉多輪迭代，保留Reflector，準(zhǔn)確率56.8%，損失2.6個點。這說明Reflector的存在本身就有價值，而多輪迭代在此基礎(chǔ)上進(jìn)一步改善了質(zhì)量。

在線適配中，加入"離線預(yù)熱"（先用訓(xùn)練集跑一遍積累初始劇本，再進(jìn)入在線測試）從56.1%提升到59.5%，增益明顯。這個設(shè)置在實際部署中是可行的——對于確定的業(yè)務(wù)場景，提前用歷史數(shù)據(jù)初始化劇本，然后在生產(chǎn)環(huán)境里繼續(xù)在線更新。

這套方法的邊界在哪里

論文在Limitations一節(jié)坦誠地討論了幾個限制。

ACE的表現(xiàn)強(qiáng)依賴Reflector的質(zhì)量。如果模型本身連有效的反思都做不到，劇本就會被噪聲污染。金融任務(wù)在無標(biāo)注場景下，ACE和DC都出現(xiàn)了性能下降，就是因為缺乏可靠的信號，錯誤的反思反而干擾了劇本。

不是所有任務(wù)都適合這套方法。HotPotQA這類問答任務(wù)更需要的是如何檢索和整合證據(jù)的高層策略，而不是堆砌細(xì)節(jié)；Game of 24這類有固定解法的游戲，一條規(guī)則就夠了，多余的上下文只是負(fù)擔(dān)。

ACE最適合的場景是：需要掌握大量領(lǐng)域知識、工具使用有很多細(xì)節(jié)、或者環(huán)境交互有很多特定經(jīng)驗值得積累的任務(wù)——恰好是當(dāng)下企業(yè)級AI應(yīng)用最集中的方向。

長上下文不等于高成本

這個點被論文單獨拿出來討論，因為它是一個常見的誤解。

ACE會生成比GEPA更長的上下文，有人擔(dān)心這意味著更高的推理成本。但作者指出，現(xiàn)代推理基礎(chǔ)設(shè)施對長上下文做了專門優(yōu)化——KV cache復(fù)用、壓縮和卸載等技術(shù)讓重復(fù)使用的上下文段不需要反復(fù)做prefill計算。隨著長上下文推理的效率持續(xù)提升，ACE這類方法的攤銷成本會越來越低，而它帶來的性能收益會持續(xù)存在。

更深的一層含義是，上下文里存儲的知識是"可解釋的"。合規(guī)官員可以直接閱讀劇本，知道AI學(xué)到了什么；發(fā)現(xiàn)問題時可以直接編輯或刪除某條知識，而不是重新跑一遍微調(diào)。這在金融、法律、醫(yī)療等受監(jiān)管行業(yè)里，是一個實質(zhì)性的優(yōu)勢。

論文地址：

https://arxiv.org/pdf/2510.04618

END本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場景，為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1：ACE與傳統(tǒng)prompt優(yōu)化方法（如GEPA）的本質(zhì)區(qū)別是什么？

GEPA等方法會不斷重寫整個提示，傾向于生成越來越簡短的通用指令，以此來滿足驗證指標(biāo)。ACE的不同之處在于它不做全量重寫。每次迭代只生成"增量條目"，用非LLM的代碼邏輯合并進(jìn)劇本，保證舊知識不會因為一次新的更新而消失。這直接解決了"簡潔偏差"和"上下文崩塌"兩個問題。

Q2：沒有人工標(biāo)注的正確答案，ACE怎么知道該學(xué)什么？

在智能體任務(wù)中，代碼執(zhí)行本身就是天然的反饋信號——代碼跑通了、任務(wù)完成了，就是正確的；報錯了、任務(wù)失敗了，就是錯誤的。ACE的Reflector利用這些執(zhí)行結(jié)果做反思，不需要人工標(biāo)注。這使得ACE可以在生產(chǎn)環(huán)境中持續(xù)自我改進(jìn)，而不需要持續(xù)的人工干預(yù)。

Q3：這套方法是否意味著模型微調(diào)變得不必要了？

不是這個意思，但它確實改變了微調(diào)的必要性邊界。對于需要快速適配、知識需要頻繁更新、或者領(lǐng)域知識量大但結(jié)構(gòu)清晰的場景，ACE提供了一條更輕量的替代路徑。微調(diào)在需要改變模型底層推理能力或語言風(fēng)格時仍然有價值，但在"讓模型知道更多領(lǐng)域經(jīng)驗"這件事上，ACE表明上下文工程可以做到原來認(rèn)為需要微調(diào)才能實現(xiàn)的效果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.