国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI越用越聰明——斯坦福這篇ICLR論文讓微調(diào)信仰開始動搖

0
分享至

這是一篇來自斯坦福大學(xué)、SambaNova Systems與UC Berkeley的聯(lián)合研究,標(biāo)題叫《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》,中文可以譯作"智能體上下文工程:為自我進(jìn)化的語言模型構(gòu)建動態(tài)語境"。

論文的核心主張只有一句話:與其修改模型的權(quán)重,不如讓模型的"記憶"越來越好用。發(fā)表后,這篇論文在AI社區(qū)引發(fā)了不小的討論,甚至有工程師直接喊出"微調(diào)已死"。原因在于,他們用一個更小的開源模型,通過這套方法,在公開榜單上追平了IBM用GPT-4.1構(gòu)建的生產(chǎn)級智能體——而且沒有花一分錢去做微調(diào)。

這個結(jié)果足夠令人吃驚,值得認(rèn)真拆解一遍。

先說一個被低估的問題:上下文工程

在深入ACE之前,需要先厘清一個術(shù)語:上下文適配(Context Adaptation),或者更通俗地說,"上下文工程"。

對LLM來說,提升性能有兩條路:一條是改模型本身,也就是微調(diào)(fine-tuning);另一條是改模型的輸入,也就是往prompt里塞更好的指令、策略、示例、領(lǐng)域知識。后者就是上下文工程。

這條路并不新鮮。每個認(rèn)真做過RAG、寫過system prompt、調(diào)過few-shot的工程師都在無意識地做上下文工程。它的優(yōu)勢顯而易見:不需要動模型權(quán)重,改起來快、看得見、可以隨時回滾。

但它的天花板在哪里?

研究者在論文里指出了兩個老對手從未解決的根本缺陷。

第一個:簡潔偏差(Brevity Bias)。 現(xiàn)有的提示優(yōu)化方法,比如GEPA,傾向于把上下文壓縮成簡短的通用指令。這在某些場景里夠用,但在需要大量領(lǐng)域知識的任務(wù)里,把"當(dāng)分頁API返回為空時停止循環(huán)"這類具體的工程經(jīng)驗濃縮成"請注意API規(guī)范",就等于把最有價值的東西扔掉了。

第二個:上下文崩塌(Context Collapse)。 這個現(xiàn)象更危險。當(dāng)讓一個LLM在每次更新時全量重寫上下文,隨著內(nèi)容越來越多,模型會傾向于把它壓縮成更短的摘要。論文里給出了一個實測數(shù)據(jù):在AppWorld基準(zhǔn)測試的第60步,上下文里有18,282個token,準(zhǔn)確率達(dá)到66.7。但下一步,LLM全量重寫后,上下文直接塌縮到了122個token,準(zhǔn)確率跌到57.1,比什么都不做(基準(zhǔn)線63.7)還要差。一次重寫,把60步積累的所有經(jīng)驗清零了。


這就是ACE要解決的核心問題。

ACE的核心思路:把上下文當(dāng)成一本會生長的手冊

ACE的設(shè)計哲學(xué)可以用一句話概括:"上下文不是摘要,而是劇本(playbook)。"

背后有一個關(guān)鍵判斷——人類和LLM的處理習(xí)慣恰好相反。人類喜歡高度濃縮的信息,靠背景知識和直覺填補(bǔ)空白;而LLM在接收詳細(xì)、具體、豐富的上下文時,表現(xiàn)往往更好,它們有能力在推理時自己判斷哪些內(nèi)容有用。

所以,與其幫LLM"提煉",不如幫它"積累"。

ACE的架構(gòu)由三個角色協(xié)同完成:


Generator(生成器)執(zhí)行實際任務(wù),產(chǎn)出推理軌跡——哪些步驟走通了,哪些報錯了,哪些API用錯了,完整記錄。

Reflector(反思器)拿著這份軌跡做診斷。它會分析哪里出了問題,為什么出問題,正確做法應(yīng)該是什么,并提煉出"關(guān)鍵洞察"。它還會對劇本里現(xiàn)有的每個知識條目打標(biāo)簽:這次有沒有幫上忙?

Curator(整理器)把反思器的輸出轉(zhuǎn)化為結(jié)構(gòu)化的"增量條目"(delta entries),然后用非LLM的確定性邏輯合并進(jìn)劇本。合并、去重、修改計數(shù)器——全部不需要再跑一次大模型。

這里有一個細(xì)節(jié)值得注意:Curator在合并時用的是代碼邏輯,而不是讓LLM重寫整個劇本。這直接消除了上下文崩塌的根源。更新是原子的、局部的,過去積累的內(nèi)容不會因為一次新的迭代而消失。

增量更新與"生長再精煉"機(jī)制

ACE的防崩塌設(shè)計有兩個具體機(jī)制,值得展開說。

增量delta更新:劇本由一條條帶ID的知識條目(bullets)組成,每個條目記錄著它被標(biāo)記為"有用"和"有害"的次數(shù)。新的經(jīng)驗只會追加或修改已有條目,不會觸發(fā)全量重寫。多個增量可以并行處理,然后一次性合并——這也是為什么ACE的延遲能大幅低于傳統(tǒng)方法。

生長再精煉(Grow-and-Refine):劇本會持續(xù)變長,但這不能無限膨脹。ACE用語義嵌入做相似度比較,把語義相近的條目合并或去重。這個精煉操作可以主動觸發(fā)(每次delta之后),也可以懶觸發(fā)(只有當(dāng)上下文窗口快撐不住了才運行)。

論文里展示了一個AppWorld生成的劇本樣例,里面分成"策略與硬規(guī)則"、"可用代碼片段與模板"、"故障排查與陷阱"三個板塊。比如其中一條寫道:如果身份驗證失敗,按順序嘗試用手機(jī)號而非郵箱作為用戶名,清除supervisor里的憑證,查閱API文檔確認(rèn)正確參數(shù),不要使用變通方法(workaround)。

這不是一條抽象的"注意認(rèn)證問題",而是一條可以直接指導(dǎo)下一次操作的具體經(jīng)驗。這正是ACE與之前方法的本質(zhì)區(qū)別。

實驗結(jié)果:更小的模型,頂尖的成績

研究團(tuán)隊在兩類任務(wù)上做了系統(tǒng)評測。

智能體基準(zhǔn)(AppWorld):這是一個要求LLM通過Python代碼調(diào)用API、完成日常任務(wù)的復(fù)雜環(huán)境,包含郵件、文件系統(tǒng)、音樂、支付等場景。任務(wù)分"普通"和"挑戰(zhàn)"兩個難度級別,公開榜單上有來自工業(yè)界的對標(biāo)系統(tǒng)。

在離線適配(先用訓(xùn)練集優(yōu)化劇本,再在測試集上評估)的設(shè)置下,ReAct + ACE的平均準(zhǔn)確率達(dá)到59.4%,而ICL基準(zhǔn)線是46.0%,GEPA是46.4%,提升幅度接近13個百分點。在線適配(邊測試邊更新劇本)的設(shè)置下,ACE達(dá)到59.5%,比Dynamic Cheatsheet高出7.6個點。


更重要的比較來自公開榜單快照(2025年9月20日)。榜首是IBM的CUGA,使用GPT-4.1,平均準(zhǔn)確率60.3%。ACE使用的是DeepSeek-V3.1(一個更小的開源模型),平均59.4%,基本持平。在更難的test-challenge分項上,ACE的TGC(任務(wù)目標(biāo)完成率)比CUGA高8.4個百分點。

金融領(lǐng)域基準(zhǔn)(FiNER + Formula):這兩個任務(wù)要求對XBRL格式的財務(wù)文件做實體識別和數(shù)值推理,需要大量金融領(lǐng)域的專門知識。有標(biāo)注監(jiān)督時,ACE在FiNER上比基線提升7.6個點,在Formula上提升高達(dá)18個點。平均來看,比GEPA高出10.9個點。

還有一個值得關(guān)注的數(shù)字:在無標(biāo)注場景下(只靠執(zhí)行反饋,沒有人工標(biāo)注的正確答案),ACE在AppWorld上仍然比基準(zhǔn)線高14.8個點。這說明ACE的自我改進(jìn)機(jī)制不依賴人工監(jiān)督,代碼執(zhí)行的成功或失敗本身就是足夠強(qiáng)的信號。

效率的對比同樣戲劇性。在離線適配上,ACE的適配延遲比GEPA低82.3%,需要的rollout數(shù)量少75.1%。在線適配上,比Dynamic Cheatsheet的延遲低91.5%,token費用低83.6%。

消融實驗揭示了什么

論文花了不少篇幅做消融(逐步拆掉某個組件,看性能如何變化),結(jié)論比較清晰。

去掉Reflector和多輪迭代,只保留基本框架,AppWorld平均準(zhǔn)確率從59.4%跌到55.1%,損失4.3個點。只去掉多輪迭代,保留Reflector,準(zhǔn)確率56.8%,損失2.6個點。這說明Reflector的存在本身就有價值,而多輪迭代在此基礎(chǔ)上進(jìn)一步改善了質(zhì)量。

在線適配中,加入"離線預(yù)熱"(先用訓(xùn)練集跑一遍積累初始劇本,再進(jìn)入在線測試)從56.1%提升到59.5%,增益明顯。這個設(shè)置在實際部署中是可行的——對于確定的業(yè)務(wù)場景,提前用歷史數(shù)據(jù)初始化劇本,然后在生產(chǎn)環(huán)境里繼續(xù)在線更新。

這套方法的邊界在哪里

論文在Limitations一節(jié)坦誠地討論了幾個限制。

ACE的表現(xiàn)強(qiáng)依賴Reflector的質(zhì)量。如果模型本身連有效的反思都做不到,劇本就會被噪聲污染。金融任務(wù)在無標(biāo)注場景下,ACE和DC都出現(xiàn)了性能下降,就是因為缺乏可靠的信號,錯誤的反思反而干擾了劇本。

不是所有任務(wù)都適合這套方法。HotPotQA這類問答任務(wù)更需要的是如何檢索和整合證據(jù)的高層策略,而不是堆砌細(xì)節(jié);Game of 24這類有固定解法的游戲,一條規(guī)則就夠了,多余的上下文只是負(fù)擔(dān)。

ACE最適合的場景是:需要掌握大量領(lǐng)域知識、工具使用有很多細(xì)節(jié)、或者環(huán)境交互有很多特定經(jīng)驗值得積累的任務(wù)——恰好是當(dāng)下企業(yè)級AI應(yīng)用最集中的方向。

長上下文不等于高成本

這個點被論文單獨拿出來討論,因為它是一個常見的誤解。

ACE會生成比GEPA更長的上下文,有人擔(dān)心這意味著更高的推理成本。但作者指出,現(xiàn)代推理基礎(chǔ)設(shè)施對長上下文做了專門優(yōu)化——KV cache復(fù)用、壓縮和卸載等技術(shù)讓重復(fù)使用的上下文段不需要反復(fù)做prefill計算。隨著長上下文推理的效率持續(xù)提升,ACE這類方法的攤銷成本會越來越低,而它帶來的性能收益會持續(xù)存在。

更深的一層含義是,上下文里存儲的知識是"可解釋的"。合規(guī)官員可以直接閱讀劇本,知道AI學(xué)到了什么;發(fā)現(xiàn)問題時可以直接編輯或刪除某條知識,而不是重新跑一遍微調(diào)。這在金融、法律、醫(yī)療等受監(jiān)管行業(yè)里,是一個實質(zhì)性的優(yōu)勢。

論文地址:

https://arxiv.org/pdf/2510.04618

END本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1:ACE與傳統(tǒng)prompt優(yōu)化方法(如GEPA)的本質(zhì)區(qū)別是什么?

GEPA等方法會不斷重寫整個提示,傾向于生成越來越簡短的通用指令,以此來滿足驗證指標(biāo)。ACE的不同之處在于它不做全量重寫。每次迭代只生成"增量條目",用非LLM的代碼邏輯合并進(jìn)劇本,保證舊知識不會因為一次新的更新而消失。這直接解決了"簡潔偏差"和"上下文崩塌"兩個問題。

Q2:沒有人工標(biāo)注的正確答案,ACE怎么知道該學(xué)什么?

在智能體任務(wù)中,代碼執(zhí)行本身就是天然的反饋信號——代碼跑通了、任務(wù)完成了,就是正確的;報錯了、任務(wù)失敗了,就是錯誤的。ACE的Reflector利用這些執(zhí)行結(jié)果做反思,不需要人工標(biāo)注。這使得ACE可以在生產(chǎn)環(huán)境中持續(xù)自我改進(jìn),而不需要持續(xù)的人工干預(yù)。

Q3:這套方法是否意味著模型微調(diào)變得不必要了?

不是這個意思,但它確實改變了微調(diào)的必要性邊界。對于需要快速適配、知識需要頻繁更新、或者領(lǐng)域知識量大但結(jié)構(gòu)清晰的場景,ACE提供了一條更輕量的替代路徑。微調(diào)在需要改變模型底層推理能力或語言風(fēng)格時仍然有價值,但在"讓模型知道更多領(lǐng)域經(jīng)驗"這件事上,ACE表明上下文工程可以做到原來認(rèn)為需要微調(diào)才能實現(xiàn)的效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美伊開戰(zhàn),卻被中國衛(wèi)星盯死!“天眼”24小時掃描,美軍零秘密

美伊開戰(zhàn),卻被中國衛(wèi)星盯死!“天眼”24小時掃描,美軍零秘密

書紀(jì)文譚
2026-02-28 19:28:21
美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

古史青云啊
2026-02-20 16:23:31
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
3月1日起,銀行存款50萬以下10萬以上的人,這幾個消息一定要了解

3月1日起,銀行存款50萬以下10萬以上的人,這幾個消息一定要了解

別人都叫我阿腈
2026-03-01 02:00:06
緊急提醒:4月1日起家門口攝像頭違法安裝將被罰拆

緊急提醒:4月1日起家門口攝像頭違法安裝將被罰拆

透視到底
2026-03-01 16:15:03
特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項安排會這么厲害

特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項安排會這么厲害

健身狂人
2026-03-01 13:53:47
3月1日晚間,多家上市公司發(fā)布重大利好利空好消息

3月1日晚間,多家上市公司發(fā)布重大利好利空好消息

A股數(shù)據(jù)表
2026-03-01 17:33:53
美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

爆角追蹤
2026-03-01 14:57:47
沙特股市重挫近5%后急速反彈,加密貨幣集體拉升,超10萬人爆倉

沙特股市重挫近5%后急速反彈,加密貨幣集體拉升,超10萬人爆倉

21世紀(jì)經(jīng)濟(jì)報道
2026-03-01 16:10:29
男籃100-93力克中國臺北4壞消息!趙睿+王浩然辣眼,攻守一塌糊涂

男籃100-93力克中國臺北4壞消息!趙睿+王浩然辣眼,攻守一塌糊涂

籃球資訊達(dá)人
2026-03-01 17:54:20
48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
世預(yù)賽-日本男籃力克韓國穩(wěn)居小組第一 霍金森24+7李賢重28+11

世預(yù)賽-日本男籃力克韓國穩(wěn)居小組第一 霍金森24+7李賢重28+11

醉臥浮生
2026-03-01 14:54:49
世界首次五百強(qiáng)斷崖差:日本149家,美國151家,中國3家,現(xiàn)在呢

世界首次五百強(qiáng)斷崖差:日本149家,美國151家,中國3家,現(xiàn)在呢

紀(jì)中百大事
2026-03-01 12:24:25
切斷霍爾木茲海峽后會發(fā)生什么?專家:布倫特原油可能率先突破80美元

切斷霍爾木茲海峽后會發(fā)生什么?專家:布倫特原油可能率先突破80美元

財聯(lián)社
2026-03-01 11:29:10
扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

黯泉
2026-02-28 22:39:41
嘴炮失效,忠誠崩塌:從馬杜羅到哈梅內(nèi)伊,看現(xiàn)代戰(zhàn)爭的真相

嘴炮失效,忠誠崩塌:從馬杜羅到哈梅內(nèi)伊,看現(xiàn)代戰(zhàn)爭的真相

非勇時評
2026-03-01 12:38:27
34歲武磊再留憾!時隔288天復(fù)出難救海港,生涯仍無緣超級杯冠軍

34歲武磊再留憾!時隔288天復(fù)出難救海港,生涯仍無緣超級杯冠軍

我愛英超
2026-03-01 17:36:55
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

離離言幾許
2026-02-28 18:06:09
迪拜夜空爆炸聲不斷!在迪深圳人親歷

迪拜夜空爆炸聲不斷!在迪深圳人親歷

深圳晚報
2026-03-01 18:38:25
2026-03-01 19:11:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
1970文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

健康
家居
藝術(shù)
親子
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

素色肌理 品意式格調(diào)

藝術(shù)要聞

這位荷蘭人的書法,看得人直冒冷汗,寫丑書的人看了無地自容!

親子要聞

泉州孕婦跨省求醫(yī),港大深圳醫(yī)院成功救治“先心病”雙胞胎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版