華為諾亞&港中文發(fā)布SCOPE：Prompt自我進化，讓HLE成功率翻倍

2025-12-26 14:16:31　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

在 LLM Agent 領(lǐng)域，有一個常見的問題：Agent 明明 "看到了" 錯誤信息，卻總是重蹈覆轍。

當(dāng) Agent 遇到工具調(diào)用錯誤時，錯誤日志里往往已經(jīng)包含了解決方案 —— 正確的參數(shù)格式、有效的 API 用法、甚至是直接可用的替代方案。然而，靜態(tài)的 Prompt 無法讓 Agent 從這些反饋中 “學(xué)到教訓(xùn)”，導(dǎo)致它們陷入 “錯誤循環(huán)”：承認失敗，卻重復(fù)同樣的動作。

華為諾亞方舟實驗室與香港中文大學(xué)聯(lián)合發(fā)布的 SCOPE 框架，旨在解決這一問題。

論文：《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
論文地址：https://arxiv.org/abs/2512.15374
開源地址：https://github.com/JarvisPei/SCOPE

SCOPE 的核心思想是：既然 Agent 會被反復(fù)調(diào)用，那么它的 Prompt 就可以在執(zhí)行過程中不斷進化。通過從執(zhí)行軌跡中自動提煉指導(dǎo)規(guī)則，SCOPE 讓 Agent 能夠 "從錯誤中學(xué)習(xí)"，并將經(jīng)驗固化到 Prompt 中，實現(xiàn)自我進化。

Agent 的兩大失敗模式

研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執(zhí)行日志，發(fā)現(xiàn)了兩類典型的失敗模式：

第一類是「糾正型失敗」(Corrective Failure)：當(dāng)錯誤發(fā)生時，執(zhí)行軌跡中包含明確的信號（錯誤消息、堆棧跟蹤、有效參數(shù)列表），本應(yīng)指導(dǎo) Agent 進行修正。然而，靜態(tài)的 Agent 把這些信息當(dāng)作泛泛的 “警報”，而不是可操作的反饋。研究者觀察到大量案例，Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具，形成 “錯誤循環(huán)”。更嚴重的情況下，Agent 甚至?xí)榱死^續(xù)執(zhí)行而 “編造數(shù)據(jù)”。

第二類是「增強型失敗」(Enhancement Failure)：即使沒有明顯錯誤，Agent 也會錯過優(yōu)化機會。比如當(dāng)搜索結(jié)果不理想時，上下文往往暗示可以嘗試同義詞（如 “base on balls” 與 “walks”），但 Agent 卻固守單一關(guān)鍵詞策略。這種失敗更加隱蔽，但同樣影響任務(wù)成功率。

這兩類失敗的根本原因是相同的：靜態(tài) Prompt 缺乏從執(zhí)行反饋中學(xué)習(xí)的機制。

SCOPE 框架：從執(zhí)行軌跡中學(xué)習(xí)

針對上述問題，SCOPE 將上下文管理從手動工程任務(wù)轉(zhuǎn)變?yōu)樽詣觾?yōu)化過程。其核心洞察是：Agent 自身的執(zhí)行軌跡就是最好的學(xué)習(xí)信號。

SCOPE 框架由四個核心組件構(gòu)成：

1. 指導(dǎo)規(guī)則合成（Guideline Synthesis）

當(dāng) Agent 遇到錯誤或完成子任務(wù)時，SCOPE 的生成器（Generator）會分析執(zhí)行軌跡，合成候選指導(dǎo)規(guī)則。這里采用 Best-of-N 策略：生成多個候選規(guī)則，然后由選擇器（Selector）挑選最佳的一條。

針對不同場景，SCOPE 使用兩種合成模式：糾正型合成從錯誤中提取教訓(xùn)，增強型合成從成功模式中挖掘優(yōu)化機會。實驗表明，增強型規(guī)則占所有合成規(guī)則的 61%，說明 SCOPE 不僅僅是 “錯誤修復(fù)器”，更是一個主動的優(yōu)化器。

2. 雙流路由機制（Dual-Stream Routing）

合成的規(guī)則并非同等對待。SCOPE 引入分類器（Classifier）將規(guī)則路由到兩個記憶流：

戰(zhàn)術(shù)記憶（Tactical Memory）：存儲任務(wù)特定的規(guī)則，如 “當(dāng)前數(shù)據(jù)集的‘Amount’列包含貨幣符號，計算前需進行清洗”。這些規(guī)則僅在當(dāng)前任務(wù)的數(shù)據(jù)上下文中有效。
戰(zhàn)略記憶（Strategic Memory）：存儲跨任務(wù)通用的規(guī)則，如 “當(dāng) Web 搜索返回結(jié)果為空時，嘗試泛化搜索關(guān)鍵詞而不是重復(fù)搜索”。這些規(guī)則會持久化保存，應(yīng)用于未來所有任務(wù)。

只有高置信度（閾值設(shè)為 0.85）的通用規(guī)則才會被提升到戰(zhàn)略記憶，避免過擬合到特定任務(wù)。

3. 記憶優(yōu)化（Memory Optimization）

隨著規(guī)則積累，戰(zhàn)略記憶可能包含冗余或沖突的內(nèi)容。SCOPE 的優(yōu)化器（Optimizer）會執(zhí)行三步清理：沖突解決（合并矛盾規(guī)則）、冗余剪枝（移除被更通用規(guī)則覆蓋的具體規(guī)則）、整合歸并（將相似規(guī)則合并為綜合性規(guī)則）。

4. 視角驅(qū)動探索（Perspective-Driven Exploration）

單一進化路徑可能收斂到某種策略，在部分任務(wù)上表現(xiàn)較好但在其他任務(wù)上失效。為了提高策略覆蓋，SCOPE 初始化多個并行流，每個流由不同的 "視角" 引導(dǎo)（如效率優(yōu)先 vs. 周全優(yōu)先），各自進化出不同的 Prompt。測試時選擇最佳結(jié)果。

實驗結(jié)果：HLE 成功率從 14% 提升到 39%

研究團隊在三個基準上進行了評估：HLE（2500 道專家級問題）、GAIA 和 DeepSearch。

實驗結(jié)果表明，SCOPE 在所有基準上都取得了提升：

在 HLE 基準上，SCOPE 將任務(wù)成功率從 14.23% 提升到 38.64%。在 GAIA 基準上，成功率從 32.73% 提升到 56.97%。

為了更準確地表達不同組件的貢獻，論文中給出了消融實驗。如下圖所示，指導(dǎo)規(guī)則生成器提供 + 4.85% 的初始提升，雙流路由貢獻 + 3.63%，Best-of-N 選擇貢獻 + 3.03%，記憶優(yōu)化貢獻 + 1.82%，而視角驅(qū)動探索帶來 + 10.91% 的提升。

值得注意的是，在知識密集型領(lǐng)域（如生物 / 醫(yī)學(xué)、化學(xué)），SCOPE 的提升較為明顯：生物 / 醫(yī)學(xué)從 14.9% 提升到 43.2%，化學(xué)從 14.1% 提升到 50.3%。這些領(lǐng)域的問題往往涉及復(fù)雜的專業(yè)概念和嚴格的推理流程，SCOPE 合成的領(lǐng)域特定規(guī)則能夠幫助 Agent 更好地理解和遵循這些要求。

Agent 真的在 "聽話" 嗎？

一個關(guān)鍵問題是：合成的規(guī)則是否真正影響了 Agent 的行為？

如下圖所示，研究團隊觀察到了 "語言采納" 現(xiàn)象：當(dāng) SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規(guī)則后，Agent 后續(xù)輸出中直接引用了相同的措辭。這表明規(guī)則被整合到了 Agent 的決策過程中。此外，行為變化通常在規(guī)則合成后幾秒內(nèi)就會發(fā)生，展示了單個任務(wù)內(nèi)的實時適應(yīng)能力。

視角驅(qū)動策略多樣性

視角驅(qū)動探索的設(shè)計得到了實驗驗證。如下圖所示，效率流（Efficiency Stream）和周全流（Thoroughness Stream）的總體準確率相近（44.85% vs 46.06%），但兩者解決的問題重合度僅為 33.94%，這意味著約 23% 的問題只能被其中一個視角解決。

效率流在 GAIA 的 Level 3 任務(wù)上表現(xiàn)更好（26.92% vs 11.54%），說明精簡的上下文管理對復(fù)雜長程任務(wù)更有效；而周全流在 Level 2 任務(wù)上更強。全局集成捕獲了兩種策略的優(yōu)勢。

定性分析顯示，面對同一個 HTTP 403 訪問拒絕錯誤，效率流學(xué)會 “快速失敗”—— 立即升級到搜索 Agent，不再重試；而周全流則學(xué)會 “尋找替代來源”—— 嘗試 Archive.org 或轉(zhuǎn)錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務(wù)。

SCOPE 的意義

華為諾亞方舟實驗室與香港中文大學(xué)聯(lián)合提出的 SCOPE 框架，通過將執(zhí)行軌跡作為學(xué)習(xí)信號、將 Prompt 視為可進化的參數(shù)，實現(xiàn)了 Agent 的在線自我優(yōu)化。

與現(xiàn)有方法相比，SCOPE 具有三個主要特點：

步級別適應(yīng)（Step-level adaptation）：在執(zhí)行過程中更新 Prompt，允許從任務(wù)中途的失敗中恢復(fù)，而非等到任務(wù)結(jié)束才學(xué)習(xí)。
單 Agent 優(yōu)化（Per-agent optimization）：每個 Agent 角色基于自身特定的模式進化 Prompt，而非使用 "一刀切" 的策略庫。
主動優(yōu)化：61% 的規(guī)則來自成功模式的增強型合成，而非僅僅修復(fù)錯誤。

SCOPE 的代碼已在 GitHub 開源。正如論文所總結(jié)的：“與其工程化靜態(tài) Prompt，不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統(tǒng)的設(shè)計提供新的方向。

值得一提的是，SCOPE 的開源實現(xiàn)具有較好的實用性：

即插即用：只需在 Agent 執(zhí)行循環(huán)中調(diào)用 `on_step_complete ()` 接口，即可為現(xiàn)有 Agent 系統(tǒng)添加自我進化能力，無需修改原有架構(gòu)。
模型無關(guān)：通過統(tǒng)一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商（via LiteLLM），方便開發(fā)者使用自己偏好的模型。
輕量部署：核心依賴精簡，可通過 `pip install scope-optimizer` 一鍵安裝。

SCOPE 提供了一套完整的實現(xiàn)框架，其核心洞察是：Agent 的執(zhí)行軌跡本身就是最好的學(xué)習(xí)素材 —— 關(guān)鍵在于如何將這些經(jīng)驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統(tǒng)效能的開發(fā)者而言，SCOPE 提供了一個可直接使用的解決方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.