国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為諾亞&港中文發(fā)布SCOPE:Prompt自我進化,讓HLE成功率翻倍

0
分享至



機器之心發(fā)布

在 LLM Agent 領(lǐng)域,有一個常見的問題:Agent 明明 "看到了" 錯誤信息,卻總是重蹈覆轍。

當(dāng) Agent 遇到工具調(diào)用錯誤時,錯誤日志里往往已經(jīng)包含了解決方案 —— 正確的參數(shù)格式、有效的 API 用法、甚至是直接可用的替代方案。然而,靜態(tài)的 Prompt 無法讓 Agent 從這些反饋中 “學(xué)到教訓(xùn)”,導(dǎo)致它們陷入 “錯誤循環(huán)”:承認失敗,卻重復(fù)同樣的動作。

華為諾亞方舟實驗室與香港中文大學(xué)聯(lián)合發(fā)布的 SCOPE 框架,旨在解決這一問題。



  • 論文:《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
  • 論文地址:https://arxiv.org/abs/2512.15374
  • 開源地址:https://github.com/JarvisPei/SCOPE

SCOPE 的核心思想是:既然 Agent 會被反復(fù)調(diào)用,那么它的 Prompt 就可以在執(zhí)行過程中不斷進化。通過從執(zhí)行軌跡中自動提煉指導(dǎo)規(guī)則,SCOPE 讓 Agent 能夠 "從錯誤中學(xué)習(xí)",并將經(jīng)驗固化到 Prompt 中,實現(xiàn)自我進化。





Agent 的兩大失敗模式

研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執(zhí)行日志,發(fā)現(xiàn)了兩類典型的失敗模式:

第一類是「糾正型失敗」(Corrective Failure):當(dāng)錯誤發(fā)生時,執(zhí)行軌跡中包含明確的信號(錯誤消息、堆棧跟蹤、有效參數(shù)列表),本應(yīng)指導(dǎo) Agent 進行修正。然而,靜態(tài)的 Agent 把這些信息當(dāng)作泛泛的 “警報”,而不是可操作的反饋。研究者觀察到大量案例,Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具,形成 “錯誤循環(huán)”。更嚴重的情況下,Agent 甚至?xí)榱死^續(xù)執(zhí)行而 “編造數(shù)據(jù)”。

第二類是「增強型失敗」(Enhancement Failure):即使沒有明顯錯誤,Agent 也會錯過優(yōu)化機會。比如當(dāng)搜索結(jié)果不理想時,上下文往往暗示可以嘗試同義詞(如 “base on balls” 與 “walks”),但 Agent 卻固守單一關(guān)鍵詞策略。這種失敗更加隱蔽,但同樣影響任務(wù)成功率。



這兩類失敗的根本原因是相同的:靜態(tài) Prompt 缺乏從執(zhí)行反饋中學(xué)習(xí)的機制。

SCOPE 框架:從執(zhí)行軌跡中學(xué)習(xí)



針對上述問題,SCOPE 將上下文管理從手動工程任務(wù)轉(zhuǎn)變?yōu)樽詣觾?yōu)化過程。其核心洞察是:Agent 自身的執(zhí)行軌跡就是最好的學(xué)習(xí)信號。

SCOPE 框架由四個核心組件構(gòu)成:

1. 指導(dǎo)規(guī)則合成(Guideline Synthesis)

當(dāng) Agent 遇到錯誤或完成子任務(wù)時,SCOPE 的生成器(Generator)會分析執(zhí)行軌跡,合成候選指導(dǎo)規(guī)則。這里采用 Best-of-N 策略:生成多個候選規(guī)則,然后由選擇器(Selector)挑選最佳的一條。

針對不同場景,SCOPE 使用兩種合成模式:糾正型合成從錯誤中提取教訓(xùn),增強型合成從成功模式中挖掘優(yōu)化機會。實驗表明,增強型規(guī)則占所有合成規(guī)則的 61%,說明 SCOPE 不僅僅是 “錯誤修復(fù)器”,更是一個主動的優(yōu)化器。

2. 雙流路由機制(Dual-Stream Routing)

合成的規(guī)則并非同等對待。SCOPE 引入分類器(Classifier)將規(guī)則路由到兩個記憶流:

  • 戰(zhàn)術(shù)記憶(Tactical Memory):存儲任務(wù)特定的規(guī)則,如 “當(dāng)前數(shù)據(jù)集的‘Amount’列包含貨幣符號,計算前需進行清洗”。這些規(guī)則僅在當(dāng)前任務(wù)的數(shù)據(jù)上下文中有效。
  • 戰(zhàn)略記憶(Strategic Memory):存儲跨任務(wù)通用的規(guī)則,如 “當(dāng) Web 搜索返回結(jié)果為空時,嘗試泛化搜索關(guān)鍵詞而不是重復(fù)搜索”。這些規(guī)則會持久化保存,應(yīng)用于未來所有任務(wù)。

只有高置信度(閾值設(shè)為 0.85)的通用規(guī)則才會被提升到戰(zhàn)略記憶,避免過擬合到特定任務(wù)。

3. 記憶優(yōu)化(Memory Optimization)

隨著規(guī)則積累,戰(zhàn)略記憶可能包含冗余或沖突的內(nèi)容。SCOPE 的優(yōu)化器(Optimizer)會執(zhí)行三步清理:沖突解決(合并矛盾規(guī)則)、冗余剪枝(移除被更通用規(guī)則覆蓋的具體規(guī)則)、整合歸并(將相似規(guī)則合并為綜合性規(guī)則)。

4. 視角驅(qū)動探索(Perspective-Driven Exploration)

單一進化路徑可能收斂到某種策略,在部分任務(wù)上表現(xiàn)較好但在其他任務(wù)上失效。為了提高策略覆蓋,SCOPE 初始化多個并行流,每個流由不同的 "視角" 引導(dǎo)(如效率優(yōu)先 vs. 周全優(yōu)先),各自進化出不同的 Prompt。測試時選擇最佳結(jié)果。

實驗結(jié)果:HLE 成功率從 14% 提升到 39%

研究團隊在三個基準上進行了評估:HLE(2500 道專家級問題)、GAIA 和 DeepSearch。

實驗結(jié)果表明,SCOPE 在所有基準上都取得了提升:



在 HLE 基準上,SCOPE 將任務(wù)成功率從 14.23% 提升到 38.64%。在 GAIA 基準上,成功率從 32.73% 提升到 56.97%。

為了更準確地表達不同組件的貢獻,論文中給出了消融實驗。如下圖所示,指導(dǎo)規(guī)則生成器提供 + 4.85% 的初始提升,雙流路由貢獻 + 3.63%,Best-of-N 選擇貢獻 + 3.03%,記憶優(yōu)化貢獻 + 1.82%,而視角驅(qū)動探索帶來 + 10.91% 的提升。



值得注意的是,在知識密集型領(lǐng)域(如生物 / 醫(yī)學(xué)、化學(xué)),SCOPE 的提升較為明顯:生物 / 醫(yī)學(xué)從 14.9% 提升到 43.2%,化學(xué)從 14.1% 提升到 50.3%。這些領(lǐng)域的問題往往涉及復(fù)雜的專業(yè)概念和嚴格的推理流程,SCOPE 合成的領(lǐng)域特定規(guī)則能夠幫助 Agent 更好地理解和遵循這些要求。



Agent 真的在 "聽話" 嗎?

一個關(guān)鍵問題是:合成的規(guī)則是否真正影響了 Agent 的行為?

如下圖所示,研究團隊觀察到了 "語言采納" 現(xiàn)象:當(dāng) SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規(guī)則后,Agent 后續(xù)輸出中直接引用了相同的措辭。這表明規(guī)則被整合到了 Agent 的決策過程中。此外,行為變化通常在規(guī)則合成后幾秒內(nèi)就會發(fā)生,展示了單個任務(wù)內(nèi)的實時適應(yīng)能力。



視角驅(qū)動策略多樣性

視角驅(qū)動探索的設(shè)計得到了實驗驗證。如下圖所示,效率流(Efficiency Stream)和周全流(Thoroughness Stream)的總體準確率相近(44.85% vs 46.06%),但兩者解決的問題重合度僅為 33.94%,這意味著約 23% 的問題只能被其中一個視角解決。

效率流在 GAIA 的 Level 3 任務(wù)上表現(xiàn)更好(26.92% vs 11.54%),說明精簡的上下文管理對復(fù)雜長程任務(wù)更有效;而周全流在 Level 2 任務(wù)上更強。全局集成捕獲了兩種策略的優(yōu)勢。



定性分析顯示,面對同一個 HTTP 403 訪問拒絕錯誤,效率流學(xué)會 “快速失敗”—— 立即升級到搜索 Agent,不再重試;而周全流則學(xué)會 “尋找替代來源”—— 嘗試 Archive.org 或轉(zhuǎn)錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務(wù)。



SCOPE 的意義

華為諾亞方舟實驗室與香港中文大學(xué)聯(lián)合提出的 SCOPE 框架,通過將執(zhí)行軌跡作為學(xué)習(xí)信號、將 Prompt 視為可進化的參數(shù),實現(xiàn)了 Agent 的在線自我優(yōu)化。

與現(xiàn)有方法相比,SCOPE 具有三個主要特點:

  • 步級別適應(yīng)(Step-level adaptation):在執(zhí)行過程中更新 Prompt,允許從任務(wù)中途的失敗中恢復(fù),而非等到任務(wù)結(jié)束才學(xué)習(xí)。
  • 單 Agent 優(yōu)化(Per-agent optimization):每個 Agent 角色基于自身特定的模式進化 Prompt,而非使用 "一刀切" 的策略庫。
  • 主動優(yōu)化:61% 的規(guī)則來自成功模式的增強型合成,而非僅僅修復(fù)錯誤。



SCOPE 的代碼已在 GitHub 開源。正如論文所總結(jié)的:“與其工程化靜態(tài) Prompt,不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統(tǒng)的設(shè)計提供新的方向。

值得一提的是,SCOPE 的開源實現(xiàn)具有較好的實用性:

  • 即插即用:只需在 Agent 執(zhí)行循環(huán)中調(diào)用 `on_step_complete ()` 接口,即可為現(xiàn)有 Agent 系統(tǒng)添加自我進化能力,無需修改原有架構(gòu)。
  • 模型無關(guān):通過統(tǒng)一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商(via LiteLLM),方便開發(fā)者使用自己偏好的模型。
  • 輕量部署:核心依賴精簡,可通過 `pip install scope-optimizer` 一鍵安裝。

SCOPE 提供了一套完整的實現(xiàn)框架,其核心洞察是:Agent 的執(zhí)行軌跡本身就是最好的學(xué)習(xí)素材 —— 關(guān)鍵在于如何將這些經(jīng)驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統(tǒng)效能的開發(fā)者而言,SCOPE 提供了一個可直接使用的解決方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新疆生產(chǎn)建設(shè)兵團:堅決擁護黨中央決定

新疆生產(chǎn)建設(shè)兵團:堅決擁護黨中央決定

新京報政事兒
2026-01-09 14:50:48
伊朗實施網(wǎng)絡(luò)管控

伊朗實施網(wǎng)絡(luò)管控

財聯(lián)社
2026-01-09 01:54:04
他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

嘆為觀止易
2026-01-08 15:59:17
丹麥國防部:若美國武力奪取格陵蘭島 丹麥士兵可“先開槍再請示”

丹麥國防部:若美國武力奪取格陵蘭島 丹麥士兵可“先開槍再請示”

財聯(lián)社
2026-01-08 14:40:05
美軍公??垩憾碛洼啠砗\娋挂慌試^,這艘船到底是什么來歷?

美軍公海扣押俄油輪,俄海軍竟一旁圍觀,這艘船到底是什么來歷?

裝甲鏟史官
2026-01-08 14:48:57
可控核聚變領(lǐng)域,國內(nèi)表現(xiàn)優(yōu)秀的10家公司名單曝光?。ńㄗh收藏)

可控核聚變領(lǐng)域,國內(nèi)表現(xiàn)優(yōu)秀的10家公司名單曝光?。ńㄗh收藏)

元爸體育
2026-01-09 08:49:12
爆雷百億的浙金受害人,開始回款了

爆雷百億的浙金受害人,開始回款了

鳴金網(wǎng)
2026-01-08 18:54:10
記者:奇才愿與特雷-楊簽3年1.2億美元續(xù)約合同,奇才很歡迎他加盟

記者:奇才愿與特雷-楊簽3年1.2億美元續(xù)約合同,奇才很歡迎他加盟

懂球帝
2026-01-09 08:42:10
活塞傳奇:不理解現(xiàn)在的人對詹姆斯不屑一顧,反而在追捧喬丹

活塞傳奇:不理解現(xiàn)在的人對詹姆斯不屑一顧,反而在追捧喬丹

懂球帝
2026-01-09 07:45:44
一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

豐譚筆錄
2026-01-09 07:50:09
醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因為嚴重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因為嚴重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

觀威海
2026-01-06 10:46:23
后院徹底起火!丹麥不玩了:美國若敢動格陵蘭,北約就地解散!

后院徹底起火!丹麥不玩了:美國若敢動格陵蘭,北約就地解散!

防務(wù)觀察室
2026-01-06 14:42:25
向殺父嫌犯,索賠1000萬

向殺父嫌犯,索賠1000萬

中國新聞周刊
2026-01-09 12:17:57
別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

詩意世界
2026-01-03 15:19:25
格陵蘭發(fā)達到什么水平?我去了才發(fā)現(xiàn),差距真的太大

格陵蘭發(fā)達到什么水平?我去了才發(fā)現(xiàn),差距真的太大

娛樂八卦木木子
2026-01-07 15:14:07
感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

邱澤云
2026-01-09 01:07:50
最帥護旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

最帥護旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

鋭娛之樂
2026-01-09 08:45:21
官媒主動下場,53歲孟晚舟再掀天花板,讓任正非與整個商界沉默了

官媒主動下場,53歲孟晚舟再掀天花板,讓任正非與整個商界沉默了

牛牛叨史
2026-01-07 13:34:04
中央決定:曲光吉履新職

中央決定:曲光吉履新職

新京報
2026-01-09 12:22:20
又要動手了!特朗普,下一個目標定了!

又要動手了!特朗普,下一個目標定了!

新動察
2026-01-08 11:40:11
2026-01-09 16:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

房產(chǎn)
家居
教育
手機
公開課

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

家居要聞

木色留白 演繹現(xiàn)代自由

教育要聞

常生龍:中小學(xué)日常考試管理新政的挑戰(zhàn),在于如何避免“穿新鞋走老路”

手機要聞

全球首款驍龍8E5雙潛望旗艦 OPPO Find X9 Ultra三月見

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版