国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

香港中文大學等團隊破解智能體"健忘癥"

0
分享至


這項由香港中文大學裴澤華、潘信陵和于貝等學者,聯合華為諾亞方舟實驗室任慧玲、柯世雄、王云鶴、袁明軒等研究人員共同完成的研究,于2024年12月在預印本論文平臺發(fā)表,論文編號為arXiv:2512.15374v1。感興趣的讀者可以通過該編號查詢完整論文內容。

在現實生活中,當我們反復犯同樣的錯誤時,通常會被說成"不長記性"?,F在的AI智能體也面臨著相似的問題。當前的AI助手就像一個健忘的學徒,即使剛剛因為操作錯誤而失敗,下一次遇到類似情況時仍然會重復相同的錯誤。這種現象在AI領域被稱為"靜態(tài)提示詞"問題,就好比給學徒一份永遠不變的工作手冊,無論遇到多少新情況或犯了多少錯誤,手冊內容永遠不會更新。

研究團隊發(fā)現了一個令人震驚的現象:當前最先進的AI智能體系統雖然能夠獲取大量的上下文信息,卻缺乏有效管理這些信息的機制。這就像一個擁有世界上最大圖書館鑰匙的人,卻不知道如何找到需要的書籍一樣。通過分析超過150萬行的AI執(zhí)行日志,研究人員識別出兩種主要的失敗模式。第一種是"糾正性失敗",AI在收到明確的錯誤信息后,仍然將其視為普通警報而非可操作的反饋。第二種是"增強性失敗",即使在沒有明顯錯誤的情況下,AI也錯過了優(yōu)化機會,固守低效的策略。

為了解決這一根本性問題,研究團隊開發(fā)了一個名為SCOPE的革命性框架,全稱為"通過提示詞進化實現自進化上下文優(yōu)化"。這個系統的核心思想是讓AI的指令系統能夠像生物進化一樣不斷完善自己。SCOPE將上下文管理轉化為一個在線優(yōu)化問題,通過分析執(zhí)行軌跡來自動合成指導原則,讓智能體的提示詞能夠自動進化。

SCOPE系統的工作原理可以用一個不斷改進的烹飪食譜來類比。傳統的AI智能體就像嚴格按照一份固定食譜做菜的廚師,即使發(fā)現某種調料會讓菜變苦,下次做菜時仍會加入同樣的調料。而SCOPE系統則像一個聰明的廚師,會在食譜的空白處記錄每次的經驗教訓。當發(fā)現某種調料會讓菜變苦時,會在食譜上寫下"避免使用X調料"。當發(fā)現某種搭配特別美味時,會記錄下"嘗試使用Y和Z的組合"。

這個系統引入了雙流路由機制,能夠平衡戰(zhàn)術特異性和戰(zhàn)略通用性。戰(zhàn)術流專門處理當前任務的具體問題,就像在食譜上臨時記錄"今天的鹽比較咸,要少放一些"。戰(zhàn)略流則負責提取長期有效的通用原則,如"在潮濕天氣里,面粉的吸水性會增強,需要適當減少液體用量"。

除了雙流機制,SCOPE還采用了視角驅動探索策略,同時維護多個具有不同優(yōu)化視角的并行提示詞。這就像同時培訓兩個不同風格的廚師,一個專注于效率,追求快速出菜,另一個專注于精致,確保每道菜品都達到完美水準。在面對不同類型的"客戶"時,系統能夠選擇最適合的"廚師"來處理任務。

在實際測試中,SCOPE展現出了令人矚目的效果。在專業(yè)級別的HLE基準測試中,這個系統將任務成功率從14.23%提升到了38.64%,幾乎實現了三倍的性能提升。在GAIA基準測試中,成功率從32.73%躍升至56.97%。這種改善不是一次性的突破,而是隨著指導原則的積累而持續(xù)改進的過程。

研究團隊深入分析了超過150萬行執(zhí)行日志后,發(fā)現了兩種截然不同的失敗模式。糾正性失敗通常發(fā)生在AI收到明確錯誤信號時。比如,當系統提示"找不到final_answer工具"并明確列出可用工具列表時,AI卻繼續(xù)嘗試使用錯誤的工具名稱。這就像一個人明明看到門上寫著"拉",卻還在那里拼命推門一樣。更嚴重的情況下,AI甚至會在無法獲取真實數據時編造信息,這種行為在部署到真實環(huán)境中可能帶來嚴重的安全風險。

增強性失敗則更加微妙,它發(fā)生在沒有明顯錯誤的情況下。AI可能采用了技術上正確但效率極低的策略。例如,在搜索棒球相關信息時,AI只使用"walks"這個詞,而錯過了更專業(yè)的術語"base on balls"或縮寫"BB"。這就像用最原始的方法解決問題,雖然最終可能成功,但過程極其低效。

SCOPE的指導原則合成過程采用了創(chuàng)新的最佳N選擇機制。系統首先生成多個候選指導原則,然后通過專門的選擇器來挑選最優(yōu)方案,這個過程類似于舉辦一場內部創(chuàng)意比賽,讓多個方案競爭,最終選出最實用的指導原則。

在分類和路由階段,SCOPE使用專門的分類器來評估每個指導原則的通用性并分配置信度得分。高置信度的通用原則會被添加到戰(zhàn)略記憶中,在多個任務間保持有效。低置信度或任務特定的原則則被分配到戰(zhàn)術記憶中,僅在當前任務中有效。這種設計確保了系統既能學到長期有效的智慧,又不會被過于具體的臨時經驗所困擾。

記憶優(yōu)化是SCOPE的另一個重要特性。當戰(zhàn)略記憶中的指導原則數量超過預設閾值時,系統會自動觸發(fā)優(yōu)化流程。這個過程包括沖突解決、包含性修剪和整合三個步驟。沖突解決負責處理相互矛盾的指導原則,包含性修剪會移除被更通用原則覆蓋的具體規(guī)則,整合則將相似的指導原則合并為更全面的規(guī)則。

視角驅動探索機制讓SCOPE能夠同時維護多個優(yōu)化視角。效率視角專注于減少延遲和計算成本,傾向于快速失敗和工具切換策略。完整性視角則優(yōu)先考慮準確性和全面性,更傾向于嘗試多種方法和深度驗證。實驗結果顯示,這兩個視角在不同類型的任務上各有優(yōu)勢,它們的交集僅占33.94%,意味著約23%的解決方案是某個特定視角獨有的。

在具體實現上,研究團隊構建了一個分層多智能體系統作為基礎測試平臺。這個系統包含一個規(guī)劃智能體作為頂層協調者,以及多個專門的子智能體,包括網絡搜索、分析和瀏覽器智能體。每個智能體都配備了特定領域的工具,使用不同的語言模型以發(fā)揮各自的優(yōu)勢。

實驗結果顯示,SCOPE在多個維度上都表現出色。在專業(yè)知識密集型領域,如生物醫(yī)學和化學,系統的改進最為顯著。在生物醫(yī)學領域,準確率從14.9%提升至43.2%,在化學領域從14.1%躍升至50.3%。這些領域通常涉及專門的工具使用和復雜的協議,SCOPE的領域特定指導原則能夠有效幫助智能體恢復和優(yōu)化。

研究團隊還發(fā)現了一個反直覺的現象:將指導原則放置在系統提示詞中比放置在用戶提示詞中效果更好。系統提示詞放置方式實現了46.06%的準確率,而用戶提示詞放置方式僅達到41.21%。分析表明,系統提示詞作為隱性背景指導,允許智能體將指導原則內化并保持探索靈活性。相比之下,用戶提示詞中的指導原則被視為顯式命令,導致過度順從,智能體變得過于保守,提前終止任務而非持續(xù)探索。

在模型選擇方面,研究發(fā)現SCOPE的有效性與具體的元智能體模型選擇無關。無論使用GPT-4.1還是Gemini-2.5-Pro作為指導原則生成器,系統都能實現相似的性能表現,差異僅在1.2%以內。這一發(fā)現簡化了部署過程,允許實踐者根據成本或延遲需求而非準確性需求來選擇模型。

通過對指導原則分布的詳細分析,研究團隊發(fā)現增強型指導原則占所有合成指導原則的61%,這表明SCOPE主要是一個優(yōu)化器而非僅僅是錯誤調試工具。這種主動優(yōu)化的特性解釋了為什么SCOPE在錯誤率較低的情況下仍能持續(xù)改進,因為它能夠編碼成功模式來預防潛在失敗。

研究還揭示了一個重要的合規(guī)性現象:智能體確實會遵循合成的指導原則。通過語言采用分析,研究團隊發(fā)現智能體在SCOPE合成指導原則后,會在后續(xù)輸出中逐字采用相關措辭。例如,當系統合成了建議使用"合理標簽同義詞和短語變體"的指導原則后,智能體的后續(xù)輸出會直接包含這一確切措辭。這種直接的語言轉移提供了強有力的證據,證明指導原則被積極整合到智能體的決策制定過程中。

現代智能體系統的復雜性為這種動態(tài)優(yōu)化創(chuàng)造了獨特的機會。成功的GAIA軌跡平均需要16.4個步驟,復雜任務甚至超過30輪交互。系統由專門的子智能體組成,如瀏覽器和分析器,各自具有不同的失敗模式。這種異構性意味著優(yōu)化必須是智能體特定的。研究結果顯示,瀏覽器智能體積累了最多的指導原則,主要集中在應對網絡特定挑戰(zhàn)的效率指導上,而規(guī)劃智能體的指導原則則專注于工具使用,反映了其協調角色。

SCOPE框架的理論基礎在于將智能體的提示詞視為可進化的參數。與傳統的梯度優(yōu)化不同,由于提示詞空間是離散的,系統無法直接計算梯度。相反,SCOPE從執(zhí)行軌跡中合成自然語言指導原則,將離散優(yōu)化問題轉化為可操作的文本更新過程。這種方法使得每次智能體調用都成為應用學習指導原則的機會。

在安全性和可靠性方面,研究發(fā)現基礎智能體在面臨不確定性時存在編造信息的嚴重傾向。當遇到無法讀取的文件或無法訪問的網址時,智能體經常生成假設性分析,然后基于這些完全虛構的數據產生看似合理的最終答案。SCOPE通過提供明確的不確定性處理指導原則,顯著減少了這種危險行為。

這項研究的意義遠遠超出了技術層面的改進。它展示了一種新的AI發(fā)展范式,從靜態(tài)的、手工制作的指令轉向動態(tài)的、自適應的智能系統。這種方法不僅提高了性能,還為AI系統的持續(xù)學習和改進開辟了新的可能性。隨著AI技術在各個領域的應用日益廣泛,這種能夠從經驗中學習并自我改進的能力將變得越來越重要。

值得注意的是,SCOPE的成功不僅在于技術創(chuàng)新,還在于對AI智能體認知局限性的深刻理解。通過識別和解決糾正性失敗和增強性失敗這兩種根本性問題,研究團隊為整個AI領域提供了寶貴的見解。這種對問題本質的深入分析,結合創(chuàng)新的解決方案,使得SCOPE不僅是一個有效的技術工具,更是AI發(fā)展方向上的重要里程碑。

實驗驗證的廣度和深度也值得贊揚。研究團隊在多個具有挑戰(zhàn)性的基準測試上驗證了SCOPE的有效性,從專業(yè)級別的HLE測試到通用AI助手的GAIA評估,再到深度搜索的DeepSearch基準。這種全面的評估確保了研究結果的可靠性和普適性。

從實用角度來看,SCOPE的模型無關性使其能夠輕松集成到現有的AI系統中,無需對底層架構進行重大修改。這種設計哲學確保了研究成果能夠快速轉化為實際應用,為AI技術的產業(yè)化提供了有力支持。

總體而言,SCOPE代表了AI智能體技術發(fā)展的一個重要轉折點。它不僅解決了當前系統的關鍵問題,還為未來更加智能、自適應的AI系統奠定了基礎。隨著這一技術的進一步發(fā)展和應用,我們有望看到AI助手在各個領域發(fā)揮更大的作用,真正成為人類的得力助手。

Q&A

Q1:SCOPE系統如何幫助AI智能體避免重復犯錯?

A:SCOPE通過動態(tài)更新AI的指令系統來解決這個問題。就像給AI提供一本會自動更新的工作手冊,每當AI犯錯或找到更好的解決方法時,系統會自動在"手冊"中添加相應的指導原則。比如AI第一次因為工具名稱錯誤而失敗后,SCOPE會自動生成"使用正確工具名稱"的指導原則,確保下次不會犯同樣錯誤。

Q2:雙流路由機制是什么,為什么需要區(qū)分戰(zhàn)術和戰(zhàn)略指導?

A:雙流機制類似于區(qū)分"臨時筆記"和"長期經驗"。戰(zhàn)術流處理當前任務的具體問題,如"今天網絡很慢,要多等幾秒",這種指導只對當前任務有用。戰(zhàn)略流則提取通用原則,如"網絡請求失敗時應該重試三次",這種經驗可以在多個任務中重復使用。這樣既能解決當前問題,又能積累長期智慧。

Q3:視角驅動探索為什么要同時維護效率和完整性兩種視角?

A:這就像同時培訓一個快手廚師和一個精工廚師。效率視角追求快速解決問題,適合處理時間緊迫的簡單任務。完整性視角注重準確性和全面性,更適合復雜的專業(yè)任務。實驗顯示,約23%的成功案例是某個特定視角獨有的,這意味著單一視角會錯過很多解決方案,只有結合兩種視角才能應對各種不同類型的挑戰(zhàn)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

健康快樂丁
2026-01-01 19:11:26
我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

i書與房
2026-01-01 16:58:55
僅12天丟掉冠軍,《阿凡達3》被黃曉明打敗,210億票房夢徹底碎了

僅12天丟掉冠軍,《阿凡達3》被黃曉明打敗,210億票房夢徹底碎了

影視高原說
2026-01-01 09:21:50
2026年開始,為什么建議大家盡量使用現金支付,原因很現實

2026年開始,為什么建議大家盡量使用現金支付,原因很現實

李博世財經
2026-01-01 17:03:43
美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

興史興談
2025-12-31 18:51:20
房貸利率1月1日起下調

房貸利率1月1日起下調

財聞
2026-01-01 15:17:51
停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時代結束了?

停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時代結束了?

劉曠
2026-01-01 20:01:47
小米 17 Ultra的最強賣點,卻成了用戶退貨的理由

小米 17 Ultra的最強賣點,卻成了用戶退貨的理由

藍字計劃
2025-12-31 16:28:39
最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風7~8級,山東最新元旦假期天氣→

最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風7~8級,山東最新元旦假期天氣→

魯中晨報
2026-01-01 16:25:12
摔毛巾+提前離場!名嘴炮轟華子無領袖擔當 狼媒卻直指管理層摳門

摔毛巾+提前離場!名嘴炮轟華子無領袖擔當 狼媒卻直指管理層摳門

顏小白的籃球夢
2026-01-01 19:04:23
CBA最新消息!廣東男籃又傷主力,遼寧無換外援計劃 新疆官宣裁員

CBA最新消息!廣東男籃又傷主力,遼寧無換外援計劃 新疆官宣裁員

中國籃壇快訊
2026-01-01 15:51:34
喜訊!國足最強歸化來了?當事人親承確有其事,單賽季21球7助攻

喜訊!國足最強歸化來了?當事人親承確有其事,單賽季21球7助攻

羅掌柜體育
2026-01-01 10:38:06
馬克龍:將確保法國總統 選舉不受外國干預

馬克龍:將確保法國總統 選舉不受外國干預

每日經濟新聞
2026-01-01 09:47:14
一九七六年元旦社論 1976年1月1日《人民日報》

一九七六年元旦社論 1976年1月1日《人民日報》

那些看得見的老照片
2026-01-01 16:37:37
深夜!茅臺放大招:1499買飛天,每人每日限購12瓶!

深夜!茅臺放大招:1499買飛天,每人每日限購12瓶!

中國基金報
2026-01-01 00:13:38
劉伯承逝世后,有人建議照顧其后人,鄧小平當即拒絕:我們不能幫

劉伯承逝世后,有人建議照顧其后人,鄧小平當即拒絕:我們不能幫

歷史龍元閣
2025-12-30 13:35:08
國乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國戀情引熱議

國乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國戀情引熱議

體育就你秀
2026-01-01 09:17:30
給2025最好的10部國產劇排名:《生萬物》僅排第2,第1名沒有爭議

給2025最好的10部國產劇排名:《生萬物》僅排第2,第1名沒有爭議

小老頭奇聞
2026-01-01 19:28:01
朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

銘記歷史呀
2025-12-29 02:30:03
2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產

2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產

巢客HOME
2025-12-25 07:25:03
2026-01-01 20:48:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
896文章數 151關注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

體育要聞

2026,這些英超紀錄可能會被打破

娛樂要聞

跨年零點時刻好精彩!何炅飛奔擁抱

財經要聞

巴菲特「身退,權還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

時尚
親子
教育
藝術
房產

2025年,記住她們的名字!

親子要聞

這三種兒科檢查,可以當面拒絕醫(yī)生!

教育要聞

辭舊迎新 歡樂滿園 ——青島敦化路小學2026元旦慶?;顒泳驶仡?/h3>

藝術要聞

投資40億!湖南郴州最大的爛尾商場,誰在買單?

房產要聞

實景暴擊!??谶@個頂流紅盤,拋出準現房+頂級書包雙王炸!

無障礙瀏覽 進入關懷版