国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

從物競天擇到智能進化,首篇自進化智能體綜述的ASI之路

0
分享至



近年來,大語言模型(LLM)已展現(xiàn)出卓越的通用能力,但其核心仍是靜態(tài)的。面對日新月異的任務、知識領域和交互環(huán)境,模型無法實時調整其內部參數(shù),這一根本性瓶頸日益凸顯。

當我們將視野從提升靜態(tài)模型的規(guī)模,轉向構建能夠實時學習和適應的動態(tài)智能體時,一個全新的范式——自進化智能體(Self-evolving Agents)——正引領著人工智能領域的變革。

然而,盡管學術界與工業(yè)界對自進化智能體的興趣與日俱增,但整個領域仍缺乏一個系統(tǒng)性的梳理與頂層設計。多數(shù)研究將「演化」作為智能體整體框架的一個子集,未能深入回答該領域三個最根本的問題:智能體的哪些部分應該演化(What)?演化何時發(fā)生(When)?以及,演化如何實現(xiàn)(How)?

為應對上述挑戰(zhàn),普林斯頓大學聯(lián)合多所頂尖機構的研究者們聯(lián)合發(fā)布了首個全面且系統(tǒng)的自進化智能體綜述。該綜述旨在為這一新興領域建立一個統(tǒng)一的理論框架和清晰的路線圖,最終為實現(xiàn)通用人工智能(AGI)乃至人工超級智能(ASI)鋪平道路。



  • 論文標題:A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
  • 論文地址:
  • https://arxiv.org/pdf/2507.21046
  • GitHub:
  • https://github.com/CharlesQ9/Self-Evolving-Agents
  • X (Twitter):
  • https://x.com/JiahaoQiu99/status/1950093150003089823

自進化智能體的形式化定義

為確保研究的嚴謹性,該綜述首先為「自進化智能體」提供了一套形式化的定義,為整個領域的研究和討論奠定了數(shù)學基礎。

  • 環(huán)境(Environment):智能體所處的環(huán)境被定義為一個部分可觀察馬爾可夫決策過程(POMDP)。這個環(huán)境包含了智能體需要實現(xiàn)的潛在目標(Goals)、環(huán)境的內部狀態(tài)(States)、智能體可以執(zhí)行的動作(Actions,如文本推理、工具調用)、狀態(tài)轉移概率,以及用于評估的反饋/獎勵函數(shù)(Reward Function)。智能體無法完全觀測到環(huán)境的全部狀態(tài),只能接收到觀測(Observations)。

  • 智能體系統(tǒng)(Agent System):一個智能體系統(tǒng)(Π)被解構為四個核心組成部分:

  • 架構(Γ):決定了系統(tǒng)的控制流程或多智能體間的協(xié)作結構。
  • 模型({ψi}):底層的語言模型或多模態(tài)模型。
  • 上下文({Ci}):包含提示(Prompts)和記憶(Memory)等信息。
  • 工具集({Wi}):智能體可用的工具或 API 集合。

  • 自進化策略(Self-evolving Strategy):這是定義的核心。一個自進化策略被形式化為一個轉換函數(shù)。該函數(shù)接收當前智能體系統(tǒng)(Π)、其在任務中生成的軌跡(τ)以及獲得的反饋(r)作為輸入,然后輸出一個全新的、經過演化的智能體系統(tǒng)(Π')。這個過程精確地描述了「進化」這一行為。
  • f
  • Π' = f(Π, τ, r)

  • 終極目標(Objective):自進化智能體的設計目標,是構建一個最優(yōu)的自進化策略,使得智能體在一系列連續(xù)任務上的累積效用(Cumulative Utility)最大化。這為所有演化方法提供了一個統(tǒng)一的優(yōu)化方向。
  • f



核心框架:四大維度定義智能體演化



該綜述的核心貢獻是圍繞「What、When、How、Where」四個維度,構建了一個用于分析和設計自進化智能體的完整框架,并系統(tǒng)梳理了相關的前沿技術。



What to Evolve?(演化什么?)

此維度明確了智能體系統(tǒng)中可以進行自我提升的四大核心支柱:

  • 模型(Models):這是智能體認知能力的核心。演化可以發(fā)生在兩個層面:一是決策策略(Policy)的優(yōu)化,例如通過自我生成挑戰(zhàn)性任務(如 SCA)或利用自然語言反饋進行在線微調(如 SELF、TextGrad),直接更新模型參數(shù);二是經驗(Experience)的積累與學習,智能體通過與環(huán)境交互(如 Reflexion 的自我反思機制、RAGEN 的強化學習框架)將成功或失敗的經驗轉化為學習信號,驅動迭代改進。

  • 上下文(Context):這是塑造智能體行為的動態(tài)信息流。演化體現(xiàn)在兩個方面:一是記憶(Memory)的演化,智能體需要學會動態(tài)管理其長期記憶,例如通過 Mem0 框架中的 ADD/MERGE/DELETE 機制來保持記憶的一致性,或像 Expel 一樣從經驗中提煉出可泛化的規(guī)則和見解;二是指令提示(Prompt)的自動化優(yōu)化,從簡單的候選提示生成(如 APE),到將整個工作流視為可微分程序進行聯(lián)合優(yōu)化的復雜框架(如 DSPy),再到面向多智能體系統(tǒng)的通信模式優(yōu)化(如 MASS)。

  • 工具(Tools):這是智能體與外部世界交互的橋梁,也是能力拓展的關鍵。其演化路徑可分為三步:首先是新工具的自主創(chuàng)造(Creation),智能體或通過探索式學習(如 Voyager),或通過響應式代碼生成(如 Alita)來彌補能力短板;其次是已有工具的精通(Mastery),通過自我糾錯循環(huán)(如 LearnAct)來修復和完善工具的功能與文檔;最后是管理與選擇(Management & Selection),當工具庫變得龐大時,智能體需要高效地檢索和組合工具,例如 ToolGen 將工具調用轉化為生成問題,而 AgentSquare 則通過元學習自動尋找最優(yōu)的組件配置。

  • 架構(Architecture):這是智能體系統(tǒng)的頂層設計。演化既可以針對單智能體,例如優(yōu)化其內部固定的工作流節(jié)點(如 TextGrad),甚至賦予其重寫自身源代碼的能力(如 Darwin G?del Machine);也可以針對多智能體系統(tǒng),例如通過蒙特卡洛樹搜索等方法自動發(fā)現(xiàn)最優(yōu)的協(xié)作流程(如 AFlow),或利用多智能體強化學習(如ReMA)來共同演化出高效的協(xié)同策略。



When to Evolve?(何時演化?)

演化的時機決定了學習與任務執(zhí)行的關系,主要分為兩大模式,每種模式下都可以運用上下文學習(ICL)、監(jiān)督微調(SFT)和強化學習(RL)等范式。

  • 測試時自進化(Intra-test-time Self-evolution):這指的是在任務執(zhí)行期間發(fā)生的實時適應。當智能體在解決某個特定問題時遇到障礙,它會即時啟動學習機制。例如,AdaPlanner 通過 ICL 在執(zhí)行中動態(tài)修正計劃;一些前沿工作探索了利用「self-edits」指令觸發(fā)即時 SFT 來更新模型權重;而 LADDER 框架則通過 RL 機制實現(xiàn)了「即時技能獲取」,在遇到難題時當場進行針對性訓練。

  • 測試間自進化(Inter-test-time Self-evolution):這是在任務執(zhí)行之后發(fā)生的、更主流的演化模式。智能體利用已完成任務的經驗積累,對自身能力進行迭代更新,為未來任務做準備。例如,STaR 和 SiriuS 等方法通過 SFT 范式,讓模型從自己成功或失敗的推理鏈中生成新的訓練數(shù)據,實現(xiàn)「自舉式」提升;而 RAGEN 和WebRL等框架則利用 RL,在任務間歇期通過大量與環(huán)境的交互來優(yōu)化策略。



How to Evolve?(如何演化?)

實現(xiàn)演化的具體方法論,即智能體如何將經驗和反饋轉化為能力提升,主要分為三大范式。

  • 基于獎勵的演化(Reward-based Evolution):這是最核心的演化驅動力,通過設計不同形式的獎勵信號來引導智能體。獎勵信號可以是非常豐富的:

  • 文本反饋(Textual Feedback):利用自然語言提供詳細、可解釋的改進建議,比單一的標量獎勵更具指導性(如 Reflexion)。
  • 內部獎勵(Internal Rewards):利用模型自身的置信度或不確定性作為獎勵,實現(xiàn)無外部監(jiān)督的自我評估與校準(如 CISC)。
  • 外部獎勵(External Rewards):來自環(huán)境的直接反饋(如工具執(zhí)行成功/失?。?、多數(shù)投票或顯式規(guī)則。
  • 隱式獎勵(Implicit Rewards):從沒有明確標記為「獎勵」的信號中學習,例如直接從模型 logits 中提取內生的獎勵函數(shù)。

  • 模仿與演示學習(Imitation & Demonstration Learning):智能體通過學習高質量的范例來提升能力,尤其適用于有充足專家數(shù)據或可以自生成高質量軌跡的場景。學習來源可以是自我生成的演示(如 STaR)、跨智能體的演示(如從共享的經驗庫中學習),或是兩者的混合。

  • 基于種群的演化方法(Population-based & Evolutionary Methods):這種方法借鑒生物進化思想,同時維護多個智能體變體或團隊,通過選擇、變異、競爭等機制并行探索廣闊的解空間,從而發(fā)現(xiàn)傳統(tǒng)優(yōu)化方法難以觸及的新穎策略與架構。其演化對象可以是單個智能體(如 Darwin G?del Machine 的開放式代碼進化),也可以是多智能體系統(tǒng)(如EvoMAC的「文本反向傳播」機制)。



Where to Evolve?(在何處演化?)

此維度明確了自進化智能體的應用場域,展示了其在不同類型任務中的演化路徑。

  • 通用領域演化(General Domain Evolution):這類智能體旨在成為多才多藝的數(shù)字助手,其演化目標是拓展在廣泛任務上的通用能力。實現(xiàn)這一目標的機制包括:

  • 記憶機制:智能體通過總結歷史成敗經驗,形成可復用的知識(如 Tips、Shortcuts),以應對未來的新任務。
  • 模型-智能體協(xié)同進化:智能體與其輔助模型(如獎勵模型、世界模型)共同進化,通過相互促進來提升整體性能和泛化能力。
  • 課程驅動訓練:系統(tǒng)能夠根據智能體的表現(xiàn)自動生成難度適宜的任務,形成一個自適應的「課程表」(如 WebRL),引導智能體由易到難地擴展能力。

  • 特定領域演化(Specialized Domain Evolution):這類智能體則專注于在某一垂直領域內「深耕」,通過演化成為該領域的專家。論文展示了其在多個領域的應用潛力:

  • 編碼(Coding):智能體可以自主修改代碼庫(如 SICA),或通過多智能體協(xié)作進行代碼生成、測試和優(yōu)化。
  • 圖形用戶界面(GUI):智能體通過與桌面、網頁和移動應用的真實交互來學習,從失敗軌跡中反思,或自動從界面中挖掘功能,實現(xiàn)對圖形界面的精準操控。
  • 金融(Financial):智能體通過在模擬和真實環(huán)境中進行交易,不斷迭代和優(yōu)化其量化策略與領域知識庫(如QuantAgent)。
  • 醫(yī)療(Medical):智能體在模擬醫(yī)院中「行醫(yī)」以提升診斷能力(如 Agent Hospital),或作為虛擬生物學家進行藥物靶點發(fā)現(xiàn)(如 OriGene)。
  • 教育(Education):智能體可以作為個性化導師,根據學生的反應調整教學策略(如 PACE),或作為教師助手,通過多智能體對抗來優(yōu)化課程計劃。



評估、挑戰(zhàn)與未來展望

除了構建核心理論框架,該綜述還詳細探討了自進化智能體的評估范式。評估自進化智能體不能再局限于靜態(tài)的準確率,而必須考察其動態(tài)能力。

論文提出了五大評估目標:適應性(Adaptivity)、知識保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety),并將其評估模式分為靜態(tài)評估、短時程自適應評估和長時程終身學習評估,為衡量這一新物種的能力提供了標尺。





最后,該綜述為領域的未來發(fā)展指明了方向,包括個性化 AI 智能體、提升泛化與跨域適應能力、構建安全可控的智能體、以及探索多智能體生態(tài)系統(tǒng)等關鍵挑戰(zhàn)。

通過這份全面的綜述,研究者和開發(fā)者可以獲得一個結構化的視角,來理解、比較并設計下一代更強大、更魯棒的自適應智能體系統(tǒng)。正如文中所指出的,自進化智能體的發(fā)展是通往人工超級智能(ASI)的關鍵基石,而解決好其在演化過程中的安全性、泛化性與可控性等挑戰(zhàn),將是未來研究的重中之重。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
身份證寫“長期”就終身不換?錯!2026年這4類人必須扎堆換證

身份證寫“長期”就終身不換?錯!2026年這4類人必須扎堆換證

小鹿姐姐情感說
2025-12-23 09:45:46
俄媒接連發(fā)出警告,東大若再繼續(xù)退讓求和,和平恐怕將永無可能!

俄媒接連發(fā)出警告,東大若再繼續(xù)退讓求和,和平恐怕將永無可能!

小lu侃侃而談
2025-12-22 19:12:49
弘一法師:真正聰明的人,從不糾纏別人的惡

弘一法師:真正聰明的人,從不糾纏別人的惡

杏花煙雨江南的碧園
2025-12-22 13:56:45
工信部發(fā)話:老百姓要什么,就造什么樣的電動車

工信部發(fā)話:老百姓要什么,就造什么樣的電動車

老特有話說
2025-12-20 22:13:36
大地色系的權威:棕色戰(zhàn)袍的靜默宣言

大地色系的權威:棕色戰(zhàn)袍的靜默宣言

疾跑的小蝸牛
2025-12-23 15:34:21
普京再談烏克蘭總統(tǒng)選舉,澤連斯基回應!俄總統(tǒng)助理:俄美烏三方會談尚未提上日程

普京再談烏克蘭總統(tǒng)選舉,澤連斯基回應!俄總統(tǒng)助理:俄美烏三方會談尚未提上日程

每日經濟新聞
2025-12-21 18:36:11
拜登好久沒出現(xiàn),一出現(xiàn)就隔空叫板中國!美最忌憚的不是東風導彈

拜登好久沒出現(xiàn),一出現(xiàn)就隔空叫板中國!美最忌憚的不是東風導彈

男女那點事兒兒
2025-12-23 15:07:43
硬剛中俄?與日本簽了稀土協(xié)議后,托卡耶夫直接趕往俄羅斯攤牌

硬剛中俄?與日本簽了稀土協(xié)議后,托卡耶夫直接趕往俄羅斯攤牌

愛意隨風起呀
2025-12-23 15:35:17
徐志勝穿450元舊衣服走紅毯,何廣智:掙的錢你也花點吧行不行!

徐志勝穿450元舊衣服走紅毯,何廣智:掙的錢你也花點吧行不行!

韓小娛
2025-12-22 09:36:11
中國龍脈上只埋了3個人:一個挖不開,一個不敢挖,一個不能挖

中國龍脈上只埋了3個人:一個挖不開,一個不敢挖,一個不能挖

銘記歷史呀
2025-12-23 01:21:21
聯(lián)盟第2+聯(lián)盟第3!湖人戰(zhàn)太陽前獲好消息,詹姆斯或復刻20年打法

聯(lián)盟第2+聯(lián)盟第3!湖人戰(zhàn)太陽前獲好消息,詹姆斯或復刻20年打法

小路看球
2025-12-23 15:59:17
破案!落后3分傳籃下,導致高詩巖如此抽象原因找到,張旭要背鍋

破案!落后3分傳籃下,導致高詩巖如此抽象原因找到,張旭要背鍋

后仰大風車
2025-12-23 07:10:06
事發(fā)上海街頭!實在扎眼,忍無可忍,兩個年輕人出手!一不小心成爆款,背后原因太戳人

事發(fā)上海街頭!實在扎眼,忍無可忍,兩個年輕人出手!一不小心成爆款,背后原因太戳人

新民晚報
2025-12-22 18:04:33
兒子被控強奸兩幼女,檢察官父親作無罪辯護

兒子被控強奸兩幼女,檢察官父親作無罪辯護

中國新聞周刊
2025-12-21 13:56:38
犧牲了只能換兩袋米兩桶油,柬埔寨士兵稱打仗不值得也無意義

犧牲了只能換兩袋米兩桶油,柬埔寨士兵稱打仗不值得也無意義

科普大世界
2025-12-20 23:14:58
甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

紅星新聞
2025-12-20 20:12:39
波爾:樊振東是GOAT!在中國無法正常生活 吃完飯戴口罩被送上車

波爾:樊振東是GOAT!在中國無法正常生活 吃完飯戴口罩被送上車

念洲
2025-12-23 09:20:25
震驚籃壇!半場16分+全場46分,全員被迫業(yè)啊,四川隊,散了吧

震驚籃壇!半場16分+全場46分,全員被迫業(yè)啊,四川隊,散了吧

球童無忌
2025-12-22 23:58:16
弘一法師:任何關系,走到最后,只不過是相識一場

弘一法師:任何關系,走到最后,只不過是相識一場

杏花煙雨江南的碧園
2025-12-17 11:59:51
一碗賣100元,“不接受差評,愛來不來”,上?!白詈贸缘狞S魚面”后廚曝光:鍋具“包漿”,調味料漆黑

一碗賣100元,“不接受差評,愛來不來”,上?!白詈贸缘狞S魚面”后廚曝光:鍋具“包漿”,調味料漆黑

每日經濟新聞
2025-12-22 22:53:06
2025-12-23 17:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11978文章數(shù) 142517關注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

頭條要聞

媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

頭條要聞

媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

阿信發(fā)聲報平安,曬演唱會向F3索吻畫面

財經要聞

祥源系百億產品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

本地
手機
健康
公開課
軍事航空

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

手機要聞

思特威、豪威國產旗艦傳感器大曝光:1/1.28英寸200Mp LOFIC

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中方回應烏克蘭或將制裁中國公民

無障礙瀏覽 進入關懷版