国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

威斯康辛大學與AWS聯(lián)手:讓AI智能體像熟練工匠一樣學會技能傳承

0
分享至


這項由威斯康辛大學的王炯曉博士與AWS智能體AI團隊聯(lián)合完成的研究發(fā)表于2025年12月的arXiv預印本平臺(編號:arXiv:2512.17102v1),有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究解決了一個困擾AI智能體發(fā)展的重要問題:如何讓它們在新環(huán)境中持續(xù)學習和自我改進。

在當今數(shù)字化時代,AI智能體已經(jīng)廣泛應用于代碼編寫、深度研究、個人助理和網(wǎng)頁瀏覽等各個領(lǐng)域。這些智能體就像是數(shù)字世界中的多面手,能夠處理復雜的任務和多輪對話。然而,有一個關(guān)鍵問題一直困擾著研究者:當這些智能體被部署到全新的環(huán)境中時,它們往往表現(xiàn)得像新手一樣,無法有效利用之前的經(jīng)驗來應對相似的任務。

設想這樣一個場景:一位經(jīng)驗豐富的木工師傅在面對不同的木工項目時,會將之前學會的技能——比如如何切割榫卯、如何打磨表面——應用到新的作品制作中。但現(xiàn)有的AI智能體卻缺乏這種"技能傳承"的能力。它們在訓練階段表現(xiàn)出色,但一旦遇到訓練時沒見過的情況,就像失去了記憶的工匠,需要重新摸索每一個步驟。

為了解決這個問題,研究團隊提出了一個創(chuàng)新的解決方案:建立一個"技能圖書館"系統(tǒng),讓AI智能體能夠像工匠傳承手藝一樣,將學會的技能保存下來,并在遇到類似任務時靈活調(diào)用。更重要的是,他們開發(fā)了一套名為SAGE(技能增強GRPO自我進化框架)的訓練方法,通過強化學習讓智能體學會如何更好地生成、驗證和應用這些技能。

這項研究的核心創(chuàng)新在于將技能庫的概念與強化學習緊密結(jié)合。傳統(tǒng)的技能庫方法主要依靠人工設計的提示詞來指導智能體使用技能,這就像給工匠一本說明書,但工匠的理解能力有限,往往無法準確執(zhí)行。而SAGE框架則通過強化學習的方式,讓智能體在實際操作中學會如何生成高質(zhì)量的技能,以及什么時候使用哪些技能,就像師傅帶徒弟一樣,通過反復練習和指導來提升技能水平。

在AppWorld數(shù)據(jù)集上的實驗結(jié)果令人印象深刻。經(jīng)過SAGE訓練的智能體在場景目標完成率上提升了8.9%,同時所需的交互步驟減少了26%,生成的代碼量減少了59%。這意味著智能體不僅變得更加準確,還變得更加高效。這就像是一個經(jīng)驗豐富的工匠,不僅能做出更好的作品,還能用更少的時間和材料完成任務。

一、技能庫智能體的設計理念

要理解這項研究的創(chuàng)新之處,我們首先需要了解什么是技能庫智能體。在傳統(tǒng)的AI智能體系統(tǒng)中,每當遇到一個新任務時,智能體都需要從零開始思考解決方案,就像每次做菜都要重新想配方一樣。而技能庫智能體則像是一個有經(jīng)驗的廚師,會將成功的菜譜保存在食譜本中,下次遇到類似的食材時就能快速找到合適的做法。

研究團隊采用了與以往方法不同的設計思路。之前的技能庫系統(tǒng)通常在完成整個任務后才開始總結(jié)和提取技能,這就像是一個廚師在做完一桌菜后才開始寫食譜。這種方法雖然能夠觀察到完整的制作過程,但在實際應用中存在兩個問題:對于復雜的長期任務,額外的技能生成過程會讓整個流程變得冗長;同時,將任務執(zhí)行和技能生成分離開來,可能導致學習效果不佳。

為了解決這些問題,研究團隊借鑒了DynaSaur方法的思路,將任務解決和技能生成統(tǒng)一到同一個框架中。當智能體與環(huán)境交互時,它不是直接調(diào)用多個API接口,而是首先生成一個可以保存為技能的程序函數(shù),然后調(diào)用這個函數(shù)來執(zhí)行任務。這就像是一個廚師在做菜的同時就在心里記錄每一個步驟,隨時可以形成新的菜譜。

具體來說,當面對一個任務時,智能體可以執(zhí)行四種不同的操作。第一種是技能使用:從技能庫中選擇合適的已有技能來處理當前任務,就像廚師從食譜本中找到合適的菜譜。第二種是技能生成:創(chuàng)建一個由多個操作組成的新技能函數(shù),然后立即調(diào)用它來處理任務,就像廚師根據(jù)現(xiàn)有食材創(chuàng)新出新的菜譜。第三種是技能更新:如果某個技能執(zhí)行失敗,智能體會修改這個技能并重新嘗試,就像廚師調(diào)整菜譜中的調(diào)料比例。第四種是技能保存:如果技能執(zhí)行成功,就將這個新技能或更新后的技能保存到技能庫中,供以后使用。

這種設計的巧妙之處在于,它讓技能的生成和使用變成了一個自然流暢的過程。智能體在解決問題的同時就在積累經(jīng)驗,不需要額外的步驟來總結(jié)和提取技能。這就像是一個經(jīng)驗豐富的工匠,在制作每一件作品的過程中都在完善自己的技藝。

二、SAGE框架的核心創(chuàng)新

SAGE框架是這項研究的核心貢獻,它巧妙地將強化學習與技能庫系統(tǒng)結(jié)合起來。要理解SAGE的工作原理,我們可以把它比作一個高級烹飪學校的訓練體系。

傳統(tǒng)的強化學習方法就像是讓學生單獨練習每一道菜,每次都從頭開始,無法積累烹飪技巧。而SAGE則設計了一種"連鎖訓練"的方法,叫做順序展開。在這種訓練方式中,智能體不是處理單獨的任務,而是處理一系列相關(guān)的任務,就像讓烹飪學生連續(xù)制作同一類型的幾道菜。

順序展開的工作機制是這樣的:研究團隊會給智能體提供一個任務鏈,其中包含兩個相似的任務。智能體首先處理第一個任務,在這個過程中生成的技能會被保存到技能庫中。接著處理第二個任務時,智能體就可以使用剛剛學會的技能。這就像是一個廚師先學會了如何制作基礎(chǔ)湯底,然后在制作另一道湯品時就可以直接使用這個湯底配方。

為了確保智能體能夠有效學習技能的生成和使用,研究團隊還設計了一套特殊的獎勵機制,稱為技能集成獎勵。這套獎勵機制不僅會根據(jù)任務是否完成來給予獎勵,還會根據(jù)技能的質(zhì)量和使用情況給予額外的獎勵。

具體來說,這套獎勵機制包含兩個組成部分。第一部分是基礎(chǔ)的任務完成獎勵,就像學生成功做出一道菜會得到基礎(chǔ)分數(shù)。第二部分是技能相關(guān)的額外獎勵,包括技能生成獎勵和技能使用獎勵。當智能體在第一個任務中生成的技能被成功用于第二個任務時,第一個任務會獲得額外的技能生成獎勵;當智能體在第二個任務中成功使用了之前生成的技能時,第二個任務會獲得技能使用獎勵。

這種獎勵機制的巧妙之處在于,它鼓勵智能體不僅要完成當前任務,還要考慮如何生成對未來任務有用的技能。就像一個好的廚師不僅要做好當前的菜,還要思考如何積累可以用于其他菜品的技巧。

為了防止智能體偷懶或者提供無用的回答,研究團隊還設置了一個懲罰機制:如果智能體沒有提供任何代碼就結(jié)束任務,會受到負分懲罰。這就像是對不認真學習的學生給予扣分處理。

三、實驗設計與數(shù)據(jù)集選擇

為了驗證SAGE框架的有效性,研究團隊選擇了AppWorld數(shù)據(jù)集作為實驗平臺。AppWorld是一個專門為評估工具使用智能體而設計的數(shù)據(jù)集,它模擬了9個日常應用程序的環(huán)境,包括亞馬遜購物、Spotify音樂、Venmo轉(zhuǎn)賬、Gmail郵件、Todoist任務管理、SimpleNote筆記、Splitwise賬單分攤、文件系統(tǒng)和電話等。

這個數(shù)據(jù)集的特點是高度貼近真實應用場景。智能體需要通過查閱API文檔、調(diào)用API接口、編寫程序代碼來完成各種日常數(shù)字任務,比如給室友發(fā)送轉(zhuǎn)賬、發(fā)送短信、管理任務清單等。整個環(huán)境包含457個不同的API接口,并且設置了100多個模擬用戶,讓智能體在一個接近真實世界的環(huán)境中進行學習和測試。

AppWorld數(shù)據(jù)集的結(jié)構(gòu)特別適合測試技能庫系統(tǒng)。整個數(shù)據(jù)集包含750個任務,這些任務被組織成250個場景,每個場景包含三個具有相似指令的任務。這種結(jié)構(gòu)天然符合SAGE的順序展開設計理念,因為同一場景內(nèi)的任務具有相似性,智能體在處理第一個任務時學到的技能很可能對后續(xù)任務有用。

研究團隊將數(shù)據(jù)集分為四個部分:訓練集(105個任務)、開發(fā)集(60個任務)、測試正常集(168個任務)和測試挑戰(zhàn)集(417個任務)。測試挑戰(zhàn)集特別有意思,它包含了訓練時沒有見過的亞馬遜和Gmail應用的API,專門用來測試智能體對未知API的泛化能力。

為了確保實驗的公平性和可比較性,研究團隊選擇了Qwen2.5-32B-Instruct作為基礎(chǔ)模型。這個選擇基于之前在AppWorld數(shù)據(jù)集上的相關(guān)研究,確保能夠與現(xiàn)有方法進行直接比較。

實驗的評估指標也很有針對性。除了傳統(tǒng)的任務目標完成率之外,研究團隊特別關(guān)注場景目標完成率,這個指標衡量的是在一個場景內(nèi)所有三個任務都成功完成的比例。這個指標特別適合評估技能傳遞的效果,因為只有當智能體能夠有效地在任務間傳遞和使用技能時,才能在整個場景內(nèi)保持穩(wěn)定的高性能。

為了評估智能體的效率,研究團隊還記錄了完成任務所需的平均交互步驟數(shù)和生成的代碼量。這些指標能夠反映出技能重用帶來的效率提升,因為成功的技能重用應該能夠減少重復工作,讓智能體更快地完成任務。

四、訓練過程的精妙設計

SAGE的訓練過程就像是設計一個精密的學習體系,每個環(huán)節(jié)都經(jīng)過精心考慮。由于開源模型在理解和執(zhí)行技能庫相關(guān)指令方面存在天然的局限性,研究團隊首先采用了監(jiān)督微調(diào)的方法來提升模型的基礎(chǔ)能力。

這個監(jiān)督微調(diào)過程可以比作讓一個初學者跟著大師學習基本功。研究團隊使用Claude 3.5 Sonnet V2這樣的先進模型作為"大師",讓它在技能庫智能體框架下生成高質(zhì)量的示范軌跡。這個過程采用了拒絕采樣的方法,就像是反復挑選最好的示范動作。

具體的數(shù)據(jù)收集過程是這樣進行的:研究團隊讓Claude模型在不同的溫度設置下(從0.05到1.0,以0.05為間隔)生成解決方案,每個場景最多嘗試10次。如果第二個任務失敗,通常意味著技能生成過程有問題,這樣的場景就會被丟棄。最終,他們收集了1129個有效的示例,這些示例展示了如何正確地生成和使用技能。

在監(jiān)督微調(diào)階段,研究團隊使用了特殊的訓練策略。由于收集到的軌跡包含多輪交互,他們只對智能體的回應部分進行梯度更新,而將提示詞和環(huán)境反饋部分遮蔽掉。這就像是在教學中只糾正學生的回答,而不改變問題本身。訓練采用了128的批量大小和1e-6的學習率,使用余弦調(diào)度策略,并設置了0.1的預熱比例。

經(jīng)過監(jiān)督微調(diào)的模型為后續(xù)的強化學習打下了堅實的基礎(chǔ)。在SAGE的強化學習階段,研究團隊對傳統(tǒng)的GRPO算法進行了專門的改進,以適應技能庫系統(tǒng)的特殊需求。

SAGE的強化學習過程采用了場景級別的采樣策略。不同于傳統(tǒng)方法隨機抽取單個任務,SAGE會先選擇一定數(shù)量的任務場景,然后在每個場景內(nèi)抽取兩個任務形成任務鏈。這種采樣方式確保了智能體能夠在相關(guān)任務之間進行技能傳遞的練習。

在每個訓練步驟中,研究團隊使用了訓練集中的24個場景,每個場景抽取兩個任務,共形成48個任務。每組使用8個智能體進行采樣,總共產(chǎn)生384個軌跡用于訓練。這個數(shù)量比基礎(chǔ)GRPO方法要大,因為順序展開過程需要更多的計算資源。

訓練過程中的獎勵計算特別精妙。對于任務鏈中的每個任務,系統(tǒng)會根據(jù)任務完成情況和技能使用情況計算綜合獎勵。第一個任務的獎勵包括基礎(chǔ)完成獎勵,以及當其生成的技能被第二個任務成功使用時的額外獎勵。第二個任務的獎勵包括基礎(chǔ)完成獎勵,以及成功使用第一個任務生成的技能時的額外獎勵。

這種獎勵機制創(chuàng)造了一個正向循環(huán):智能體被激勵生成高質(zhì)量、可重用的技能,同時也被激勵正確地識別和使用已有技能。就像是一個學習系統(tǒng),既獎勵創(chuàng)新,也獎勵對已有知識的有效運用。

研究團隊在訓練過程中還實施了細致的檢查點管理策略。他們每5個訓練步驟保存一次模型,并在開發(fā)集上評估性能。最終選擇在任務目標完成率和場景目標完成率組合得分最高的第75步模型作為最終版本。這種選擇策略確保了模型在技能傳遞能力方面的最優(yōu)化。

五、實驗結(jié)果的詳細分析

SAGE框架在AppWorld數(shù)據(jù)集上的實驗結(jié)果展現(xiàn)了令人矚目的性能提升。在測試正常集上,經(jīng)過SAGE訓練的智能體達到了72.0%的任務目標完成率和60.7%的場景目標完成率,相比基礎(chǔ)GRPO方法的69.2%和51.8%有了顯著提升。更重要的是,智能體的效率也得到了大幅改善,平均交互步驟從16.4步減少到12.1步,生成的代碼量從3613個tokens減少到1475個tokens。

這些數(shù)字背后反映的是技能重用帶來的實質(zhì)性改進。當智能體能夠有效地重用之前學到的技能時,它就不需要每次都從零開始思考解決方案,這就像是一個經(jīng)驗豐富的技術(shù)人員能夠快速解決問題,而不需要每次都查閱完整的操作手冊。

為了更深入地理解技能庫的作用,研究團隊進行了詳細的技能使用模式分析。他們發(fā)現(xiàn),經(jīng)過SAGE訓練的智能體在技能使用率和成功技能使用率方面都有顯著提升。技能使用率是指在有技能庫可用的情況下,智能體選擇使用技能的比例;成功技能使用率是指在使用技能的情況下,成功完成任務的比例。

分析結(jié)果顯示,基礎(chǔ)模型雖然能夠生成大量技能,但在技能質(zhì)量和使用效果方面存在明顯不足。經(jīng)過監(jiān)督微調(diào)后,模型的成功技能使用率有所提升,但在技能生成和主動使用方面仍然有限。只有經(jīng)過SAGE訓練后,智能體才展現(xiàn)出了優(yōu)秀的技能生成、選擇和使用能力。

研究團隊還進行了一系列消融實驗來驗證各個組件的重要性。他們發(fā)現(xiàn),僅僅擁有技能庫而沒有適當?shù)挠柧?,智能體的性能甚至可能下降,這說明技能庫的有效使用需要專門的學習過程。而順序展開和技能集成獎勵這兩個核心組件的結(jié)合,才真正實現(xiàn)了性能的突破。

在不同獎勵設計的對比實驗中,研究團隊驗證了技能集成獎勵相比于簡單的結(jié)果導向獎勵和鏈式獎勵的優(yōu)越性。結(jié)果導向獎勵只關(guān)注任務是否完成,缺乏對技能質(zhì)量的激勵;鏈式獎勵雖然考慮了任務鏈的整體成功,但沒有細致地區(qū)分技能生成和使用的貢獻。只有技能集成獎勵能夠精確地激勵智能體在技能生成和使用兩個方面都達到最優(yōu)。

特別有趣的是關(guān)于技能檢索方法的實驗。在實際應用中,任務往往沒有明確的場景標簽,智能體需要自主決定使用哪些技能。研究團隊測試了幾種不同的技能檢索方法,包括基于查詢詞匯重疊的方法、基于查詢語義嵌入的方法,以及基于技能功能嵌入的方法。結(jié)果顯示,精心設計的檢索機制能夠接近理想情況下的性能,這為技能庫系統(tǒng)的實際部署提供了可行的方案。

六、技術(shù)創(chuàng)新的深層意義

SAGE框架的成功不僅在于其優(yōu)異的實驗結(jié)果,更在于它為AI智能體的持續(xù)學習和自我改進開辟了新的道路。這項研究解決了長期困擾該領(lǐng)域的一個核心問題:如何讓智能體在新環(huán)境中有效利用之前的經(jīng)驗。

傳統(tǒng)的強化學習方法往往局限于特定的訓練場景,一旦環(huán)境發(fā)生變化,智能體就需要重新學習。這就像是培養(yǎng)了一個只會在特定廚房工作的廚師,換了廚房就不知所措。而SAGE框架通過技能庫系統(tǒng),讓智能體具備了"技能遷移"的能力,能夠?qū)⒃谝粋€環(huán)境中學到的經(jīng)驗應用到新的環(huán)境中。

這種技能遷移能力的實現(xiàn)依賴于幾個關(guān)鍵的設計決策。首先是統(tǒng)一的技能表示格式,將復雜的操作序列抽象為可重用的函數(shù),這為技能的存儲、檢索和應用提供了標準化的接口。其次是智能的技能生成策略,通過強化學習讓智能體學會生成既能解決當前問題又具有通用價值的技能。最后是有效的技能選擇機制,讓智能體能夠在面對新任務時快速識別和調(diào)用相關(guān)的技能。

SAGE框架的另一個重要貢獻是將技能的生成和使用過程無縫集成到智能體的決策過程中。傳統(tǒng)方法往往將技能學習視為一個獨立的階段,完成任務后再提取和總結(jié)技能。而SAGE讓智能體在解決問題的過程中就在學習和積累技能,這種"邊做邊學"的模式更符合人類專家的技能積累方式。

從更廣泛的角度來看,這項研究為構(gòu)建真正智能的自適應系統(tǒng)提供了重要啟示。在快速變化的技術(shù)環(huán)境中,系統(tǒng)能夠持續(xù)學習和適應新情況的能力變得越來越重要。SAGE框架展示了如何通過巧妙的系統(tǒng)設計和訓練策略,讓AI系統(tǒng)獲得這種持續(xù)學習的能力。

研究團隊在論文中也誠實地指出了當前工作的局限性。目前的實驗主要在AppWorld這一個數(shù)據(jù)集上進行,雖然這個數(shù)據(jù)集具有很好的代表性,但不同的應用場景可能需要不同的智能體設計。未來的工作需要在更多樣化的環(huán)境中驗證SAGE框架的通用性。

此外,當前的技能檢索機制雖然有效,但仍有進一步改進的空間。特別是在處理大規(guī)模技能庫時,如何快速準確地找到最相關(guān)的技能是一個需要繼續(xù)研究的問題。這就像是管理一個龐大的工具庫,需要有效的分類和索引系統(tǒng)來支持快速檢索。

七、應用前景與現(xiàn)實意義

SAGE框架的成功為AI智能體的實際應用開啟了新的可能性。在軟件開發(fā)領(lǐng)域,這種技能庫系統(tǒng)可以幫助代碼生成智能體積累編程經(jīng)驗,逐漸學會復雜的編程模式和最佳實踐。當智能體在處理一個新的編程任務時,它可以調(diào)用之前學到的代碼片段和解決方案,而不是每次都從基礎(chǔ)語法開始思考。

在客戶服務領(lǐng)域,技能庫智能體可以積累處理各種客戶問題的經(jīng)驗。每次成功解決一個客戶問題后,智能體可以將這個解決方案抽象為一個可重用的技能。當遇到類似問題時,智能體就能夠快速提供有效的解決方案,提升服務質(zhì)量和效率。

在教育技術(shù)領(lǐng)域,這種方法可以用來構(gòu)建自適應的學習系統(tǒng)。智能體可以根據(jù)不同學生的學習特點,積累有效的教學策略和方法。隨著與更多學生的交互,系統(tǒng)會變得越來越智能,能夠為每個學生提供最適合的學習方案。

在科學研究領(lǐng)域,技能庫系統(tǒng)可以幫助智能體積累實驗設計、數(shù)據(jù)分析和結(jié)果解釋的經(jīng)驗。這對于加速科學發(fā)現(xiàn)過程具有重要意義,特別是在需要處理大量數(shù)據(jù)和復雜實驗的領(lǐng)域。

然而,這項技術(shù)的廣泛應用也面臨一些挑戰(zhàn)。首先是技能質(zhì)量的保證問題。隨著技能庫規(guī)模的增長,如何確保其中的技能都是高質(zhì)量和有效的,是一個需要持續(xù)關(guān)注的問題。這就像是維護一個知識庫,需要有機制來識別和淘汰過時或錯誤的信息。

其次是技能泛化能力的問題。目前的研究主要關(guān)注在相似任務間的技能傳遞,但在實際應用中,智能體可能需要在差異很大的任務間進行技能遷移。如何提升技能的泛化能力,讓它們能夠適應更廣泛的應用場景,是一個有待進一步研究的問題。

安全性和可解釋性也是重要的考慮因素。在關(guān)鍵應用領(lǐng)域,我們需要確保智能體使用的技能是安全可靠的,并且能夠解釋為什么選擇特定的技能來解決問題。這對于建立用戶對智能體系統(tǒng)的信任至關(guān)重要。

盡管存在這些挑戰(zhàn),SAGE框架為構(gòu)建更智能、更自適應的AI系統(tǒng)指明了方向。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,這種具有持續(xù)學習能力的智能體將在各個領(lǐng)域發(fā)揮越來越重要的作用。

說到底,威斯康辛大學和AWS團隊的這項研究成果讓我們看到了AI智能體發(fā)展的一個重要轉(zhuǎn)折點。通過巧妙地結(jié)合技能庫系統(tǒng)和強化學習,他們創(chuàng)造了一種真正能夠"學會學習"的智能體。這就像是從訓練單一技能的工匠,轉(zhuǎn)向培養(yǎng)能夠不斷積累經(jīng)驗、持續(xù)改進的專業(yè)人才。

SAGE框架不僅在技術(shù)上實現(xiàn)了突破,更重要的是它為AI系統(tǒng)的未來發(fā)展提供了新的思路。在一個快速變化的世界中,能夠持續(xù)學習和適應的能力將成為智能系統(tǒng)的核心競爭力。這項研究表明,通過合適的設計和訓練方法,我們確實可以構(gòu)建出具有這種能力的AI系統(tǒng)。

對于普通人來說,這意味著未來的AI助手將變得更加智能和貼心。它們不會每次都給你千篇一律的回答,而是會根據(jù)積累的經(jīng)驗提供越來越個性化、越來越精準的服務。這種技術(shù)的成熟和普及,將真正讓AI成為我們生活和工作中的得力伙伴。

當然,這還只是一個開始。技術(shù)的發(fā)展需要時間,實際應用還需要解決許多工程和倫理方面的問題。但威斯康辛大學和AWS團隊的這項工作無疑為這個激動人心的未來鋪平了道路。有興趣深入了解技術(shù)細節(jié)的讀者,可以通過arXiv:2512.17102v1查找完整的論文。

Q&A

Q1:SAGE框架是什么?

A:SAGE是"技能增強GRPO自我進化框架"的簡稱,由威斯康辛大學和AWS團隊開發(fā)。它是一種讓AI智能體學會積累和重用技能的訓練方法,類似于讓智能體像經(jīng)驗豐富的工匠一樣,能夠?qū)W到的技能保存起來并在類似任務中重復使用。

Q2:技能庫智能體和普通AI智能體有什么區(qū)別?

A:普通AI智能體每次面對任務都要從零開始思考,而技能庫智能體會將成功的解決方案保存為"技能",下次遇到類似問題時可以直接調(diào)用這些技能。就像普通人每次做菜都要重新想配方,而有經(jīng)驗的廚師會積累食譜并重復使用。

Q3:SAGE框架在實驗中取得了什么成果?

A:在AppWorld數(shù)據(jù)集測試中,SAGE讓智能體的場景完成率提升了8.9%,同時交互步驟減少了26%,生成代碼量減少了59%。這說明智能體不僅變得更準確,還變得更高效,能用更少的時間和資源完成更多任務。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

健康快樂丁
2026-01-01 19:11:26
我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

i書與房
2026-01-01 16:58:55
僅12天丟掉冠軍,《阿凡達3》被黃曉明打敗,210億票房夢徹底碎了

僅12天丟掉冠軍,《阿凡達3》被黃曉明打敗,210億票房夢徹底碎了

影視高原說
2026-01-01 09:21:50
2026年開始,為什么建議大家盡量使用現(xiàn)金支付,原因很現(xiàn)實

2026年開始,為什么建議大家盡量使用現(xiàn)金支付,原因很現(xiàn)實

李博世財經(jīng)
2026-01-01 17:03:43
美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

興史興談
2025-12-31 18:51:20
房貸利率1月1日起下調(diào)

房貸利率1月1日起下調(diào)

財聞
2026-01-01 15:17:51
停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時代結(jié)束了?

停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時代結(jié)束了?

劉曠
2026-01-01 20:01:47
小米 17 Ultra的最強賣點,卻成了用戶退貨的理由

小米 17 Ultra的最強賣點,卻成了用戶退貨的理由

藍字計劃
2025-12-31 16:28:39
最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風7~8級,山東最新元旦假期天氣→

最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風7~8級,山東最新元旦假期天氣→

魯中晨報
2026-01-01 16:25:12
摔毛巾+提前離場!名嘴炮轟華子無領(lǐng)袖擔當 狼媒卻直指管理層摳門

摔毛巾+提前離場!名嘴炮轟華子無領(lǐng)袖擔當 狼媒卻直指管理層摳門

顏小白的籃球夢
2026-01-01 19:04:23
CBA最新消息!廣東男籃又傷主力,遼寧無換外援計劃 新疆官宣裁員

CBA最新消息!廣東男籃又傷主力,遼寧無換外援計劃 新疆官宣裁員

中國籃壇快訊
2026-01-01 15:51:34
喜訊!國足最強歸化來了?當事人親承確有其事,單賽季21球7助攻

喜訊!國足最強歸化來了?當事人親承確有其事,單賽季21球7助攻

羅掌柜體育
2026-01-01 10:38:06
馬克龍:將確保法國總統(tǒng) 選舉不受外國干預

馬克龍:將確保法國總統(tǒng) 選舉不受外國干預

每日經(jīng)濟新聞
2026-01-01 09:47:14
一九七六年元旦社論 1976年1月1日《人民日報》

一九七六年元旦社論 1976年1月1日《人民日報》

那些看得見的老照片
2026-01-01 16:37:37
深夜!茅臺放大招:1499買飛天,每人每日限購12瓶!

深夜!茅臺放大招:1499買飛天,每人每日限購12瓶!

中國基金報
2026-01-01 00:13:38
劉伯承逝世后,有人建議照顧其后人,鄧小平當即拒絕:我們不能幫

劉伯承逝世后,有人建議照顧其后人,鄧小平當即拒絕:我們不能幫

歷史龍元閣
2025-12-30 13:35:08
國乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國戀情引熱議

國乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國戀情引熱議

體育就你秀
2026-01-01 09:17:30
給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

小老頭奇聞
2026-01-01 19:28:01
朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

銘記歷史呀
2025-12-29 02:30:03
2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產(chǎn)

2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產(chǎn)

巢客HOME
2025-12-25 07:25:03
2026-01-01 20:48:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應用的實驗室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

體育要聞

2026,這些英超紀錄可能會被打破

娛樂要聞

跨年零點時刻好精彩!何炅飛奔擁抱

財經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

時尚
本地
手機
藝術(shù)
公開課

2025年,記住她們的名字!

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

手機要聞

疑似麒麟9050爆料:1+7+2十核架構(gòu)加持,多核跑分突破9200!

藝術(shù)要聞

投資40億!湖南郴州最大的爛尾商場,誰在買單?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版