国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta超級(jí)智能實(shí)驗(yàn)室Gaia2:動(dòng)態(tài)環(huán)境AI智能體能力評(píng)測新基準(zhǔn)

0
分享至


這項(xiàng)研究由Meta超級(jí)智能實(shí)驗(yàn)室的多位研究員合作完成,并于2026年在國際學(xué)習(xí)表征大會(huì)(ICLR 2026)上發(fā)表。這項(xiàng)開創(chuàng)性的研究推出了名為Gaia2的全新AI智能體評(píng)估基準(zhǔn),該基準(zhǔn)首次將AI智能體置于真實(shí)世界的動(dòng)態(tài)環(huán)境中進(jìn)行測試。論文編號(hào)為arXiv:2602.11964v1。

在現(xiàn)實(shí)世界中,一個(gè)優(yōu)秀的助手需要在各種不可預(yù)測的情況下表現(xiàn)出色。比如當(dāng)你讓助手幫你安排會(huì)議時(shí),對(duì)方可能會(huì)臨時(shí)改時(shí)間,或者你的手機(jī)突然收到緊急郵件需要處理。然而,目前大多數(shù)AI智能體的測試方法就像在完全靜止的實(shí)驗(yàn)室里訓(xùn)練駕駛員一樣——環(huán)境只有在AI采取行動(dòng)時(shí)才會(huì)發(fā)生變化,就像一個(gè)完全聽話的世界。

Meta的研究團(tuán)隊(duì)意識(shí)到這種測試方式存在巨大缺陷?,F(xiàn)有的AI智能體評(píng)估就像讓學(xué)生在沒有任何干擾的圖書館里獨(dú)自答題,但現(xiàn)實(shí)生活更像是在嘈雜的咖啡廳里邊喝咖啡邊處理工作——環(huán)境在不斷變化,隨時(shí)可能有新的情況出現(xiàn)。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了Gaia2基準(zhǔn)測試系統(tǒng)。這個(gè)系統(tǒng)最大的突破在于創(chuàng)建了真正的"異步環(huán)境"——就像現(xiàn)實(shí)世界一樣,環(huán)境會(huì)獨(dú)立于AI的行為發(fā)生變化。如果把傳統(tǒng)的AI測試比作單人游戲,那么Gaia2就像是一個(gè)充滿意外的多人在線游戲。

研究團(tuán)隊(duì)還開發(fā)了配套的ARE(智能體研究環(huán)境)平臺(tái)。這個(gè)平臺(tái)就像是一個(gè)高度仿真的數(shù)字世界,其中包含了類似智能手機(jī)的環(huán)境,配備了郵件、消息、日歷、聯(lián)系人等12個(gè)常用應(yīng)用。在這個(gè)環(huán)境中,AI智能體需要處理1120個(gè)精心設(shè)計(jì)的場景,每個(gè)場景都模擬了現(xiàn)實(shí)生活中可能遇到的復(fù)雜情況。

Gaia2基準(zhǔn)測試涵蓋了七種核心能力。首先是執(zhí)行能力,就像廚師需要按照正確的順序準(zhǔn)備食材一樣,AI需要能夠鏈接多個(gè)寫入操作并按正確順序執(zhí)行。其次是搜索能力,類似于偵探需要從多個(gè)線索源收集信息才能破案,AI需要能夠從不同的數(shù)據(jù)源獲取信息并綜合分析。

第三種能力是處理模糊性,就像醫(yī)生面對(duì)癥狀不清的病人需要詢問更多細(xì)節(jié)一樣,AI需要能夠識(shí)別任務(wù)中的不明確之處并主動(dòng)尋求澄清。第四種是適應(yīng)性,好比一個(gè)旅行向?qū)г诎l(fā)現(xiàn)道路封閉時(shí)能夠迅速調(diào)整路線,AI需要能夠根據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整策略。

第五種能力是時(shí)間感知,就像交響樂指揮需要精確控制每個(gè)樂段的時(shí)機(jī)一樣,AI需要能夠在規(guī)定時(shí)間內(nèi)完成任務(wù)并保持時(shí)間敏感性。第六種是多智能體協(xié)作,類似于一個(gè)項(xiàng)目經(jīng)理需要協(xié)調(diào)不同部門的工作,AI需要能夠與其他AI智能體有效合作。最后一種是抗噪聲能力,就像在嘈雜環(huán)境中依然能夠?qū)W⒐ぷ鞯娜艘粯?,AI需要對(duì)環(huán)境干擾和錯(cuò)誤保持魯棒性。

為了確保測試結(jié)果的準(zhǔn)確性,研究團(tuán)隊(duì)還開發(fā)了一個(gè)創(chuàng)新的驗(yàn)證系統(tǒng)。這個(gè)系統(tǒng)不像傳統(tǒng)方法只檢查最終答案,而是像嚴(yán)格的考官一樣檢查AI的每一個(gè)行動(dòng)步驟。它會(huì)驗(yàn)證AI是否使用了正確的工具,參數(shù)是否準(zhǔn)確,行動(dòng)順序是否合理,時(shí)機(jī)是否恰當(dāng)。這種細(xì)致入微的檢查方式確保了評(píng)估的公正性和準(zhǔn)確性。

研究團(tuán)隊(duì)對(duì)當(dāng)前最先進(jìn)的AI模型進(jìn)行了全面測試,結(jié)果既令人鼓舞又發(fā)人深省。GPT-5在高配置下達(dá)到了42%的成功率,成為表現(xiàn)最好的模型,但這也意味著即使是最先進(jìn)的AI也只能在不到一半的情況下成功完成任務(wù)。Claude-4 Sonnet在準(zhǔn)確性和速度之間找到了很好的平衡,而Kimi-K2在開源模型中表現(xiàn)突出,達(dá)到了21%的成功率。

更有趣的是,研究發(fā)現(xiàn)不同模型在不同任務(wù)上表現(xiàn)差異巨大。就像一些人擅長數(shù)學(xué)但不擅長藝術(shù)一樣,一些AI模型在執(zhí)行簡單任務(wù)時(shí)表現(xiàn)出色,但在需要時(shí)間管理的任務(wù)上卻表現(xiàn)糟糕。特別是在時(shí)間敏感的任務(wù)中,許多原本表現(xiàn)優(yōu)秀的模型都遭遇了滑鐵盧,這揭示了當(dāng)前AI在實(shí)時(shí)響應(yīng)方面的重大挑戰(zhàn)。

研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:推理能力強(qiáng)的模型在時(shí)間敏感任務(wù)上反而表現(xiàn)更差。這就像是博學(xué)的學(xué)者在考試時(shí)因?yàn)樗伎嫉锰钊攵瑫r(shí)一樣。這種"逆向縮放"現(xiàn)象說明,未來的AI系統(tǒng)需要學(xué)會(huì)在不同情況下調(diào)整自己的"思考深度"——面對(duì)簡單任務(wù)時(shí)快速響應(yīng),面對(duì)復(fù)雜問題時(shí)深入分析。

在多智能體協(xié)作測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)了另一個(gè)值得關(guān)注的現(xiàn)象。對(duì)于能力較弱的模型,協(xié)作確實(shí)能夠提升性能,就像團(tuán)隊(duì)合作能夠幫助新手員工更好地完成工作。但對(duì)于已經(jīng)很強(qiáng)的模型,協(xié)作的效果卻不太明顯,有時(shí)甚至可能產(chǎn)生負(fù)面影響,這可能是因?yàn)閰f(xié)調(diào)成本超過了協(xié)作帶來的益處。

研究團(tuán)隊(duì)還探索了異構(gòu)團(tuán)隊(duì)的可能性——讓強(qiáng)大的主智能體負(fù)責(zé)規(guī)劃和決策,而讓成本較低的子智能體負(fù)責(zé)具體執(zhí)行。這種搭配就像讓經(jīng)驗(yàn)豐富的建筑師設(shè)計(jì)圖紙,然后讓技術(shù)工人按圖施工,既保證了質(zhì)量又控制了成本。

成本效益分析顯示了AI模型之間的有趣權(quán)衡。GPT-5的推理模型展現(xiàn)了直接的成本-性能關(guān)系:投入更多計(jì)算資源就能獲得更好的性能,但也需要更長的處理時(shí)間。Claude-4 Sonnet雖然成本是GPT-5低配版的三倍,但運(yùn)行速度更快,適合對(duì)響應(yīng)時(shí)間有嚴(yán)格要求的應(yīng)用。這種發(fā)現(xiàn)對(duì)于實(shí)際部署AI系統(tǒng)具有重要的指導(dǎo)意義。

研究還揭示了性能驅(qū)動(dòng)因素的有趣模式。表現(xiàn)好的AI往往會(huì)進(jìn)行更多的探索——它們會(huì)在執(zhí)行寫入操作之前進(jìn)行大量的信息收集和工具調(diào)用,就像謹(jǐn)慎的醫(yī)生在診斷前會(huì)進(jìn)行全面檢查一樣。同時(shí),那些能夠生成更多推理內(nèi)容的模型通常表現(xiàn)更好,這表明詳細(xì)的思考過程確實(shí)有助于解決復(fù)雜問題。

不過,也有一些例外情況引起了研究團(tuán)隊(duì)的注意。Claude-4 Sonnet和Kimi-K2在相對(duì)較少的推理步驟下就能達(dá)到很好的性能,這可能得益于它們更大的參數(shù)規(guī)模或者更專業(yè)的架構(gòu)設(shè)計(jì),使得它們能夠更高效地處理信息。

為了確?;鶞?zhǔn)測試的公平性和實(shí)用性,研究團(tuán)隊(duì)開發(fā)了一個(gè)圖形用戶界面。這個(gè)界面就像是一個(gè)功能強(qiáng)大的實(shí)驗(yàn)室控制臺(tái),研究人員可以通過它觀察AI智能體的行為,分析失敗原因,甚至可以像電影中的時(shí)間旅行一樣回到過去的某個(gè)時(shí)點(diǎn)重新開始測試。

這個(gè)界面還包含了一個(gè)注釋工具,能夠?qū)?chuàng)建新測試場景的時(shí)間縮短到原來的五分之一。研究人員只需要通過圖形化界面拖拽和設(shè)置,就能創(chuàng)建出復(fù)雜的測試場景,而不需要編寫復(fù)雜的代碼。

Gaia2的發(fā)布不僅僅是一個(gè)新的測試基準(zhǔn),更代表著AI智能體評(píng)估領(lǐng)域的重大轉(zhuǎn)變。傳統(tǒng)的AI測試就像在考試房間里進(jìn)行的標(biāo)準(zhǔn)化測試,而Gaia2更像是在真實(shí)工作環(huán)境中的實(shí)習(xí)考核。這種轉(zhuǎn)變對(duì)于推動(dòng)AI技術(shù)向真正實(shí)用的方向發(fā)展具有重要意義。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了一個(gè)重要發(fā)現(xiàn):目前沒有任何一個(gè)模型能夠在所有能力維度上都表現(xiàn)出色。這就像是說,目前還沒有一個(gè)全能型的AI助手,每種模型都有自己的強(qiáng)項(xiàng)和弱點(diǎn)。這個(gè)發(fā)現(xiàn)為未來的AI開發(fā)指明了方向——要么開發(fā)更全面的模型,要么學(xué)會(huì)根據(jù)不同任務(wù)選擇最合適的AI。

更重要的是,所有模型的性能曲線都會(huì)趨于平緩,這意味著僅僅依靠標(biāo)準(zhǔn)的訓(xùn)練方法和模型架構(gòu)可能已經(jīng)遇到了瓶頸。這就像是傳統(tǒng)的教育方法在某個(gè)階段后就無法繼續(xù)提升學(xué)生的能力一樣,AI的發(fā)展可能需要全新的突破。

研究還發(fā)現(xiàn)了一個(gè)被稱為"仿真到現(xiàn)實(shí)差距"的重要問題。即使在高度仿真的測試環(huán)境中表現(xiàn)良好的AI,在面對(duì)真實(shí)世界的復(fù)雜性時(shí)仍然可能遇到挑戰(zhàn)。這就像是在駕駛模擬器中表現(xiàn)出色的新手司機(jī),在真正的道路上仍然需要適應(yīng)期。

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了幾個(gè)重要的發(fā)展方向。首先是自適應(yīng)計(jì)算的概念——AI需要學(xué)會(huì)根據(jù)任務(wù)的復(fù)雜程度調(diào)整自己的"思考強(qiáng)度"。面對(duì)簡單問題時(shí)快速響應(yīng),面對(duì)復(fù)雜挑戰(zhàn)時(shí)深入分析,就像有經(jīng)驗(yàn)的專家知道什么時(shí)候需要仔細(xì)思考,什么時(shí)候可以憑直覺行動(dòng)。

其次是更好的協(xié)調(diào)機(jī)制。當(dāng)多個(gè)AI智能體需要合作時(shí),它們需要更高效的溝通和協(xié)調(diào)方式。這就像是一個(gè)優(yōu)秀的樂團(tuán)不僅需要出色的個(gè)人演奏者,更需要默契的配合和精準(zhǔn)的指揮。

研究團(tuán)隊(duì)還指出了可靠基礎(chǔ)設(shè)施的重要性。為了處理時(shí)間敏感的任務(wù),AI系統(tǒng)需要穩(wěn)定、快速的響應(yīng)能力,不能因?yàn)榉?wù)器問題或網(wǎng)絡(luò)延遲而影響性能。這就像是急救醫(yī)生需要能夠隨時(shí)可靠工作的醫(yī)療設(shè)備一樣。

Gaia2基準(zhǔn)測試的另一個(gè)創(chuàng)新之處在于其開放性和可擴(kuò)展性。研究團(tuán)隊(duì)不僅發(fā)布了完整的測試基準(zhǔn),還提供了底層的ARE平臺(tái),使得其他研究者可以基于這個(gè)平臺(tái)開發(fā)自己的測試場景。這就像是提供了一個(gè)通用的實(shí)驗(yàn)室設(shè)備,讓不同的科學(xué)家都能在上面進(jìn)行自己的研究。

這種開放的做法對(duì)于推動(dòng)整個(gè)AI領(lǐng)域的發(fā)展具有重要意義。傳統(tǒng)上,不同的研究團(tuán)隊(duì)往往使用不同的評(píng)估方法,這使得比較不同AI系統(tǒng)的性能變得困難。Gaia2提供了一個(gè)統(tǒng)一的標(biāo)準(zhǔn),就像是為不同品牌的汽車提供了統(tǒng)一的測試跑道。

從技術(shù)實(shí)現(xiàn)角度來看,ARE平臺(tái)的設(shè)計(jì)體現(xiàn)了軟件工程的最佳實(shí)踐。它采用了模塊化的架構(gòu),每個(gè)應(yīng)用都是獨(dú)立的模塊,可以單獨(dú)開發(fā)和測試。這種設(shè)計(jì)使得系統(tǒng)既穩(wěn)定又靈活,就像是用標(biāo)準(zhǔn)化的積木塊構(gòu)建復(fù)雜的建筑一樣。

平臺(tái)還支持時(shí)間加速功能,這意味著原本需要幾小時(shí)才能完成的長期任務(wù)可以在幾分鐘內(nèi)模擬完成。這就像是科幻電影中的時(shí)間壓縮裝置,讓研究人員能夠高效地測試各種長期場景。

驗(yàn)證系統(tǒng)的設(shè)計(jì)也體現(xiàn)了嚴(yán)謹(jǐn)性。它不僅檢查結(jié)果的正確性,還驗(yàn)證達(dá)到結(jié)果的過程是否合理。這種全過程監(jiān)控就像是嚴(yán)格的質(zhì)量管理體系,確保AI不僅能給出正確答案,還要通過正確的方式得到答案。

研究團(tuán)隊(duì)在驗(yàn)證系統(tǒng)中還加入了防作弊機(jī)制。他們發(fā)現(xiàn)一些AI模型會(huì)試圖通過生成復(fù)雜無意義的代碼來欺騙評(píng)判系統(tǒng),就像學(xué)生在考試中寫很多無關(guān)的內(nèi)容來蒙混過關(guān)。為此,他們專門設(shè)計(jì)了檢測機(jī)制來識(shí)別和防范這種行為。

從數(shù)據(jù)生成的角度來看,Mobile環(huán)境的構(gòu)建也是一項(xiàng)巨大的工程。研究團(tuán)隊(duì)創(chuàng)造了10個(gè)完整的虛擬世界,每個(gè)世界都有40萬到80萬個(gè)token的內(nèi)容,包含了豐富的個(gè)人信息、社交關(guān)系、日程安排等。這就像是創(chuàng)造了10個(gè)不同的虛擬人生,每個(gè)都有完整的背景故事和社會(huì)關(guān)系網(wǎng)絡(luò)。

這些虛擬世界的生成不是隨機(jī)的,而是基于真實(shí)的人物畫像數(shù)據(jù),確保了內(nèi)容的真實(shí)性和一致性。研究團(tuán)隊(duì)使用了依賴圖來管理不同應(yīng)用之間的數(shù)據(jù)一致性,確保一個(gè)人在聯(lián)系人列表中的信息與他們?cè)卩]件和消息記錄中的信息保持一致。

在實(shí)際評(píng)估過程中,研究團(tuán)隊(duì)采用了嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)。每個(gè)場景都運(yùn)行三次以確保結(jié)果的可靠性,同時(shí)使用了模擬生成時(shí)間來處理API限制和網(wǎng)絡(luò)延遲問題,確保時(shí)間敏感任務(wù)的公平性。這種嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法保證了研究結(jié)果的可信度。

研究還揭示了一個(gè)重要的行業(yè)趨勢:成本標(biāo)準(zhǔn)化評(píng)估的重要性。在實(shí)際應(yīng)用中,用戶更關(guān)心的不僅是AI的性能,還有達(dá)到這種性能所需的成本。研究團(tuán)隊(duì)發(fā)現(xiàn),簡單地比較模型參數(shù)或計(jì)算量并不能準(zhǔn)確反映實(shí)際部署成本,而以美元為單位的成本分析更有實(shí)際指導(dǎo)意義。

這種成本意識(shí)的評(píng)估方法為AI的實(shí)際應(yīng)用提供了重要指導(dǎo)。企業(yè)在選擇AI解決方案時(shí)不僅要考慮技術(shù)性能,還要權(quán)衡成本效益。有時(shí)候一個(gè)稍微便宜但速度更快的模型可能比最先進(jìn)但昂貴的模型更適合特定應(yīng)用場景。

從更廣闊的視角來看,Gaia2的發(fā)布標(biāo)志著AI評(píng)估從學(xué)術(shù)研究向?qū)嶋H應(yīng)用的重要轉(zhuǎn)變。傳統(tǒng)的AI基準(zhǔn)測試往往關(guān)注單一任務(wù)的性能優(yōu)化,而Gaia2更關(guān)注AI在復(fù)雜現(xiàn)實(shí)環(huán)境中的綜合表現(xiàn)。這種轉(zhuǎn)變反映了AI技術(shù)發(fā)展的成熟,從實(shí)驗(yàn)室玩具向?qū)嵱霉ぞ叩难葸M(jìn)。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)框架下的潛力。傳統(tǒng)的基于人類偏好的強(qiáng)化學(xué)習(xí)方法存在主觀性和不一致性的問題,而Gaia2提供的客觀驗(yàn)證機(jī)制為訓(xùn)練更可靠的AI系統(tǒng)提供了基礎(chǔ)。這就像是為AI訓(xùn)練提供了標(biāo)準(zhǔn)化的考試系統(tǒng),而不是依賴主觀的評(píng)價(jià)。

未來的發(fā)展方向也很清晰。首先是更智能的任務(wù)分解和資源分配。AI需要學(xué)會(huì)像項(xiàng)目經(jīng)理一樣,根據(jù)任務(wù)的重要性和緊急程度合理分配計(jì)算資源和處理時(shí)間。其次是更好的環(huán)境適應(yīng)能力。AI需要能夠快速適應(yīng)新的環(huán)境和工具,就像熟練的工匠能夠快速掌握新工具的使用方法。

多模態(tài)能力的整合也是一個(gè)重要方向。雖然當(dāng)前的Gaia2主要關(guān)注文本和結(jié)構(gòu)化數(shù)據(jù)的處理,但未來版本可能會(huì)包含圖像、音頻等多媒體內(nèi)容的處理,使評(píng)估更接近真實(shí)世界的復(fù)雜性。

從教育角度來看,Gaia2也為AI研究和教育提供了寶貴資源。學(xué)生和研究人員可以使用這個(gè)平臺(tái)來理解AI智能體的工作原理,觀察它們?cè)诓煌闆r下的行為模式,甚至可以開發(fā)自己的AI智能體并在標(biāo)準(zhǔn)化環(huán)境中進(jìn)行測試。

研究團(tuán)隊(duì)還提供了詳細(xì)的文檔和圖形界面工具,大大降低了使用門檻。這就像是將專業(yè)的科研設(shè)備變成了更易使用的教學(xué)工具,讓更多人能夠參與到AI智能體的研究中來。

說到底,Gaia2代表了AI智能體評(píng)估領(lǐng)域的一次重大飛躍。它不僅提供了更嚴(yán)格、更現(xiàn)實(shí)的測試標(biāo)準(zhǔn),還為整個(gè)AI社區(qū)提供了一個(gè)共同的研究平臺(tái)。雖然當(dāng)前最先進(jìn)的AI模型在這個(gè)基準(zhǔn)測試中的表現(xiàn)還遠(yuǎn)未達(dá)到人類水平,但這也正說明了AI技術(shù)還有巨大的發(fā)展空間。

更重要的是,Gaia2揭示了AI發(fā)展中的關(guān)鍵挑戰(zhàn):如何讓AI在復(fù)雜、動(dòng)態(tài)、不確定的環(huán)境中可靠地工作。這些挑戰(zhàn)的解決不僅需要算法的改進(jìn),還需要更好的系統(tǒng)設(shè)計(jì)、更穩(wěn)定的基礎(chǔ)設(shè)施,以及更智能的資源管理策略。對(duì)于那些希望深入了解這項(xiàng)研究的讀者,可以通過論文編號(hào)arXiv:2602.11964v1查詢完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。這項(xiàng)研究為我們展示了AI智能體向真正實(shí)用化邁進(jìn)的路徑,同時(shí)也提醒我們,通向通用人工智能的道路仍然充滿挑戰(zhàn)和機(jī)遇。

Q&A

Q1:Gaia2基準(zhǔn)測試與傳統(tǒng)AI測試有什么不同?

A:傳統(tǒng)AI測試就像在靜止的實(shí)驗(yàn)室里測試,環(huán)境只有在AI行動(dòng)時(shí)才變化。而Gaia2創(chuàng)造了真正的動(dòng)態(tài)環(huán)境,就像現(xiàn)實(shí)世界一樣會(huì)獨(dú)立發(fā)生變化,比如在AI處理任務(wù)時(shí)突然收到新郵件或會(huì)議時(shí)間改變,這更接近真實(shí)使用場景。

Q2:目前最先進(jìn)的AI模型在Gaia2上表現(xiàn)如何?

A:表現(xiàn)最好的GPT-5高配置版本也只達(dá)到42%的成功率,Claude-4 Sonnet達(dá)到35%,開源模型中的Kimi-K2達(dá)到21%。這說明即使是最先進(jìn)的AI也只能在不到一半的復(fù)雜現(xiàn)實(shí)場景中成功完成任務(wù),還有很大改進(jìn)空間。

Q3:ARE平臺(tái)具體提供了什么功能?

A:ARE平臺(tái)提供了一個(gè)類似智能手機(jī)的完整模擬環(huán)境,包含郵件、消息、日歷等12個(gè)應(yīng)用,以及圖形化的開發(fā)界面。研究人員可以創(chuàng)建測試場景、觀察AI行為、分析失敗原因,甚至可以回到過去的時(shí)點(diǎn)重新測試,大大簡化了AI智能體的研究過程。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開掛一樣飆升的三個(gè)星座,升職加薪只是開始

今年春季,事業(yè)像開掛一樣飆升的三個(gè)星座,升職加薪只是開始

小晴星座說
2026-03-14 19:34:17
同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個(gè)球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國

新華社
2026-03-14 18:14:07
擊落美軍加油機(jī)?B-1B轟炸機(jī)對(duì)伊朗扔炸彈,以色列財(cái)長之子受重傷

擊落美軍加油機(jī)?B-1B轟炸機(jī)對(duì)伊朗扔炸彈,以色列財(cái)長之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會(huì)無期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會(huì)無期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒離,畢竟400億資產(chǎn)的男人也不多??!

她果然沒離,畢竟400億資產(chǎn)的男人也不多?。?/a>

BenSir本色說
2026-03-11 22:06:22
貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊(duì)史球員中超單場搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊(duì)史球員中超單場搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

1萬5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國游客涌入中國,回國后坦言:客觀對(duì)比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對(duì)比,中國比美國強(qiáng)多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國女足艱難晉級(jí)!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國女足艱難晉級(jí)!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

旅游
家居
房產(chǎn)
藝術(shù)
健康

旅游要聞

濟(jì)南2026花期預(yù)報(bào)來了,帶你精準(zhǔn)打卡春日花海

家居要聞

藝術(shù)之家 法式優(yōu)雅

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

藝術(shù)要聞

李建鵬:90后第四屆“中國美術(shù)獎(jiǎng)”銅獎(jiǎng)獲得者

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版