国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agent2World來了,把世界模型做成可運行的符號環(huán)境

0
分享至



讓模型真正 “能行動”,往往需要一個可執(zhí)行、可驗證的符號世界模型(Symbolic World Model):它不是抽象的文字描述,而是能被規(guī)劃器或執(zhí)行器直接調(diào)用的形式化定義 —— 例如 PDDL 領(lǐng)域 / 問題,或可運行的環(huán)境代碼 / 模擬器。一旦世界被 “寫成可運行的規(guī)則”,我們就能在同一套約束下進行推演、測試與復(fù)現(xiàn):模型不再停留在 “會說”,而是能回答 “如果我這樣做,會發(fā)生什么”,并用執(zhí)行結(jié)果檢驗自己是否真的理解了這個世界。

問題在于,現(xiàn)有自動生成路線普遍陷入三重困局:腳本式工作流、知識邊界封閉、表示覆蓋單一。許多方法仍沿用固定的 “生成 — 修復(fù)” 腳本,并以解析 / 規(guī)則匹配 / 固定檢查集等靜態(tài)校驗為主:它們或許能修語法與格式,卻常常抓不住只有在交互執(zhí)行中才暴露的行為級錯誤(例如狀態(tài)更新不一致、目標(biāo)不可達、獎勵機制失效)。與此同時,當(dāng)任務(wù)規(guī)格含糊、缺失關(guān)鍵規(guī)則或背景常識時,系統(tǒng)缺少主動檢索與補全機制,只能依賴模型記憶 “猜”。更關(guān)鍵的是,既有研究往往只覆蓋一種世界模型表示(只做 PDDL,或只做可執(zhí)行代碼),導(dǎo)致同一任務(wù)難以在不同符號表達之間共享驗證閉環(huán)與改進經(jīng)驗,限制了方法的通用性與可擴展性。

為攻克這一難題,研究團隊提出 Agent2World:一個工具增強(tool-augmented)的多智能體框架,用 “知識合成(Knowledge Synthesis)→ 世界模型實現(xiàn)(World Model Generation)→ 評估驅(qū)動精煉(Evaluation-Driven Refinement)” 的三階段閉環(huán),把 “查資料補規(guī)格 + 寫實現(xiàn) + 交互測試糾錯” 內(nèi)化為可復(fù)用的生成范式,從而穩(wěn)定產(chǎn)出高可執(zhí)行、可驗證的符號世界模型。

實驗結(jié)果顯示,Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戲) 三大基準(zhǔn)上均實現(xiàn)了 SOTA 性能。更關(guān)鍵的是,該框架展現(xiàn)了可持續(xù)改進潛力:基于 Agent2World 生成的高質(zhì)量軌跡進行微調(diào)(SFT)后,模型性能顯著躍升 —— 與訓(xùn)練前的同一模型相比,平均相對性能提升了 30.95%,有力證明了其作為高質(zhì)量世界模型數(shù)據(jù)合成引擎的工程與研究價值。



  • 論文地址: https://arxiv.org/abs/2512.22336
  • 項目地址: https://agent2world.github.io/
  • 模型地址: https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch
  • 代碼地址: https://github.com/DeepExperience/agent2world

一、深層歸因:為何傳統(tǒng) “腳本式” 生成難以為繼?

在 Agent2World 之前,自動生成世界模型的主流方案常采用固定的 “草稿 — 修復(fù)(Draft-Repair)” 腳本:生成代碼 → 跑錯 → 看報錯改代碼。它能修語法,但很難保證 "跑起來" 的世界是對的。

  • 被動腳本的死循環(huán): 缺乏前瞻性規(guī)劃,復(fù)雜任務(wù)里常陷入 “改一個 bug 引出新 bug” 的低效迭代。
  • 規(guī)格缺口帶來的幻覺: 描述不完整時,模型往往只能靠記憶 "猜" 規(guī)則邊界、接口細節(jié)與隱含前提,導(dǎo)致看似能跑、實則不自洽。
  • 表示覆蓋單一的 "符號孤島": 既有研究往往只覆蓋一種世界模型表示 —— 要么偏向 PDDL 的形式化規(guī)劃,要么偏向可執(zhí)行環(huán)境代碼。兩條路線各自為戰(zhàn),生成、驗證與修復(fù)經(jīng)驗難以跨表示共享與遷移,同一問題在不同符號表達下往往需要重做一套流程,最終限制了方法的通用性與可擴展性。

歸根結(jié)底,難點不只是 “寫出代碼”,而是要在真實約束下穩(wěn)定產(chǎn)出可執(zhí)行、可復(fù)現(xiàn)、可迭代的世界模型;而 “腳本式流程 + 單一表示覆蓋” 的組合,正是阻礙這一目標(biāo)的核心瓶頸之一。



二、方法拆解:把 "軟件開發(fā)團隊" 裝進模型里

Agent2World 的核心不是 "多拉幾個 agent 聊天",而是把世界模型生成拆成軟件工程式三階段:Researcher 補規(guī)格、Developer 做實現(xiàn)、Testing Team 用單測 + 仿真交互做行為級驗收,并把驗收反饋反哺修復(fù)。



1. Deep Researcher:主動打破知識壁壘

現(xiàn)實任務(wù)往往信息不完備:目標(biāo)相對清晰,但規(guī)則邊界、參數(shù)范圍、動作約束與接口細節(jié)并不完整,在不確定性與知識缺口的疊加下,極易導(dǎo)致事實性錯誤與幻覺。Deep Researcher 首先將任務(wù)描述分析并拆成一組待澄清問題(例如:允許的動作集合、狀態(tài)變量定義、終止條件、異常情況與邊界輸入等),它配備了網(wǎng)絡(luò)搜索和檢索工具,能夠迭代地從互聯(lián)網(wǎng)檢索構(gòu)建世界模型所需的知識,并最終輸出一個結(jié)構(gòu)化的中間表示,其中缺失的信息已得到補充。

2. Model Developer:統(tǒng)一跨模態(tài)表達

在獲得補全后的規(guī)格后,Model Developer 負責(zé)生成目標(biāo)世界模型(例如 PDDL 域 / 問題,或可執(zhí)行的環(huán)境代碼)。這一階段不以 “寫得像” 為目標(biāo),而以 “能執(zhí)行、接口連通、與規(guī)格一致” 為硬約束。

因此 Developer 會在受控沙盒中進行基礎(chǔ)運行檢查與增量修復(fù):一方面保證文件組織、函數(shù)簽名、依賴與調(diào)用鏈正確;另一方面確保狀態(tài)轉(zhuǎn)移、動作前置條件與效果、終止判定等核心邏輯與規(guī)格對齊。該階段的輸出是一個可以被執(zhí)行器 / 規(guī)劃器直接調(diào)用的環(huán)境實例。

3. Testing Team:雙重防線杜絕幻覺

這是框架中的關(guān)鍵組成部分。不同于以往依賴靜態(tài)驗證器的方法,Testing Team 引入了動態(tài)的、行為級的雙重驗證機制,專門捕捉只有在交互中才會暴露的邏輯錯誤。

  • Unit Tester:它自動分析代碼結(jié)構(gòu),生成 Pytest 風(fēng)格的單元測試用例。重點驗證接口契約(Contract)、謂詞邏輯和不變式(Invariants)。例如,檢查 step () 函數(shù)返回的狀態(tài)維度是否與定義一致,或 PDDL 中的動作前置條件是否完備。
  • Simulation Tester:這是一個基于 ReAct 框架的智能體,以交互方式在環(huán)境中采集軌跡并診斷深層的問題,如動力學(xué)錯誤 —— 例如 “機器人執(zhí)行了移動動作但坐標(biāo)未更新”、“獎勵函數(shù)在達到目標(biāo)后未正確觸發(fā)” 或 “狀態(tài)轉(zhuǎn)移違背物理常識”。

一旦發(fā)現(xiàn)問題,Testing Team 會輸出包含錯誤分析(Analysis)和修復(fù)建議(Suggest Fix)的結(jié)構(gòu)化報告,驅(qū)動 Developer 進行針對性修復(fù),直到通過所有測試或達到收斂條件。

進階:從推理到訓(xùn)練,構(gòu)建 "自進化" 的數(shù)據(jù)飛輪

Agent2World 的價值遠不止于一個推理框架,它本質(zhì)上是一個全自動的高質(zhì)量數(shù)據(jù)合成引擎。研究團隊通過 “任務(wù)合成 — 軌跡篩選 — 經(jīng)驗蒸餾” 的嚴(yán)密流程,將多智能體協(xié)作中的有效修復(fù)策略蒸餾為單體模型的生成與修復(fù)偏好。

  • 數(shù)據(jù)合成:驗證器引導(dǎo)的拒絕采樣,為了避免數(shù)據(jù)泄露并提升泛化性,團隊并未直接使用測試集題目,而是自主合成(Self-Synthesized)了大量涵蓋不同領(lǐng)域的全新任務(wù)。在此基礎(chǔ)上,系統(tǒng)利用 “驗證器引導(dǎo)的拒絕采樣(Verifier-Guided Rejection Sampling)” 機制,從海量生成結(jié)果中篩選出 1526 條既通過沙盒運行、又通過雙重測試校驗的軌跡。這套數(shù)據(jù)集完整記錄了 Developer 從錯誤代碼到修復(fù)成功的高密度軌跡,為模型提供了極高價值的邏輯糾錯樣本。
  • 監(jiān)督微調(diào):在訓(xùn)練階段,團隊精準(zhǔn)提取 Model Developer 的交互軌跡對 Llama-3.1-8B-Instruct 進行監(jiān)督微調(diào)。訓(xùn)練的核心目標(biāo)并非讓模型單純模仿多智能體對話,而是讓其學(xué)習(xí) Developer “如何理解模糊規(guī)格” 以及 “如何根據(jù) Testing Team 的報錯修復(fù)代碼”。通過這種方式,單體模型成功 “繼承” 了多智能體系統(tǒng)中 “根據(jù)反饋迭代(Iterative Refinement)” 的能力。

三、實驗驗證:橫掃三大基準(zhǔn),驗證 "數(shù)據(jù)飛輪" 效應(yīng)

Agent2World 在 Text2World(PDDL)/ CWMB(MuJoCo 可執(zhí)行模擬器)/ ByteSized32(文本游戲環(huán)境)三大基準(zhǔn)上都拿到領(lǐng)先表現(xiàn)。

1. Text2World (PDDL):

從 “能跑” 到 “懂邏輯” 的顯著提升。以 GPT-4.1-mini 為底座,在衡量 PDDL 代碼生成的基準(zhǔn)中,Agent2World Multi 明顯降低了代碼 “跑不通” 的失敗率,實現(xiàn)了 93.1% 的代碼可執(zhí)行率(Executability),相比強基線 Text2World ($EC=3$) 提升了 14.9 個百分點。更重要的是,它在衡量語義正確性的 Component-wise F1 指標(biāo)上達到了 75.4(基線僅為 60.1),提升幅度達 15.3 分。這表明模型不再只是機械地模仿 PDDL 語法,而是更加理解了謂詞約束與邏輯門控,生成了既符合語法又具備可解性的高質(zhì)量規(guī)劃域。



2. CWMB (MuJoCo)

不僅預(yù)測得準(zhǔn),更要 “好用” 。CWMB 同時評估 “仿真代碼是否能預(yù)測動力學(xué)”(Accuracy)與 “作為世界模型能否支撐下游規(guī)劃 / 控制”(Overall Normalized Return, R)。 在 GPT-4o-mini 上,Agent2World Multi 的 Overall R 達到 0.4811,相比此前最強基線 GIF-MCTS 的 0.3488 提升了 +0.132;并且在離散動作空間的預(yù)測準(zhǔn)確率上與強基線持平(0.917 vs 0.914)。這說明,性能的提升并非來自單純的下一幀預(yù)測相似度,而是源于模型實現(xiàn)了 “可用于規(guī)劃的行為級一致性”,真正支撐起了下游控制任務(wù)。



3. ByteSized32 (Text Games)

常識推理與物理現(xiàn)實的高度一致性。在極度依賴常識推理的文本游戲中,Deep Researcher 的主動知識檢索發(fā)揮了很大的作用。Agent2World Multi 在核心指標(biāo) “物理現(xiàn)實對齊度(Physical Reality Alignment)” 上取得了 0.4768 的高分,相比單智能體版本(Single Agent)大幅提升了 0.2848 。 此外,在技術(shù)有效性(Technical Validity)上,模型生成的游戲代碼初始化成功率接近 99% 。這些數(shù)據(jù)表明,通過引入外部知識與多輪測試,模型成功消除了大量違反常識的 “物理幻覺”(如錯誤的狀態(tài)轉(zhuǎn)移或不合邏輯的物品交互),生成了邏輯嚴(yán)密且更穩(wěn)定的文本環(huán)境。





4. 模型微調(diào)實驗

基于自主合成的高質(zhì)量軌跡數(shù)據(jù)(訓(xùn)練僅使用 Model Developer 軌跡),團隊對 Llama-3.1-8b-instruct 進行了監(jiān)督微調(diào)。實驗表明,這種 “以 Agent 養(yǎng) Model” 的策略帶來了顯著的泛化能力提升:微調(diào)后的模型在未見過的測試任務(wù)(Unseen Tasks)上,平均相對性能提升了 30.95%。特別是在 Text2World 任務(wù)中,模型生成的代碼可執(zhí)行率(Executability)提升高達 16.9%。這有力證明了,無需依賴昂貴的超大模型,僅憑小參數(shù)模型配合優(yōu)質(zhì)的 “自我修正” 合成數(shù)據(jù),也能實現(xiàn)向高性能世界模型構(gòu)建者的跨越。

5. 消融實驗

缺一不可的雙引擎(基于 CWMB 驗證) 為了探究 Agent2World 卓越性能的來源,團隊在 CWMB(物理控制) 任務(wù)上進行了嚴(yán)苛的組件消融實驗。結(jié)果證實,Deep Researcher 與 Testing Team 均是構(gòu)建高可靠世界模型不可或缺的組件:

  • 移除 Deep Researcher(知識引擎缺失): 模型生成的模擬器在整體歸一化回報(Overall Normalized Return, R)上出現(xiàn)顯著下滑。這表明,在缺乏對物理參數(shù)與 API 規(guī)范的主動檢索時,模型定義的環(huán)境規(guī)則會出現(xiàn) “失真”,導(dǎo)致下游 Agent 無法在模擬中學(xué)習(xí)到在真實環(huán)境中有用的策略。
  • 但當(dāng)移除unit tester后,在離散動作空間的預(yù)測準(zhǔn)確率顯著下降約 30%。移除simulation tester,也會同比下降約3%。這揭示了一個關(guān)鍵發(fā)現(xiàn):“能運行” 不等于 “物理正確”。沒有動態(tài)交互產(chǎn)生的行為級反饋,模型很難在該設(shè)置下修正深層的動力學(xué)錯誤(如重力模擬偏差),生成的模擬器也因此失去了實用價值。



四、結(jié)語:開啟 AI 自主理解環(huán)境的新可能

Agent2World 的提出,標(biāo)志著統(tǒng)一多智能體框架在符號世界模型生成領(lǐng)域的成功應(yīng)用。它不僅打破了 PDDL 規(guī)劃與可執(zhí)行代碼之間的表征壁壘,更通過 "網(wǎng)絡(luò)知識合成 - 迭代式模型開發(fā) - 評估驅(qū)動仿真測試" 的精密閉環(huán),在無需人工標(biāo)注與人工驗收的前提下,實現(xiàn)自動化的生成 — 測試 — 修復(fù)閉環(huán),從而穩(wěn)定產(chǎn)出可執(zhí)行、可復(fù)現(xiàn)、可迭代的符號世界模型。這一突破不僅在三大基準(zhǔn)測試中一致性地刷新了 SOTA,更為未來 AI 系統(tǒng)從自然語言中可靠地理解并形式化復(fù)雜的現(xiàn)實環(huán)境,開辟了全新的可能性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《王牌特工》男主演“禿”然亮相驚呆網(wǎng)友,此前被稱為“英倫男神”,頭發(fā)茂密

《王牌特工》男主演“禿”然亮相驚呆網(wǎng)友,此前被稱為“英倫男神”,頭發(fā)茂密

紅星新聞
2026-02-26 20:22:15
偉大的2-0!中國金花爆冷名將進8強,1戰(zhàn)創(chuàng)3紀(jì)錄,排名又上升!

偉大的2-0!中國金花爆冷名將進8強,1戰(zhàn)創(chuàng)3紀(jì)錄,排名又上升!

劉姚堯的文字城堡
2026-02-27 13:23:23
玄武門之變,李世民為啥只霸占李元吉之妻,卻沒霸占李建成老婆?

玄武門之變,李世民為啥只霸占李元吉之妻,卻沒霸占李建成老婆?

老媹古裝影視解說
2026-02-26 20:08:25
斯諾克4強出爐!吳宜澤沖紀(jì)錄,希金斯阻擊小司機,丁俊暉受益?

斯諾克4強出爐!吳宜澤沖紀(jì)錄,希金斯阻擊小司機,丁俊暉受益?

劉姚堯的文字城堡
2026-02-28 08:07:02
梅婷請“小姑子”吃飯,劉琳紅毛衣配牛仔褲很松弛,大口喝酒豪爽

梅婷請“小姑子”吃飯,劉琳紅毛衣配牛仔褲很松弛,大口喝酒豪爽

瘋說時尚
2026-02-27 09:54:37
你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜耍烤W(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
“臺獨記者”范琪斐,狂黑大陸幾十年,現(xiàn)在下場大快人心

“臺獨記者”范琪斐,狂黑大陸幾十年,現(xiàn)在下場大快人心

愛下廚的阿釃
2026-02-27 13:20:09
杉杉集團破產(chǎn),事實證明:美女主持人只會排節(jié)目,對管理無能為力

杉杉集團破產(chǎn),事實證明:美女主持人只會排節(jié)目,對管理無能為力

來科點譜
2026-02-27 07:29:21
繃不住了,醫(yī)院已進入月薪三千時代!

繃不住了,醫(yī)院已進入月薪三千時代!

黯泉
2026-02-27 22:23:12
軸承可能是機器人產(chǎn)業(yè)中最賺錢的賽道,大摩預(yù)測25年內(nèi)增長300倍

軸承可能是機器人產(chǎn)業(yè)中最賺錢的賽道,大摩預(yù)測25年內(nèi)增長300倍

DeepTech深科技
2026-02-27 19:30:17
巴拿馬剛接管港口,李嘉誠就出手,長和開始大清倉,海量資產(chǎn)甩賣

巴拿馬剛接管港口,李嘉誠就出手,長和開始大清倉,海量資產(chǎn)甩賣

夢想的現(xiàn)實
2026-02-28 04:30:02
看完《鏢人》,對塑料古偶應(yīng)激了!滿屏假頭套的痛,此刻盡數(shù)爆發(fā)

看完《鏢人》,對塑料古偶應(yīng)激了!滿屏假頭套的痛,此刻盡數(shù)爆發(fā)

八卦南風(fēng)
2026-02-24 16:26:16
曝林孝埈在隊內(nèi)訓(xùn)練時被劉氏兄弟犯規(guī) 其韓國教練抗議后遭到解雇

曝林孝埈在隊內(nèi)訓(xùn)練時被劉氏兄弟犯規(guī) 其韓國教練抗議后遭到解雇

風(fēng)過鄉(xiāng)
2026-02-28 06:27:46
曾叫板董明珠,老牌空調(diào)巨頭倒在春節(jié)前

曾叫板董明珠,老牌空調(diào)巨頭倒在春節(jié)前

螺旋實驗室
2026-02-25 18:38:13
春節(jié)后第一批受害者:超市老板哭訴禮盒滯銷,今年大家終于清醒了

春節(jié)后第一批受害者:超市老板哭訴禮盒滯銷,今年大家終于清醒了

北緯的咖啡豆
2026-02-26 23:08:30
韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

八卦南風(fēng)
2026-02-25 13:37:35
昆凌知三當(dāng)三,周杰倫綠了田馥甄???

八卦瘋叔
2026-02-27 10:35:17

繼美國之后,巴基斯坦向阿富汗宣戰(zhàn)了!巴基斯坦這么膨脹了?

繼美國之后,巴基斯坦向阿富汗宣戰(zhàn)了!巴基斯坦這么膨脹了?

青青子衿
2026-02-27 16:54:21
柬埔寨國王太后赴華體檢 汪文斌大使送行

柬埔寨國王太后赴華體檢 汪文斌大使送行

看看新聞Knews
2026-02-27 16:04:02
40歲網(wǎng)紅鳳姐又發(fā)文了!稱這輩子太不容易,撐到現(xiàn)在全靠不甘心

40歲網(wǎng)紅鳳姐又發(fā)文了!稱這輩子太不容易,撐到現(xiàn)在全靠不甘心

談史論天地
2026-02-27 12:41:53
2026-02-28 09:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12374文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

家居
數(shù)碼
旅游
教育
公開課

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

消息稱蘋果有兩款Studio Display 2顯示器:高端機型接口更先進

旅游要聞

春節(jié)假期后機票、酒店價格回落!中老年群體成錯峰游主力

教育要聞

剛剛!考研,出分!(附歷年國家線)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版