網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Agent2World來了，把世界模型做成可運(yùn)行的符號(hào)環(huán)境

2026-02-02 15:24:04　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

讓模型真正 “能行動(dòng)”，往往需要一個(gè)可執(zhí)行、可驗(yàn)證的符號(hào)世界模型（Symbolic World Model）：它不是抽象的文字描述，而是能被規(guī)劃器或執(zhí)行器直接調(diào)用的形式化定義 —— 例如 PDDL 領(lǐng)域 / 問題，或可運(yùn)行的環(huán)境代碼 / 模擬器。一旦世界被 “寫成可運(yùn)行的規(guī)則”，我們就能在同一套約束下進(jìn)行推演、測(cè)試與復(fù)現(xiàn)：模型不再停留在 “會(huì)說”，而是能回答 “如果我這樣做，會(huì)發(fā)生什么”，并用執(zhí)行結(jié)果檢驗(yàn)自己是否真的理解了這個(gè)世界。

問題在于，現(xiàn)有自動(dòng)生成路線普遍陷入三重困局：腳本式工作流、知識(shí)邊界封閉、表示覆蓋單一。許多方法仍沿用固定的 “生成 — 修復(fù)” 腳本，并以解析 / 規(guī)則匹配 / 固定檢查集等靜態(tài)校驗(yàn)為主：它們或許能修語法與格式，卻常常抓不住只有在交互執(zhí)行中才暴露的行為級(jí)錯(cuò)誤（例如狀態(tài)更新不一致、目標(biāo)不可達(dá)、獎(jiǎng)勵(lì)機(jī)制失效）。與此同時(shí)，當(dāng)任務(wù)規(guī)格含糊、缺失關(guān)鍵規(guī)則或背景常識(shí)時(shí)，系統(tǒng)缺少主動(dòng)檢索與補(bǔ)全機(jī)制，只能依賴模型記憶 “猜”。更關(guān)鍵的是，既有研究往往只覆蓋一種世界模型表示（只做 PDDL，或只做可執(zhí)行代碼），導(dǎo)致同一任務(wù)難以在不同符號(hào)表達(dá)之間共享驗(yàn)證閉環(huán)與改進(jìn)經(jīng)驗(yàn)，限制了方法的通用性與可擴(kuò)展性。

為攻克這一難題，研究團(tuán)隊(duì)提出 Agent2World：一個(gè)工具增強(qiáng)（tool-augmented）的多智能體框架，用 “知識(shí)合成（Knowledge Synthesis）→ 世界模型實(shí)現(xiàn)（World Model Generation）→ 評(píng)估驅(qū)動(dòng)精煉（Evaluation-Driven Refinement）” 的三階段閉環(huán)，把 “查資料補(bǔ)規(guī)格 + 寫實(shí)現(xiàn) + 交互測(cè)試糾錯(cuò)” 內(nèi)化為可復(fù)用的生成范式，從而穩(wěn)定產(chǎn)出高可執(zhí)行、可驗(yàn)證的符號(hào)世界模型。

實(shí)驗(yàn)結(jié)果顯示，Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戲) 三大基準(zhǔn)上均實(shí)現(xiàn)了 SOTA 性能。更關(guān)鍵的是，該框架展現(xiàn)了可持續(xù)改進(jìn)潛力：基于 Agent2World 生成的高質(zhì)量軌跡進(jìn)行微調(diào)（SFT）后，模型性能顯著躍升 —— 與訓(xùn)練前的同一模型相比，平均相對(duì)性能提升了 30.95%，有力證明了其作為高質(zhì)量世界模型數(shù)據(jù)合成引擎的工程與研究?jī)r(jià)值。

論文地址： https://arxiv.org/abs/2512.22336
項(xiàng)目地址： https://agent2world.github.io/
模型地址： https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch
代碼地址： https://github.com/DeepExperience/agent2world

一、深層歸因：為何傳統(tǒng) “腳本式” 生成難以為繼？

在 Agent2World 之前，自動(dòng)生成世界模型的主流方案常采用固定的 “草稿 — 修復(fù)（Draft-Repair）” 腳本：生成代碼 → 跑錯(cuò) → 看報(bào)錯(cuò)改代碼。它能修語法，但很難保證 "跑起來" 的世界是對(duì)的。

被動(dòng)腳本的死循環(huán)：缺乏前瞻性規(guī)劃，復(fù)雜任務(wù)里常陷入 “改一個(gè) bug 引出新 bug” 的低效迭代。
規(guī)格缺口帶來的幻覺：描述不完整時(shí)，模型往往只能靠記憶 "猜" 規(guī)則邊界、接口細(xì)節(jié)與隱含前提，導(dǎo)致看似能跑、實(shí)則不自洽。
表示覆蓋單一的 "符號(hào)孤島"：既有研究往往只覆蓋一種世界模型表示 —— 要么偏向 PDDL 的形式化規(guī)劃，要么偏向可執(zhí)行環(huán)境代碼。兩條路線各自為戰(zhàn)，生成、驗(yàn)證與修復(fù)經(jīng)驗(yàn)難以跨表示共享與遷移，同一問題在不同符號(hào)表達(dá)下往往需要重做一套流程，最終限制了方法的通用性與可擴(kuò)展性。

歸根結(jié)底，難點(diǎn)不只是 “寫出代碼”，而是要在真實(shí)約束下穩(wěn)定產(chǎn)出可執(zhí)行、可復(fù)現(xiàn)、可迭代的世界模型；而 “腳本式流程 + 單一表示覆蓋” 的組合，正是阻礙這一目標(biāo)的核心瓶頸之一。

二、方法拆解：把 "軟件開發(fā)團(tuán)隊(duì)" 裝進(jìn)模型里

Agent2World 的核心不是 "多拉幾個(gè) agent 聊天"，而是把世界模型生成拆成軟件工程式三階段：Researcher 補(bǔ)規(guī)格、Developer 做實(shí)現(xiàn)、Testing Team 用單測(cè) + 仿真交互做行為級(jí)驗(yàn)收，并把驗(yàn)收反饋反哺修復(fù)。

1. Deep Researcher：主動(dòng)打破知識(shí)壁壘

現(xiàn)實(shí)任務(wù)往往信息不完備：目標(biāo)相對(duì)清晰，但規(guī)則邊界、參數(shù)范圍、動(dòng)作約束與接口細(xì)節(jié)并不完整，在不確定性與知識(shí)缺口的疊加下，極易導(dǎo)致事實(shí)性錯(cuò)誤與幻覺。Deep Researcher 首先將任務(wù)描述分析并拆成一組待澄清問題（例如：允許的動(dòng)作集合、狀態(tài)變量定義、終止條件、異常情況與邊界輸入等），它配備了網(wǎng)絡(luò)搜索和檢索工具，能夠迭代地從互聯(lián)網(wǎng)檢索構(gòu)建世界模型所需的知識(shí)，并最終輸出一個(gè)結(jié)構(gòu)化的中間表示，其中缺失的信息已得到補(bǔ)充。

2. Model Developer：統(tǒng)一跨模態(tài)表達(dá)

在獲得補(bǔ)全后的規(guī)格后，Model Developer 負(fù)責(zé)生成目標(biāo)世界模型（例如 PDDL 域 / 問題，或可執(zhí)行的環(huán)境代碼）。這一階段不以 “寫得像” 為目標(biāo)，而以 “能執(zhí)行、接口連通、與規(guī)格一致” 為硬約束。

因此 Developer 會(huì)在受控沙盒中進(jìn)行基礎(chǔ)運(yùn)行檢查與增量修復(fù)：一方面保證文件組織、函數(shù)簽名、依賴與調(diào)用鏈正確；另一方面確保狀態(tài)轉(zhuǎn)移、動(dòng)作前置條件與效果、終止判定等核心邏輯與規(guī)格對(duì)齊。該階段的輸出是一個(gè)可以被執(zhí)行器 / 規(guī)劃器直接調(diào)用的環(huán)境實(shí)例。

3. Testing Team：雙重防線杜絕幻覺

這是框架中的關(guān)鍵組成部分。不同于以往依賴靜態(tài)驗(yàn)證器的方法，Testing Team 引入了動(dòng)態(tài)的、行為級(jí)的雙重驗(yàn)證機(jī)制，專門捕捉只有在交互中才會(huì)暴露的邏輯錯(cuò)誤。

Unit Tester：它自動(dòng)分析代碼結(jié)構(gòu)，生成 Pytest 風(fēng)格的單元測(cè)試用例。重點(diǎn)驗(yàn)證接口契約（Contract）、謂詞邏輯和不變式（Invariants）。例如，檢查 step () 函數(shù)返回的狀態(tài)維度是否與定義一致，或 PDDL 中的動(dòng)作前置條件是否完備。
Simulation Tester：這是一個(gè)基于 ReAct 框架的智能體，以交互方式在環(huán)境中采集軌跡并診斷深層的問題，如動(dòng)力學(xué)錯(cuò)誤 —— 例如 “機(jī)器人執(zhí)行了移動(dòng)動(dòng)作但坐標(biāo)未更新”、“獎(jiǎng)勵(lì)函數(shù)在達(dá)到目標(biāo)后未正確觸發(fā)” 或 “狀態(tài)轉(zhuǎn)移違背物理常識(shí)”。

一旦發(fā)現(xiàn)問題，Testing Team 會(huì)輸出包含錯(cuò)誤分析（Analysis）和修復(fù)建議（Suggest Fix）的結(jié)構(gòu)化報(bào)告，驅(qū)動(dòng) Developer 進(jìn)行針對(duì)性修復(fù)，直到通過所有測(cè)試或達(dá)到收斂條件。

進(jìn)階：從推理到訓(xùn)練，構(gòu)建 "自進(jìn)化" 的數(shù)據(jù)飛輪

Agent2World 的價(jià)值遠(yuǎn)不止于一個(gè)推理框架，它本質(zhì)上是一個(gè)全自動(dòng)的高質(zhì)量數(shù)據(jù)合成引擎。研究團(tuán)隊(duì)通過 “任務(wù)合成 — 軌跡篩選 — 經(jīng)驗(yàn)蒸餾” 的嚴(yán)密流程，將多智能體協(xié)作中的有效修復(fù)策略蒸餾為單體模型的生成與修復(fù)偏好。

數(shù)據(jù)合成：驗(yàn)證器引導(dǎo)的拒絕采樣，為了避免數(shù)據(jù)泄露并提升泛化性，團(tuán)隊(duì)并未直接使用測(cè)試集題目，而是自主合成（Self-Synthesized）了大量涵蓋不同領(lǐng)域的全新任務(wù)。在此基礎(chǔ)上，系統(tǒng)利用 “驗(yàn)證器引導(dǎo)的拒絕采樣（Verifier-Guided Rejection Sampling）” 機(jī)制，從海量生成結(jié)果中篩選出 1526 條既通過沙盒運(yùn)行、又通過雙重測(cè)試校驗(yàn)的軌跡。這套數(shù)據(jù)集完整記錄了 Developer 從錯(cuò)誤代碼到修復(fù)成功的高密度軌跡，為模型提供了極高價(jià)值的邏輯糾錯(cuò)樣本。
監(jiān)督微調(diào)：在訓(xùn)練階段，團(tuán)隊(duì)精準(zhǔn)提取 Model Developer 的交互軌跡對(duì) Llama-3.1-8B-Instruct 進(jìn)行監(jiān)督微調(diào)。訓(xùn)練的核心目標(biāo)并非讓模型單純模仿多智能體對(duì)話，而是讓其學(xué)習(xí) Developer “如何理解模糊規(guī)格” 以及 “如何根據(jù) Testing Team 的報(bào)錯(cuò)修復(fù)代碼”。通過這種方式，單體模型成功 “繼承” 了多智能體系統(tǒng)中 “根據(jù)反饋迭代（Iterative Refinement）” 的能力。

三、實(shí)驗(yàn)驗(yàn)證：橫掃三大基準(zhǔn)，驗(yàn)證 "數(shù)據(jù)飛輪" 效應(yīng)

Agent2World 在 Text2World（PDDL）/ CWMB（MuJoCo 可執(zhí)行模擬器）/ ByteSized32（文本游戲環(huán)境）三大基準(zhǔn)上都拿到領(lǐng)先表現(xiàn)。

1. Text2World (PDDL)：

從 “能跑” 到 “懂邏輯” 的顯著提升。以 GPT-4.1-mini 為底座，在衡量 PDDL 代碼生成的基準(zhǔn)中，Agent2World Multi 明顯降低了代碼 “跑不通” 的失敗率，實(shí)現(xiàn)了 93.1% 的代碼可執(zhí)行率（Executability），相比強(qiáng)基線 Text2World ($EC=3$) 提升了 14.9 個(gè)百分點(diǎn)。更重要的是，它在衡量語義正確性的 Component-wise F1 指標(biāo)上達(dá)到了 75.4（基線僅為 60.1），提升幅度達(dá) 15.3 分。這表明模型不再只是機(jī)械地模仿 PDDL 語法，而是更加理解了謂詞約束與邏輯門控，生成了既符合語法又具備可解性的高質(zhì)量規(guī)劃域。

2. CWMB (MuJoCo)

不僅預(yù)測(cè)得準(zhǔn)，更要 “好用” 。CWMB 同時(shí)評(píng)估 “仿真代碼是否能預(yù)測(cè)動(dòng)力學(xué)”（Accuracy）與 “作為世界模型能否支撐下游規(guī)劃 / 控制”（Overall Normalized Return, R）。在 GPT-4o-mini 上，Agent2World Multi 的 Overall R 達(dá)到 0.4811，相比此前最強(qiáng)基線 GIF-MCTS 的 0.3488 提升了 +0.132；并且在離散動(dòng)作空間的預(yù)測(cè)準(zhǔn)確率上與強(qiáng)基線持平（0.917 vs 0.914）。這說明，性能的提升并非來自單純的下一幀預(yù)測(cè)相似度，而是源于模型實(shí)現(xiàn)了 “可用于規(guī)劃的行為級(jí)一致性”，真正支撐起了下游控制任務(wù)。

3. ByteSized32 (Text Games)

常識(shí)推理與物理現(xiàn)實(shí)的高度一致性。在極度依賴常識(shí)推理的文本游戲中，Deep Researcher 的主動(dòng)知識(shí)檢索發(fā)揮了很大的作用。Agent2World Multi 在核心指標(biāo) “物理現(xiàn)實(shí)對(duì)齊度（Physical Reality Alignment）” 上取得了 0.4768 的高分，相比單智能體版本（Single Agent）大幅提升了 0.2848 。此外，在技術(shù)有效性（Technical Validity）上，模型生成的游戲代碼初始化成功率接近 99% 。這些數(shù)據(jù)表明，通過引入外部知識(shí)與多輪測(cè)試，模型成功消除了大量違反常識(shí)的 “物理幻覺”（如錯(cuò)誤的狀態(tài)轉(zhuǎn)移或不合邏輯的物品交互），生成了邏輯嚴(yán)密且更穩(wěn)定的文本環(huán)境。

4. 模型微調(diào)實(shí)驗(yàn)

基于自主合成的高質(zhì)量軌跡數(shù)據(jù)（訓(xùn)練僅使用 Model Developer 軌跡），團(tuán)隊(duì)對(duì) Llama-3.1-8b-instruct 進(jìn)行了監(jiān)督微調(diào)。實(shí)驗(yàn)表明，這種 “以 Agent 養(yǎng) Model” 的策略帶來了顯著的泛化能力提升：微調(diào)后的模型在未見過的測(cè)試任務(wù)（Unseen Tasks）上，平均相對(duì)性能提升了 30.95%。特別是在 Text2World 任務(wù)中，模型生成的代碼可執(zhí)行率（Executability）提升高達(dá) 16.9%。這有力證明了，無需依賴昂貴的超大模型，僅憑小參數(shù)模型配合優(yōu)質(zhì)的 “自我修正” 合成數(shù)據(jù)，也能實(shí)現(xiàn)向高性能世界模型構(gòu)建者的跨越。

5. 消融實(shí)驗(yàn)

缺一不可的雙引擎（基于 CWMB 驗(yàn)證）為了探究 Agent2World 卓越性能的來源，團(tuán)隊(duì)在 CWMB（物理控制）任務(wù)上進(jìn)行了嚴(yán)苛的組件消融實(shí)驗(yàn)。結(jié)果證實(shí)，Deep Researcher 與 Testing Team 均是構(gòu)建高可靠世界模型不可或缺的組件：

移除 Deep Researcher（知識(shí)引擎缺失）：模型生成的模擬器在整體歸一化回報(bào)（Overall Normalized Return, R）上出現(xiàn)顯著下滑。這表明，在缺乏對(duì)物理參數(shù)與 API 規(guī)范的主動(dòng)檢索時(shí)，模型定義的環(huán)境規(guī)則會(huì)出現(xiàn) “失真”，導(dǎo)致下游 Agent 無法在模擬中學(xué)習(xí)到在真實(shí)環(huán)境中有用的策略。
但當(dāng)移除unit tester后，在離散動(dòng)作空間的預(yù)測(cè)準(zhǔn)確率顯著下降約 30%。移除simulation tester，也會(huì)同比下降約3%。這揭示了一個(gè)關(guān)鍵發(fā)現(xiàn)：“能運(yùn)行” 不等于 “物理正確”。沒有動(dòng)態(tài)交互產(chǎn)生的行為級(jí)反饋，模型很難在該設(shè)置下修正深層的動(dòng)力學(xué)錯(cuò)誤（如重力模擬偏差），生成的模擬器也因此失去了實(shí)用價(jià)值。

四、結(jié)語：開啟 AI 自主理解環(huán)境的新可能

Agent2World 的提出，標(biāo)志著統(tǒng)一多智能體框架在符號(hào)世界模型生成領(lǐng)域的成功應(yīng)用。它不僅打破了 PDDL 規(guī)劃與可執(zhí)行代碼之間的表征壁壘，更通過 "網(wǎng)絡(luò)知識(shí)合成 - 迭代式模型開發(fā) - 評(píng)估驅(qū)動(dòng)仿真測(cè)試" 的精密閉環(huán)，在無需人工標(biāo)注與人工驗(yàn)收的前提下，實(shí)現(xiàn)自動(dòng)化的生成 — 測(cè)試 — 修復(fù)閉環(huán)，從而穩(wěn)定產(chǎn)出可執(zhí)行、可復(fù)現(xiàn)、可迭代的符號(hào)世界模型。這一突破不僅在三大基準(zhǔn)測(cè)試中一致性地刷新了 SOTA，更為未來 AI 系統(tǒng)從自然語言中可靠地理解并形式化復(fù)雜的現(xiàn)實(shí)環(huán)境，開辟了全新的可能性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.