網易首頁 > 網易號 > 正文申請入駐

SimWorld：嘗試給AI智能體造一個真實世界

2026-04-11 14:34:43　來源: 集智俱樂部

北京舉報

分享至

導語

在前兩期的討論中，我們從簡單規(guī)則出發(fā)，看到計算機如何通過最基本的機制生成復雜結構，這也構成了復雜性科學的重要起點。進一步地，我們將這種“規(guī)則生成世界”的思想帶入交互系統(tǒng)，嘗試讓知識不再被線性傳遞，而是在環(huán)境、行動與反饋的循環(huán)中被體驗與理解。

隨著實時渲染與交互技術的發(fā)展，知識開始嵌入空間與系統(tǒng)之中，通過探索逐步涌現。而當程序化生成與生成式 AI 被引入，虛擬世界進一步獲得“自我生長”的能力——地形、生態(tài)乃至社會結構，都可以在規(guī)則與算法中不斷演化。

在這樣的路徑上，游戲逐漸從內容媒介轉變?yōu)橐环N方法：它既是復雜系統(tǒng)的實驗場，也是理解現實的一種方式。我們將在讀書會第三期分享交流，當世界本身變得可計算、可生成，我們或許正在進入一種新的認知框架——理解與行動，不再被給予，而是在持續(xù)的互動中不斷生成。

關鍵詞：程序化生成（Procedural Generation），具身智能（Embodied AI），世界模擬器（World Simulator），多智能體系統(tǒng)（Multi-agent System），虛幻引擎5（Unreal Engine 5），LLM智能體（LLM Agent）

任筱芃丨作者

趙思怡丨審校

論文題目：SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds 論文鏈接：https://neurips.cc/virtual/2025/poster/119002 （擴展更新版：https://arxiv.org/abs/2512.01078）發(fā)表時間：2025年12月論文來源：NeurIPS

楔子

LLM的技術缺口并非抽象的學術命題。它已經以事故的形式，在真實世界中示現。2026年春節(jié)，Meta的Summer Yue將開源AI智能體OpenClaw接入工作郵箱整理郵件。她下達了明確指令——“僅建議歸檔或刪除的郵件名單，未經我批準，絕不擅自執(zhí)行操作”。OpenClaw仍然失控，瘋狂刪除了200多封郵件，最終不得不狂奔去拔網線才終止操作。同年3月，一位開發(fā)者讓AI編程助手協(xié)助服務器遷移，結果AI在無人監(jiān)督下自主執(zhí)行了破壞性命令，瞬間抹除了2.5年的生產數據及全部備份。

圖0：X.com截圖

這些事故發(fā)生在數字世界中，操作對象不過是郵件和文件。而當同樣的智能體被放進城市街道、駕駛車輛、與行人互動時，失控的代價將從刪庫升級為什么就難以言說了。但事故只是問題的一面。另一面更微妙，即使AI沒有“失控”，它也可能根本不理解自己被要求做什么。

2025年，GPT-4o在美國律師資格考試中超越了90%的人類考生。同年，Claude-3.5-Sonnet在研究生級別推理基準GPQA上得分超過領域專家。Gemini在蛋白質結構預測上逼近實驗精度。DeepSeek-V3以不到600萬美元的訓練成本，在多項基準測試中追平了花費數十倍資源的競爭對手。然后，都給我去送外賣吧。<(￣︶￣)↗[GO!]

把當時最強的十個大語言模型放進了虛幻引擎5構建的3D城市里，讓它們競價接單、取貨配送、管理能量和資金。結果令人錯愕。GPT-4o-mini的所有指標為零——它連表現出理解“賺錢”是什么意思的能力都沒有；Claude-3.5-Sonnet雖然拿到了最高利潤，但會花光全部積蓄買滑板車卻從不使用；DeepSeek-Prover-V2的決策反復橫跳，標準差幾乎和均值一樣大。通過律師考試的天才，送不了外賣。解得出奧數金牌的模型，不理解“先接單，再取貨，再送貨”這個幾乎任何人都能理解的因果鏈。

這項研究精確地指向了當前AI研究的一個結構性盲區(qū)。我們擅長訓練模型在結構化的、規(guī)則明確的環(huán)境中做"題"——這類環(huán)境的特征是狀態(tài)空間有限、反饋信號明確、動作語義封閉，卻幾乎沒有辦法評估它們在開放的、嘈雜的、充滿競爭與合作的物理-社會世界中"活勞動"的能力——那里的狀態(tài)空間開放且動態(tài)演化，反饋延遲、稀疏且多義，動作的因果后果跨越時間步驟累積。而后者才是AI智能體最終必須面對的戰(zhàn)場。

癥結之一在于缺乏合適的試驗場?，F有平臺要么物理引擎簡陋，要么領域過于狹窄，要么社會結構單薄。SimWorld試圖填補這一空白。它是一個基于虛幻引擎5的開源模擬器，兼具真實的物理引擎、程序化生成的無限城市、以及原生支持LLM/VLM的智能體接口。SimWorld不讓AI做題刷榜，要讓AI真正面對"生活"，使原本隱性的能力缺陷變得可觀測、可量化、可復現。

研究背景與問題

AI智能體的數字-物理鴻溝

近年來，以GPT-4、Claude、Gemini為代表的大模型智能體在結構化領域（數學、編程、網頁瀏覽）取得了長足進步。然而，這些環(huán)境相對干凈，也即是規(guī)則明確、反饋清晰的。相比之下，智能體最終被期望在其中運作的物理-社會世界，本質上是復雜、嘈雜、動態(tài)和混沌的。

要推進具身智能體的發(fā)展，研究團隊需要一種新型的模擬環(huán)境。然而，現有的世界模擬器存在三個層面的不足。

三個層次的“不夠”

游戲化平臺不夠真。Minecraft等平臺雖然為具身交互提供了可訪問的環(huán)境，但物理引擎簡陋——Minecraft依賴離散的方塊機制，沒有真實的重力或慣性，社會結構單薄，限制了向真實世界的泛化。

領域專用模擬器不夠通用。CARLA 專注自動駕駛（僅有15個場景）、AI2-THOR 聚焦家庭機器人、Habitat 3.0 面向室內協(xié)作——它們各自深耕一個狹窄的領域，場景有限、任務單一，無法支持開放世界式的多維度研究。

社交沙盒不夠深。Stanford的“生成式智能體”實驗（Smallville）和 Virtual Village 等項目模擬了人際互動，但規(guī)模?。⊿mallville僅25個角色）、腳本性高、缺乏物理基礎，且不支持LLM原生接口。

圖1：SimWorld與現有模擬器的對比。

在“開放世界”（程序化生成+語言可控編輯）、“物理/社會真實度”、“動作空間”（抽象層級+開放詞匯）等維度上，SimWorld是唯一全面打勾的模擬器。其他平臺如Minedojo（Minecraft）、CARLA（自動駕駛）、Habitat 3.0（家庭機器人）、Genesis（機器人）等均在至少一個關鍵維度上缺失。

SimWorld同時滿足真實（UE5物理引擎）、開放（程序化生成無限城市）、LLM原生（Gym-like接口 + 開放詞匯動作空間）三個維度。

SimWorld 三大核心設計

SimWorld采用三層架構（圖2）如下。底層是虛幻引擎后端（C++），負責高保真渲染和物理模擬；中間是環(huán)境層（Python），提供程序化城市生成、交通系統(tǒng)和標準化的Gym-like接口；頂層是智能體層（Python），集成LLM/VLM推理引擎、觀測空間和動作規(guī)劃器。三層通過UnrealCV+通信模塊（TCP協(xié)議）連接，形成完整的“感知-規(guī)劃-行動”閉環(huán)。

圖2：SimWorld架構圖。

真實、開放的世界模擬

SimWorld的核心底氣來自強大的虛幻引擎5。

在場景層面，SimWorld支持兩種模式。100多個手工精選場景（涵蓋古鎮(zhèn)、自然風光、未來城市、奇幻世界等多種風格）和程序化自動生成的城市。程序化生成采用模塊化管線（基于四叉樹數據結構），依次生成道路網絡、建筑布局和街道元素（樹木、路錐、長椅、停放的車輛），所有參數（城市規(guī)模、建筑密度、車輛和行人數）均可自定義，支持理論上無限的環(huán)境擴展。

更值得注意的是LLM驅動的場景編輯功能。用戶或AI智能體可以用自然語言實時修改場景——例如“在醫(yī)院大門旁的鐘樓附近加一些桌子和樹木”。系統(tǒng)通過檢索增強生成（RAG）的LLM場景智能體來理解指令，從資產庫中檢索匹配對象并放置到指定位置。如果資產庫中沒有合適的對象，系統(tǒng)會調用 Text-to-3D 生成模型（Hunyuan3D）來合成新的3D資產，自動賦予材質、光照和碰撞屬性后集成到環(huán)境中。

在物理層面，SimWorld使用了更完整的物理動力學參量。重力、動量、碰撞響應、滑動、絆倒等真實物理模擬效果，遠非Minecraft式的離散方塊可比。系統(tǒng)還支持天氣和光照變化（雨、雪、霧、方向光、環(huán)境光），以及由PID控制器驅動的交通系統(tǒng)（車輛運動、行人流、交通信號燈同步）。

系統(tǒng)支持三種具身形態(tài)——人形、車輛和機器人——在統(tǒng)一的物理框架內運行，共享質量、慣性、接觸力等屬性。

豐富的LLM/VLM智能體接口

SimWorld提供標準Gym-like接口，與現有的強化學習管線和智能體框架無縫集成。

觀測空間分為兩類。視覺觀測（第一人稱的RGB圖像、深度圖、語義分割掩碼）和結構化語義信息（語義場景圖編碼環(huán)境中的實體、屬性和關系，以及GPS式定位信息）。

動作空間采用雙層架構。高層語義動作用自然語言表達（如“坐在最近的椅子上”），低層原始動作提供細粒度控制（前進、轉向、拾取、放下、坐下、開車門、騎滑板車等）。系統(tǒng)內置動作規(guī)劃器（Action Planner），自動將高層意圖解析為低層動作序列。例如，接收到“走到最近的椅子坐下”后，規(guī)劃器先計算最短路徑，生成一系列導航原語（navigate(0,1)→navigate(1,10)→...），到達目標后執(zhí)行“坐下”動作。規(guī)劃器支持兩種執(zhí)行模式?；谝?guī)則的執(zhí)行器（使用抽象城市布局信息）和基于視覺的執(zhí)行器（直接消費模擬器的視覺觀測，與VLM/VLA端到端集成）。

SimWorld還支持兩種運行模式。異步模式（每個智能體獨立運行，適合大規(guī)模開放探索）和同步模式（所有智能體同步推進，適合需要可復現性的受控實驗）。

多樣的物理-社會推理場景

在上述基礎上，SimWorld支持超越短期任務的長程目標——賺錢、發(fā)展職業(yè)軌跡、經營多智能體企業(yè)，策略決策隨時間累積，社會動態(tài)影響結果。配套的三層評估框架覆蓋總體表現（利潤）、運營效能（成功率、能效）和行為特征（分享次數、投資次數）。

案例研究：一個“外賣”比賽

為展示SimWorld的完整能力，研究團隊設計了一個配送任務（Delivery Task）。在程序化生成的城市中部署LLM驅動的配送智能體，讓它們競價搶單、取貨配送、購買道具（如5倍加速滑板車）、管理能量（如買飲料恢復體力），以及通過分享訂單實現多智能體協(xié)作。

圖3：配送任務概覽。一個需要多智能體協(xié)作與競爭的配送場景。每個智能體被賦予不同的性格（盡責、開放、外向、神經質）和初始狀態(tài)，可以行動以成長、發(fā)展并最終最大化收益。

實驗中，每個模型控制20個代理，運行5000步，每步發(fā)出2次API請求，平均每次約7000個token。研究團隊采用ReAct提示框架明確分離推理和行動選擇，對10個基礎模型進行了三輪重復實驗。

誰是最強“外賣員”？

圖4：模型控制智能體的表現。指標報告為三次5000步模擬的均值（Avg）和標準差（Std）。

當九個模型在 SimWorld 的配送實驗中展現出參差的表現時，最直覺的反應是給它們排名——誰賺得最多，誰最穩(wěn)定，誰最差。我們確實能根據利潤列看到清晰的排序。DeepSeek-V3（69.48）> Claude-3.5-Sonnet（69.07）> GPT-4o（43.91）> Gemini-2.5-Flash（42.42）> Gemini-2.0-Flash（28.72）> Qwen3-32B（24.73）> DeepSeek-Prover-V2（21.66）> QwQ（17.31）> GPT-4o-mini（0.00）。

但這種排名掩蓋了更有價值的信息，因為不同模型的失敗模式并不相同，它們停在了“能力金字塔”的不同層級上。配送任務所需的能力可以被分解為五個遞進的層級，每一層的失敗都指向一種不同性質的認知缺陷。

第一層：目標理解

能聽懂“賺錢”這個目標嗎？

GPT-4o-mini的所有指標為零——利潤 0.00、成功訂單 0.00、能效 0.00、分享 0.00、投資 0.00。論文的判斷是：“它并未真正理解目標，無法基于給定指令和上下文做出合理決策”（"it does not truly understand the goals well enough to make reasonable decisions based on the given instructions and context"）。

5000 步，一步未動。不是做得差，是完全沒有開始。

GPT-4o-mini 接收到了規(guī)則說明、訂單推送和地圖信息，在字面意義上“理解”了每一個句子，卻無法將這些句子組織成一個可執(zhí)行的目標。原文可見研究團隊清晰地定義了高層動作——競標、取貨訂單、配送訂單、共享訂單、購買滑板車、購買飲料等——但 GPT-4o-mini 無法將這些動作按因果順序編排成一串可執(zhí)行的序列。

圖5：配送任務中的分層動作空間設計。

這種“目標翻譯”能力可能不是推理能力的線性延伸，而是一個獨立的、當前某些模型完全缺失的能力維度。更強的模型（Claude、DeepSeek-V3）能通過更長的推理鏈隱式地完成這個翻譯，但 GPT-4o-mini 在這道門檻前完全卡住了。

診斷： GPT-4o-mini 停在金字塔的第一級——它甚至沒有進入游戲。

第二層：交付閉環(huán)

能走完“競價→取貨→配送”這條因果鏈嗎？

跨過第一層的模型都在做事情，但“做事情”和“完成事情”是兩回事。圖4的成功訂單列精確地測量了這一點。

DeepSeek-Prover-V2 和 QwQ 暴露了一種特殊的失敗。它們并非不活躍——DeepSeek-Prover-V2 有較高的分享次數（7.33 ± 8.39），QwQ 有一定的投資行為（3.33 ± 2.52）——但它們幾乎沒有完成配送。DeepSeek-Prover-V2 的成功訂單是全部活躍模型中最低的（0.67 ± 0.14）。

論文在模型競爭消融實驗中對 QwQ 的觀察也印證了這一點：它們“整體活躍度較低，導致競價次數和訂單獲取率偏低”（“QwQ-32B and GPT-4o-mini are less active overall, leading to fewer bids and lower order acquisition rates”）。但圖4顯示 QwQ 的投資不為零（3.33），說明它并非完全不活躍——它在參與某些環(huán)節(jié)（如投資）的同時，未能走完交付閉環(huán)。

這是一種比 GPT-4o-mini 的完全失敗更微妙的缺陷。模型理解任務，參與了一些環(huán)節(jié)，卻無法將局部行為串聯成完整的交付鏈條?！盎钴S但不產出”比“不活躍”更難診斷和修復。

診斷： DeepSeek-Prover-V2 和 QwQ 勉強跨過了第一層，但在第二層斷裂——它們有活動，但沒有閉環(huán)。

第三層：資源與風險權衡

能在有限預算下做出連貫的決策嗎？

跨過前兩層的模型（Claude-3.5-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Flash、Gemini-2.0-Flash、Qwen3-32B）都進入了第三層——它們能接單、配送、管理基本資源。但正是在這一層，六個模型展現出了截然不同的策略風格，也暴露了不同類型的權衡模式。

論文的核心觀察是：在“優(yōu)化峰值平均性能指標”與“確保一致、可預測的智能體行為”之間存在普遍的權衡（"a prevalent trade-off between optimizing for peak average performance metrics and ensuring consistent, predictable agent behavior"）。但不可預測性在不同模型身上的表現形式并不相同：

利潤 vs. 穩(wěn)定性。 DeepSeek-V3 和 Claude-3.5-Sonnet 像高風險高回報的投機者，利潤最高但波動劇烈；Gemini-2.5-Flash 像保守的儲蓄者，利潤中等但幾乎零波動；GPT-4o 像穩(wěn)健的投資者，處于兩者之間。

（表格已重排，非原文指標。GPT-4o-mini 已排除。）

投資 vs. 效率。 Claude-3.5-Sonnet 和 DeepSeek-V3 像積極的投資人，投資次數最多，但 Claude 的投資更“精準”，每單位能量產生的收入更高；Qwen3-32B 像高效的工人，能效很高，但總量太小。

分享 vs. 孤立。 Claude-3.5-Sonnet 像樂于分享的合作者，分享次數最多但不穩(wěn)定；DeepSeek-V3 像孤立的獨行俠，分享極少但非常穩(wěn)定；GPT-4o 像幾乎不合作的獨狼，分享幾乎為零。

診斷：沒有模型在這一層達到完美的策略一致性。表現最好的 DeepSeek-V3 和 Claude-3.5-Sonnet 勉強攀到了第三層的頂部，但通過不同的路徑——DeepSeek-V3 靠穩(wěn)定的孤立策略和高投資，Claude-3.5-Sonnet 靠高能效和高合作（但不穩(wěn)定）。Gemini-2.5-Flash 用“不做冒險決策”的策略繞過了第三層的部分問題，但代價是平庸的表現。

第四層：社會推理

能理解“別人”并據此調整行為嗎？

配送任務中的社會維度主要體現在兩個機制上——競價競爭和訂單分享。圖4的分享次數列和模型競爭消融實驗（原文Section 3.3）共同測量了這一層。

消融實驗揭示了三種定價模式：

靈活定價型（Claude-3.7-Sonnet、Gemini-2.5-Flash、Gemini-2.0-Flash）：出價分布廣，根據競爭態(tài)勢調整。中標率較高。
掠奪定價型（DeepSeek-Prover-V2、Qwen3-32B）：經常報低價，在直接對抗中勝率最高。但低價中標意味著利潤率被壓縮——“贏了戰(zhàn)役、輸了戰(zhàn)爭”。這兩個模型的利潤確實很低（21.66、24.73）。
高價滯銷型（GPT-4o、LLaMA-3.2-11b）：出價偏高，中標率低。GPT-4o 在消融中處于劣勢，但在主實驗中利潤排第三——因為它在主實驗中不需要與其他模型直接競爭。

圖6：競價行為與評估結果。(a) 各模型的競價價格分布（小提琴圖），紅色點為成功接受的競價。低價雖然增加中標概率，但往往以利潤率為代價。(b) 模型間兩兩對抗的勝-負矩陣，紅色為更多勝利，藍色為更多失敗。

值得注意的是，這三種策略的“優(yōu)劣”高度依賴環(huán)境結構。在混合競爭環(huán)境中，靈活定價和掠奪定價各有優(yōu)勢；在單模型環(huán)境中，策略差異的影響被弱化。這說明 AI 智能體的“社會能力”不是絕對的，而是相對于競爭環(huán)境而言的。

分享行為是配送任務中唯一的合作機制。圖4的分享列揭示了合作行為的兩個獨立維度——水平（均值）和穩(wěn)定性（標準差）：

（表格已經重排，變異系數為衍生計算，非原文指標。）

Claude-3.5-Sonnet 平均分享最多，但也不穩(wěn)定。DeepSeek-Prover-V2 更極端——變異系數高達 1.14。這意味著兩個模型在合作行為上的“判斷力”是可疑的。它們不是因為評估了合作是否有利而選擇分享，而更可能是因為推理鏈的隨機性在某些運行中經過了“分享”語義區(qū)域。

真正的社會推理應該是在對方信譽好且訂單互補時分享，在對方是競爭對手時保留。但圖4的數據暗示，目前的智能體在“分享”與“不分享”之間的切換更接近策略漂移而非社交判斷。

環(huán)境配置消融實驗提供了一個更細致的視角。論文發(fā)現訂單充裕時分享行為增加——“隨著資源充裕度提高，智能體表現出更強的發(fā)起和完成共享配送的傾向，這可能是通過協(xié)作來降低能量成本的手段”（"as resource abundance increases, agents demonstrate a higher tendency to initiate and complete shared deliveries, likely as a means to reduce energy costs through collaboration"）。這看起來像社會推理的涌現，但更可能是一種更簡單的機制在起作用，即資源充裕時 prompt 中的“合作”相關語境被激活的概率更高。這是在使用統(tǒng)計相關性模仿社會認知，而非真正的“理解他人”。

診斷：所有模型在第四層都踉蹌。它們的“社會行為”更多是推理鏈隨機性的副產品，而非對社會情境的判斷。但不同模型的“社會缺陷”類型不同——Claude 是“有時過度合作有時完全不合作”，DeepSeek-V3 是“穩(wěn)定地有限合作”，GPT-4o 是“穩(wěn)定地幾乎不合作”。

第五層：策略一致性

能在 5000 步內維持一個連貫的“自我”嗎？

這是金字塔的最高層，也是所有模型共同失敗的一層。它的證據不在某一個指標中，而是分散在圖4的所有標準差列里。

Claude-3.5-Sonnet 的不穩(wěn)定性集中在分享行為，利潤和成功訂單的方差也大，但能效相對穩(wěn)定。
DeepSeek-V3 的不穩(wěn)定性集中在利潤，但成功訂單、分享和投資都相對穩(wěn)定。它的不穩(wěn)定性不是“策略漂移”，而是“策略結果的波動”。
Gemini-2.0-Flash 的不穩(wěn)定性分散在利潤和成功訂單上，但分享和投資的方差較小。
GPT-4o 的利潤方差中等，但分享幾乎為零且極度穩(wěn)定，投資也很穩(wěn)定。它的“一致性”實際上是一種一致的不作為。

這些差異指向一個更深層的診斷：策略不一致性有多種類型，需要不同的修復方案。

Claude 式的不一致（合作行為在運行間劇烈波動）可能需要更強的跨步驟狀態(tài)記憶或策略錨定機制。DeepSeek-V3 式的不一致（利潤波動但行為穩(wěn)定）可能不是推理缺陷，而是環(huán)境隨機性在結果層面的放大——同樣的策略在不同的訂單流和競爭條件下自然會產生不同的利潤。Gemini-2.5-Flash 的極端一致性（利潤變異系數僅 0.07）可能是過度保守策略的副產品——它通過拒絕風險來消除波動，但也放棄了上升空間。

人格消融實驗（Section 3.3）提供了策略一致性的另一個視角。論文使用表現最好的模型控制 20 個智能體，每個 Big Five 維度分配給 2 個智能體。Pearson 相關矩陣顯示人格設定確實塑造了行為——盡責性與競價勝率正相關（r = 0.65），宜人性與“什么都不做”強負相關，開放性與配送訂單數負相關，開放性與購買滑板車正相關，外向性與購買飲料正相關。

圖7：人格對智能體表現和行為的影響。盡責性與競價勝率正相關（r=0.65），與競價次數負相關（r=-0.64）；宜人性與“什么都不做”次數強負相關（r=-0.70）；開放性與配送訂單數負相關（r=-0.70）。

這里有一個被低估的亮點：Big Five 人格特質不僅顯著影響了智能體的決策策略（盡責的更勤奮、開放的更愛冒險），而且這些影響可以通過線性回歸量化（相關系數在 0.63–0.70 之間）。這意味著“給 NPC 一個性格”不再是一個模糊的設計直覺，而是一個可以被精確調控的工程參數——對游戲設計師而言，AI NPC 的“性格”可以成為可調校的工具，就像物理引擎中的重力參數一樣。

但即使在同一人格設定下，同一模型的不同運行之間仍然存在顯著方差。人格設定塑造了統(tǒng)計意義上的行為傾向，但沒有塑造出我們期望于一個“性格穩(wěn)定的人”的那種跨時間連貫性。LLM 的每一步推理都是從 prompt 重新開始的，人格設定只是一個增加某些輸出概率的偏置項，而非一個持續(xù)影響感知、記憶和決策的內在結構。

診斷：沒有模型到達金字塔的頂端。策略一致性是當前所有模型的共同短板——不是它們不知道該怎么做，而是它們無法在長時間跨度中持續(xù)地做“自己知道正確的事”。

診斷總結

把五層診斷疊在一起，我們就能看到一幅能力漸次缺失的場景

從第三層到第四層有一個大斷裂。第三層的問題可以通過更強的推理模型來部分解決（GPT-4o、Claude、DeepSeek-V3 的表現優(yōu)于其他模型），但第四層和第五層的問題似乎對所有模型都平等地存在——無論推理能力多強，策略一致性都無法自動獲得。

這組診斷的意義不在于嘲諷 AI“連外賣都送不好”。但是如果你想讓 AI 智能體在真實世界中可靠地行動，你可能需要依次解決目標分解、交付閉環(huán)、策略權衡、社會認知和策略一致性這五個問題。SimWorld 的價值正在于讓這些原本隱性的能力缺陷變得可見、可量化、可復現。

這不是一場 AI 之間的競賽，而是一場 AI 與自身能力邊界的較量。當今最強的 LLM 在“送外賣”這件看似簡單的事情上表現參差——DeepSeek-V3 和 Claude-3.5-Sonnet 賺了最多的錢但行為不穩(wěn)定，Gemini-2.5-Flash 最穩(wěn)定但收益中等，GPT-4o-mini 完全不理解目標。如果連送外賣都做不到完美，那我們對 AI 智能體“自主賺錢”以及更進一步的AGI的期待需要校準。

產業(yè)對照

從Stanford Smallville的25個AI角色在一個簡陋的2D像素小鎮(zhèn)里過日子，到SimWorld把數十個LLM智能體放進虛幻引擎5構建的3D城市里送外賣——這條技術路徑的演進速度令人矚目。而當我們注意到Krafton用同一個引擎做《inZOI》、Rockstar為NPC導航系統(tǒng)申請專利、騰訊報告1.1億用戶已經體驗過AI NPC時，會發(fā)現AI研究者和游戲開發(fā)者的工作正在從平行線變成交匯線。

SimWorld選擇虛幻引擎5作為底層引擎，這并非偶然。UE5是當今游戲工業(yè)最主流的引擎之一，這意味著SimWorld所構建的世界，在視覺和物理真實度上已經與商業(yè)游戲站在同一維上。而當我們把目光投向產業(yè)界，會發(fā)現一場靜悄悄的合流正在發(fā)生。

模擬器與游戲對照

Krafton的《inZOI》同樣基于UE5，同樣追求全城同時模擬的體驗——官網宣稱“整個城市不斷同時模擬”（the entire city is constantly being simulated all at once），在2025年以搶先體驗形式上線Steam后，預計2026年上半年登陸PS5。它的NPC行為同樣由AI驅動，只不過目的是娛樂玩家而非訓練智能體。

圖8：《inZOI》游戲截圖

Rockstar的《GTA 6》（預計2026年11月發(fā)售）走的是另一條路。Take-Two Interactive 的 CEO Strauss Zelnick明確聲明：“生成式AI在Rockstar Games的制作中零參與”（Generative AI has zero part in what Rockstar Games is building）。GTA 6的世界是手工打造的巨城，NPC行為由傳統(tǒng)行為樹和多項專利技術（包括新的NPC虛擬導航系統(tǒng)和基于環(huán)境條件的動態(tài)動畫系統(tǒng)）驅動，追求極致的可控性和敘事品質。

圖9：《GTA 6》海報

米哈游創(chuàng)始人蔡浩宇的新公司Anuttacon則走出了第三條路：《Whispers from the Star》以AI實時對話為核心玩法——玩家通過自然語言與AI角色Stella互動，引導她在太空生存場景中行動。這款游戲本質上是把SimWorld式的“LLM驅動智能體”概念直接做成了商業(yè)產品，只不過SimWorld里的受自然語言約束的配送員變成了幸存者。

圖10：《Whispers from the Star》官網

兩條路線的分歧：可控性 vs. 涌現性

上述對照揭示了游戲工業(yè)在AI NPC問題上的根本張力。

GTA 6路線選擇完全的可控性——不用生成式AI，所有內容由藝術家和設計師手工打造。代價是極高的制作成本和漫長的開發(fā)周期（GTA 6的開發(fā)周期已超過10年），但回報是對交互的精確控制。

SimWorld/inZOI路線則擁抱涌現性——讓LLM驅動的NPC在物理世界中自主行動，接受一定程度的不確定性和不可預測性。SimWorld的配送實驗已經揭示了這種涌現性的兩面：一方面，人格設定確實塑造了可預測的行為模式（盡責的智能體更勤奮）；另一方面，即使是當今最強的模型也會做出不理性的決策（花光積蓄囤積滑板車）。

這兩條路線并非互斥。未來的游戲很可能是混合架構——核心敘事由設計師把控（GTA 6路線），而世界填充和背景NPC行為由LLM驅動（SimWorld路線）。

這條可控性-涌現性的光譜已經在產業(yè)實踐中先行展開。當SimWorld還在用配送任務驗證LLM智能體的行為邏輯時，中國的游戲公司已經把AI NPC推向了上億用戶——騰訊的《和平精英》AI NPC累計體驗用戶過億，網易的《逆水寒》甚至搭建了游戲內的“大模型競技場”讓玩家直接評判不同模型的NPC表現，巨人網絡等公司則將AI能力嵌入現有玩法的具體環(huán)節(jié)（動態(tài)劇情、策略預判）。但這些實踐與SimWorld之間形成了清晰的分野。SimWorld賦予智能體完全的自主性——經濟動機、人格特質、競爭合作；騰訊和網易的AI NPC能交互，但行為仍受游戲框架約束；更多的公司（如巨人網絡）則走得更保守，只在特定環(huán)節(jié)引入AI。核心張力始終是同一對矛盾，即可控性與涌現性之間的平衡，而產業(yè)界人士正在這條光譜上尋找各自的落腳點。

從產業(yè)端看，SimWorld提供了一個統(tǒng)一的、可復現的、可擴展的試驗場，讓我們能夠系統(tǒng)地測量“AI離在真實世界中生存還有多遠”。這個測量結果也在告訴游戲公司一個重要的信息。你們的AI NPC在各種意義上都可能比你以為的更笨——或者更聰明——取決于你用的是哪個模型，以及你給了它什么樣的prompt。

該研究的局限性

研究團隊雖未在論文中明確列出“局限性”章節(jié)，但從實驗設計和結果中可以識別出以下問題：

場景驗證單一：雖然SimWorld號稱支持“賺錢、職業(yè)發(fā)展、經營企業(yè)”等長程目標，但論文僅展示了配送這一種場景。系統(tǒng)在更復雜的社會推理場景（如車聯網）中的表現仍有待驗證。
模型評估不夠深入：主要關注利潤等宏觀指標，對智能體的推理質量、常識錯誤（只買不用的滑板車）、安全風險等缺乏細粒度分析。這些“錯誤行為”實際上可能蘊含著更深層的研究價值。
計算成本高昂：每步2次API調用、每次約7000個token，5000步 × 20個代理意味著巨大的API開銷，這在一定程度上限制了實驗的可擴展性和可復現性。
物理-社會耦合尚淺：配送任務中的“社會”維度主要限于競價和分享訂單，尚未涉及更復雜的社會結構（如組織、規(guī)范、文化）。
缺乏真實世界驗證：所有實驗均在模擬環(huán)境中進行，智能體在SimWorld中學到的策略能否遷移到真實世界，仍是一個開放問題。
論文性質：雖然論文已被NeurIPS 2025接收，但目前的案例研究主要關注利潤等宏觀指標，對智能體的推理質量、常識錯誤、安全風險等缺乏細粒度分析。作為一個平臺型工作，SimWorld的系統(tǒng)說明屬性仍強于嚴格評估，社區(qū)需要在更多樣化的場景和更嚴格的對照實驗中檢驗其能力。

結語

SimWorld作為開源項目發(fā)布，這本身就值得肯定。在游戲引擎和AI模型都日益封閉的趨勢下，一個基于UE5的、開放的、可定制的世界模擬器，為跨學科合作（機器人學、社會科學、商業(yè)、公共衛(wèi)生、教育）提供了公共基礎設施。SimWorld能不能成為它所期望的“奠基性平臺”，取決于社區(qū)能否在配送任務之外，構建出更多樣、更有挑戰(zhàn)性的場景——那些真正考驗AI智能體在物理-社會世界中“生存能力”的場景。

參考文獻

1. Ren, J., Zhuang, Y., Ye, X., Mao, L., He, X., Shen, J., Dogra, M., Liang, Y., Zhang, R., Yue, T., Yang, Y., Liu, E., Wu, R., Benavente, K., Nagaraju, R. M., Faayez, M., Zhang, X., Sharma, D. V., Zhong, X., Ma, Z., Shu, T., Hu, Z., & Qin, L. (2026). SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds. arXiv:2512.01078v2. https://arxiv.org/abs/2512.01078

2. KRAFTON. (2025). KRAFTON Announces inZOI for PlayStation 5, Launching in H1 2026. https://www.krafton.com/en/news/press/krafton-announces-inzoi-for-playstation-5-launching-in-h1-2026/

3. Rockstar Games. (2025). Grand Theft Auto VI is Now Coming May 26, 2026. https://www.rockstargames.com/newswire/article/258aa538o412ok/grand-theft-auto-vi-is-now-coming-may-26-2026

4. Anuttacon. “Whispers from the Star.” Anuttacon, 14 Aug. 2025, https://wfts.anuttacon.com/.

5. Park, J. S., O'Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023.

「游戲×復雜科學」讀書會

從棋盤上的博弈，到屏幕中的虛擬世界；從概率賭局到人工智能對弈——游戲從來不只是娛樂，它是人類理解復雜性的實驗場。

在簡單規(guī)則的反復運行中，秩序如何涌現？在多方互動的策略競爭中，合作如何誕生？在反饋回路與資源循環(huán)中，政治與經濟如何生成？當算法接管博弈，Agent開始自主演化，我們是否正在見證“可計算社會”的雛形？

從康威生命游戲的規(guī)則宇宙，到 AlphaGo 對圍棋復雜度的突破；從 John Nash 的均衡理論，到 Norbert Wiener 的控制論反饋思想；從演化博弈到多主體建模，從系統(tǒng)動力學到生成式AI——游戲與復雜科學，正在交匯為一門新的認知范式。

集智俱樂部聯合人工智能、AIGC、游戲設計、復雜系統(tǒng)等領域的學者/工程師共同發(fā)起，自2026年3月31日起，每周二晚19:30-21:30，邀請來自各領域的研究者與實踐者，共同探索：

· 游戲如何啟發(fā)科學？

· 科學如何重塑游戲？

· 而我們是否生活在一個巨型多主體演化系統(tǒng)之中？

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.