国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能自己打紅警了!經(jīng)濟(jì)拉滿零交戰(zhàn)慘遭打臉,玩家笑瘋

0
分享至


新智元報(bào)道

編輯:犀牛 所羅門

【新智元導(dǎo)讀】紅警不再只是童年游戲,而成了AI Agent的硬核訓(xùn)練場(chǎng):OpenRA-RL把25Hz實(shí)時(shí)戰(zhàn)場(chǎng)、50個(gè)工具調(diào)用和64局并發(fā)打包開源,讓大模型第一次真正站上RTS戰(zhàn)爭(zhēng)迷霧里的公開考場(chǎng)。

AI能自己打紅警了。


Hugging Face 剛?cè)映鲆粋(gè)炸彈——OpenRA-RL,直接把經(jīng)典 RTS《紅色警戒》改造成了大模型的 Agent 訓(xùn)練場(chǎng)。


不是套個(gè)殼錄段視頻那種玩具級(jí) Demo,是真·基礎(chǔ)設(shè)施級(jí)別的東西——

50 個(gè) MCP 游戲工具全量暴露,25Hz 實(shí)時(shí)狀態(tài)流不間斷推送,單進(jìn)程 64 局并發(fā)訓(xùn)練,LLM、腳本 Bot、強(qiáng)化學(xué)習(xí) Agent 三條路線全部打通。

更狠的是,它直接原生接入 OpenEnv 生態(tài)——TRL、torchforge、Unsloth 訓(xùn)練框架即插即用。

當(dāng)年 DeepMind 的 AlphaStar 打星際、OpenAI Five 打 Dota,靠的是幾千塊 TPU 和完全不可復(fù)現(xiàn)的定制架構(gòu)。

普通研究者連門在哪都找不到。

而現(xiàn)在,開源社區(qū)第一次把 RTS Agent 訓(xùn)練的門檻一腳踹到了地上——一臺(tái)消費(fèi)級(jí)顯卡,一行pip install openra-rl,你就能站在同一條起跑線上。


實(shí)戰(zhàn):經(jīng)濟(jì)滿分,戰(zhàn)斗零蛋

讓我們看看實(shí)戰(zhàn)。

團(tuán)隊(duì)用 Ollama 本地部署了一個(gè) Qwen3 32B 模型,在 128×128 的盟軍地圖上對(duì)陣游戲內(nèi)置的 Beginner AI,跑了 5 局。

Agent 通過(guò) MCP 工具集接收結(jié)構(gòu)化觀測(cè)、發(fā)出動(dòng)作指令,每局前有策略規(guī)劃階段,結(jié)束后有反思復(fù)盤,從中提煉的經(jīng)驗(yàn)會(huì)注入下一局的系統(tǒng)提示。

結(jié)果:全部以平局告終,零次戰(zhàn)斗交鋒。


Agent 在每一局都成功建起了經(jīng)濟(jì)體系,但從未生產(chǎn)出一支進(jìn)攻部隊(duì)。

有趣的是,如果只看勝負(fù),5 局全平,故事就講完了。

但 OpenRA-RL 提供了 8 維獎(jiǎng)勵(lì)向量,畫面一下就豐富了:經(jīng)濟(jì)維度得分 0.58-0.80,基建表現(xiàn)穩(wěn)定,但戰(zhàn)斗和騷擾兩個(gè)維度是干脆的零。

這就是一個(gè)精確的失敗模式診斷——你能據(jù)此設(shè)計(jì)獎(jiǎng)勵(lì)塑形和課程學(xué)習(xí)策略。

下面這段 Game 5 前 10 回合的決策日志,能直觀看到模型的「思考節(jié)奏」:

Turn  1 | get_faction_briefing()Turn  2 | end_planning_phase(strategy=「」Deploy MCV, build Power       Plant (300 ticks), then Barracks/War Factory (500/750),       train E1 + 1tnk, attack AI base at (64,64).「」)Turn  3 | deploy_unit(unit_id=120)Turn  4 | build_and_place(building_type=「」apwr「」)Turn  5 | advance(ticks=100)       -> tick=55,  cash=$5000, units=0, buildings=1Turn  6 | build_and_place(building_type=「」apwr「」)Turn  7 | build_and_place(building_type=「」powr「」)Turn  8 | advance(ticks=60)       -> tick=108, cash=$4923, units=0, buildings=1Turn  9 | advance(ticks=130)       -> tick=159, cash=$4838, units=0, buildings=1Turn 10 | advance(ticks=80)       -> tick=210, cash=$4753, units=0, buildings=1

三段式節(jié)奏清晰可見(jiàn):情報(bào)+規(guī)劃 → 建造經(jīng)濟(jì) → 用advance快進(jìn)來(lái)彌合 LLM 推理延遲和游戲速度之間的鴻溝。

工具調(diào)用分布也印證了這一點(diǎn)——advance占了全部調(diào)用的約 57%,這正是異步架構(gòu)設(shè)計(jì)的核心價(jià)值所在。

另一個(gè)耐人尋味的細(xì)節(jié):第 2 局的賽后反思發(fā)現(xiàn)了「戰(zhàn)爭(zhēng)工廠應(yīng)該排在發(fā)電廠后面」這個(gè)建造順序錯(cuò)誤,到第 4 局開局計(jì)劃確實(shí)改成了先建發(fā)電廠。

提示注入式學(xué)習(xí)能修復(fù)建造順序,卻填不上戰(zhàn)斗維度的零分——這恰恰就是從上下文適應(yīng)到權(quán)重更新式強(qiáng)化學(xué)習(xí)應(yīng)該產(chǎn)生可量化提升的地方。

為什么是紅警?為什么是現(xiàn)在?

為什么偏偏選紅警當(dāng)訓(xùn)練場(chǎng)?

先看一個(gè)問(wèn)題:一個(gè)前沿大模型,不做任何RTS專項(xiàng)訓(xùn)練,能在即時(shí)戰(zhàn)略游戲里撐多久?

誠(chéng)實(shí)的回答是:沒(méi)人知道。

因?yàn)楝F(xiàn)有的 RTS 平臺(tái)壓根就不支持 LLM Agent。

SC2LE、PySC2 這些經(jīng)典框架默認(rèn)你的 Agent 在毫秒級(jí)別行動(dòng),動(dòng)作空間是低層操作。

LLM 的需求恰恰相反——它需要高層接口、異步交互,以及對(duì)推理延遲從 40 毫秒到好幾秒劇烈波動(dòng)的容忍。

硬把 LLM 往老框架上嫁接,能跑是能跑,但結(jié)果不可比較,別的團(tuán)隊(duì)也沒(méi)法復(fù)現(xiàn)。

OpenRA-RL 選了經(jīng)典 Westwood RTS《紅色警戒》作為底座,基于開源項(xiàng)目 OpenRA 魔改游戲引擎。

理由很樸素:策略深度夠,代碼干凈能改,自帶從 Beginner 到 Hard 的 AI 對(duì)手梯隊(duì)。

最終的效果是,你拿 Qwen3、Claude 還是一個(gè) Python 腳本 Bot 來(lái)對(duì)打,都是同一個(gè)環(huán)境、零改動(dòng)。

三明治架構(gòu)

OpenRA-RL 的架構(gòu)可以用「三層三明治」來(lái)理解:

最底層是魔改過(guò)的 OpenRA 游戲引擎,用 C# 寫的,以約 25Hz 的頻率不停跳動(dòng)游戲心跳。

中間是 gRPC 橋接層,實(shí)時(shí)往外推送觀測(cè)數(shù)據(jù)、接收操作指令。

最上層是 Python 封裝,對(duì)外暴露 Gymnasium 風(fēng)格的reset / step / close接口。

在此之上,MCP 服務(wù)器把 50 個(gè)游戲動(dòng)作暴露為工具,任何兼容 MCP 的 LLM 客戶端都能驅(qū)動(dòng)一局游戲。


這套分層的核心目的只有一個(gè):Agent 的計(jì)算和游戲的執(zhí)行完全解耦。

一個(gè) 40 毫秒一步的腳本 Bot 和一個(gè) 2 秒一步的 LLM,跑在同一個(gè) 25Hz 引擎上,互不干擾。

64 局并發(fā):一個(gè)進(jìn)程搞定

訓(xùn)練和大規(guī)模評(píng)估需要大量并發(fā)對(duì)局。

早期 v1 版本一局游戲開一個(gè) .NET 進(jìn)程,跑 64 局需要約 40GB 內(nèi)存,每次重置要 5-15 秒——完全不能用。

v2 版本的核心優(yōu)化是:一個(gè) .NET 進(jìn)程承載 64 個(gè)會(huì)話。

關(guān)鍵發(fā)現(xiàn)是 ModData(單位屬性、建筑參數(shù)、科技樹、地圖規(guī)則)在初始化后不可變,加載一次就能跨會(huì)話無(wú)鎖共享。

僅此一項(xiàng)就回收了約 35GB 內(nèi)存。

每個(gè)會(huì)話保留獨(dú)立的 World、OrderManager 和 BotBridge,彼此隔離。

結(jié)果相當(dāng)暴力:重置延遲從 5-15 秒降到 256 毫秒(快了約 40 倍),64 會(huì)話總內(nèi)存從約 40GB 降到約 6GB(省了約 7 倍),JIT 編譯從 64 次降到 1 次。

真正重要的事

OpenRA-RL 真正重要的不是讓一個(gè)大模型在紅警里造了幾座發(fā)電廠。

更重要的是:這個(gè)訓(xùn)練場(chǎng)夠硬、夠準(zhǔn)、夠開放。

環(huán)境本身有真實(shí)的策略深度——320 億參數(shù)的前沿模型對(duì)陣最弱 AI,5 局打下來(lái)零交戰(zhàn),連一次進(jìn)攻都沒(méi)發(fā)起過(guò)。新手難度的紅警就足以暴露大模型在建造順序、兵種搭配、進(jìn)攻時(shí)機(jī)上的短板。

而且暴露得很精確:如果只看勝負(fù),5 局全是平局,一個(gè)字就講完了;但 8 維獎(jiǎng)勵(lì)向量會(huì)告訴你,經(jīng)濟(jì)得分 0.58-0.80,基建表現(xiàn)不錯(cuò),戰(zhàn)斗和騷擾是干脆的零——弱點(diǎn)在哪、課程設(shè)計(jì)往哪開刀,一目了然。

團(tuán)隊(duì)在博客里列出了幾個(gè)明確的下一步方向:

  • 基于 Qwen3 基線跑 GRPO(同一個(gè) Agent,權(quán)重更新替代提示注入,看戰(zhàn)斗零分能不能動(dòng)起來(lái));

  • 利用 8 維獎(jiǎng)勵(lì)做課程設(shè)計(jì)(從只需要戰(zhàn)斗維度的場(chǎng)景開始,逐級(jí)往上爬);

  • 跨模型橫評(píng)(Claude Sonnet、GPT 級(jí)模型、更小的本地模型,同一張地圖、同一個(gè)對(duì)手、同一個(gè)時(shí)間限制);

  • 以及 Agent 對(duì) Agent 的排行榜競(jìng)技。


對(duì)于 AI Agent 領(lǐng)域來(lái)說(shuō),這套工具的意義遠(yuǎn)不止紅警本身。

AlphaStar 和 OpenAI Five 證明了 AI 能在 RTS 里達(dá)到超人水平,但那些成果被鎖在高墻之后——幾千塊 TPU、定制架構(gòu)、不可復(fù)現(xiàn)。

OpenRA-RL 第一次把這堵墻推倒了一部分:一臺(tái)消費(fèi)級(jí)顯卡,一行pip install,你就站在了 RTS Agent 研究的起跑線上。

紅警是一個(gè)信號(hào)——這是強(qiáng)化學(xué)習(xí)該登場(chǎng)的地方。

而現(xiàn)在,登場(chǎng)的門票終于不再只屬于 DeepMind 和 OpenAI 了。

參考資料:

https://huggingface.co/blog/jadetan/openra-rl%20GitHub%20-%20yxc20089/OpenRA-RL:%20Open%20Framework%20for%20AI%20Agents%20to%20play%20Red%20Alert%20through%20Reinforcement%20Le%20

https://huggingface.co/spaces/openra-rl/openra-rl%20

https://openra-rl.dev/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
私家車撞上高速公路施工人員致2死2傷事故調(diào)查報(bào)告:建議嚴(yán)查不安全施工行為

私家車撞上高速公路施工人員致2死2傷事故調(diào)查報(bào)告:建議嚴(yán)查不安全施工行為

澎湃新聞
2026-04-28 14:00:31
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
50歲大叔血糖從14.5降到5.2,醫(yī)生:他的3個(gè)降糖習(xí)慣,值得學(xué)習(xí)

50歲大叔血糖從14.5降到5.2,醫(yī)生:他的3個(gè)降糖習(xí)慣,值得學(xué)習(xí)

荷蘭豆愛(ài)健康
2026-04-25 21:54:23
回國(guó)后我才敢說(shuō):印尼是我去過(guò)的所有東南亞國(guó)家中,最被低估的

回國(guó)后我才敢說(shuō):印尼是我去過(guò)的所有東南亞國(guó)家中,最被低估的

千秋文化
2026-04-28 20:20:16
信仰不是法外之地,全國(guó)開始雷霆出擊整頓寺廟

信仰不是法外之地,全國(guó)開始雷霆出擊整頓寺廟

世界圈
2026-04-17 08:50:05
女子給男主播刷4萬(wàn)禮物,私下見(jiàn)面想親熱被拒絕,氣得要求退錢

女子給男主播刷4萬(wàn)禮物,私下見(jiàn)面想親熱被拒絕,氣得要求退錢

新游戲大妹子
2026-04-27 10:57:55
初中生秘而不宣的校園潛規(guī)則,90%家長(zhǎng)毫不知情,別再忽視!

初中生秘而不宣的校園潛規(guī)則,90%家長(zhǎng)毫不知情,別再忽視!

朗威談星座
2026-04-28 18:52:40
90年貴州夫妻花60萬(wàn)囤茅臺(tái)酒,25年后急用錢,才發(fā)現(xiàn)其真實(shí)價(jià)值

90年貴州夫妻花60萬(wàn)囤茅臺(tái)酒,25年后急用錢,才發(fā)現(xiàn)其真實(shí)價(jià)值

紅豆講堂
2025-06-16 10:35:39
中年人抗衰老的盡頭——多做力量訓(xùn)練

中年人抗衰老的盡頭——多做力量訓(xùn)練

增肌減脂
2026-04-28 19:15:12
先是海參崴,再是圖瓦和庫(kù)頁(yè)島,俄羅斯對(duì)中國(guó),心態(tài)完全變了

先是海參崴,再是圖瓦和庫(kù)頁(yè)島,俄羅斯對(duì)中國(guó),心態(tài)完全變了

觀察者小海風(fēng)
2026-04-17 16:11:00
“大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

“大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

王二哥老搞笑
2026-04-23 18:52:04
東部有點(diǎn)熱鬧了

東部有點(diǎn)熱鬧了

靜易墨
2026-04-28 21:20:48
上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時(shí)傻眼了

上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時(shí)傻眼了

詭譎怪談
2025-05-02 00:08:52
立夏吃餃子,提醒大家:少吃茴香薺菜,多吃4樣,應(yīng)季鮮嫩又好吃

立夏吃餃子,提醒大家:少吃茴香薺菜,多吃4樣,應(yīng)季鮮嫩又好吃

阿龍美食記
2026-04-25 12:58:04
中方必須無(wú)條件割讓領(lǐng)土?美發(fā)話后,馬來(lái)西亞叫囂:中國(guó)放棄南海

中方必須無(wú)條件割讓領(lǐng)土?美發(fā)話后,馬來(lái)西亞叫囂:中國(guó)放棄南海

詩(shī)酒趁的年華
2026-04-22 05:07:02
有人花錢勸你躺平!境外組織資助網(wǎng)紅批量灌毒,靠“擺爛”滲入

有人花錢勸你躺平!境外組織資助網(wǎng)紅批量灌毒,靠“擺爛”滲入

聽(tīng)心堂
2026-04-28 09:49:25
國(guó)安部:反華勢(shì)力炮制“階層固化=努力無(wú)用”敘事

國(guó)安部:反華勢(shì)力炮制“階層固化=努力無(wú)用”敘事

觀察者網(wǎng)
2026-04-28 07:03:05
喝小米粥別只放小米,加這2樣,營(yíng)養(yǎng)翻倍還飽腹

喝小米粥別只放小米,加這2樣,營(yíng)養(yǎng)翻倍還飽腹

周哥一影視
2026-04-28 00:17:24
72歲成龍拒演800萬(wàn)美元片酬《尖峰時(shí)刻4》,他嫌少?我嫌寒磣

72歲成龍拒演800萬(wàn)美元片酬《尖峰時(shí)刻4》,他嫌少?我嫌寒磣

陳意小可愛(ài)
2026-04-27 12:19:50
毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個(gè)流芳百世,1個(gè)遺臭萬(wàn)年

毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個(gè)流芳百世,1個(gè)遺臭萬(wàn)年

春秋硯
2026-04-28 20:45:03
2026-04-28 21:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15086文章數(shù) 66818關(guān)注度
往期回顧 全部

游戲要聞

《生化9》最初是里昂?jiǎn)沃鹘?PC玩家更愛(ài)第一人稱

頭條要聞

女子花4080元買演唱會(huì)門票 想退退不了票還被他人用了

頭條要聞

女子花4080元買演唱會(huì)門票 想退退不了票還被他人用了

體育要聞

季后賽最新局勢(shì):雷霆4-0晉級(jí)首隊(duì) 4隊(duì)3-1

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

政治局會(huì)議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

親子
房產(chǎn)
時(shí)尚
數(shù)碼
軍事航空

親子要聞

拍了幾年的急救視頻,模特小朋友長(zhǎng)大了!拍到異物卡喉氣道梗阻的急救方法更新了,氣道完全梗阻五次拍背+五...

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4省!

她們的人生牛仔褲,鏈接都在這了

數(shù)碼要聞

充電器統(tǒng)一再進(jìn)一步!歐盟所有筆記本必須支持USB-C充電:今天起生效

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版