網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

德州農(nóng)工大學(xué)教你如何讓AI玩轉(zhuǎn)《精靈寶可夢(mèng)》

2026-04-23 21:23:20　來(lái)源: 科技行者

北京舉報(bào)

分享至

這篇研究來(lái)自德州農(nóng)工大學(xué)數(shù)據(jù)科學(xué)研究院與計(jì)算機(jī)科學(xué)系，于2026年4月12日以預(yù)印本形式發(fā)布，編號(hào)為arXiv:2604.10812v1，感興趣的讀者可以通過(guò)該編號(hào)查閱完整原文。

說(shuō)到用AI玩游戲，大多數(shù)人腦子里可能浮現(xiàn)的是AI打敗圍棋世界冠軍、或者在《星際爭(zhēng)霸》里橫掃職業(yè)選手的新聞。但你有沒(méi)有想過(guò)，讓一個(gè)AI玩《精靈寶可夢(mèng)·紅版》這樣的經(jīng)典Game Boy游戲，其實(shí)比打圍棋還要難得多？這不是在開(kāi)玩笑——德州農(nóng)工大學(xué)的研究團(tuán)隊(duì)親身經(jīng)歷了這份痛苦，然后把它做成了一篇正經(jīng)的學(xué)術(shù)研究。

這項(xiàng)研究的核心，是讓一個(gè)AI學(xué)會(huì)玩《精靈寶可夢(mèng)·紅版》游戲最開(kāi)頭的幾段內(nèi)容：從主角小智的房間里走出去、在彩葉鎮(zhèn)轉(zhuǎn)一圈找到高草叢、然后贏得第一場(chǎng)和對(duì)手小茂的寶可夢(mèng)對(duì)戰(zhàn)。聽(tīng)起來(lái)像是小孩子十分鐘就能搞定的事情，但對(duì)AI來(lái)說(shuō)，這是一場(chǎng)充滿陷阱的馬拉松。

一、為什么讓AI玩《精靈寶可夢(mèng)》是一件很頭疼的事

要理解這件事有多難，不妨把AI玩游戲的過(guò)程類(lèi)比成教一個(gè)完全不懂規(guī)則的新手學(xué)下棋。但《精靈寶可夢(mèng)·紅版》甚至比國(guó)際象棋還要棘手，因?yàn)樗恢皇且粋€(gè)游戲，而是多個(gè)游戲疊加在一起的超復(fù)雜任務(wù)。

首先是"獎(jiǎng)勵(lì)稀少"的問(wèn)題。在游戲里，真正有意義的事件——比如抓到一只寶可夢(mèng)、贏得一場(chǎng)對(duì)戰(zhàn)——之間隔著成千上萬(wàn)個(gè)操作步驟。對(duì)AI來(lái)說(shuō)，這就像是讓你走完一個(gè)巨型迷宮，但迷宮里幾乎沒(méi)有任何路標(biāo)，你只有走到終點(diǎn)才能知道自己走對(duì)了。大部分時(shí)候AI只能在黑暗里亂摸。

其次是選擇太多的問(wèn)題。游戲剛開(kāi)始沒(méi)多久，屏幕上就有幾十個(gè)格子可以走，有門(mén)可以開(kāi)，有人可以交互。每一步都有很多種選擇，AI根本不知道哪條路是對(duì)的。

更麻煩的是，AI只能"看到"當(dāng)前屏幕上的畫(huà)面，就像你隔著一扇窗觀察房間，你能看到現(xiàn)在窗里的樣子，但你不知道隔壁房間發(fā)生了什么。角色當(dāng)前的血量、所在地圖的編號(hào)、背包里有什么——這些關(guān)鍵信息都藏在游戲的內(nèi)存深處，不直接顯示在畫(huà)面上。

還有一個(gè)讓研究團(tuán)隊(duì)頭疼不已的細(xì)節(jié)：《精靈寶可夢(mèng)·紅版》的移動(dòng)方式有個(gè)奇怪的"雙按"機(jī)制。你按一下方向鍵，角色只是轉(zhuǎn)個(gè)身；再按一下，角色才真正往那個(gè)方向走一步。如果AI不了解這個(gè)規(guī)則，它就會(huì)一直在原地轉(zhuǎn)圈，看起來(lái)忙忙碌碌，實(shí)際上哪兒也沒(méi)去——這聽(tīng)起來(lái)既可笑，又真實(shí)發(fā)生了。

正因?yàn)檫@些挑戰(zhàn)，德州農(nóng)工大學(xué)的研究團(tuán)隊(duì)決定不只是"扔一個(gè)AI進(jìn)去讓它自己摸索"，而是搭建一套叫做PokeRL的系統(tǒng)，專(zhuān)門(mén)針對(duì)這些讓AI"犯傻"的陷阱逐一設(shè)計(jì)解決方案。

二、研究團(tuán)隊(duì)搭建了一個(gè)什么樣的"訓(xùn)練場(chǎng)"

PokeRL的底層架構(gòu)，是在PyBoy這個(gè)Game Boy模擬器上包了一層自定義的"環(huán)境外殼"，再連接上一套強(qiáng)化學(xué)習(xí)框架?？梢园堰@個(gè)過(guò)程理解為：研究團(tuán)隊(duì)給AI建了一個(gè)經(jīng)過(guò)特殊改造的游戲機(jī)，這臺(tái)游戲機(jī)不只是讓AI按鍵，還會(huì)實(shí)時(shí)記錄AI的行為、讀取游戲內(nèi)存里的關(guān)鍵數(shù)據(jù)、根據(jù)AI的表現(xiàn)給出獎(jiǎng)勵(lì)或懲罰，并且裝了一套"防抽風(fēng)"系統(tǒng)防止AI做出奇怪的重復(fù)行為。

AI的"眼睛"是一個(gè)被壓縮成72×80像素的黑白屏幕畫(huà)面。為了讓AI有短期記憶，系統(tǒng)會(huì)把連續(xù)四幀畫(huà)面疊加在一起輸入給AI，就像讓你同時(shí)看到一段短視頻的四個(gè)截圖，而不是只看一張靜止圖片。此外，還有一個(gè)非常巧妙的設(shè)計(jì)：每張地圖都對(duì)應(yīng)一個(gè)"已探索遮罩"，這是一個(gè)跟游戲畫(huà)面一樣大的黑白圖層，AI走過(guò)的格子會(huì)被標(biāo)記出來(lái)。這個(gè)遮罩相當(dāng)于AI的地圖筆記，告訴它"這里我已經(jīng)去過(guò)了，那邊還沒(méi)探索"。兩個(gè)圖層疊加之后，最終AI處理的是一個(gè)8通道的輸入（4幀畫(huà)面加上4幀對(duì)應(yīng)的探索遮罩），再送進(jìn)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分析決策。

說(shuō)到AI的"大腦"，研究團(tuán)隊(duì)使用了一個(gè)標(biāo)準(zhǔn)的卷積演員-評(píng)論家網(wǎng)絡(luò)，參數(shù)量大約107萬(wàn)個(gè)。這個(gè)數(shù)字在AI領(lǐng)域算相當(dāng)輕量，訓(xùn)練速度相對(duì)較快。整個(gè)網(wǎng)絡(luò)分成兩部分：演員部分負(fù)責(zé)決定下一步按哪個(gè)鍵，評(píng)論家部分負(fù)責(zé)判斷當(dāng)前局面"值不值"。兩者共用前面的卷積層和一個(gè)512單元的全連接層，最后分叉成兩個(gè)輸出頭。

為了讀取游戲內(nèi)存里的關(guān)鍵數(shù)據(jù)，研究團(tuán)隊(duì)還專(zhuān)門(mén)編寫(xiě)了一個(gè)內(nèi)存讀取模塊，直接從游戲RAM中獲取角色坐標(biāo)、當(dāng)前地圖編號(hào)、隊(duì)伍數(shù)量、戰(zhàn)斗狀態(tài)和寶可夢(mèng)血量等信息。這些信息不會(huì)直接給AI看，而是用來(lái)計(jì)算獎(jiǎng)勵(lì)信號(hào)、判斷任務(wù)完成條件。

在行動(dòng)選項(xiàng)上，研究團(tuán)隊(duì)把AI的可用按鍵限制在7個(gè)：上下左右四個(gè)方向鍵、A鍵、B鍵和"什么都不做"。Start鍵和Select鍵被徹底封禁——原因是AI非常容易學(xué)會(huì)狂按這兩個(gè)鍵來(lái)打開(kāi)菜單，不但沒(méi)有任何進(jìn)展，還會(huì)讓游戲卡在菜單界面動(dòng)彈不得。事實(shí)上，研究團(tuán)隊(duì)曾觀察到AI學(xué)會(huì)了在走下樓之后瘋狂存檔的習(xí)慣，這純屬走了歪路，必須截?cái)唷?/p>

三、如何教會(huì)AI"什么是有意義的行為"——獎(jiǎng)勵(lì)體系設(shè)計(jì)

在強(qiáng)化學(xué)習(xí)里，AI完全靠獎(jiǎng)勵(lì)來(lái)判斷自己做得對(duì)不對(duì)。設(shè)計(jì)獎(jiǎng)勵(lì)就像設(shè)計(jì)一套積分規(guī)則：規(guī)則定得好，AI就會(huì)學(xué)到真正有用的技能；規(guī)則有漏洞，AI會(huì)第一時(shí)間找到作弊方法并死死抓住不放。

研究團(tuán)隊(duì)把獎(jiǎng)勵(lì)分成三個(gè)層次，由細(xì)到粗。最細(xì)的一層是每一步行動(dòng)的即時(shí)獎(jiǎng)勵(lì)：走到一個(gè)新的格子得1分，移動(dòng)的歐氏距離每增加一個(gè)單位額外得0.2分，第一次踏上某個(gè)位置再額外得0.5分。這些小獎(jiǎng)勵(lì)的作用是引導(dǎo)AI不要停在原地，鼓勵(lì)它不斷向新方向探索。

中間層是完成階段性小目標(biāo)的獎(jiǎng)勵(lì)：從一張地圖切換到另一張地圖得10分，本局游戲第一次進(jìn)入某張地圖額外得5分，到達(dá)大片未探索區(qū)域再得2分。這些獎(jiǎng)勵(lì)引導(dǎo)AI不僅在當(dāng)前小區(qū)域轉(zhuǎn)悠，而是積極尋找出口、進(jìn)入新地圖。

最頂層是稀有的大事件獎(jiǎng)勵(lì)：進(jìn)入高草叢得20分，觸發(fā)戰(zhàn)斗得10分，抓到寶可夢(mèng)或者贏得和小茂的對(duì)戰(zhàn)得50分。這些是游戲進(jìn)度的真正里程碑，獎(jiǎng)勵(lì)值大，但出現(xiàn)頻率極低。

為了對(duì)沖AI可能發(fā)展出的偷懶行為，研究團(tuán)隊(duì)還加入了一套懲罰機(jī)制：原地不動(dòng)會(huì)被扣分，反復(fù)按同一個(gè)鍵會(huì)被扣分，陷入位置循環(huán)也會(huì)被扣分。這些懲罰值被刻意設(shè)計(jì)得比較溫和，范圍在-0.02到-0.2之間。這是一個(gè)非常重要的經(jīng)驗(yàn)教訓(xùn)：研究團(tuán)隊(duì)一開(kāi)始用了很重的懲罰，結(jié)果AI因?yàn)樘ε驴鄯侄兊脴O度保守，整體得分變成大量負(fù)值，訓(xùn)練徹底崩潰。適度的懲罰才能保持方向感而不破壞學(xué)習(xí)積極性。

四、AI最容易犯的兩種"壞毛病"以及如何治它們

如果你讓AI在沒(méi)有任何限制的情況下自由探索，它幾乎必然會(huì)發(fā)展出兩種讓人抓狂的習(xí)慣：一種是無(wú)休止地在同一片區(qū)域打轉(zhuǎn)，另一種是瘋狂按某一個(gè)鍵。研究團(tuán)隊(duì)把這兩種毛病稱為"循環(huán)"和"垃圾鍵入"，并且專(zhuān)門(mén)為它們?cè)O(shè)計(jì)了一套三層防御機(jī)制。

先說(shuō)防循環(huán)。第一層是位置訪問(wèn)計(jì)數(shù)器：系統(tǒng)記錄本局游戲AI走過(guò)每個(gè)坐標(biāo)的次數(shù)，超過(guò)3次開(kāi)始扣小分，超過(guò)5次扣更多。第二層是行動(dòng)模式檢測(cè)：系統(tǒng)用一個(gè)長(zhǎng)度為20步的滑動(dòng)窗口監(jiān)視AI最近的按鍵序列，一旦發(fā)現(xiàn)AI在反復(fù)做"A-B-A-B"或者"左-右-左-右"這樣的固定重復(fù)模式，立刻扣分，反過(guò)來(lái)如果AI打破了這種模式，還會(huì)獎(jiǎng)勵(lì)一點(diǎn)小分來(lái)鼓勵(lì)改變。第三層是位置循環(huán)檢測(cè)：系統(tǒng)跟蹤AI的歷史位置軌跡，如果發(fā)現(xiàn)AI反復(fù)回到某個(gè)小半徑范圍內(nèi)的位置，判定為循環(huán)并施加懲罰。

研究團(tuán)隊(duì)為了驗(yàn)證這套系統(tǒng)的效果，專(zhuān)門(mén)統(tǒng)計(jì)了訓(xùn)練過(guò)程中"循環(huán)局"的比例——所謂循環(huán)局，是指某單個(gè)坐標(biāo)被訪問(wèn)超過(guò)10次、或者行動(dòng)模式檢測(cè)觸發(fā)超過(guò)20次的那些局。結(jié)果非常直觀：在沒(méi)有防循環(huán)系統(tǒng)的情況下，所有訓(xùn)練局中有41.2%屬于循環(huán)局，只有58.8%是正常進(jìn)行的。加上防循環(huán)系統(tǒng)之后，循環(huán)局的比例急劇下降到4.7%，正常局占到95.3%。這相當(dāng)于把AI抽風(fēng)的概率從接近一半降低到了幾乎可以忽略不計(jì)。

再說(shuō)防垃圾鍵入。研究團(tuán)隊(duì)發(fā)現(xiàn)AI特別容易學(xué)會(huì)狂按A鍵、不動(dòng)鍵或者沒(méi)有意義的菜單鍵，因?yàn)檫@些行為不會(huì)直接導(dǎo)致懲罰，但也不需要什么學(xué)習(xí)成本。解決方案是一套漸進(jìn)式連按懲罰：同一個(gè)鍵連按3次開(kāi)始扣0.1分，超過(guò)5次扣0.2分。與此同時(shí)，如果AI最近幾步內(nèi)使用了至少4種不同的行動(dòng)，還會(huì)得到一個(gè)小小的多樣性獎(jiǎng)勵(lì)來(lái)激勵(lì)它主動(dòng)變換策略。Start和Select鍵則直接從行動(dòng)空間中刪除，徹底關(guān)上這扇偷懶的門(mén)。

評(píng)估這套防垃圾鍵入系統(tǒng)的效果，研究團(tuán)隊(duì)用了信息熵這個(gè)工具——可以把它理解為衡量一個(gè)人打牌時(shí)出牌花色有多均勻的指標(biāo)，花色越均勻，熵值越高。在沒(méi)有防垃圾鍵入系統(tǒng)之前，AI的行動(dòng)分布熵只有1.21比特：A鍵占了32.1%，什么都不做占了28.4%，真正移動(dòng)的行動(dòng)只有27.2%。加上系統(tǒng)之后，移動(dòng)行動(dòng)的比例上升到68.2%，A鍵和B鍵加起來(lái)只有24.3%，什么都不做降到了7.5%，總體熵值上升到1.82比特，相對(duì)提升約50%。換句話說(shuō)，AI從一個(gè)只會(huì)按A和發(fā)呆的懶蛋，變成了一個(gè)能靈活移動(dòng)探索的正常玩家。

五、把大任務(wù)拆成三節(jié)課——課程式訓(xùn)練結(jié)構(gòu)

直接讓AI從游戲開(kāi)始一口氣學(xué)到贏得對(duì)戰(zhàn)，就像讓一個(gè)從來(lái)沒(méi)碰過(guò)樂(lè)器的人直接去演奏一首交響樂(lè)。研究團(tuán)隊(duì)選擇的方法是把整個(gè)早期游戲分成三個(gè)獨(dú)立的學(xué)習(xí)階段，每個(gè)階段有自己的起點(diǎn)、終止條件和獎(jiǎng)勵(lì)重點(diǎn)，讓AI循序漸進(jìn)。

第一階段叫"走出房間"。AI從小智的臥室開(kāi)始，目標(biāo)是走下樓梯、穿過(guò)客廳、推開(kāi)前門(mén)走到屋外。這個(gè)階段的獎(jiǎng)勵(lì)重點(diǎn)在移動(dòng)本身和第一次地圖切換，幫助AI學(xué)會(huì)基本的方向控制和門(mén)的交互方法。在訓(xùn)練了15萬(wàn)步之后，AI能在大約65%的局次里成功走出房間。

第二階段叫"探索到草叢"。AI從房子前門(mén)外出發(fā)，目標(biāo)是在彩葉鎮(zhèn)和1號(hào)道路上找到高草叢，觸發(fā)大木博士的劇情事件。這個(gè)階段的獎(jiǎng)勵(lì)更強(qiáng)調(diào)探索新地圖和覆蓋更大的地圖面積。經(jīng)過(guò)50萬(wàn)步訓(xùn)練，AI能在約60%的局次里成功到達(dá)高草叢并觸發(fā)事件。

第三階段叫"贏得對(duì)戰(zhàn)"。AI直接從與小茂對(duì)戰(zhàn)的開(kāi)始狀態(tài)出發(fā)，使用固定的初始寶可夢(mèng)，目標(biāo)是通過(guò)有效的戰(zhàn)斗指令擊敗對(duì)手。這個(gè)階段的獎(jiǎng)勵(lì)聚焦于使用進(jìn)攻招式、擊倒對(duì)手寶可夢(mèng)和贏得對(duì)戰(zhàn)。訓(xùn)練50萬(wàn)步之后，AI的勝率穩(wěn)定在約50%左右。

這種分階段的課程式結(jié)構(gòu)有兩個(gè)明顯好處：一是每個(gè)階段的任務(wù)足夠簡(jiǎn)單，AI能更快看到有效獎(jiǎng)勵(lì)，學(xué)習(xí)效率大幅提升；二是調(diào)試起來(lái)容易得多，哪個(gè)階段出了問(wèn)題一目了然，不用在一個(gè)龐大的單一系統(tǒng)里撈針。

六、給AI加上"地圖筆記"有多重要——探索遮罩的價(jià)值

前面提到，AI的觀察中除了實(shí)時(shí)畫(huà)面，還有一個(gè)"已探索遮罩"。研究團(tuán)隊(duì)專(zhuān)門(mén)做了一組對(duì)比實(shí)驗(yàn)來(lái)量化這個(gè)遮罩到底有多重要，訓(xùn)練時(shí)長(zhǎng)統(tǒng)一控制在30萬(wàn)步。

結(jié)果相當(dāng)明顯。沒(méi)有探索遮罩時(shí)，AI平均每局探索的獨(dú)特坐標(biāo)數(shù)量是34.2個(gè)，彩葉鎮(zhèn)的地圖覆蓋率只有12%，平均每個(gè)格子被重復(fù)訪問(wèn)4.8次。加上探索遮罩之后，獨(dú)特坐標(biāo)數(shù)量跳升到48.1個(gè)，增幅超過(guò)40%；彩葉鎮(zhèn)覆蓋率從12%飆升到41%，漲了約242%；每個(gè)格子平均被重復(fù)訪問(wèn)的次數(shù)從4.8次降到了3.1次，重復(fù)率降低了約35%。

這說(shuō)明AI并不只是把探索遮罩當(dāng)作無(wú)用的噪聲忽略掉，而是真正學(xué)會(huì)了把它當(dāng)作一張記憶地圖來(lái)使用——哪里已經(jīng)去過(guò)，就傾向于往沒(méi)去過(guò)的方向走。在沒(méi)有遮罩的情況下，AI的策略本質(zhì)上是無(wú)記憶的，只能根據(jù)當(dāng)前畫(huà)面猜測(cè)方向，結(jié)果就是反復(fù)在同一片區(qū)域繞圈。遮罩給了AI"空間記憶"，讓它的探索行為從無(wú)目的的隨機(jī)游走，變成了有一定方向感的主動(dòng)開(kāi)拓。

七、這套系統(tǒng)的局限性和未來(lái)可以做什么

PokeRL在設(shè)計(jì)理念上確實(shí)走出了一步：不只是堆算法，而是把游戲本身的具體特性和AI最常見(jiàn)的失敗模式一起編進(jìn)了系統(tǒng)里。但這套系統(tǒng)本身也有一些不掩蓋的局限。

最明顯的一點(diǎn)是，整個(gè)系統(tǒng)并不是"純粹從像素學(xué)習(xí)"。內(nèi)存讀取模塊直接偷看了游戲RAM里的數(shù)據(jù)，獎(jiǎng)勵(lì)信號(hào)也經(jīng)過(guò)了大量人工設(shè)計(jì)。這意味著如果你想把這套框架搬到另一款游戲上，需要重新做大量的適配工作，不是開(kāi)箱即用的通用方案。訓(xùn)練過(guò)程也相當(dāng)耗時(shí)，而且對(duì)超參數(shù)比較敏感，換一組參數(shù)可能效果大相徑庭。此外，游戲中的文字對(duì)話場(chǎng)景有時(shí)候需要人工干預(yù)才能跳過(guò)，還沒(méi)實(shí)現(xiàn)完全自動(dòng)化。

至于未來(lái)可以去的方向，研究團(tuán)隊(duì)提出了幾個(gè)思路。一是把三個(gè)獨(dú)立訓(xùn)練的階段合并成一個(gè)連貫的長(zhǎng)期任務(wù)，讓AI在一場(chǎng)游戲里連續(xù)完成走出房間、探索地圖和贏得對(duì)戰(zhàn)，而不是分開(kāi)訓(xùn)練。二是在探索機(jī)制上加入更系統(tǒng)的好奇心驅(qū)動(dòng)方法，比如讓AI對(duì)沒(méi)見(jiàn)過(guò)的畫(huà)面自動(dòng)產(chǎn)生更強(qiáng)的探索欲望，而不依賴手工設(shè)計(jì)的循環(huán)懲罰。三是嘗試減少手工設(shè)計(jì)獎(jiǎng)勵(lì)的比重，改用從人類(lèi)玩家行為中學(xué)習(xí)的逆強(qiáng)化學(xué)習(xí)方法，或者基于人類(lèi)偏好反饋的獎(jiǎng)勵(lì)學(xué)習(xí)方法，讓AI自己摸索出什么樣的行為是好的。四是把語(yǔ)言模型融入對(duì)戰(zhàn)決策，借鑒已有研究中語(yǔ)言模型在寶可夢(mèng)對(duì)戰(zhàn)里取得接近人類(lèi)水平的思路。最后，研究團(tuán)隊(duì)希望把整個(gè)PokeRL環(huán)境打包成一個(gè)標(biāo)準(zhǔn)化的開(kāi)源測(cè)評(píng)平臺(tái)，讓更多研究者可以在相同條件下做對(duì)比實(shí)驗(yàn)，推動(dòng)這個(gè)方向的整體進(jìn)步。

說(shuō)到底，這項(xiàng)研究想傳遞的核心信息很簡(jiǎn)單：讓AI玩好一款游戲，光靠聰明的算法是不夠的，更需要把游戲的具體怪癖和AI的具體弱點(diǎn)都認(rèn)真對(duì)待，然后一個(gè)一個(gè)地工程化地解決掉。在AI面對(duì)復(fù)雜的真實(shí)世界任務(wù)時(shí)，這種"把失敗模式顯式建模進(jìn)系統(tǒng)"的思路，可能比單純追求更大更強(qiáng)的模型更加實(shí)用。這不是最終答案，但它是一塊認(rèn)真打磨過(guò)的墊腳石。

Q&A

Q1：PokeRL系統(tǒng)中的"探索遮罩"具體是怎么工作的？

A：探索遮罩是一張和游戲畫(huà)面一樣大的黑白圖層，AI每走過(guò)一個(gè)格子，對(duì)應(yīng)位置就會(huì)被標(biāo)記出來(lái)。這張圖作為額外的觀察信息輸入給AI，讓AI知道哪里已經(jīng)去過(guò)、哪里還沒(méi)探索。遮罩的原點(diǎn)固定在該地圖的入口位置，保證攝像頭滾動(dòng)時(shí)標(biāo)記不會(huì)錯(cuò)位。實(shí)驗(yàn)表明，加了遮罩之后AI在彩葉鎮(zhèn)的地圖覆蓋率從12%提升到41%，重復(fù)訪問(wèn)同一格子的次數(shù)也明顯減少。

Q2：PokeRL的防循環(huán)機(jī)制為什么要用三層，一層懲罰不夠嗎？

A：?jiǎn)螌討土P容易被AI繞過(guò)。比如只懲罰位置重復(fù)，AI可能換成在稍微不同的兩個(gè)位置之間來(lái)回切換，形式上不觸發(fā)懲罰但實(shí)質(zhì)上仍是無(wú)效循環(huán)。三層機(jī)制分別針對(duì)位置頻率、行動(dòng)模式和空間軌跡三個(gè)維度，覆蓋了循環(huán)行為的不同表現(xiàn)形式，互相補(bǔ)充。實(shí)驗(yàn)數(shù)據(jù)顯示三層機(jī)制合用后循環(huán)局比例從41.2%降到了4.7%，效果相當(dāng)顯著。

Q3：PokeRL訓(xùn)練出的AI最終能打通《精靈寶可夢(mèng)·紅版》整個(gè)游戲嗎？

A：目前不能。PokeRL只針對(duì)游戲最開(kāi)頭的三個(gè)階段進(jìn)行了訓(xùn)練，分別是走出房間、探索到高草叢和贏得第一場(chǎng)對(duì)戰(zhàn)，三個(gè)階段的成功率分別約為65%、60%和50%，距離通關(guān)整個(gè)游戲還差得很遠(yuǎn)。研究團(tuán)隊(duì)的定位也很明確：這是一個(gè)研究早期游戲段落的實(shí)驗(yàn)平臺(tái)，目標(biāo)是為更復(fù)雜的長(zhǎng)期任務(wù)打基礎(chǔ)，而不是直接造出一個(gè)能打通全游戲的AI。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.