国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

德州農(nóng)工大學(xué)教你如何讓AI玩轉(zhuǎn)《精靈寶可夢(mèng)》

0
分享至


這篇研究來(lái)自德州農(nóng)工大學(xué)數(shù)據(jù)科學(xué)研究院與計(jì)算機(jī)科學(xué)系,于2026年4月12日以預(yù)印本形式發(fā)布,編號(hào)為arXiv:2604.10812v1,感興趣的讀者可以通過(guò)該編號(hào)查閱完整原文。

說(shuō)到用AI玩游戲,大多數(shù)人腦子里可能浮現(xiàn)的是AI打敗圍棋世界冠軍、或者在《星際爭(zhēng)霸》里橫掃職業(yè)選手的新聞。但你有沒(méi)有想過(guò),讓一個(gè)AI玩《精靈寶可夢(mèng)·紅版》這樣的經(jīng)典Game Boy游戲,其實(shí)比打圍棋還要難得多?這不是在開(kāi)玩笑——德州農(nóng)工大學(xué)的研究團(tuán)隊(duì)親身經(jīng)歷了這份痛苦,然后把它做成了一篇正經(jīng)的學(xué)術(shù)研究。

這項(xiàng)研究的核心,是讓一個(gè)AI學(xué)會(huì)玩《精靈寶可夢(mèng)·紅版》游戲最開(kāi)頭的幾段內(nèi)容:從主角小智的房間里走出去、在彩葉鎮(zhèn)轉(zhuǎn)一圈找到高草叢、然后贏得第一場(chǎng)和對(duì)手小茂的寶可夢(mèng)對(duì)戰(zhàn)。聽(tīng)起來(lái)像是小孩子十分鐘就能搞定的事情,但對(duì)AI來(lái)說(shuō),這是一場(chǎng)充滿陷阱的馬拉松。

一、為什么讓AI玩《精靈寶可夢(mèng)》是一件很頭疼的事

要理解這件事有多難,不妨把AI玩游戲的過(guò)程類(lèi)比成教一個(gè)完全不懂規(guī)則的新手學(xué)下棋。但《精靈寶可夢(mèng)·紅版》甚至比國(guó)際象棋還要棘手,因?yàn)樗恢皇且粋€(gè)游戲,而是多個(gè)游戲疊加在一起的超復(fù)雜任務(wù)。

首先是"獎(jiǎng)勵(lì)稀少"的問(wèn)題。在游戲里,真正有意義的事件——比如抓到一只寶可夢(mèng)、贏得一場(chǎng)對(duì)戰(zhàn)——之間隔著成千上萬(wàn)個(gè)操作步驟。對(duì)AI來(lái)說(shuō),這就像是讓你走完一個(gè)巨型迷宮,但迷宮里幾乎沒(méi)有任何路標(biāo),你只有走到終點(diǎn)才能知道自己走對(duì)了。大部分時(shí)候AI只能在黑暗里亂摸。

其次是選擇太多的問(wèn)題。游戲剛開(kāi)始沒(méi)多久,屏幕上就有幾十個(gè)格子可以走,有門(mén)可以開(kāi),有人可以交互。每一步都有很多種選擇,AI根本不知道哪條路是對(duì)的。

更麻煩的是,AI只能"看到"當(dāng)前屏幕上的畫(huà)面,就像你隔著一扇窗觀察房間,你能看到現(xiàn)在窗里的樣子,但你不知道隔壁房間發(fā)生了什么。角色當(dāng)前的血量、所在地圖的編號(hào)、背包里有什么——這些關(guān)鍵信息都藏在游戲的內(nèi)存深處,不直接顯示在畫(huà)面上。

還有一個(gè)讓研究團(tuán)隊(duì)頭疼不已的細(xì)節(jié):《精靈寶可夢(mèng)·紅版》的移動(dòng)方式有個(gè)奇怪的"雙按"機(jī)制。你按一下方向鍵,角色只是轉(zhuǎn)個(gè)身;再按一下,角色才真正往那個(gè)方向走一步。如果AI不了解這個(gè)規(guī)則,它就會(huì)一直在原地轉(zhuǎn)圈,看起來(lái)忙忙碌碌,實(shí)際上哪兒也沒(méi)去——這聽(tīng)起來(lái)既可笑,又真實(shí)發(fā)生了。

正因?yàn)檫@些挑戰(zhàn),德州農(nóng)工大學(xué)的研究團(tuán)隊(duì)決定不只是"扔一個(gè)AI進(jìn)去讓它自己摸索",而是搭建一套叫做PokeRL的系統(tǒng),專(zhuān)門(mén)針對(duì)這些讓AI"犯傻"的陷阱逐一設(shè)計(jì)解決方案。

二、研究團(tuán)隊(duì)搭建了一個(gè)什么樣的"訓(xùn)練場(chǎng)"

PokeRL的底層架構(gòu),是在PyBoy這個(gè)Game Boy模擬器上包了一層自定義的"環(huán)境外殼",再連接上一套強(qiáng)化學(xué)習(xí)框架??梢园堰@個(gè)過(guò)程理解為:研究團(tuán)隊(duì)給AI建了一個(gè)經(jīng)過(guò)特殊改造的游戲機(jī),這臺(tái)游戲機(jī)不只是讓AI按鍵,還會(huì)實(shí)時(shí)記錄AI的行為、讀取游戲內(nèi)存里的關(guān)鍵數(shù)據(jù)、根據(jù)AI的表現(xiàn)給出獎(jiǎng)勵(lì)或懲罰,并且裝了一套"防抽風(fēng)"系統(tǒng)防止AI做出奇怪的重復(fù)行為。

AI的"眼睛"是一個(gè)被壓縮成72×80像素的黑白屏幕畫(huà)面。為了讓AI有短期記憶,系統(tǒng)會(huì)把連續(xù)四幀畫(huà)面疊加在一起輸入給AI,就像讓你同時(shí)看到一段短視頻的四個(gè)截圖,而不是只看一張靜止圖片。此外,還有一個(gè)非常巧妙的設(shè)計(jì):每張地圖都對(duì)應(yīng)一個(gè)"已探索遮罩",這是一個(gè)跟游戲畫(huà)面一樣大的黑白圖層,AI走過(guò)的格子會(huì)被標(biāo)記出來(lái)。這個(gè)遮罩相當(dāng)于AI的地圖筆記,告訴它"這里我已經(jīng)去過(guò)了,那邊還沒(méi)探索"。兩個(gè)圖層疊加之后,最終AI處理的是一個(gè)8通道的輸入(4幀畫(huà)面加上4幀對(duì)應(yīng)的探索遮罩),再送進(jìn)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分析決策。

說(shuō)到AI的"大腦",研究團(tuán)隊(duì)使用了一個(gè)標(biāo)準(zhǔn)的卷積演員-評(píng)論家網(wǎng)絡(luò),參數(shù)量大約107萬(wàn)個(gè)。這個(gè)數(shù)字在AI領(lǐng)域算相當(dāng)輕量,訓(xùn)練速度相對(duì)較快。整個(gè)網(wǎng)絡(luò)分成兩部分:演員部分負(fù)責(zé)決定下一步按哪個(gè)鍵,評(píng)論家部分負(fù)責(zé)判斷當(dāng)前局面"值不值"。兩者共用前面的卷積層和一個(gè)512單元的全連接層,最后分叉成兩個(gè)輸出頭。

為了讀取游戲內(nèi)存里的關(guān)鍵數(shù)據(jù),研究團(tuán)隊(duì)還專(zhuān)門(mén)編寫(xiě)了一個(gè)內(nèi)存讀取模塊,直接從游戲RAM中獲取角色坐標(biāo)、當(dāng)前地圖編號(hào)、隊(duì)伍數(shù)量、戰(zhàn)斗狀態(tài)和寶可夢(mèng)血量等信息。這些信息不會(huì)直接給AI看,而是用來(lái)計(jì)算獎(jiǎng)勵(lì)信號(hào)、判斷任務(wù)完成條件。

在行動(dòng)選項(xiàng)上,研究團(tuán)隊(duì)把AI的可用按鍵限制在7個(gè):上下左右四個(gè)方向鍵、A鍵、B鍵和"什么都不做"。Start鍵和Select鍵被徹底封禁——原因是AI非常容易學(xué)會(huì)狂按這兩個(gè)鍵來(lái)打開(kāi)菜單,不但沒(méi)有任何進(jìn)展,還會(huì)讓游戲卡在菜單界面動(dòng)彈不得。事實(shí)上,研究團(tuán)隊(duì)曾觀察到AI學(xué)會(huì)了在走下樓之后瘋狂存檔的習(xí)慣,這純屬走了歪路,必須截?cái)唷?/p>

三、如何教會(huì)AI"什么是有意義的行為"——獎(jiǎng)勵(lì)體系設(shè)計(jì)

在強(qiáng)化學(xué)習(xí)里,AI完全靠獎(jiǎng)勵(lì)來(lái)判斷自己做得對(duì)不對(duì)。設(shè)計(jì)獎(jiǎng)勵(lì)就像設(shè)計(jì)一套積分規(guī)則:規(guī)則定得好,AI就會(huì)學(xué)到真正有用的技能;規(guī)則有漏洞,AI會(huì)第一時(shí)間找到作弊方法并死死抓住不放。

研究團(tuán)隊(duì)把獎(jiǎng)勵(lì)分成三個(gè)層次,由細(xì)到粗。最細(xì)的一層是每一步行動(dòng)的即時(shí)獎(jiǎng)勵(lì):走到一個(gè)新的格子得1分,移動(dòng)的歐氏距離每增加一個(gè)單位額外得0.2分,第一次踏上某個(gè)位置再額外得0.5分。這些小獎(jiǎng)勵(lì)的作用是引導(dǎo)AI不要停在原地,鼓勵(lì)它不斷向新方向探索。

中間層是完成階段性小目標(biāo)的獎(jiǎng)勵(lì):從一張地圖切換到另一張地圖得10分,本局游戲第一次進(jìn)入某張地圖額外得5分,到達(dá)大片未探索區(qū)域再得2分。這些獎(jiǎng)勵(lì)引導(dǎo)AI不僅在當(dāng)前小區(qū)域轉(zhuǎn)悠,而是積極尋找出口、進(jìn)入新地圖。

最頂層是稀有的大事件獎(jiǎng)勵(lì):進(jìn)入高草叢得20分,觸發(fā)戰(zhàn)斗得10分,抓到寶可夢(mèng)或者贏得和小茂的對(duì)戰(zhàn)得50分。這些是游戲進(jìn)度的真正里程碑,獎(jiǎng)勵(lì)值大,但出現(xiàn)頻率極低。

為了對(duì)沖AI可能發(fā)展出的偷懶行為,研究團(tuán)隊(duì)還加入了一套懲罰機(jī)制:原地不動(dòng)會(huì)被扣分,反復(fù)按同一個(gè)鍵會(huì)被扣分,陷入位置循環(huán)也會(huì)被扣分。這些懲罰值被刻意設(shè)計(jì)得比較溫和,范圍在-0.02到-0.2之間。這是一個(gè)非常重要的經(jīng)驗(yàn)教訓(xùn):研究團(tuán)隊(duì)一開(kāi)始用了很重的懲罰,結(jié)果AI因?yàn)樘ε驴鄯侄兊脴O度保守,整體得分變成大量負(fù)值,訓(xùn)練徹底崩潰。適度的懲罰才能保持方向感而不破壞學(xué)習(xí)積極性。

四、AI最容易犯的兩種"壞毛病"以及如何治它們

如果你讓AI在沒(méi)有任何限制的情況下自由探索,它幾乎必然會(huì)發(fā)展出兩種讓人抓狂的習(xí)慣:一種是無(wú)休止地在同一片區(qū)域打轉(zhuǎn),另一種是瘋狂按某一個(gè)鍵。研究團(tuán)隊(duì)把這兩種毛病稱為"循環(huán)"和"垃圾鍵入",并且專(zhuān)門(mén)為它們?cè)O(shè)計(jì)了一套三層防御機(jī)制。

先說(shuō)防循環(huán)。第一層是位置訪問(wèn)計(jì)數(shù)器:系統(tǒng)記錄本局游戲AI走過(guò)每個(gè)坐標(biāo)的次數(shù),超過(guò)3次開(kāi)始扣小分,超過(guò)5次扣更多。第二層是行動(dòng)模式檢測(cè):系統(tǒng)用一個(gè)長(zhǎng)度為20步的滑動(dòng)窗口監(jiān)視AI最近的按鍵序列,一旦發(fā)現(xiàn)AI在反復(fù)做"A-B-A-B"或者"左-右-左-右"這樣的固定重復(fù)模式,立刻扣分,反過(guò)來(lái)如果AI打破了這種模式,還會(huì)獎(jiǎng)勵(lì)一點(diǎn)小分來(lái)鼓勵(lì)改變。第三層是位置循環(huán)檢測(cè):系統(tǒng)跟蹤AI的歷史位置軌跡,如果發(fā)現(xiàn)AI反復(fù)回到某個(gè)小半徑范圍內(nèi)的位置,判定為循環(huán)并施加懲罰。

研究團(tuán)隊(duì)為了驗(yàn)證這套系統(tǒng)的效果,專(zhuān)門(mén)統(tǒng)計(jì)了訓(xùn)練過(guò)程中"循環(huán)局"的比例——所謂循環(huán)局,是指某單個(gè)坐標(biāo)被訪問(wèn)超過(guò)10次、或者行動(dòng)模式檢測(cè)觸發(fā)超過(guò)20次的那些局。結(jié)果非常直觀:在沒(méi)有防循環(huán)系統(tǒng)的情況下,所有訓(xùn)練局中有41.2%屬于循環(huán)局,只有58.8%是正常進(jìn)行的。加上防循環(huán)系統(tǒng)之后,循環(huán)局的比例急劇下降到4.7%,正常局占到95.3%。這相當(dāng)于把AI抽風(fēng)的概率從接近一半降低到了幾乎可以忽略不計(jì)。

再說(shuō)防垃圾鍵入。研究團(tuán)隊(duì)發(fā)現(xiàn)AI特別容易學(xué)會(huì)狂按A鍵、不動(dòng)鍵或者沒(méi)有意義的菜單鍵,因?yàn)檫@些行為不會(huì)直接導(dǎo)致懲罰,但也不需要什么學(xué)習(xí)成本。解決方案是一套漸進(jìn)式連按懲罰:同一個(gè)鍵連按3次開(kāi)始扣0.1分,超過(guò)5次扣0.2分。與此同時(shí),如果AI最近幾步內(nèi)使用了至少4種不同的行動(dòng),還會(huì)得到一個(gè)小小的多樣性獎(jiǎng)勵(lì)來(lái)激勵(lì)它主動(dòng)變換策略。Start和Select鍵則直接從行動(dòng)空間中刪除,徹底關(guān)上這扇偷懶的門(mén)。

評(píng)估這套防垃圾鍵入系統(tǒng)的效果,研究團(tuán)隊(duì)用了信息熵這個(gè)工具——可以把它理解為衡量一個(gè)人打牌時(shí)出牌花色有多均勻的指標(biāo),花色越均勻,熵值越高。在沒(méi)有防垃圾鍵入系統(tǒng)之前,AI的行動(dòng)分布熵只有1.21比特:A鍵占了32.1%,什么都不做占了28.4%,真正移動(dòng)的行動(dòng)只有27.2%。加上系統(tǒng)之后,移動(dòng)行動(dòng)的比例上升到68.2%,A鍵和B鍵加起來(lái)只有24.3%,什么都不做降到了7.5%,總體熵值上升到1.82比特,相對(duì)提升約50%。換句話說(shuō),AI從一個(gè)只會(huì)按A和發(fā)呆的懶蛋,變成了一個(gè)能靈活移動(dòng)探索的正常玩家。

五、把大任務(wù)拆成三節(jié)課——課程式訓(xùn)練結(jié)構(gòu)

直接讓AI從游戲開(kāi)始一口氣學(xué)到贏得對(duì)戰(zhàn),就像讓一個(gè)從來(lái)沒(méi)碰過(guò)樂(lè)器的人直接去演奏一首交響樂(lè)。研究團(tuán)隊(duì)選擇的方法是把整個(gè)早期游戲分成三個(gè)獨(dú)立的學(xué)習(xí)階段,每個(gè)階段有自己的起點(diǎn)、終止條件和獎(jiǎng)勵(lì)重點(diǎn),讓AI循序漸進(jìn)。

第一階段叫"走出房間"。AI從小智的臥室開(kāi)始,目標(biāo)是走下樓梯、穿過(guò)客廳、推開(kāi)前門(mén)走到屋外。這個(gè)階段的獎(jiǎng)勵(lì)重點(diǎn)在移動(dòng)本身和第一次地圖切換,幫助AI學(xué)會(huì)基本的方向控制和門(mén)的交互方法。在訓(xùn)練了15萬(wàn)步之后,AI能在大約65%的局次里成功走出房間。

第二階段叫"探索到草叢"。AI從房子前門(mén)外出發(fā),目標(biāo)是在彩葉鎮(zhèn)和1號(hào)道路上找到高草叢,觸發(fā)大木博士的劇情事件。這個(gè)階段的獎(jiǎng)勵(lì)更強(qiáng)調(diào)探索新地圖和覆蓋更大的地圖面積。經(jīng)過(guò)50萬(wàn)步訓(xùn)練,AI能在約60%的局次里成功到達(dá)高草叢并觸發(fā)事件。

第三階段叫"贏得對(duì)戰(zhàn)"。AI直接從與小茂對(duì)戰(zhàn)的開(kāi)始狀態(tài)出發(fā),使用固定的初始寶可夢(mèng),目標(biāo)是通過(guò)有效的戰(zhàn)斗指令擊敗對(duì)手。這個(gè)階段的獎(jiǎng)勵(lì)聚焦于使用進(jìn)攻招式、擊倒對(duì)手寶可夢(mèng)和贏得對(duì)戰(zhàn)。訓(xùn)練50萬(wàn)步之后,AI的勝率穩(wěn)定在約50%左右。

這種分階段的課程式結(jié)構(gòu)有兩個(gè)明顯好處:一是每個(gè)階段的任務(wù)足夠簡(jiǎn)單,AI能更快看到有效獎(jiǎng)勵(lì),學(xué)習(xí)效率大幅提升;二是調(diào)試起來(lái)容易得多,哪個(gè)階段出了問(wèn)題一目了然,不用在一個(gè)龐大的單一系統(tǒng)里撈針。

六、給AI加上"地圖筆記"有多重要——探索遮罩的價(jià)值

前面提到,AI的觀察中除了實(shí)時(shí)畫(huà)面,還有一個(gè)"已探索遮罩"。研究團(tuán)隊(duì)專(zhuān)門(mén)做了一組對(duì)比實(shí)驗(yàn)來(lái)量化這個(gè)遮罩到底有多重要,訓(xùn)練時(shí)長(zhǎng)統(tǒng)一控制在30萬(wàn)步。

結(jié)果相當(dāng)明顯。沒(méi)有探索遮罩時(shí),AI平均每局探索的獨(dú)特坐標(biāo)數(shù)量是34.2個(gè),彩葉鎮(zhèn)的地圖覆蓋率只有12%,平均每個(gè)格子被重復(fù)訪問(wèn)4.8次。加上探索遮罩之后,獨(dú)特坐標(biāo)數(shù)量跳升到48.1個(gè),增幅超過(guò)40%;彩葉鎮(zhèn)覆蓋率從12%飆升到41%,漲了約242%;每個(gè)格子平均被重復(fù)訪問(wèn)的次數(shù)從4.8次降到了3.1次,重復(fù)率降低了約35%。

這說(shuō)明AI并不只是把探索遮罩當(dāng)作無(wú)用的噪聲忽略掉,而是真正學(xué)會(huì)了把它當(dāng)作一張記憶地圖來(lái)使用——哪里已經(jīng)去過(guò),就傾向于往沒(méi)去過(guò)的方向走。在沒(méi)有遮罩的情況下,AI的策略本質(zhì)上是無(wú)記憶的,只能根據(jù)當(dāng)前畫(huà)面猜測(cè)方向,結(jié)果就是反復(fù)在同一片區(qū)域繞圈。遮罩給了AI"空間記憶",讓它的探索行為從無(wú)目的的隨機(jī)游走,變成了有一定方向感的主動(dòng)開(kāi)拓。

七、這套系統(tǒng)的局限性和未來(lái)可以做什么

PokeRL在設(shè)計(jì)理念上確實(shí)走出了一步:不只是堆算法,而是把游戲本身的具體特性和AI最常見(jiàn)的失敗模式一起編進(jìn)了系統(tǒng)里。但這套系統(tǒng)本身也有一些不掩蓋的局限。

最明顯的一點(diǎn)是,整個(gè)系統(tǒng)并不是"純粹從像素學(xué)習(xí)"。內(nèi)存讀取模塊直接偷看了游戲RAM里的數(shù)據(jù),獎(jiǎng)勵(lì)信號(hào)也經(jīng)過(guò)了大量人工設(shè)計(jì)。這意味著如果你想把這套框架搬到另一款游戲上,需要重新做大量的適配工作,不是開(kāi)箱即用的通用方案。訓(xùn)練過(guò)程也相當(dāng)耗時(shí),而且對(duì)超參數(shù)比較敏感,換一組參數(shù)可能效果大相徑庭。此外,游戲中的文字對(duì)話場(chǎng)景有時(shí)候需要人工干預(yù)才能跳過(guò),還沒(méi)實(shí)現(xiàn)完全自動(dòng)化。

至于未來(lái)可以去的方向,研究團(tuán)隊(duì)提出了幾個(gè)思路。一是把三個(gè)獨(dú)立訓(xùn)練的階段合并成一個(gè)連貫的長(zhǎng)期任務(wù),讓AI在一場(chǎng)游戲里連續(xù)完成走出房間、探索地圖和贏得對(duì)戰(zhàn),而不是分開(kāi)訓(xùn)練。二是在探索機(jī)制上加入更系統(tǒng)的好奇心驅(qū)動(dòng)方法,比如讓AI對(duì)沒(méi)見(jiàn)過(guò)的畫(huà)面自動(dòng)產(chǎn)生更強(qiáng)的探索欲望,而不依賴手工設(shè)計(jì)的循環(huán)懲罰。三是嘗試減少手工設(shè)計(jì)獎(jiǎng)勵(lì)的比重,改用從人類(lèi)玩家行為中學(xué)習(xí)的逆強(qiáng)化學(xué)習(xí)方法,或者基于人類(lèi)偏好反饋的獎(jiǎng)勵(lì)學(xué)習(xí)方法,讓AI自己摸索出什么樣的行為是好的。四是把語(yǔ)言模型融入對(duì)戰(zhàn)決策,借鑒已有研究中語(yǔ)言模型在寶可夢(mèng)對(duì)戰(zhàn)里取得接近人類(lèi)水平的思路。最后,研究團(tuán)隊(duì)希望把整個(gè)PokeRL環(huán)境打包成一個(gè)標(biāo)準(zhǔn)化的開(kāi)源測(cè)評(píng)平臺(tái),讓更多研究者可以在相同條件下做對(duì)比實(shí)驗(yàn),推動(dòng)這個(gè)方向的整體進(jìn)步。

說(shuō)到底,這項(xiàng)研究想傳遞的核心信息很簡(jiǎn)單:讓AI玩好一款游戲,光靠聰明的算法是不夠的,更需要把游戲的具體怪癖和AI的具體弱點(diǎn)都認(rèn)真對(duì)待,然后一個(gè)一個(gè)地工程化地解決掉。在AI面對(duì)復(fù)雜的真實(shí)世界任務(wù)時(shí),這種"把失敗模式顯式建模進(jìn)系統(tǒng)"的思路,可能比單純追求更大更強(qiáng)的模型更加實(shí)用。這不是最終答案,但它是一塊認(rèn)真打磨過(guò)的墊腳石。

Q&A

Q1:PokeRL系統(tǒng)中的"探索遮罩"具體是怎么工作的?

A:探索遮罩是一張和游戲畫(huà)面一樣大的黑白圖層,AI每走過(guò)一個(gè)格子,對(duì)應(yīng)位置就會(huì)被標(biāo)記出來(lái)。這張圖作為額外的觀察信息輸入給AI,讓AI知道哪里已經(jīng)去過(guò)、哪里還沒(méi)探索。遮罩的原點(diǎn)固定在該地圖的入口位置,保證攝像頭滾動(dòng)時(shí)標(biāo)記不會(huì)錯(cuò)位。實(shí)驗(yàn)表明,加了遮罩之后AI在彩葉鎮(zhèn)的地圖覆蓋率從12%提升到41%,重復(fù)訪問(wèn)同一格子的次數(shù)也明顯減少。

Q2:PokeRL的防循環(huán)機(jī)制為什么要用三層,一層懲罰不夠嗎?

A:?jiǎn)螌討土P容易被AI繞過(guò)。比如只懲罰位置重復(fù),AI可能換成在稍微不同的兩個(gè)位置之間來(lái)回切換,形式上不觸發(fā)懲罰但實(shí)質(zhì)上仍是無(wú)效循環(huán)。三層機(jī)制分別針對(duì)位置頻率、行動(dòng)模式和空間軌跡三個(gè)維度,覆蓋了循環(huán)行為的不同表現(xiàn)形式,互相補(bǔ)充。實(shí)驗(yàn)數(shù)據(jù)顯示三層機(jī)制合用后循環(huán)局比例從41.2%降到了4.7%,效果相當(dāng)顯著。

Q3:PokeRL訓(xùn)練出的AI最終能打通《精靈寶可夢(mèng)·紅版》整個(gè)游戲嗎?

A:目前不能。PokeRL只針對(duì)游戲最開(kāi)頭的三個(gè)階段進(jìn)行了訓(xùn)練,分別是走出房間、探索到高草叢和贏得第一場(chǎng)對(duì)戰(zhàn),三個(gè)階段的成功率分別約為65%、60%和50%,距離通關(guān)整個(gè)游戲還差得很遠(yuǎn)。研究團(tuán)隊(duì)的定位也很明確:這是一個(gè)研究早期游戲段落的實(shí)驗(yàn)平臺(tái),目標(biāo)是為更復(fù)雜的長(zhǎng)期任務(wù)打基礎(chǔ),而不是直接造出一個(gè)能打通全游戲的AI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說(shuō)NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

悠悠說(shuō)世界
2026-04-25 14:03:58
賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說(shuō)
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開(kāi)房,女人每次偷情都在車(chē)?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂(lè)悠悠
2026-04-27 09:21:13
5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

洞見(jiàn)小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
旅游
親子
時(shí)尚
軍事航空

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

親子要聞

拍這期視頻時(shí)眼淚止不住地流

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版