国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全球頂尖大模型,通關(guān)不了“寶可夢(mèng)”:這些游戲都是AI的噩夢(mèng)

0
分享至


來(lái)源:騰訊科技

文:郭曉靜

編輯徐青陽(yáng)

世界頂尖的AI模型可以通過(guò)醫(yī)學(xué)執(zhí)照考試,可以編寫(xiě)復(fù)雜代碼,甚至能在數(shù)學(xué)競(jìng)賽中擊敗人類(lèi)專(zhuān)家,但是卻在一款兒童游戲中《寶可夢(mèng)》屢屢受挫。

這場(chǎng)引人矚目的嘗試始于2025年2月,當(dāng)時(shí)Anthropic的一名研究人員推出了“Claude玩《寶可夢(mèng)紅》”的Twitch直播,以此配合Claude Sonnet 3.7的發(fā)布。

2000名觀眾涌入直播間。在公共聊天區(qū),觀眾們?yōu)镃laude出謀劃策、加油打氣,使這場(chǎng)直播逐漸演變?yōu)橐粓?chǎng)圍繞AI能力展開(kāi)的公開(kāi)觀察。

Sonet3.7只能說(shuō)是“會(huì)玩”《寶可夢(mèng)》了,但“會(huì)玩”不等于“能贏”。它會(huì)在關(guān)鍵節(jié)點(diǎn)卡住數(shù)十小時(shí),還會(huì)做出連兒童玩家都不會(huì)犯的低級(jí)錯(cuò)誤。

這不是Claude第一次嘗試。

早期版本的表現(xiàn)更加災(zāi)難:有的在地圖中毫無(wú)目標(biāo)地游蕩,有的陷入無(wú)限循環(huán),更多的甚至無(wú)法走出新手村。

即便是能力顯著提升的Claude Opus 4.5,仍會(huì)出現(xiàn)令人費(fèi)解的失誤。有一次,它在“道館外“繞圈整整四天,卻始終未能進(jìn)入,原因僅僅是沒(méi)意識(shí)到需要砍倒擋在路口的一棵樹(shù)。

一款兒童游戲,為何成了AI的滑鐵盧?

因?yàn)椤秾毧蓧?mèng)》要求的,恰恰是當(dāng)今AI最缺乏的能力:在沒(méi)有明確指令的開(kāi)放世界中持續(xù)推理、記憶數(shù)小時(shí)前的決策、理解隱含的因果關(guān)系、在數(shù)百個(gè)可能的行動(dòng)中做出長(zhǎng)期規(guī)劃。

這些事情對(duì)8歲孩子來(lái)說(shuō)輕而易舉的事,對(duì)標(biāo)榜"超越人類(lèi)"的AI模型卻是不可逾越的鴻溝。

01

工具集差距決定成敗?

相比之下,谷歌的Gemini 2.5 Pro在2025年5月成功通關(guān)了一款難度相當(dāng)?shù)摹秾毧蓧?mèng)》游戲。谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)甚至在公開(kāi)場(chǎng)合半開(kāi)玩笑地表示,公司在打造“人工寶可夢(mèng)智能”方面邁出了一步。

然而,這一結(jié)果并不能簡(jiǎn)單歸因于Gemini模型本身更“聰明”。

關(guān)鍵差異在于模型所使用的工具集。負(fù)責(zé)運(yùn)營(yíng)Gemini《寶可夢(mèng)》直播的獨(dú)立開(kāi)發(fā)者喬爾·張(Joel Zhang)將工具集比喻為一套“鋼鐵俠裝甲”:AI并非赤手空拳進(jìn)入游戲,而是被置于一個(gè)可調(diào)用多種外部能力的系統(tǒng)中。

Gemini的工具集提供了更多支持,例如將游戲畫(huà)面轉(zhuǎn)寫(xiě)為文本,從而彌補(bǔ)模型在視覺(jué)理解上的弱點(diǎn),并提供定制化的解謎與路徑規(guī)劃工具。相比之下,Claude所使用的工具集更為簡(jiǎn)約,它的嘗試也更直接地反映出模型自身在感知、推理與執(zhí)行上的真實(shí)能力。

在日常任務(wù)中,這類(lèi)差異并不明顯。

當(dāng)用戶(hù)向聊天機(jī)器人提出需聯(lián)網(wǎng)查詢(xún)的請(qǐng)求時(shí),模型同樣會(huì)自動(dòng)調(diào)用搜索工具。但在《寶可夢(mèng)》這類(lèi)長(zhǎng)期任務(wù)中,工具集的差異被放大至足以決定成敗的程度。

02

回合制暴露AI的“長(zhǎng)期記憶”短板

由于《寶可夢(mèng)》采用嚴(yán)格的回合制且無(wú)需即時(shí)反應(yīng),它成為了測(cè)試 AI 的絕佳“練兵場(chǎng)“。AI 在每一步操作中,只需結(jié)合當(dāng)前畫(huà)面、目標(biāo)提示與可選操作進(jìn)行推理,即可輸出‘按A鍵’這類(lèi)明確的指令。

這似乎正是大語(yǔ)言模型最擅長(zhǎng)的交互形式。

癥結(jié)恰恰在于時(shí)間維度的斷層盡管 Claude Opus 4.5 已累計(jì)運(yùn)行超 500 小時(shí)、執(zhí)行約 17 萬(wàn)步,但受限于每一步操作后的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機(jī)制讓它更像是一個(gè)靠便利貼維持認(rèn)知的失憶者,在碎片化的信息中循環(huán)往復(fù),始終無(wú)法像真正的人類(lèi)玩家那樣,實(shí)現(xiàn)從量變到質(zhì)變的經(jīng)驗(yàn)跨越。

在國(guó)際象棋和圍棋等領(lǐng)域,AI系統(tǒng)早已超越人類(lèi),但這些系統(tǒng)是為特定任務(wù)高度定制的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、編程競(jìng)賽中頻頻擊敗人類(lèi),卻在一款兒童向游戲中屢屢受挫。

這種反差本身便極具啟示性。

在喬爾·張看來(lái),AI面臨的核心挑戰(zhàn)在于無(wú)法在長(zhǎng)時(shí)間跨度內(nèi)持續(xù)執(zhí)行單一明確目標(biāo)。“如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什么,”他指出。

而這種能力,正是實(shí)現(xiàn)認(rèn)知?jiǎng)趧?dòng)自動(dòng)化不可或缺的前提。

獨(dú)立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開(kāi)源一個(gè)基于傳統(tǒng)AI的《寶可夢(mèng)》算法。“AI對(duì)《寶可夢(mèng)》幾乎無(wú)所不知,”他表示,“它在海量人類(lèi)數(shù)據(jù)上訓(xùn)練,清楚知道正確答案。但一到執(zhí)行階段,就顯得笨拙不堪?!?/p>

游戲中,這種“知道卻做不到”的斷層被不斷放大:模型可能知道需尋找某道具,卻無(wú)法在二維地圖中穩(wěn)定定位;知道應(yīng)與NPC對(duì)話,卻在像素級(jí)移動(dòng)中反復(fù)失敗。

03

能力演進(jìn)背后:未跨越的“本能”鴻溝

盡管如此,AI的進(jìn)步仍清晰可見(jiàn)。Claude Opus 4.5在自我記錄和視覺(jué)理解上明顯優(yōu)于前代,得以在游戲中推進(jìn)更遠(yuǎn)。Gemini 3 Pro在通關(guān)《寶可夢(mèng)藍(lán)》后,又完成了難度更高的《寶可夢(mèng)水晶》,且全程未輸一場(chǎng)戰(zhàn)斗。這是Gemini 2.5 Pro從未實(shí)現(xiàn)的。

與此同時(shí),Anthropic推出的Claude Code工具集允許模型編寫(xiě)并運(yùn)行自有代碼,已被用于《過(guò)山車(chē)大亨》等復(fù)古游戲,據(jù)稱(chēng)能成功管理虛擬主題公園。

這些案例揭示了一個(gè)不直觀的現(xiàn)實(shí):配備合適工具集的AI,可能在軟件開(kāi)發(fā)、會(huì)計(jì)、法律分析等知識(shí)工作中展現(xiàn)極高效率,即便它們?nèi)噪y以應(yīng)對(duì)需要實(shí)時(shí)反應(yīng)的任務(wù)。

《寶可夢(mèng)》實(shí)驗(yàn)還揭示另一耐人尋味的現(xiàn)象:在人類(lèi)數(shù)據(jù)上訓(xùn)練的模型,會(huì)表現(xiàn)出近似人類(lèi)的行為特征。

在Gemini 2.5 Pro的技術(shù)報(bào)告中,谷歌指出,當(dāng)系統(tǒng)模擬“恐慌狀態(tài)”,如寶可夢(mèng)即將昏厥時(shí),模型的推理質(zhì)量會(huì)顯著下降。

而當(dāng)Gemini 3 Pro最終通關(guān)《寶可夢(mèng)藍(lán)》時(shí),它為自己留下了一段非任務(wù)必需的備注:“為了詩(shī)意地結(jié)束,我要回到最初的家,與母親進(jìn)行最后一次對(duì)話,讓角色退休。”

在喬爾·張看來(lái),這一行為出乎意料,還帶有某種人類(lèi)式的情感投射。

04

AI難以逾越的“數(shù)字長(zhǎng)征”,遠(yuǎn)不止《寶可夢(mèng)》

《寶可夢(mèng)》并非孤例。在追求通用人工智能(AGI)的道路上,開(kāi)發(fā)者發(fā)現(xiàn),即便AI能在司法考試中名列前茅,在面對(duì)以下幾類(lèi)復(fù)雜游戲時(shí),依然面臨著難以逾越的“滑鐵盧”。

《NetHack》:規(guī)則的深淵


這款80年代的地牢游戲是AI研究界的“噩夢(mèng)”。它的隨機(jī)性極強(qiáng)且有“永久死亡”機(jī)制。Facebook AI Research發(fā)現(xiàn),即便模型能寫(xiě)代碼,但在需要常識(shí)邏輯和長(zhǎng)期規(guī)劃的《NetHack》面前,表現(xiàn)甚至遠(yuǎn)遜于人類(lèi)初學(xué)者。

《我的世界》:消失的目標(biāo)感


雖然AI已能制作木鎬甚至挖掘鉆石,但獨(dú)立“擊敗末影龍”仍是幻想。在開(kāi)放世界里,AI經(jīng)常會(huì)在長(zhǎng)達(dá)數(shù)十小時(shí)的資源收集過(guò)程中“忘記”初衷,或在復(fù)雜的導(dǎo)航中徹底迷路。

《星際爭(zhēng)霸 II》:通用性與專(zhuān)業(yè)的斷層


盡管定制化模型曾擊敗職業(yè)選手,但若讓Claude或Gemini直接通過(guò)視覺(jué)指令接管,它們便會(huì)瞬間崩盤(pán)。在處理“戰(zhàn)爭(zhēng)迷霧”的不確定性,以及平衡微操與宏觀建設(shè)方面,通用模型依然力不從心。

《過(guò)山車(chē)大亨》:微觀與宏觀的失衡


管理樂(lè)園需要追蹤數(shù)千名游客的狀態(tài)。即便具備初步管理能力的Claude Code,在處理大規(guī)模財(cái)務(wù)崩潰或突發(fā)事故時(shí)也極易疲態(tài)。任何一次推理斷層,都會(huì)導(dǎo)致樂(lè)園破產(chǎn)。

《艾爾登法環(huán)》與《只狼》:物理反饋的鴻溝


這類(lèi)強(qiáng)動(dòng)作反饋游戲?qū)I極不友好。目前的視覺(jué)解析延遲意味著,當(dāng)AI還在“思考”Boss動(dòng)作時(shí),角色往往已經(jīng)陣亡。毫秒級(jí)的反應(yīng)要求,構(gòu)成了模型交互邏輯的天然上限。

05

為何《寶可夢(mèng)》成為AI試金石?

如今,《寶可夢(mèng)》正逐漸成為AI評(píng)估領(lǐng)域中一種非正式卻極具說(shuō)服力的測(cè)試基準(zhǔn)。

Anthropic、OpenAI和谷歌的模型在Twitch上的相關(guān)直播累計(jì)吸引數(shù)十萬(wàn)條評(píng)論。谷歌在技術(shù)報(bào)告中詳細(xì)記錄Gemini的游戲進(jìn)展,皮查伊在I/O開(kāi)發(fā)者大會(huì)上公開(kāi)提及此項(xiàng)成果。Anthropic甚至在行業(yè)會(huì)議中設(shè)立“Claude玩寶可夢(mèng)”展示區(qū)。

“我們是一群超級(jí)技術(shù)愛(ài)好者,”Anthropic應(yīng)用AI負(fù)責(zé)人大衛(wèi)·赫爾希(David Hershey)坦言。但他強(qiáng)調(diào),這不僅是娛樂(lè)。

與一次性問(wèn)答式的傳統(tǒng)基準(zhǔn)不同,《寶可夢(mèng)》能在極長(zhǎng)時(shí)間內(nèi)持續(xù)追蹤模型的推理、決策與目標(biāo)推進(jìn)過(guò)程,這更接近現(xiàn)實(shí)世界中人類(lèi)希望AI執(zhí)行的復(fù)雜任務(wù)。

截至目前,AI在《寶可夢(mèng)》中的挑戰(zhàn)仍在繼續(xù)。但正是這些反復(fù)出現(xiàn)的困境,清晰勾勒出通用人工智能尚未跨越的能力邊界。


特約編譯無(wú)忌對(duì)本文亦有貢獻(xiàn)

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子花30000購(gòu)入阿里巴巴股份,被婆家趕出家門(mén),4年后看到收益懵了

女子花30000購(gòu)入阿里巴巴股份,被婆家趕出家門(mén),4年后看到收益懵了

第四思維
2025-07-31 18:48:48
中國(guó)人月薪過(guò)萬(wàn)很普遍了嗎?網(wǎng)友:據(jù)說(shuō)沿海基本上都過(guò)萬(wàn)哦

中國(guó)人月薪過(guò)萬(wàn)很普遍了嗎?網(wǎng)友:據(jù)說(shuō)沿海基本上都過(guò)萬(wàn)哦

帶你感受人間冷暖
2026-03-01 04:35:13
美“福特”號(hào)航母駛離希臘克里特島

美“福特”號(hào)航母駛離希臘克里特島

財(cái)聯(lián)社
2026-02-26 16:57:07
在小縣城名聲很臭是啥體驗(yàn)?網(wǎng)友:臉皮夠厚,一切不成問(wèn)題

在小縣城名聲很臭是啥體驗(yàn)?網(wǎng)友:臉皮夠厚,一切不成問(wèn)題

解讀熱點(diǎn)事件
2026-02-04 00:05:07
斯諾克紅包賽形勢(shì):中國(guó)保2爭(zhēng)3,趙心童吳宜澤穩(wěn)進(jìn),肖國(guó)棟有機(jī)會(huì)

斯諾克紅包賽形勢(shì):中國(guó)保2爭(zhēng)3,趙心童吳宜澤穩(wěn)進(jìn),肖國(guó)棟有機(jī)會(huì)

劉姚堯的文字城堡
2026-03-02 07:40:55
特朗普指責(zé)英首相在對(duì)伊行動(dòng)中猶猶豫豫 未爽快支持美國(guó)動(dòng)用英軍基地

特朗普指責(zé)英首相在對(duì)伊行動(dòng)中猶猶豫豫 未爽快支持美國(guó)動(dòng)用英軍基地

新浪財(cái)經(jīng)
2026-03-03 01:35:19
巴拿馬變天,大清算開(kāi)始了!真正的大國(guó)力量,有人根本一無(wú)所知!

巴拿馬變天,大清算開(kāi)始了!真正的大國(guó)力量,有人根本一無(wú)所知!

阿訊說(shuō)天下
2026-03-01 14:33:45
27座基地被炸,美民眾要求特朗普下臺(tái),苑舉正:中國(guó)贏得20年時(shí)間

27座基地被炸,美民眾要求特朗普下臺(tái),苑舉正:中國(guó)贏得20年時(shí)間

古史青云啊
2026-03-02 16:56:40
炸了!沙特正式參戰(zhàn),伊朗一夜逼反所有鄰國(guó),中東戰(zhàn)局徹底失控

炸了!沙特正式參戰(zhàn),伊朗一夜逼反所有鄰國(guó),中東戰(zhàn)局徹底失控

戧詞奪理
2026-03-01 09:21:40
美國(guó)對(duì)中國(guó)滲透沒(méi)白費(fèi),扶持的“內(nèi)鬼”,終于開(kāi)始在中國(guó)露頭了

美國(guó)對(duì)中國(guó)滲透沒(méi)白費(fèi),扶持的“內(nèi)鬼”,終于開(kāi)始在中國(guó)露頭了

歷史求知所
2025-12-01 11:30:06
活得通透:能自理就好好活著,不能自理,便坦然落幕

活得通透:能自理就好好活著,不能自理,便坦然落幕

青蘋(píng)果sht
2026-02-23 05:26:25
比亞迪官宣2026年3月5日召開(kāi)"顛覆性技術(shù)發(fā)布會(huì)",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級(jí)

比亞迪官宣2026年3月5日召開(kāi)"顛覆性技術(shù)發(fā)布會(huì)",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級(jí)

金融界
2026-03-02 16:59:36
報(bào)復(fù)來(lái)了!黑色血旗升起,導(dǎo)彈命中以軍總部,伊朗:根除美以政權(quán)

報(bào)復(fù)來(lái)了!黑色血旗升起,導(dǎo)彈命中以軍總部,伊朗:根除美以政權(quán)

凡知
2026-03-03 00:56:09
1勝9負(fù),奪冠熱門(mén)慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

1勝9負(fù),奪冠熱門(mén)慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

老梁體育漫談
2026-03-02 23:30:56
中國(guó)藝人被困中東!黃渤驚險(xiǎn)逃離,玄子一家7000租車(chē),周雨彤回京

中國(guó)藝人被困中東!黃渤驚險(xiǎn)逃離,玄子一家7000租車(chē),周雨彤回京

潮鹿逐夢(mèng)
2026-03-02 22:48:22
女孩當(dāng)小姐,一晚要提供4到5次上門(mén)服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門(mén)服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
日本世乒賽大名單落位!女團(tuán)大調(diào)整,2大世界冠軍落選,張本領(lǐng)銜

日本世乒賽大名單落位!女團(tuán)大調(diào)整,2大世界冠軍落選,張本領(lǐng)銜

卿子書(shū)
2026-03-02 09:44:06
孫穎莎和王曼昱積分上升,張本美和排名下滑,國(guó)乒包攬前七名

孫穎莎和王曼昱積分上升,張本美和排名下滑,國(guó)乒包攬前七名

子水體娛
2026-03-02 00:08:03
全球首架!外交部向全球分享,中國(guó)飛碟研發(fā)成功,正在試飛?

全球首架!外交部向全球分享,中國(guó)飛碟研發(fā)成功,正在試飛?

小小科普員
2026-03-02 23:37:13
特朗普稱(chēng)同意與伊朗新領(lǐng)導(dǎo)層對(duì)話

特朗普稱(chēng)同意與伊朗新領(lǐng)導(dǎo)層對(duì)話

每日經(jīng)濟(jì)新聞
2026-03-02 08:17:27
2026-03-03 02:35:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

游戲要聞

LPL人氣選手被曝戀情?疑似與女主持談戀愛(ài),本人親自下場(chǎng)辟謠!

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
健康
藝術(shù)
手機(jī)
教育

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝?shū)包大盤(pán)殺出!

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫(huà),竟讓人欲罷不能!

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動(dòng)島

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版