国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自寫(xiě)驅(qū)動(dòng)越獄!Gemini 3 Pro零敗績(jī)通關(guān)寶可夢(mèng):效率碾壓前代8倍「Agent進(jìn)化太快了」

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新

Gemini 3 Pro贏麻了

在ARISE基金會(huì)Joel Zhang主持的一場(chǎng)全自動(dòng)《寶可夢(mèng) 水晶版》對(duì)決中,Gemini 3 Pro以絕對(duì)優(yōu)勢(shì)擊敗了Gemini 2.5 Pro

戰(zhàn)績(jī)對(duì)比非常慘烈:當(dāng)2.5版本只拿到4枚徽章時(shí),Gemini 3 Pro已經(jīng)耗費(fèi)約一半的Token和回合數(shù),拿下了全部16枚徽章,擊敗了四天王和冠軍,甚至打敗了隱藏BOSS赤紅(Red)

根據(jù)谷歌DeepMind披露的細(xì)節(jié),Gemini 3 Pro通關(guān)全過(guò)程至少比2.5版本快2倍;如果進(jìn)行推算,前代模型的速度實(shí)際上要慢上8倍左右


這場(chǎng)對(duì)決最精彩的一幕發(fā)生在最終戰(zhàn)。面對(duì)等級(jí)壓制的赤紅,Gemini 3.0制定了一個(gè)名為“僵尸鳳凰行動(dòng)”(Operation Zombie Phoenix)的復(fù)雜策略。它結(jié)合了被動(dòng)恢復(fù)、能力值削減、消耗戰(zhàn)術(shù)以及復(fù)活循環(huán),在長(zhǎng)達(dá)7小時(shí)的馬拉松式戰(zhàn)斗中鎖定了勝局


以下是這場(chǎng)“AI玩寶可夢(mèng)”實(shí)驗(yàn)中的核心發(fā)現(xiàn)

丟掉輔助輪:像科學(xué)家一樣思考

為了公平,兩個(gè)Agent使用了完全相同的測(cè)試環(huán)境

值得注意的是,Prompt并沒(méi)有要求它們盡快通關(guān),而是要求它們應(yīng)用科學(xué)方法,不要假設(shè)關(guān)于游戲的先驗(yàn)知識(shí)是正確的。Agent可以使用非結(jié)構(gòu)化的記事本功能來(lái)記錄假設(shè)、測(cè)試想法并跟蹤游戲進(jìn)度。

這種靈活的設(shè)置允許Agent在環(huán)境中設(shè)計(jì)自己的代碼工具和子Agent。這不僅是玩游戲,更是測(cè)試Agent適應(yīng)環(huán)境并構(gòu)建工作流的能力。

自寫(xiě)驅(qū)動(dòng),繞過(guò)限制

Gemini 3 Pro展現(xiàn)出了對(duì)工具極高的信任度。當(dāng)行動(dòng)失敗時(shí),它會(huì)重新評(píng)估環(huán)境,而不是死磕代碼庫(kù)。這種意識(shí)引發(fā)了一個(gè)非常驚人的行為。

測(cè)試環(huán)境為了保持2.5版本的穩(wěn)定性及防止模擬器不同步,實(shí)施了嚴(yán)格的輸入限制,禁止混合按鍵輸入(例如連續(xù)按下A和Up)。

當(dāng)Gemini 3 Pro需要給寶可夢(mèng)起昵稱時(shí),發(fā)現(xiàn)單次按鍵限制效率太低。它沒(méi)有全盤接受這個(gè)約束,而是利用define_tool功能,編寫(xiě)了一個(gè)名為press_sequence的自定義工具

因?yàn)樗l(fā)現(xiàn),自定義工具不受混合輸入的限制。

這個(gè)腳本允許它在本地批量處理輸入序列,實(shí)際上等于它自己編寫(xiě)了一個(gè)驅(qū)動(dòng)程序來(lái)繞過(guò)測(cè)試環(huán)境的限制,利用這個(gè)預(yù)期的漏洞提高了效率。對(duì)于3.0 Agent來(lái)說(shuō),環(huán)境約束只是一個(gè)需要解決的工程問(wèn)題,而不是不可改變的鐵律

多模態(tài)優(yōu)勢(shì):看懂RAM里沒(méi)有的數(shù)據(jù)

在第8個(gè)道館(冰系道館)中,解謎需要從樓上推下巨石,在巖漿地面上鋪路。

僅靠RAM數(shù)據(jù)很難追蹤底層狀態(tài)變化,因?yàn)閮?nèi)存數(shù)據(jù)中沒(méi)有提及掉落的巨石。Gemini 3 Pro一度陷入死循環(huán),誤以為謎題未解(二樓殘留的誘餌巨石加劇了誤判)。

關(guān)鍵時(shí)刻,Gemini 3 Pro利用了視覺(jué)輸入。它忽略了可能令人困惑的狀態(tài)數(shù)據(jù),直接通過(guò)屏幕截圖識(shí)別出掉落巨石的位置,并根據(jù)視覺(jué)證據(jù)修正了策略,成功脫困。這種從RAM檢查切換到原始視覺(jué)的能力,是它走出死循環(huán)的關(guān)鍵。

此外,3.0 Agent還能“讀懂”對(duì)手的血條。

RAM狀態(tài)并不提供對(duì)手的生命值信息,必須通過(guò)屏幕畫(huà)面推斷。Gemini 3 Pro在與赤紅的戰(zhàn)斗中,能夠相當(dāng)準(zhǔn)確地估算對(duì)手剩余血量的比例,這對(duì)于理解戰(zhàn)斗中的最佳行動(dòng)至關(guān)重要

戰(zhàn)斗效率與零敗績(jī)

戰(zhàn)斗推理能力的差距是決定勝負(fù)的關(guān)鍵。

Gemini 2.5 Pro:因策略較差,兩次輸給第3道館館主,導(dǎo)致花費(fèi)大量時(shí)間進(jìn)行不必要的練級(jí)

Gemini 3 Pro: 零敗績(jī)通關(guān)整個(gè)游戲(包括最終隱藏BOSS赤紅)。

3.0展示了卓越的戰(zhàn)術(shù)推理能力,能進(jìn)行實(shí)時(shí)傷害計(jì)算以優(yōu)化招式選擇。例如:

它發(fā)現(xiàn)對(duì)手的卡比獸提升了特防,且雨天天氣會(huì)降低火系傷害,因此正確地放棄了噴射火焰,轉(zhuǎn)而選擇高速星星

在四天王連戰(zhàn)中,它會(huì)主動(dòng)管理HP,在回合之間使用道具回血,而2.5版本歷來(lái)難以將此類操作的優(yōu)先級(jí)置于即時(shí)戰(zhàn)斗之上

現(xiàn)存的局限性

盡管性能飛躍,Gemini 3 Pro并非完美:

不經(jīng)驗(yàn)證的假設(shè):最大的失敗模式是形成假設(shè)后拒絕測(cè)試。例如,它曾假設(shè)收音機(jī)界面像標(biāo)準(zhǔn)菜單一樣(左右操作),而忽略了視覺(jué)上的撥盤提示(上下操作),導(dǎo)致浪費(fèi)數(shù)小時(shí)。另一次,它在鎖門謎題上花費(fèi)大量時(shí)間測(cè)試復(fù)雜理論,卻沒(méi)去和旁邊的提示NPC對(duì)話

前瞻性規(guī)劃不足:雖然反應(yīng)戰(zhàn)術(shù)很強(qiáng),但主動(dòng)目標(biāo)管理仍不穩(wěn)定。它經(jīng)常意識(shí)到戰(zhàn)略需求(如調(diào)整寶可夢(mèng)順序),但直到戰(zhàn)斗開(kāi)始后才去執(zhí)行

空跑:經(jīng)常在調(diào)用工具時(shí)參數(shù)出錯(cuò),導(dǎo)致空跑。不過(guò)它通常能在下一回合自我修正,這一點(diǎn)優(yōu)于2.5

并行規(guī)劃困難:難以并行規(guī)劃多個(gè)大目標(biāo)以提高效率,傾向于逐個(gè)解決任務(wù)。

在這場(chǎng)競(jìng)賽中,Gemini 3 Pro超越了簡(jiǎn)單的指令遵循,展示了真正的空間推理、即興工具創(chuàng)建和假設(shè)測(cè)試的科學(xué)方法

這種推理能力直接轉(zhuǎn)化為效率:

Gemini 3 Pro:耗時(shí)17天,消耗18.8億Token

Gemini 2.5 Pro:基于礦山徽章進(jìn)度的推算,預(yù)計(jì)需要69天,消耗超過(guò)150億Token才能達(dá)到相同結(jié)果

參考:

https://x.com/GoogleAIStudio/status/2000649586847985985

--end--

最后記得??我,每天都在更新:歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許晴一看就老了,竟然還沒(méi)張凱麗顯年輕!

許晴一看就老了,竟然還沒(méi)張凱麗顯年輕!

草莓解說(shuō)體育
2026-01-07 09:12:50
年薪50萬(wàn)帶公司牛奶回家后續(xù):教孩子更窒息,妻子曬婚照宣示主權(quán)

年薪50萬(wàn)帶公司牛奶回家后續(xù):教孩子更窒息,妻子曬婚照宣示主權(quán)

鋭娛之樂(lè)
2026-01-07 08:44:23
科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
難怪美軍長(zhǎng)驅(qū)直入,中俄雷達(dá)全都停止搜索,委內(nèi)瑞拉把好牌打爛

難怪美軍長(zhǎng)驅(qū)直入,中俄雷達(dá)全都停止搜索,委內(nèi)瑞拉把好牌打爛

詩(shī)意世界
2026-01-05 19:54:53
魯比奧:美國(guó)計(jì)劃從丹麥?zhǔn)种小百?gòu)買”格陵蘭島

魯比奧:美國(guó)計(jì)劃從丹麥?zhǔn)种小百?gòu)買”格陵蘭島

界面新聞
2026-01-07 13:26:50
增長(zhǎng)8%!越南GDP突破5000億美元,這說(shuō)明了什么?

增長(zhǎng)8%!越南GDP突破5000億美元,這說(shuō)明了什么?

簡(jiǎn)易科技
2026-01-06 23:29:46
1949年,解放軍抽干中南海,挖出16萬(wàn)噸淤泥,水底究竟有什么

1949年,解放軍抽干中南海,挖出16萬(wàn)噸淤泥,水底究竟有什么

清風(fēng)鑒史
2026-01-05 21:13:13
邊打麻將邊吸氧?長(zhǎng)三角富豪周末新玩法,業(yè)內(nèi):有錢中年男最愛(ài)

邊打麻將邊吸氧?長(zhǎng)三角富豪周末新玩法,業(yè)內(nèi):有錢中年男最愛(ài)

金錯(cuò)刀
2026-01-06 16:50:04
男子聽(tīng)信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開(kāi)始瘋狂吸血釋放抗凝血物質(zhì)

男子聽(tīng)信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開(kāi)始瘋狂吸血釋放抗凝血物質(zhì)

觀威海
2026-01-07 09:22:09
白宮直說(shuō)了:拿下格陵蘭島,不惜動(dòng)武

白宮直說(shuō)了:拿下格陵蘭島,不惜動(dòng)武

觀察者網(wǎng)
2026-01-07 08:15:10
你見(jiàn)過(guò)最窩囊的人是啥樣?網(wǎng)友:原來(lái)大家都這么窩囊,我心病好了

你見(jiàn)過(guò)最窩囊的人是啥樣?網(wǎng)友:原來(lái)大家都這么窩囊,我心病好了

帶你感受人間冷暖
2026-01-06 00:05:11
CES 2026 | 從「有龍則靈」到「萬(wàn)物有靈」,高通正在讓 AI 成為體驗(yàn)背后的通用能力

CES 2026 | 從「有龍則靈」到「萬(wàn)物有靈」,高通正在讓 AI 成為體驗(yàn)背后的通用能力

愛(ài)范兒
2026-01-06 18:15:10
妻子拿著28克金手鐲去金店,回來(lái)后丈夫覺(jué)得不對(duì)勁……他:妻子當(dāng)時(shí)喝了酒

妻子拿著28克金手鐲去金店,回來(lái)后丈夫覺(jué)得不對(duì)勁……他:妻子當(dāng)時(shí)喝了酒

北青網(wǎng)-北京青年報(bào)
2026-01-06 13:50:08
瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書(shū)記史
2026-01-06 16:31:56
周一,委內(nèi)瑞拉股市暴漲

周一,委內(nèi)瑞拉股市暴漲

跟著老李看世界
2026-01-06 15:56:58
馬來(lái)西亞今年將全面查封電子煙,衛(wèi)生部長(zhǎng):吸電子煙會(huì)造成爆米花肺

馬來(lái)西亞今年將全面查封電子煙,衛(wèi)生部長(zhǎng):吸電子煙會(huì)造成爆米花肺

爆角追蹤
2026-01-06 22:18:53
小鰲太線失聯(lián)人員全部找到,本來(lái)有3次活命機(jī)會(huì),卻被白白浪費(fèi)了

小鰲太線失聯(lián)人員全部找到,本來(lái)有3次活命機(jī)會(huì),卻被白白浪費(fèi)了

奇思妙想草葉君
2026-01-06 18:58:03
阿森納女足新援因外表出眾引來(lái)低俗評(píng)論,俱樂(lè)部關(guān)閉評(píng)論區(qū)

阿森納女足新援因外表出眾引來(lái)低俗評(píng)論,俱樂(lè)部關(guān)閉評(píng)論區(qū)

懂球帝
2026-01-07 12:56:05
?2026年春節(jié)檔,沈騰周星馳第二次交手,喜劇之王對(duì)決有勝負(fù)了?

?2026年春節(jié)檔,沈騰周星馳第二次交手,喜劇之王對(duì)決有勝負(fù)了?

靠譜電影君
2026-01-05 18:51:02
“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

娛樂(lè)團(tuán)長(zhǎng)
2026-01-05 16:23:19
2026-01-07 15:15:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1025文章數(shù) 393關(guān)注度
往期回顧 全部

數(shù)碼要聞

CES 2026全新華碩AI PC首秀 全系生態(tài)賦能智慧未來(lái)

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

體育要聞

賣水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂蔬菜農(nóng)殘

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

汽車要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
本地
旅游
健康

手機(jī)要聞

消息稱三星2月25日發(fā)布Galaxy S26系列手機(jī)

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫(huà)

本地新聞

云游內(nèi)蒙|初見(jiàn)呼和浩特,古今交融的北疆都會(huì)

旅游要聞

屬馬、姓馬、名字帶馬的朋友朋友有福了 多地景區(qū)花式免門票

這些新療法,讓化療不再那么痛苦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版