国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源8300小時標(biāo)注數(shù)據(jù),新一代實時通用游戲AI Pixel2Play發(fā)布

0
分享至



隨著人工智能在代碼以及圖片生成方面日益成熟,越來越多的研究人員也開始關(guān)注 AI 模型在游戲領(lǐng)域中的表現(xiàn)。實際上,游戲在 AI 的發(fā)展早期就已經(jīng)是一個重要的研究方向,許多前期研究聚焦在 Atari,星際爭霸,Dota 等熱門游戲,并成功訓(xùn)練出了表現(xiàn)超越人類玩家的專用模型。然而,這類模型通常只能在單一游戲環(huán)境中運行,缺乏跨游戲的泛化能力。

另一方面,雖然 ChatGPT 和 Gemini 這類模型通用模型在眾多任務(wù)上已經(jīng)展現(xiàn)出了卓越的能力,它們卻難以在游戲環(huán)境中取得好的表現(xiàn),即便是很簡單的射擊游戲。

為了解決這一問題,來自 Player2 的研究員們提出了Pixel2Play(P2P)模型,該模型以游戲畫面和文本指令作為輸入,直接輸出對應(yīng)的鍵盤與鼠標(biāo)操作信號。在消費級顯卡 RTX 5090 上,P2P 可以實現(xiàn)超過 20Hz 的端到端推理速度,從而能夠真正像人類一樣和游戲進(jìn)行實時交互。P2P 作為通用游戲基座模型,在超過40款游戲、總計8300 +小時的游戲數(shù)據(jù)上進(jìn)行了訓(xùn)練,并能夠以零樣本(zero-shot)的方式直接玩 Roblox 和 Steam 平臺上的多款游戲。

為了促進(jìn)領(lǐng)域的發(fā)展,Open-P2P 團(tuán)隊在沒有使用許可限制的情況下開源了全部的訓(xùn)練與推理代碼,并公開了所有的訓(xùn)練數(shù)據(jù)集。

接下來請看 P2P 模型的人機(jī)對戰(zhàn):(在 Roblox Rivals 游戲中)

  • 論文題目:Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
  • 項目主頁:https://elefant-ai.github.io/open-p2p/
  • 論文代碼:https://github.com/elefant-ai/open-p2p
  • 論文數(shù)據(jù):https://huggingface.co/datasets/elefantai/p2p-full-data

訓(xùn)練數(shù)據(jù)

訓(xùn)練游戲 AI 模型需要高質(zhì)量的游戲畫面、文本指令以及對應(yīng)的操作數(shù)據(jù)。與海量公開的圖文數(shù)據(jù)不同,這類 “畫面 - 操作” 數(shù)據(jù)在互聯(lián)網(wǎng)上很少見。盡管已有通過游戲視頻反推動作的開源數(shù)據(jù)集,但開源的大規(guī)模高質(zhì)量人工標(biāo)注操作數(shù)據(jù)卻還是空缺。為了彌補這一空缺,Open-P2P 項目開源了全部的訓(xùn)練數(shù)據(jù)集。



如圖所示,P2P 所用的訓(xùn)練數(shù)據(jù)同時包括游戲圖像畫面與對應(yīng)的文本指令,并提供了精確的鍵盤鼠標(biāo)操作標(biāo)注

模型設(shè)計



為了保證模型可以做到快速的推理速度,P2P 選擇了輕量級模型框架并從零開始訓(xùn)練。

模型主體由一個解碼器 Transformer 構(gòu)成(左圖所示),并額外接入一個輕量化的 action-decoder 來生成最終的操作信號。該結(jié)構(gòu)使得模型在推理時只需要對主體模型進(jìn)行一次前向計算,即可生成 action-decoder 所需的表征信號,從而使得整體推理速度提升 5 倍。

為了實現(xiàn)跨游戲通用性,P2P 采用了自回歸的離散 token序列作為操作輸出空間。具體來說,每個操作由 8 個 token 表示:4 個對應(yīng)鍵盤按鍵,2 個對應(yīng)鼠標(biāo)在水平與垂直方向上的離散位移,最后兩個對應(yīng)鼠標(biāo)按鍵。這樣的設(shè)計可以涵蓋絕大部分游戲的操作需求。

在輸入方面,除了當(dāng)前幀圖像與文本指令 token 外,P2P 還會輸入真實操作 token,這使得模型能夠根據(jù)歷史操作來做決策,從而更貼近人類玩家的操作習(xí)慣。為了保證模型的因果關(guān)系,訓(xùn)練時使用了特殊的掩碼機(jī)制(右圖所示),以確保模型在預(yù)測時僅能看見歷史真實操作。

模型評估

P2P 共訓(xùn)練了四個不同規(guī)模的模型,參數(shù)量分別為 150M,300M,600M 和 1.2B。在實測中,150M 模型可以達(dá)到 80Hz 的端到端推理速度,而最大的 1.2B 模型也能達(dá)到 40Hz,完全滿足與游戲環(huán)境實時交互的需求。

模型評估的標(biāo)準(zhǔn)主要是人工評估,評估環(huán)境選取自四款游戲

  • Steam 平臺上的 Quake,DOOM
  • Roblox 平臺上的 Hypershot,Be a Shark

模型行為評估

在 DOOM 和 Quake 中,每個官卡設(shè)置了四個不同的起始位置(Roblox 游戲因聯(lián)網(wǎng)機(jī)制無法固定起點),模型需從指定起點操作至下一個目標(biāo)點。

人工評估采取了兩兩比較的方式:將 1.2B 模型生成的游戲錄像與另外三個相對較小的模型錄像進(jìn)行人工比對。結(jié)果顯示,1.2B 模型分別以 80%,83% 與 75% 的偏好度優(yōu)于 150M,300M 和 600M 模型。下方視頻展示了對比片段:

指令遵循評估

研究還測試了 P2P 模型理解并執(zhí)行文本指令的能力。評估環(huán)境選擇了 Quake 的一個迷宮關(guān)卡,該關(guān)卡要求玩家依次點亮三個紅色按鈕才能開門。

這個任務(wù)對于僅憑借視覺信息的模型來說很有挑戰(zhàn),因為 “按下按鈕” 和 “不按按鈕” 在行動軌跡上幾乎沒有區(qū)別。所以,未接受指令的模型通過率只有 20%。而當(dāng)模型接收到 “按下紅色按鈕” 的文本指令后,模型的通過率可大幅提高到 80%,顯示出了優(yōu)秀的文本指令理解和執(zhí)行能力。

下方視頻對比了 1.2B 模型在有指令(左)和無指令(右)的情況下各運行 5 次的表現(xiàn)。

因果混淆分析

因果混淆是行為克隆中常見的難題,在高頻的交互環(huán)境中尤其突出。例如,一個簡單的策略就是直接復(fù)制上一幀的操作,這種模型在訓(xùn)練時,但在真實環(huán)境測試時表現(xiàn)就會很差。

論文對此進(jìn)行了系統(tǒng)的研究,發(fā)現(xiàn)擴(kuò)大模型的規(guī)模與增加訓(xùn)練模型的數(shù)據(jù)量能夠有效提升模型對因果關(guān)系的理解能力,使其不再依賴著淚虛假關(guān)聯(lián),從而學(xué)到更好的操作策略。



如圖所示,隨著訓(xùn)練數(shù)據(jù)增多與模型參數(shù)量增加,P2P 模型在因果推斷評估中的表現(xiàn)呈上升趨勢。

關(guān)于作者

本文第一作者岳煜光現(xiàn)任初創(chuàng)公司 Player2 研究員,負(fù)責(zé)游戲模型的開發(fā)和研究。在加入 Player2 之前,他曾先后在 Amazon 和 Twitter 擔(dān)任研究人員,致力于語言模型與推薦系統(tǒng)的相關(guān)研究。

岳煜光博士畢業(yè)于德州大學(xué)奧斯汀分校(UT-Austin),師從周明遠(yuǎn)教授,研究方向是強(qiáng)化學(xué)習(xí)以及貝葉斯統(tǒng)計;此前他于加州大學(xué)洛杉磯分校(UCLA)取得碩士學(xué)位,本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王偉中:立即成立調(diào)查組,徹查事故原因,嚴(yán)肅追責(zé)問責(zé)

王偉中:立即成立調(diào)查組,徹查事故原因,嚴(yán)肅追責(zé)問責(zé)

新京報政事兒
2026-01-19 00:34:45
紀(jì)錄片里的冰屋騙了你?因紐特人:那是零下50℃的臨時“恒溫避難艙”

紀(jì)錄片里的冰屋騙了你?因紐特人:那是零下50℃的臨時“恒溫避難艙”

TVB的四小花
2026-01-18 12:07:17
廣東3消息!杜鋒為徐杰胡明軒拉票,陳老板立軍令狀,薩林杰被裁

廣東3消息!杜鋒為徐杰胡明軒拉票,陳老板立軍令狀,薩林杰被裁

多特體育說
2026-01-18 21:35:39
馮唐:我貪財好色!當(dāng)婦科醫(yī)生,就是為了光明正大地看女人

馮唐:我貪財好色!當(dāng)婦科醫(yī)生,就是為了光明正大地看女人

近史博覽
2025-11-23 19:22:45
并非逃離,為何樊振東留洋德甲?王勵勤新政發(fā)力,國家隊支持

并非逃離,為何樊振東留洋德甲?王勵勤新政發(fā)力,國家隊支持

體育見習(xí)官
2026-01-19 15:53:04
WOC炸了!李月汝!

WOC炸了!李月汝!

刺猬籃球
2026-01-18 17:08:13
CCTV5直播,上海久事VS北京首鋼,古德溫PK杰曼,大白邊VS馬帝昂

CCTV5直播,上海久事VS北京首鋼,古德溫PK杰曼,大白邊VS馬帝昂

體壇小快靈
2026-01-19 15:05:13
為什么外國人不怕冷?網(wǎng)友:一桶3000片的布洛芬見過嗎?

為什么外國人不怕冷?網(wǎng)友:一桶3000片的布洛芬見過嗎?

夜深愛雜談
2026-01-18 19:47:44
天佑槍手?2連平丟4分還多領(lǐng)先了1分,若不能奪冠真不能原諒自己

天佑槍手?2連平丟4分還多領(lǐng)先了1分,若不能奪冠真不能原諒自己

濤哥侃球
2026-01-19 16:38:18
李湘賬號被禁后首現(xiàn)身!與女兒在香港逛超市,狀態(tài)悠閑未受影響

李湘賬號被禁后首現(xiàn)身!與女兒在香港逛超市,狀態(tài)悠閑未受影響

傲傲講歷史
2026-01-18 12:23:08
正式官宣!成都蓉城2將離隊,一位面臨退役,一位難回老東家

正式官宣!成都蓉城2將離隊,一位面臨退役,一位難回老東家

體壇鑒春秋
2026-01-19 12:10:24
籃網(wǎng)球迷請求小波特交易離隊別影響擺爛,后者回復(fù):我的錯

籃網(wǎng)球迷請求小波特交易離隊別影響擺爛,后者回復(fù):我的錯

懂球帝
2026-01-19 10:44:30
演員王玉雯:我這輩子最正確的決定,就是和前男友楊玏分道揚鑣!

演員王玉雯:我這輩子最正確的決定,就是和前男友楊玏分道揚鑣!

鄉(xiāng)野小珥
2026-01-18 11:37:34
婚姻里的“哄”,是最高級的浪漫

婚姻里的“哄”,是最高級的浪漫

青蘋果sht
2025-12-27 05:12:18
徐姥姥首次曝光家庭關(guān)系,沒想到引爭議 :到處亂糟糟 真孝順嗎?

徐姥姥首次曝光家庭關(guān)系,沒想到引爭議 :到處亂糟糟 真孝順嗎?

小鹿姐姐情感說
2026-01-19 01:27:17
全紅嬋陪媽媽回娘家,親手喂外婆吃糕點很孝順,新房用三跑包電梯

全紅嬋陪媽媽回娘家,親手喂外婆吃糕點很孝順,新房用三跑包電梯

瘋說時尚
2026-01-18 08:27:43
我58歲生日,女兒送來2斤丹東草莓,我全都洗了,她尖叫罵我

我58歲生日,女兒送來2斤丹東草莓,我全都洗了,她尖叫罵我

朝暮書屋
2026-01-14 18:50:34
美國要奪島,丹麥又蠢又壞,干的事情無恥到喪心病狂

美國要奪島,丹麥又蠢又壞,干的事情無恥到喪心病狂

一個壞土豆
2026-01-18 19:11:02
辦百日宴擺了28桌,只來15個客人!家長:禮錢都沒看到,虧大了!

辦百日宴擺了28桌,只來15個客人!家長:禮錢都沒看到,虧大了!

磊子講史
2025-09-24 14:17:06
“保姆縱火案”8年后,再婚得子的林生斌現(xiàn)狀曝光,反噬終于來了

“保姆縱火案”8年后,再婚得子的林生斌現(xiàn)狀曝光,反噬終于來了

姩姩有娛
2025-10-10 19:01:25
2026-01-19 17:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12146文章數(shù) 142546關(guān)注度
往期回顧 全部

游戲要聞

《劍星2》取景地竟是中國重慶 你是否期待?

頭條要聞

嫣然天使基金暫?;I款 工作人員:常規(guī)籌款預(yù)算已籌滿

頭條要聞

嫣然天使基金暫?;I款 工作人員:常規(guī)籌款預(yù)算已籌滿

體育要聞

錯失英超冠軍獎牌,他卻在德甲成為傳奇

娛樂要聞

離婚三年,孫怡董子健首次公開互動

財經(jīng)要聞

公章爭奪 家族反目 雙星為何從頂端跌落?

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個月一更"

汽車要聞

徐軍:沖擊百萬銷量,零跑一直很清醒

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
家居
本地

藝術(shù)要聞

有一種美,叫做中國園林!

教育要聞

“打了沒用,是打得不夠狠”,家長曬女兒哭鬧視頻,網(wǎng)友看清現(xiàn)實

手機(jī)要聞

realme真我Neo8手機(jī)支持四年系統(tǒng)維護(hù),三個安卓大版本更新

家居要聞

雋永之章 清雅無塵

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會“混搭”

無障礙瀏覽 進(jìn)入關(guān)懷版