国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

謝賽寧也玩MC?開源全新世界模型生成多人一致的游戲視角

0
分享至



機(jī)器之心編輯部


電子游戲一直是 AI 領(lǐng)域發(fā)展的極大推動力之一。

游戲本身就構(gòu)建了一個相對完整的世界,并且具有相當(dāng)易于理解的世界規(guī)則。不僅可以訓(xùn)練人工智能對物理世界的理解,訓(xùn)練智能體的交互,更是許多世界模型的構(gòu)建基礎(chǔ)。

研究與視覺相關(guān)的 AI 永遠(yuǎn)繞不開的電子游戲兩座大山,其一是代表真實世界風(fēng)格的《GTA》 ,另一個則是代表虛擬自由風(fēng)格的《我的世界》。

我們關(guān)注到,謝賽寧團(tuán)隊最近在探索世界模型的全新研究方向,把實驗?zāi)繕?biāo)投向了《我的世界》。









Solaris 模型樣本。每一行顯示一個生成的視頻:左右兩側(cè)是模型為每個玩家生成的第一人稱視圖,中間是模型的第三人稱真實視圖(未提供給模型)。

視頻畫面中清楚地展示了兩個游戲角色的行為與第一視角的游玩錄像。但如果告訴你,這兩個第一視角畫面均為視頻世界模型生成的,你能找到破綻嗎?

這就是謝賽寧團(tuán)隊的最新視頻世界模型 Solaris,首個多人視頻世界模型,能夠同時生成多個玩家之間保持一致的第一視角。



  • 項目主頁: https://solaris-wm.github.io/
  • 引擎代碼: https://github.com/solaris-wm/solaris-engine
  • 模型代碼 :https://github.com/solaris-wm/solaris
  • 數(shù)據(jù)集鏈接:https://huggingface.co/collections/nyu-visionx/solaris-data
  • 模型鏈接:https://huggingface.co/collections/nyu-visionx/solaris-models

研究團(tuán)隊發(fā)現(xiàn),目前的視頻世界模型僅能處理單人視角,這并不能反映現(xiàn)實世界的真實運作方式,希望能夠能夠?qū)崿F(xiàn)多人同步觀察一個統(tǒng)一世界。于是,研究團(tuán)隊把視角投向了電子游戲。

Solaris 的核心貢獻(xiàn)之一是我們完全自主設(shè)計并構(gòu)建的多人數(shù)據(jù)采集系統(tǒng) SolarisEngine,因為現(xiàn)有平臺僅針對單人設(shè)定而設(shè)計。該引擎支持在《我的世界》等游戲中進(jìn)行協(xié)調(diào)的多智能體交互和同步視覺捕捉。它是一個可擴(kuò)展的框架,由 12.6M 幀協(xié)調(diào)的《我的世界》游戲游玩數(shù)據(jù)創(chuàng)建。

模型與數(shù)據(jù)集

SolarisEngine



利用 SolarisEngine 采集的多人數(shù)據(jù)集任務(wù)示例。每一列展示了不同的任務(wù)類型(建筑、搭橋、PvP、PvE、追逐、探索、采礦和采集),每種任務(wù)包含三個回合。此處展示的第三人稱視角僅用于可視化;SolarisEngine 實際渲染的是第一人稱觀察視角和動作數(shù)據(jù),這也是模型訓(xùn)練所使用的輸入。

目前已有多種用于控制 Minecraft 智能體的框架,包括 Malmo、MineRL、MineDojo 和 Mineflayer。盡管這些工具各具特色,但沒有一個是為多人數(shù)據(jù)采集而設(shè)計的。市面上沒有現(xiàn)成的系統(tǒng)可以用來采集真實的多人游戲數(shù)據(jù),因此研究團(tuán)隊選擇從零開始搭建一個。



SolarisEngine 架構(gòu)概覽。

在數(shù)據(jù)采集上,研究團(tuán)隊選擇以 Mineflayer 為基礎(chǔ),因為它為尋路、方塊放置和戰(zhàn)斗等操作提供了可組合的基本方法。在此之上,我們構(gòu)建了一個通信層,允許機(jī)器人在任務(wù)回合中相互協(xié)作。通過這些基礎(chǔ)方法的組合,可以形成完整的任務(wù)回合,讓兩個機(jī)器人共同完成預(yù)設(shè)目標(biāo)。

研究團(tuán)隊構(gòu)建了一個任務(wù)類型庫,涵蓋了 Minecraft 交互的核心方面:建造房屋和橋梁、PvP 與 PvE 戰(zhàn)斗、追逐與探索,以及采礦。盡管任務(wù)邏輯是用這些高級原語編寫的,但系統(tǒng)會將所有操作轉(zhuǎn)換為低級動作空間,從而兼容從人類玩家那里采集的單人數(shù)據(jù)集 VPT。

在覆蓋游玩動作以外,要構(gòu)建世界模型的數(shù)據(jù)集,必須實現(xiàn)提取視覺畫面并與動作的對齊。

Mineflayer 雖然能控制角色,但無法渲染圖形。為了獲取視覺觀察數(shù)據(jù),團(tuán)隊將每個控制機(jī)器人與一個運行官方 Minecraft Java 版客戶端的攝像機(jī)機(jī)器人配對。通過自定義的服務(wù)端插件,我們實現(xiàn)了攝像機(jī)與控制器的實時同步,使其位置、朝向甚至動作動畫完全一致。在后期處理中,我們利用共享的 20 FPS 幀率時間戳,將動作與視覺觀察數(shù)據(jù)進(jìn)行對齊。

利用 SolarisEngine,團(tuán)隊采集了一個多人 Minecraft 訓(xùn)練數(shù)據(jù)集,總計包含 9,240 個任務(wù)回合,每名玩家貢獻(xiàn) 632 萬幀,總計 1,264 萬幀。

這些任務(wù)回合大致分為四大類:建筑(房屋、墻壁、塔樓、橋梁)、戰(zhàn)斗(PvP 和 PvE)、移動(追逐、導(dǎo)航、探索)以及采礦。在采樣任務(wù)類型時,團(tuán)隊采用了與典型任務(wù)長度成反比的權(quán)重,以保持整體分布平衡。所有動作均被標(biāo)注為與 VPT 格式兼容的語義游戲事件,涵蓋了移動、視角控制以及挖掘、放置、攻擊等交互輸入。

這是首個帶有動作標(biāo)注、適用于訓(xùn)練世界模型的多人 Minecraft 數(shù)據(jù)集。



數(shù)據(jù)集統(tǒng)計。(左)數(shù)據(jù)集包含四個場景類別。(中)在總共 9,240 個場景和每個玩家 6.32M 幀的情況下,場景類型分布。(右)場景長度分布,大多數(shù)場景在 128 到 512 幀之間。

視頻世界模型 Solaris

Solaris 是一種可控的視頻擴(kuò)散模型,它能夠在給定各玩家歷史觀察與動作的條件下,聯(lián)合預(yù)測多名玩家的未來觀察結(jié)果。結(jié)合了流匹配(Flow Matching)與擴(kuò)散強迫(Diffusion Forcing)對其進(jìn)行訓(xùn)練,其中每個玩家及每個時間步都會采樣獨立的噪聲水平。這使得模型在學(xué)習(xí)對各玩家觀察流進(jìn)行去噪的同時,保持玩家間的一致性。

研究團(tuán)隊基于 MatrixGame 2.0 構(gòu)建了該模型,是一個在包括 Minecraft 在內(nèi)的多種視頻游戲上預(yù)訓(xùn)練過的單人視頻 DiT 模型。研究團(tuán)隊沿用了其預(yù)訓(xùn)練權(quán)重和凍結(jié)的 VAE,并進(jìn)行了三項關(guān)鍵改進(jìn)以支持多人模式。

首先,擴(kuò)展了動作空間以涵蓋來自 VPT 的全量 Minecraft 輸入,增加了動作條件模塊的輸入維度。

其次,引入了多人自注意力層,將所有玩家的 Token 進(jìn)行拼接并互相對照,使得信息可以在每個 DiT 模塊內(nèi)部實現(xiàn)玩家間的交換。對每名玩家獨立應(yīng)用 3D RoPE ,并添加了可學(xué)習(xí)的玩家 ID 嵌入,以便模型區(qū)分不同個體。

第三,所有其他模塊(用于首幀條件的交叉注意力、前饋層、動作條件)均保持與 MatrixGame 2.0 一致,并對每名玩家獨立運行。盡管我們目前僅在兩名玩家的數(shù)據(jù)上進(jìn)行訓(xùn)練,但該架構(gòu)可泛化至任意數(shù)量的玩家。



改進(jìn)型 DiT 模塊通過在序列維度上進(jìn)行視覺交錯(visual interleaving)來實現(xiàn)多人建模。多人信息通過一個共享的自注意力(self-attention)模塊進(jìn)行交換。其他模塊與 MatrixGame 2.0 保持一致,并對每名玩家獨立應(yīng)用。

評估指標(biāo)與實驗結(jié)果

研究團(tuán)隊創(chuàng)建了 Solaris Eval 數(shù)據(jù)集,通過 7 個獨特的、不參與訓(xùn)練的真值任務(wù)回合,來測試五種多人協(xié)作能力。

首先是移動能力:該部分測試了模型同時在兩名玩家視角中渲染視覺一致的智能體位移(WASD)和相機(jī)旋轉(zhuǎn)(鼠標(biāo))的能力。其中一個機(jī)器人移動,另一個觀察;由 VLM(視覺語言模型)判斷移動玩家的位置在觀察者視角中是否發(fā)生了正確且一致的變化。



第二是定位能力:測試模型是否能夠通過觀察記住另一名玩家的位置。一名智能體轉(zhuǎn)身(失去對另一名玩家的視野),停頓,然后轉(zhuǎn)回原位。由于轉(zhuǎn)身的智能體一直處于靜止玩家的持續(xù)觀察中,它應(yīng)當(dāng)知道對方所處的位置 ——VLM 會檢查該智能體在轉(zhuǎn)回時是否能看到另一名玩家。



第三是一致性:測試協(xié)同可見區(qū)域在兩名玩家視角中是否渲染一致。兩名靠近的智能體同時轉(zhuǎn)向同一個隨機(jī)方向;VLM 會檢查兩名玩家看到的場景是否相同。



第四是記憶能力:測試模型是否能夠跨越時間記住環(huán)境和其他智能體。兩名智能體同時背對彼此轉(zhuǎn)身,停頓,然后轉(zhuǎn)回原始朝向。VLM(視覺語言模型)會檢查兩名智能體在轉(zhuǎn)回后是否能重新看到對方。



第五是建造能力:測試模型反映由智能體動作引起的環(huán)境變化的能力。一個機(jī)器人構(gòu)建預(yù)定義的形狀(正方形、水平長條或垂直長條),另一個機(jī)器人在旁觀察。建造完成后,建筑機(jī)器人移動到觀察者身邊,使完整的結(jié)構(gòu)同時出現(xiàn)在兩者的視野中。VLM(視覺語言模型)會評估觀察者是否看到了完整的結(jié)構(gòu)。



實驗結(jié)果

研究團(tuán)隊將本研究的架構(gòu)實現(xiàn)與 Multiverse 的「幀拼接(frame concatenation)」方法進(jìn)行了對比,后者是本工作之前唯一現(xiàn)存的多人世界模型。此外,我們還通過對比「無單人模型初始化」的變體,測試了單人階段預(yù)訓(xùn)練的必要性。

我們的方法在視覺效果和所有評估類別的定量指標(biāo)上均表現(xiàn)更優(yōu)。在基于運動軌跡的動作執(zhí)行方面,所有架構(gòu)變體均表現(xiàn)強勁,并在對應(yīng)類別的 VLM 評估中獲得高分(見表)。但在涉及建筑、場景一致性和玩家視覺對齊等困難場景時,我們的方法展現(xiàn)出了卓越的性能,這體現(xiàn)在這些類別中更高的 VLM 評分上。盡管「幀拼接法」在我們的「移動(Movement)」評估中表現(xiàn)更好,但定性分析發(fā)現(xiàn),該方法在面臨「無操作(no-op)」動作時會出現(xiàn)動作幻覺。



跨任務(wù)的定量比較。本文的方法與 Multiverse 沿通道維度連接玩家觀察結(jié)果的方法進(jìn)行比較。

更多信息,請參閱原始論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
兩條“好報道”,又翻車了?

兩條“好報道”,又翻車了?

走讀新生
2026-03-09 12:26:32
伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

紅星新聞
2026-03-09 10:05:03
財政部、人社部發(fā)布消息,今年養(yǎng)老金或再漲,低于3200元多漲嗎?

財政部、人社部發(fā)布消息,今年養(yǎng)老金或再漲,低于3200元多漲嗎?

有范又有料
2026-03-09 11:43:18
伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

仕道
2026-03-09 10:21:53
趕緊關(guān)窗!已提前到來!

趕緊關(guān)窗!已提前到來!

羊城攻略
2026-03-08 22:54:35
羨慕!小米一位員工被裁領(lǐng)到賠償金后,又成功申請退休,預(yù)估每月8000多元

羨慕!!小米一位員工被裁領(lǐng)到賠償金后,又成功申請退休,預(yù)估每月8000多元

新浪財經(jīng)
2026-03-08 17:55:13
大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場;景區(qū):具體情況需由游客回應(yīng)

大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場;景區(qū):具體情況需由游客回應(yīng)

大風(fēng)新聞
2026-03-09 17:06:09
攤牌了!離婚14年董潔潘粵明公開“認(rèn)愛”,這一次尹姝貽輸?shù)脧氐?>
    </a>
        <h3>
      <a href=查爾菲的筆記
2026-03-09 14:00:17
第九日中東戰(zhàn)況:伊朗能源設(shè)施首次遭襲,伊朗空軍“全軍覆沒”

第九日中東戰(zhàn)況:伊朗能源設(shè)施首次遭襲,伊朗空軍“全軍覆沒”

裝甲鏟史官
2026-03-09 11:43:08
外交部:中方高度警惕,堅決反對日方妄圖在臺灣問題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價

外交部:中方高度警惕,堅決反對日方妄圖在臺灣問題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價

環(huán)球網(wǎng)資訊
2026-03-09 15:34:10
雷軍:未來每周或僅需工作3天 每天工作2小時 建議大家用開放心態(tài)迎接

雷軍:未來每周或僅需工作3天 每天工作2小時 建議大家用開放心態(tài)迎接

快科技
2026-03-07 14:42:06
破案了!保定潑螺螄粉湯事件升級,網(wǎng)傳對面坐的是她的親生女兒…

破案了!保定潑螺螄粉湯事件升級,網(wǎng)傳對面坐的是她的親生女兒…

火山詩話
2026-03-09 13:17:44
偉偉道來 | 伊朗降溫美以升級,戰(zhàn)爭進(jìn)入第二階段

偉偉道來 | 伊朗降溫美以升級,戰(zhàn)爭進(jìn)入第二階段

經(jīng)濟(jì)觀察報
2026-03-09 16:20:16
騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

PChome電腦之家
2026-03-09 14:37:39
女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會沒開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會沒開完就溜了

天天熱點見聞
2026-03-09 06:51:26
軍事 | 小心俄烏、美以伊朗戰(zhàn)事聯(lián)動,澤連斯基說法有多危險?

軍事 | 小心俄烏、美以伊朗戰(zhàn)事聯(lián)動,澤連斯基說法有多危險?

新民周刊
2026-03-09 09:07:46
世襲罔替,新最高革命領(lǐng)袖是小哈梅內(nèi)伊!請救救伊朗女足的姑娘們

世襲罔替,新最高革命領(lǐng)袖是小哈梅內(nèi)伊!請救救伊朗女足的姑娘們

鷹眼Defence
2026-03-09 12:16:08
伊朗公開道歉!海灣國家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

伊朗公開道歉!海灣國家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

策略述
2026-03-09 16:10:11
日經(jīng)225指數(shù)跌幅擴(kuò)大,現(xiàn)跌7.0%,最新報51697.54點

日經(jīng)225指數(shù)跌幅擴(kuò)大,現(xiàn)跌7.0%,最新報51697.54點

每日經(jīng)濟(jì)新聞
2026-03-09 09:34:03
2026-03-09 17:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭推入第二階段欲"強拆伊朗"

頭條要聞

媒體:伊朗降溫 美以將戰(zhàn)爭推入第二階段欲"強拆伊朗"

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財經(jīng)要聞

亞太股市黑色星期一 這次A股有點不一樣

汽車要聞

對標(biāo)奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

時尚
旅游
健康
數(shù)碼
藝術(shù)

春天穿夾克,短一些的更帥氣!

旅游要聞

@所有旅游企業(yè):讓真正有價值的創(chuàng)新,被全行業(yè)看見!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

黑鯊多款新配件官宣:含冰封液冷背夾、筆記本散熱器等,本月發(fā)布

藝術(shù)要聞

吳冠中畫長江,氣勢磅礴

無障礙瀏覽 進(jìn)入關(guān)懷版