国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊混元最新世界模型開源!支持實(shí)時生成交互,突破長期空間記憶

0
分享至


智東西
作者 王欣逸
編輯 程茜

智東西12月17日報道,今天,騰訊混元發(fā)布并開源了最新的混元世界模型1.5(Tencent HY WorldPlay),用戶輸入文字指令或者圖片即可創(chuàng)建可交互世界,該模型擁有空間記憶能力,能呈現(xiàn)出前后一致的場景,支持用戶在生成的世界里隨意移動探索。目前,這一模型可在騰訊混元3D官網(wǎng)申請體驗(yàn)。


這一模型支持生成第一視角和第三視角場景,能生成多種類型的風(fēng)格化場景,還支持場景觸發(fā)特定效果,可應(yīng)用于AI游戲開發(fā)、影視制作和虛擬現(xiàn)實(shí)(VR)和具身智能訓(xùn)練等領(lǐng)域。從官方給出的效果圖來看,僅通過輸入“廢棄游樂園,生銹的摩天輪,雜草叢生,懷舊憂傷”這一指令,該模型便生成了精度很高、內(nèi)容豐富的游戲風(fēng)格場景,空間內(nèi)風(fēng)格一致,要素齊全。

騰訊混元團(tuán)隊(duì)稱其是業(yè)界最系統(tǒng)、最全面的世界模型框架,涵蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié),還提出了重構(gòu)記憶力、長上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。

從基準(zhǔn)測試的結(jié)果來看,混元世界模型1.5在視覺質(zhì)量和幾何一致性指標(biāo)上超越所有模型,僅在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)指標(biāo)上略落后于Gen3C和ViewCrafter兩個模型。和其他現(xiàn)有模型相比,混元世界模型1.5在實(shí)時性、長期一致性和長視野預(yù)測等方面存在明顯優(yōu)勢。


此前,騰訊混元團(tuán)隊(duì)于今年7月發(fā)布了混元3D世界模型1.0,這一模型支持文本或單張圖片輸入生成兼容渲染Pipeline的3D場景;10月,混元發(fā)布了世界模型1.1,它支持多視圖或視頻一鍵創(chuàng)造3D世界。此次更新則是混元世界模型交互能力的關(guān)鍵一步。相比于上一個版本,混元世界模型1.5的空間記憶檢索能力進(jìn)一步升級,此外,新模型還新增了3D場景重建、場景特定觸發(fā)事件等功能,而不僅僅止步于生成沉浸式的3D世界。

在線體驗(yàn)網(wǎng)站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

GitHub:https://github.com/Tencent-Hunyuan/HY-WorldPlay

Hugging Face:https://huggingface.co/tencent/HY-WorldPlay

一、支持文、圖輸入,生成多視角、風(fēng)格化場景視頻

混元世界模型1.5支持文字輸入指令生成和圖片及文字指令輸入,可以生成第一視角和第三視角場景。用戶可以通過鍵盤、鼠標(biāo)或手柄操控該世界里的虛擬相機(jī)的移動和轉(zhuǎn)向。

第一視角即為虛擬相機(jī)直接呈現(xiàn)出的畫面,隨著鏡頭機(jī)位的移動,畫面隨之進(jìn)行變換。在官方給的案例中,第一視角的場景隨著機(jī)位的上下左右旋轉(zhuǎn),畫面比較穩(wěn)定,符合人眼的視覺效果。

第三視角則是在虛擬相機(jī)前增加了一個人物,用戶通過操控鼠標(biāo)、鍵盤等移動人物,畫面會隨著人物的移動而改變,值得一提的是,官方給出的案例視頻非常精細(xì),在跟隨人物走動時相機(jī)有輕微晃動效果。


混元世界模型1.5支持多種風(fēng)格化場景,從生成案例來看,其畫面穩(wěn)定性和風(fēng)格一致性表現(xiàn)不錯。


該模型還支持場景觸發(fā)特定效果,如冒煙、爆炸等。

此外,官方還給出了幾個3D重建的案例,包括狹小空間、室內(nèi)場景和開放室外空間。從生成結(jié)果來看,該模型能基于二維圖像自動補(bǔ)齊信息,重建出的場景比較規(guī)整。


二、多個指標(biāo)全面碾壓現(xiàn)有模型,幾何一致性和視覺質(zhì)量出色

研究人員將基線模型分成兩組:一組為無記憶機(jī)制的動作控制擴(kuò)散模型,包括CameraCtrl、SEVA、ViewCrafter、Matrix-Game 2.0、GameCraft;另一組為有記憶機(jī)制的模型,包括Gen3C、VMem。

基準(zhǔn)測試顯示,從短期生成質(zhì)量來看,混元世界模型1.5在視覺質(zhì)量(LPIPS、PSNR、SSIM)上表現(xiàn)出色,全面超越CameraCtrl、SEVA等其他模型,在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)距離指標(biāo)Rdist上,混元世界模型1.5比Gen3C和ViewCrafter稍遜色,但仍處于所有模型的領(lǐng)先地位。

在長期場景中,混元世界模型1.5所有指標(biāo)均超越所有模型,尤其是在控制準(zhǔn)確性上,研究人員指出這是由于其他模型誤差累積導(dǎo)致的控制準(zhǔn)確性顯著下降,這體現(xiàn)了混元世界模型1.5的較高穩(wěn)定性和一致性特性。


在VBench定量基準(zhǔn)測試中和人工評估結(jié)果中,上述結(jié)果得到了驗(yàn)證。


在長期幾何一致性和視覺質(zhì)量上,研究人員讓幾個模型一起進(jìn)行自由探索?;煸澜缒P?.5在場景泛化方面表現(xiàn)出色,通過重構(gòu)上下文記憶確保了長期的幾何一致性。Gen3C使用了顯式的3D緩存,對中間輸出的質(zhì)量高度敏感,深度估計(jì)的準(zhǔn)確性存在問題,Matrix-Game 2.0和GameCraft由于缺乏專用的記憶機(jī)制,無法支持自由探索。


在WorldPlay的強(qiáng)化學(xué)習(xí)框架WorldCompass的能力上,研究人員還進(jìn)行了關(guān)于有無WorldCompass RL訓(xùn)練階段的模型在處理復(fù)雜動作時的性能比較,結(jié)果顯示,WorldCompass RL框架在提升模型復(fù)雜交互能力起著關(guān)鍵作用,在無RL訓(xùn)練時,處理復(fù)雜交互信號時模型表現(xiàn)出了視覺退化,而有RL訓(xùn)練則顯著提高了模型的動作跟隨精度和視覺保真度。


三、提出全新強(qiáng)化學(xué)習(xí)框架,能動態(tài)重構(gòu)上下文

混元世界模型1.5的核心是WorldPlay自回歸擴(kuò)散模型,它克服前代HY-World 1.0依賴冗長的離線生成、缺乏實(shí)時交互的局限,實(shí)現(xiàn)了高質(zhì)量、長序列的流暢視頻生成,速度可達(dá)每秒24幀。

該模型提供了一個系統(tǒng)而完整的實(shí)時世界模型訓(xùn)練框架,覆蓋模型預(yù)訓(xùn)練、持續(xù)訓(xùn)練、自回歸視頻模型強(qiáng)化學(xué)習(xí)、帶記憶力的模型蒸餾的訓(xùn)練全流程。


混元世界模型1.5依賴于一個包含320K視頻片段的綜合訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自3A游戲、真實(shí)世界的3D場景、合成4D數(shù)據(jù)以及自然動態(tài)視頻。

世界模型長期以來難以兼顧實(shí)時生成與系統(tǒng)內(nèi)存占用,為此,混元世界模型1.5采取了四項(xiàng)核心設(shè)計(jì),有效解決了這一矛盾:

1、雙重動作表示法:系統(tǒng)可精準(zhǔn)響應(yīng)用戶的鍵盤與鼠標(biāo)輸入,實(shí)現(xiàn)對生成內(nèi)容的實(shí)時控制。

2、重構(gòu)上下文記憶機(jī)制:通過動態(tài)重建過往幀信息,并結(jié)合時間重構(gòu)策略,系統(tǒng)能夠維持長期的幾何一致性,顯著緩解了長視頻生成中常見的記憶衰減問題。

3、WorldCompost強(qiáng)化學(xué)習(xí)框架:這一新型后訓(xùn)練框架專門針對長序列自回歸視頻模型優(yōu)化,直接提升了動作跟隨能力和生成畫面的視覺質(zhì)量。

4、情境強(qiáng)迫蒸餾法:該方法通過對齊教師模型與學(xué)生模型之間的記憶上下文,在確保生成速度的同時,保持了模型利用長遠(yuǎn)歷史信息的能力,從而有效抑制誤差累積。


基于以上技術(shù),在用戶給定一張圖片或一段描述世界的文本提示,該模型能夠根據(jù)用戶輸入的動作條件,執(zhí)行下一片段(16個視頻幀)預(yù)測任務(wù),以生成未來的視頻序列。在生成每個片段時,該模型可以動態(tài)地從過往片段中重構(gòu)上下文記憶,以此確保長期的時序一致性與幾何一致性。

結(jié)語:正探索更復(fù)雜的交互和物理世界模擬

混元世界模型1.5較此前版本的1.0模型做出了較大提升,突破了此前實(shí)時交互和空間細(xì)節(jié)的局限,為創(chuàng)建一致且交互式的虛擬世界邁出了關(guān)鍵一步。

騰訊混元又開源一世界模型,這為游戲開發(fā)、虛擬現(xiàn)實(shí)、數(shù)字內(nèi)容創(chuàng)作等應(yīng)用場景提供了新的工具與更多的可能性?;煸獔F(tuán)隊(duì)稱,他們正在探索讓模型能夠生成更長時間的視頻序列,以及支持多智能體交互和復(fù)雜的物理世界動態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
和丈夫離婚后,她開始和上海首富同居,如今重操舊業(yè)卻已無人問津

和丈夫離婚后,她開始和上海首富同居,如今重操舊業(yè)卻已無人問津

素衣讀史
2025-12-18 17:38:30
天才空降騰訊,27 歲姚順雨擔(dān)任騰訊首席AI科學(xué)家,履歷非常亮眼

天才空降騰訊,27 歲姚順雨擔(dān)任騰訊首席AI科學(xué)家,履歷非常亮眼

凱旋學(xué)長
2025-12-18 17:49:43
殺豬盤新套路:先讓你賺錢,再掏空你全部身家

殺豬盤新套路:先讓你賺錢,再掏空你全部身家

流蘇晚晴
2025-12-17 18:10:58
《風(fēng)與潮》任嘉倫飾演何賢娶5個女人,第1何家支柱,第3情報獵手

《風(fēng)與潮》任嘉倫飾演何賢娶5個女人,第1何家支柱,第3情報獵手

亦暖追劇隨筆
2025-12-17 19:00:03
演都不演了,看自相矛盾、擰巴無比的朱孝天,惡心的一幕出現(xiàn)了

演都不演了,看自相矛盾、擰巴無比的朱孝天,惡心的一幕出現(xiàn)了

情感大頭說說
2025-12-19 11:46:09
銀行人勸告:家里有老人存款的,務(wù)必加上第二存款人!越早越安心

銀行人勸告:家里有老人存款的,務(wù)必加上第二存款人!越早越安心

小白鴿財(cái)經(jīng)
2025-12-17 07:05:02
國民黨和民眾黨民意代表 宣布將提案彈劾賴清德

國民黨和民眾黨民意代表 宣布將提案彈劾賴清德

每日經(jīng)濟(jì)新聞
2025-12-19 11:40:08
印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

可樂談情感
2025-12-18 12:19:49
新疆一校花好漂亮, 身高166cm,體重47kg 美的讓人移不開眼

新疆一校花好漂亮, 身高166cm,體重47kg 美的讓人移不開眼

東方不敗然多多
2025-12-19 10:16:57
中國的“性蕭條”時代,正式到來了

中國的“性蕭條”時代,正式到來了

律法刑道
2025-12-15 08:28:58
國產(chǎn)奔馳GLE效果圖曝光!網(wǎng)友直呼:寶馬X5L迎來最強(qiáng)對手

國產(chǎn)奔馳GLE效果圖曝光!網(wǎng)友直呼:寶馬X5L迎來最強(qiáng)對手

汽車網(wǎng)評
2025-12-18 21:02:02
杜蘭特32+7+4帽創(chuàng)歷史第1神跡,鵜鶘25分逆轉(zhuǎn)火箭!瓊斯18+8搶斷

杜蘭特32+7+4帽創(chuàng)歷史第1神跡,鵜鶘25分逆轉(zhuǎn)火箭!瓊斯18+8搶斷

一將籃球
2025-12-19 12:41:21
大船繞開新加坡直奔中國,打破“馬六甲困局”,中國布局終于起效

大船繞開新加坡直奔中國,打破“馬六甲困局”,中國布局終于起效

達(dá)文西看世界
2025-12-18 15:52:14
官方定調(diào)!出生人口,要努力穩(wěn)定了

官方定調(diào)!出生人口,要努力穩(wěn)定了

城市財(cái)經(jīng)
2025-12-18 11:44:23
54歲馬斯克暗諷28歲當(dāng)紅女星,“她會背疼”,引發(fā)爭議

54歲馬斯克暗諷28歲當(dāng)紅女星,“她會背疼”,引發(fā)爭議

譯言
2025-12-18 14:43:48
當(dāng)聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現(xiàn)實(shí)

當(dāng)聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現(xiàn)實(shí)

總在茶余后
2025-12-18 06:00:09
鄧亞萍:國乒能打敗張本的不超過三人,現(xiàn)在重要的是找到抑制策略

鄧亞萍:國乒能打敗張本的不超過三人,現(xiàn)在重要的是找到抑制策略

大嘴說臺球
2025-12-18 12:51:07
誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
彈劾成案可要賴清德赴臺民意機(jī)構(gòu)答辯,邱毅:若拒絕將坐實(shí)“獨(dú)裁”

彈劾成案可要賴清德赴臺民意機(jī)構(gòu)答辯,邱毅:若拒絕將坐實(shí)“獨(dú)裁”

海峽導(dǎo)報社
2025-12-19 12:04:02
中委在電話里談妥,美動一個試試?馬杜羅亮B計(jì)劃,中方通知美國

中委在電話里談妥,美動一個試試?馬杜羅亮B計(jì)劃,中方通知美國

時時有聊
2025-12-19 12:17:22
2025-12-19 13:08:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10938文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

時尚
本地
教育
親子
健康

“煙管褲”今年冬天爆火,怎么搭都時髦!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

教育要聞

“考考考老師的法寶”應(yīng)該休矣

親子要聞

很多家長問支具鋁板是什么,名字叫指鋁板,網(wǎng)上都能搜到

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版