国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

通用級PixVerse R1的技術(shù)突破,揣著進入平行世界的密碼

0
分享至




編輯|冷貓、+0

原來,視頻生成卷到極致,就是突破大腦和視覺的邊界,讓想象力進入 AI 構(gòu)建的虛擬空間。

昨天,PixVerse R1突然上線。一開始我們以為這只是一次普通的版本更新,但那種「即時響應(yīng)、即看即創(chuàng)」的全新交互體驗,卻是前所未有的。讀完技術(shù)報告我們發(fā)現(xiàn),這不僅僅是一次卷到極致的性能提升,更是量變帶來的質(zhì)變。

回顧過去,23 年推出第一版模型,隨后 Web 端、移動端全面鋪開,愛詩科技在 DiT 路線上一路狂奔:從 24 年底的 10 秒生成,到 25 年 2 月實現(xiàn) 5 秒生成社交級視頻,再到 11 月將 1080P 視頻生成壓縮至 30 秒。在自研模型技術(shù)和工程化落地的思想下,PixVerse 確實將「傳統(tǒng)視頻生成」的速度推向了極限。

與此同時,行業(yè)加速從未停歇。就在上個月,生數(shù)科技宣布其與清華大學(xué)團隊研發(fā)的 TurboDiffusion 框架,也讓視頻生成正式邁入「秒級」門檻。

但時間上的「卷」就是視頻生成的全部嗎?

顯然,再快的速度,如果不能生產(chǎn)出符合制作需求的畫質(zhì)和一致性,依然無法成為通用的標準。

PixVerse 曾是業(yè)界第一個把 5 秒視頻生成做到 5 秒之內(nèi)的團隊,而當(dāng)一切看似達到極限時,在 2026 年開年,PixVerse R1 模型與產(chǎn)品同步橫空出世。

通過將計算效率提升數(shù)百倍,它不再局限于「秒級」,而是做到了人類肉眼感知范圍內(nèi)的「實時」生成。發(fā)布即實裝,這是一款真正的「通用」實時世界模型。這已不僅是單點的技術(shù)突破,而是一步到位、直接實現(xiàn)應(yīng)用層級質(zhì)變的代際跨越。

以下,我們將通過技術(shù)報告,為您詳細解析 R1 的這次突破。



文中視頻鏈接:https://mp.weixin.qq.com/s/LybgC6RD9cu0kJyGbTJlog

看了這個視頻,大家或許理解了什么是「無限內(nèi)容」的視頻生成。

在這個模型創(chuàng)造的世界里,「漢語竟是上古禁咒」,你只要說出「春」即刻綠草如茵,說出「鳥」即刻飛鳥成群。一切都是如此連續(xù),直白,世界實時響應(yīng)你的呼喚,時間和空間都在你的掌控之中;蛟S,PixVerse R1 已經(jīng)徹底掌握了「無限流」的真諦。

簡單來說,PixVerse R1 是全球首個支持最高 1080P 分辨率通用實時世界模型。

這也是第一次,AI 可以基于用戶的意圖實時生成一個持續(xù)演化、物理上合理的世界,標志著視頻生成正式從「靜態(tài)輸出」邁入「實時交互」的全新階段。

回顧視頻生成技術(shù)的發(fā)展路徑,行業(yè)始終受困于速度、質(zhì)量與成本的不可能三角:高畫質(zhì)往往意味著高延遲(如傳統(tǒng)擴散模型),而追求速度又不得不犧牲物理一致性。PixVerse R1 沒有盲目追求參數(shù)軍備競賽,而是找到了一條通往「通用」的平衡之路:

當(dāng)一個模型首先做到了打破物理極限的實時響應(yīng)(IRE),并以此為基礎(chǔ)結(jié)合了通用全模態(tài)(Omni)與長時序世界模擬(自回歸),它就已經(jīng)超越了傳統(tǒng)意義上的視頻生成工具。



  • 技術(shù)博客鏈接:https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

交互的物理極限:

瞬時響應(yīng)引擎(IRE)

在通往通用世界模型的路徑上,「實時性」始終是阻礙技術(shù)從實驗室走向大規(guī)模應(yīng)用的核心工程障礙。

傳統(tǒng)擴散模型的生成邏輯本質(zhì)上是一種精細的迭代去噪過程,通常需要 50 步甚至更多的采樣步驟,才能將高斯噪聲轉(zhuǎn)化為清晰的視覺內(nèi)容。這種機制雖然在一定程度上保證了生成質(zhì)量,但其帶來的秒級甚至分鐘級的高延遲,使得 AI 視頻生成長期停留在「離線制作、預(yù)錄制回放」的階段,無法滿足即時交互的嚴苛需求。

不過,生成速度始終是 PixVerse 的強項,其在響應(yīng)時間上一騎絕塵。早在 PixVerse V4.5 的時候我們就實測過,即使我們將各項生成指標拉滿,平臺輸出結(jié)果的時間也沒有超過 1 分鐘

但是,為了更進一步,實現(xiàn)徹底的「實時響應(yīng)」,PixVerse 在 R1 上決心徹底重構(gòu)底層推理架構(gòu),提出了瞬時響應(yīng)引擎(Instantaneous Response Engine,IRE)。

這是一套針對采樣過程的系統(tǒng)級加速方案,通過三大關(guān)鍵技術(shù),在保持 1080P 高分辨率生成的前提下,將推理時間壓縮到極致。

時間軌跡折疊

不同于傳統(tǒng)方法在加噪去噪過程上進行漫長的逐步逼近,該技術(shù)引入「直接傳輸映射」作為結(jié)構(gòu)先驗,建立噪聲到數(shù)據(jù)的直線通路,能夠直接預(yù)測干凈數(shù)據(jù)的分布路徑。

這種方法在數(shù)學(xué)上有效地「折疊」了原本冗長的時間維度,將傳統(tǒng)擴散模型所需的 50+ 采樣步數(shù)暴力壓縮至僅需1-4 步。這一數(shù)量級的步數(shù)縮減,直接從源頭上解決了計算量過大的問題,實現(xiàn)了推理速度的質(zhì)變。

引導(dǎo)校正

針對為了保證生成質(zhì)量通常采用的無分類器引導(dǎo)策略(Classifier-Free Guidance,CFG)所帶來的雙倍計算開銷問題,PixVerse R1 團隊通過將條件梯度直接融合進模型內(nèi)部,使得系統(tǒng)在推理階段無需再進行正負樣本的雙重計算。

這一優(yōu)化成功繞過了傳統(tǒng) CFG 的計算瓶頸,在不犧牲指令遵循能力的情況下,進一步降低了計算復(fù)雜度。

自適應(yīng)稀疏注意力

為了應(yīng)對高分辨率視頻生成帶來的巨大顯存與計算壓力,IRE 采用了自適應(yīng)稀疏注意力機制。

該機制能夠動態(tài)分析視頻生成過程中的上下文依賴,智能識別并剪除長程依賴中的冗余計算,從而顯著壓縮了計算圖,大幅提升了整體推理效率。



即時響應(yīng)引擎由三個模塊組成:時間軌跡折疊、引導(dǎo)修正和自適應(yīng)稀疏注意力學(xué)習(xí)。

通用的認知底座:

Omni 原生多模態(tài)基礎(chǔ)模型

如果說「瞬時響應(yīng)引擎」解決了傳輸?shù)乃俣葐栴},那么一個強大的底座模型,則決定了傳輸內(nèi)容的質(zhì)量與上限。

底座模型是一切新功能新特性的基礎(chǔ)。構(gòu)建通用實時世界模型的第一步,在于打破單一模態(tài)的感知壁壘,只有設(shè)計一個完全端到端的原生多模態(tài)基礎(chǔ)模型,才能徹底超越傳統(tǒng)生成流程的局限。

在當(dāng)前的視頻生成技術(shù)棧中,多為非端到端的生成方式。往往需要生成一種模態(tài)之后通過級聯(lián)的方式生成另一種模態(tài),這種方式下需要反復(fù)的鋪路搭橋,尤其是在處理復(fù)雜的跨模態(tài)交互上,自然顯著影響了生成的效率,也限制了模型的通用性。

為了實現(xiàn)無限的通用性,模型必須強調(diào):原生,原生,還是原生。

PixVerse R1 提出的 Omni原生端到端多模態(tài)基礎(chǔ)模型,正是通過底層架構(gòu)的重構(gòu),實現(xiàn)了「因原生而通用」。

原生統(tǒng)一表示

Transformer 架構(gòu)給了生成模型無窮的想象和可能性。

Omni 模型引入了統(tǒng)一 Token 流架構(gòu)。該架構(gòu)基于 Transformer,摒棄了異構(gòu)模型拼接的傳統(tǒng)路徑,將文本、圖像、音頻與視頻等不同模態(tài)的數(shù)據(jù),統(tǒng)一編碼為單一的生成序列。

在這一框架下,模型不再是將文本「翻譯」為視覺信號,而是在原生層面上實現(xiàn)了對多模態(tài)數(shù)據(jù)的聯(lián)合處理與理解。這種全模態(tài)的「通感」能力,使得模型能夠精準捕捉文本指令與視聽內(nèi)容之間的深層關(guān)聯(lián),從而支撐起游戲、影視等多領(lǐng)域的通用化應(yīng)用。

原生分辨率

除了多模態(tài)數(shù)據(jù)的原生處理,第二個原生,是實現(xiàn)高分辨率視頻生成的核心特性:原生分辨率。

Omni 模型引入這一機制,旨在解決傳統(tǒng)視頻生成模型中因數(shù)據(jù)預(yù)處理而導(dǎo)致的畫面構(gòu)圖破壞與幾何失真問題。

為了適配固定的模型輸入結(jié)構(gòu),傳統(tǒng)方案往往采取「強制裁剪」或「縮放拉伸」的策略。這種「削足適履」的方式,會導(dǎo)致畫面關(guān)鍵信息被裁切丟失,或使物體形態(tài)發(fā)生非物理的扭曲變形(如被壓扁或拉長)。

相比之下,Omni 模型堅持在原生分辨率和原始比例下進行端到端的學(xué)習(xí)。這一架構(gòu)使其能夠自適應(yīng)處理任意長寬比的素材,從根源上消除了因裁切或縮放帶來的視覺偏差,確保了生成內(nèi)容在構(gòu)圖完整性與物理幾何上的真實感。



Omni 原生多模態(tài)基礎(chǔ)模型的端到端架構(gòu),統(tǒng)一設(shè)計使 Omni 模型能夠接受任意多模態(tài)輸入并同時生成音頻和視頻。

值得一提的是,模型通過原生學(xué)習(xí)大量真實世界視頻數(shù)據(jù),來確保真實世界的內(nèi)在物理定律和動態(tài)的真實性。因此,Omni 模型的功能,似乎不僅限于生成引擎,更具備構(gòu)建世界模型的潛力。

世界的連續(xù)演化:

自回歸流式生成機制

構(gòu)建「世界模型」的挑戰(zhàn)之一,在于如何從生成分段的「切片」,跨越到模擬連續(xù)的「過程」。在這一維度上,PixVerse R1 重點解決的是長視頻生成中普遍存在的「長時序一致性」難題,以及伴隨而來的顯存成本瓶頸。

在傳統(tǒng)的視頻生成流程中,模型通常受限于固定時長的生成窗口。當(dāng)試圖延長視頻長度時,往往面臨「時間誤差累積」的問題:隨著生成幀數(shù)的增加,微小的預(yù)測偏差會不斷疊加,導(dǎo)致畫面內(nèi)容逐漸偏離初始設(shè)定,例如角色的外貌特征發(fā)生漂移,或物理環(huán)境邏輯出現(xiàn)崩壞。

此外,為了維持上下文的一致性,傳統(tǒng)架構(gòu)需要保存海量的歷史狀態(tài),導(dǎo)致顯存消耗呈指數(shù)級上升,使得長視頻生成在計算成本上變得不可控。尤其是在 PixVerse R1 追求的「無限內(nèi)容」的生成模式下,以上問題如果沒有妥善處理,會出現(xiàn)嚴重的問題。

針對上述痛點,PixVerse R1 摒棄了傳統(tǒng)的全局預(yù)測模式,構(gòu)建了自回歸流式生成機制。

無限流式生成

在生成范式上,R1 采用了自回歸建模。系統(tǒng)將視頻合成任務(wù)重構(gòu)為逐幀預(yù)測的流式過程,而非一次性生成固定片段。

這種架構(gòu)從根本上解除了時長的硬性約束,實現(xiàn)了理論上的「無限流式生成」。視頻不再是受限的幀組合,而成為可以根據(jù)即時輸入,無限向前延展的時間流。

時間一致性

為了在無限延展中保持邏輯自洽,傳統(tǒng)方法下基于幀上下文的特征記憶,大多有著數(shù)十秒的時間限制,顯然是不夠用的。

為此,R1 引入了記憶增強注意力模塊。該模塊能夠顯式地提取并鎖定視頻中的關(guān)鍵特征(如角色的身份特征、場景的空間布局等),將其轉(zhuǎn)化為緊湊的記憶單元。

在生成后續(xù)內(nèi)容時,模型無需回頭重算所有歷史數(shù)據(jù)的全量注意力,而是直接調(diào)用「記憶」。這一設(shè)計在維持長程依賴的同時,極大地優(yōu)化了計算效率,避免了顯存資源的爆炸式增長。



集成自回歸建模與全能基礎(chǔ)模型。

從技術(shù)邏輯上看,這一機制賦予了 AI 模型「長期記憶」的能力,打破了傳統(tǒng)幀間上下文的限制,確保了 PixVerse R1 生成的內(nèi)容不再是孤立、破碎的視覺片段,而是一個具備持續(xù)演化能力的「平行時空」。

無論生成時長如何延伸,核心主體的統(tǒng)一性與環(huán)境邏輯的連貫性始終保持穩(wěn)定,這種物理與邏輯的持久性,正是「通用實時世界模型」成立的關(guān)鍵基石。

結(jié)語:

正在發(fā)生的現(xiàn)在

正如愛詩科技 CEO 王長虎所言:傳統(tǒng)視頻是被記錄的歷史,而 PixVerse R1 開創(chuàng)了「正在發(fā)生的現(xiàn)在」。

PixVerse R1 開啟的是 AI 原生游戲、互動電影、實時仿真等全新媒介形態(tài)的大門,是未來「可交互的數(shù)字世界」的計算基礎(chǔ)設(shè)施。

視頻內(nèi)容的消費邊界正在消融。

媒體形態(tài)將不再局限于預(yù)先渲染的固定畫面,而是轉(zhuǎn)向由用戶意圖驅(qū)動的即時生成流。

PixVerse R1 以「通用實時世界模型」的形態(tài),為這一未來提供了可落地的技術(shù)樣本,也讓視聽媒介真正從「回放過去」邁向了「未來創(chuàng)作」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央財經(jīng)大學(xué)劉姝威:福耀科技大學(xué)大一學(xué)生已經(jīng)被企業(yè)搶光

中央財經(jīng)大學(xué)劉姝威:福耀科技大學(xué)大一學(xué)生已經(jīng)被企業(yè)搶光

新浪財經(jīng)
2026-01-15 11:50:45
伊朗開展突擊行動 查獲大量武器彈藥

伊朗開展突擊行動 查獲大量武器彈藥

財聯(lián)社
2026-01-13 18:41:42
與輝同行83元3只皖西麻黃雞引質(zhì)疑,產(chǎn)品已下架!行業(yè)協(xié)會:單只養(yǎng)殖成本就超150元 ,未找到供貨記錄

與輝同行83元3只皖西麻黃雞引質(zhì)疑,產(chǎn)品已下架!行業(yè)協(xié)會:單只養(yǎng)殖成本就超150元 ,未找到供貨記錄

每日經(jīng)濟新聞
2026-01-14 22:31:44
章小蕙首次曝與子女不和內(nèi)幕!探視權(quán)被鐘鎮(zhèn)濤剝奪,更多細節(jié)曝光

章小蕙首次曝與子女不和內(nèi)幕!探視權(quán)被鐘鎮(zhèn)濤剝奪,更多細節(jié)曝光

小徐講八卦
2026-01-14 08:10:40
1936 年被俘國民黨中將走完長征,到延安后偉人揮手讓他回去

1936 年被俘國民黨中將走完長征,到延安后偉人揮手讓他回去

嘮叨說歷史
2026-01-12 14:59:24
德國將向丹麥格陵蘭島派兵

德國將向丹麥格陵蘭島派兵

財聯(lián)社
2026-01-15 03:54:05
NBA重磅流言!火箭或全力追逐字母哥,兩大新星恐成交易籌碼

NBA重磅流言!火箭或全力追逐字母哥,兩大新星恐成交易籌碼

夜白侃球
2026-01-14 22:15:42
周瑾現(xiàn)狀:和老公關(guān)系多元化,讓孩子吃外賣,成上海臺頂梁柱

周瑾現(xiàn)狀:和老公關(guān)系多元化,讓孩子吃外賣,成上海臺頂梁柱

趣文說娛
2025-12-05 16:25:27
公開撕裂,美聯(lián)儲將“換帥”,特朗普發(fā)現(xiàn)不妙,中國大幅拋售美債

公開撕裂,美聯(lián)儲將“換帥”,特朗普發(fā)現(xiàn)不妙,中國大幅拋售美債

小濤叨叨
2026-01-15 17:12:55
希臘“黃金簽證”褪色,跨洲買房的中國人遭遇拋售困局:有人25萬歐元買入,2萬歐元賣出

希臘“黃金簽證”褪色,跨洲買房的中國人遭遇拋售困局:有人25萬歐元買入,2萬歐元賣出

紅星新聞
2026-01-14 17:46:42
11國達成稀土共識,美日樂了!高市率先出手,日網(wǎng)友:中國要哭

11國達成稀土共識,美日樂了!高市率先出手,日網(wǎng)友:中國要哭

兵器海陸空視頻
2026-01-14 19:27:59
印度面臨巨額賠償,火箭升空后現(xiàn)場爆發(fā)掌聲,6分鐘后鴉雀無聲

印度面臨巨額賠償,火箭升空后現(xiàn)場爆發(fā)掌聲,6分鐘后鴉雀無聲

近史博覽
2026-01-14 15:15:28
澳網(wǎng)十冠王重返墨爾本,今年能奪冠嗎?

澳網(wǎng)十冠王重返墨爾本,今年能奪冠嗎?

網(wǎng)球之家
2026-01-15 13:03:14
男子家里常年高溫32度,找不到原因絕望搬走,搬走當(dāng)天樓下嚇壞了

男子家里常年高溫32度,找不到原因絕望搬走,搬走當(dāng)天樓下嚇壞了

荔枝人物記
2025-08-25 09:25:07
2026年反腐,這些是重點!

2026年反腐,這些是重點!

極目新聞
2026-01-15 13:19:56
1968年,那個逃到蘇聯(lián)成為克格勃的女知青“傅索安”,結(jié)局如何?

1968年,那個逃到蘇聯(lián)成為克格勃的女知青“傅索安”,結(jié)局如何?

百曉生談歷史
2024-05-19 20:26:52
蘋果宣布為中國大陸用戶拓展Apple Pay跨境支付支持

蘋果宣布為中國大陸用戶拓展Apple Pay跨境支付支持

IT之家
2026-01-15 09:35:43
戴笠為什么非死不可?一次“越界”的操作,提前敲響了自己的喪鐘

戴笠為什么非死不可?一次“越界”的操作,提前敲響了自己的喪鐘

議紀史
2026-01-14 17:55:03
6蓋帽!解說:身價要暴漲了 球迷:可代替周琦參加世預(yù)賽

6蓋帽!解說:身價要暴漲了 球迷:可代替周琦參加世預(yù)賽

體育哲人
2026-01-15 12:13:00
美媒稱中國在本國領(lǐng)土上采取行動并不需要任何國際“先例”,國臺辦:解決臺灣問題是中國人自己的事!

美媒稱中國在本國領(lǐng)土上采取行動并不需要任何國際“先例”,國臺辦:解決臺灣問題是中國人自己的事!

極目新聞
2026-01-14 11:00:05
2026-01-15 19:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12126文章數(shù) 142536關(guān)注度
往期回顧 全部

科技要聞

阿里最狠的一次“自我革命”

頭條要聞

男子為戒毒植入電極:開機后瘋狂性沖動給母親發(fā)黃圖

頭條要聞

男子為戒毒植入電極:開機后瘋狂性沖動給母親發(fā)黃圖

體育要聞

聶衛(wèi)平:黑白棋盤上的凡人棋圣

娛樂要聞

傳奇棋圣聶衛(wèi)平離世,網(wǎng)友集體悼念

財經(jīng)要聞

央行再次結(jié)構(gòu)性降息0.25個百分點

汽車要聞

吉利帝豪/繽越推冠軍一口價 起售價4.88萬

態(tài)度原創(chuàng)

時尚
旅游
本地
教育
數(shù)碼

金工守藝人陳英澤:一錘定音,鍛出山川意向

旅游要聞

從電子簽到免簽:菲律賓對中國旅游市場“急轉(zhuǎn)彎”,意欲何為?

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會“混搭”

教育要聞

為什么要對孩子客客氣氣說話

數(shù)碼要聞

巴法絡(luò)BUFFALO公布無極滾輪鼠標BSMBB700,約980天長續(xù)航

無障礙瀏覽 進入關(guān)懷版