国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手正悄悄地把可靈做成一個(gè)世界模型

0
分享至


作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com

12月1日,可靈正式發(fā)布了新模型——可靈 O1,并連續(xù)發(fā)布了可圖 O1、音畫同出模型可靈2.6、可靈數(shù)字人2.0、可靈O1主體庫(kù)&對(duì)比模版共五個(gè)更新。

最核心的是兩個(gè)O系列的生成模型,與 GPT的o系列一樣,“O”代表著 Omni(all,一切),意味著模型不再局限于單一模態(tài)的輸入。

正因如此,O1也被視為視頻生成界的 “Nano Banana” 。它們的相似點(diǎn)在于,都是多模態(tài)整合,都具有強(qiáng)可控性多輪編輯能力。

看起來(lái)很酷,但可靈的目標(biāo)并不止于“又一個(gè)視頻模型”。

如果梳理近一年可靈的各種動(dòng)作,你就會(huì)發(fā)現(xiàn),O系列或許只是一個(gè)序幕,接下來(lái),可靈的方向是要做出自己的世界模型。

1

“Video World Model是未來(lái)!”

事實(shí)上,可靈想做世界模型的這份野心,從來(lái)沒(méi)有隱藏過(guò)。

第一個(gè)火爆的視頻生成模型Sora,在發(fā)布之初就宣稱自己是“世界模擬器”。22個(gè)月過(guò)去,越來(lái)越多的視頻生成模型都在宣傳或研究上,或多或少地朝“世界模型”靠近,可靈也不例外。

各種論文在提供著清晰線索。

早在2024年12月,Sora公開(kāi)上線的同月,快手就發(fā)布過(guò)一篇名為《Owl-1: Omni World Model for Consistent Long Video Generation》的論文,提出了Omni World Model(Owl-1),用于產(chǎn)生長(zhǎng)期連貫且全面的條件,實(shí)現(xiàn)持續(xù)的長(zhǎng)視頻生成,預(yù)測(cè)未來(lái)動(dòng)態(tài)[1]。

從論文來(lái)看,這是他們長(zhǎng)達(dá)一年的技術(shù)演進(jìn)的梳理。進(jìn)入2025年,快手的可靈團(tuán)隊(duì)就開(kāi)始逐漸密集地發(fā)布世界模型相關(guān)研究。


在其中,你甚至可以找到各種當(dāng)下火爆的路線方向。

2025年8月Google 發(fā)了實(shí)時(shí)交互的Genie3,快手則對(duì)它對(duì)應(yīng)的這種生成式交互視頻在游戲領(lǐng)域的應(yīng)用做了研究,論文獲得了ICCV 2025 Highlight。


2025年11月李飛飛正式發(fā)布的3D “世界模型”,快手也有一個(gè)對(duì)應(yīng)的模型Terra。


這些名氣很大的關(guān)鍵節(jié)點(diǎn),快手的策略是緊跟不缺席。

不過(guò),隨著“世界模型”的概念被炒熱,這也存在一個(gè)爭(zhēng)議點(diǎn)——視頻生成模型,到底是不是世界模型?圖靈獎(jiǎng)得主 Yann LeCun 曾為此潑過(guò)一盆冷水。他認(rèn)為,“視頻生成并不等于世界模型”,單純預(yù)測(cè)下一個(gè)像素點(diǎn),只是對(duì)畫面的模仿,并非對(duì)物理世界的真正理解。

然后快手可靈團(tuán)隊(duì)在2025年11月也發(fā)布了一篇論文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面給出了回應(yīng):視頻生成模型也可以學(xué)習(xí)物理規(guī)律,像素只是模型渲染給人類看的結(jié)果,不代表模型中間沒(méi)有計(jì)算和推理。

這篇論文可以看作是快手自己為“視頻生成模型如何通往世界模型”畫出的路線圖,在文中,快手明確將Kling 1.0歸類于第一代世界模型,Kling2.1 Master歸類于第二代世界模型。

在他們看來(lái),現(xiàn)代視頻模型并非直接預(yù)測(cè)像素,而是存在一個(gè)隱式世界模型作為“大腦”,負(fù)責(zé)在肉眼不可見(jiàn)的高維潛在空間(Latent Space)中進(jìn)行推演,這和LeCun的潛在空間推理同理,它接收當(dāng)前的各種狀態(tài)輸入,基于推理能力和內(nèi)化的物理法則——如重力、流體動(dòng)力學(xué)、物體恒常性——計(jì)算出下一時(shí)刻的世界狀態(tài)[3]。

快手專家研究員王鑫濤也直接在知乎上寫下判斷:“我相信,Video World Model 是未來(lái)”。


1

可靈最近研究都圍繞世界模型展開(kāi)

繼續(xù)沿著《Simulating the Visual World with Artificial Intelligence: A Roadmap》這篇回看,快手那些看似碎片化的研究——從物理準(zhǔn)確性到鏡頭運(yùn)動(dòng)控制——其實(shí)都能被串聯(lián)進(jìn)這條通往“世界模型”之路中。

Roadmap里的一個(gè)核心是,團(tuán)隊(duì)認(rèn)為“視頻生成”走向“世界模型”的一個(gè)關(guān)鍵點(diǎn)是Navigation Mode(導(dǎo)航模式)。


快手認(rèn)為,真正的世界模型不能只靠“空間條件”(如布局、草圖、深度圖)來(lái)描摹畫面、進(jìn)行像素級(jí)或有限的控制;它必須能聽(tīng)懂“導(dǎo)航條件”——即那些脫離了畫面依然成立的、具有時(shí)序的、具有空間推理的交互指令(如“向左轉(zhuǎn)”、“推拉鏡頭”)。


也正是因此,團(tuán)隊(duì)有關(guān)“導(dǎo)航條件”的研究格外多。

鏡頭運(yùn)動(dòng)就是一種導(dǎo)航條件,ICCV 高分論文 RecamMaster,提出了一種由攝像機(jī)控制的生成視頻重渲染框架,能夠在新的攝像機(jī)軌跡下再現(xiàn)輸入視頻的動(dòng)態(tài)場(chǎng)景[4];SynCamMaster 則進(jìn)一步讓模型在同一時(shí)間軸上實(shí)現(xiàn)多攝像機(jī)視頻生成,確保不同視角間的內(nèi)容一致性[5];而 AdaViewPlanner 則讓 AI 變成了攝影指導(dǎo),能自主規(guī)劃最佳觀察路徑[6]。這一系列研究,本質(zhì)上都是在提升模型對(duì)3D、4D空間的動(dòng)態(tài)感知。

這些研究,也反映在了此次的O系列里。

從目前可靈O系列的案例中也能看出,例如,可靈O1針對(duì)一張側(cè)面的車內(nèi)駕駛視頻,生成一張后座視角的車內(nèi)駕駛視頻;可圖O1將一張二維的房間設(shè)計(jì)圖,轉(zhuǎn)化為3維空間的設(shè)計(jì)圖等等。


按照快手Roadmap的定義,我們可以將可靈O1劃分在世界模型第二代到第三代之間。

在快手的定義中, 第二代的主要特征就是交互性,“導(dǎo)航模式”賦予了模型靈活的控制力,使其能遵循預(yù)定義軌跡執(zhí)行長(zhǎng)動(dòng)作序列,而第三代模型則更進(jìn)一步,核心在于“規(guī)劃能力”(Planning)與“實(shí)時(shí)交互”, 進(jìn)一步強(qiáng)化了導(dǎo)航模式,模型不僅能“聽(tīng)指令走路”,還要能基于內(nèi)在的物理知識(shí),自主推演并生成無(wú)限長(zhǎng)的視頻序列。

也就是說(shuō),僅僅會(huì)“運(yùn)鏡”是不夠的,模型還必須懂物理、能思考。因此在導(dǎo)航類論文之外,快手還構(gòu)建了物理、推理方向的研究。

比如,快手推出的Monet訓(xùn)練框架,通過(guò)讓多模態(tài)大語(yǔ)言模型 (MLLMs)直接在連續(xù)的潛在視覺(jué)空間中進(jìn)行推理,增強(qiáng)視覺(jué)推理能力[7];

還有PhysMaster,作為一種模型外掛,通過(guò)注入物理知識(shí)來(lái)增強(qiáng)視頻生成模型的物理感知能力,使其能夠生成更符合物理規(guī)律的視頻。[8]。

隨著研究碎片們不斷補(bǔ)齊,O系列,會(huì)是可靈打開(kāi)新“世界”的大門嗎?

1

在“賺錢工具”與“世界模擬器”的夾縫中

如果快手想要繼續(xù)向世界模型前進(jìn),實(shí)時(shí)性就是一個(gè)關(guān)鍵的卡點(diǎn)。

盡管 O1 模型在空間邏輯、指令遵循上有進(jìn)步,但生成一段 5 秒的視頻目前仍需耗時(shí)約 2 分鐘。這種“高延遲”并非 O1 獨(dú)有的問(wèn)題,回看從可靈 1.0 到可靈 2.1 Master 的整個(gè)迭代軌跡,團(tuán)隊(duì)顯然采取了一種“畫質(zhì)優(yōu)先,速度讓位”的策略。


但對(duì)于一個(gè)旨在模擬世界的系統(tǒng)而言,如果無(wú)法做到實(shí)時(shí)響應(yīng),那么它更像是一個(gè)精美的“離線渲染器”,而非真正意義上可交互的“世界模型”。如何在保持高保真畫質(zhì)的同時(shí),將分鐘級(jí)的生成時(shí)間壓縮至秒級(jí)、毫秒級(jí),是一個(gè)難題。

不過(guò),在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的論文中,團(tuán)隊(duì)也埋下了一個(gè)伏筆:隨著“上下文壓縮”技術(shù)的改進(jìn),視頻生成時(shí)間有望降低。

這一切也形成了一個(gè)非常有意思的“錯(cuò)位”:當(dāng)年第一個(gè)喊出“世界模擬器”口號(hào)的 Sora,如今反而越來(lái)越像個(gè)產(chǎn)品經(jīng)理,忙著搞 AI 視頻版的 TikTok,開(kāi)發(fā) Cameo這種娛樂(lè)玩法,一門心思往應(yīng)用層鉆,而快手盡管攢了一系列的研究,但偏偏對(duì)外的產(chǎn)品公布里,就不提世界模型。

“技術(shù)向左,產(chǎn)品向右”的矛盾背后,是商業(yè)盤算。

在11月19日的Q3財(cái)報(bào)會(huì)上,程一笑提到,視頻模型與大語(yǔ)言模型本質(zhì)上均朝著世界模型方向演進(jìn),且視頻模型有望成為世界模型的核心技術(shù)支撐,但可靈現(xiàn)階段仍將“AI影視創(chuàng)作場(chǎng)景”作為核心目標(biāo)。

某種程度上,可靈的產(chǎn)品和模型是分離的。模型在水下,可靈平臺(tái)作為一個(gè)產(chǎn)品才是對(duì)外輸出的核心。據(jù)快手Q1的財(cái)報(bào)會(huì)披露,可靈AI營(yíng)業(yè)收入主要由P端付費(fèi)用戶(指專業(yè)的自媒體、視頻創(chuàng)作者和廣告營(yíng)銷從業(yè)者等)以及為企業(yè)客戶提供API服務(wù)構(gòu)成,而其中近70%由P端付費(fèi)用戶貢獻(xiàn)。

這群“金主”不在乎你是不是“世界模擬器”,也沒(méi)那么在乎實(shí)時(shí)性,他們只在乎能不能穩(wěn)定出片、能不能賺錢。因此可靈外宣稱自己是世界模型,似乎除了被挑剔,也沒(méi)有額外的增益。

但情況遲早要轉(zhuǎn)變。

單純作為“影視創(chuàng)作工具”的商業(yè)天花板是肉眼可見(jiàn)的,根據(jù)此前和11月19日披露的Q3數(shù)據(jù),可靈AI今年第一季度、第二季度、第三季度的收入分別超過(guò)1.5億元、2.5億元、3億元,全年預(yù)計(jì)收入1.4億美元,但增速逐漸放緩。

無(wú)論是谷歌 Veo3 被用于機(jī)器人領(lǐng)域,還是特斯拉利用生成式視頻訓(xùn)練自動(dòng)駕駛,亦或是游戲行業(yè)對(duì)AI引擎的渴求,具身智能、自動(dòng)駕駛、游戲引擎等領(lǐng)域,才是視頻生成模型真正的星辰大海,對(duì)模型的物理一致性和實(shí)時(shí)交互能力也提出了極高的要求。

所以,哪怕對(duì)于視頻生成模型來(lái)說(shuō),想要不再只是一個(gè)昂貴的玩具或是一個(gè)輔助的創(chuàng)作工具,做成“世界模型”是一件生死攸關(guān)的大事。因?yàn)橹挥心M真實(shí),才能挖動(dòng)和物理世界交互的金礦。

在今天的O系列之后,看起來(lái)我們可以期待快手接下來(lái)的“W”模型了。

參考資料:

[1]Owl-1: Omni World Model for Consistent Long Video Generation

[2]A Survey of Interactive Generative Video

[3]Simulating the Visual World with Artificial Intelligence: A Roadmap

[4]ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[5]SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[6]AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[7]Monet: Reasoning in Latent Visual Space Beyond Images and Language

[8]PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning


點(diǎn)個(gè)愛(ài)心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
委內(nèi)瑞拉:舉國(guó)哀悼七日

委內(nèi)瑞拉:舉國(guó)哀悼七日

參考消息
2026-01-07 11:49:08
鬧大了!日媒:電車滲透率已超50%,中國(guó)汽車是不是應(yīng)該反思??

鬧大了!日媒:電車滲透率已超50%,中國(guó)汽車是不是應(yīng)該反思??

阿纂看事
2026-01-05 16:05:20
吳營(yíng)村慌了!吳承言宣布全國(guó)巡畫后連夜修路,終于把收割機(jī)挪走了

吳營(yíng)村慌了!吳承言宣布全國(guó)巡畫后連夜修路,終于把收割機(jī)挪走了

妙知
2026-01-06 19:17:24
我弟弟在杭州做心臟手術(shù),婆家7口人一天內(nèi)竟給我打了20個(gè)電話

我弟弟在杭州做心臟手術(shù),婆家7口人一天內(nèi)竟給我打了20個(gè)電話

小秋情感說(shuō)
2026-01-06 14:38:12
中國(guó)“人造太陽(yáng)”再出利好,可控核聚變上漲,10家核心受益企業(yè)

中國(guó)“人造太陽(yáng)”再出利好,可控核聚變上漲,10家核心受益企業(yè)

元爸體育
2026-01-05 14:45:42
256GB內(nèi)存條單價(jià)超4萬(wàn)!業(yè)內(nèi)人士:1盒堪比上海1套房

256GB內(nèi)存條單價(jià)超4萬(wàn)!業(yè)內(nèi)人士:1盒堪比上海1套房

手機(jī)中國(guó)
2026-01-07 09:47:06
懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

小陸搞笑日常
2026-01-07 10:11:27
盧卡申科說(shuō)了實(shí)話:俄羅斯有可能“背棄”中國(guó),但絕不會(huì)是現(xiàn)在

盧卡申科說(shuō)了實(shí)話:俄羅斯有可能“背棄”中國(guó),但絕不會(huì)是現(xiàn)在

比利
2026-01-06 19:56:44
網(wǎng)曝星二代李嫣戀愛(ài)了!和高大男生現(xiàn)身機(jī)場(chǎng), 側(cè)臉看著顏值很帥

網(wǎng)曝星二代李嫣戀愛(ài)了!和高大男生現(xiàn)身機(jī)場(chǎng), 側(cè)臉看著顏值很帥

小徐講八卦
2026-01-06 08:20:50
果然不出所料,委代總統(tǒng)通告全球,邀美國(guó)共治,我們都被“?!绷?>
    </a>
        <h3>
      <a href=叮當(dāng)當(dāng)科技
2026-01-06 20:25:44
美國(guó)千億投資打水漂后,郭臺(tái)銘想通了!帶46臺(tái)光刻機(jī)回國(guó)求賞飯

美國(guó)千億投資打水漂后,郭臺(tái)銘想通了!帶46臺(tái)光刻機(jī)回國(guó)求賞飯

奉壹數(shù)碼
2026-01-05 14:06:20
傅作義原本擬授上將,毛主席沒(méi)點(diǎn)頭,最終周總理親自找傅說(shuō)明原因

傅作義原本擬授上將,毛主席沒(méi)點(diǎn)頭,最終周總理親自找傅說(shuō)明原因

歷史龍?jiān)w
2026-01-05 08:55:07
演員關(guān)凌發(fā)文稱自己用針挑開(kāi)兒子臉上的“痘”,導(dǎo)致兒子做手術(shù)縫了4針:臉上長(zhǎng)東西千萬(wàn)不要用手?jǐn)D

演員關(guān)凌發(fā)文稱自己用針挑開(kāi)兒子臉上的“痘”,導(dǎo)致兒子做手術(shù)縫了4針:臉上長(zhǎng)東西千萬(wàn)不要用手?jǐn)D

觀威海
2026-01-06 14:42:11
我那兄弟娶了個(gè)洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

我那兄弟娶了個(gè)洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

前沿天地
2025-12-29 11:22:33
月月315|小米硬盤買到手用了幾小時(shí),旅行博主45G拍攝素材丟失;小米:產(chǎn)品可換新,數(shù)據(jù)沒(méi)辦法

月月315|小米硬盤買到手用了幾小時(shí),旅行博主45G拍攝素材丟失;小米:產(chǎn)品可換新,數(shù)據(jù)沒(méi)辦法

大風(fēng)新聞
2026-01-05 11:57:26
2026第一天,支付寶把百萬(wàn)富翁惹毛了

2026第一天,支付寶把百萬(wàn)富翁惹毛了

科技每日推送
2026-01-05 17:01:28
“這是入侵!”美議員轉(zhuǎn)頭碰瓷:把中國(guó)教會(huì)了咋整?

“這是入侵!”美議員轉(zhuǎn)頭碰瓷:把中國(guó)教會(huì)了咋整?

觀察者網(wǎng)
2026-01-07 10:53:08
要給嗎?記者:國(guó)王對(duì)埃利斯要價(jià)一首輪,湖人有意但只有31年首輪

要給嗎?記者:國(guó)王對(duì)埃利斯要價(jià)一首輪,湖人有意但只有31年首輪

懂球帝
2026-01-07 11:44:04
41歲呂一疑似婚變,北京家中重裝丈夫生活痕跡消失

41歲呂一疑似婚變,北京家中重裝丈夫生活痕跡消失

全球風(fēng)情大揭秘
2026-01-06 18:38:29
馬杜羅首次出庭,沒(méi)有提出保釋申請(qǐng),卻提了個(gè)讓人意想不到的請(qǐng)求

馬杜羅首次出庭,沒(méi)有提出保釋申請(qǐng),卻提了個(gè)讓人意想不到的請(qǐng)求

今日美食分享
2026-01-06 16:16:14
2026-01-07 12:28:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2773文章數(shù) 10425關(guān)注度
往期回顧 全部

科技要聞

馬斯克殺瘋了!xAI官宣200億美元融資

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

茅臺(tái)為何要和分銷商徹底說(shuō)拜拜?

汽車要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

游戲
健康
教育
數(shù)碼
手機(jī)

曾因暴力引爭(zhēng)議!賽車爽游新作上架PS5商店

這些新療法,讓化療不再那么痛苦

教育要聞

果脯咋讀?噘嘴還是撅嘴?《咬文嚼字》發(fā)布“2025年十大語(yǔ)文差錯(cuò)”;快來(lái)看看,這些你都讀寫正確了嗎? #咬文嚼字 #語(yǔ)文 #讀音 #錯(cuò)別字

數(shù)碼要聞

華碩推出AMD平臺(tái)MoDT游戲整機(jī)TUF TM500,至高銳龍7 260

手機(jī)要聞

小米近300萬(wàn),vivo破百萬(wàn),OPPO與榮耀加油

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版