国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么「從 1 數(shù)到 10」這件事,所有視頻模型都不會?

0
分享至


AI 已經(jīng)學(xué)會了電影的視覺語法,但還沒學(xué)會世界的物理語法。


作者|湯一濤

編輯|靖宇

Seedance 2.0 有多猛,過去一個月大家已經(jīng)見識過了。好萊塢已經(jīng)集體下場發(fā)了聲明,西半球最強法務(wù)部迪士尼也給字節(jié)跳動發(fā)了律師函。

但如果你讓它做一件事:生成一個男人從 1 數(shù)到 10 的視頻,它就露餡了。

能分清這是瑞安·雷諾茲還是本·斯蒂勒嗎?好萊塢的抵制是有道理的|視頻來源:@fofrai

生成出來的「人」五官端正、皮膚質(zhì)感逼真,廚房背景細節(jié)豐富得像是實拍。他說出「one」的時候還一切正常,然后就開始鬼打墻,嘴里不斷重復(fù)「t、t、t」這個音節(jié)(不是從 1 到 10 中任何一個數(shù)字的發(fā)音);或者伸出三根手指,口中卻自信地說出「ten」。從頭到尾,他豎起的手指沒超過三根。

因為背景和人物都太真實了,所以手指崩壞的瞬間反而制造出了一種強烈的「偽人感」。

這道題不只是 Seedance 2.0 的噩夢。

視頻來自一位在 X 網(wǎng)友 fofr(簡介顯示是在 DeepMind 的開發(fā)者)。去年他就發(fā)現(xiàn),「從 1 數(shù)到 10 并用手指比出數(shù)字」這個對三歲小孩都毫無難度的任務(wù),是當(dāng)前所有 AI 視頻模型的共同死穴。

Seedance 2.0 發(fā)布后,他第一時間把這道老題扔了過去,果然也翻車了。

網(wǎng)友在這條推文下面掀起了一場自發(fā)的「AI 數(shù)數(shù)挑戰(zhàn)賽」。他們把同一道題喂給了 Sora、Veo、Kling 等幾乎所有主流模型,結(jié)果全軍覆沒,沒有一個能正確地從 1 數(shù)到 10。

Veo 也沒法從 1 數(shù)到 10|視頻來源:@AGI_FromWalmart

當(dāng)一個行業(yè)最強的產(chǎn)品們被一道幼兒園級別的題目集體難倒,這其實指向了一個問題:為什么這些模型已經(jīng)能騙過你的眼睛,卻無法理解常識?

它們到底「理解」了什么,又缺失了什么?

01

統(tǒng)計預(yù)測 vs 理解世界:

AI 視頻的能力邊界


「數(shù)不到 10」不是一個孤立的 bug,它揭示了一整片當(dāng)前 AI 的能力盲區(qū)。

原因也不復(fù)雜:所有的視頻模型本質(zhì)上做的是同一件事,從海量視頻數(shù)據(jù)中學(xué)習(xí)統(tǒng)計規(guī)律,然后在生成每一幀畫面時預(yù)測「接下來什么樣的像素排列最可能出現(xiàn)」。這和大語言模型的「預(yù)測下一個詞」(Next-Token Prediction)是同一套邏輯。

所以它們能把人臉毛孔、廚房光影、衣服褶皺渲染得以假亂真,因為訓(xùn)練數(shù)據(jù)里有海量樣本,統(tǒng)計規(guī)律足夠豐富。但一旦任務(wù)超出了樣本的范疇,進入「常識」的領(lǐng)域,問題就來了。

這些問題大致可以分成三類。

首先就是手部精細動作,這是最廣為人知的「AI 照妖鏡」。從圖像生成時代的「六指人」,到視頻生成時代的「軟糖手指」,手一直是 AI 的噩夢。


Midjourney 和 DALL-E 爆火的 2022 年,「手部多指」是當(dāng)時文生圖最明顯的 Bug|圖片來源:Medium

公平地說,AI 在「畫手」這件事上已經(jīng)取得了巨大進步。日常場景里,六指人和軟糖手已經(jīng)越來越少見了。

但 fofr 的測試之所以能讓所有模型集體翻車,是因為它只是一個視覺渲染問題,同時還暗含了一個邏輯推理問題。它要求在 10 秒內(nèi)連續(xù)變換 10 個不同手勢,每個手勢的手指數(shù)量嚴(yán)格遞增,同時嘴里說的數(shù)字還要對得上。

人的手有 27 塊骨骼、34 塊肌肉、超過 100 條韌帶,單個手掌就有 18 個自由度。即便采用高分辨率擴散模型,若缺乏明確的三維先驗知識,也難以表達這種精確度。


人體運動維度示意圖|圖片來源:ScienceDirect

況且,在訓(xùn)練數(shù)據(jù)中,手通常出現(xiàn)在畫面邊緣、被物體遮擋或處于運動模糊中。模型能學(xué)到的高質(zhì)量手部樣本遠少于面部。

第二類 AI 的能力盲區(qū)是物理規(guī)律。流體怎么流、物體怎么碰撞、織物怎么飄……這些人類靠直覺就能判斷的東西,AI 視頻經(jīng)常給出違反物理定律的答案。OpenAI 在發(fā)布 Sora 時的官方技術(shù)報告中就明確承認(rèn):Sora 無法準(zhǔn)確模擬許多基本物理交互,比如玻璃破碎,也無法正確反映某些物體狀態(tài)變化。

第三類是時序邏輯的一致性。視頻不是一組彼此獨立的圖片,而是一條有因果關(guān)系的時間鏈:第 3 秒的畫面必須建立在第 2 秒的基礎(chǔ)上。但當(dāng)前的擴散模型把時間當(dāng)作一個潛在的數(shù)學(xué)維度來處理。它在生成第 N 幀時,沒有內(nèi)部機制去「記住」前面伸了幾根手指、下一步該加 1。時間一長,前后就對不上了。

作個類比的話,當(dāng)前的 AI 視頻模型像一個從沒見過真手的畫家,看了一百萬張手的照片之后憑印象畫手。大部分時候畫得挺像,但他不知道手指只有五根,不知道伸出三根手指代表數(shù)字 3,更不知道從 3 到 4 意味著要再伸出一根

02

另一條路:世界模型


既然問題的根源是「不理解物理世界」,那有沒有人在試圖從根本上解決這個問題?

事實上,這正在成為 AI 領(lǐng)域最受關(guān)注的新方向之一。一個正在凝聚共識的思路是:與其讓模型從海量視頻中學(xué)習(xí)「世界看起來是什么樣的」,不如讓它先理解「世界是怎么運作的」。

這條路徑有一個共同的名字,叫做世界模型(world model)。世界模型的核心思路是讓 AI 建立對三維物理世界的結(jié)構(gòu)性理解,包括空間的幾何關(guān)系、物體的物理屬性、運動的動力學(xué)規(guī)律等。

這就和當(dāng)前視頻生成模型的路徑產(chǎn)生了本質(zhì)區(qū)別。當(dāng)前模型在二維平面上預(yù)測像素排列的統(tǒng)計概率,世界模型則試圖讓 AI 在「懂」物理規(guī)律的基礎(chǔ)上做生成。

這個方向最知名的創(chuàng)業(yè)者是李飛飛。這位 ImageNet 的締造者在 2024 年創(chuàng)辦了 World Labs,核心目標(biāo)是讓 AI 擁有「空間智能」。她在去年的一篇長文中寫道:

「語言是人類認(rèn)知的產(chǎn)物,但世界遵循更復(fù)雜的規(guī)則——重力控制運動,原子結(jié)構(gòu)決定光線如何產(chǎn)生顏色,無數(shù)物理定律約束著每一次交互。要讓 AI 真正理解這一切,需要一種全新的、遠超大語言模型的架構(gòu)」。

今年 2 月,World Labs 完成了 10 億美元融資,其首個產(chǎn)品 Marble 已經(jīng)上線,可以從圖像或文本生成持久的 3D 環(huán)境。


Marble 可以從一張圖片或一段文字生成一個你能在里面自由走動、持續(xù)編輯的 3D 世界|圖片來源:World Labs

李飛飛不是唯一的入局者。楊樂昆從 Meta 離職后創(chuàng)辦了 AMI Labs,同樣聚焦世界模型方向;Google DeepMind 的 Genie 系列模型也在探索 3D 環(huán)境的生成與模擬;Nvidia 則推出了 Cosmos,定位為「世界基礎(chǔ)模型」,試圖將視頻生成、物理感知模擬和機器人工作流統(tǒng)一到一個框架里。

當(dāng)這個領(lǐng)域最頂級的幾位研究者和最有錢的幾家公司同時往一個方向走,這本身就說明了一些問題。純數(shù)據(jù)驅(qū)動路徑的天花板,正在成為越來越多人的共識,只是解法還在探索中。

Seedance 2.0 剛出來的時候確實引起了一大波恐慌?!端朗獭肪巹?Rhett Reese 看完演示后甚至寫下了「我不想承認(rèn),但我們可能完了」。

這種反應(yīng)可以理解,Seedance 2.0 確實很強,但「數(shù)不到 10」提供了一個有用的校準(zhǔn)視角:這些模型學(xué)會了電影的視覺語法,但還沒學(xué)會世界的物理語法。它們的進步,更多是「看起來更真」,而不是「更懂現(xiàn)實」。

從本質(zhì)上說,一個不知道手指只有五根的系統(tǒng),距離真正取代人類創(chuàng)作者,中間還隔著一次范式級別的跨越。

人類可以稍稍松口氣了,至少在 AI 學(xué)會數(shù)到 10 之前。

*頭圖來源:Nano Banana

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

馬年春節(jié)最火的可能不是年味,而是 AI「小龍蝦」OpenClaw!

這個存活在人們 IM(即時通訊)工具里的 AI Agent,第一次將 Agent 的流行,描繪得如此傳神,「人手一蝦」已成極客標(biāo)配。

別人都養(yǎng)好幾只「龍蝦」了,你卻還沒上手?

下周一晚 20:00,極客公園視頻號直播間,我們特邀 MiniMax Agent 產(chǎn)品負責(zé)人梁麗,手把手教你如何一鍵「云養(yǎng)」。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
能勸一個是一個,夏天多穿這種T恤出門

能勸一個是一個,夏天多穿這種T恤出門

英國報姐
2026-04-16 21:15:54
網(wǎng)友:林志穎祖宗18代都要感謝陳若儀,他生了一個高大版的自己

網(wǎng)友:林志穎祖宗18代都要感謝陳若儀,他生了一個高大版的自己

真的八卦小學(xué)弟
2026-04-17 13:00:19
血管要有事,眼睛先報警,出現(xiàn)幾種信號,再拖就是腦梗、失明了

血管要有事,眼睛先報警,出現(xiàn)幾種信號,再拖就是腦梗、失明了

芹姐說生活
2026-04-17 14:28:16
新買凱迪拉克“爬滿白斑”?相關(guān)部門介入調(diào)查,滬上4S店又被質(zhì)疑“簽名造假”

新買凱迪拉克“爬滿白斑”?相關(guān)部門介入調(diào)查,滬上4S店又被質(zhì)疑“簽名造假”

山西經(jīng)濟日報
2026-04-17 10:16:30
CBA排名再變,11隊晉級,新疆提前離場,寧波突破歷史,3懸念保留

CBA排名再變,11隊晉級,新疆提前離場,寧波突破歷史,3懸念保留

漫川舟船
2026-04-17 14:02:09
伊朗突然妥協(xié),450公斤濃縮鈾拱手相讓,從此進入無核時代

伊朗突然妥協(xié),450公斤濃縮鈾拱手相讓,從此進入無核時代

揚子的故事屋
2026-04-17 09:24:08
羅榮桓因支持毛主席被撤了職,主席:我倒霉的時候,羅榮桓也倒霉

羅榮桓因支持毛主席被撤了職,主席:我倒霉的時候,羅榮桓也倒霉

阿器談史
2026-04-17 14:02:04
快船出局1天后!裁判報告獲利,多名專家被打臉,美媒仍力挺小卡

快船出局1天后!裁判報告獲利,多名專家被打臉,美媒仍力挺小卡

冷桂零落
2026-04-17 09:50:56
才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

小影的娛樂
2026-04-17 04:47:49
三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

瓦倫西亞月亮
2026-04-16 18:51:44
華為回歸,小米“撤退”

華為回歸,小米“撤退”

鈦媒體APP
2026-04-16 19:17:33
7-1血洗+9連勝破紀(jì)錄!維拉封神背后,倒映出意甲落寞致命真相!

7-1血洗+9連勝破紀(jì)錄!維拉封神背后,倒映出意甲落寞致命真相!

落夜足球
2026-04-17 14:13:25
主力資金監(jiān)控:勝宏科技凈買入超16億

主力資金監(jiān)控:勝宏科技凈買入超16億

財聯(lián)社
2026-04-17 11:06:05
河南男子在美國擺攤賣磨刀器等國產(chǎn)小商品,月入10000美元:單件成本人民幣1元,賣價5美元

河南男子在美國擺攤賣磨刀器等國產(chǎn)小商品,月入10000美元:單件成本人民幣1元,賣價5美元

大象新聞
2026-04-17 12:49:01
中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

Thurman在昆明
2026-04-15 19:05:34
2026醫(yī)改大動作:取消24小時值班,終于對醫(yī)患雙方都負責(zé)了

2026醫(yī)改大動作:取消24小時值班,終于對醫(yī)患雙方都負責(zé)了

貓叔東山再起
2026-04-16 10:25:09
中足聯(lián)開出罰單!丁海峰停賽1場罰款1萬,飛踹對手背部染紅

中足聯(lián)開出罰單!丁海峰停賽1場罰款1萬,飛踹對手背部染紅

奧拜爾
2026-04-16 23:10:47
500萬大獎扣稅又捐款縮水至300萬,拒絕捐款到底行不行?

500萬大獎扣稅又捐款縮水至300萬,拒絕捐款到底行不行?

復(fù)轉(zhuǎn)這些年
2026-04-14 12:03:49
62勝+首季后賽!文班亞馬打爆開拓者證超巨?

62勝+首季后賽!文班亞馬打爆開拓者證超巨?

茅塞盾開本尊
2026-04-17 14:31:01
去了趟海參崴,我的三觀被按在地上摩擦,除了美女多,一無是處!

去了趟海參崴,我的三觀被按在地上摩擦,除了美女多,一無是處!

天下霸奇
2026-04-16 08:08:32
2026-04-17 15:03:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11958文章數(shù) 78872關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

旅游
房產(chǎn)
本地
親子
軍事航空

旅游要聞

湘江文脈遇浦江春潮!長沙赴滬發(fā)出文旅邀約,要做入境游“第二站”

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會,擠爆了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

親子要聞

a2中文標(biāo)簽?zāi)谭鄞竺娣e缺貨,發(fā)生了什么?

軍事要聞

美宣布黎以?;?0天 以方稱不會撤軍

無障礙瀏覽 進入關(guān)懷版