国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻深夜開源比肩Genie 3的世界模型,我也看到了具身智能的未來。

0
分享至

AI圈最近是卷瘋了嗎,模型跟不要錢一樣kuku的往外發(fā)。

今天凌晨的時候。

螞蟻在毫無預兆的情況下,他們旗下的具身智能公司,靈波科技,開源了一個非常非常離譜的世界模型。

LingBot-World。


我其實本身是真的沒有當回事的,就是因為我對世界模型還比較關(guān)注,就隨手點進去看了眼。

結(jié)果,我真的有點停不下來了,我在這個頁面里,花了半個小時的時候,幾乎看完了所有的案例。

我是真的覺得有點離譜,幾乎可以對標Google Genie 3的質(zhì)量,而且,開源。

我直接放個case。

一個1分鐘的,第一人稱探索的視角。

我不知道你們是什么感覺,如果玩游戲很多的朋友,可能會說,這有啥稀奇的,不就是一個普通的游戲里面的那種廢棄小鎮(zhèn)場景嗎,不就是第一人稱在里面探索嗎。

對,但是如果你知道,這一切的源頭,這個世界里面所有的一切,都是根據(jù)你的方向鍵,用視頻動態(tài)生成的。

我相信你一定會有不一樣的感覺。

這是一個完完全全的,一邊探索一邊生成的世界。

這個視頻里面的一切,都是實時交互的,實時按鍵實時運動的。

言出法隨,指哪打哪。

我凌晨1點多,第一次看到這個demo,同時意識到,這是一個世界模型的時候,我其實是起了一些雞皮疙瘩的。

還有這個,實時生成的巨物壓迫感,真的非常的真實了。

最離譜的是這個。

一個10分鐘的視頻,他們讓模型一個人就這么沿著古建筑群瞎逛,逛了整 整十分鐘,中間確實偶爾有一些變形,但是,到最后了,這個古建筑居然沒有崩掉,太離譜了。

之前測過一個叫 Odyssey的世界模型產(chǎn)品。

別說10分鐘了,1分鐘就直接崩成這樣了。


而且毫無記憶能力,我只要一回頭,這個世界就變了樣,而且是每回頭一次,它就變一次。

相當?shù)膰樔。!?/p>

如果說要跟Sora、可靈這種視頻生成模型最大的區(qū)別是什么,我那覺得,一個是預先錄制的電影,另一個是可實時演算的模擬器。

視頻生成模型,是他已經(jīng)把整部電影拍完、剪好,加好特效,然后放給你看。

畫面很精美,故事很完整,但你是純粹的觀眾,只能被動接受,無法改變?nèi)魏问隆?/p>

而LingBot-World,你按W,它就往前生成世界,你按A,它就往左拓開空間。

你輸一句“下雨了”,天空就真的變陰云密布,你說“來點煙花”,遠處城堡上空立刻炸開一朵。

所有的一切,都是邊走邊算出來的,而不是提前渲染好放給你看。

前者是敘事的終點,后者是世界的起點。

太離譜了,要知道,這個模型,是跟之前Google Genie 3的路線一致,是可實時生成的世界模型。

老粉可能還記得,我去年寫過。

這篇文章到現(xiàn)在也是我覺得是我的一個很大的遺憾,它明明那么強,可是我沒有把它寫火讓更多的人看到,這是我的問題。

我一直都非常關(guān)注這種可交互的實時生成的世界模型,但是坦率的講,Genie 3之后,幾乎再無同類,而且已經(jīng)幾個月了,Genie 3到現(xiàn)在也不能體驗上。

但今天,不僅有了,而且,還開源,甚至他們,把論文都發(fā)出來了。

真的有點不敢相信這是我之前認知里那個螞蟻。。。

項目網(wǎng)址在此: https://technology.robbyant.com/lingbot-world


目前已經(jīng)在github上開源了第一個版本,另外兩個版本等待放出。


這三個版本我大概解釋一下。

LingBot-World-Base (Cam) 代表Base系列里帶Camera Poses控制的版本。

你在推理時會額外喂相機位姿或相機運動軌跡這類信號,所以它更擅長把鏡頭運動做得可控,適合你想明確指定推進鏡頭、環(huán)繞、俯仰、平移這類拍法的場景。

表里寫的480P和720P也對應(yīng)它當前提供的推理配置,這個版本目前已經(jīng)放出權(quán)重和下載鏈接。

LingBot-World-Base (Act) 代表Base系列里帶Actions控制的版本。

這里的 Actions 更像“動作指令”或“行為控制”,讓你能用更結(jié)構(gòu)化的方式去約束主體怎么動,往哪走,抬手,轉(zhuǎn)身之類。

它的目標是把可控性從鏡頭擴展到行為層面,目前等待開源中。

LingBot-World-Fast代表Fast系列,核心取向是低延遲與實時交互,一般會通過結(jié)構(gòu)改造與加速手段,把推理做得更適合流式生成和邊交互邊出畫面。

代價通常是質(zhì)量上限會比 Base 略低一點點,優(yōu)勢是響應(yīng)更快更像實時世界模擬,延遲能低于1秒,能做到每秒16幀,目前等待開源中。

模型參數(shù)量在28B左右,推理應(yīng)該在14B。

在看完了所有的case,以及論文以后。

我給它總結(jié)了3個特點。

分別是長時記憶很穩(wěn)定、風格泛化性極強、很棒的動作代理。

一. 長時記憶很穩(wěn)定

說實話,我們看世界模型,最核心的一個東西,看的一定是長時記憶。

就跟我們用文本大模型一樣,他能不能記住前面的那么多的信息,這個事非常的重要。

而在世界模型里,這個事,尤為重要,甚至就是第一位的。

如果沒有長時記憶的模型,你可以想一想這個場景,你去廁所拉屎,打開了廁所門,進門,掀開馬桶蓋,一回頭,廁所門沒了,變成了一個不知道通往哪的過道,你再一回頭,馬桶也沒了,變成了一個小女孩就這么瞪著你。

現(xiàn)在是凌晨3點20多,我寫下這段話的時候,我還忍不住回頭看了好幾次,我說實話,我真的突然有點慌。。。

這就是沒有長時記憶的問題。

可能在文字輸出的時候,他不記得之前的事了,可能影響還沒那么大。

但是在一個可以互動的世界里,如果沒有了長時記憶,那就成了徹頭徹尾的恐怖片了,我們俗稱,鬼打墻。。。

而 LingBot-World解決了這個問題。

比如說這個case。

可以看到,在這個過程中,在這個廊橋上,不管你怎么走,前看后看左看右看,那些建筑也絕對一直都在,甚至高墻和后面的建筑的遮擋關(guān)系,都會隨著你行走的距離而改變,當你扭頭看向別處的時候,回頭看,還在。

這個長時記憶,就太牛逼了。

還有這個。

從看到這個開始,然后從肚皮下面穿越過去,在差不多的時候,你可以看到,你的視角是真的穿過了這個異獸的橫向面積,讓你感受到很真實。

而沒有長時記憶的世界模型,可能在你穿的時候,直接就在它的肚皮下面穿了將近1分多鐘,甚至就在那鬼打墻了一直穿不過去,明顯時間尺度和距離尺度都不對。

而Lingbot-World在這點上,就表現(xiàn)的非常好。

二. 風格泛化性極強

很多的世界模型,其實在風格上都比較固定。

只能搞現(xiàn)實世界的,就是超寫實的那種,但是一旦涉及到非寫實的,一般效果就非常的差了。

但是lingbot-World居然保持的相當好。

比如這個例子。

明顯能感覺到,雖然大劍還稍微有一點點不穩(wěn)定,但是其他的地方,保持的非常好,已經(jīng)媲美一些游戲的質(zhì)感了。

還有這個。

在這種畫風下,整個世界模型沒有崩塌,這一點其實非常的難能可貴。

核心其實在于LingBot-World在訓練的時候,真實視頻、游戲錄像、UE合成場景,全塞在一鍋里里面訓了,他們搞了大量游戲世界的數(shù)據(jù),還有UE的合成數(shù)據(jù)。

現(xiàn)實世界的視頻負責教它物理世界大概長啥樣,游戲世界負責教它人類在虛擬世界里是怎么玩的,然后合成世界則負責補齊那些現(xiàn)實很難系統(tǒng)采集的視角,比如各種極端運動軌跡、復雜相機路徑、極限視角。

對模型來說,這三種東西在輸入上其實是統(tǒng)一的。

就是都是一幀一幀的視頻,外加相機位置、動作指令、文本描述。

它其實并不會像人類那樣心里有一條線,說哦這是真實的,哦這邊是游戲,它看到的只是不同分布的像素序列。

這一點其實有點像機器人領(lǐng)域的域隨機化。

就是很多具身公司,在做仿真訓練的時候,經(jīng)常會把地面材質(zhì)、光照、物體貼圖全打亂,讓機器人習慣各種詭異的組合,這樣下放到真實世界的成功率反而更高。

Lingbot-World在這塊做的相當好。

三. 很棒的動作代理

世界模型如果只會自己滾動,不會被控制,那最多也就是一個超長、有記憶的屏保。

真正好玩的是,當你把WASD和方向鍵綁上去,甚至把一個動作代理塞進去,在你操控的同時,里面的角色還可以自主行動和規(guī)劃。

從而涌現(xiàn)出一些全新的事件和玩法,而不是那種單純的,步行模擬器,只會單純的走路和跑步而已。

比如這個。

你可以明顯的看到,這個布偶隨著方向的變化,而自主在房間里進行運動,在過程中還碰到了沙發(fā),從而掉頭,避免了穿模。

還有這個。

并不是千篇一律的滑行,而是有急停、有變道,有自主運動。

這一點也是完全不一樣的點,是我從來沒有見過的,很新,也很強。

看了下論文,LingBot-World在動作這塊,主要干了兩條線的事。

一條線是最直接的,你自己按鍵。

你按 W,它往前生成,你按S,它往后拉,你長按A,它會幫你推演側(cè)身走一段路應(yīng)該是什么樣子,這個看著好像理所當然,但其實背后代表著模型已經(jīng)學會了一種還蠻重要的東西。

動作不是單幀的,而是一個連續(xù)意圖。

你按一下W,它不會只管下一幀往前挪一點點,而是會在內(nèi)部自動幫你補出一整個往前走兩三步的節(jié)奏,把腿步伐、相機抖動、視差變化協(xié)同起來。

否則你按W一下停一下,畫面只會抖成幀動畫。

另一條線,是他們搞的那個AI玩自己世界的動作代理。

你可以把它理解成給LingBot-World添了一個玩家。

這個玩家看不到底層張量,它只看畫面和一些文字提示,然后決定“我要往哪走”“我要不要拐彎”“我要不要停下來多看一眼”。

論文里是用一個微調(diào)的視覺語言模型來做這件事,看一幀圖,輸出接下來幾秒鐘的命令,讓 LingBot-World去執(zhí)行。

所以還真的挺有意思的,就真的像,我們在玩游戲的感覺。

只不過這個游戲,我們是觀測者,我們決定向什么方向去,而AI,會在生成的空間,自主運動。

這一點,確實是一個非常有意思的創(chuàng)新。

LingBot-World很強,很有意思,讓我突然有了一種。

24年春節(jié)2月16號的時候,同樣的深夜,同樣的凌晨,看到Sora的那一刻。

世界模型,一直是一個全新的、未被探索、還有廣闊空間的領(lǐng)域。

他不僅對游戲、對影視、對娛樂都有非常強的意義。

而真正我覺得最核心的場景,其實是為了具身智能,一個優(yōu)秀的、泛化能力強的世界模型,也能為具身的訓練,為他們對現(xiàn)實世界的理解和長程任務(wù),提供低成本高保真的試錯空間。

世界模型,也是AI真正由虛到實,進入我們現(xiàn)實空間中的必要條件之一。

而螞蟻,居然是螞蟻。

把這個進程,向前推了一大步。

并且直接選擇開源,造福所有人。

我很少會對一個技術(shù)demo感到興奮,而最近的興奮,坦誠的講,幾乎都來自世界模型。

而LingBot-World讓我又有了當年最開始玩AI的那種感覺。

世界模型成熟之后,來臨的,必然就是井噴式的、進入我們實體世界的、隨處可見的具身智能們。

而那時。

才是我心中,真正的AI時代。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
查獲超15噸!東莞這些企業(yè)被立案調(diào)查!

查獲超15噸!東莞這些企業(yè)被立案調(diào)查!

東莞紀實
2026-04-18 20:38:47
烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

懂球帝
2026-04-19 08:20:27
同名同姓同身份證尾號,山東一女子稱被異地法院錯判,萬元存款被強制執(zhí)行,損失3年利息

同名同姓同身份證尾號,山東一女子稱被異地法院錯判,萬元存款被強制執(zhí)行,損失3年利息

封面新聞
2026-04-18 16:24:02
天塌了!最新Cochrane證據(jù):阿爾茨海默。⑻匦帲缀鯖]有臨床療效,且增加腦出血風險

天塌了!最新Cochrane證據(jù):阿爾茨海默病"特效藥"幾乎沒有臨床療效,且增加腦出血風險

醫(yī)諾維
2026-04-16 16:55:37
廣州女子與前夫發(fā)生關(guān)系后報警稱被侵犯,兒子同室未聽見反抗

廣州女子與前夫發(fā)生關(guān)系后報警稱被侵犯,兒子同室未聽見反抗

觀世記
2026-04-18 15:55:41
記錄報:穆里尼奧成為皇馬新帥候選,弗洛倫蒂諾有意和他會面

記錄報:穆里尼奧成為皇馬新帥候選,弗洛倫蒂諾有意和他會面

懂球帝
2026-04-19 05:29:08
斯諾克美女裁判波娃專訪:提議出桿計時,進攻限30秒做障礙球另算

斯諾克美女裁判波娃專訪:提議出桿計時,進攻限30秒做障礙球另算

楊華評論
2026-04-19 04:28:56
反轉(zhuǎn)!穆里尼奧拒絕英超豪門!他愿重返伯納烏

反轉(zhuǎn)!穆里尼奧拒絕英超豪門!他愿重返伯納烏

瀾歸序
2026-04-19 00:43:29
善惡有報!許家印剛認罪4天,子女近況曝光,大兒子的安排全白費

善惡有報!許家印剛認罪4天,子女近況曝光,大兒子的安排全白費

云景侃記
2026-04-18 14:34:37
解放后損失最大俘虜逃跑事件,劫走一架飛機帶走3名我軍中層干部

解放后損失最大俘虜逃跑事件,劫走一架飛機帶走3名我軍中層干部

鶴羽說個事
2026-04-16 22:07:31
這種小吃“比砒霜還毒”?怎么還有人在買賣!

這種小吃“比砒霜還毒”?怎么還有人在買賣!

果殼
2026-04-18 20:10:46
風塵女子要怎么分辨出來?行家人都能看出來

風塵女子要怎么分辨出來?行家人都能看出來

霹靂炮
2026-04-03 21:31:48
光通信下一個龍頭,已經(jīng)浮出水面

光通信下一個龍頭,已經(jīng)浮出水面

普陀動物世界
2026-04-19 02:34:25
日本已具備制造核武器的幾乎所有物質(zhì)和技術(shù)條件:已囤積約44.4噸分離钚,足夠制造約5500枚核彈頭,同時還有核武器的投射工具

日本已具備制造核武器的幾乎所有物質(zhì)和技術(shù)條件:已囤積約44.4噸分離钚,足夠制造約5500枚核彈頭,同時還有核武器的投射工具

魯中晨報
2026-04-18 16:40:15
12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應(yīng)商

12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應(yīng)商

大衛(wèi)聊科技
2026-04-18 12:27:33
泰國潑水節(jié)242人死亡,1200人受傷!

泰國潑水節(jié)242人死亡,1200人受傷!

21世紀經(jīng)濟報道
2026-04-18 11:25:30
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
二手車市場滿屏“九成新”,車商實錘貓膩,我們?nèi)闪私颖P俠

二手車市場滿屏“九成新”,車商實錘貓膩,我們?nèi)闪私颖P俠

洞見小能手
2026-04-16 16:21:52
費迪南德:海文只要100萬英鎊這筆引援必須好好夸一夸

費迪南德:海文只要100萬英鎊這筆引援必須好好夸一夸

懂球帝
2026-04-19 05:29:08
無人機"掃碼飛"要來了,審批困局能破嗎?

無人機"掃碼飛"要來了,審批困局能破嗎?

閃存獵手
2026-04-17 12:04:20
2026-04-19 09:32:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
501文章數(shù) 626關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

本地
旅游
教育
藝術(shù)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

旅游要聞

貴州湄潭:從賣茶葉到賣體驗,一片茶葉如何“玩”出新業(yè)態(tài)?

教育要聞

中考數(shù)學真題,別想太簡單了

藝術(shù)要聞

鄭麗文大陸之行引發(fā)熱議,孫中山贈對聯(lián)成焦點!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版