国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)世界模型開始“指揮雙手”,螞蟻靈波的具身路線更清晰了

0
分享至


作者 | 郭海惟
郵箱 | guohaiwei@pingwest.com

馬上要過年了,螞蟻旗下的靈波科技這幾天像是下餃子一樣,連續(xù)發(fā)了一堆具身的新成果。

他們1月27日先是發(fā)了開源高精度空間感知模型 LingBot-Depth,次日則發(fā)了具身大模型 LingBot-VLA。

作為一家機(jī)器人公司最常見的核心產(chǎn)品,當(dāng)大家以為VLA已經(jīng)是這一波技術(shù)宣發(fā)的終局時(shí),螞蟻又水靈靈地端出來了兩款世界模型,而且兩款世界模型的定位都不一樣。

這大概就是大集團(tuán)做具身大腦的魅力吧。要么不出手,一出手就是一整個(gè)LingBot家族。

29日官宣的“世界模型”叫LingBot-World。

螞蟻方面將它定位成一個(gè)的開源版的Genie3。它可以生成一個(gè)高保真、可控制且邏輯一致的模擬環(huán)境。與Genie3類似,它擁有許多世界知識(shí)、力圖理解世界的物理規(guī)律。

而昨天官宣的“世界模型”,則叫LingBot-VA。

從名字可以看出來,相比于VLA,VA直接將Video和Action對(duì)應(yīng)了起來。官方將它稱之為“自回歸視頻-動(dòng)作世界模型”。通過自回歸模型的方式,LingBot-VA可以通過視頻去預(yù)測(cè)下一個(gè)動(dòng)作,再重新解碼成機(jī)器中一個(gè)個(gè)具體的操作,從而實(shí)現(xiàn)大腦與真實(shí)世界交互中的自我進(jìn)化的同時(shí),也大幅提高了視頻學(xué)習(xí)的效率。

看完技術(shù)報(bào)告,上述兩個(gè)模型都有很好的表現(xiàn)。

LingBot-World:

在視頻質(zhì)量、動(dòng)態(tài)程度、長(zhǎng)時(shí)序一致性與交互能力等關(guān)鍵指標(biāo)上達(dá)到了領(lǐng)先地位。


而LingBot-VA:

在 LIBERO 和 RoboTwin 等主流基準(zhǔn)測(cè)試中,分別以 98.5% 和 92%+ 的成功率大幅領(lǐng)先現(xiàn)有模型。在針對(duì)具身控制中常見的“長(zhǎng)時(shí)漂移”難題,復(fù)雜任務(wù)成功率超過 98%。



而且還能做到幫你做實(shí)驗(yàn):

做早餐等日常的操作:

而在昨天,Genie3終于開放了公開了世界模型的入口,給目前火熱的世界模型市場(chǎng)又添了一把火。

相比于Genie3的世界模型之路,螞蟻靈波的世界模型路徑更加有指向性:

即有思考地賦能“開源”的“具身生態(tài)”。

相比于Genie3,LingBot-World和LingBot-VA都是開源的。LingBot-World這相當(dāng)于讓很多具身開發(fā)者擁有了自己的模擬訓(xùn)練場(chǎng),成本更低,具備二次開發(fā)的潛力;而LingBot-VA則讓世界模型能夠直接上機(jī)驗(yàn)證部署。

螞蟻方面表示,“未來 VLA 與世界模型的深度融合將釋放更大的協(xié)同潛力,這也是我們通往通用具身智能的核心路徑?!?/p>

1

從做夢(mèng)者到模擬者

當(dāng)下的世界模型大致可以粗略分成三類:

第一類大概是以Lecun新創(chuàng)業(yè)的AMI Lab為代表,他們的目標(biāo)是想要做一個(gè)智能上限的突破。 第二類則是偏向于構(gòu)建對(duì)真實(shí)世界的仿真模擬,比如剛才提到的Genie3。第三類是想要做智駕與機(jī)器人控制的,最具代表性的便是特斯拉從FSD到Optimus的戰(zhàn)略構(gòu)想。

Lecun的構(gòu)想終究還是太理想。從這次的發(fā)布來看,螞蟻靈波可以說是為數(shù)不多同時(shí)對(duì)兩條路徑都想去做探索的具身玩家。

而螞蟻靈波兩篇技術(shù)報(bào)告,其實(shí)分別對(duì)兩條路線的探索意義給出了自己的建議。

首先,LingBot-World的引言是這樣說的:

理解和模擬物理世界的人工智能長(zhǎng)期被視作CV和機(jī)器學(xué)習(xí)的圣杯……而當(dāng)前最先進(jìn)的視頻生成模型本質(zhì)上做夢(mèng)者(Dreamer)而不是模擬者(Simulator)。因?yàn)樗举|(zhì)是基于統(tǒng)計(jì)相關(guān)性的像素幻覺,而缺乏堅(jiān)實(shí)的對(duì)物理法則的理解。

這段話很好理解:很多視頻生成的“世界”只是造了一個(gè)樣子,就像人做夢(mèng)一樣。夢(mèng)里的世界只是和現(xiàn)實(shí)長(zhǎng)得像,可能稍微把測(cè)試模型在上面跑一跑,牛頓的棺材板就按不住了。

螞蟻靈波是如何分別在兩條路線上實(shí)現(xiàn)這個(gè)任務(wù)的呢?

LingBot-World認(rèn)為,如果要從視頻生成轉(zhuǎn)變成世界模型,這背后至少有三個(gè)瓶頸:高質(zhì)量交互數(shù)據(jù)稀缺、標(biāo)準(zhǔn)擴(kuò)散架構(gòu)難以維持較長(zhǎng)時(shí)間的敘事和結(jié)構(gòu)的一致性、傳統(tǒng)模式的計(jì)算開銷巨大。

為此,團(tuán)隊(duì)做了三件事情:

第一,他們做了一個(gè)數(shù)據(jù)引擎:這個(gè)數(shù)據(jù)引擎的語義可以分層,數(shù)據(jù)可以擴(kuò)展。因此,這個(gè)引擎可以將“糾纏”的表征分離開來,進(jìn)而處理各種不同類型的數(shù)據(jù)。

螞蟻靈波將他們的數(shù)據(jù)引擎分成了三個(gè)協(xié)同組件:數(shù)據(jù)獲取、數(shù)據(jù)剖析、數(shù)據(jù)標(biāo)注。

數(shù)據(jù)主要來自于真實(shí)世界視頻、游戲視頻以及利用虛幻引擎制作的合成渲染數(shù)據(jù)。再利用一套標(biāo)注流程,將數(shù)據(jù)轉(zhuǎn)化成可訓(xùn)練的資產(chǎn)。


第二,不僅數(shù)據(jù)分層了,他們將訓(xùn)練也同樣分成了三個(gè)部分:

首先,先用通用視頻來訓(xùn)練,即建設(shè)視頻生成的基本能力(establish the general video prior),從而保證模型的高保真紋理等能力。

接下來引入MoE架構(gòu),注入世界知識(shí)和動(dòng)作可控制性。這樣模型就具備了基本的世界知識(shí)。

最后,加入實(shí)時(shí)推理架構(gòu)。采用因果注意力適配和少步蒸餾,將雙向擴(kuò)散模型轉(zhuǎn)換為高效的自回歸系統(tǒng)。

而由于去掉了費(fèi)時(shí)費(fèi)力的雙向擴(kuò)散模型,整個(gè)系統(tǒng)的延遲低于1秒,成本潛力也得到了優(yōu)化。


螞蟻靈波在技術(shù)報(bào)告里放出來了一些demo。

Demo顯示,LingBot-World 能力可以根據(jù)prompt給出豐富的一致性視角:


也可以通過視頻探索來做場(chǎng)景的三維重建:


更重要的是:這是一個(gè)完全開源的模型。

所以它可以被用作非常多的用途,除了一些事件生成、三維建模、視角探索,也可以用來做智能體的模擬訓(xùn)練等等,或許未來還可以被探索出更加豐富的玩法。

1

給機(jī)器人的世界加入因果

而LingBot-VA的思路有所相似也有所不同。

相同的是,他們都對(duì)數(shù)據(jù)層面做了更多的探索,在模型方面也都引入了自回歸的框架來改進(jìn)模型的效率。但不同的是,螞蟻靈波這次希望利用一種“統(tǒng)一”的方式來嘗試解決目前VLA的局限性。

而這個(gè)“統(tǒng)一”的答案其實(shí)就是LingBot-VA,一個(gè)“自回歸視頻-動(dòng)作世界模型”。


螞蟻靈波說他們看了市面上的很多解決方案,但各有各的問題。

比如交互式神經(jīng)模擬器、基于塊或段的視頻-動(dòng)作擴(kuò)散模型、用于數(shù)據(jù)或目標(biāo)合成的離線視頻生成器等等,但這些方法雖然吸引人,但難以實(shí)時(shí)反饋和記憶的問題,而且缺乏與物理現(xiàn)實(shí)中的因果關(guān)系。

所以說,他們想用自回歸模型來解決這個(gè)問題。

思路其實(shí)并不復(fù)雜:

其實(shí)本質(zhì)就是用一段視頻去預(yù)測(cè)下一段視頻的狀態(tài)。而當(dāng)模型知道下一段視頻流中的狀態(tài)時(shí),便可以反推并解碼成具體的執(zhí)行動(dòng)作。

這樣一來,由于視頻與動(dòng)作之間存在明確的時(shí)間和邏輯關(guān)系,便自然就構(gòu)成了很明確的物理現(xiàn)實(shí)世界中的因果關(guān)系。

而執(zhí)行這套思路的方式,便是LingBot-VA的MoT(Mix-of-Transformer)架構(gòu)。

如下圖所示,在MoT架構(gòu)中,一邊是Transformer生成的視頻流,另一邊是Transformer生成的動(dòng)作流。將兩個(gè)"流"在序列中交錯(cuò)排列,便將高維視頻 Token 與低維動(dòng)作 Token 映射到了統(tǒng)一的潛空間里。


在具體操作上,LingBot-VA用了很多種方式,來實(shí)現(xiàn)“視頻流”和“動(dòng)作流”之間的“對(duì)齊”和“融合”。

比如,考慮到視頻會(huì)存在冗余(畢竟現(xiàn)在機(jī)器人的操作都相對(duì)慢),所以會(huì)對(duì)具體的視頻做稀疏化的處理。但動(dòng)作流視頻和視頻流視頻的需要的稀疏程度其實(shí)是各不相同的。那么與之對(duì)應(yīng)的,每個(gè)視頻幀對(duì)應(yīng)的動(dòng)作也會(huì)有相應(yīng)的變化。如此才能保證高效生成視頻的同時(shí),還能保持較高頻的控制能力。

再比如,由于視頻流和動(dòng)作流的模態(tài)特征存在差異,LingBot-VA也會(huì)調(diào)用單獨(dú)的Transformer模塊來進(jìn)行單獨(dú)的處理和對(duì)齊等工作。

而在噪聲處理中,推理過程中的視頻token的消耗數(shù)量則會(huì)遠(yuǎn)遠(yuǎn)多于動(dòng)作的token,所以也引入了噪聲增強(qiáng)策略,針對(duì)性地只對(duì)部分內(nèi)容進(jìn)行去噪——比如,動(dòng)作預(yù)測(cè)就不需要完全去噪,而完全可以從部分噪聲的視頻中直接學(xué)習(xí)。

此外,LingBot-VA還會(huì)給模型加入注意力掩碼機(jī)制,從而保證這套系統(tǒng)的預(yù)測(cè)是真的由自回歸系統(tǒng)的預(yù)測(cè)得出的,而不是模型自己生成的。


聰明如你可以看到:這整套模型中不僅有多個(gè)Transformer架構(gòu)的模型,還要將模型與模型之間進(jìn)行對(duì)齊、解碼,再用自回歸模型去做預(yù)測(cè)和匹配。那計(jì)算壓力陡增,必然會(huì)讓模型的響應(yīng)能力變得遲鈍。

為了讓這套系統(tǒng)可以更好地跑在真機(jī)上,LingBot-VA引入異步推理流水線將動(dòng)作預(yù)測(cè)與電機(jī)執(zhí)行并行化處理,從而實(shí)現(xiàn)高效控制。


這套模型的優(yōu)勢(shì)是,它其實(shí)是一個(gè)“閉環(huán)”的機(jī)制——因?yàn)樗梢缘统杀厩壹皶r(shí)地獲取真實(shí)世界的及時(shí)反饋。

只要機(jī)子在跑,那么機(jī)子的每一步預(yù)測(cè)都會(huì)不斷和真實(shí)世界交互并修正幻覺的問題。理論上來說,只要跑的時(shí)間足夠久,積累的數(shù)據(jù)足夠多,那么模型就會(huì)不斷變強(qiáng)。

而且由于這套系統(tǒng)的核心是自回歸,所以必須依賴一個(gè)緩存系統(tǒng),這讓它也自然擁有了一定的記憶功能。而且實(shí)測(cè)下來,這套記憶能力表現(xiàn)還是不錯(cuò)的。

在計(jì)數(shù)和尋物兩項(xiàng)記憶任務(wù)中,LingBot-VA都拿下了滿分的成績(jī)。


螞蟻靈波拿這套系統(tǒng)跑了一些Demo測(cè)評(píng),主要也是對(duì)標(biāo)目前行業(yè)領(lǐng)先的π0.5模型,可以看到在六個(gè)項(xiàng)目的得分表現(xiàn)還不錯(cuò)。尤其在完成度指標(biāo)和經(jīng)典的“疊被子”測(cè)試場(chǎng)景中,有比較大的領(lǐng)先優(yōu)勢(shì)。


而且由于它采用了自回歸的架構(gòu),再加上大規(guī)模多源數(shù)據(jù)預(yù)訓(xùn)練,所以對(duì)場(chǎng)景的學(xué)習(xí)能力非常強(qiáng)。

根據(jù)真機(jī)實(shí)測(cè)的數(shù)據(jù),一個(gè)場(chǎng)景僅需 30~50 條演示數(shù)據(jù)即可完成適配。這對(duì)于VLA架構(gòu)的大腦來說同樣是不可想象的。

1

總結(jié)

螞蟻靈波作為剛?cè)刖值木呱硇峦婕?,連續(xù)發(fā)四個(gè)技術(shù)工作,讓這家新公司已然有了一點(diǎn)“生態(tài)”的樣子了。

比如第一個(gè)發(fā)布的LingBot-Depth 模型,提供高精度的空間感知能力,讓機(jī)器人真正"看清"物理世界;

VLA 是具身操作的主流路線,靈波打造LingBot-VLA 基模并開源開放,在 Depth 的賦能下實(shí)現(xiàn)精準(zhǔn)的物理操作,且具備突出的跨本體、跨任務(wù)的泛化能力。

而LingBot-World則是構(gòu)建了模擬的仿真空間,讓它得以成為大腦的虛擬訓(xùn)練場(chǎng);

LingBot-VA則探索了模型與環(huán)境交互新范式,降低模型對(duì)環(huán)境的學(xué)習(xí)成本,提高了環(huán)境反饋的效率,為機(jī)器人基礎(chǔ)模型從“反應(yīng)式控制”走向“可推演、可閉環(huán)的行動(dòng)生成”提供了可驗(yàn)證的技術(shù)選項(xiàng)。

但無論如何他們卻有著一些共同的技術(shù)審美:

他們都深度擁抱開源,堅(jiān)信開源生態(tài)的價(jià)值,力圖參與到開源的基礎(chǔ)建設(shè)中,幫助更多的生態(tài)參與者走得更深更遠(yuǎn);

他們都緊密圍繞著行業(yè)發(fā)展的第一性需求展開,走理想主義與現(xiàn)實(shí)主義的一條平衡之道??赡芷渲胁⒎撬械募夹g(shù)都是最酷的,但卻都是實(shí)實(shí)在在處理今天一些實(shí)際的開源生態(tài)問題,豐富了開源具身工具庫(kù)的生態(tài)位。

而以上都螞蟻在具身生態(tài)的一個(gè)開始。而當(dāng)更多的玩家走進(jìn)開源,或許有一天具身開源生態(tài)真的能走出更大的共識(shí)。而世界模型也會(huì)發(fā)展出更多創(chuàng)造性的解法。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

草莓解說體育
2026-02-06 05:59:56
比特幣反彈7.64%,市場(chǎng)恐懼指數(shù)仍然為10

比特幣反彈7.64%,市場(chǎng)恐懼指數(shù)仍然為10

財(cái)聞
2026-03-01 10:23:12
新華社快訊:伊朗媒體稱伊朗最高領(lǐng)袖哈梅內(nèi)伊遇害

新華社快訊:伊朗媒體稱伊朗最高領(lǐng)袖哈梅內(nèi)伊遇害

新華社
2026-03-01 09:33:15
河南籍在伊華人逃離德黑蘭:接到大使館通知當(dāng)日乘飛機(jī)離開,合伙人準(zhǔn)備撤離時(shí)購(gòu)票網(wǎng)站已無法登錄

河南籍在伊華人逃離德黑蘭:接到大使館通知當(dāng)日乘飛機(jī)離開,合伙人準(zhǔn)備撤離時(shí)購(gòu)票網(wǎng)站已無法登錄

大象新聞
2026-02-28 21:46:49
美國(guó)指責(zé)中國(guó)開展核爆炸試驗(yàn),外交部:美國(guó)為逃避國(guó)際軍控義務(wù),不惜栽贓抹黑別國(guó)

美國(guó)指責(zé)中國(guó)開展核爆炸試驗(yàn),外交部:美國(guó)為逃避國(guó)際軍控義務(wù),不惜栽贓抹黑別國(guó)

每日經(jīng)濟(jì)新聞
2026-02-25 16:40:30
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評(píng)
2025-12-24 00:26:04
美政府“第三國(guó)遣返”政策被裁定違法

美政府“第三國(guó)遣返”政策被裁定違法

參考消息
2026-03-01 14:57:04
下午4點(diǎn),中國(guó)男籃vs中國(guó)臺(tái)北!傳來1壞消息,爆冷輸球=淪為墊底

下午4點(diǎn),中國(guó)男籃vs中國(guó)臺(tái)北!傳來1壞消息,爆冷輸球=淪為墊底

侃球熊弟
2026-03-01 00:07:19
中東局勢(shì)對(duì)A股有何影響?短期回調(diào)也是上車機(jī)會(huì),關(guān)注這些板塊

中東局勢(shì)對(duì)A股有何影響?短期回調(diào)也是上車機(jī)會(huì),關(guān)注這些板塊

徐sir財(cái)經(jīng)
2026-03-01 12:55:35
普拉蒂尼:現(xiàn)在沒有特別突出的球員,上一個(gè)真正杰出的是梅西

普拉蒂尼:現(xiàn)在沒有特別突出的球員,上一個(gè)真正杰出的是梅西

懂球帝
2026-03-01 01:18:21
又一衛(wèi)健委主任被抓!

又一衛(wèi)健委主任被抓!

梅斯醫(yī)學(xué)
2026-02-28 07:53:41
林彪主持會(huì)議時(shí),輪到陳賡發(fā)言,他卻笑著說道:我摸過林彪的腦殼

林彪主持會(huì)議時(shí),輪到陳賡發(fā)言,他卻笑著說道:我摸過林彪的腦殼

文史明鑒
2026-01-17 23:55:16
OPPO誕生新卷王,7200mAh+100W+IP69防水,國(guó)補(bǔ)后有“真香價(jià)”

OPPO誕生新卷王,7200mAh+100W+IP69防水,國(guó)補(bǔ)后有“真香價(jià)”

小愚測(cè)評(píng)
2026-03-01 15:04:11
伊朗失守的一個(gè)側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

伊朗失守的一個(gè)側(cè)面:匯率雙軌,特權(quán)分蛋糕,普通人買單

蛙蛙和洼
2026-01-18 09:25:01
山西婚鬧致死案:新郎被4個(gè)伴郎暴打致死,婚禮結(jié)束直接辦喪事

山西婚鬧致死案:新郎被4個(gè)伴郎暴打致死,婚禮結(jié)束直接辦喪事

明智家庭教育
2025-12-02 11:20:34
49歲的特朗普95年來香港,懷中抱著一位神秘中國(guó)女孩,她是誰?

49歲的特朗普95年來香港,懷中抱著一位神秘中國(guó)女孩,她是誰?

板栗說事
2025-02-17 07:54:14
伊朗終于發(fā)狠了,打擊力度升級(jí),關(guān)鍵時(shí)刻,掏出中國(guó)一王牌武器

伊朗終于發(fā)狠了,打擊力度升級(jí),關(guān)鍵時(shí)刻,掏出中國(guó)一王牌武器

史智文道
2026-02-28 16:27:37
阿爾茨海默病者逐漸增多,醫(yī)生提醒:50歲后,盡量改掉5個(gè)壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:50歲后,盡量改掉5個(gè)壞習(xí)慣

奇妙的本草
2026-03-01 12:01:16
我們瞧不起漂亮國(guó)也不是一天兩天了

我們瞧不起漂亮國(guó)也不是一天兩天了

霹靂炮
2026-02-08 22:17:59
隨著41歲C羅離譜失點(diǎn)+率隊(duì)3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

隨著41歲C羅離譜失點(diǎn)+率隊(duì)3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

側(cè)身凌空斬
2026-03-01 05:16:08
2026-03-01 15:43:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2896文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

專家:伊朗局勢(shì)可參考委內(nèi)瑞拉 反美力量將進(jìn)一步削弱

頭條要聞

專家:伊朗局勢(shì)可參考委內(nèi)瑞拉 反美力量將進(jìn)一步削弱

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

房產(chǎn)
教育
家居
本地
數(shù)碼

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

教育要聞

五年級(jí)求面積,會(huì)者不難

家居要聞

素色肌理 品意式格調(diào)

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

DDR4價(jià)格已連續(xù)11個(gè)月上漲

無障礙瀏覽 進(jìn)入關(guān)懷版