国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

500萬次圍觀,1X把「世界模型」真正用在了機(jī)器人NEO身上

0
分享至

機(jī)器之心編輯部

還記得那個(gè)穿著「Lululemon」緊身衣、主打溫柔陪伴的家用人形機(jī)器人 NEO 嗎?



上次聊到它時(shí),大家還在吐槽其「遠(yuǎn)程操控」的隱私安全問題,調(diào)侃每個(gè)機(jī)器人的背后可能都是一個(gè)「印度小哥」。

昨天,1X 公司帶著它的全新「大腦」亮相:1X World Model。這一次,NEO 似乎準(zhǔn)備把「背后的操作員」給解放了。



簡單來說,現(xiàn)在的 NEO 不再只是死記硬背動(dòng)作,它學(xué)會(huì)了像人一樣「想象」。通過觀看海量的網(wǎng)絡(luò)視頻和人類第一視角的實(shí)操錄像,它理解了物理世界是如何運(yùn)作的:東西掉了會(huì)下落,門是可以推開的。

他們把類似 Sora 的視頻生成技術(shù)裝進(jìn)了 NEO 的腦子里,接到指令時(shí),它會(huì)先在腦海里生成一段「自己成功完成任務(wù)」的視頻,然后倒推身體該怎么動(dòng),才能把這段想象變成現(xiàn)實(shí)。

不過,官方博客中也表示,有時(shí)候會(huì)出現(xiàn)「腦子學(xué)會(huì)了,手沒學(xué)會(huì)」的情況:腦補(bǔ)出的視頻很完美,但實(shí)際動(dòng)作可能會(huì)抓空。



那么這一次是「瑜伽服」下的真功夫,還是只存在于 Demo 里的「剪輯魔法」呢?不管技術(shù)落沒落地,熱度已經(jīng)先爆表了。到截稿時(shí)間,官方推文瀏覽量已突破 500 萬。



看來,在經(jīng)歷了 AI 時(shí)代各式各樣炫酷 Demo 的輪番轟炸之后,大家還是忍不住想看看:這一回,它是真長腦子了嗎?

以下是 1X 技術(shù)團(tuán)隊(duì)對(duì)這顆「新大腦」的硬核拆解:



家庭機(jī)器人要真正走進(jìn)現(xiàn)實(shí)環(huán)境,必須具備常識(shí)性的行為能力以及對(duì)物理世界的深刻理解。

當(dāng)前許多機(jī)器人基礎(chǔ)模型采用的是 VLA 范式:即在一個(gè)預(yù)訓(xùn)練的 VLM 之上,增加一個(gè)用于預(yù)測機(jī)器人動(dòng)作的輸出頭(例如 PI0.6、Helix、Groot N1.5)。VLM 能夠從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)中學(xué)習(xí)到豐富的知識(shí),但其訓(xùn)練目標(biāo)更側(cè)重于視覺與語義理解,而非對(duì)物理動(dòng)態(tài)過程的預(yù)測。

因此,即便是對(duì)人類而言非常簡單的任務(wù),模型往往也需要數(shù)萬小時(shí)、成本高昂的機(jī)器人數(shù)據(jù)才能學(xué)會(huì)完成。此外,為了進(jìn)一步強(qiáng)化模型對(duì)物理交互中空間關(guān)系的理解,研究者通常還需要引入各種輔助訓(xùn)練目標(biāo)(如 MolmoAct、Gemini-Robotics 1.5)。

在這篇博客中,1X 介紹了基于視頻預(yù)訓(xùn)練的世界模型——1XWM,并將其集成進(jìn) NEO 機(jī)器人作為其控制策略。

與 VLA 模型直接從靜態(tài)的圖像-語言輸入中預(yù)測動(dòng)作軌跡不同,世界模型驅(qū)動(dòng)策略是通過文本條件下的視頻生成來推導(dǎo)機(jī)器人應(yīng)采取的動(dòng)作。借助互聯(lián)網(wǎng)規(guī)模視頻中蘊(yùn)含的真實(shí)世界動(dòng)力學(xué)規(guī)律,該世界模型能夠在無需大規(guī)模機(jī)器人數(shù)據(jù)預(yù)訓(xùn)練、也不依賴任何相關(guān)的遙操作演示的情況下,即可泛化到全新的物體、運(yùn)動(dòng)方式和任務(wù)場景。

這標(biāo)志著機(jī)器人智能范式的一次轉(zhuǎn)變:機(jī)器人開始直接受益于視頻預(yù)訓(xùn)練規(guī);瘞淼哪芰S遷,而這一切得以實(shí)現(xiàn),離不開一整套為高保真人類具身到機(jī)器人具身遷移而設(shè)計(jì)的硬件系統(tǒng)支持。



從視頻知識(shí)到世界模型

如今,諸如 Veo 和 Sora 等前沿文生視頻模型已經(jīng)能夠生成極其逼真的視頻內(nèi)容。然而,這些模型在零樣本生成場景下并未與機(jī)器人具身形態(tài)對(duì)齊,因而在控制任務(wù)所需的多個(gè)關(guān)鍵維度上往往存在不足,表現(xiàn)在以下幾個(gè)方面:

  • 視覺/空間層面:生成的視頻是否與機(jī)器人的相機(jī)內(nèi)參和自我中心視角一致?是否能夠準(zhǔn)確保留操控任務(wù)所需的深度信息以及精確的空間關(guān)系?
  • 運(yùn)動(dòng)學(xué)層面:生成視頻中的機(jī)器人動(dòng)作是否在該具身形態(tài)下可實(shí)現(xiàn),是否遵循其結(jié)構(gòu)特性、關(guān)節(jié)極限、速度約束以及執(zhí)行器能力?
  • 物理層面:生成過程是否避免了物理上不可能的結(jié)果(例如物體瞬移),從而保證其能夠轉(zhuǎn)化為現(xiàn)實(shí)世界中的成功執(zhí)行?

原始視頻能夠提供看起來會(huì)發(fā)生什么,但并未給出如何去做。為了將視頻知識(shí)轉(zhuǎn)化為真正可用于控制的世界模型,1X 借助自身的端到端系統(tǒng)架構(gòu),采用了一種兩階段的對(duì)齊過程,思路與 DreamGen、UniPi 等已有工作一脈相承:

  • 世界模型主干:這是一個(gè)文本條件擴(kuò)散模型:先在互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,隨后在人類第一視角視頻數(shù)據(jù)上進(jìn)行中期訓(xùn)練,并最終在 NEO 專屬的傳感器-運(yùn)動(dòng)日志上進(jìn)行微調(diào)。該模型能夠高保真地預(yù)測場景隨時(shí)間演化的過程,在視覺、空間和物理一致性方面表現(xiàn)出色。
  • 逆動(dòng)力學(xué)模型(Inverse Dynamics Model, IDM):通過訓(xùn)練 IDM,將像素空間與執(zhí)行器控制連接起來,使其能夠預(yù)測在生成幀之間完成狀態(tài)轉(zhuǎn)移所需的精確動(dòng)作序列。同時(shí)利用 IDM 的評(píng)估指標(biāo)和拒絕采樣機(jī)制,對(duì)生成結(jié)果施加運(yùn)動(dòng)學(xué)約束,從而確保動(dòng)作在具身層面上的可行性。

在推理階段,系統(tǒng)接收一個(gè)文本指令和一幀初始畫面:世界模型負(fù)責(zé)生成符合意圖的未來場景演化,逆動(dòng)力學(xué)模型從中提取所需的動(dòng)作軌跡,最終由機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行該動(dòng)作序列。



1XWM 的訓(xùn)練與推理流程

1XWM 的主干模型基于一個(gè) 140 億參數(shù)的生成式視頻模型。為了使該模型適配 NEO 的具身形態(tài),1X 還采用了一種多階段訓(xùn)練策略:

  • 第一視角中期訓(xùn)練:使用 900 小時(shí)的人類第一視角視頻數(shù)據(jù)進(jìn)行訓(xùn)練,使模型對(duì)第一人稱的操作任務(wù)產(chǎn)生對(duì)齊。在這一階段,模型能夠?qū)W習(xí)到通用的操作行為模式,但仍然難以生成由 NEO 執(zhí)行具體任務(wù)的視頻。
  • 具身微調(diào):隨后,使用 70 小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行微調(diào),使模型進(jìn)一步適配 NEO 的視覺外觀與運(yùn)動(dòng)學(xué)特性。

以 DALL·E 3 等工作為例,已有研究表明,通過使用更具描述性的視覺文本標(biāo)注進(jìn)行訓(xùn)練,可以顯著提升視覺基礎(chǔ)模型對(duì)提示詞的遵循能力。然而,許多第一視角數(shù)據(jù)集僅包含簡要的任務(wù)描述。為此,1X 利用一個(gè) VLM 生成更加詳細(xì)的描述性字幕,并通過字幕上采樣的方式將其用于訓(xùn)練。

此外,IDM 在 400 小時(shí)未經(jīng)過濾的機(jī)器人數(shù)據(jù)上進(jìn)行訓(xùn)練,其中既包括隨機(jī)探索數(shù)據(jù),也包含與任何具體任務(wù)無關(guān)的運(yùn)動(dòng)軌跡。這使得模型能夠在任意狀態(tài)下對(duì) NEO 的運(yùn)動(dòng)進(jìn)行準(zhǔn)確追蹤。

在測試階段,系統(tǒng)接收一幀初始畫面以及一條指導(dǎo) NEO 執(zhí)行動(dòng)作的文本指令。1XWM 負(fù)責(zé)生成未來的視頻序列,隨后由 IDM 從生成視頻中提取對(duì)應(yīng)的機(jī)器人動(dòng)作軌跡,并將其直接下發(fā)至機(jī)器人執(zhí)行。為保證軌跡的平滑性,IDM 的輸出會(huì)在多個(gè)初始噪聲樣本和滑動(dòng)窗口維度上進(jìn)行時(shí)間平均處理。



NEO 后訓(xùn)練數(shù)據(jù)集主要包含高質(zhì)量的抓取和放置數(shù)據(jù)(98.5%),這些數(shù)據(jù)經(jīng)過篩選,僅包含桌面操作且手部可見的場景。通過利用基礎(chǔ)視頻模型的網(wǎng)絡(luò)級(jí)預(yù)訓(xùn)練,1XWM 模型可以泛化到各種未曾見過的物體、環(huán)境和任務(wù)。

1XWM 到底能做啥

研究團(tuán)隊(duì)進(jìn)一步評(píng)估了 1XWM 在任務(wù)泛化方面的能力,重點(diǎn)關(guān)注其是否能夠完成 NEO 從未經(jīng)歷過的任務(wù),以及生成視頻與真實(shí)機(jī)器人執(zhí)行之間的一致性程度。

在實(shí)驗(yàn)中,搭載 1XWM 的 NEO 被用于執(zhí)行多種超出既有經(jīng)驗(yàn)的任務(wù),包括:

  • 抓取分布內(nèi)與分布外的物體;
  • 操作此前從未見過、但具備復(fù)雜可供性的物體;
  • 完成需要全新動(dòng)作模式的全新任務(wù)。

實(shí)驗(yàn)結(jié)果顯示,1XWM 生成的視頻與真實(shí)世界中的執(zhí)行過程整體高度一致。將模型生成的視頻與機(jī)器人實(shí)際完成任務(wù)后拍攝的視頻進(jìn)行并排對(duì)比,可以發(fā)現(xiàn)二者在視覺表現(xiàn)上非常接近。這表明,1XWM 在空間結(jié)構(gòu)理解、運(yùn)動(dòng)學(xué)約束建模以及物理一致性等方面已經(jīng)具備較強(qiáng)能力。

抓。



新動(dòng)作:清潔



接下來,1X 嘗試需要雙手協(xié)調(diào)和人機(jī)交互的任務(wù)。這些能力并未包含在訓(xùn)練數(shù)據(jù)集中。這表明此類知識(shí)來源于視頻預(yù)訓(xùn)練和以第一人稱視角進(jìn)行的人機(jī)交互訓(xùn)練。由于 NEO 的身體結(jié)構(gòu)與人類非常相似,因此從人類視頻數(shù)據(jù)中學(xué)習(xí)到的功能可以直接遷移應(yīng)用。





研究團(tuán)隊(duì)還通過系統(tǒng)性的實(shí)物實(shí)驗(yàn)評(píng)估了 1XWM 在分布內(nèi)(ID)與分布外(OOD)任務(wù)上的表現(xiàn)。每類任務(wù)均重復(fù)執(zhí)行 30 次。結(jié)果顯示,1XWM 在多種動(dòng)作原語上都保持了穩(wěn)定的成功率,不過部分對(duì)精細(xì)操作要求較高的任務(wù)(例如倒液體、繪圖等)仍然具有一定挑戰(zhàn)性。



能否將視頻質(zhì)量與任務(wù)成功率聯(lián)系起來?

如果可以,就能使用視覺指標(biāo)來衡量和改進(jìn)視頻質(zhì)量,并估計(jì)實(shí)際任務(wù)成功的可能性。

有時(shí),生成的視頻是否可能成功一目了然。例如,向 1XWM 模型輸入拉取紙巾指令,有時(shí)會(huì)生成 NEO 機(jī)器人拿起紙巾盒而不是拉取紙巾的視頻。執(zhí)行這些錯(cuò)誤生成的視頻時(shí),成功率幾乎為 0%。

1X 團(tuán)隊(duì)注意到像測試時(shí)計(jì)算這樣的方法可以提高任務(wù)成功率。受此啟發(fā),他們嘗試并行生成多個(gè)視頻,并執(zhí)行其中質(zhì)量最好的一個(gè)。這個(gè)選擇過程可以手動(dòng)完成,但也可以使用 VLM 評(píng)估器進(jìn)行自動(dòng)化。



第一視角數(shù)據(jù)與高質(zhì)量字幕的重要性

基于此前假設(shè):生成視頻的質(zhì)量與任務(wù)成功率之間存在相關(guān)性,研究團(tuán)隊(duì)對(duì)若干訓(xùn)練選擇進(jìn)行了視覺層面的消融分析,重點(diǎn)考察了字幕上采樣以及第一視角人類數(shù)據(jù)訓(xùn)練這兩項(xiàng)因素的影響。

實(shí)驗(yàn)共使用了三個(gè)評(píng)測數(shù)據(jù)集,每個(gè)數(shù)據(jù)集均包含 500 組起始圖像–提示詞對(duì):

  • 分布內(nèi)數(shù)據(jù)集:包含與機(jī)器人訓(xùn)練數(shù)據(jù)分布一致的復(fù)雜任務(wù)和場景,主要是雜亂環(huán)境中、物體位置較為困難的抓取與放置任務(wù)。
  • 新任務(wù)數(shù)據(jù)集:由一組全新的任務(wù)構(gòu)成,例如攪拌碗、抽紙、相對(duì)尺寸判斷(選擇更大的物體)、雙手協(xié)同操作等,數(shù)據(jù)采集于真實(shí)世界中的簡單背景場景。
  • 分布外 T2I(OOD T2I)數(shù)據(jù)集:完全由抓取任務(wù)組成,其初始幀由文生圖模型生成,隨機(jī)采樣分布外的家庭物體與背景場景。

下面是新任務(wù)數(shù)據(jù)示例:



團(tuán)隊(duì)還要求人工標(biāo)注員審查每個(gè)生成的視頻,并根據(jù)物理合理性、任務(wù)完成情況以及與 NEO 的形態(tài)和能力的一致性來決定接受或拒絕該視頻。



字幕上采樣在所有評(píng)測數(shù)據(jù)集上都能提升視頻生成質(zhì)量,因?yàn)楦?xì)致的字幕與視頻模型預(yù)訓(xùn)練時(shí)的文本條件更加匹配,也能更清晰地引導(dǎo)具體動(dòng)作生成。

引入第一視角人類數(shù)據(jù)則顯著提升了新任務(wù)和分布外場景下的生成質(zhì)量,說明這類數(shù)據(jù)為操作任務(wù)提供了可遷移的通用先驗(yàn),且與 NEO 的類人具身高度契合。

不過,在已有大量 NEO 數(shù)據(jù)覆蓋的分布內(nèi)任務(wù)上,額外加入第一視角數(shù)據(jù)可能會(huì)稀釋后訓(xùn)練數(shù)據(jù)分布,對(duì)效果提升有限,甚至略有負(fù)面影響。



參考鏈接:https://www.1x.tech/discover/world-model-self-learning

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1985年,李訥帶丈夫去買車,廠長盯著她的臉看了半天,死活不肯收錢,結(jié)果她接下來的舉動(dòng),讓在場所有人都紅了臉

1985年,李訥帶丈夫去買車,廠長盯著她的臉看了半天,死活不肯收錢,結(jié)果她接下來的舉動(dòng),讓在場所有人都紅了臉

桃煙讀史
2026-01-07 01:02:14
CCTV5直播!廣東VS上海勝負(fù)難料,超級(jí)外援互不相讓,杜鋒沖4連勝

CCTV5直播!廣東VS上海勝負(fù)難料,超級(jí)外援互不相讓,杜鋒沖4連勝

老葉評(píng)球
2026-01-13 21:44:01
突發(fā)!一加手機(jī)CEO劉作虎遭通緝!

突發(fā)!一加手機(jī)CEO劉作虎遭通緝!

中國半導(dǎo)體論壇
2026-01-14 12:51:01
越來越多孩子得白血?醫(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

越來越多孩子得白血。酷t(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

DrX說
2025-11-19 14:42:09
取消2萬億出口退稅,這一次我站胡錫進(jìn)

取消2萬億出口退稅,這一次我站胡錫進(jìn)

冰川思想庫
2026-01-13 12:10:22
紅米新機(jī)突然曝光:1月14日,這配置確實(shí)給力啊

紅米新機(jī)突然曝光:1月14日,這配置確實(shí)給力啊

手機(jī)講壇
2026-01-14 12:44:04
火箭119-113公牛迎4利好!申京+戴維森作用明顯,史密斯終于回暖

火箭119-113公牛迎4利好!申京+戴維森作用明顯,史密斯終于回暖

籃球資訊達(dá)人
2026-01-14 11:59:31
盯上6000米深海稀土!日本派船探查,距中國加強(qiáng)兩用物項(xiàng)出口管制不到一周!高市早苗已決定提前大選

盯上6000米深海稀土!日本派船探查,距中國加強(qiáng)兩用物項(xiàng)出口管制不到一周!高市早苗已決定提前大選

每日經(jīng)濟(jì)新聞
2026-01-13 15:11:06
軍事專家李莉并沒有清空作品

軍事專家李莉并沒有清空作品

難得君
2026-01-13 11:46:20
大結(jié)局要來?俄軍終于想明白,炸軍工廠不如炸電廠,基輔陷入黑暗

大結(jié)局要來?俄軍終于想明白,炸軍工廠不如炸電廠,基輔陷入黑暗

近史閣
2026-01-14 11:20:39
手戴1000多萬名表,坐擁3.6億私人飛機(jī),“滬上皇”秦奮啥來頭?

手戴1000多萬名表,坐擁3.6億私人飛機(jī),“滬上皇”秦奮啥來頭?

小熊侃史
2026-01-12 07:40:07
終于明白為什么北京男籃險(xiǎn)勝江蘇,看完分析,恍然大悟

終于明白為什么北京男籃險(xiǎn)勝江蘇,看完分析,恍然大悟

宋隊(duì)搞笑配音
2026-01-14 11:29:01
廣東四大名嘴:何浩鵬患癌、鄭達(dá)晚節(jié)不保、陳揚(yáng)處境難,林頤還行

廣東四大名嘴:何浩鵬患癌、鄭達(dá)晚節(jié)不保、陳揚(yáng)處境難,林頤還行

動(dòng)物奇奇怪怪
2026-01-13 12:17:57
票房破518億,只是開始!吳京、沈騰、謝霆鋒要掀起一波新高潮了

票房破518億,只是開始!吳京、沈騰、謝霆鋒要掀起一波新高潮了

小丸子的娛樂圈
2026-01-14 10:40:42
蘇聯(lián)式解體將重演?俄羅斯專家大膽預(yù)測:美國或?qū)⒎至殉?個(gè)國家

蘇聯(lián)式解體將重演?俄羅斯專家大膽預(yù)測:美國或?qū)⒎至殉?個(gè)國家

小陳講史
2026-01-13 11:19:27
皇馬在阿韋洛亞麾下的預(yù)測首發(fā)陣容:新戰(zhàn)術(shù)與陣型大調(diào)整

皇馬在阿韋洛亞麾下的預(yù)測首發(fā)陣容:新戰(zhàn)術(shù)與陣型大調(diào)整

硯底沉香
2026-01-14 07:09:22
伊朗17歲少年抗議遭虐殺,心臟中槍暴打腦漿迸裂, 偽造墜亡死因

伊朗17歲少年抗議遭虐殺,心臟中槍暴打腦漿迸裂, 偽造墜亡死因

譯言
2026-01-13 13:15:58
特朗普或?qū)⒋驌粢晾,英國軍情六處前局長:普京并未準(zhǔn)備和談 | 狼叔看世界

特朗普或?qū)⒋驌粢晾,英國軍情六處前局長:普京并未準(zhǔn)備和談 | 狼叔看世界

狼叔看世界
2026-01-14 12:18:41
70年代,張幼儀在美國豪宅花園里拍下全家福,雍容富貴,兒孫滿堂

70年代,張幼儀在美國豪宅花園里拍下全家福,雍容富貴,兒孫滿堂

萬物知識(shí)圈
2026-01-14 09:08:42
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
2026-01-14 13:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12112文章數(shù) 142536關(guān)注度
往期回顧 全部

科技要聞

美國批準(zhǔn)英偉達(dá)H200賣給中國,但有條件

頭條要聞

一戶人家被全樓"孤立":加裝電梯沒出資 賣房時(shí)尷尬了

頭條要聞

一戶人家被全樓"孤立":加裝電梯沒出資 賣房時(shí)尷尬了

體育要聞

牛津?qū)W霸買下兒時(shí)主隊(duì),讓它成為英超黑馬

娛樂要聞

何晴去世30天,許亞軍終于發(fā)聲

財(cái)經(jīng)要聞

滬深北交易所提高融資保證金比例

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
教育
房產(chǎn)
公開課

數(shù)碼要聞

華碩:TUF GAMING X870-PRO WIFI7 W NEO主板系列首發(fā)NitroPath

藝術(shù)要聞

八大山人『山水花鳥冊』

教育要聞

“我就是不想再被她擺布!”寧波初三女孩用不上學(xué)報(bào)復(fù)媽媽

房產(chǎn)要聞

熱銷17億后!天正·三亞灣壹號(hào),被爆違建!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版