国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

小米首代機(jī)器人VLA模型開源,雷軍把門檻打下來了,消費(fèi)級(jí)顯卡可跑SOTA

0
分享至



仿真測(cè)試跑贏全球30款競(jìng)品。

作者 |李水青

編輯 |漠影

機(jī)器人前瞻2月12日?qǐng)?bào)道,今天,小米開源其首代機(jī)器人VLA(視覺-語言-動(dòng)作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數(shù),采用MoT混合架構(gòu)實(shí)現(xiàn)“大腦小腦”協(xié)同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準(zhǔn)測(cè)試中,包攬所有細(xì)分項(xiàng)SOTA(行業(yè)最佳)。

在真機(jī)評(píng)估中,Xiaomi-Robotics-0在疊毛巾、拆樂高等任務(wù)中動(dòng)作連貫、反應(yīng)靈敏。并且,該模型能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理。


▲將毛巾攤平-疊好

為了訓(xùn)練模型Xiaomi-Robotics-0,小米利用了一個(gè)龐大的數(shù)據(jù)集,包含2億級(jí)機(jī)器人軌跡數(shù)據(jù)與超過8000萬個(gè)通用視覺-語言數(shù)據(jù)樣本,其中包括338小時(shí)樂高拆卸、400小時(shí)毛巾折疊的數(shù)據(jù)。

目前,小米已開源了Xiaomi-Robotics-0的模型權(quán)重和完整代碼,包括技術(shù)報(bào)告也可以在下面地址中查看。

技術(shù)主頁:

https://xiaomi-robotics-0.github.io

開源代碼:

https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

模型權(quán)重:

https://huggingface.co/XiaomiRobotics

01.

拿下三大主流仿真測(cè)試SOTA

拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項(xiàng)仿真基準(zhǔn)測(cè)試的所有Benchmark、30種模型對(duì)比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達(dá)到98.7%。在SimplerEnv上,其在視覺匹配(85.5%)、視覺聚合(74.7%)和WidowX(79.2%)方面均表現(xiàn)出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長度分別達(dá)到4.75和4.80。

在VLM基準(zhǔn)測(cè)試中,其預(yù)訓(xùn)練模型與基礎(chǔ)預(yù)訓(xùn)練VLM的性能相當(dāng)。Xiaomi-Robotics-0保留了VLM本身的多模態(tài)理解能力,尤其是在具身更相關(guān)的Benchmark中表現(xiàn)較好,這是之前的很多VLA模型所不具備的。


▲該模型在VLA、VLM的Benchmark以及真實(shí)機(jī)器人的效果指標(biāo)

在真實(shí)機(jī)器人評(píng)估中,Xiaomi-Robotics-0在兩項(xiàng)具有挑戰(zhàn)性的雙手機(jī)器人操作任務(wù)——樂高拆卸和毛巾折疊中,實(shí)現(xiàn)了高成功率和強(qiáng)大的吞吐量,手眼協(xié)調(diào)表現(xiàn)較好。

以下是部分真機(jī)運(yùn)行片段:


▲將大塊積木逐步拆成小塊


▲主動(dòng)將多余毛巾放回以進(jìn)行疊放

02.

采用MoT混合架構(gòu)

大小腦聯(lián)動(dòng)實(shí)現(xiàn)精準(zhǔn)手眼協(xié)同

為了兼顧通用理解與精細(xì)控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構(gòu)。

該架構(gòu)包括一個(gè)視覺語言大腦(VLM)和一個(gè)動(dòng)作執(zhí)行小腦(Action Expert)。

視覺語言大腦:團(tuán)隊(duì)采用了多模態(tài)VLM大模型作為底座,它負(fù)責(zé)理解人類的模糊指令,如“請(qǐng)把毛巾疊好”,并從高清視覺輸入中捕捉空間關(guān)系。

動(dòng)作執(zhí)行小腦:為了生成高頻、平滑的動(dòng)作,團(tuán)隊(duì)嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動(dòng)作,而是生成一個(gè)“動(dòng)作塊”(Action Chunk),并通過流匹配(Flow-matching)技術(shù)確保動(dòng)作的精準(zhǔn)度。


▲模型架構(gòu)及訓(xùn)練方法

這種“大腦+小腦”的組合,讓模型既能聽懂指令,又能像人類一樣,在動(dòng)作執(zhí)行時(shí)保持極高的物理靈活性。


▲主動(dòng)靈活調(diào)整自身動(dòng)作

03.

基于2億級(jí)數(shù)據(jù)訓(xùn)練

分兩階段進(jìn)化

如何讓模型既不丟失常識(shí),又精通“體力活”?

團(tuán)隊(duì)的訓(xùn)練利用了一個(gè)龐大的數(shù)據(jù)集,其中包含約2億個(gè)機(jī)器人軌跡時(shí)間步長,和超過8000萬個(gè)通用視覺-語言數(shù)據(jù)樣本。機(jī)器人數(shù)據(jù)來源于開源數(shù)據(jù)集和通過遠(yuǎn)程操作收集的內(nèi)部數(shù)據(jù),包括338小時(shí)的樂高拆卸數(shù)據(jù)、400小時(shí)的毛巾折疊數(shù)據(jù)。

與此同時(shí),團(tuán)隊(duì)還設(shè)計(jì)了一套訓(xùn)練配方,包括跨模態(tài)預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。

1、跨模態(tài)預(yù)訓(xùn)練:提高模型動(dòng)作分布預(yù)測(cè)能力

大部分VLA模型在學(xué)動(dòng)作時(shí)往往會(huì)“變笨”,失去本身的理解能力。團(tuán)隊(duì)通過多模態(tài)與動(dòng)作數(shù)據(jù)的混合訓(xùn)練,讓模型在學(xué)會(huì)操作的同時(shí),依然保持較強(qiáng)的物體檢測(cè)、視覺問答和邏輯推理能力。

VLM協(xié)同訓(xùn)練:團(tuán)隊(duì)首先引入了Action Proposal機(jī)制,強(qiáng)迫VLM模型在理解圖像的同時(shí)預(yù)測(cè)多種動(dòng)作分布。這一步是為了讓VLM的特征空間與動(dòng)作空間對(duì)齊,不再僅僅是“紙上談兵”。

DiT專項(xiàng)訓(xùn)練:隨后,團(tuán)隊(duì)凍結(jié)VLM,專注于訓(xùn)練DiT, 學(xué)習(xí)如何從噪聲中恢復(fù)出精準(zhǔn)的動(dòng)作序列。這一階段,團(tuán)隊(duì)去除了VLM的離散Token,完全依賴KV特征進(jìn)行條件生成。通過DiT專項(xiàng)訓(xùn)練,模型可以生成高度平滑、精準(zhǔn)的的動(dòng)作序列。


▲多模態(tài)數(shù)據(jù)與跨本體機(jī)器人數(shù)據(jù)的分布

2、后訓(xùn)練:保障動(dòng)作連貫流暢

這是解鎖物理智能的核心路徑。針對(duì)推理延遲引發(fā)的真機(jī)“動(dòng)作斷層”問題,團(tuán)隊(duì)采用異步推理模式——讓模型推理與機(jī)器人運(yùn)行脫離同步約束、異步執(zhí)行,從機(jī)制上保障動(dòng)作連貫流暢。


▲異步推理示意圖,模型推理延遲不影響真機(jī)連續(xù)性運(yùn)行

為進(jìn)一步強(qiáng)化模型對(duì)環(huán)境變化的響應(yīng)敏捷性與運(yùn)行穩(wěn)定性,團(tuán)隊(duì)引入了:

Clean Action Prefix:將前一時(shí)刻預(yù)測(cè)的動(dòng)作作為輸入,確保動(dòng)作軌跡在時(shí)間維度上是連續(xù)的、不抖動(dòng)的,進(jìn)一步增加流暢性。

Λ-shape Attention Mask:通過特殊的注意力掩碼,強(qiáng)制模型更關(guān)注當(dāng)前的視覺反饋,而不是沉溺于歷史慣性。這讓機(jī)器人在面對(duì)環(huán)境突發(fā)變化時(shí),能夠展現(xiàn)出極強(qiáng)的反應(yīng)性物理智能。


▲團(tuán)隊(duì)采用特殊的注意力掩碼機(jī)制,有效緩解動(dòng)作慣性

04.

結(jié)語:VLA模型加速走向消費(fèi)級(jí)部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構(gòu),既保留了VLM的多模態(tài)知識(shí)儲(chǔ)備,又解決了傳統(tǒng)VLA模型“學(xué)動(dòng)作、忘視覺”的災(zāi)難性遺忘問題。

值得關(guān)注的是,該模型能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理,具身智能模型的部署門檻正下沉到普通開發(fā)者桌面,機(jī)器人軟件棧的平民化正在加速到來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
中國石油歷史上9次漲停

中國石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
“伊朗德黑蘭飛烏魯木齊航班進(jìn)入中國領(lǐng)空 機(jī)艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進(jìn)入中國領(lǐng)空 機(jī)艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

閃電新聞
2026-03-02 17:29:47
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動(dòng)了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動(dòng)了

好賢觀史記
2026-03-02 20:17:10
海瀾之家被“全軍拉黑”!中標(biāo)后拒簽合同,200億撐不起一單軍需

海瀾之家被“全軍拉黑”!中標(biāo)后拒簽合同,200億撐不起一單軍需

新浪財(cái)經(jīng)
2026-03-02 16:03:13
哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

名人茍或
2026-03-02 10:37:43
伊朗不值得同情!兩大國親手為他搭好擂臺(tái),卻反手被賣

伊朗不值得同情!兩大國親手為他搭好擂臺(tái),卻反手被賣

毛豆論道
2026-03-02 17:01:06
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時(shí)停戰(zhàn)由伊方?jīng)Q定"

三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時(shí)停戰(zhàn)由伊方?jīng)Q定"

派大星紀(jì)錄片
2026-03-02 10:34:38
真主黨表演“復(fù)仇”,以色列10分鐘將高層一鍋端

真主黨表演“復(fù)仇”,以色列10分鐘將高層一鍋端

難得君
2026-03-02 18:52:53
外媒:特朗普對(duì)伊朗發(fā)出新威脅

外媒:特朗普對(duì)伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
看完這三張底牌,你就知道伊朗“帶路黨”要“變天”有多難?

看完這三張底牌,你就知道伊朗“帶路黨”要“變天”有多難?

文昌每日談
2026-03-02 13:14:00
突發(fā):莫斯科遭襲擊

突發(fā):莫斯科遭襲擊

中國網(wǎng)
2026-03-02 16:38:20
復(fù)盤5次中東戰(zhàn)爭!別光盯著油價(jià)黃金,A 股這些機(jī)會(huì)已經(jīng)明牌了

復(fù)盤5次中東戰(zhàn)爭!別光盯著油價(jià)黃金,A 股這些機(jī)會(huì)已經(jīng)明牌了

風(fēng)風(fēng)順
2026-03-02 11:21:39
4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

娛說瑜悅
2026-03-02 14:18:06
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
川普活成自己最討厭的人,昔日數(shù)次預(yù)言奧巴馬打伊朗:為挽回顏面與支持率

川普活成自己最討厭的人,昔日數(shù)次預(yù)言奧巴馬打伊朗:為挽回顏面與支持率

不掉線電波
2026-03-02 11:07:35
為什么科學(xué)家說:如果宇宙中只有人類,比找到外星人更可怕?

為什么科學(xué)家說:如果宇宙中只有人類,比找到外星人更可怕?

觀察宇宙
2026-03-01 20:46:19
美國中央司令部:美軍三架F-15E戰(zhàn)機(jī)在科威特“明顯遭友軍誤擊”墜毀

美國中央司令部:美軍三架F-15E戰(zhàn)機(jī)在科威特“明顯遭友軍誤擊”墜毀

環(huán)球網(wǎng)資訊
2026-03-02 19:32:13
突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

每日經(jīng)濟(jì)新聞
2026-03-02 12:32:06
2026-03-02 23:59:00
機(jī)器人前瞻
機(jī)器人前瞻
專注于機(jī)器人報(bào)道的媒體
378文章數(shù) 8關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
健康
數(shù)碼
手機(jī)
軍事航空

《寶可夢(mèng)》新作M站90分!近年最新鮮的寶可夢(mèng)體驗(yàn)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

英偉達(dá)發(fā)布595.71 WHQL驅(qū)動(dòng),修復(fù)顯卡風(fēng)扇“翻車”問題

手機(jī)要聞

iPhone 17系列:國內(nèi)銷量已破2200萬!網(wǎng)友:華為仍需努力

軍事要聞

美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版