国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

小米首代機器人VLA模型開源,雷軍把門檻打下來了,消費級顯卡可跑

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 李水青
編輯 漠影

機器人前瞻2月12日報道,今天,小米開源其首代機器人VLA(視覺-語言-動作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數(shù),采用MoT混合架構實現(xiàn)“大腦小腦”協(xié)同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準測試中,包攬所有細分項SOTA(行業(yè)最佳)。

在真機評估中,Xiaomi-Robotics-0在疊毛巾、拆樂高等任務中動作連貫、反應靈敏。并且,該模型能在消費級顯卡上實現(xiàn)實時推理。


▲將毛巾攤平-疊好

為了訓練模型Xiaomi-Robotics-0,小米利用了一個龐大的數(shù)據(jù)集,包含2億級機器人軌跡數(shù)據(jù)與超過8000萬個通用視覺-語言數(shù)據(jù)樣本,其中包括338小時樂高拆卸、400小時毛巾折疊的數(shù)據(jù)。

目前,小米已開源了Xiaomi-Robotics-0的模型權重和完整代碼,包括技術報告也可以在下面地址中查看。

技術主頁:
https://xiaomi-robotics-0.github.io
開源代碼:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型權重:
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真測試SOTA,拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項仿真基準測試的所有Benchmark、30種模型對比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達到98.7%。在SimplerEnv上,其在視覺匹配(85.5%)、視覺聚合(74.7%)和WidowX(79.2%)方面均表現(xiàn)出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長度分別達到4.75和4.80。

在VLM基準測試中,其預訓練模型與基礎預訓練VLM的性能相當。Xiaomi-Robotics-0保留了VLM本身的多模態(tài)理解能力,尤其是在具身更相關的Benchmark中表現(xiàn)較好,這是之前的很多VLA模型所不具備的。


▲該模型在VLA、VLM的Benchmark以及真實機器人的效果指標

在真實機器人評估中,Xiaomi-Robotics-0在兩項具有挑戰(zhàn)性的雙手機器人操作任務——樂高拆卸和毛巾折疊中,實現(xiàn)了高成功率和強大的吞吐量,手眼協(xié)調表現(xiàn)較好。

以下是部分真機運行片段:


▲將大塊積木逐步拆成小塊


▲主動將多余毛巾放回以進行疊放

二、采用MoT混合架構,大小腦聯(lián)動實現(xiàn)精準手眼協(xié)同

為了兼顧通用理解與精細控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構。

該架構包括一個視覺語言大腦(VLM)和一個動作執(zhí)行小腦(Action Expert)。

視覺語言大腦:團隊采用了多模態(tài)VLM大模型作為底座,它負責理解人類的模糊指令,如“請把毛巾疊好”,并從高清視覺輸入中捕捉空間關系。

動作執(zhí)行小腦:為了生成高頻、平滑的動作,團隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作,而是生成一個“動作塊”(Action Chunk),并通過流匹配(Flow-matching)技術確保動作的精準度。


▲模型架構及訓練方法

這種“大腦+小腦”的組合,讓模型既能聽懂指令,又能像人類一樣,在動作執(zhí)行時保持極高的物理靈活性。


▲主動靈活調整自身動作

三、基于2億級數(shù)據(jù)訓練,分兩階段進化

如何讓模型既不丟失常識,又精通“體力活”?

團隊的訓練利用了一個龐大的數(shù)據(jù)集,其中包含約2億個機器人軌跡時間步長,和超過8000萬個通用視覺-語言數(shù)據(jù)樣本。機器人數(shù)據(jù)來源于開源數(shù)據(jù)集和通過遠程操作收集的內部數(shù)據(jù),包括338小時的樂高拆卸數(shù)據(jù)、400小時的毛巾折疊數(shù)據(jù)。

與此同時,團隊還設計了一套訓練配方,包括跨模態(tài)預訓練和后訓練兩個階段。

1、跨模態(tài)預訓練:提高模型動作分布預測能力

大部分VLA模型在學動作時往往會“變笨”,失去本身的理解能力。團隊通過多模態(tài)與動作數(shù)據(jù)的混合訓練,讓模型在學會操作的同時,依然保持較強的物體檢測、視覺問答和邏輯推理能力。

VLM協(xié)同訓練:團隊首先引入了Action Proposal機制,強迫VLM模型在理解圖像的同時預測多種動作分布。這一步是為了讓VLM的特征空間與動作空間對齊,不再僅僅是“紙上談兵”。

DiT專項訓練:隨后,團隊凍結VLM,專注于訓練DiT, 學習如何從噪聲中恢復出精準的動作序列。這一階段,團隊去除了VLM的離散Token,完全依賴KV特征進行條件生成。通過DiT專項訓練,模型可以生成高度平滑、精準的的動作序列。


▲多模態(tài)數(shù)據(jù)與跨本體機器人數(shù)據(jù)的分布

2、后訓練:保障動作連貫流暢

這是解鎖物理智能的核心路徑。針對推理延遲引發(fā)的真機“動作斷層”問題,團隊采用異步推理模式——讓模型推理與機器人運行脫離同步約束、異步執(zhí)行,從機制上保障動作連貫流暢。


▲異步推理示意圖,模型推理延遲不影響真機連續(xù)性運行

為進一步強化模型對環(huán)境變化的響應敏捷性與運行穩(wěn)定性,團隊引入了:

Clean Action Prefix:將前一時刻預測的動作作為輸入,確保動作軌跡在時間維度上是連續(xù)的、不抖動的,進一步增加流暢性。

Λ-shape Attention Mask:通過特殊的注意力掩碼,強制模型更關注當前的視覺反饋,而不是沉溺于歷史慣性。這讓機器人在面對環(huán)境突發(fā)變化時,能夠展現(xiàn)出極強的反應性物理智能。


▲團隊采用特殊的注意力掩碼機制,有效緩解動作慣性

結語:VLA模型加速走向消費級部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構,既保留了VLM的多模態(tài)知識儲備,又解決了傳統(tǒng)VLA模型“學動作、忘視覺”的災難性遺忘問題。

值得關注的是,該模型能在消費級顯卡上實現(xiàn)實時推理,具身智能模型的部署門檻正下沉到普通開發(fā)者桌面,機器人軟件棧的平民化正在加速到來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海已有多人中招!有人損失近50000元,刷短視頻時突然彈出,警方緊急提醒:千萬別點!

上海已有多人中招!有人損失近50000元,刷短視頻時突然彈出,警方緊急提醒:千萬別點!

網絡辟謠
2026-03-02 10:32:08
陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發(fā)漂亮

陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發(fā)漂亮

老吳教育課堂
2026-03-01 17:57:28
外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

參考消息
2026-03-01 20:58:54
多位明星被困中東!周雨彤失聯(lián),蔣麗莎曬轟炸警報,李茂一夜未眠

多位明星被困中東!周雨彤失聯(lián),蔣麗莎曬轟炸警報,李茂一夜未眠

叨嘮
2026-03-02 21:23:58
香港大學漕河涇基地揭牌,港大在滬形成“一校三地、多點協(xié)同”布局

香港大學漕河涇基地揭牌,港大在滬形成“一校三地、多點協(xié)同”布局

澎湃新聞
2026-03-01 22:10:28
婚禮當天撕戶口本后續(xù):原因曝光,新郎已報警,稱新娘才是受害者

婚禮當天撕戶口本后續(xù):原因曝光,新郎已報警,稱新娘才是受害者

墨印齋
2026-03-02 12:33:46
中俄關系正在發(fā)生微妙變化!俄國專家:我們眼中只有利益了

中俄關系正在發(fā)生微妙變化!俄國專家:我們眼中只有利益了

混沌錄
2026-03-02 22:45:06
功夫大哥肢解大兒子續(xù)命

功夫大哥肢解大兒子續(xù)命

毒舌扒姨太
2026-03-02 22:47:22
畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

淚滿過眼
2026-02-25 05:03:57
致敬傳奇,英超官方在本輪賽前為英超歷史出場王米爾納頒獎

致敬傳奇,英超官方在本輪賽前為英超歷史出場王米爾納頒獎

懂球帝
2026-03-02 20:21:23
俄媒:按照普京指示,俄緊急情況部派伊爾-76運輸機接回俄駐以色列外交人員

俄媒:按照普京指示,俄緊急情況部派伊爾-76運輸機接回俄駐以色列外交人員

環(huán)球網資訊
2026-03-02 10:21:21
曝國家級運動員滕志強去世!僅35歲,知情人透露細節(jié),兒子剛兩歲

曝國家級運動員滕志強去世!僅35歲,知情人透露細節(jié),兒子剛兩歲

裕豐娛間說
2026-03-02 10:15:34
歷史上唯一一位“女狀元”,白天處理政務,晚上淪為玩物

歷史上唯一一位“女狀元”,白天處理政務,晚上淪為玩物

談史論天地
2026-02-23 10:39:15
村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

子芫伴你成長
2026-02-23 12:21:40
網傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

網傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

快科技
2026-02-27 21:58:15
他接受紀律審查和監(jiān)察調查

他接受紀律審查和監(jiān)察調查

錫望
2026-03-02 12:47:11
兩極反轉!網友被父母的老式旅游折服了!評論區(qū)全部是真香現(xiàn)場

兩極反轉!網友被父母的老式旅游折服了!評論區(qū)全部是真香現(xiàn)場

另子維愛讀史
2026-02-26 21:36:17
《純真年代》大結局:傻人費霆逆襲贏麻了,心機女凌漪結局太解氣

《純真年代》大結局:傻人費霆逆襲贏麻了,心機女凌漪結局太解氣

東方不敗然多多
2026-03-02 17:15:42
教父級基金經理清倉了。。

教父級基金經理清倉了。。

格隆匯
2026-03-02 15:38:27
美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實在強得可怕

美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實在強得可怕

卷史
2026-02-27 19:40:42
2026-03-02 23:56:49
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
378文章數(shù) 8關注度
往期回顧 全部

科技要聞

蘋果中國官網上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

油價飆升 美伊沖突將如何攪動全球經濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

數(shù)碼
旅游
房產
親子
公開課

數(shù)碼要聞

英偉達發(fā)布595.71 WHQL驅動,修復顯卡風扇“翻車”問題

旅游要聞

湄旅節(jié)后回血指南,用一場慢游,把復工焦慮留在21°C的春天里

房產要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版