国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

原力靈機具身大模型DM0硬核拆解:物理AI如何迎來自己的“原生”時代

0
分享至


責(zé)編 | 夢依丹

出品丨AI 科技大本營(ID:rgznai100)

當(dāng)前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領(lǐng)域的成功未能直接遷移至物理機器人,歸根結(jié)底在于其互聯(lián)網(wǎng)原生的基因。主流的“預(yù)訓(xùn)練-后適配”(Pretrain-then-Adapt)的范式依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù),導(dǎo)致模型先天缺失物理基礎(chǔ)(Physical Grounding),在落地時往往顧此失彼:要么導(dǎo)致操作與導(dǎo)航的模塊割裂,要么引發(fā)災(zāi)難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。


圖1:DM0 在異構(gòu)語料庫上進行預(yù)訓(xùn)練——無縫整合互聯(lián)網(wǎng)、自動駕駛和具身操作數(shù)據(jù)

為了打破這一局限,原力靈機聯(lián)合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從0開始」:從訓(xùn)練的最初階段,就采用統(tǒng)一的視角,將具身傳感器與運動數(shù)據(jù)視為與語言、視覺數(shù)據(jù)同等重要的一等公民。

作為一個端到端模型,DM0 可以無縫統(tǒng)一機器人的精細操作(Manipulation)與移動導(dǎo)航(Navigation)。在 RoboChallenge 真實世界基準(zhǔn)測試 Table 30 中,DM0 在單任務(wù)(Specialist)和多任務(wù)(Generalist)兩種設(shè)置下均以顯著優(yōu)勢領(lǐng)先現(xiàn)有 SOTA 模型,展現(xiàn)出極其強大的物理世界泛化與執(zhí)行能力。

  • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

  • 論文鏈接:https://arxiv.org/html/2602.14974v1

  • DM0 GitHub : https://github.com/Dexmal/dexbotic

  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0


方法與架構(gòu):多源混合訓(xùn)練與空間腳手架

真正的通用機器人需要一個具身原生模型,這要求模型必須調(diào)和異構(gòu)數(shù)據(jù)源——涵蓋互聯(lián)網(wǎng)語料、自動駕駛?cè)罩疽约皺C器人操作軌跡,學(xué)習(xí)既具有豐富語義又具備物理可執(zhí)行性的表征。為此,DM0 并未采用簡單的端到端多層感知機映射,而是設(shè)計了一套精妙的多源混合訓(xùn)練與具身空間腳手架(Embodied Spatial Scaffolding)架構(gòu)。

整體模型架構(gòu)


圖 2:DM0 架構(gòu)圖,包含 VLM 主干和基于流匹配(Flow Matching)的動作專家

DM0 的核心架構(gòu)由兩個主要組件構(gòu)成:

  1. VLM 主干網(wǎng)絡(luò): 基于 Qwen3-1.7B 大語言模型構(gòu)建,并增加了一個強大的感知編碼器 PE,負責(zé)多模態(tài)感知、語義理解以及在機器人環(huán)境中的具身推理。輸入的多視角圖像會被調(diào)整為 728×728 的高分辨率,經(jīng)過感知編碼器處理后,提取出細粒度的視覺特征。

  2. 動作專家:這是一個基于流匹配的連續(xù)控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網(wǎng)絡(luò)提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續(xù)控制動作。

在推理時,DM0 支持兩種模式:既可以直接從多模態(tài)觀察和指令中預(yù)測連續(xù)動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導(dǎo)動作專家輸出動作。

多源混合訓(xùn)練

聯(lián)合優(yōu)化語言目標(biāo)與連續(xù)控制目標(biāo)往往會破壞預(yù)訓(xùn)練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發(fā)的混合梯度策略。

具體而言,在針對具身機器人數(shù)據(jù)進行訓(xùn)練時,動作專家的梯度不會回傳給 VLM 主干網(wǎng)絡(luò)。這種解耦操作有效防止機器人動作數(shù)據(jù)對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續(xù)使用非具身數(shù)據(jù)進行更新,不斷優(yōu)化其通用語言和視覺理解能力。此外,VLM 還被監(jiān)督預(yù)測離散的動作 Token,促使它編碼出有利于下游連續(xù)動作預(yù)測的動作相關(guān)語義。

具身空間腳手架

為進一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創(chuàng)新性提出一套分層預(yù)測框架——具身空間腳手架。在訓(xùn)練中,模型被要求順序執(zhí)行以下輔助任務(wù),構(gòu)建出空間維度的思維鏈(Spatial CoT):

  • 子任務(wù)預(yù)測:將復(fù)雜的總指令分解為一系列可解釋、易管理的子步驟。

  • 目標(biāo)邊界框預(yù)測:在視覺觀察中預(yù)測出目標(biāo)物體或目標(biāo)區(qū)域的 2D 邊界框。

  • 末端執(zhí)行器軌跡預(yù)測:預(yù)測機器臂末端在主攝像機視圖下的未來 2D 軌跡。

  • 離散動作預(yù)測:預(yù)測代表機器人控制命令的離散 Token。

這種設(shè)計如同為模型搭建一層層腳手架,引導(dǎo)其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關(guān)的幾何軌跡,最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務(wù)無關(guān)的噪聲,還極大地限制了動作策略的解空間。


三階段訓(xùn)練配方:從互聯(lián)網(wǎng)原生走向具身原生


圖3:預(yù)訓(xùn)練、中期訓(xùn)練、后期訓(xùn)練的數(shù)據(jù)混合比例

DM0 的強大不僅源于架構(gòu),更歸功于其精心設(shè)計的三階段訓(xùn)練 pipeline,總計消耗了高達 1.2T Token 的數(shù)據(jù)。預(yù)訓(xùn)練階段在大規(guī)模的互聯(lián)網(wǎng)、自動駕駛和具身數(shù)據(jù)上建立強大的多模態(tài)感知;中訓(xùn)練階段加入動作預(yù)測,并在跨多種機器人平臺的具身數(shù)據(jù)上把模型錨定為可執(zhí)行的控制,同時保留通用對話能力;后訓(xùn)練階段則收窄所使用的本體與數(shù)據(jù)范圍,以便在少數(shù)目標(biāo)平臺上穩(wěn)定視覺-運動對齊。

Pretraining

這個階段,模型在一套極其豐富的異構(gòu)語料庫上進行聯(lián)合優(yōu)化,參數(shù)全部解凍。數(shù)據(jù)不僅包含傳統(tǒng)的網(wǎng)頁文本、教育文獻、OCR 數(shù)據(jù)和通用 VQA,還極具前瞻性地引入 GUI 界面數(shù)據(jù)、自動駕駛深度檢測數(shù)據(jù)以及大量的具身數(shù)據(jù)。通過 1.13T Token 的大規(guī)模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(如空間關(guān)系、深度結(jié)構(gòu)、物理動力學(xué))。

Mid-Training

中期訓(xùn)練階段引入了動作預(yù)測模塊,數(shù)據(jù)規(guī)模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數(shù)據(jù)混合了跨形態(tài)的單臂/雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環(huán)境數(shù)據(jù)以及視覺-語言指令微調(diào)數(shù)據(jù)(如 Cambrian-10M、LLaVA-OV)。為了增強模型的長程規(guī)劃能力,本文還專門構(gòu)建了具身推理(ER)數(shù)據(jù)集,包含任務(wù)分解、進度估計等訓(xùn)練項。

Post-Training

后期訓(xùn)練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本,將目標(biāo)縮小至少數(shù)特定的真實機器人平臺。減少不同形態(tài)機器人的分布方差,使得模型能在目標(biāo)機械臂上建立極其穩(wěn)定的視覺-運動映射。


實驗結(jié)果:在 RoboChallenge 上的碾壓級表現(xiàn)

為全面驗證 DM0 的物理世界交互能力,DM0 在極具挑戰(zhàn)性的 RoboChallenge 真實世界基準(zhǔn) Table30 上進行評估。該基準(zhǔn)包含 30 個需要多步推理和精確連續(xù)控制的長視野桌面操作任務(wù)。

單任務(wù)(Specialist)評估


表 1:RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結(jié)果

如表 1 所示,DM0-Specialist 模型在僅有 2.4B 參數(shù)量的情況下,在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上,全面超越參數(shù)量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型,取得了 62.00% 的平均成功率。

值得注意的是,在諸如“在籃子中整理水果”、“插網(wǎng)線”和“掃垃圾”這類長時序、強交互的復(fù)雜任務(wù)中,DM0 甚至取得了 100% 或 80% 這樣接近完美的成績,而其他基準(zhǔn)模型在這些任務(wù)上經(jīng)常徹底失?。?%)。

多任務(wù)(Generalist)評估


表 2:RoboChallenge Table30 上當(dāng)前最佳的開源 VLA 多任務(wù)模型的對比結(jié)果

在更考驗?zāi)P涂缛蝿?wù)適應(yīng)能力的多任務(wù)中(一個模型同時掌握某平臺下的所有任務(wù)),DM0-Generalist 同樣展現(xiàn)出壓倒性優(yōu)勢,取得了 37.3% 的平均成功率和 49.08 的任務(wù)得分,大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27;特別是在“堆疊彩色方塊”、“將鞋子放在鞋架上”等需要高精度空間理解的任務(wù)中,DM0 依然能夠打出滿分。


圖4:DM0 具備在具身場景中預(yù)測子任務(wù)的思維鏈(CoT)能力

除了卓越的動作執(zhí)行能力,由于實施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態(tài)對話能力。在具身場景的物體檢測、復(fù)雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務(wù)中,它也能對答如流。


結(jié)論與未來展望

DM0 從根本上重新思考了通用機器人策略的開發(fā)路徑。它證明了與其讓純語義的大語言模型在事后去適應(yīng)機器人身體,不如在預(yù)訓(xùn)練的萌芽期,就將物理世界的感知與多源數(shù)據(jù)相融合,構(gòu)建一個真正意義上的具身原生 VLA 模型;其獨創(chuàng)的混合梯度訓(xùn)練保護了認知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經(jīng)樹立了一個強大的基準(zhǔn),但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團隊也指出了幾個極具潛力的演進方向:

  1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團隊計劃將其擴展至 7B 甚至 30B 規(guī)模,并吞吐更為龐大的仿真+真實的混合數(shù)據(jù)集,以期觀察到在物理推理層面的涌現(xiàn)能力。

  2. 更廣闊的多模態(tài)感知:現(xiàn)實世界的物理交互絕不僅限于看和說。DM0 的預(yù)訓(xùn)練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機器人即便在視野受限的動態(tài)環(huán)境中依然游刃有余。

  3. 長程推理與世界模型:現(xiàn)有的空間腳手架雖然解決了部分規(guī)劃問題,但跨越超長時間維度的任務(wù)仍是業(yè)界難題。未來,若能將世界模型整合進 DM0 ,賦予機器人在腦海中預(yù)演動作后果并進行長期規(guī)劃的能力,真正的全能型 Physical AI 將不再遙遠。


未來沒有前后端,只有 AI Agent 工程師。

這場十倍速的變革已至,你的下一步在哪?

4 月 17-18 日,由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開,大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題,為你繪制通往未來的認知地圖。

成為時代的見證者,更要成為時代的先行者。

奇點智能技術(shù)大會上海站,我們不見不散!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
安徽29歲開邁巴赫相親,女子主動撲上遭拒后爬車頂賴著,網(wǎng)友評辣眼

安徽29歲開邁巴赫相親,女子主動撲上遭拒后爬車頂賴著,網(wǎng)友評辣眼

糖逗在娛樂
2026-03-07 22:30:03
暴跌94%!霍爾木茲海峽,傳來大消息!高盛突發(fā)警告!

暴跌94%!霍爾木茲海峽,傳來大消息!高盛突發(fā)警告!

證券時報
2026-03-07 23:53:44
人倫崩塌,誰在毀掉我們的家庭?

人倫崩塌,誰在毀掉我們的家庭?

青蘋果sht
2026-03-07 05:52:19
大內(nèi)總管被殺,伊朗開始軟化?

大內(nèi)總管被殺,伊朗開始軟化?

西樓飲月
2026-03-07 23:35:57
上帝之女洪宣嬌: “毀掉”太平天國的淫蕩女人

上帝之女洪宣嬌: “毀掉”太平天國的淫蕩女人

年代回憶
2026-03-07 20:05:55
扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

鷹眼Defence
2026-03-07 18:14:39
美國完全沒料到!伊朗大阿亞圖拉全球追殺令,3億教徒裁決特朗普

美國完全沒料到!伊朗大阿亞圖拉全球追殺令,3億教徒裁決特朗普

好賢觀史記
2026-03-07 16:38:35
集體下挫!美聯(lián)儲降息,突傳大消息!

集體下挫!美聯(lián)儲降息,突傳大消息!

證券時報e公司
2026-03-07 22:27:40
吳京:可能沒有以后了

吳京:可能沒有以后了

視覺志
2026-03-05 10:38:20
全網(wǎng)催開門!上海一小吃店明天開門營業(yè),老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價

全網(wǎng)催開門!上海一小吃店明天開門營業(yè),老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價

極目新聞
2026-03-07 18:58:33
全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應(yīng)民生期盼、保障休假權(quán)益、激發(fā)內(nèi)需活力、疏解春運壓力

全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應(yīng)民生期盼、保障休假權(quán)益、激發(fā)內(nèi)需活力、疏解春運壓力

每日經(jīng)濟新聞
2026-03-07 16:12:40
一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

娛說瑜悅
2026-03-06 18:13:06
CBA扣籃大賽預(yù)賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級!

CBA扣籃大賽預(yù)賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級!

籃球資訊達人
2026-03-07 22:44:59
海瀾之家被軍隊設(shè)局坑害?真相到底是什么?

海瀾之家被軍隊設(shè)局坑害?真相到底是什么?

有牙的兔紙
2026-03-07 15:26:41
特朗普沒想到:美伊大戰(zhàn)打醒兩個國家,一個是越南,一個是菲律賓

特朗普沒想到:美伊大戰(zhàn)打醒兩個國家,一個是越南,一個是菲律賓

探索新高度
2026-03-07 23:24:06
鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

奧拜爾
2026-03-07 21:31:37
特朗普發(fā)表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續(xù)攻擊才實現(xiàn)的

特朗普發(fā)表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續(xù)攻擊才實現(xiàn)的

爆角追蹤
2026-03-07 21:09:51
iPhone 18 Pro Max正式定檔,史詩級升級全曝光

iPhone 18 Pro Max正式定檔,史詩級升級全曝光

小柱解說游戲
2026-03-08 01:46:36
魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

鶴羽說個事
2026-03-07 18:52:54
足壇一夜動態(tài):尤文造4-0慘案,巴薩小勝巴斯克雄獅,曼城擒喜鵲

足壇一夜動態(tài):尤文造4-0慘案,巴薩小勝巴斯克雄獅,曼城擒喜鵲

釘釘陌上花開
2026-03-08 06:27:53
2026-03-08 06:51:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2639文章數(shù) 7660關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗啟動“真實承諾4”第27輪軍事行動

頭條要聞

伊朗啟動“真實承諾4”第27輪軍事行動

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財產(chǎn)分配

財經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

親子
房產(chǎn)
旅游
手機
時尚

親子要聞

抓住長個兒好時機,讓孩子躥一躥!

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

旅游要聞

550畝櫻花爆火!2026東湖櫻花開了,藏著武漢春日密碼

手機要聞

vivo X300 Max真機曝光,圓形后攝方案

2026春夏一定要擁有的6只包,好看又百搭

無障礙瀏覽 進入關(guān)懷版