国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身大模型DM0硬核拆解:物理AI如何迎來自己的“原生”時代

0
分享至

責(zé)編 | 夢依丹

出品丨AI 科技大本營(ID:rgznai100)

當(dāng)前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領(lǐng)域的成功未能直接遷移至物理機(jī)器人,歸根結(jié)底在于其互聯(lián)網(wǎng)原生的基因。主流的“預(yù)訓(xùn)練-后適配”(Pretrain-then-Adapt)的范式依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù),導(dǎo)致模型先天缺失物理基礎(chǔ)(Physical Grounding),在落地時往往顧此失彼:要么導(dǎo)致操作與導(dǎo)航的模塊割裂,要么引發(fā)災(zāi)難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。


圖1:DM0 在異構(gòu)語料庫上進(jìn)行預(yù)訓(xùn)練——無縫整合互聯(lián)網(wǎng)、自動駕駛

為了打破這一局限,原力靈機(jī)聯(lián)合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從0開始」:從訓(xùn)練的最初階段,就采用統(tǒng)一的視角,將具身傳感器與運(yùn)動數(shù)據(jù)視為與語言、視覺數(shù)據(jù)同等重要的一等公民。

作為一個端到端模型,DM0 可以無縫統(tǒng)一機(jī)器人的精細(xì)操作(Manipulation)與移動導(dǎo)航(Navigation)。在 RoboChallenge 真實(shí)世界基準(zhǔn)測試 Table 30 中,DM0 在單任務(wù)(Specialist)和多任務(wù)(Generalist)兩種設(shè)置下均以顯著優(yōu)勢領(lǐng)先現(xiàn)有 SOTA 模型,展現(xiàn)出極其強(qiáng)大的物理世界泛化與執(zhí)行能力。

  • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
  • 論文鏈接:https://arxiv.org/html/2602.14974v1
  • DM0 GitHub : https://github.com/Dexmal/dexbotic
  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

方法與架構(gòu):多源混合訓(xùn)練與空間腳手架

真正的通用機(jī)器人需要一個具身原生模型,這要求模型必須調(diào)和異構(gòu)數(shù)據(jù)源——涵蓋互聯(lián)網(wǎng)語料、自動駕駛?cè)罩疽约皺C(jī)器人操作軌跡,學(xué)習(xí)既具有豐富語義又具備物理可執(zhí)行性的表征。為此,DM0 并未采用簡單的端到端多層感知機(jī)映射,而是設(shè)計了一套精妙的多源混合訓(xùn)練與具身空間腳手架(Embodied Spatial Scaffolding)架構(gòu)。

整體模型架構(gòu)


圖 2:DM0 架構(gòu)圖,包含 VLM 主干和基于流匹配(Flow Matching)

DM0 的核心架構(gòu)由兩個主要組件構(gòu)成:

  1. VLM 主干網(wǎng)絡(luò): 基于 Qwen3-1.7B 大語言模型構(gòu)建,并增加了一個強(qiáng)大的感知編碼器 PE,負(fù)責(zé)多模態(tài)感知、語義理解以及在機(jī)器人環(huán)境中的具身推理。輸入的多視角圖像會被調(diào)整為 728×728 的高分辨率,經(jīng)過感知編碼器處理后,提取出細(xì)粒度的視覺特征。
  2. 動作專家:這是一個基于流匹配的連續(xù)控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網(wǎng)絡(luò)提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續(xù)控制動作。

在推理時,DM0 支持兩種模式:既可以直接從多模態(tài)觀察和指令中預(yù)測連續(xù)動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導(dǎo)動作專家輸出動作。

多源混合訓(xùn)練

聯(lián)合優(yōu)化語言目標(biāo)與連續(xù)控制目標(biāo)往往會破壞預(yù)訓(xùn)練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發(fā)的混合梯度策略。

具體而言,在針對具身機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練時,動作專家的梯度不會回傳給 VLM 主干網(wǎng)絡(luò)。這種解耦操作有效防止機(jī)器人動作數(shù)據(jù)對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續(xù)使用非具身數(shù)據(jù)進(jìn)行更新,不斷優(yōu)化其通用語言和視覺理解能力。此外,VLM 還被監(jiān)督預(yù)測離散的動作 Token,促使它編碼出有利于下游連續(xù)動作預(yù)測的動作相關(guān)語義。

具身空間腳手架

為進(jìn)一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創(chuàng)新性提出一套分層預(yù)測框架——具身空間腳手架。在訓(xùn)練中,模型被要求順序執(zhí)行以下輔助任務(wù),構(gòu)建出空間維度的思維鏈(Spatial CoT):

  • 子任務(wù)預(yù)測:將復(fù)雜的總指令分解為一系列可解釋、易管理的子步驟。
  • 目標(biāo)邊界框預(yù)測:在視覺觀察中預(yù)測出目標(biāo)物體或目標(biāo)區(qū)域的 2D 邊界框。
  • 末端執(zhí)行器軌跡預(yù)測:預(yù)測機(jī)器臂末端在主攝像機(jī)視圖下的未來 2D 軌跡。
  • 離散動作預(yù)測:預(yù)測代表機(jī)器人控制命令的離散 Token。

這種設(shè)計如同為模型搭建一層層腳手架,引導(dǎo)其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關(guān)的幾何軌跡,最終落地為底層控制。這種信息瓶頸機(jī)制不僅過濾了任務(wù)無關(guān)的噪聲,還極大地限制了動作策略的解空間。

三階段訓(xùn)練配方:從互聯(lián)網(wǎng)原生走向具身原生


圖3:預(yù)訓(xùn)練、中期訓(xùn)練、后期訓(xùn)練的數(shù)據(jù)混合比例


DM0 的強(qiáng)大不僅源于架構(gòu),更歸功于其精心設(shè)計的三階段訓(xùn)練 pipeline,總計消耗了高達(dá) 1.2T Token 的數(shù)據(jù)。預(yù)訓(xùn)練階段在大規(guī)模的互聯(lián)網(wǎng)、自動駕駛和具身數(shù)據(jù)上建立強(qiáng)大的多模態(tài)感知;中訓(xùn)練階段加入動作預(yù)測,并在跨多種機(jī)器人平臺的具身數(shù)據(jù)上把模型錨定為可執(zhí)行的控制,同時保留通用對話能力;后訓(xùn)練階段則收窄所使用的本體與數(shù)據(jù)范圍,以便在少數(shù)目標(biāo)平臺上穩(wěn)定視覺-運(yùn)動對齊。

Pretraining

這個階段,模型在一套極其豐富的異構(gòu)語料庫上進(jìn)行聯(lián)合優(yōu)化,參數(shù)全部解凍。數(shù)據(jù)不僅包含傳統(tǒng)的網(wǎng)頁文本、教育文獻(xiàn)、OCR 數(shù)據(jù)和通用 VQA,還極具前瞻性地引入 GUI 界面數(shù)據(jù)、自動駕駛深度檢測數(shù)據(jù)以及大量的具身數(shù)據(jù)。通過 1.13T Token 的大規(guī)模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(yàn)(如空間關(guān)系、深度結(jié)構(gòu)、物理動力學(xué))。

Mid-Training

中期訓(xùn)練階段引入了動作預(yù)測模塊,數(shù)據(jù)規(guī)模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數(shù)據(jù)混合了跨形態(tài)的單臂/雙臂機(jī)器人軌跡(如 Franka、UR5、ALOHA)、仿真環(huán)境數(shù)據(jù)以及視覺-語言指令微調(diào)數(shù)據(jù)(如 Cambrian-10M、LLaVA-OV)。為了增強(qiáng)模型的長程規(guī)劃能力,本文還專門構(gòu)建了具身推理(ER)數(shù)據(jù)集,包含任務(wù)分解、進(jìn)度估計等訓(xùn)練項(xiàng)。

Post-Training

后期訓(xùn)練階段旨在將模型對齊到實(shí)際部署的硬件上。使用約 50M 樣本,將目標(biāo)縮小至少數(shù)特定的真實(shí)機(jī)器人平臺。減少不同形態(tài)機(jī)器人的分布方差,使得模型能在目標(biāo)機(jī)械臂上建立極其穩(wěn)定的視覺-運(yùn)動映射。

實(shí)驗(yàn)結(jié)果:在 RoboChallenge 上的碾壓級表現(xiàn)

為全面驗(yàn)證 DM0 的物理世界交互能力,DM0 在極具挑戰(zhàn)性的 RoboChallenge 真實(shí)世界基準(zhǔn) Table30 上進(jìn)行評估。該基準(zhǔn)包含 30 個需要多步推理和精確連續(xù)控制的長視野桌面操作任務(wù)。

單任務(wù)(Specialist)評估


圖4:DM0 具備在具身場景中預(yù)測子任務(wù)的思維鏈(CoT)能力

除了卓越的動作執(zhí)行能力,由于實(shí)施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態(tài)對話能力。在具身場景的物體檢測、復(fù)雜圖表 OCR 識別、甚至是作為手機(jī)智能體(Mobile Agent)識別外賣按鈕的任務(wù)中,它也能對答如流。

結(jié)論與未來展望

DM0 從根本上重新思考了通用機(jī)器人策略的開發(fā)路徑。它證明了與其讓純語義的大語言模型在事后去適應(yīng)機(jī)器人身體,不如在預(yù)訓(xùn)練的萌芽期,就將物理世界的感知與多源數(shù)據(jù)相融合,構(gòu)建一個真正意義上的具身原生 VLA 模型;其獨(dú)創(chuàng)的混合梯度訓(xùn)練保護(hù)了認(rèn)知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經(jīng)樹立了一個強(qiáng)大的基準(zhǔn),但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團(tuán)隊也指出了幾個極具潛力的演進(jìn)方向:

  1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團(tuán)隊計劃將其擴(kuò)展至 7B 甚至 30B 規(guī)模,并吞吐更為龐大的仿真+真實(shí)的混合數(shù)據(jù)集,以期觀察到在物理推理層面的涌現(xiàn)能力。
  2. 更廣闊的多模態(tài)感知:現(xiàn)實(shí)世界的物理交互絕不僅限于看和說。DM0 的預(yù)訓(xùn)練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機(jī)器人即便在視野受限的動態(tài)環(huán)境中依然游刃有余。
  3. 長程推理與世界模型:現(xiàn)有的空間腳手架雖然解決了部分規(guī)劃問題,但跨越超長時間維度的任務(wù)仍是業(yè)界難題。未來,若能將世界模型整合進(jìn) DM0 ,賦予機(jī)器人在腦海中預(yù)演動作后果并進(jìn)行長期規(guī)劃的能力,真正的全能型 Physical AI 將不再遙遠(yuǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深度 | 中東硝煙彌漫,東北亞和北極同期上演兩場軍演,世界越來越危險?

深度 | 中東硝煙彌漫,東北亞和北極同期上演兩場軍演,世界越來越危險?

上觀新聞
2026-03-09 20:52:41
都在勸你養(yǎng)龍蝦,卻不說有多貴:有人月花兩萬直呼不如雇大學(xué)生…

都在勸你養(yǎng)龍蝦,卻不說有多貴:有人月花兩萬直呼不如雇大學(xué)生…

柴狗夫斯基
2026-03-09 08:24:14
今日油價突變:國內(nèi)油價大幅上調(diào)695元/噸!3月10日柴油汽油價格

今日油價突變:國內(nèi)油價大幅上調(diào)695元/噸!3月10日柴油汽油價格

有料財經(jīng)
2026-03-10 00:26:12
特朗普家族再出手!兒子們力挺新無人機(jī)公司直指五角大樓百億訂單

特朗普家族再出手!兒子們力挺新無人機(jī)公司直指五角大樓百億訂單

Nee看
2026-03-09 23:49:09
哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢才剛開始

哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢才剛開始

卷史
2026-03-10 04:06:07
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
15勝1負(fù),14勝3負(fù),都攔不住了!本賽季最有冠軍相的兩支球隊誕生

15勝1負(fù),14勝3負(fù),都攔不住了!本賽季最有冠軍相的兩支球隊誕生

老梁體育漫談
2026-03-10 00:18:54
港口遭巴拿馬政府非法接管,長和索賠20億美元

港口遭巴拿馬政府非法接管,長和索賠20億美元

環(huán)球網(wǎng)資訊
2026-03-09 06:50:10
前中天主播吳中純淋巴癌猝逝!蔡正元:非常不舍

前中天主播吳中純淋巴癌猝逝!蔡正元:非常不舍

可樂談情感
2026-03-10 01:11:53
今年清明上墳牢記:5人不去,3個時間要避開,平安才是最大的孝心

今年清明上墳牢記:5人不去,3個時間要避開,平安才是最大的孝心

周哥一影視
2026-03-10 00:44:00
這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

三農(nóng)老歷
2026-02-22 19:23:10
裴珠泫:漂亮又 “大”,像個圓滾滾的彈力球在健身房蹦跶!

裴珠泫:漂亮又 “大”,像個圓滾滾的彈力球在健身房蹦跶!

科學(xué)發(fā)掘
2026-03-09 15:29:54
毛主席視察天津時想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個字

毛主席視察天津時想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個字

南書房
2025-09-28 23:01:03
重慶談判時,蔣介石提出讓毛澤東當(dāng)省長,毛主席問:去哪個省?

重慶談判時,蔣介石提出讓毛澤東當(dāng)省長,毛主席問:去哪個???

老范談史
2025-11-28 10:34:33
與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

小熊侃史
2026-02-16 07:10:12
臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計時?

臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計時?

南宗歷史
2026-03-08 22:36:31
在線吃瓜,北京北控球員廖三寧被爆出軌

在線吃瓜,北京北控球員廖三寧被爆出軌

郭夷包工頭
2026-03-09 20:59:43
羽壇排名大動蕩,男單第一易主,王祉怡落后一萬分,大黑馬創(chuàng)新高

羽壇排名大動蕩,男單第一易主,王祉怡落后一萬分,大黑馬創(chuàng)新高

大嘴說臺球
2026-03-09 23:36:00
99.3分碾壓全場!烏克蘭無人機(jī)打爆美軍招標(biāo),西方軍工顏面掃地

99.3分碾壓全場!烏克蘭無人機(jī)打爆美軍招標(biāo),西方軍工顏面掃地

老馬拉車莫少裝
2026-03-09 08:20:06
美股科技股,開盤集體下跌

美股科技股,開盤集體下跌

第一財經(jīng)資訊
2026-03-09 22:23:10
2026-03-10 07:31:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26365文章數(shù) 242241關(guān)注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財經(jīng)要聞

油價破100美元年內(nèi)漲80% 全球市場劇震

汽車要聞

對標(biāo)奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

手機(jī)
親子
旅游
本地
公開課

手機(jī)要聞

折疊屏iPhone新的設(shè)計圖:內(nèi)屏比例接近iPad,或命名iPhone Ultra

親子要聞

為何外國媽媽帶娃如此輕松?網(wǎng)友的反駁讓人意外!

旅游要聞

楓葉小鎮(zhèn)奧萊落子寶山濱江!賦能國際郵輪度假區(qū)提質(zhì)升級

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版