網易首頁 > 網易號 > 正文申請入駐

機器人的手終于跟上腦子了？騰訊系創(chuàng)企推出端到端VLA模型

2025-12-11 18:46:22　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻12月11日報道，今天，星塵智能發(fā)布端到端全身VLA模型——Lumo-1，讓機器人心手合一，想清楚就干活，借助具身化VLM、跨本體聯(lián)合訓練、推理-動作真機訓練、以及強化學習校準對齊等方式，配合繩驅機器人S1的真機訓練，將大模型“心智”轉化為全身到手的絲滑操作。

Lumo-1展現(xiàn)出較強的操作智能與泛化能力，在多步驟長時序、精細靈巧操作、可泛化抓取放置等三大類核心操作任務中，超越了π0、π0.5等先進模型，尤其在未見過的物體、場景和指令等分布外情況（Out of Distribution，簡稱OOD），以及抽象、模糊、需擴展推理的指令中，優(yōu)勢明顯。

▲通用抓取放置測試結果

▲長時序與靈巧操作任務對比結果

一、熱面包、整理文具、打包食物，讓機器人像人一樣推理、行動

人類執(zhí)行復雜任務時不只是調用“動作庫”，而是實時進行多層次推理——理解抽象語義、拆解子任務、感知空間關系、規(guī)劃運動路徑。

從走路、跳舞到后空翻，動作模仿教會了機器人“怎么動”，而到端盤子、分揀水果、熱食物等復雜操作時，機器人不能只模仿，更要識別復雜環(huán)境，理解“為什么做”的任務意圖，再轉化為“動手這么做”的連貫操作。

Lumo-1就賦予了機器人像人一樣推理，從而像人一樣行動的能力。

比如，盡管沒見過這塊面包，Lumo-1可以讓機器人通過推理識別它，推理出加熱＝用微波爐，以及開門、拿起、放入、關門、旋鈕、等待、取出等……無需編程，長序列全靠推理完成。

機器人可以在混亂桌面中快速找齊文具，還能精細處理不同形狀、材質和尺寸的物品。

在執(zhí)行把可樂放進藍盤的任務時，當可樂靠近機器人左臂時，推理用左臂抓?。划斎藶樵谧蟊叟c可樂間增加障礙物（未訓練場景），實時推理出“左臂受阻→右臂繞行成本更低”，自主切換策略。

機器人在給玩偶配對時，能推理出不同玩偶（雪寶、米妮、三眼怪）與紙片上哪個角色（艾爾莎、米奇、巴斯光年）來自同一動畫。

打包食物時，機器人全程快速絲滑，面對奧利奧、油條等分布外物體也能執(zhí)行。

在紙上機器人報個菜名，比如“腸仔意面”，它就能識別并挑選出對應食材。

二、三階訓練，VLM認知轉化為VLA智能

Lumo-1包括了三階段訓練架構：

階段1：具身化VLM（Embodied VLM）

在精選的視覺-語言數(shù)據上持續(xù)預訓練，讓模型具備空間理解、規(guī)劃、軌跡推斷等“具身語義”。Lumo-1在7個經典具身推理基準中大部分超過RoboBrain-7B、Robix-7B等專用模型。

▲精選數(shù)據集旨在不損傷預訓練VLM的通用多模態(tài)理解與推理能力前提下，強化核心具身推理能力

階段2：跨本體聯(lián)合訓練

融合跨機器人、多視角軌跡、VLM數(shù)據上聯(lián)合訓練，強化了指令跟隨、物體定位與空間推理能力，使模型開始理解“動作是什么，與指令和觀測是什么關系”。

▲Astribot S1機器人上收集的樣本任務

階段3：真機推理-動作訓練（S1軌跡）

利用繩驅機器人Astribot S1高度仿人的示教軌跡，進行帶推理過程的動作訓練，讓模型習得真實世界可執(zhí)行的動作模式，比如：怎么用雙手協(xié)同處理物體、如何執(zhí)行長序列操作、如何將推理一步步落實為軌跡等。

最后，加入強化學習推理-行動對齊（RL Alignment），校準對齊高級推理與低級動作之間的誤差，設計了視覺、動作與推理一致、動作執(zhí)行、推理格式等多維度的獎勵信號，通過基于GRPO的學習方案鼓勵模型選擇更準確、連貫、符合物理規(guī)則的動作。

實驗表明，該方案使模型在任務成功率、動作合理性與泛化能力上顯著超越模仿專家示范的原始表現(xiàn)。

三、三大技術拆解：層層遞進的“推理-動作”引擎

1、動作空間建模：從”高頻噪聲”到”關鍵路徑”

在Lumo-1里，通過動作空間建模SAT（Spatial Action Tokenizer），機器人將動作軌跡轉化為可復用、組合的“動作單詞庫”，能像寫句子一樣組合動作，或者復用、解釋和預測動作。

技術上，SAT將連續(xù)動作軌跡壓縮成最短路徑點，并把旋轉/平移的增量動作聚類成緊湊token等，在保持動作空間意義時，減少數(shù)據收集引入的無關噪音，比FAST與分桶方法等更緊湊和穩(wěn)定。

2、結構化推理：讓機器人擁有“常識與思考能力”

Lumo-1將推理拆解為兩個維度：文字推理與視覺推理。

模型進行多種形式的具身文本推理：

抽象概念推理整合視覺觀測和指令以推斷隱含語義（”低熱量”→排除可樂）；
子任務推理旨在推斷到達最終目標的最優(yōu)中間步驟（微波爐加熱→開門→取物→放入→關門→旋鈕→取出）；
視覺觀測描述強調對顯著場景特征和可操作物體的準確識別和分析；
運動推理包括對夾爪空間關系的文字推斷，以及運動方向的闡述。

然后再進一步執(zhí)行視覺推理，以實現(xiàn)基于感知的推斷和運動估計。

通過結構化推理（Structured Reasoning），機器人大腦不再死記軌跡，而是形成解釋動作的結構化推理鏈，從執(zhí)行動作到「執(zhí)行想法」，使「為什么這樣做」先于「怎么做」。

最終，它把視覺理解映射為路徑點預測，讓2D預測自然落到3D控制上，實現(xiàn)更有目的性、情境化的動作生成。

在S1真機部署中，讓機器人“把代表愛情的花放進花瓶”，S1能理解玫瑰代表的文化隱喻；當指令換成”把KFC里的東西放進藍色容器”，它能推理出炸雞、漢堡等關聯(lián)物品。在“把畫海洋的工具放進綠盤子”這種任務中，S1也能準確找到藍色的畫筆。

3、強化學習推理-行動對齊（RL Alignment）

Lumo-1在最后加入強化學習推理-行動對齊（RL Alignment），校準對齊高級推理與低級動作之間的誤差，在真實軌跡中反饋迭代，通過視覺、動作與推理一致、動作執(zhí)行、推理格式等多維度GRPO風格獎勵信號，鼓勵模型選擇更準確、連貫、符合物理規(guī)則的動作。

四、AI模型能力提升，是機器人大規(guī)模落地的關鍵

星塵智能團隊采用數(shù)據受限擴展定律驗證訓練策略，結果顯示：在固定模型規(guī)模下，數(shù)據多樣性（場景、物體、指令的覆蓋面）對泛化能力的影響遠超數(shù)據重復次數(shù)。這說明了，除了堆數(shù)據量，也可以抓數(shù)據質量。

另外，Lumo-1在7個多模態(tài)基準測試中的6個優(yōu)于backbone模型Qwen2.5-VL-7B，并超越專門的具身模型RoboBrain-7B和Robix-7B。更關鍵的是，融入動作學習后，模型的核心多模態(tài)感知和推理能力未受損——這證明“推理”與“動作”并非零和博弈。

目前，AI模型能力不足是導致了機器人沒能真正大規(guī)模落地的關鍵原因。而當機器人不再只靠預設腳本，而是能夠在開放環(huán)境中理解語義、拆解任務并自主執(zhí)行時，具身智能也就加快從“能動”走向“會做事”的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.