網易首頁 > 網易號 > 正文申請入駐

剛剛，智元提出SOP，讓VLA模型在真實世界實現(xiàn)可擴展的在線進化

2026-01-06 17:50:12　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda、+0

對于電子產品，我們已然習慣了「出廠即巔峰」的設定：開箱的那一刻往往就是性能的頂點，隨后的每一天都在折舊。

但對于通用機器人來說，這個設定必須被顛覆。

試想，如果一個在實驗室里完成訓練的 AI 機器人，一進家門面對光線稍暗的房間或堆滿雜物的茶幾就大腦宕機，那它就永遠只能是一個昂貴的實驗品。這正是當前具身智能面臨的尷尬真相：我們在互聯(lián)網知識里訓練出了博學的預訓練模型，可一旦讓它們走進充滿未知的物理世界，這些「理論巨人」往往會因為環(huán)境變化而束手無策：「懂」很多道理，卻依然干不好家務。

通用機器人的出路，絕不應是被困在出廠設置里的「靜態(tài)標品」，而應當是能在真實部署中、在每一次失敗和糾正中持續(xù)變強的生命體。

為了實現(xiàn)這一跨越，智元具身研究中心提出了SOP（Scalable Online Post-training）框架

論文標題：SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
官方博客：https://www.agibot.com/research/sop_zh

SOP，即可擴展在線后訓練，是一種顛覆性的機器人學習新范式。據了解，這是業(yè)界首次在物理世界的后訓練中深度整合了在線、分布式和多任務機制

通過 SOP 框架，智元具身研究中心構建了一個「多機平行現(xiàn)實」與「云端集中進化」的閉環(huán)，進而打破了機器人認知的時間邊界，讓智能的進化不再止步于出廠的那一刻。

SOP：讓機器人實現(xiàn)在真實世界中的分布式持續(xù)學習

在過去幾年里，基于互聯(lián)網海量數(shù)據預訓練的 VLA（視覺 - 語言 - 動作）模型，雖然賦予了機器人一定的通用泛化能力，但始終面臨一個難以逾越的鴻溝：「懂」不代表「能」

預訓練模型或許「懂」什么是疊衣服，但當它真正面對一件材質松軟、光照復雜的真實衣物時，往往會因為分布偏移而束手無策。

為了解決這個問題，傳統(tǒng)的做法是后訓練（post-training）。但這通常是一條離線、單機、順序的漫漫長路：采集數(shù)據、離線訓練、更新模型、再次部署。這種模式下，機器人探索慢、迭代慢，且很容易在學習新任務時遺忘舊能力。

智元具身研究中心提出的 SOP 顛覆了這一陳舊范式。

它將 VLA 的后訓練從「單機單打獨斗」轉變?yōu)椤?strong>在線、集群、并行」的集團軍作戰(zhàn)。形象地說，SOP 構建了一個「多機平行現(xiàn)實 → 云端集中學習 → 模型即時回流」的超級閉環(huán)。

分布式機器人隊伍：構建「平行現(xiàn)實」

在 SOP 架構下，不再是一臺機器人在苦苦探索，而是多臺機器人組成集群，共享同一個 VLA 策略。

這就好比在同一時間開啟了多個「平行現(xiàn)實」：有的機器人在嘗試疊衣服，有的在整理雜貨，有的在處理紙盒。

這種空間上的并行，大幅拓寬了真實世界中狀態(tài) - 動作分布的覆蓋面，讓系統(tǒng)能瞬間接觸到極其廣泛的場景，直接避開了單機學習容易陷入的局部瓶頸。

值得注意的是，人類還可以通過施加少量的干預性修正來加速學習過程

云端集中在線更新：分鐘級的進化速度

所有的運行軌跡、獎勵信號甚至人工糾正信息，都會被實時流式上傳至云端 GPU 集群。在這里，一個通才學習器（Generalist Learner）夜以繼日地運轉，持續(xù)對策略模型進行在線更新。

為了支撐這種大規(guī)模的實時并發(fā)，SOP 在底層架構上搭建了一套工業(yè)級的分布式數(shù)據基座

系統(tǒng)采用了先進的Actor-Learner 分離架構，通過消息隊列完全解耦了數(shù)據生產與消費。這意味著系統(tǒng)具備了「零配置」的彈性水平擴展能力：新的機器人加入集群無需修改任何代碼或停機配置，只需連接消息隊列即可即插即用，自動分擔數(shù)據采集任務。

同時，針對物理世界復雜的網絡環(huán)境，SOP 建立了嚴苛的容錯與數(shù)據原子性機制。依靠本地緩沖和對象存儲的原子寫入特性，確保了即便在網絡波動或節(jié)點故障時，數(shù)據要么完整保存，要么完全回滾，絕不讓臟數(shù)據污染核心訓練池。

為了讓學習更高效，SOP 內置了一個聰明的動態(tài)采樣器（Adaptive Sampler）。它不像傳統(tǒng)模型那樣盲目混合數(shù)據，而是能根據任務的實時訓練損失「查漏補缺」，也就是自動加大對當前薄弱環(huán)節(jié)的在線數(shù)據訓練權重。這種有的放矢的學習策略，讓位于邊緣端的機器人能在數(shù)秒至數(shù)十秒內獲得云端最新進化的大腦，真正實現(xiàn)了群體智能的實時同步。

這意味著，如果一臺機器人在北京學會了某個抓取動作的微調，幾分鐘后，位于上海的另一臺機器人就能用上這套最新的記憶。

破解災難性遺忘：泛化與精度的共存

傳統(tǒng)的單機在線訓練往往面臨一個兩難：為了精通某項任務（如疊衣服），模型很容易退化成只懂這一件事的專家，喪失了通用的 VLA 能力。

SOP 通過多任務并行巧妙化解了這一矛盾。因為它是在更廣闊的分布中同時進行多任務學習，而非按順序一個個學，從而確保了 VLA 的通用性不會因針對某一任務的性能提升而受損。

下面展示 SOP 的偽代碼：

有效性驗證：從魯棒性涌現(xiàn)到具身智能的 Scaling Law

為了驗證 SOP 的有效性，智元具身研究中心團隊思考了三個問題：

SOP 對于預訓練 VLA 的性能究竟有多大的提升？跟之前的一些離線方案相比呢？
分布式機器人隊伍的數(shù)量規(guī)模擴展會如何影響性能？
對于不同質量的預訓練模型，SOP 能否提供一致的性能增益？

為了解答這三個問題，智元具身研究中心基于自家的智元精靈 G1（Agibot G1）機器人平臺進行了實驗驗證。這是一款擁有雙臂 14 個自由度的移動操縱機器人，其頭頂與手腕配備的「三目」RGB 視覺系統(tǒng)，配合 7 自由度的靈活手臂和 30Hz 的高頻控制，使其具備了在復雜非結構化環(huán)境中執(zhí)行精細微操的硬件基礎。

結果呢？相當亮眼！下面我們將深入挖掘實驗數(shù)據，你將看到：SOP 的技術可行性不僅得到了驗證，更展示了極高的「訓練性價比」。

超越離線：不僅是成功率的提升，更是魯棒性的涌現(xiàn)

首先看看實驗所選的任務 —— 可以說極具挑戰(zhàn)性：從雜貨補貨任務中涵蓋的 500 多種不同形態(tài)商品，到疊衣服任務中涉及的柔軟易變形物體，甚至包括協(xié)同打開冰柜門等復雜動作。這些場景不僅考驗機器人的認知能力，更對操作的魯棒性提出了嚴苛要求。

在有效性驗證中，團隊選擇了HG-DAgger（典型的單機在線算法）RECAP（最新的 SOTA 離線方法）作為對比基準。實驗設計非常直觀：先看基線模型表現(xiàn)，再看經過這些算法打磨后的效果，最后看接入 SOP 框架后的「終極形態(tài)」。

在各類測試場景下，結合 SOP 的在線多機方案全面碾壓了傳統(tǒng)單機或離線方法。更令人驚喜的細節(jié)出現(xiàn)在「疊衣服」和「疊紙盒」這類長序列任務中：SOP 訓練出的模型展現(xiàn)了顯著的「恢復行為」。

這意味著，當機器人在操作中出現(xiàn)細微偏差時，它不再像過去那樣直接導致任務失敗或中止，而是學會了類似人類的微調動作進行補救。

這種在動態(tài)交互中獲得的魯棒性，直接經受住了極限壓力的考驗：在疊衣服和組裝紙盒的長程評估中，SOP 系統(tǒng)實現(xiàn)了超過 36 小時的連續(xù)運行且無性能衰減。這種穩(wěn)定性同時轉化為效率的質變，特別是在疊衣服任務中，SOP 將系統(tǒng)的吞吐量直接翻倍，從每小時 21 件提升至 45 件。

以下視頻展示了配備了 SOP 的智元精靈 G1 連續(xù) 36 小時疊衣服與疊紙盒的視頻片段（已加速）：

文中視頻鏈接：https://mp.weixin.qq.com/s/3I-zhRIZe6gPk_wR2GklcA

具身智能的 Scaling Law：用硬件換時間，效率達到原來 2.4 倍

如果說單機試驗只是「小試牛刀」，那么關于擴展性的實驗則回應了工業(yè)界最關心問題：堆機器人數(shù)量，真的有用嗎？

團隊設置了單機、雙機和四機三種配置。實驗結果（見下表）展現(xiàn)了一個清晰的趨勢：隨著分布式集群規(guī)模的擴大，模型性能呈現(xiàn)出近乎線性的增長

在嚴格限制總訓練時長為 3 小時的前提下，四機并行學習的最終成功率達到了92.5%，比單機提升了 12%。更關鍵的是，SOP 成功將硬件的擴展轉化為了學習時長的極致壓縮。要達到 80% 的性能基準線，單機苦練需要 174 分鐘，而四機戰(zhàn)隊僅需 72 分鐘，訓練速度達到原來的 2.4 倍

這表明，多機并行采集不僅能防止模型對單機特征的過擬合，也證實了在物理世界中，通過增加設備數(shù)量來加速模型進化的 Scaling Law 是真實有效的

突破預訓練瓶頸：3 小時實戰(zhàn) > 上百小時數(shù)據堆砌

最后一組實驗揭示了 SOP 在訓練成本上的優(yōu)勢。

團隊對比了分別使用 20 小時、80 小時和 160 小時數(shù)據預訓練的模型。數(shù)據顯示，雖然預訓練規(guī)模決定了模型的初始能力，但 SOP 給所有不同基礎的模型都帶來了穩(wěn)定的提升。

關鍵的對比出現(xiàn)在投入產出比上：當預訓練數(shù)據從 80 小時增加到 160 小時，巨大的算力和數(shù)據投入僅帶來了 4% 的性能提升，明顯的邊際效應遞減已經出現(xiàn)。然而，在同樣的瓶頸期，SOP 僅用了 3 小時的在軌經驗，就換來了約 30% 的性能提升。這一數(shù)據有力地證明：部署后的在線學習不是對預訓練的簡單重復，而是更高維度的優(yōu)化。

但也需要指出，SOP 并非萬能藥。實驗發(fā)現(xiàn)，最終的性能上限依然被預訓練模型的初始規(guī)模所錨定。這表明在線學習本質上是既有知識的超級優(yōu)化器，而非大規(guī)模預訓練的完全替代品。

因此，對于追求極致性能的具身智能系統(tǒng)而言，在解決特定長尾問題和彌合「仿真 - 現(xiàn)實」差距時，幾小時的真實場景交互，往往比單純增加幾十小時的離線數(shù)據更為關鍵。

當機器人開始進化……

當我們重新審視 SOP 時，會發(fā)現(xiàn)它改變的不僅僅是某一項具體的訓練技巧，而是整個通用機器人系統(tǒng)的生命周期。在傳統(tǒng)的工業(yè)邏輯中，產品交付即意味著研發(fā)的終點，但在具身智能時代，這個邏輯正被反轉。

智元具身研究中心通過 SOP 傳達了一個核心理念：通用機器人應當是一個在真實運行中持續(xù)進化的「生命體」

這種范式轉變意味著機器人可以帶著尚不完美的初始模型上線。對于產業(yè)而言，這極大地降低了落地的門檻：我們不再需要等到模型完美無缺才敢讓機器人走出實驗室，因為部署就是通往完美之路。SOP 能讓機器人的每一次任務執(zhí)行、每一次失敗后的糾正都轉化為寶貴的訓練數(shù)據。部署不再是技術迭代的終點，而是更大規(guī)模學習的起點。

隨著遠征、靈犀、精靈、Q1 等機器人走入真實世界，分布式集群的規(guī)模將呈指數(shù)級增長，我們也將見證一種前所未見的群體智能增長速度。

如果說 VLA 模型讓機器人第一次具備了通用的理解與行動能力，那么 SOP 所做的是讓眾多機器人的經驗共同驅動智能的快速成長。它讓訓練不再被鎖死在過去的數(shù)據集中，而是讓機器智能在每一次交互中不斷成長。這或許就是通用機器人走向大規(guī)模真實世界部署的關鍵一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.