国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

剛剛,智元提出SOP,讓VLA模型在真實世界實現(xiàn)可擴展的在線進化

0
分享至



編輯|Panda、+0

對于電子產品,我們已然習慣了「出廠即巔峰」的設定:開箱的那一刻往往就是性能的頂點,隨后的每一天都在折舊。

但對于通用機器人來說,這個設定必須被顛覆。

試想,如果一個在實驗室里完成訓練的 AI 機器人,一進家門面對光線稍暗的房間或堆滿雜物的茶幾就大腦宕機,那它就永遠只能是一個昂貴的實驗品。這正是當前具身智能面臨的尷尬真相:我們在互聯(lián)網知識里訓練出了博學的預訓練模型,可一旦讓它們走進充滿未知的物理世界,這些「理論巨人」往往會因為環(huán)境變化而束手無策:「懂」很多道理,卻依然干不好家務。

通用機器人的出路,絕不應是被困在出廠設置里的「靜態(tài)標品」,而應當是能在真實部署中、在每一次失敗和糾正中持續(xù)變強的生命體。

為了實現(xiàn)這一跨越,智元具身研究中心提出了SOP(Scalable Online Post-training)框架



  • 論文標題:SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
  • 官方博客:https://www.agibot.com/research/sop_zh

SOP,即可擴展在線后訓練,是一種顛覆性的機器人學習新范式。據了解,這是業(yè)界首次在物理世界的后訓練中深度整合了在線、分布式和多任務機制

通過 SOP 框架,智元具身研究中心構建了一個「多機平行現(xiàn)實」與「云端集中進化」的閉環(huán),進而打破了機器人認知的時間邊界,讓智能的進化不再止步于出廠的那一刻。



SOP:讓機器人實現(xiàn)在真實世界中的分布式持續(xù)學習

在過去幾年里,基于互聯(lián)網海量數(shù)據預訓練的 VLA(視覺 - 語言 - 動作)模型,雖然賦予了機器人一定的通用泛化能力,但始終面臨一個難以逾越的鴻溝:「懂」不代表「能」

預訓練模型或許「懂」什么是疊衣服,但當它真正面對一件材質松軟、光照復雜的真實衣物時,往往會因為分布偏移而束手無策。

為了解決這個問題,傳統(tǒng)的做法是后訓練(post-training)。但這通常是一條離線、單機、順序的漫漫長路:采集數(shù)據、離線訓練、更新模型、再次部署。這種模式下,機器人探索慢、迭代慢,且很容易在學習新任務時遺忘舊能力。

智元具身研究中心提出的 SOP 顛覆了這一陳舊范式。



它將 VLA 的后訓練從「單機單打獨斗」轉變?yōu)椤?strong>在線、集群、并行」的集團軍作戰(zhàn)。形象地說,SOP 構建了一個「多機平行現(xiàn)實 → 云端集中學習 → 模型即時回流」的超級閉環(huán)。



分布式機器人隊伍:構建「平行現(xiàn)實」

在 SOP 架構下,不再是一臺機器人在苦苦探索,而是多臺機器人組成集群,共享同一個 VLA 策略。

這就好比在同一時間開啟了多個「平行現(xiàn)實」:有的機器人在嘗試疊衣服,有的在整理雜貨,有的在處理紙盒。



這種空間上的并行,大幅拓寬了真實世界中狀態(tài) - 動作分布的覆蓋面,讓系統(tǒng)能瞬間接觸到極其廣泛的場景,直接避開了單機學習容易陷入的局部瓶頸。

值得注意的是,人類還可以通過施加少量的干預性修正來加速學習過程



云端集中在線更新:分鐘級的進化速度

所有的運行軌跡、獎勵信號甚至人工糾正信息,都會被實時流式上傳至云端 GPU 集群。在這里,一個通才學習器(Generalist Learner)夜以繼日地運轉,持續(xù)對策略模型進行在線更新。

為了支撐這種大規(guī)模的實時并發(fā),SOP 在底層架構上搭建了一套工業(yè)級的分布式數(shù)據基座

系統(tǒng)采用了先進的Actor-Learner 分離架構,通過消息隊列完全解耦了數(shù)據生產與消費。這意味著系統(tǒng)具備了「零配置」的彈性水平擴展能力:新的機器人加入集群無需修改任何代碼或停機配置,只需連接消息隊列即可即插即用,自動分擔數(shù)據采集任務。



同時,針對物理世界復雜的網絡環(huán)境,SOP 建立了嚴苛的容錯與數(shù)據原子性機制。依靠本地緩沖和對象存儲的原子寫入特性,確保了即便在網絡波動或節(jié)點故障時,數(shù)據要么完整保存,要么完全回滾,絕不讓臟數(shù)據污染核心訓練池。

為了讓學習更高效,SOP 內置了一個聰明的動態(tài)采樣器(Adaptive Sampler)。它不像傳統(tǒng)模型那樣盲目混合數(shù)據,而是能根據任務的實時訓練損失「查漏補缺」,也就是自動加大對當前薄弱環(huán)節(jié)的在線數(shù)據訓練權重。這種有的放矢的學習策略,讓位于邊緣端的機器人能在數(shù)秒至數(shù)十秒內獲得云端最新進化的大腦,真正實現(xiàn)了群體智能的實時同步。

這意味著,如果一臺機器人在北京學會了某個抓取動作的微調,幾分鐘后,位于上海的另一臺機器人就能用上這套最新的記憶。

破解災難性遺忘:泛化與精度的共存

傳統(tǒng)的單機在線訓練往往面臨一個兩難:為了精通某項任務(如疊衣服),模型很容易退化成只懂這一件事的專家,喪失了通用的 VLA 能力。

SOP 通過多任務并行巧妙化解了這一矛盾。因為它是在更廣闊的分布中同時進行多任務學習,而非按順序一個個學,從而確保了 VLA 的通用性不會因針對某一任務的性能提升而受損。

下面展示 SOP 的偽代碼:



有效性驗證:從魯棒性涌現(xiàn)到具身智能的 Scaling Law

為了驗證 SOP 的有效性,智元具身研究中心團隊思考了三個問題:

  • SOP 對于預訓練 VLA 的性能究竟有多大的提升?跟之前的一些離線方案相比呢?
  • 分布式機器人隊伍的數(shù)量規(guī)模擴展會如何影響性能?
  • 對于不同質量的預訓練模型,SOP 能否提供一致的性能增益?

為了解答這三個問題,智元具身研究中心基于自家的智元精靈 G1(Agibot G1)機器人平臺進行了實驗驗證。這是一款擁有雙臂 14 個自由度的移動操縱機器人,其頭頂與手腕配備的「三目」RGB 視覺系統(tǒng),配合 7 自由度的靈活手臂和 30Hz 的高頻控制,使其具備了在復雜非結構化環(huán)境中執(zhí)行精細微操的硬件基礎。

結果呢?相當亮眼!下面我們將深入挖掘實驗數(shù)據,你將看到:SOP 的技術可行性不僅得到了驗證,更展示了極高的「訓練性價比」。

超越離線:不僅是成功率的提升,更是魯棒性的涌現(xiàn)

首先看看實驗所選的任務 —— 可以說極具挑戰(zhàn)性:從雜貨補貨任務中涵蓋的 500 多種不同形態(tài)商品,到疊衣服任務中涉及的柔軟易變形物體,甚至包括協(xié)同打開冰柜門等復雜動作。這些場景不僅考驗機器人的認知能力,更對操作的魯棒性提出了嚴苛要求。

在有效性驗證中,團隊選擇了HG-DAgger(典型的單機在線算法)RECAP(最新的 SOTA 離線方法)作為對比基準。實驗設計非常直觀:先看基線模型表現(xiàn),再看經過這些算法打磨后的效果,最后看接入 SOP 框架后的「終極形態(tài)」。



在各類測試場景下,結合 SOP 的在線多機方案全面碾壓了傳統(tǒng)單機或離線方法。更令人驚喜的細節(jié)出現(xiàn)在「疊衣服」和「疊紙盒」這類長序列任務中:SOP 訓練出的模型展現(xiàn)了顯著的「恢復行為」。





這意味著,當機器人在操作中出現(xiàn)細微偏差時,它不再像過去那樣直接導致任務失敗或中止,而是學會了類似人類的微調動作進行補救。

這種在動態(tài)交互中獲得的魯棒性,直接經受住了極限壓力的考驗:在疊衣服和組裝紙盒的長程評估中,SOP 系統(tǒng)實現(xiàn)了超過 36 小時的連續(xù)運行且無性能衰減。這種穩(wěn)定性同時轉化為效率的質變,特別是在疊衣服任務中,SOP 將系統(tǒng)的吞吐量直接翻倍,從每小時 21 件提升至 45 件。

以下視頻展示了配備了 SOP 的智元精靈 G1 連續(xù) 36 小時疊衣服與疊紙盒的視頻片段(已加速):



文中視頻鏈接:https://mp.weixin.qq.com/s/3I-zhRIZe6gPk_wR2GklcA

具身智能的 Scaling Law:用硬件換時間,效率達到原來 2.4 倍

如果說單機試驗只是「小試牛刀」,那么關于擴展性的實驗則回應了工業(yè)界最關心問題:堆機器人數(shù)量,真的有用嗎?

團隊設置了單機、雙機和四機三種配置。實驗結果(見下表)展現(xiàn)了一個清晰的趨勢:隨著分布式集群規(guī)模的擴大,模型性能呈現(xiàn)出近乎線性的增長



在嚴格限制總訓練時長為 3 小時的前提下,四機并行學習的最終成功率達到了92.5%,比單機提升了 12%。更關鍵的是,SOP 成功將硬件的擴展轉化為了學習時長的極致壓縮。要達到 80% 的性能基準線,單機苦練需要 174 分鐘,而四機戰(zhàn)隊僅需 72 分鐘,訓練速度達到原來的 2.4 倍

這表明,多機并行采集不僅能防止模型對單機特征的過擬合,也證實了在物理世界中,通過增加設備數(shù)量來加速模型進化的 Scaling Law 是真實有效的

突破預訓練瓶頸:3 小時實戰(zhàn) > 上百小時數(shù)據堆砌

最后一組實驗揭示了 SOP 在訓練成本上的優(yōu)勢。

團隊對比了分別使用 20 小時、80 小時和 160 小時數(shù)據預訓練的模型。數(shù)據顯示,雖然預訓練規(guī)模決定了模型的初始能力,但 SOP 給所有不同基礎的模型都帶來了穩(wěn)定的提升。



關鍵的對比出現(xiàn)在投入產出比上:當預訓練數(shù)據從 80 小時增加到 160 小時,巨大的算力和數(shù)據投入僅帶來了 4% 的性能提升,明顯的邊際效應遞減已經出現(xiàn)。然而,在同樣的瓶頸期,SOP 僅用了 3 小時的在軌經驗,就換來了約 30% 的性能提升。這一數(shù)據有力地證明:部署后的在線學習不是對預訓練的簡單重復,而是更高維度的優(yōu)化。

但也需要指出,SOP 并非萬能藥。實驗發(fā)現(xiàn),最終的性能上限依然被預訓練模型的初始規(guī)模所錨定。這表明在線學習本質上是既有知識的超級優(yōu)化器,而非大規(guī)模預訓練的完全替代品。

因此,對于追求極致性能的具身智能系統(tǒng)而言,在解決特定長尾問題和彌合「仿真 - 現(xiàn)實」差距時,幾小時的真實場景交互,往往比單純增加幾十小時的離線數(shù)據更為關鍵。

當機器人開始進化……

當我們重新審視 SOP 時,會發(fā)現(xiàn)它改變的不僅僅是某一項具體的訓練技巧,而是整個通用機器人系統(tǒng)的生命周期。在傳統(tǒng)的工業(yè)邏輯中,產品交付即意味著研發(fā)的終點,但在具身智能時代,這個邏輯正被反轉。

智元具身研究中心通過 SOP 傳達了一個核心理念:通用機器人應當是一個在真實運行中持續(xù)進化的「生命體」

這種范式轉變意味著機器人可以帶著尚不完美的初始模型上線。對于產業(yè)而言,這極大地降低了落地的門檻:我們不再需要等到模型完美無缺才敢讓機器人走出實驗室,因為部署就是通往完美之路。SOP 能讓機器人的每一次任務執(zhí)行、每一次失敗后的糾正都轉化為寶貴的訓練數(shù)據。部署不再是技術迭代的終點,而是更大規(guī)模學習的起點。

隨著遠征、靈犀、精靈、Q1 等機器人走入真實世界,分布式集群的規(guī)模將呈指數(shù)級增長,我們也將見證一種前所未見的群體智能增長速度。



如果說 VLA 模型讓機器人第一次具備了通用的理解與行動能力,那么 SOP 所做的是讓眾多機器人的經驗共同驅動智能的快速成長。它讓訓練不再被鎖死在過去的數(shù)據集中,而是讓機器智能在每一次交互中不斷成長。這或許就是通用機器人走向大規(guī)模真實世界部署的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺退役上校呼吁:只要大陸答應2個條件,臺灣隨時可以和平統(tǒng)一!

臺退役上校呼吁:只要大陸答應2個條件,臺灣隨時可以和平統(tǒng)一!

科普100克克
2026-01-09 10:38:43
島內最新民調出爐,蔣萬安橫掃;鄭麗文赴陸時間已定,吳成典促統(tǒng)

島內最新民調出爐,蔣萬安橫掃;鄭麗文赴陸時間已定,吳成典促統(tǒng)

影孖看世界
2026-01-10 13:27:15
2死1墜崖!5驢友鰲太失聯(lián)后續(xù):提前下山者死里逃生,女領隊墜崖

2死1墜崖!5驢友鰲太失聯(lián)后續(xù):提前下山者死里逃生,女領隊墜崖

沒有偏旁的常慶
2026-01-10 10:58:16
不留情面!陳熠輸給43歲韓瑩真相曝光,馬琳暫停罕見發(fā)火:拼命加轉呀

不留情面!陳熠輸給43歲韓瑩真相曝光,馬琳暫停罕見發(fā)火:拼命加轉呀

好乒乓
2026-01-10 11:11:01
拖欠房租面臨驅逐,《鋼鐵俠2》主演獲網友10萬美元捐款,本人:捐款一分錢都不會收

拖欠房租面臨驅逐,《鋼鐵俠2》主演獲網友10萬美元捐款,本人:捐款一分錢都不會收

紅星新聞
2026-01-08 12:08:49
0-3遭橫掃后,沒想到向鵬這樣評價張本智和:心態(tài)崩了,實力差距

0-3遭橫掃后,沒想到向鵬這樣評價張本智和:心態(tài)崩了,實力差距

十點街球體育
2026-01-10 00:00:03
臺灣回歸后,第一任省長由誰擔任合適?這四人是否在候選人名單中

臺灣回歸后,第一任省長由誰擔任合適?這四人是否在候選人名單中

談古論今歷史有道
2025-12-22 15:20:03
國足名宿范志毅,曾花22萬買下英國豪宅,24年后增值了多少?

國足名宿范志毅,曾花22萬買下英國豪宅,24年后增值了多少?

小莜讀史
2026-01-09 12:05:37
中美軍事實力深度對比:妄自菲薄,是我們所犯的最大錯誤!

中美軍事實力深度對比:妄自菲薄,是我們所犯的最大錯誤!

老范談史
2025-12-21 19:43:17
安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

牛牛叨史
2026-01-06 12:59:43
12平后轟9-1!石宇奇首局領先安東森沖決賽,PK昆拉武特爭冠?

12平后轟9-1!石宇奇首局領先安東森沖決賽,PK昆拉武特爭冠?

劉姚堯的文字城堡
2026-01-10 18:05:37
血脈壓制,盤點夏洛特公主管教弟弟路易名場面,打扒踢踹一樣不少

血脈壓制,盤點夏洛特公主管教弟弟路易名場面,打扒踢踹一樣不少

生活魔術專家
2026-01-10 14:04:40
馬布里攜妻子觀戰(zhàn)尼克斯 曬照發(fā)文:愛不再是感覺 而是呼吸的空氣

馬布里攜妻子觀戰(zhàn)尼克斯 曬照發(fā)文:愛不再是感覺 而是呼吸的空氣

Emily說個球
2026-01-10 12:19:24
國羽4連勝到手!混雙包攬冠亞軍,女隊沖2冠,石宇奇登場沖決賽!

國羽4連勝到手!混雙包攬冠亞軍,女隊沖2冠,石宇奇登場沖決賽!

劉姚堯的文字城堡
2026-01-10 16:55:44
霍啟剛主動公開身家:35套物業(yè)曝光,放租28房成全球包租公

霍啟剛主動公開身家:35套物業(yè)曝光,放租28房成全球包租公

橙星文娛
2026-01-10 16:27:26
廣東一貨車撞落限高架致路人死亡,司機獲刑后家屬質疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

廣東一貨車撞落限高架致路人死亡,司機獲刑后家屬質疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

大風新聞
2026-01-10 11:04:42
據中央組織部任職決定,田宏斌同志任中石化副總經理、黨組成員

據中央組織部任職決定,田宏斌同志任中石化副總經理、黨組成員

新京報政事兒
2026-01-09 19:55:03
中日斗法:遍布我國的日本學校,被組成困龍局,749局高人一招化解

中日斗法:遍布我國的日本學校,被組成困龍局,749局高人一招化解

天字號野史
2024-11-29 11:55:59
營收183億利潤199億,馬云王興劉強東看了都得懵

營收183億利潤199億,馬云王興劉強東看了都得懵

玉辭心
2026-01-10 16:04:31
痛心!日照34歲醫(yī)生疑自殺離世,疑痔瘡手術疼痛導致,醫(yī)院回應

痛心!日照34歲醫(yī)生疑自殺離世,疑痔瘡手術疼痛導致,醫(yī)院回應

鋭娛之樂
2026-01-09 16:05:30
2026-01-10 19:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

白人女子被執(zhí)法隊員當街射殺 死前對峙說"我不生你氣"

頭條要聞

白人女子被執(zhí)法隊員當街射殺 死前對峙說"我不生你氣"

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經要聞

這不算詐騙嗎?水滴保誘導扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

教育
本地
手機
公開課
軍事航空

教育要聞

為什么精英運動員都是多面手?青少年如何避免過早專項化?

本地新聞

云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

手機要聞

魅族Flyme AIOS 2新春特別版即將發(fā)布,Aicy識屏支持提取視頻

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機

無障礙瀏覽 進入關懷版