国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大聯(lián)手社區(qū)開(kāi)源StarVLA:一個(gè)框架揭秘所有主流VLA

0
分享至



如果說(shuō) 2017 年的 PyTorch 讓深度學(xué)習(xí)從 "少數(shù)派的煉丹爐" 變成了 "人人可用的工程平臺(tái)",那么具身智能(Embodied AI)正在等待屬于它自己的 "PyTorch 時(shí)刻"。

過(guò)去兩年,VLA(Vision-Language-Action,視覺(jué)-語(yǔ)言-動(dòng)作)模型幾乎是機(jī)器人領(lǐng)域最火熱的方向:從 Google 的 RT-2、Physical Intelligence 的 π?,到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 幾乎每隔幾周就有新模型刷屏。但走進(jìn)任何一個(gè)機(jī)器人實(shí)驗(yàn)室你都會(huì)發(fā)現(xiàn)一個(gè)尷尬的現(xiàn)實(shí):

  • 想復(fù)現(xiàn)一篇論文?代碼不全、數(shù)據(jù)接口對(duì)不上;
  • 想公平對(duì)比兩種方法?訓(xùn)練協(xié)議、評(píng)估基準(zhǔn)各搞一套;
  • 想換個(gè)動(dòng)作頭試試?整個(gè)工程幾乎要重寫(xiě)一遍;
  • 想知道 "VLM 主干" 和 "World Model 主干" 到底誰(shuí)更強(qiáng)?沒(méi)有人在同等條件下比過(guò)。

整個(gè) VLA 領(lǐng)域看似繁榮,實(shí)則像是一個(gè)個(gè) "黑箱" 散落在不同實(shí)驗(yàn)室里。

最近,來(lái)自港科大和開(kāi)源社區(qū)團(tuán)隊(duì)推出了StarVLA開(kāi)放研究平臺(tái)。與其說(shuō)他們創(chuàng)造了一個(gè)全新的 VLA 模型,不如說(shuō)他們做了一件更 “基礎(chǔ)設(shè)施” 的事:將當(dāng)前主流的 VLA 范式、動(dòng)作頭、訓(xùn)練策略和評(píng)估基準(zhǔn),統(tǒng)一整合到同一個(gè)開(kāi)源框架中,讓所有實(shí)驗(yàn)都可以在公平、透明、可復(fù)現(xiàn)的條件下進(jìn)行。

值得一提的是,StarVLA 并非一蹴而就的新品,它早已在社區(qū)中經(jīng)過(guò)充分檢驗(yàn),擁有超過(guò) 2.2k的 star,并獲得了廣泛認(rèn)可,一直是社區(qū)最流行的框架之一,僅次于美國(guó) NVIDIA 和 Physics Intelligent,在國(guó)內(nèi)同類項(xiàng)目中中斷檔領(lǐng)先。

這或許正是 VLA 領(lǐng)域所需要的 “PyTorch 時(shí)刻”—— 不再只是比誰(shuí)的 demo 更炫,而是讓研究者們站在同一條起跑線上,將 VLA 真正作為一門(mén)可以科學(xué)驗(yàn)證的學(xué)科來(lái)深入研究。



  • 論文標(biāo)題:StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
  • 論文:https://arxiv.org/pdf/2604.05014
  • 代碼:https://github.com/starVLA/starVLA
  • 支持基準(zhǔn):LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...

一、為什么說(shuō) VLA 需要一個(gè) "PyTorch 時(shí)刻"?

回顧深度學(xué)習(xí)的發(fā)展史,會(huì)發(fā)現(xiàn)一個(gè)規(guī)律:任何一個(gè)領(lǐng)域真正爆發(fā),都離不開(kāi)一個(gè)統(tǒng)一的、開(kāi)放的、可復(fù)現(xiàn)的實(shí)驗(yàn)平臺(tái)。

  • 計(jì)算機(jī)視覺(jué)之于 ImageNet + Caffe / PyTorch;
  • 自然語(yǔ)言處理之于 HuggingFace Transformers;
  • 大模型微調(diào)之于 LLaMA-Factory、DeepSpeed。

而 VLA 目前正處在 ImageNet 之前的 "前夜":模型很多、demo 很炫、論文產(chǎn)出很快,但沒(méi)有人能告訴你,在嚴(yán)格控制變量的前提下,哪種設(shè)計(jì)真的更好。

舉幾個(gè)具體的 "靈魂拷問(wèn)":

  • 自回歸動(dòng)作分詞(FAST)、并行回歸(OFT)、Flow Matching(π?)、雙系統(tǒng)(GR00T)——這四種動(dòng)作頭在同一個(gè)主干下的表現(xiàn)到底差多少?
  • VLM 路線(RT-2、π?)和 World Model 路線(Cosmos, DreamZero)——真的是兩條本質(zhì)不同的路,還是只是 "輔助信號(hào)" 的選擇不同?
  • 多模態(tài)協(xié)同訓(xùn)練、跨具身聯(lián)合訓(xùn)練 ——到底有沒(méi)有用?提升有多大?
  • 在 LIBERO 上 SOTA 的方法,到 RoboCasa、RoboTwin, Behavior 上還能打嗎?

在 StarVLA 之前,這些問(wèn)題幾乎沒(méi)有人能給出系統(tǒng)性答案—— 因?yàn)楦緵](méi)有同時(shí)支持這一切的統(tǒng)一平臺(tái)。

二、StarVLA 是什么?一個(gè) "全棧式" 的 VLA 實(shí)驗(yàn)平臺(tái)

StarVLA 的設(shè)計(jì)哲學(xué)非??酥疲?strong>不發(fā)明新方法,而是把別人發(fā)明的好方法,統(tǒng)一搬到一個(gè)屋檐下。

整個(gè)框架由四層可插拔模塊組成:



每一層都可以自由替換、自由組合。 想做 "換動(dòng)作頭不換主干" 的對(duì)比?改一行配置。想驗(yàn)證 "協(xié)同訓(xùn)練" 的效果?改一個(gè)開(kāi)關(guān)。想把 LIBERO 上訓(xùn)好的模型搬到 RoboTwin 上跑實(shí)機(jī)?同一個(gè)接口。

這就是為什么我們說(shuō)它是 VLA 領(lǐng)域的 "PyTorch 時(shí)刻"——它把之前需要重寫(xiě)整個(gè)工程才能做的事,變成了改一行配置文件的事。

三、廣義 VLA 視角:所有方法,其實(shí)是一個(gè)公式

在統(tǒng)一這些方法的過(guò)程中,作者還提出了一個(gè)非常漂亮的理論觀察。

VLA 看似流派眾多 —— 有的基于語(yǔ)言模型,有的基于視頻生成模型;有的自回歸,有的擴(kuò)散;有的單系統(tǒng),有的雙系統(tǒng) —— 但當(dāng)你把它們都塞進(jìn)同一個(gè)框架后會(huì)發(fā)現(xiàn),它們?cè)跀?shù)學(xué)結(jié)構(gòu)上可以用同一個(gè)公式表達(dá):



不同方法的本質(zhì)區(qū)別,僅在于選用什么 "預(yù)訓(xùn)練模型初始化" 以及 "輔助訓(xùn)練的信號(hào)" 是什么:

  • VLM 路線:輔助信號(hào)是語(yǔ)言推理(讓模型繼續(xù) "會(huì)說(shuō)話");
  • World Model 路線:輔助信號(hào)是未來(lái)畫(huà)面預(yù)測(cè)(讓模型繼續(xù) "會(huì)想象");
  • 極簡(jiǎn)路線:干脆沒(méi)有輔助信號(hào),純動(dòng)作監(jiān)督。

作者把這個(gè)統(tǒng)一視角稱為"廣義 VLA"(Generalized VLA)。它意味著:與其糾結(jié) "該選哪條路線",不如思考 "該選什么樣的輔助信號(hào)"。這一視角,為后續(xù) VLA 的系統(tǒng)性研究提供了一個(gè)清晰的理論坐標(biāo)系。



VLM to VLA 和 World-Model to VLA 的統(tǒng)一架構(gòu)

四、幾個(gè) "反直覺(jué)" 的實(shí)驗(yàn)發(fā)現(xiàn)

雖然 StarVLA 主打 "平臺(tái)" 而非 "刷榜",但作者在搭建過(guò)程中也 "順手" 做了一批嚴(yán)格控制變量的實(shí)驗(yàn),結(jié)果頗有意思:



發(fā)現(xiàn) 1:極簡(jiǎn)設(shè)置就能打出強(qiáng)基線

不做任何數(shù)據(jù)增強(qiáng)、只用基準(zhǔn)原始數(shù)據(jù)和公開(kāi)預(yù)訓(xùn)練權(quán)重,StarVLA 在 LIBERO 上僅用 30K 步就達(dá)到了 98.8% 的成功率, 在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大廠的模型具有非常接近的效果。

而前人代表方法 OpenVLA-OFT, GR00T, PI 等 在同一基準(zhǔn)上需要 175K 步 ——訓(xùn)練步數(shù)減少了 6 倍

這說(shuō)明:以前很多論文堆的 "訓(xùn)練 trick",可能并沒(méi)有想象中那么必要。一個(gè)干凈、統(tǒng)一的工程實(shí)現(xiàn)本身,就能釋放出巨大的性能空間。

發(fā)現(xiàn) 2:數(shù)據(jù) "雜" 反而更強(qiáng) —— 通用模型超越專用模型

把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四個(gè)基準(zhǔn)的數(shù)據(jù)混在一起訓(xùn)練同一個(gè)模型,結(jié)果在難度最高的類人操作基準(zhǔn)RoboCasa-GR1 上,成功率從 48.8% 提升到了 57.3%。

這意味著:跨任務(wù)、跨形態(tài)的多樣化數(shù)據(jù)并不會(huì) "互相干擾",反而會(huì)帶來(lái)正向遷移。這是支持 "機(jī)器人大一統(tǒng)模型" 路線的一個(gè)重要經(jīng)驗(yàn)證據(jù)。



發(fā)現(xiàn) 3:VLM 主干 vs World Model 主干,差距沒(méi)有想象中大

在同一個(gè) OFT 動(dòng)作頭下分別接入 Qwen3-VL(VLM 路線)和 Cosmos-Predict2(World Model 路線),兩者的性能相當(dāng)接近

這是一個(gè)非常重要的初步結(jié)論:業(yè)界一直在爭(zhēng)論的 "哪條路線才是 VLA 的未來(lái)",可能本身就是個(gè)偽命題—— 真正決定性能的,也許并不是主干的 "血統(tǒng)",而是輔助信號(hào)、訓(xùn)練策略和數(shù)據(jù)組合。



發(fā)現(xiàn) 4:不做協(xié)同訓(xùn)練,VLM 會(huì)在幾千步內(nèi) "失憶"

把一個(gè)預(yù)訓(xùn)練好的 VLM 微調(diào)成機(jī)器人策略時(shí),它在幾千步內(nèi)就會(huì)迅速丟失原有的視覺(jué)理解和語(yǔ)言推理能力—— 物體識(shí)別變差、空間定位崩壞、指令理解退化。

加入多模態(tài)協(xié)同訓(xùn)練后,模型可以同時(shí)保住 "動(dòng)腦" 和 "動(dòng)手" 兩種能力。這一現(xiàn)象在論文中以清晰的曲線圖呈現(xiàn),給所有想要微調(diào) VLM 做機(jī)器人的研究者提了一個(gè)醒。

五、為什么這件事 "值得被看見(jiàn)"?

VLA 是當(dāng)前最受資本和學(xué)術(shù)界關(guān)注的具身智能方向之一,但它也是最容易陷入 "內(nèi)卷式刷榜" 的方向:每家都報(bào)告自己 SOTA,但沒(méi)人能在公平條件下被驗(yàn)證。

StarVLA 的意義恰恰在于打破這種困境:

?對(duì)研究者:終于有了一個(gè)可復(fù)現(xiàn)、可控制變量的實(shí)驗(yàn)平臺(tái),做消融、做對(duì)比不再需要從零造輪子;

?對(duì)工程師:模塊化設(shè)計(jì) + 統(tǒng)一接口,從 "換主干" 到 "換基準(zhǔn)" 再到 "上實(shí)機(jī)" 全部打通;

?對(duì)整個(gè)領(lǐng)域:當(dāng)所有方法都能在同一個(gè)框架里被公平地 "擺出來(lái)",VLA 的發(fā)展就從 "比誰(shuí)聲音大",進(jìn)入到 "比誰(shuí)經(jīng)得起驗(yàn)證" 的科學(xué)階段。

這正是一個(gè)領(lǐng)域走向成熟的標(biāo)志 —— 也正是我們說(shuō)它是具身智能的"PyTorch 時(shí)刻"的原因。

六、開(kāi)源信息

StarVLA 由香港科技大學(xué)團(tuán)隊(duì)聯(lián)合開(kāi)源社區(qū)共同推出,目前全部代碼、訓(xùn)練腳本、評(píng)估接口與預(yù)訓(xùn)練權(quán)重已開(kāi)源,并將持續(xù)迭代。



  • 論文:https://arxiv.org/pdf/2604.05014
  • 代碼倉(cāng)庫(kù):https://github.com/starVLA/starVLA (目前已經(jīng) 2.2k star, 感謝大家)
  • 已支持基準(zhǔn):LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K
  • 已集成方法:[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 各式各樣的 backbone X action header …

如果你正在做 VLA 研究、想搭一套機(jī)器人策略基線、或者只是想搞清楚 "這些花里胡哨的 VLA 模型到底差在哪"——這個(gè)倉(cāng)庫(kù),值得 Star 一下。

本文報(bào)道由港科大 StarVLA 團(tuán)隊(duì)提供素材,面向關(guān)注具身智能與機(jī)器人大模型的讀者。歡迎在 GitHub 上參與討論與共建。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伯克希爾等著撿尸體

伯克希爾等著撿尸體

販財(cái)局
2026-05-08 14:52:06
活久見(jiàn)!新疆一景區(qū)提示再登熱搜:花園有毒蛇,醫(yī)院距此400公里

活久見(jiàn)!新疆一景區(qū)提示再登熱搜:花園有毒蛇,醫(yī)院距此400公里

火山詩(shī)話
2026-05-09 08:27:01
猝不及防!三胎僅6個(gè)月,方媛又官宣喜訊,郭富城也倍感意外

猝不及防!三胎僅6個(gè)月,方媛又官宣喜訊,郭富城也倍感意外

小娛樂(lè)悠悠
2026-05-09 09:43:15
3人去世、2人失業(yè)、3人勉力糊口!80后吐槽宿舍8人,評(píng)論哭聲一片

3人去世、2人失業(yè)、3人勉力糊口!80后吐槽宿舍8人,評(píng)論哭聲一片

火山詩(shī)話
2026-05-08 22:09:53
特朗普對(duì)世界杯高昂票價(jià)感到驚訝:老實(shí)說(shuō),我不會(huì)花1000美元(約人民幣6800元)去看美國(guó)對(duì)巴拉圭的首場(chǎng)比賽

特朗普對(duì)世界杯高昂票價(jià)感到驚訝:老實(shí)說(shuō),我不會(huì)花1000美元(約人民幣6800元)去看美國(guó)對(duì)巴拉圭的首場(chǎng)比賽

每日經(jīng)濟(jì)新聞
2026-05-08 16:57:31
農(nóng)夫和蛇新版!女子帶娃在景區(qū)爬山受傷,大叔好心幫忙被舉報(bào)抽煙

農(nóng)夫和蛇新版!女子帶娃在景區(qū)爬山受傷,大叔好心幫忙被舉報(bào)抽煙

火山詩(shī)話
2026-05-09 06:19:41
美國(guó)公布大量UFO照片

美國(guó)公布大量UFO照片

新浪財(cái)經(jīng)
2026-05-09 09:13:30
伊朗的宗教極端意識(shí)形態(tài),決定了他們真有可能把核彈扔出去

伊朗的宗教極端意識(shí)形態(tài),決定了他們真有可能把核彈扔出去

壹家言
2026-05-08 08:54:30
重磅!多名中國(guó)兩院院士被除名或帶走調(diào)查!

重磅!多名中國(guó)兩院院士被除名或帶走調(diào)查!

深度報(bào)
2026-05-08 22:40:42
原廣州軍區(qū)副司令員兼南海艦隊(duì)司令員王永國(guó)逝世,享年87歲

原廣州軍區(qū)副司令員兼南海艦隊(duì)司令員王永國(guó)逝世,享年87歲

澎湃新聞
2026-05-09 12:08:29
89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

好賢觀史記
2026-05-08 15:57:30
帶10余名球員大鬧基地,隊(duì)報(bào):奧巴梅揚(yáng)拿滅火器噴高層被停賽

帶10余名球員大鬧基地,隊(duì)報(bào):奧巴梅揚(yáng)拿滅火器噴高層被停賽

懂球帝
2026-05-09 08:16:59
世乒賽四強(qiáng)全出爐:國(guó)乒女隊(duì)將戰(zhàn)羅馬尼亞,男團(tuán)對(duì)陣法國(guó)隊(duì)

世乒賽四強(qiáng)全出爐:國(guó)乒女隊(duì)將戰(zhàn)羅馬尼亞,男團(tuán)對(duì)陣法國(guó)隊(duì)

全景體育V
2026-05-09 05:22:42
離譜!享界座椅被指夾人,多名車主拿自己孩子當(dāng)實(shí)驗(yàn)品,有孩子一臉痛苦

離譜!享界座椅被指夾人,多名車主拿自己孩子當(dāng)實(shí)驗(yàn)品,有孩子一臉痛苦

可達(dá)鴨面面觀
2026-05-08 18:42:02
40歲!正式簽約加盟!你好,霍華德!

40歲!正式簽約加盟!你好,霍華德!

籃球?qū)崙?zhàn)寶典
2026-05-08 23:32:25
京東方又丟iPhone大單,蘋(píng)果為何甩不掉它?

京東方又丟iPhone大單,蘋(píng)果為何甩不掉它?

Ping值焦慮
2026-05-06 21:39:22
高盛:A股將漲到5300點(diǎn),高盛重倉(cāng)26股又漲停。這波被外資賺走了

高盛:A股將漲到5300點(diǎn),高盛重倉(cāng)26股又漲停。這波被外資賺走了

風(fēng)風(fēng)順
2026-05-09 07:33:45
女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發(fā)聲:買家才20多歲,她父母想?yún)f(xié)商和解,我要求依法處理,并公開(kāi)道歉

女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發(fā)聲:買家才20多歲,她父母想?yún)f(xié)商和解,我要求依法處理,并公開(kāi)道歉

大風(fēng)新聞
2026-05-09 10:00:07
缺德到這種地步,已經(jīng)不是諷刺的問(wèn)題了!

缺德到這種地步,已經(jīng)不是諷刺的問(wèn)題了!

胖胖說(shuō)他不胖
2026-05-08 08:55:19
尷尬!俞敏洪與陳行甲的公開(kāi)互動(dòng)爭(zhēng)議升級(jí),堪稱董宇輝事件的復(fù)刻

尷尬!俞敏洪與陳行甲的公開(kāi)互動(dòng)爭(zhēng)議升級(jí),堪稱董宇輝事件的復(fù)刻

火山詩(shī)話
2026-05-09 06:34:45
2026-05-09 13:07:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12955文章數(shù) 142646關(guān)注度
往期回顧 全部

科技要聞

美國(guó)政府強(qiáng)力下場(chǎng) 蘋(píng)果英特爾達(dá)成代工協(xié)議

頭條要聞

女子每月花10萬(wàn)租住酒店遭索3300元磨損費(fèi) 最新發(fā)聲

頭條要聞

女子每月花10萬(wàn)租住酒店遭索3300元磨損費(fèi) 最新發(fā)聲

體育要聞

成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

娛樂(lè)要聞

張藝謀《印象劉三姐》全裸鏡頭引爭(zhēng)議

財(cái)經(jīng)要聞

Meta瘋狂擁抱人工智能:?jiǎn)T工苦不堪言

汽車要聞

軸距加長(zhǎng)/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

家居
健康
游戲
房產(chǎn)
公開(kāi)課

家居要聞

菁英人居 全能豪宅

干細(xì)胞能讓人“返老還童”嗎

成人游戲《SiNiSistar2》Steam官宣5月16日發(fā)售!

房產(chǎn)要聞

豪擲6.8億拿地!何猷君大手筆投資三亞!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版