国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻出手VLA,就是開源超越Pi0.5的基座模型

0
分享至

編輯|張倩

一個機器人到底需要多「聰明」,你才愿意把它請進家門?

前段時間,明星具身智能公司 1X 開始預(yù)售其人形機器人 Neo。演示視頻中,它能從冰箱取水、疊衣服、把餐具放進洗碗機,儼然一個稱職的家務(wù)助手。

但問題是,它當(dāng)時真正能自主完成的,也只有這幾件事。至于更多樣的日常任務(wù) —— 比如整理散落的玩具、擦拭臺面、收納雜物 —— 在現(xiàn)階段,大多仍需要工程師遠程教學(xué)。

這就多少有些令人遲疑:花費近 14 萬元,迎來的不僅是一個「助手」,還可能是一雙需要你授權(quán)進入家庭隱私空間的「眼睛」。社交網(wǎng)絡(luò)上,不少人也對這種「半成品智能」表達了困惑甚至調(diào)侃。







這種「演示場景自主、真實任務(wù)依賴人工」的割裂狀態(tài),恰恰映射出當(dāng)前具身智能落地的核心挑戰(zhàn):泛化能力不足

要突破這一瓶頸,業(yè)界共識是:需要更大規(guī)模、更多樣化的真實機器人數(shù)據(jù)來「喂養(yǎng)」模型,使其學(xué)習(xí)到更本質(zhì)的任務(wù)理解與動作泛化能力。然而,高質(zhì)量真機數(shù)據(jù)的采集成本極高,且不同構(gòu)型機器人的數(shù)據(jù)難以復(fù)用,導(dǎo)致大多數(shù)模型仍只能在有限數(shù)據(jù)或仿真環(huán)境中訓(xùn)練,難以實現(xiàn)真正的跨任務(wù)、跨本體泛化。

在這一背景下,螞蟻靈波開源發(fā)布的第一款具身智能基座模型 LingBot-VLA帶來了一個好消息:它基于約 20000 小時、覆蓋 9 種主流雙臂機器人構(gòu)型的真實世界數(shù)據(jù)預(yù)訓(xùn)練而成,在涵蓋 100 多項任務(wù)的統(tǒng)一真機評測基準(zhǔn)下整體表現(xiàn)超越 Pi0.5,成為了能夠跨本體、跨場景泛化的開源具身基座模型新標(biāo)桿。

這一超越并非偶然,而是源于 LingBot-VLA 在模型架構(gòu)、數(shù)據(jù)規(guī)模與訓(xùn)練效率上的系統(tǒng)性突破。在最新的技術(shù)報告中,我們可以看到相關(guān)細(xì)節(jié)。而且,螞蟻靈波還開源了相應(yīng)的模型權(quán)重、代碼、后訓(xùn)練工具鏈,確保開發(fā)者不僅能拿到模型,還能把模型調(diào)得更好。



  • 項目鏈接:https://technology.robbyant.com/lingbot-vla
  • 技術(shù)報告鏈接:https://arxiv.org/pdf/2601.18692
  • 模型下載鏈接:https://huggingface.co/collections/robbyant/lingbot-vla
  • 代碼、后訓(xùn)練工具鏈鏈接:https://github.com/robbyant/lingbot-vla

看來,在具身智能這個領(lǐng)域,通過大規(guī)模擴展真實數(shù)據(jù)驅(qū)動模型泛化,已從技術(shù)愿景走向工程現(xiàn)實。

超越 Pi0.5,意味著什么?

在 LingBot-VLA 出現(xiàn)之前,Physical Intelligence 開源的 Pi0.5 幾乎是行業(yè)內(nèi)無法繞開的標(biāo)桿。

為什么它有這么強的統(tǒng)治力?根本原因在于,Pi0.5 首次在開源世界里證明了:一個模型,不需要針對特定場景專門訓(xùn)練,就能在完全陌生的真實家庭環(huán)境中,完成長達 10-15 分鐘的復(fù)雜操作鏈條。這件事讓行業(yè)第一次清晰地看到,具身智能并非只能在「擺拍式」的單一任務(wù)中工作,而是有可能真正進入非結(jié)構(gòu)化、充滿不確定性的真實生活場景,完成從「實驗室奇觀」到「規(guī);a(chǎn)品」的過渡

所以無論是學(xué)術(shù)論文里的對比實驗,還是產(chǎn)業(yè)界的模型選型,Pi0.5 都是那個「必須要放進去比一比」的對象。也因為有這么一個「扛把子」的開源模型存在,很多機器人公司并不直接從零訓(xùn)練模型,而是選擇在 Pi0.5 的基礎(chǔ)上進行微調(diào),再部署到自己的機器人本體上,這也進一步鞏固了它在開源具身生態(tài)中的核心地位。

當(dāng)然,也有不少團隊選擇正面硬剛,以自研模型對標(biāo) Pi0.5。但真正落到實際評測中,情況卻要復(fù)雜得多。許多模型往往只能在某一個特定任務(wù)、某一種固定構(gòu)型的機器人上取得更好的成績,一旦換一個任務(wù)類型,或換一臺不同本體的機器人,優(yōu)勢就會消失,甚至性能大幅退化。本質(zhì)上,這仍然是專用模型在特定分布上的勝利,而不是泛化能力的提升。

這種局面很大程度上受制于底層的現(xiàn)實約束。我們知道,目前困擾具身模型的最大問題就是數(shù)據(jù)不夠用,而數(shù)據(jù)與特定硬件的強綁定又加劇了這一問題。如果模型和訓(xùn)練范式無法高效吸收多源異構(gòu)數(shù)據(jù),那么簡單地「多喂數(shù)據(jù)」這條路就跑不通。

也正是在這樣的行業(yè)背景下,真正意義上的「整體超越 Pi0.5」,才顯得格外稀缺。它不只是某個指標(biāo)上的領(lǐng)先,還意味著模型在數(shù)據(jù)利用方式、訓(xùn)練效率以及跨本體、跨任務(wù)泛化能力上,已經(jīng)邁過了一個新的臺階。LingBot-VLA 的出現(xiàn),正是在這個時間點上,給出了一個不同于以往的答案。

三大平臺,100 項真機任務(wù)

LingBot-VLA 經(jīng)住了考驗

LingBot-VLA 的強泛化能力,本質(zhì)上來源于其對海量跨本體數(shù)據(jù)的有效利用。這個模型所用的 20000 小時真機數(shù)據(jù),來自 9 個不同的機器人平臺。傳統(tǒng)上,由于不同機器人之間的傳感器、控制接口、本體結(jié)構(gòu)差異巨大,這些數(shù)據(jù)是很難被統(tǒng)一利用的,而 LingBot-VLA 打破了這一瓶頸。



為了驗證 LingBot-VLA 到底有多強,螞蟻靈波在一個全新的具身智能基準(zhǔn) ——GM-100上對其進行了測試。

這個基準(zhǔn)總共包含 100 項真機任務(wù),由上海交大牽頭,螞蟻靈波等多機構(gòu)聯(lián)合研發(fā)。我們打開它的官網(wǎng)看了一下,發(fā)現(xiàn)事情并不簡單 —— 那些任務(wù)不是簡單的「pick,hold,place(拿取,保持,放置)」操作,而是涉及了很多長序列任務(wù)和精細(xì)操作,比如串糖葫蘆、拉軟包拉鏈、疊衣服…… 一些看似簡單的任務(wù),比如按臺燈開關(guān)、整理小物體,也會因為機械臂構(gòu)型、物體材質(zhì)、位置擺放、指令理解等因素而呈現(xiàn)出區(qū)分度?梢哉f,GM-100 通過精心設(shè)計復(fù)雜、長尾的多樣化任務(wù),為具身大模型設(shè)置了一張科學(xué)、嚴(yán)謹(jǐn)且難以取巧的「統(tǒng)考卷」。想在這樣一個數(shù)據(jù)集上拿到好成績,對于現(xiàn)階段的模型來說是相當(dāng)不容易的。


https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

即使是這樣,螞蟻靈波還是選擇繼續(xù)上難度 —— 模型并非僅在單一機器人上驗證,而是被部署在來自三大不同平臺(AgileX、Agibot G1、Galaxea R1Pro)的 25 臺機器人上統(tǒng)一執(zhí)行任務(wù)。如此一來,整個測試就成了一個跨本體、跨任務(wù)能力的綜合考驗

同時參與測試的還有 GR00T、WALL-OSS 以及 Pi0.5,這些都是開源具身模型里的優(yōu)秀代表。

實驗結(jié)果顯示,無論在哪個平臺上,LingBot-VLA 的成功率(SR)和部分成功率(PS,子步驟完成情況)都是最高的。尤其在融入基于深度的空間信息后,模型優(yōu)勢更加明顯 —— 相比 Pi0.5 平均 SR 提高了 4.28%,PS 提高了 7.76%。這說明,無論是在復(fù)雜長序列任務(wù)的執(zhí)行精度上,還是在面對新任務(wù)的適應(yīng)能力上,LingBot-VLA 都展現(xiàn)出了更勝一籌的智能水平。




https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26


https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

另外,值得注意的是,LingBot-VLA 的數(shù)據(jù)利用效率和算力效率也更高

實驗顯示,在 Agibot G1 平臺上,僅使用 80 條示范數(shù)據(jù)進行后訓(xùn)練,LingBot-VLA 的表現(xiàn)就超越了使用 130 條完整數(shù)據(jù)訓(xùn)練的 Pi0.5 模型。而且,當(dāng)數(shù)據(jù)量逐步增加時,LingBot-VLA 與 Pi0.5 的性能差距進一步拉大,這從側(cè)面印證了其模型架構(gòu)在學(xué)習(xí)潛能和泛化可擴展性上的設(shè)計優(yōu)勢。



而在算力效率方面,LingBot-VLA 的訓(xùn)練框架也展現(xiàn)出明顯優(yōu)勢。在相同數(shù)據(jù)集和標(biāo)準(zhǔn)化架構(gòu)下,其訓(xùn)練吞吐量(samples/s)均顯著高于 StarVLA、Dex Botic、OpenPI 等主流開源框架,在 Qwen2.5-VL-3B-π 與 PaliGemma-3B-pt-224-π 兩種模型設(shè)置下均實現(xiàn)最快訓(xùn)練速度。更突出的是,隨著 GPU 規(guī)模從 8 卡擴展至 256 卡,其訓(xùn)練效率仍能緊密跟隨理論線性擴展上限,展現(xiàn)出卓越的大規(guī)模分布式訓(xùn)練可擴展性。這意味著企業(yè)能以更低算力成本、更短訓(xùn)練周期完成模型迭代,實現(xiàn)從實驗到落地的高效轉(zhuǎn)化。



架構(gòu)揭秘

從「大腦」到「小腦」的智能耦合

剛才提到,LingBot-VLA 在模型架構(gòu)、數(shù)據(jù)效率、訓(xùn)練效率等方面都經(jīng)得起考驗,那么,螞蟻靈波是怎么做到的呢?在技術(shù)報告中,他們透露了一些細(xì)節(jié)。

首先,在架構(gòu)層面,LingBot-VLA 沒有從零開始,而是選擇了一個強大的預(yù)訓(xùn)練視覺語言模型(Qwen2.5- VL)作為理解世界的「大腦」,然后為其配上一個專門負(fù)責(zé)生成機器人動作的「動作專家」。兩者并非簡單拼接,而是通過一種名為Mixture-of-Transformers (MoT)的架構(gòu)有機結(jié)合:視覺、語言和動作數(shù)據(jù)各自通過獨立的處理通路,又在每一層通過共享的注意力機制進行交互。這樣既保證了視覺語義知識能持續(xù)指導(dǎo)動作生成,又避免了不同模態(tài)信息間的相互干擾。



在動作生成上,模型采用了Flow Matching方法來建模連續(xù)、平滑的動作軌跡,這有助于提升復(fù)雜操作的控制穩(wěn)定性。

對于機器人操作至關(guān)重要的空間感知能力,LingBot-VLA 采用了一種基于視覺蒸餾的深度信息融合方法。其核心在于:模型并未直接將深度圖作為原始輸入,而是通過一套可學(xué)習(xí)的查詢(Learnable Queries)機制,使其視覺語言主干(VLM)提取的特征,與專用深度模型 LingBot-Depth 所生成的空間表征進行對齊。這讓模型在推理時無需深度圖輸入,就能具備對三維幾何關(guān)系的隱式理解,從而實現(xiàn)了在抓取、放置等任務(wù)中精度的大幅提升。具體效果如視頻所示。


https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

在訓(xùn)練效率方面,研發(fā)團隊還對其訓(xùn)練代碼庫進行了系統(tǒng)級優(yōu)化。在分布式策略上,采用經(jīng)過改進的 FSDP 策略,在內(nèi)存占用與通信開銷間取得了最佳平衡;在算子層面,利用 FlexAttention 和算子融合等技術(shù),大幅提升了核心計算效率。最終,其訓(xùn)練吞吐量達到了每 GPU 每秒 261 個樣本,相比主流開源代碼庫有 1.5 至 2.8 倍的加速,且擴展性極佳,能隨著 GPU 數(shù)量增加近乎線性地提升訓(xùn)練速度。

LingBot-VLA——

開源具身基座模型新起點

總體而言,無論在模型泛化能力還是訓(xùn)練效率方面,LingBot-VLA 都已樹立起一個新的行業(yè)標(biāo)桿。然而,其真正的深遠意義,不止于一次性能的超越,更在于它為「通過擴展真實數(shù)據(jù)實現(xiàn)更強泛化」提供了首個扎實的實證。

螞蟻靈波在技術(shù)報告中首次系統(tǒng)性地揭示了 VLA 模型在真實機器人數(shù)據(jù)上的 Scaling Law:隨著預(yù)訓(xùn)練數(shù)據(jù)規(guī)模從 3000 小時逐步擴展至 20000 小時,模型在下游任務(wù)的成功率獲得了持續(xù)且顯著的提升。尤為關(guān)鍵的是,即使達到 20000 小時這一量級,模型性能曲線仍未顯示飽和跡象。這一發(fā)現(xiàn)為行業(yè)點亮了一座燈塔,用數(shù)據(jù)證實了「大力出奇跡」的路徑在真實機器人學(xué)習(xí)中依然有效,為后續(xù)的大規(guī)模數(shù)據(jù)開發(fā)指明了可預(yù)期的回報。



更進一步看,這類以真實交互數(shù)據(jù)為核心、兼顧規(guī)模與效率的成功實踐,也為 VLA 模型未來與世界模型的深度融合奠定了現(xiàn)實基礎(chǔ)

不過,所有模型在 GM-100 上平均成功率都未超過 20% 的現(xiàn)實也在提醒我們,具身模型 —— 尤其是開源具身模型 —— 距離真正的跨本體、跨場景泛化還有很長的路要走。接下來,相關(guān)從業(yè)者可以在 LingBot-VLA 的基礎(chǔ)上繼續(xù)前進,而螞蟻靈波的全鏈路開源(模型權(quán)重、代碼、后訓(xùn)練工具鏈全部開源)也為這種持續(xù)迭代提供了土壤。

但如果把它放到更長周期里看,LingBot-VLA 可能還有另一層意義 —— 它也可以被理解為螞蟻 AGI 版圖里一次面向「真實世界交互」的落子:在基礎(chǔ)大模型(百靈)與通用助手(靈光)等「通用智能」能力之外,通過具身智能把模型帶入可驗證、可復(fù)現(xiàn)的物理世界閉環(huán)。

這也解釋了它為什么選擇以開源方式發(fā)布,并同步建設(shè) InclusionAI 這樣的開源社區(qū)與技術(shù)體系:用更開放的協(xié)作與復(fù)現(xiàn)機制擴大驗證面,讓具身智能的迭代速度更接近 AGI 需要的「規(guī);囧e」。

標(biāo)桿的意義,在于被超越,更在于指明方向。LingBot-VLA 的發(fā)布,或許正是這樣一個新方向的開始。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

小Q侃電影
2026-01-25 13:16:28
1月27日,人社部召開新聞發(fā)布會,釋放3個關(guān)于養(yǎng)老金的好消息

1月27日,人社部召開新聞發(fā)布會,釋放3個關(guān)于養(yǎng)老金的好消息

百態(tài)人間
2026-01-28 15:42:08
日本僧人做出驚人之舉!日本住持向中國捐贈5000份日軍侵華史料

日本僧人做出驚人之舉!日本住持向中國捐贈5000份日軍侵華史料

扶蘇聊歷史
2025-12-27 11:14:51
總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

小光侃娛樂
2025-12-10 22:10:04
央視緊急曝光!這三類毒蔬菜全國流通,買菜切記避開三樣!

央視緊急曝光!這三類毒蔬菜全國流通,買菜切記避開三樣!

徐徐道史
2026-01-28 17:10:11
金價上漲的第一批受害者出現(xiàn)了。

金價上漲的第一批受害者出現(xiàn)了。

愛吃糖的貓cat
2026-01-25 10:28:59
劉宇寧直播間怒懟內(nèi)娛亂象!暗挺陳星旭,吐槽男二拉踩上位太臟,話說得夠敢

劉宇寧直播間怒懟內(nèi)娛亂象!暗挺陳星旭,吐槽男二拉踩上位太臟,話說得夠敢

可樂談情感
2026-01-28 16:13:22
鞏俐21歲時寫的字,顛覆了我的想象!

鞏俐21歲時寫的字,顛覆了我的想象!

石場阿鑫
2026-01-16 13:41:02
看了潘虹再看王馥荔,我發(fā)現(xiàn):女人老了,還是穿“深色”更貴氣

看了潘虹再看王馥荔,我發(fā)現(xiàn):女人老了,還是穿“深色”更貴氣

鋒哥與八卦哥
2026-01-26 11:30:27
張柏芝機場淚送兒子留學(xué),二兒子成全場焦點!

張柏芝機場淚送兒子留學(xué),二兒子成全場焦點!

舞指飛揚
2026-01-28 09:17:52
當(dāng)不成總統(tǒng)了?美投票結(jié)果出來了,特朗普或被彈劾,希拉里被查

當(dāng)不成總統(tǒng)了?美投票結(jié)果出來了,特朗普或被彈劾,希拉里被查

環(huán)球報姐
2026-01-27 13:52:50
美軍壓境,中央司令已到,全面戰(zhàn)爭要開打?中方在聯(lián)合國先發(fā)制人

美軍壓境,中央司令已到,全面戰(zhàn)爭要開打?中方在聯(lián)合國先發(fā)制人

報君知史
2026-01-28 17:34:53
山姆亦莊店3月初停業(yè)裝修,會員卡白辦了?回應(yīng)來了

山姆亦莊店3月初停業(yè)裝修,會員卡白辦了?回應(yīng)來了

北京商報
2026-01-28 16:10:12
中日開戰(zhàn)可能性增大,但收場太難,若真動手,中方估計半步都不退

中日開戰(zhàn)可能性增大,但收場太難,若真動手,中方估計半步都不退

百態(tài)人間
2026-01-03 16:42:15
美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內(nèi)伊如何抉擇?

美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內(nèi)伊如何抉擇?

紓瑤
2026-01-27 17:10:08
1句話惹禍!馬布里愛徒被封殺,得罪遼寧教練,讓位給郭艾倫老友

1句話惹禍!馬布里愛徒被封殺,得罪遼寧教練,讓位給郭艾倫老友

體壇大事記
2026-01-28 17:55:46
10船油菜籽運往中國,加拿大態(tài)度變了,美財長:卡尼已撤回言論

10船油菜籽運往中國,加拿大態(tài)度變了,美財長:卡尼已撤回言論

素衣讀史
2026-01-28 17:57:33
16枚導(dǎo)彈全部擊中,基輔電廠徹底癱瘓!烏克蘭或后悔先挑起能源戰(zhàn)

16枚導(dǎo)彈全部擊中,基輔電廠徹底癱瘓!烏克蘭或后悔先挑起能源戰(zhàn)

小小科普員
2026-01-27 23:31:04
后天起冷空氣又至 江西降雨降溫

后天起冷空氣又至 江西降雨降溫

江西天氣
2026-01-28 16:53:29
3家上市公司緊急公告!“杰出女企業(yè)家”被留置調(diào)查

3家上市公司緊急公告!“杰出女企業(yè)家”被留置調(diào)查

揚子晚報
2026-01-28 07:39:06
2026-01-28 19:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12209文章數(shù) 142551關(guān)注度
往期回顧 全部

科技要聞

它是神也是毒!Clawdbot改名卷入千萬詐騙

頭條要聞

知名企業(yè)家熊海濤被留置 被指與成都主要領(lǐng)導(dǎo)違紀(jì)有關(guān)

頭條要聞

知名企業(yè)家熊海濤被留置 被指與成都主要領(lǐng)導(dǎo)違紀(jì)有關(guān)

體育要聞

沒天賦的CBA第一小前鋒,秘訣只有一個字

娛樂要聞

王祖賢入駐某音:一條7秒視頻吸粉55萬

財經(jīng)要聞

從萬科退休20天后,郁亮疑似失聯(lián)

汽車要聞

新手必看!冰雪路面不敢開?記住這4點 關(guān)鍵時刻真能保命

態(tài)度原創(chuàng)

時尚
旅游
本地
公開課
軍事航空

流行了100年的CP?大衣+闊腿褲,不過時的高級

旅游要聞

2026年,中國入境游最熱方式或是“醫(yī)療+旅游”?

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗豎起巨幅宣傳畫:一艘美軍航母被炸

無障礙瀏覽 進入關(guān)懷版