国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源“裸考”真實世界,國產(chǎn)具身智能基座模型拿下全球第二!

0
分享至

嘻瘋 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

國產(chǎn)具身智能基座模型,再次突破!

RoboChallenge真機評測榜單上,來自自變量機器人的端到端具身智能基礎(chǔ)模型WALL-OSS,以總分54.69、成功率35.33%的成績,超越美國具身智能明星公司Physical Intelligence的pi0(π0),排名全球第二。



在疊洗碗巾、掛口杯、按按鈕、澆盆栽、移物入盒、開瓶器進抽屜等多個單任務(wù)中,WALL-OSS均拿下單項第一



要知道,這可不是一場普通的測試。

RoboChallenge由Dexmal原力靈機聯(lián)合Hugging Face發(fā)起,是首個在真實物理環(huán)境中,由真實機器人執(zhí)行操作的大規(guī)模、多任務(wù)基準測試。

與LLM測評不同,具身模型測評更像是一場“開卷考”,任務(wù)描述和場景環(huán)境都是提前公開的。

參賽方無需提交模型權(quán)重,只需提供可驅(qū)動機器人的算法;最終,平臺通過統(tǒng)一的真機執(zhí)行,以動作視頻和任務(wù)完成率作為評分依據(jù)。

格外關(guān)鍵的是,WALL-OSS是一個開源模型

相較于閉源模型的測評結(jié)果存在較大操作空間(其性能可能源于對第三方模型的微調(diào)、接口層的特殊適配,或者存在黑箱內(nèi)的未公開優(yōu)化),模型本身的原生能力不容易被外界驗證,開源模型的成績建立在完全透明的代碼與參數(shù)之上,其能力可被任何研究者復(fù)現(xiàn)、檢驗和深入研究

而且,WALL-OSS的開源程度也相當徹底:不僅開放了預(yù)訓(xùn)練模型權(quán)重、完整訓(xùn)練代碼和數(shù)據(jù)集接口,甚至還提供了詳盡的部署文檔。僅需RTX 4090級別的消費級顯卡,就可以完成從訓(xùn)練到推理部署的完整流程。

另外,當前榜單前三名,包括pi0、pi0.5,也都是來自開源體系

具身智能的前沿發(fā)展,正在由開源模型共同推動向前。

“機器人腦”物理世界大PK

下面先具體來看WALL-OSS在測試中的實際表現(xiàn)。

RoboChallenge首發(fā)的Table 30任務(wù)集,包含30個真實日常操作任務(wù),而在行業(yè)常見的真機評測中,任務(wù)數(shù)量通常只有3–5個。

該任務(wù)集從四個維度構(gòu)建評估體系:VLA方案難點、機器人類型、任務(wù)場景環(huán)境、目標物體屬性,覆蓋了具身模型在真實世界中可能遇到的多樣復(fù)雜情況。

以難度較高的“疊抹布”任務(wù)為例,WALL-OSS目前位列該單項第一。

在該任務(wù)中,WALL-OSS以41分的成績領(lǐng)先pi0。盡管其任務(wù)成功率仍只有10%,但已是當前所有參賽模型中的最優(yōu)表現(xiàn);相比之下,pi0在該任務(wù)中的成功率為0%,僅獲得部分步驟分。



RoboChallenge平臺集成了UR5、Franka Panda、Aloha、ARX-5等多款主流機器人,用于遠程真機評測。

并且,其公開了所有任務(wù)演示數(shù)據(jù)及測試中間結(jié)果,所有人都能看到機器人執(zhí)行任務(wù)的全過程監(jiān)控記錄。

打開任務(wù)執(zhí)行詳情,可以看到左側(cè)上方是多視角視頻畫面,展示了任務(wù)現(xiàn)場的實際場景,能直觀看到機器人的操作過程



右側(cè)上方的arm圖表,記錄了機械臂6個關(guān)節(jié)(joint1–joint6)的角度變化,曲線波動對應(yīng)關(guān)節(jié)運動;右側(cè)下方的arm_gripper圖表,則記錄了夾爪的開合狀態(tài)。

最右側(cè)信息欄則展示任務(wù)ID、執(zhí)行時長等基礎(chǔ)信息。

底部時間軸可以精準定位某一時刻,同步查看該時間點的視頻畫面與機械臂/夾爪狀態(tài),快速找到動作異常的環(huán)節(jié)。

從公開視頻中可以看到,WALL-OSS成功完成了抹布的一次抓取與對折操作:



在相對簡單一些的“連續(xù)按下三個按鈕”任務(wù)中,WALL-OSS的優(yōu)勢更加明顯,得分顯著領(lǐng)先其它模型。



實際操作be like(以下展示均為加速畫面):



在“將不同形狀雜物收納至筐中”的任務(wù)里,WALL-OSS同樣表現(xiàn)穩(wěn)定:



該任務(wù)中,無論是得分還是成功率,WALL-OSS都高于pi0。



在“拉開抽屜并放入雜物”等需要連續(xù)規(guī)劃與空間判斷的任務(wù)中,也能看到其完整完成操作流程:



值得一提的是,RoboChallenge的真機測試規(guī)則本身并未限制模型進行針對性優(yōu)化或微調(diào)。開發(fā)者可以使用官方提供的任務(wù)示范數(shù)據(jù)對模型進行訓(xùn)練。

模型訓(xùn)練完成后,需對接平臺標準化API。平臺提供統(tǒng)一的框架代碼,參賽方僅需補充自身邏輯,確保模型實現(xiàn)觀察-推理-停止的完整交互閉環(huán),并可通過模擬測試進行驗證。

評估請求進入人工調(diào)度隊列后,任務(wù)將在真實場景中執(zhí)行,最終結(jié)果由平臺自動發(fā)布。

也正是在這樣的規(guī)則下,開源模型的成績,含金量才顯得尤為突出。

目前,自變量團隊已表示,WALL-OSS提交的復(fù)現(xiàn)結(jié)果示例,微調(diào)代碼和模型權(quán)重也將在近期全部開源。除檢驗測試結(jié)果的真實性,開發(fā)者們也可以在平臺上根據(jù)源代碼和各個任務(wù)的微調(diào)代碼,結(jié)合自己的數(shù)據(jù)完成復(fù)現(xiàn)微調(diào)。

接下來問題來了,WALL-OSS是如何做到的?

拆解背后技術(shù)突破

在模型的具體實現(xiàn)層面,官方已發(fā)布技術(shù)報告,對WALL-OSS的設(shè)計思路與訓(xùn)練路徑進行了系統(tǒng)披露。



從視覺語言模型(VLM)走向視覺語言動作模型(VLA),并不是一次簡單的能力疊加。

在這一遷移過程中,行業(yè)普遍面臨兩大核心挑戰(zhàn):

其一是災(zāi)難性遺忘。VLM在向動作生成擴展時,往往會犧牲原有的語言理解與視覺推理能力,導(dǎo)致模型“會動了,卻不再真正理解任務(wù)”。

其二是模態(tài)解耦。不少模型雖然表面上同時具備視覺、語言與動作模塊,但各模態(tài)之間協(xié)同不足,推理、規(guī)劃與執(zhí)行往往割裂存在,難以形成真正端到端的決策閉環(huán)。

這也直接導(dǎo)致了一個現(xiàn)實困境:認知能力強的模型,動作精度往往不足;而動作控制表現(xiàn)穩(wěn)定的模型,又難以承擔復(fù)雜任務(wù)的理解與規(guī)劃。

如何在模態(tài)統(tǒng)一、動作精度和能力泛化之間達成平衡?是VLA模型設(shè)計中最具挑戰(zhàn)性的問題之一。

針對上述問題,WALL-OSS首先在模型架構(gòu)層面進行了重構(gòu)。

不同于傳統(tǒng)多模態(tài)模型常見的“模塊拼接”方案,WALL-OSS采用了共享注意力+專家分流(FFN)的架構(gòu)設(shè)計。語言、視覺與動作信息被嵌入到同一表示空間中,通過共享注意力機制實現(xiàn)深度跨模態(tài)交互;同時,再借助專家FFN對不同任務(wù)需求進行高效分流計算。

最終,模型得以在統(tǒng)一框架下同時承擔理解、規(guī)劃與動作生成任務(wù),形成緊耦合的認知—行動閉環(huán)。



在訓(xùn)練策略上,WALL-OSS設(shè)計了“啟發(fā)階段(Inspiration)→整合階段(Integration)”的階段式范式

啟發(fā)階段通過具身VQA、指令跟隨等任務(wù)強化空間推理,結(jié)合FAST tokenization離散動作訓(xùn)練,讓模型保留原有認知能力的同時,建立空間與動作基礎(chǔ)認知。

隨后,整合階段聚焦連續(xù)動作建模,先凍結(jié)VLM僅訓(xùn)練Action FFN下的流匹配(Flow Matching)頭,精修高頻動作生成。

最終,解凍VLM聯(lián)合優(yōu)化,將認知能力與動作執(zhí)行能力在同一模型中穩(wěn)定整合。



這種“先離散、后連續(xù)、再聯(lián)合”的訓(xùn)練路徑,讓VLM的語言視覺能力能夠無損地遷移并擴展到物理動作層面,避免了傳統(tǒng)端到端訓(xùn)練中常見的能力塌縮問題。

結(jié)果是,模型既保留了懂任務(wù)的認知深度,又具備了會執(zhí)行的動作精度。

在此基礎(chǔ)上,WALL-OSS進一步將思維鏈(Chain-of-Thought)能力內(nèi)化到具身決策過程中。

WALL-OSS構(gòu)建了一套統(tǒng)一的跨層級思維鏈框架:從指令理解,到中間推理,再到子任務(wù)拆解與規(guī)劃,最終映射為連續(xù)的物理動作執(zhí)行。

這一機制使模型能夠在高層語義決策與底層動作控制之間自由切換,在同一可微分框架內(nèi)完成跨抽象層級的推理與執(zhí)行。

因此,在面對未知環(huán)境或從未見過的任務(wù)組合時,WALL-OSS不再依賴預(yù)設(shè)流程,而是能夠自主拆解問題、逐步思考,并在執(zhí)行過程中動態(tài)調(diào)整策略,從而具備了承擔長程、復(fù)雜具身任務(wù)的能力。

實驗結(jié)果顯示,在Embodied VQA基準測試及6類機器人操作任務(wù)中,WALL-OSS均表現(xiàn)突出。



開源破壁,真正推動具身智能發(fā)展的路徑

最后再來介紹一下WALL-OSS背后的團隊——自變量機器人

這是一家成立時間不長、但在具身智能領(lǐng)域推進速度極快的明星公司。核心團隊長期深耕機器人與多模態(tài)智能方向,并明確將“通用具身智能基座”作為長期目標。

創(chuàng)始人兼CEO王潛,本碩畢業(yè)于清華大學(xué),后在美國南加州大學(xué)攻讀博士,從事Robotics Learning相關(guān)研究。他在神經(jīng)網(wǎng)絡(luò)注意力機制相關(guān)研究領(lǐng)域較早開展探索,是較早將Attention思想引入神經(jīng)網(wǎng)絡(luò)體系的研究者之一。

聯(lián)合創(chuàng)始人兼CTO王昊,為北京大學(xué)計算物理博士,曾任職于粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(IDEA研究院),擔任大模型團隊負責人,曾帶領(lǐng)團隊發(fā)布過多個開源大模型,在基礎(chǔ)模型與系統(tǒng)工程層面具備深厚積累。

目前團隊已完成多輪融資。幾個月前,剛宣布了近10億元A+輪融資,阿里云、國科投資領(lǐng)投,國開金融、紅杉、渶策、美團、聯(lián)想之星、君聯(lián)資本均有參與。

相比單一場景或垂直應(yīng)用,自變量團隊更關(guān)注如何構(gòu)建一個可以被反復(fù)驗證、持續(xù)演化的“機器人通用大腦”

也正因為如此,WALL-OSS從一開始就被定位為面向真實物理世界、端到端統(tǒng)一的基座模型,而不是為某個Demo、某個任務(wù)定制優(yōu)化的解法。

如果僅從榜單成績來看,WALL-OSS已經(jīng)足夠亮眼。但真正值得被反復(fù)討論的,并不是名次本身,而是它選擇以開源的方式,參與真實物理世界的能力驗證

在RoboChallenge這樣的第三方測評中,WALL-OSS的表現(xiàn)很難被簡單歸因為調(diào)參、特化或運氣好。它更像一次赤裸而直接的證明:一個開源的、可復(fù)現(xiàn)的具身基礎(chǔ)模型,確實可以在真實世界任務(wù)中具備很強的競爭力

而把視角拉遠一步,長期以來,具身智能領(lǐng)域一直存在一個結(jié)構(gòu)性矛盾:

真正有想法、有算法能力的高校與中小團隊,往往缺算力、缺數(shù)據(jù)、缺機器人;而具備資源的大公司,又很難把底層能力完全開放出來,供行業(yè)共同驗證和改進。

在這樣的背景下,一個可以在消費級顯卡上完成訓(xùn)練、推理和部署的開源具身模型,在行業(yè)中的意義就不僅是共享成果,而是彌補了行業(yè)空白,實質(zhì)性地降低整個行業(yè)的創(chuàng)新門檻

研究者不必從零構(gòu)建,創(chuàng)業(yè)團隊不必重復(fù)造輪子,更多精力可以投入到真正有價值的問題上,比如:如何提升泛化能力?處理更長程、更復(fù)雜的任務(wù)?如何讓機器人在不可控環(huán)境中更可靠地工作?

這正是開源生態(tài)最理想的狀態(tài),不是把精力消耗在基礎(chǔ)設(shè)施的重復(fù)建設(shè)上,而是在同一個高起點上競爭真正的創(chuàng)新

正如自變量機器人聯(lián)合創(chuàng)始人&CTO王昊曾在硅谷101播客中所說:

我一直都覺得開源是非常重要的事情,開源意味著我們可以站在巨人的肩膀上繼續(xù)前進。我們可以基于已有成果做更多的改進,社區(qū)開發(fā)者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經(jīng)驗,然后把這個技術(shù)路線思考得更加深入。

而對自變量自身而言,選擇開源同樣不是一筆短期收益最大化的生意。

在多次訪談中,自變量團隊反復(fù)強調(diào),他們并不把開源視為一次技術(shù)展示或品牌露出,而是將其視為一種“行業(yè)基礎(chǔ)設(shè)施”的長期投入

他們更關(guān)心的是,這個模型是否足夠先進,足夠稀缺,從而足夠有資格成為“基座”;或者模型又能否真的能被社區(qū)用起來,經(jīng)得起復(fù)現(xiàn)、質(zhì)疑和改造,在真實世界的任務(wù)中不斷暴露問題,最終通過生態(tài)的反向推動,從而完成自我迭代與進化。

在具身智能這樣一個高度依賴真實世界反饋的領(lǐng)域,沒有什么比開源社區(qū)的持續(xù)檢驗更殘酷、也更有效

社區(qū)會放大模型的優(yōu)點,也會毫不留情地揭示它的短板。而正是這種持續(xù)地被使用、被對抗、被改造,才有可能推動模型真正走向成熟。

從這個角度看,WALL-OSS的開源,本質(zhì)上是一種姿態(tài)——愿意把模型交給世界,用真實應(yīng)用來檢驗技術(shù)路線是否成立

具身智能的長期發(fā)展中,擁抱開源,或許不是理想主義,而是一條繞不開的現(xiàn)實路徑。

至少,WALL-OSS已經(jīng)用一次真實世界的大考,給出了一個有分量的示范答案。

最后話說回來,以后打榜是不是要給開源和閉源搞個分賽道?裸奔的,和穿著絨褲、棉褲、毛褲、秋褲、打底褲的相比,到底是不一樣。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
侯友誼退出國民黨對大家都好

侯友誼退出國民黨對大家都好

達文西看世界
2026-01-11 14:52:09
神仙姐姐的野生圖,太美了。

神仙姐姐的野生圖,太美了。

微微熱評
2026-01-09 12:20:53
張雨綺穿吊帶看著骨架有點大哦!這大體格誰看了不喜歡?

張雨綺穿吊帶看著骨架有點大哦!這大體格誰看了不喜歡?

草莓解說體育
2025-12-21 00:52:27
52票贊成47票反對!美國投票結(jié)果公布;美國或?qū)⑹ヂ?lián)大投票權(quán)

52票贊成47票反對!美國投票結(jié)果公布;美國或?qū)⑹ヂ?lián)大投票權(quán)

南宗歷史
2026-01-09 10:24:03
中戲新疆班畢業(yè)生出面證實,中戲2011級新疆班沒有林傲霏

中戲新疆班畢業(yè)生出面證實,中戲2011級新疆班沒有林傲霏

我就是個碼字的
2026-01-12 17:30:25
同事年終獎2萬,我是一袋子酸菜,回家后老板打電話:你占便宜了

同事年終獎2萬,我是一袋子酸菜,回家后老板打電話:你占便宜了

船長與船1
2026-01-12 11:13:18
黃偉哲下令拆除臺南市升五星紅旗的紅船,并對船主罰款10萬元

黃偉哲下令拆除臺南市升五星紅旗的紅船,并對船主罰款10萬元

總在茶余后
2026-01-12 05:25:26
“執(zhí)法車一走,馬上就亂!”滬上地鐵站外屢現(xiàn)“貓鼠游戲”,市民“很愁很揪心”

“執(zhí)法車一走,馬上就亂!”滬上地鐵站外屢現(xiàn)“貓鼠游戲”,市民“很愁很揪心”

新民晚報
2026-01-12 18:46:39
突發(fā)!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

突發(fā)!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

林雁飛
2026-01-12 13:41:53
禁令執(zhí)行第四天,中國電路板廠商不再向日本發(fā)貨,日本廠商天塌了

禁令執(zhí)行第四天,中國電路板廠商不再向日本發(fā)貨,日本廠商天塌了

面包夾知識
2026-01-12 20:21:00
東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

南方都市報
2026-01-12 16:31:21
牡丹花下死!46歲"縱欲過度"的蕭亞軒,終是為自己行為買了單

牡丹花下死!46歲"縱欲過度"的蕭亞軒,終是為自己行為買了單

凡知
2026-01-12 11:22:31
官媒怒批后,一天時間,閆學(xué)晶再迎2大噩耗,這次,她真的要哭了

官媒怒批后,一天時間,閆學(xué)晶再迎2大噩耗,這次,她真的要哭了

叨嘮
2026-01-10 21:54:58
愛德華茲談被文班防守:我完全懵了 不知道該投還是該突

愛德華茲談被文班防守:我完全懵了 不知道該投還是該突

北青網(wǎng)-北京青年報
2026-01-12 19:19:08
百度某員工:37歲,房貸1萬7。全職媳婦買榴蓮200多,網(wǎng)購1萬多

百度某員工:37歲,房貸1萬7。全職媳婦買榴蓮200多,網(wǎng)購1萬多

螞蟻大喇叭
2026-01-12 11:23:28
排超聯(lián)賽第九輪預(yù)告:滬蘇上演榜首之戰(zhàn),天津女排主場迎戰(zhàn)山東隊

排超聯(lián)賽第九輪預(yù)告:滬蘇上演榜首之戰(zhàn),天津女排主場迎戰(zhàn)山東隊

湘楚風云
2026-01-12 16:28:48
王曼昱丟冠并無沮喪!抵達北京大方與球迷揮手 將登時尚雜志封面

王曼昱丟冠并無沮喪!抵達北京大方與球迷揮手 將登時尚雜志封面

顏小白的籃球夢
2026-01-12 19:43:19
“資產(chǎn)提升戰(zhàn)”打響!工行、農(nóng)行、中行、建行等齊下場,已有人薅到上萬元“羊毛”

“資產(chǎn)提升戰(zhàn)”打響!工行、農(nóng)行、中行、建行等齊下場,已有人薅到上萬元“羊毛”

中國基金報
2026-01-12 20:38:18
駐日本大使吳江浩駁回日方就兩用物項出口管制所提交涉

駐日本大使吳江浩駁回日方就兩用物項出口管制所提交涉

界面新聞
2026-01-08 17:37:54
兩個中國最“硬”的男人:一個給國家交稅1400億卻家破人亡,一個喝掉2噸茅臺把虧損廠干到萬億,這才是頂級狠人!

兩個中國最“硬”的男人:一個給國家交稅1400億卻家破人亡,一個喝掉2噸茅臺把虧損廠干到萬億,這才是頂級狠人!

寄史言志
2026-01-09 18:47:15
2026-01-12 22:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12006文章數(shù) 176358關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
手機
數(shù)碼
公開課

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

手機要聞

消息稱三星Galaxy Z Flip 8影像規(guī)格原地踏步,售價或與前代相同

數(shù)碼要聞

2026年全球顯示器預(yù)計出貨約1.28億臺 100Hz成主流

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版