国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華研究生開源大一統(tǒng)世界模型:性能超越硅谷標桿40%!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

國產開源具身世界模型,直接秒了Pi-0.5,而且還是幾位清華碩、博士研究生領銜推出的。



這就是由生數(shù)科技聯(lián)合清華大學,正式開源的大一統(tǒng)世界模型——Motus

項目主要負責人,是來自清華大學計算機系朱軍教授TSAIL實驗室的二年級碩士生畢弘喆和三年級博士生譚恒楷。

之所以說是大一統(tǒng),是因為Motus在架構上,直接把VLA(視覺-語言-動作)、世界模型、視頻生成、逆動力學、視頻-動作聯(lián)合預測這五種具身智能范式,首次實現(xiàn)了“看-想-動”的完美閉環(huán)。

而且在50項通用任務的測試中,Motus的絕對成功率比國際頂尖的Pi-0.5提升了35%以上,最高提升幅度甚至達到了40%!

在Motus的加持之下,現(xiàn)在的機器人已經(jīng)具備了預測未來的能力。

瞧,Cloudflare人機驗證任務,機器人可以輕松拿捏:



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

從視頻中不難看出,面對形狀不規(guī)則的曲面鼠標,Motus控制的機械臂不僅能精準識別,還能根據(jù)鼠標與屏幕點擊框的距離,平穩(wěn)連續(xù)地移動,最后極度精準地完成點擊。

再如長程多步推理的孔明棋任務,Motus同樣展現(xiàn)出了嚴密的邏輯閉環(huán),一步步解開棋局:



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

再來看一個堪稱是機器人噩夢的任務——疊衣服



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

衣服這種柔性物體的形變是過程中持續(xù)不斷發(fā)生的,但在Motus手下,整個過程絲滑順暢,就像有了人類的觸覺和預判一樣。

可以說,Motus的出現(xiàn),率先在具身智能領域發(fā)現(xiàn)了Scaling Law,直接復刻了當年GPT-2被定義為“無監(jiān)督多任務學習者”的奇跡。

很多CTO、創(chuàng)始人們看完之后直呼“妙哉”:

  • 這是互聯(lián)網(wǎng)視頻學習與現(xiàn)實世界機器人之間的巧妙橋梁。
  • Motus的Latent Action范式太妙了。統(tǒng)一的VLA架構消除了機器人學中的模型碎片化,這才是真正的突破。
  • 將感知、預測和行動統(tǒng)一在智能體內部確實是實質性的進展。



包括此前大火的英偉達Cosmos policy、DreamZero這些工作,被認為是顛覆了VLA的范式,轉向WA(World Action Models)或VA(Vision Action)范式;但其核心思想與Motus相近,大同小異。

目前,Motus的代碼、模型權重已全部開源(鏈接在文末)。

那么接下來,我們就來扒一扒這個大一統(tǒng)世界模型是如何實現(xiàn)的。

一個架構統(tǒng)一了五種范式

在過去,具身智能領域可以說是散裝的。

因為像VLA、世界模型、視頻生成、逆動力學、視頻-動作聯(lián)合預測等模型,很難有機地湊成一個整體。

而Motus最大的亮點,在一個框架內把這五種范式全包圓了。



大一統(tǒng)背后的技術,便是Mixture-of-Transformer(MoT)架構,配合Tri-model Joint Attention(三模態(tài)聯(lián)合注意力)機制。

簡單來說,通過這種方式,Motus相當于把三個專家攢到了一起:

  • 理解專家(大腦):基于Qwen-VL,負責看懂環(huán)境和指令;
  • 視頻生成專家(想象力):基于Wan 2.2,負責推演未來畫面;
  • 動作專家(小腦):負責具體的運動控制。

通過Tri-model Joint Attention,這三位專家可以在同一個注意力層里實時交換信息。

這就賦予了機器人一種很像人類的能力:不僅能看見(感知),還能在腦海里想象動作發(fā)生后的未來畫面(預測),從而反過來倒推現(xiàn)在該做什么動作(決策)。

這正是我們剛才提到的“看—想—動”閉環(huán)。

但要訓練這樣一個全能模型,光在模型框架層面下功夫還是不夠的——數(shù)據(jù),也是一個老大難的問題。

因為機器人真機數(shù)據(jù)太貴、太少,而互聯(lián)網(wǎng)上雖然有海量的視頻,卻只有畫面,沒有動作標簽(Action Label)。

為了解決這個問題,Motus采取的策略便是潛動作(Latent Action)



研究團隊利用光流技術(Optical Flow),捕捉視頻里像素級的運動軌跡,然后提出了一種Delta Action機制,將這些像素的變化翻譯成機器人的動作趨勢。

這個思路可以說是比較巧妙,就像是讓機器人看武俠片學功夫。

雖然沒有人手把手教(沒有真機數(shù)據(jù)標簽),但機器人通過觀察視頻里高手的動作軌跡(光流),看多了自然就懂了招式和發(fā)力方向(潛動作)。



由此,上至昂貴的真機數(shù)據(jù),下至浩如煙海的互聯(lián)網(wǎng)視頻、人類第一視角視頻(Egocentric Video),Motus全都能吃進去,從中提取通用的物理交互先驗。

除此之外,基于數(shù)據(jù)金字塔和潛動作,Motus還構建了一套三階段訓練流程,逐步將通用的物理動力學常識“蒸餾”為精確的機器人控制能力:

  • 視頻生成預訓練。利用多機器人軌跡和人類操作視頻來微調視頻生成專家,使其能根據(jù)條件幀和語言指令生成合理的機器人操作視頻。
  • 潛動作預訓練。在凍結VLM的情況下,用視頻、語言和潛動作同時預訓練三個專家,將通用的運動先驗充分地注入Motus中。
  • 特定本體微調。利用目標機器人的真機數(shù)據(jù)對Motus進行整體微調,將模型適應到特定場景下的下游任務,例如RoboTwin仿真和真機機械臂抓取。



Scaling Law在物理世界跑通了

研究的實驗結果表明:Scaling Law在物理世界里,真的跑通了。

在仿真榜單RoboTwin 2.0上,在50個通用任務中,Motus的平均成功率達到了88%



特別是在高難度的Stack Bowls Three(疊三個碗) 任務中,稍微一點誤差就會導致碗塔倒塌。此前的基線模型在這個任務上的成功率不到16%,可以說是“帕金森級手抖”。

而Motus的成功率直接飆升至95%!

但比單點成績更讓人驚艷的,是下面這張Scaling Curves(擴展曲線)





△上圖為數(shù)據(jù)量Scaling,下圖為任務數(shù)量Scaling。紅色為Motus,藍色為Pi-0.5

隨著訓練任務數(shù)量的增加(橫軸),藍色的線(Pi-0.5)呈現(xiàn)下降趨勢。這意味著傳統(tǒng)的模型架構在面對多任務時,容易發(fā)生過擬合,學了新的忘了舊的。

而紅色的線(Motus)則是一路持續(xù)上升。

這證明了:只要模型架構足夠統(tǒng)一、數(shù)據(jù)來源足夠雜,具身智能完全可以像LLM一樣,涌現(xiàn)出跨任務的通用泛化能力。

這也正是GPT-2當年帶給NLP領域的震撼——Language Models are Unsupervised Multitask Learners?,F(xiàn)在,Motus在具身智能領域復刻了這一奇跡。

真機測試中,無論是AC-One還是Agilex-Aloha-2機械臂,Motus都表現(xiàn)出了較好的適應性。



△左:AC-One;右:Agilex-Aloha-2

數(shù)據(jù)顯示,Motus的數(shù)據(jù)效率比對手提升了13.55倍。也就是說,達到同樣的水平,Motus只需要別人十幾分之一的數(shù)據(jù)量。

清華研究生領銜

最后,讓我們把目光投向這個大一統(tǒng)世界模型背后的團隊。

Motus由生數(shù)科技聯(lián)合清華大學發(fā)布,而共同領銜的一作,是兩位非常年輕的清華學生:

  • 畢弘喆(Hongzhe Bi):清華大學計算機系TSAIL實驗室二年級碩士生。他的研究方向就是具身智能基礎模型,此前還是CVPR2025 RoboTwin雙臂機器人競賽真機賽冠軍。
  • 譚恒楷(Hengkai Tan):清華大學計算機系TSAIL實驗室三年級博士生。主攻視頻世界模型和具身大模型,曾獲NOI銀牌,在RDT、Vidar等多個重要項目中都有他的身影。

此外,團隊成員還包括謝盛昊、王澤遠、黃舒翮、劉海天等,均來自清華TSAIL實驗室(朱軍教授課題組)。

而作為聯(lián)合發(fā)布方的生數(shù)科技,這次開源Motus,也暴露了其在世界模型上的布局。

熟悉生數(shù)科技的朋友都知道,他們剛完成新一輪融資,而且一直堅持視頻大模型是通往AGI的核心路徑。

在生數(shù)看來,視頻天然承載了真實世界的物理時空、因果邏輯與動態(tài)演變。Motus的出現(xiàn),正是這一戰(zhàn)略的重要拼圖。

它標志著機器人從“機械執(zhí)行”向“端到端智能”的跨越,也推動了整個行業(yè)從單點突破走向統(tǒng)一基座。

產學研協(xié)作在這里發(fā)揮了巨大的化學反應:生數(shù)在多模態(tài)大模型上的深厚積累,加上清華團隊的頂尖算法能力,才催生出了Motus這個大一統(tǒng)的世界模型。

Motus于25年12月就全部開源并發(fā)布論文,早于行業(yè)2個月,而最近火熱的基于視頻模型的具身智能路線,生數(shù)科技與清華大學在2025年7月份就已經(jīng)發(fā)表Vidar具身視頻模型,領先于行業(yè)半年之久。

目前,Motus已經(jīng)全量開源。

感興趣的小伙伴可以圍觀一下啦~

論文地址:
https://arxiv.org/abs/2512.13030

項目地址:
https://motus-robotics.github.io/motus

開源倉庫:
https://github.com/thu-ml/Motus

模型權重:
https://huggingface.co/motus-robotics

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海公交車司機鄔煒,你被“曝光”了!網(wǎng)友:工作不是誰做都一樣,真的好暖

上海公交車司機鄔煒,你被“曝光”了!網(wǎng)友:工作不是誰做都一樣,真的好暖

上觀新聞
2026-02-25 18:14:27
歐冠16強身價排行:皇馬第1 阿森納領跑奪冠賠率

歐冠16強身價排行:皇馬第1 阿森納領跑奪冠賠率

愛奇藝體育
2026-02-26 10:54:38
性能之王!新機官宣:3月17日,正式發(fā)布上市!

性能之王!新機官宣:3月17日,正式發(fā)布上市!

科技堡壘
2026-02-25 13:21:31
哀悼!王守仁逝世

哀悼!王守仁逝世

中國基金報
2026-02-25 19:46:17
康熙臨終前,給胤禎一杯毒酒考驗他,胤禎的舉動,讓康熙心頭一震

康熙臨終前,給胤禎一杯毒酒考驗他,胤禎的舉動,讓康熙心頭一震

千秋文化
2026-02-08 19:38:41
真正生理性的喜歡,根本藏不??!不是接吻和擁抱,而是……

真正生理性的喜歡,根本藏不住!不是接吻和擁抱,而是……

青蘋果sht
2026-02-22 06:58:00
女演員“強行扮嫩”的風又刮到了央視劇里,擠眉弄眼扎雙馬尾真尬

女演員“強行扮嫩”的風又刮到了央視劇里,擠眉弄眼扎雙馬尾真尬

楠楠自語
2026-02-26 04:41:58
馬筱梅前夫鄭揚融底細曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

馬筱梅前夫鄭揚融底細曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

科學發(fā)掘
2026-02-25 15:01:45
庫明加離隊第一戰(zhàn)就炸裂,勇士自媒體深夜發(fā)出靈魂拷問

庫明加離隊第一戰(zhàn)就炸裂,勇士自媒體深夜發(fā)出靈魂拷問

大眼瞄世界
2026-02-25 23:44:32
不可錯過!2月26日早上08:03比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!2月26日早上08:03比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-02-26 07:33:23
除夕前一天,李書福的好搭檔病逝,享年61歲

除夕前一天,李書福的好搭檔病逝,享年61歲

龔進輝
2026-02-25 15:07:57
快扔掉!戴一天,輻射量相當于拍117次胸片

快扔掉!戴一天,輻射量相當于拍117次胸片

上海約飯局
2025-10-31 15:32:01
丁程鑫一個人直播過生日太冷清,時代少年團單飛傳聞再起?成員間開始悄然割席?

丁程鑫一個人直播過生日太冷清,時代少年團單飛傳聞再起?成員間開始悄然割席?

東方不敗然多多
2026-02-26 09:52:13
女演員長相對選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

女演員長相對選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

露珠聊影視
2026-02-22 23:03:30
痛心!江西南昌一家五口返程遇車禍 姐姐當場身亡,姐夫帶三娃幸存

痛心!江西南昌一家五口返程遇車禍 姐姐當場身亡,姐夫帶三娃幸存

冒泡泡的魚兒
2026-02-26 00:28:22
21世紀十大最佳間諜電影:它們完美詮釋了“如今已不再拍這種電影”這句格言

21世紀十大最佳間諜電影:它們完美詮釋了“如今已不再拍這種電影”這句格言

鄉(xiāng)野小珥
2026-02-24 08:52:53
醫(yī)生直言:若每天只吃兩頓飯,不出半年,或有這幾種變化!

醫(yī)生直言:若每天只吃兩頓飯,不出半年,或有這幾種變化!

展望云霄
2026-02-03 19:52:59
陳百強自殺真相曝光!王晶揭穿32年豪門謊言:他根本不是為情所困

陳百強自殺真相曝光!王晶揭穿32年豪門謊言:他根本不是為情所困

小徐講八卦
2026-02-25 15:49:57
從大S最后的歲月中可以看出,大S可能已經(jīng)相當不滿意光頭了

從大S最后的歲月中可以看出,大S可能已經(jīng)相當不滿意光頭了

情感大頭說說
2026-02-26 00:01:37
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
2026-02-26 11:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12203文章數(shù) 176394關注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

"花壇白骨案"2名兇手因4萬元殺人埋尸 受害人兒子發(fā)聲

頭條要聞

"花壇白骨案"2名兇手因4萬元殺人埋尸 受害人兒子發(fā)聲

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風云突變!有人投百萬賠得精光

汽車要聞

雷克薩斯ES雙色特別版上市 售30.79萬元起

態(tài)度原創(chuàng)

藝術
游戲
健康
數(shù)碼
公開課

藝術要聞

誰能認出這幅14字草書的真正作者?

劇情設定已有爆料!《德軍總部》新作真要來了?

轉頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

華碩驍龍X2-E94-100版Zenbook A16筆記本定價近34萬日元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版