国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需動(dòng)作預(yù)訓(xùn)練,物理自回歸模型讓機(jī)器人“從視頻學(xué)會(huì)操作”

0
分享至


不需要?jiǎng)幼黝A(yù)訓(xùn)練,即可同時(shí)實(shí)現(xiàn)未來(lái)視頻預(yù)測(cè)一致的動(dòng)作軌跡生成。

作者丨拓元智慧AI團(tuán)隊(duì)

該論文作者來(lái)自中山大學(xué)、拓元智慧AI實(shí)驗(yàn)室團(tuán)隊(duì),項(xiàng)目負(fù)責(zé)人為王廣潤(rùn)博士。王廣潤(rùn),國(guó)家級(jí)“四青人才”、拓元智慧首席科學(xué)家、中山大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生導(dǎo)師、華為戰(zhàn)略研究院人才基金獲得者、前牛津大學(xué)研究員,主要研究方向包括新一代AI架構(gòu)、大物理模型、多模態(tài)生成式AI等。


論文題目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining論文鏈接:https://arxiv.org/abs/2508.09822項(xiàng)目主頁(yè):https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日,由中山大學(xué)、拓元智慧AI實(shí)驗(yàn)室聯(lián)合提出的全新“物理自回歸模型(Physical Autoregressive Model,PAR)”打通了“預(yù)判未來(lái)視頻幀—生成動(dòng)作軌跡”的統(tǒng)一鏈路,將視覺(jué)幀與動(dòng)作共同編碼為“物理token”,在無(wú)需動(dòng)作預(yù)訓(xùn)練的前提下即可學(xué)習(xí)物理世界的動(dòng)態(tài)規(guī)律?;贛aniSkill基準(zhǔn),PAR 在PushCube任務(wù)上實(shí)現(xiàn)100%成功率,并在其余任務(wù)上與需要?jiǎng)幼黝A(yù)訓(xùn)練的強(qiáng)基線(xiàn)表現(xiàn)相當(dāng),顯示了從大規(guī)模視頻預(yù)訓(xùn)練向機(jī)器人操控遷移的可行路徑。

核心技術(shù)點(diǎn):

  • 全局記憶的自回歸框架:構(gòu)建從過(guò)去到現(xiàn)在的所有“觀察-動(dòng)作”歷史,借鑒GPT等語(yǔ)言模型的工作模式,基于全部N個(gè)歷史token預(yù)測(cè)下一步(N+1步)最合理的行動(dòng)。

  • 統(tǒng)一的“物理token”表征:將幀與動(dòng)作拼接為一個(gè)序列單元,直接建模機(jī)器人與環(huán)境的聯(lián)合演化;模型以自回歸方式逐步預(yù)測(cè)下一步視頻與動(dòng)作。

  • 連續(xù)空間的DiT去分詞器(de-tokenizer):以擴(kuò)散Transformer(DiT)建模幀與動(dòng)作的連續(xù)分布,避免離散量化帶來(lái)的誤差累積,并促進(jìn)兩模態(tài)的相互增強(qiáng)。

  • 面向控制的因果掩碼與效率機(jī)制:引入“動(dòng)作對(duì)幀的單向注意力”,形成隱式逆運(yùn)動(dòng)學(xué);同時(shí)結(jié)合并行訓(xùn)練與KV-cache提升推理效率。

01

研究背景

在機(jī)器人操控領(lǐng)域,獲取大規(guī)模、標(biāo)注完備的人類(lèi)示教數(shù)據(jù)成本高昂?,F(xiàn)有不少方法把語(yǔ)言大模型用于行動(dòng)策略,但文本與動(dòng)作模態(tài)之間存在天然鴻溝。相比之下,自回歸視頻生成模型天生擅長(zhǎng)“基于過(guò)去預(yù)測(cè)未來(lái)”,與動(dòng)作生成的目標(biāo)更一致,因此成為遷移“世界知識(shí)”的理想載體。

此外,要讓機(jī)器人“知行合一”,不僅要“想得明白”,更要“做得精準(zhǔn)”。現(xiàn)有的方法往往只依賴(lài)于“當(dāng)前幀+前一幀”的“局部觀察”,缺乏對(duì)長(zhǎng)程歷史的記憶。與之相比,具備全局記憶的自回歸框架,可通過(guò)歷史全量token預(yù)測(cè)未來(lái)狀態(tài),實(shí)現(xiàn)“視覺(jué)-動(dòng)作”的全局關(guān)聯(lián)建模,有效降低機(jī)器人在動(dòng)態(tài)場(chǎng)景中(如機(jī)器人抓取、物體堆疊)因“短視”導(dǎo)致的“動(dòng)作漂移”問(wèn)題。

02

方法:PAR 如何把“看見(jiàn)的未來(lái)”變成“下一步動(dòng)作”

整體框架:從“看—想—做”的自回歸閉環(huán)
PAR 的核心想法是把機(jī)器人與環(huán)境的交互過(guò)程,統(tǒng)一描述成一串“物理token”。每個(gè) token 同時(shí)包含這一刻的視覺(jué)畫(huà)面動(dòng)作片段。模型像講故事一樣按時(shí)間讀入這些token,用一個(gè)因果式Transformer形成對(duì)當(dāng)前情境的理解,然后同時(shí)預(yù)測(cè)下一張將看到的畫(huà)面以及下一步要執(zhí)行的動(dòng)作。新的畫(huà)面和動(dòng)作再被接回序列,進(jìn)入下一輪預(yù)測(cè),形成“預(yù)測(cè)—執(zhí)行—再預(yù)測(cè)”的閉環(huán)。

直觀地說(shuō),PAR并不是先獨(dú)立學(xué)會(huì)“看視頻”,再額外學(xué)會(huì)“怎么動(dòng)”,而是把兩件事合在一起、每一步都邊看邊想邊做。這種端到端的整體建模,避免了兩階段方法常見(jiàn)的分布偏移,也更貼近真實(shí)控制場(chǎng)景里“在行動(dòng)中不斷校正”的節(jié)奏。


圖1:整體框架:從“看—想—做”的物理自回歸閉環(huán)

生成細(xì)節(jié):在“連續(xù)空間”里同時(shí)生成視頻與動(dòng)作
傳統(tǒng)做法常把視頻和動(dòng)作先量化成離散碼,再去預(yù)測(cè),這會(huì)引入不可忽略的量化誤差。PAR 選擇在連續(xù)空間里直接建模:

  • 統(tǒng)一條件,雙分支生成。上述 Transformer 得到的“情境表示”被同時(shí)送入兩個(gè)生成器:一個(gè)負(fù)責(zé)“把下一張畫(huà)面逐步復(fù)原出來(lái)”(視頻分支),另一個(gè)負(fù)責(zé)“把下一段動(dòng)作逐步生成出來(lái)”(動(dòng)作分支)。兩個(gè)分支共享同一份條件,因此在訓(xùn)練時(shí)能彼此約束、相互增強(qiáng)——看到的未來(lái)會(huì)直接影響該怎么動(dòng),反過(guò)來(lái)更合理的動(dòng)作也會(huì)促使畫(huà)面預(yù)測(cè)更貼近真實(shí)。

  • 逐步細(xì)化,貼近真實(shí)。兩個(gè)分支都采用逐步細(xì)化的生成方式(多步從粗到細(xì)),這讓結(jié)果更加平滑、細(xì)節(jié)更真實(shí),尤其適合對(duì)軌跡連續(xù)性和視覺(jué)連貫性都很敏感的機(jī)器人任務(wù)。

  • 輕量動(dòng)作解碼器。動(dòng)作本身維度較低,采用更輕量的生成器即可穩(wěn)定產(chǎn)出可控、平滑的控制量,便于在線(xiàn)部署。

注意力與控制:時(shí)間因果 + 幀內(nèi)雙向 + 動(dòng)作←視覺(jué)單向
為把“預(yù)測(cè)未來(lái)”和“生成動(dòng)作”真正做成控制器可用的能力,PAR 在注意力結(jié)構(gòu)上加入了三條關(guān)鍵約束:

  1. 時(shí)間因果。跨時(shí)間維度只能“看過(guò)去、不能看未來(lái)”,保證推理時(shí)與真實(shí)執(zhí)行一致,避免“偷看答案”。

  2. 幀內(nèi)雙向。同一幀內(nèi)部,圖像的各個(gè)區(qū)域可以相互關(guān)注,讓模型準(zhǔn)確理解目標(biāo)、障礙和機(jī)械臂之間的空間關(guān)系,從而把下一張畫(huà)面預(yù)測(cè)得更可信。

  3. 動(dòng)作←視覺(jué)的單向通道。當(dāng)前步待預(yù)測(cè)的動(dòng)作可以關(guān)注同一時(shí)刻待預(yù)測(cè)的視覺(jué)表示,但反過(guò)來(lái)不行;直覺(jué)上,這等價(jià)于在網(wǎng)絡(luò)里植入一種“從期望實(shí)現(xiàn)的外觀與相對(duì)位置反推該怎么動(dòng)”的先驗(yàn)(可把它理解為一種隱式逆運(yùn)動(dòng)學(xué))。這使得動(dòng)作更緊貼關(guān)鍵像素區(qū)域(例如方塊或目標(biāo)區(qū)),減小偏差累積。
    在工程層面,推理時(shí)配合KV-cache等增量計(jì)算,只對(duì)新增的 token 計(jì)算注意力,長(zhǎng)序列滾動(dòng)的時(shí)延增長(zhǎng)更可控,適合在線(xiàn)控制。

03

評(píng)測(cè)與結(jié)果

  • 主要評(píng)測(cè)結(jié)果:在maniskill基準(zhǔn)中,PAR在PushCube達(dá)到100%成功率,總體成績(jī)居第二,僅次于需要?jiǎng)幼黝A(yù)訓(xùn)練的RDT;在PickCube與StackCube上也超過(guò)或接近需要?jiǎng)幼黝A(yù)訓(xùn)練的強(qiáng)基準(zhǔn)方法(總體平均74%)。

  • 對(duì)齊與可解釋性:如圖2所示,可視化顯示預(yù)測(cè)視頻實(shí)際執(zhí)行在關(guān)鍵動(dòng)作時(shí)序與軌跡上高度一致;如圖3所示,注意力圖表明不同頭會(huì)在幀/動(dòng)作token與關(guān)鍵像素區(qū)域(方塊、目標(biāo)區(qū)、機(jī)械臂)之間進(jìn)行有針對(duì)性的聚焦。


圖 2:預(yù)測(cè)視頻實(shí)際執(zhí)行關(guān)聯(lián)可視化


圖3:注意力圖

PAR證明了“從視頻世界遷移物理知識(shí)”用于機(jī)器人操控的有效性:不需要?jiǎng)幼黝A(yù)訓(xùn)練,即可同時(shí)實(shí)現(xiàn)未來(lái)視頻預(yù)測(cè)一致的動(dòng)作軌跡生成,為解決示教數(shù)據(jù)稀缺提供新路徑。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
15歲女兒遭同班14歲男生殺害,父親講述煎熬:5個(gè)月來(lái)借酒澆愁最多一天喝2斤

15歲女兒遭同班14歲男生殺害,父親講述煎熬:5個(gè)月來(lái)借酒澆愁最多一天喝2斤

大風(fēng)新聞
2025-12-24 20:58:04
1909年,64的趙爾豐帶著2萬(wàn)清軍,冰天雪地,力保西南百萬(wàn)國(guó)土

1909年,64的趙爾豐帶著2萬(wàn)清軍,冰天雪地,力保西南百萬(wàn)國(guó)土

云霄紀(jì)史觀
2025-12-23 17:59:09
湖北一大媽跳了20多年廣場(chǎng)舞后,拿100多個(gè)金鐲子去賣(mài),說(shuō)家里還有金項(xiàng)鏈沒(méi)拿,我人好,都是別人送的

湖北一大媽跳了20多年廣場(chǎng)舞后,拿100多個(gè)金鐲子去賣(mài),說(shuō)家里還有金項(xiàng)鏈沒(méi)拿,我人好,都是別人送的

LULU生活家
2025-12-24 18:51:10
朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問(wèn)他要啥官,他回了8個(gè)字

朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問(wèn)他要啥官,他回了8個(gè)字

長(zhǎng)風(fēng)文史
2025-12-23 21:14:32
一年白忙?一考生帶機(jī)械表進(jìn)考場(chǎng)被判作弊,堅(jiān)持考完決絕申訴!

一年白忙?一考生帶機(jī)械表進(jìn)考場(chǎng)被判作弊,堅(jiān)持考完決絕申訴!

知曉科普
2025-12-25 09:35:05
男子在家抽煙被上門(mén)勸阻?這屆“小仙女”越來(lái)越魔怔了

男子在家抽煙被上門(mén)勸阻?這屆“小仙女”越來(lái)越魔怔了

姬鵬
2025-12-24 22:20:01
迪拜品牌推出“Dabubu”盲盒,10個(gè)盲盒隱藏款有18K金鏈

迪拜品牌推出“Dabubu”盲盒,10個(gè)盲盒隱藏款有18K金鏈

半島晨報(bào)
2025-12-24 19:45:03
投入超1000億美元,以色列將打造獨(dú)立軍工產(chǎn)業(yè)!哈馬斯最新表態(tài)

投入超1000億美元,以色列將打造獨(dú)立軍工產(chǎn)業(yè)!哈馬斯最新表態(tài)

每日經(jīng)濟(jì)新聞
2025-12-24 23:23:06
一個(gè)女?huà)胫琅c一個(gè)系統(tǒng)的失靈

一個(gè)女?huà)胫琅c一個(gè)系統(tǒng)的失靈

難得君
2025-12-23 00:16:47
取錢(qián)新規(guī)執(zhí)行!2025以后,死者的存款,再也不用受銀行的氣啦!

取錢(qián)新規(guī)執(zhí)行!2025以后,死者的存款,再也不用受銀行的氣啦!

巢客HOME
2025-12-25 10:15:03
特朗普下令,真正的較量開(kāi)始,美國(guó)選好主戰(zhàn)場(chǎng),要與中國(guó)一決高下

特朗普下令,真正的較量開(kāi)始,美國(guó)選好主戰(zhàn)場(chǎng),要與中國(guó)一決高下

空天力量
2025-12-24 17:06:37
海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

夢(mèng)史
2025-12-23 10:18:20
大量“洋垃圾”小主機(jī)流入閑魚(yú)!能用9代標(biāo)壓U,準(zhǔn)系統(tǒng)275元

大量“洋垃圾”小主機(jī)流入閑魚(yú)!能用9代標(biāo)壓U,準(zhǔn)系統(tǒng)275元

閑搞機(jī)
2025-12-25 11:06:11
得罪上司被調(diào)崗淪為前臺(tái)后,我爸深夜接我下班,竟讓上司當(dāng)場(chǎng)嚇癱

得罪上司被調(diào)崗淪為前臺(tái)后,我爸深夜接我下班,竟讓上司當(dāng)場(chǎng)嚇癱

云端小院
2025-12-25 09:42:26
最近,美國(guó)連續(xù)扣押多艘中國(guó)商船,中國(guó)是如何反擊的?

最近,美國(guó)連續(xù)扣押多艘中國(guó)商船,中國(guó)是如何反擊的?

阿胡
2025-12-23 17:56:32
我國(guó)在阿根廷的天文望遠(yuǎn)鏡被米萊停建,稱(chēng)有軍用潛力!或因美施壓

我國(guó)在阿根廷的天文望遠(yuǎn)鏡被米萊停建,稱(chēng)有軍用潛力!或因美施壓

科普大世界
2025-12-24 20:55:59
朱芳雨賭對(duì)了!麥考爾確認(rèn)復(fù)出,廣東隊(duì)拒絕簽約第5外援!

朱芳雨賭對(duì)了!麥考爾確認(rèn)復(fù)出,廣東隊(duì)拒絕簽約第5外援!

緋雨兒
2025-12-25 12:07:17
獨(dú)生子女父母退休金加5%?社保局排起長(zhǎng)隊(duì),真相到底如何?

獨(dú)生子女父母退休金加5%?社保局排起長(zhǎng)隊(duì),真相到底如何?

甜檸聊史
2025-12-25 10:20:48
誰(shuí)設(shè)計(jì)了斬殺線(xiàn)?

誰(shuí)設(shè)計(jì)了斬殺線(xiàn)?

新潮沉思錄
2025-12-24 21:28:17
5-1,40歲C羅發(fā)威:無(wú)敵挑傳助攻,率隊(duì)豪取亞冠6連勝+斬獲第一

5-1,40歲C羅發(fā)威:無(wú)敵挑傳助攻,率隊(duì)豪取亞冠6連勝+斬獲第一

側(cè)身凌空斬
2025-12-25 05:32:35
2025-12-25 14:51:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

朱孝天舉報(bào)阿信所屬公司:勾結(jié)黃牛炒票逃稅、假唱

頭條要聞

朱孝天舉報(bào)阿信所屬公司:勾結(jié)黃牛炒票逃稅、假唱

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來(lái)了

娛樂(lè)要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財(cái)經(jīng)要聞

美國(guó)未來(lái)18個(gè)月不對(duì)中國(guó)芯片加額外關(guān)稅

汽車(chē)要聞

預(yù)售31.3萬(wàn)元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

本地
時(shí)尚
手機(jī)
教育
公開(kāi)課

本地新聞

云游安徽|亳州晨暮皆成史,街巷縱橫印春秋

對(duì)不起周柯宇,是陳靖可先來(lái)的

手機(jī)要聞

榮耀Power2新機(jī)跑分出爐,暫定下個(gè)月登場(chǎng)

教育要聞

孩子的好奇心從何而來(lái)?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版