国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別機器人“斷片”!KAIST和UC Berkeley團隊讓VLA模型擁有記憶

0
分享至

機器人伸手去拿桌上的杯子,它需要知道自己剛才有沒有抓住過這個杯子嗎?答案是肯定的。但現(xiàn)有的視覺-語言-動作模型(VLA)大多只盯著當(dāng)前畫面做決策,完全沒有“歷史記憶”。這就導(dǎo)致機器人在處理遮擋物體、多步驟堆疊這類需要上下文的任務(wù)時,很容易陷入混亂。



近日,來自KAIST和UC Berkeley 的團隊提出了一個名為HAMLET的框架,給預(yù)訓(xùn)練VLA模型補上了“歷史感知”的短板。這個輕量級插件不需要從頭訓(xùn)練大模型,卻能讓機器人在長時操控任務(wù)中,平均成功率直接提升47.2%。在真實場景的“蓋方塊 疊杯子”任務(wù)里,HAMLET更是把成功率從37.5%拉到了79.2%,徹底解決了機器人“斷片”的問題。

01.

沒有記憶的機器人 連疊杯子都做不好

當(dāng)下主流的VLA模型,比如GR00T N1.5、CogACT,都遵循“單幀假設(shè)”,只靠當(dāng)前的視覺畫面和文本指令來預(yù)測下一步動作。這種設(shè)計在簡單任務(wù)里沒問題,但遇到需要上下文的長時任務(wù),就會立刻露怯。

舉個例子,“用最近的杯子蓋住方塊,再把另一個杯子疊上去”這個任務(wù),當(dāng)機器人用第一個杯子蓋住方塊后,方塊就被遮擋住了。如果沒有歷史記憶,機器人看著眼前的兩個杯子,根本不知道哪個杯子下面藏著方塊,大概率會重復(fù)抓取同一個杯子。論文里的實驗也印證了這一點:GR00T N1.5在這個任務(wù)上的成功率只有37.5%,甚至?xí)霈F(xiàn)“拿起杯子又放下,反復(fù)橫跳”的滑稽場面。

更麻煩的是,給模型簡單堆砌歷史幀根本行不通。研究團隊發(fā)現(xiàn),在VLA輸入里多塞4幀歷史畫面,會讓模型的前向推理速度變慢35%,峰值內(nèi)存占用直接暴漲3.6倍。這種粗暴的方法不僅效率低下,還會因為引入冗余信息,導(dǎo)致模型在復(fù)雜場景下的泛化能力下降。

02.

HAMLET的兩大核心:給每一刻“拍快照”,再用記憶模塊整合

HAMLET的巧妙之處在于,它沒有拋棄現(xiàn)有的VLA模型,而是通過兩個核心組件,給模型加裝了一個輕量化的“記憶系統(tǒng)”,整個過程只需要微調(diào),不用從頭訓(xùn)練。

1、時刻令牌:給每個時間步拍一張“信息快照”

首先,HAMLET設(shè)計了 時刻令牌(moment tokens) ,用來給每個時間步的場景信息做“壓縮存檔”。這些令牌是可學(xué)習(xí)的向量,會被拼接到VLA模型的輸入序列里。



為了讓時刻令牌只記住關(guān)鍵信息,團隊用了時間對比學(xué)習(xí)(TCL)的方法來初始化它們。具體來說,就是讓同一個時間步的增強圖像(比如加了模糊、噪聲的版本)對應(yīng)的令牌盡可能相似,讓不同時間步的令牌盡可能不同。這樣一來,時刻令牌就會自動忽略掉桌子、墻壁這些靜態(tài)背景,只聚焦于機器人抓手、待操作物體這些動態(tài)變化的關(guān)鍵區(qū)域。

經(jīng)過TCL初始化的時刻令牌,相當(dāng)于給每個時間步的場景拍了一張“信息快照”,既保留了任務(wù)相關(guān)的動態(tài)特征,又剔除了冗余信息,為后續(xù)的記憶整合打下了基礎(chǔ)。

2、輕量記憶模塊:只提取有用的歷史信息

有了時刻令牌這個“快照庫”,接下來就需要一個 記憶模塊 來篩選和整合這些快照。HAMLET沒有用復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò),而是選擇了一個兩層的Transformer架構(gòu),專門用來處理歷史時刻令牌。



這個記憶模塊會把最近的T個時刻令牌堆疊成一個歷史矩陣,再通過因果自注意力機制,自動判斷哪些歷史時刻對當(dāng)前決策更重要。比如在“交換兩個方塊”的任務(wù)中,當(dāng)機器人需要決定下一步抓哪個方塊時,記憶模塊會重點關(guān)注“藍(lán)色方塊被放到輔助位置”的那個時間步,而忽略掉無關(guān)的移動過程。

最終,記憶模塊會輸出一個融合了歷史信息的特征向量,把它和VLA模型原本的單幀特征拼接在一起,再輸入到動作預(yù)測頭里。這樣一來,模型就能同時參考當(dāng)前畫面和歷史上下文,做出更準(zhǔn)確的決策。

03.

實測:長時任務(wù)成功率碾壓基線,效率還更高

為了驗證HAMLET的效果,團隊在真實機器人和仿真環(huán)境中做了大量實驗,測試對象包括GR00T N1.5和CogACT兩款主流VLA模型。



在真實場景的三項長時任務(wù)中,HAMLET的表現(xiàn)堪稱驚艷。在“兩次拾取放置”任務(wù)里,它把GR00T N1.5的成功率從12.5%提升到66.7%;在“交換方塊”任務(wù)中,成功率從37.5%躍升至83.3%,平均成功率直接達到76.4%,比基線模型高出47.2個百分點。



即便是在通用仿真基準(zhǔn)測試中,HAMLET也展現(xiàn)出了強大的泛化能力:在RoboCasa Kitchen數(shù)據(jù)集上,它把成功率從64.1%提升到66.4%;在LIBERO數(shù)據(jù)集上,更是將行業(yè)領(lǐng)先的95.6%成功率推高到97.7%。



更關(guān)鍵的是,HAMLET在提升性能的同時,還保持了極高的效率。對比簡單堆疊歷史幀的方法,當(dāng)歷史長度為8時,后者會讓模型推理速度變慢2.4倍,內(nèi)存占用暴漲7倍;而HAMLET的推理速度僅增加7%,內(nèi)存占用僅增加1倍,完全不會給部署帶來額外負(fù)擔(dān)。

04.

不只是 機器人:記憶模塊還能跨任務(wù)遷移

HAMLET的另一個驚喜之處在于,它的記憶模塊具備 跨任務(wù)遷移能力 。團隊做了一個有趣的實驗:先在LIBERO數(shù)據(jù)集上訓(xùn)練記憶模塊,然后直接把它遷移到RoboCasa Kitchen數(shù)據(jù)集上測試。結(jié)果顯示,遷移后的記憶模塊依然能讓模型成功率提升1.9個百分點,幾乎和在目標(biāo)數(shù)據(jù)集上訓(xùn)練的效果持平。

這意味著,HAMLET的記憶模塊學(xué)到的不是某個特定任務(wù)的歷史規(guī)律,而是一種通用的“歷史信息處理能力”。未來只要在一個數(shù)據(jù)集上訓(xùn)練好記憶模塊,就能直接用到其他機器人操控任務(wù)中,大大降低了部署成本。

05.

結(jié)語與未來:

HAMLET的出現(xiàn),解決了VLA模型“沒有歷史記憶”的核心痛點。它不需要重構(gòu)大模型的架構(gòu),也不需要海量的訓(xùn)練數(shù)據(jù),只通過時刻令牌和輕量記憶模塊的組合,就能讓現(xiàn)有VLA模型快速具備歷史感知能力。

在機器人邁向通用化的路上,“記憶”無疑是不可或缺的一環(huán)。當(dāng)機器人能記住自己剛才做了什么,能分辨出哪個物體是之前操作過的,它才能真正理解復(fù)雜的人類指令,完成更具挑戰(zhàn)性的長時操控任務(wù)。

論文地址:https://arxiv.org/pdf/2510.00695

項目地址:https://myungkyukoo.github.io/hamlet/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

今朝牛馬
2026-03-02 21:27:47
3200元買了2000克積存金!北京銀行:扣回、沖正

3200元買了2000克積存金!北京銀行:扣回、沖正

經(jīng)濟觀察報
2026-03-03 00:18:20
女足亞洲杯28-1狂勝,戴帽助隊反超小組頭名

女足亞洲杯28-1狂勝,戴帽助隊反超小組頭名

鏗鏘格斗
2026-03-03 13:19:17
羅永浩不知要卸妝一年沒卸 結(jié)果長了黃褐斑 現(xiàn)狀已失控

羅永浩不知要卸妝一年沒卸 結(jié)果長了黃褐斑 現(xiàn)狀已失控

快科技
2026-03-02 09:27:07
阿布扎比再遭襲擊,阿聯(lián)酋發(fā)布全國緊急警報

阿布扎比再遭襲擊,阿聯(lián)酋發(fā)布全國緊急警報

極目新聞
2026-03-03 07:31:26
他當(dāng)過三朝宰相,睡過上官婉兒與太平公主,死后讓唐玄宗念念不忘

他當(dāng)過三朝宰相,睡過上官婉兒與太平公主,死后讓唐玄宗念念不忘

掠影后有感
2026-03-02 10:24:03
降薪潮下,很多家庭已經(jīng)供不起讀大學(xué)的兒子了!

降薪潮下,很多家庭已經(jīng)供不起讀大學(xué)的兒子了!

黯泉
2026-03-02 21:13:16
午評:滬指探底回升 “三桶油”再度全線漲停

午評:滬指探底回升 “三桶油”再度全線漲停

財聯(lián)社
2026-03-03 11:37:46
不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-03 10:48:02
字母哥復(fù)出19+11!綠軍大勝雄鹿鞏固東部第二 普里查德25+9

字母哥復(fù)出19+11!綠軍大勝雄鹿鞏固東部第二 普里查德25+9

醉臥浮生
2026-03-03 10:44:51
90后小伙被困伊朗,全公司為他瘋狂搶機票制定出曲折回國路線,目前已到土耳其

90后小伙被困伊朗,全公司為他瘋狂搶機票制定出曲折回國路線,目前已到土耳其

瀟湘晨報
2026-03-02 21:14:17
中美俄三國衛(wèi)星數(shù)量對比:美11500顆,俄170顆,中國是多少呢?

中美俄三國衛(wèi)星數(shù)量對比:美11500顆,俄170顆,中國是多少呢?

Thurman在昆明
2026-03-03 00:01:54
絕地反擊!革命衛(wèi)隊祭出天地共壽拼命打法,美中東基地集體被揍?

絕地反擊!革命衛(wèi)隊祭出天地共壽拼命打法,美中東基地集體被揍?

快看張同學(xué)
2026-03-02 17:11:42
海瀾之家回應(yīng)“被暫停全軍采購資格”

海瀾之家回應(yīng)“被暫停全軍采購資格”

中新經(jīng)緯
2026-03-03 13:14:10
英媒:歐美要死死守住這5項技術(shù),一旦被中國突破那將勢不可擋

英媒:歐美要死死守住這5項技術(shù),一旦被中國突破那將勢不可擋

林子說事
2026-03-03 01:07:19
封神!OpenClaw接入微信,不用切換APP,AI助手24小時隨叫隨到

封神!OpenClaw接入微信,不用切換APP,AI助手24小時隨叫隨到

冒泡泡的魚兒
2026-03-03 01:08:30
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
王占山同志逝世

王占山同志逝世

吉刻新聞
2026-03-03 10:16:44
演員逼真到根本看不出來是AI登熱搜 引發(fā)行業(yè)變革

演員逼真到根本看不出來是AI登熱搜 引發(fā)行業(yè)變革

3DM游戲
2026-03-02 18:15:05
女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

第7情感
2025-09-17 12:12:15
2026-03-03 14:48:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
6317文章數(shù) 4577關(guān)注度
往期回顧 全部

科技要聞

手機AI在MWC上卷出了新高度

頭條要聞

特朗普:不擔(dān)心美領(lǐng)土遭受襲擊威脅 這是戰(zhàn)爭的一部分

頭條要聞

特朗普:不擔(dān)心美領(lǐng)土遭受襲擊威脅 這是戰(zhàn)爭的一部分

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

借殼上市納斯達克?小楊哥海外"洗白"之路

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
數(shù)碼
親子

家居要聞

萬物互聯(lián) 享科技福祉

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

旅游要聞

AC歐軒酒店首秀杭州 杭州AC歐軒酒店閃耀啟幕

數(shù)碼要聞

古爾曼爆蘋果兩大新品:iPad Pro將引入均熱板散熱,18英寸折疊屏定價三倍于現(xiàn)款

親子要聞

本來只準(zhǔn)備留一條,收到手后決定都留下來,畢竟兩條也不到80塊錢 楊雪呀

無障礙瀏覽 進入關(guān)懷版