国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

直面VLA的阿喀琉斯之踵:TeleAI用「反探索」提升具身推理穩(wěn)定性

0
分享至



在機(jī)器人具身智能領(lǐng)域,視覺 - 語言 - 動作(Vision-Language-Action, VLA)模型正以驚人的速度發(fā)展。從 RT-1、Octo 到最新的 π0、GR00T N1,這些集成了大規(guī)模視覺語言模型與機(jī)器人控制的系統(tǒng)展現(xiàn)出前所未有的泛化能力。然而,一個被長期忽視的問題正阻礙著 VLA 模型從實驗室走向真實世界 ——推理階段的不穩(wěn)定性。

中國電信集團(tuán) CTO、首席科學(xué)家、中國電信人工智能研究院(TeleAI)院長李學(xué)龍教授聯(lián)合清華大學(xué)、中國科學(xué)技術(shù)大學(xué)團(tuán)隊直面這一挑戰(zhàn),提出了名為TACO(Test-time Anti-exploration via pseudo-COunts)的創(chuàng)新框架。該研究為解決 VLA 推理的不穩(wěn)定性提供了扎實的理論根基和實踐方案,通過在模擬基準(zhǔn)和真實機(jī)器人平臺上的實驗驗證了方法的有效性。在

真實機(jī)器人實驗中,TACO 將任務(wù)成功率平均提升了 16%,在長周期任務(wù)上提升高達(dá) 25%!



  • 論文地址:https://arxiv.org/abs/2512.02834
  • 項目地址: https://vla-anti-exploration.github.io/
  • 開源代碼: https://github.com/breez3young/TACO/

VLA 模型的「阿喀琉斯之踵」:推理階段的不穩(wěn)定性

VLA 模型通過 flow-matching 或 diffusion 等目標(biāo)在大規(guī)模多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練,學(xué)習(xí)復(fù)雜行為。隨后,這些預(yù)訓(xùn)練模型通過監(jiān)督微調(diào)(SFT)適應(yīng)下游任務(wù)。這種范式在平均性能上表現(xiàn)出色,但研究團(tuán)隊發(fā)現(xiàn)了一個關(guān)鍵問題:即使經(jīng)過任務(wù)特定數(shù)據(jù)的微調(diào),VLA 模型在推理時對初始噪聲極其敏感。

下圖展示了這一現(xiàn)象的嚴(yán)重性:對同一個經(jīng)過微調(diào)的 VLA 模型,僅改變初始噪聲向量,不同任務(wù)的成功率就會在 0% 至 80% 之間劇烈波動!這一發(fā)現(xiàn)揭示了當(dāng)前 VLA 研究中的盲點 —— 追求平均性能的同時,忽略了推理穩(wěn)定性這一對實際部署至關(guān)重要的指標(biāo)。



「我們觀察到,在使用相同的微調(diào)后 VLA 模型時,僅僅因為采樣不同的初始噪聲,模型表現(xiàn)就會天差地別?!拐撐牡谝蛔髡?,清華大學(xué)在讀博士張揚解釋道,「這就像讓一個機(jī)器人執(zhí)行同一任務(wù),只是隨機(jī)改變了它的 ' 思考方式 ',成功率就可能從完全失敗到完美執(zhí)行?!?/p>

問題根源:分布偏移與冗余動作模式

研究團(tuán)隊將這一不穩(wěn)定性歸因于兩個關(guān)鍵因素:

首先,預(yù)訓(xùn)練階段 VLA 模型吸收了來自多樣化數(shù)據(jù)源的廣泛動作模式,使其難以快速將其輸出分布縮小到特定下游任務(wù)所需的狹窄成功行為集合。因此,微調(diào)后策略分布仍保留了與任務(wù)成功無關(guān)的多余模式。

其次,微調(diào)數(shù)據(jù)集本身可能表現(xiàn)出多模態(tài)性,因為它們通常收集自多個人類遙操作員、腳本規(guī)劃器或變化的執(zhí)行風(fēng)格—— 其中一些編碼了次優(yōu)或不理想策略。這些冗余模式導(dǎo)致 VLA 策略與理想策略之間出現(xiàn)顯著的分布偏移,而理想策略應(yīng)對應(yīng)于下游任務(wù)數(shù)據(jù)集中的穩(wěn)定成功模式。

「想象一個學(xué)習(xí)做飯的廚師,他在烹飪學(xué)校學(xué)了 100 種不同的菜系和技巧(預(yù)訓(xùn)練),然后被要求專門做一道特定菜肴(微調(diào))。即使經(jīng)過專門訓(xùn)練,當(dāng)面臨做這道菜的情境時,他的大腦中仍會浮現(xiàn)多種不同的烹飪方法,其中很多并不適合這道特定菜肴?!拐撐墓餐蛔?,中科大在讀博士楊思遠(yuǎn)形象地解釋。

TACO:用「反探索」原理重塑 VLA 推理

面對這一挑戰(zhàn),研究團(tuán)隊沒有選擇傳統(tǒng)的強(qiáng)化學(xué)習(xí)微調(diào)路線,而是另辟蹊徑,從離線強(qiáng)化學(xué)習(xí)中的「反探索」(anti-exploration) 原理獲得靈感。

在離線強(qiáng)化學(xué)習(xí)中,「反探索」原則旨在防止策略訪問數(shù)據(jù)集支持之外的狀態(tài)或動作。類比到 VLA 推理,研究團(tuán)隊的目標(biāo)是約束生成的動作,使其保持在微調(diào)數(shù)據(jù)集中成功模式的支持范圍內(nèi),避免探索預(yù)訓(xùn)練或不完美微調(diào)數(shù)據(jù)保留的冗余或不相關(guān)動作模式。



TACO 的核心創(chuàng)新在于將這一原則通過 Test-Time Scaling(TTS)來實現(xiàn),而非修改 VLA 模型本身的參數(shù)。TACO 框架包含三個關(guān)鍵組件:

1. 耦合偽計數(shù)估計器:讓 VLA 自己成為最好的驗證器

TACO 最精妙的設(shè)計在于耦合偽計數(shù)估計器(Coupled Pseudo-Count Estimator)的構(gòu)建。與傳統(tǒng)方法需要額外訓(xùn)練獨立編碼器不同,TACO 直接利用 VLA 模型自身的內(nèi)部表示能力,將輕量級 Coin-Flipping Network (CFN) 作為「頭」(head)附加到 VLA 的最后隱藏層上。

為什么這種耦合設(shè)計如此重要?

首先,VLA 模型經(jīng)過大規(guī)模預(yù)訓(xùn)練,其內(nèi)部特征空間已經(jīng)包含了豐富的視覺 - 語言 - 動作關(guān)聯(lián)知識。如果訓(xùn)練獨立的編碼器,不僅需要額外的計算資源,更會丟失 VLA 模型學(xué)到的寶貴先驗知識。CFN 頭僅是一個簡單的 MLP(多層感知機(jī)),參數(shù)量極小,卻能充分利用 VLA 的表征能力。

關(guān)鍵突破:高保真特征搜索(High-Fidelity Feature Search)

對于基于 flow-matching 或 diffusion 的 VLA 模型(如 π0、RDT),存在一個根本性挑戰(zhàn):這些模型在訓(xùn)練時只見過噪聲化的動作,從未接觸過干凈的真實動作數(shù)據(jù)。如果直接將微調(diào)數(shù)據(jù)集中的干凈動作輸入 VLA 提取特征,得到的表示可能完全不在 VLA 的特征分布范圍內(nèi),導(dǎo)致信息丟失。



TACO 的解決方案極為巧妙 ——高保真特征搜索:對每個數(shù)據(jù)點,使用 N 個不同噪聲水平 {σi} 查詢 VLA N 次,得到 N 組預(yù)測動作和對應(yīng)內(nèi)部表示。然后選擇預(yù)測動作與原始動作最接近的那組內(nèi)部表示作為高保真特征。



通過這種搜索機(jī)制,TACO 確保了提取的特征既符合 VLA 的分布(因為在噪聲輸入下生成),又能高保真地表示干凈動作(因為選擇最接近真實動作的預(yù)測)。



上圖現(xiàn)象驗證了這一設(shè)計的有效性:CFN 估計的偽計數(shù)與預(yù)測動作和真實動作之間的 L2 距離呈現(xiàn)強(qiáng)負(fù)相關(guān)性。這意味著,選擇具有最高偽計數(shù)的動作幾乎總是會選擇最接近真實動作的動作,從而有效過濾掉次優(yōu)行為。

2. 生成 - 驗證兩階段推理:理論與實踐的完美統(tǒng)一





理論基礎(chǔ):離線強(qiáng)化學(xué)習(xí)的反探索原理

這一兩階段架構(gòu)并非啟發(fā)式設(shè)計,而是有堅實的理論基礎(chǔ)。論文證明,TACO 的優(yōu)化目標(biāo)等價于離線強(qiáng)化學(xué)習(xí)中的反探索目標(biāo):



其中 Q (s,a) 是動作價值函數(shù),b (s,a) 是反探索懲罰項。這最終簡化為尋找最大訪問計數(shù)的動作:



計算優(yōu)化:KV 緩存的影響

兩階段架構(gòu)面臨的最大挑戰(zhàn)是計算開銷。樸素實現(xiàn)下,生成 M 個候選動作需要 M 次完整的 VLA 前向傳播,計算成本呈 O (M) 增長。TACO 提出的共享觀察鍵值緩存(Shared Observation Key-Value Cache)技術(shù)解決了這一問題:VLA 的 Transformer 主干網(wǎng)絡(luò)的計算主要依賴于共享上下文 (觀察,指令),只需計算一次 KV 緩存,即可在所有 M 個并行動作生成過程中重復(fù)使用邊際成本幾乎為零,使得高數(shù)量候選采樣成為可能。

實驗數(shù)據(jù)顯示,當(dāng)采樣 32 個動作時,KV 緩存優(yōu)化將推理時間減少了 73.2%!這一優(yōu)化使得 TACO 在真實機(jī)器人上也能高效運行,平均推理延遲僅增加 200ms,滿足實時控制需求。

實驗證明:從模擬到真實機(jī)器人的卓越表現(xiàn)

研究團(tuán)隊在四個模擬基準(zhǔn)(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)和一個雙臂機(jī)器人平臺上進(jìn)行了全面評估,覆蓋 64 個任務(wù)和 5 個真實世界任務(wù)。

仿真環(huán)境結(jié)果

在 RoboTwin 基準(zhǔn)上,TACO 將 π0 模型的平均成功率從 32.2% 提升至 41.3%,提升幅度達(dá) 9.1%。在最具挑戰(zhàn)性的 "掛衣架" 任務(wù)上,成功率從 7.0% 躍升至 12.0%。





在 Simpler-WindowX 基準(zhǔn)上,TACO 使 π0 的平均成功率從 48.0% 提升至 55.5%。尤其在「勺子放在毛巾上」和「胡蘿卜放在盤子上」等精細(xì)操作任務(wù)上,提升分別達(dá)到 16% 和 10%。



在 LIBERO-long 這一最具挑戰(zhàn)性的終生學(xué)習(xí)基準(zhǔn)上,盡管基礎(chǔ)模型 π0.5 已達(dá)到 94.8% 的高成功率,TACO 仍能進(jìn)一步提升 1.8%,特別是在「Moka 壺放在爐灶上」等復(fù)雜任務(wù)上,成功率從 68% 大幅提高到 86%。



真實機(jī)器人實驗

研究團(tuán)隊使用 RealMan75 雙臂機(jī)器人平臺進(jìn)行了 5 個真實世界任務(wù)的測試,包括「接收書籍」「收納充電器」「紙和筆整理」「筆記本電腦操作」和「同時拿起兩本書」。這些任務(wù)涵蓋了人機(jī)交互、雙臂協(xié)調(diào)和長周期任務(wù)執(zhí)行等多種技能。

結(jié)果令人振奮:TACO 將平均成功率從 40% 提升至 56%,提升幅度達(dá) 16%。在「紙和筆整理」這一精細(xì)操作任務(wù)上,提升高達(dá) 25%;在「筆記本電腦操作」長周期任務(wù)上,提升 15%。

「在真實機(jī)器人實驗中,我們觀察到基礎(chǔ)策略通常在兩種情況下失?。鹤ト∥恢貌痪_,以及遙操作數(shù)據(jù)質(zhì)量不完美導(dǎo)致的學(xué)習(xí)偏差?!拐撐墓餐ㄓ嵶髡?、中國電信人工智能研究院白辰甲研究員解釋道:「TACO 通過過濾掉次優(yōu)的去噪方向,有效解決了這些問題?!?/p>

一個典型案例是「紙和筆整理」任務(wù)中的筆抓取階段。由于操作員抓取姿勢和時序的變化,專家數(shù)據(jù)集中抓取模式的觀察 - 動作分布變得稀疏,導(dǎo)致基礎(chǔ)策略表現(xiàn)出不穩(wěn)定行為,如抓取器無法正確閉合、抓取后重新打開,或在兩種抓取模式間振蕩。應(yīng)用 TACO 后,這些問題基本消除:抓取器始終正確閉合,機(jī)器人避免了次優(yōu)模式。

技術(shù)剖析:為什么 TACO 如此有效?

實驗揭示了 TACO 成功的核心機(jī)制:通過 100 次動作采樣,研究團(tuán)隊發(fā)現(xiàn) CFN 估計的偽計數(shù)與預(yù)測動作和真實動作之間的 L2 距離存在強(qiáng)相關(guān)性。換言之,選擇具有最高偽計數(shù)的動作幾乎總是會選擇最接近真實動作的動作,同時有效過濾掉過于激進(jìn)或不合理的動作。

消融實驗進(jìn)一步驗證了設(shè)計選擇的重要性:移除 CFN 偽計數(shù)、不進(jìn)行特征縮放、或不使用內(nèi)部特征,都會導(dǎo)致性能顯著下降。特別是,直接擬合特征到動作誤差的映射會增加學(xué)習(xí)難度,因為模型必須捕獲最優(yōu)和次優(yōu)特征;使用獨立編碼器而非內(nèi)部特征會使特征高度相似,難以進(jìn)行準(zhǔn)確的偽計數(shù)估計。

研究意義與未來展望

TACO 的提出不僅解決了一個實際問題,更為 VLA 研究開辟了新視角。與現(xiàn)有方法相比,「我們的方法證明,輕量級的測試時縮放可以有效地實現(xiàn) ' 反探索 ',緩解動作預(yù)測中由分布偏移引起的不穩(wěn)定性和性能下降?!?/strong>論文共同通訊作者白辰甲研究員解釋道。

展望未來,TACO 框架為 VLA 模型的實際部署提供了新思路。研究團(tuán)隊將繼續(xù)探索如何將這一方法擴(kuò)展到更復(fù)雜的多任務(wù)場景,以及如何與世界模型結(jié)合,進(jìn)一步提升機(jī)器人的長期規(guī)劃能力。

作者簡介

本文由中科大在讀楊思遠(yuǎn)和清華大學(xué)在讀博士張揚作為共同一作主要完成,其他合作者包括香港科技大學(xué)何浩然博士、潘玲教授、清華大學(xué)李秀教授,本文通信作者是TeleAI 研究科學(xué)家白辰甲博士和 TeleAI 院長李學(xué)龍教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
拒絕爆冷,湖人三連勝,賽后數(shù)據(jù)一覽,最大贏球功臣不是東契奇

拒絕爆冷,湖人三連勝,賽后數(shù)據(jù)一覽,最大贏球功臣不是東契奇

鄒維體育
2026-01-07 11:26:34
CBA最新:瓊斯簽約時間確定,薩姆納曝NBA薪資已賺夠養(yǎng)老錢

CBA最新:瓊斯簽約時間確定,薩姆納曝NBA薪資已賺夠養(yǎng)老錢

阿嚼影視評論
2026-01-06 18:01:42
斯諾克賽程!決出第3個勝者組席位,中國雙星沖冠,TOP16或翻車?

斯諾克賽程!決出第3個勝者組席位,中國雙星沖冠,TOP16或翻車?

劉姚堯的文字城堡
2026-01-07 07:59:46
13連?。|部冠軍徹底倒下!加蘭29+6證明自我,一戰(zhàn)看清4個現(xiàn)實

13連??!東部冠軍徹底倒下!加蘭29+6證明自我,一戰(zhàn)看清4個現(xiàn)實

籃球看比賽
2026-01-07 12:44:28
女子產(chǎn)后被持刀家暴后續(xù):特殊原因曝光,丈夫拒絕離婚,婦聯(lián)介入

女子產(chǎn)后被持刀家暴后續(xù):特殊原因曝光,丈夫拒絕離婚,婦聯(lián)介入

奇思妙想草葉君
2026-01-06 19:05:08
成都蓉城官宣!韋林頓正式加盟,獲譽青島姆巴佩,30場造14球

成都蓉城官宣!韋林頓正式加盟,獲譽青島姆巴佩,30場造14球

奧拜爾
2026-01-07 11:29:47
7戰(zhàn)5敗后終破咒!20歲林詩棟逆轉(zhuǎn)張本,這才是國乒大旗模樣

7戰(zhàn)5敗后終破咒!20歲林詩棟逆轉(zhuǎn)張本,這才是國乒大旗模樣

阿晞體育
2025-12-11 12:18:08
上海地鐵突發(fā)!婁山關(guān)路站又臭了,水漫金山...市民疑惑:商場月炸?官方致歉來了

上海地鐵突發(fā)!婁山關(guān)路站又臭了,水漫金山...市民疑惑:商場月炸?官方致歉來了

環(huán)球網(wǎng)資訊
2026-01-07 11:06:12
這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

萬物知識圈
2026-01-05 09:10:33
外國夫婦國際航班靠枕濕漉漉,以為是水灑了,得知真相后他們當(dāng)場炸了

外國夫婦國際航班靠枕濕漉漉,以為是水灑了,得知真相后他們當(dāng)場炸了

英國那些事兒
2026-01-06 23:28:48
大戲才開場!馬杜羅被俘后,委副總統(tǒng)火速上位,特朗普卻騎虎難下

大戲才開場!馬杜羅被俘后,委副總統(tǒng)火速上位,特朗普卻騎虎難下

壹知眠羊
2026-01-07 12:05:10
中國首位世姐!182cm高挑身段 張梓琳美到骨子里

中國首位世姐!182cm高挑身段 張梓琳美到骨子里

TVB的四小花
2026-01-07 11:12:16
婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當(dāng)晚小叔子上門

婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當(dāng)晚小叔子上門

船長與船1
2025-12-15 10:03:13
1.3 萬雜牌軍配 660 挺機(jī)槍,非德械非中央軍,到底有多特殊?

1.3 萬雜牌軍配 660 挺機(jī)槍,非德械非中央軍,到底有多特殊?

嘮叨說歷史
2025-12-30 14:28:59
郭臺銘終于想通了!上千億在美國打水漂,帶46臺光刻機(jī)回國求合作

郭臺銘終于想通了!上千億在美國打水漂,帶46臺光刻機(jī)回國求合作

霽寒飄雪
2026-01-07 12:07:27
解密抓捕馬杜羅驚心動魄全過程,美國下個目標(biāo)是格陵蘭島?

解密抓捕馬杜羅驚心動魄全過程,美國下個目標(biāo)是格陵蘭島?

碼頭青年
2026-01-05 17:37:12
來了,我的2025年度十佳電影

來了,我的2025年度十佳電影

獨立魚
2026-01-01 21:49:24
曾志偉也沒想到,卸任TVB總經(jīng)理不到24小時,惡心的一幕就發(fā)生了

曾志偉也沒想到,卸任TVB總經(jīng)理不到24小時,惡心的一幕就發(fā)生了

阿纂看事
2026-01-05 14:32:39
“湖人俠”再度發(fā)力!馬刺一忍再忍苦吞逆轉(zhuǎn) 文班30+5有力無處使

“湖人俠”再度發(fā)力!馬刺一忍再忍苦吞逆轉(zhuǎn) 文班30+5有力無處使

鍋子籃球
2026-01-07 12:52:48
流浪柬埔寨的福建女網(wǎng)紅毒品檢測呈陽性 拒絕透露工作內(nèi)容

流浪柬埔寨的福建女網(wǎng)紅毒品檢測呈陽性 拒絕透露工作內(nèi)容

閃電新聞
2026-01-06 15:40:22
2026-01-07 13:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12068文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標(biāo):系馬杜羅關(guān)鍵盟友

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標(biāo):系馬杜羅關(guān)鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復(fù)

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
數(shù)碼
軍事航空

房產(chǎn)要聞

海珠雙冠王!中交天翠以強(qiáng)兌現(xiàn)力+生活溫度,筑就長期主義產(chǎn)品

親子要聞

趕快轉(zhuǎn)給另一半

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫

數(shù)碼要聞

“最強(qiáng)驍龍筆記本”:華碩推出Zenbook A16

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進(jìn)入關(guān)懷版