網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

告別想完再做卡頓！清華StreamingVLA讓VLA邊想邊行動，提速2.4倍

2026-04-20 12:23:21　來源: 機器之心Pro

河北舉報

分享至

作者介紹：本文由清華大學(xué)電子工程系 NICS-EFC 實驗室與聯(lián)想合作完成

史奕然清華大學(xué)深圳國際研究生院數(shù)據(jù)與信息研究院電子與通信工程專業(yè)在讀碩士研究生導(dǎo)師是廖慶敏教授，研究方向是：視覺 - 文本大模型的高效訓(xùn)練與推理

郭東琦清華大學(xué)電子工程系本科生

趙天辰清華大學(xué)電子工程系高能效計算實驗室博士生，導(dǎo)師是汪玉教授，研究方向主要是：基座模型構(gòu)建的 EfficientML 算法與 Infra 協(xié)同優(yōu)化

視覺 - 語言 - 動作（VLA）模型為具身智能帶來了強大的泛化能力，但其 “觀測 - 生成 - 執(zhí)行” 三階段串行執(zhí)行的模式，導(dǎo)致機器人在動作間頻繁停頓，嚴(yán)重影響了交互的流暢性與實時性。針對這一問題，本文提出 StreamingVLA 框架，通過引入動作流匹配與自適應(yīng)提前觀測兩項技術(shù)，分別實現(xiàn) “生成與執(zhí)行” 及 “觀測與執(zhí)行” 兩個維度的并行處理，使模型能夠以 “流式” 方式，異步進行動作的生成和執(zhí)行。

在 LIBERO 基準(zhǔn)測試中，StreamingVLA 在保持 94.9% 高成功率（與基線模型 95.1% 基本持平）的同時，將單動作延遲縮短至 31.6 毫秒，實現(xiàn) 2.4 倍端到端加速，并將執(zhí)行過程中的卡頓時間從 232.3 毫秒大幅壓縮至 36.0 毫秒，降幅達 6.5 倍。在真機實驗中，StreamingVLA 使得平均動作延遲由 271.49 毫秒降低到 170.88 毫秒，實現(xiàn) 1.58 倍加速，為 VLA 模型在真實場景中的高效部署提供了新的解決方案。

圖：StreamingVLA 的整體框架與效果

視頻鏈接：https://mp.weixin.qq.com/s/iOaGIpFHn9I8TI3Pxg5xfQ

首先需要明確當(dāng)前 VLA 模型部署的核心矛盾，隨著 VLA 模型規(guī)模的不斷擴大，其在實際部署中面臨的效率問題日益突出，尤其是在資源受限的邊緣設(shè)備上，高延遲與執(zhí)行卡頓成為制約其應(yīng)用的關(guān)鍵瓶頸。

現(xiàn)有 VLA 模型通常采用同步執(zhí)行流水線，即 “場景觀測 - 動作生成 - 動作執(zhí)行” 三個階段依次進行，每一階段必須等待前一階段完成后才能開始。動作的生成需要等待場景觀測 VLM 處理完成之后才能開始，動作執(zhí)行需要等待完整的動作生成，而下一輪的場景觀測又需要等待全部的動作執(zhí)行完成。這種串行機制導(dǎo)致機器人在執(zhí)行過程中頻繁停頓，動作缺乏連貫性。以當(dāng)前主流的 Pi0.5 模型為例，其執(zhí)行過程中存在的空閑等待時間（即卡頓時間）嚴(yán)重影響了任務(wù)的執(zhí)行流暢度與用戶體驗。

針對這一問題，本文提出 StreamingVLA，一種支持異步并行執(zhí)行的 VLA 框架。通過對 VLA 執(zhí)行流程的系統(tǒng)性分析，識別出造成延遲與卡頓的關(guān)鍵因素，并在此基礎(chǔ)上引入兩項核心技術(shù)：基于狀態(tài)建模的動作流匹配與動作顯著性感知的自適應(yīng)提前觀測。這兩項技術(shù)分別實現(xiàn)了 “動作生成與動作執(zhí)行” 以及 “場景觀測與動作執(zhí)行” 兩個維度的并行化，從而在不犧牲模型性能的前提下，顯著提升執(zhí)行效率與流暢度。

Arxiv Link: https://arxiv.org/abs/2603.28565
Project Page:https://ghahahahag.github.io/StreamingVLA_Website/
Github Link:https://github.com/gen-robot/StramingVLA

一、系統(tǒng)性分析：識別 VLA 動作卡頓的本質(zhì)原因，提出延時分析框架

為深入理解 VLA 執(zhí)行過程中的效率瓶頸，本文首先對以 Pi0.5 為代表的典型 VLA 模型進行了詳細(xì)的運行時序分析（如下圖所示）。該類模型由視覺語言模型（VLM）與基于擴散的動作專家組成，其執(zhí)行流程可劃分為三個主要階段：

首先，觀測階段中，VLM 根據(jù)當(dāng)前圖像、語言指令與機器人狀態(tài)生成隱層特征（KV Cache）；其次，動作生成階段中，動作專家基于這些特征通過擴散過程生成一個包含多個未來動作的動作塊；最后，執(zhí)行階段中，機器人依次執(zhí)行這些動作，完成后進入下一輪循環(huán)（如圖左下側(cè)所示）。

在傳統(tǒng)同步執(zhí)行模式下，三個階段嚴(yán)格串行，彼此等待。這意味著在每次動作執(zhí)行完畢后，系統(tǒng)必須等待下一次觀測與動作生成全部完成才能繼續(xù)執(zhí)行，由此產(chǎn)生的卡頓時間等于觀測時間與動作生成時間之和。實際測試表明，這一等待時間相當(dāng)可觀，是導(dǎo)致機器人動作不連貫的主要根源。

基于上述分析，明確了優(yōu)化目標(biāo)：在盡可能保持模型性能的前提下，同時降低每個動作的平均延遲與卡頓時間。為此，本文提出通過重疊不同階段的時間來替代單純壓縮各階段延遲的傳統(tǒng)思路，希望實現(xiàn) “動作生成與動作執(zhí)行” 以及 “場景觀測與動作執(zhí)行” 兩個維度的并行化，從而實現(xiàn) “流式” 執(zhí)行（如圖右下側(cè)）。

圖：StreamingVLA 對執(zhí)行時序的系統(tǒng)性分析與優(yōu)化

二、方案設(shè)計

（一）動作流匹配：實現(xiàn)生成與執(zhí)行的并行

圖：基于狀態(tài)建模的動作流匹配方法

在傳統(tǒng) VLA 模型的執(zhí)行流水線中，動作生成與執(zhí)行階段嚴(yán)格串行，這是造成系統(tǒng)效率低下的主要原因之一。具體而言，在動作塊生成機制下，動作專家通過多步擴散去噪過程一次性生成包含多個未來動作的動作塊，只有當(dāng)整個動作塊完全生成后，機器人才能開始執(zhí)行其中的第一個動作。這種 “先全部生成，再依次執(zhí)行” 的模式，使得動作生成與執(zhí)行之間無法產(chǎn)生任何時間重疊。

為此，本文引入了基于狀態(tài)建模的動作流匹配方法。該方法的核心理念是將動作生成過程從 “一次性生成一個動作塊” 轉(zhuǎn)變?yōu)?“連續(xù)演化一個狀態(tài)”。模型不再直接預(yù)測動作的絕對值，而是維護一個累積了歷史動作的 “動作空間狀態(tài)”，并預(yù)測該狀態(tài)隨時間演化的 “速度場”。每一步，模型根據(jù)當(dāng)前狀態(tài)與觀測信息預(yù)測速度場，通過簡單的時間積分得到當(dāng)前時刻的動作輸出，同時更新狀態(tài)。這一過程使得每個動作可以在生成后立即被執(zhí)行，而模型則繼續(xù)基于更新后的狀態(tài)生成下一個動作，從而實現(xiàn)了動作生成與執(zhí)行在時間軸上的無縫重疊。

然而將這一方法適配到大型 VLA 模型與 Libero 復(fù)雜基準(zhǔn)任務(wù)的過程中，面臨兩個關(guān)鍵挑戰(zhàn)。第一，復(fù)雜控制場景中模型輸出的動作需經(jīng)過控制器才能轉(zhuǎn)換為物理運動，使得動作與物理狀態(tài)之間不再保持線性關(guān)系。為此，本文對狀態(tài)建模進行擴展，引入 “動作空間狀態(tài)” 作為模型內(nèi)部維護的狀態(tài)變量，并通過預(yù)計算完整軌跡的動作空間狀態(tài)，確保其在訓(xùn)練過程中與物理空間狀態(tài)對齊。第二，大型模型中的歸一化層會破壞 “狀態(tài)加動作等于新狀態(tài)” 這一流匹配框架所依賴的關(guān)鍵可加性。本文對此進行針對性修改，移除偏移項并統(tǒng)一縮放因子，使得歸一化后的變量仍然滿足可加性，在保持訓(xùn)練穩(wěn)定的同時完好保留了流匹配的核心數(shù)學(xué)結(jié)構(gòu)。

通過上述擴展與調(diào)整，動作流匹配得以在大型 VLA 模型中成功部署，顯著縮短了動作生成與執(zhí)行之間的等待時間，為實現(xiàn) “生成 - 執(zhí)行” 維度的并行奠定了堅實基礎(chǔ)。

（二）自適應(yīng)提前觀測：實現(xiàn)觀測與執(zhí)行的并行

圖：動作顯著性感知的自適應(yīng)提前觀測

在動作流匹配解決了 “生成 - 執(zhí)行” 并行問題之后，系統(tǒng)延遲的另一主要來源 ——“觀測” 與 “執(zhí)行” 之間的串行等待 —— 便成為進一步優(yōu)化的關(guān)鍵。若能使 VLM 在機器人尚未完成全部動作時就提前開始下一輪觀測的處理，則觀測與執(zhí)行的時間便能夠產(chǎn)生重疊，從而進一步縮短卡頓時間。提前觀測技術(shù)正是針對這一目標(biāo)提出的，其核心思想是在機器人執(zhí)行當(dāng)前動作塊的部分動作后即開始下一輪觀測的 VLM 推理。

然而直接進行樸素的提前觀測會導(dǎo)致獲得錯誤的場景信息，最終導(dǎo)致模型性能的顯著下降。因此本文提出一種自適應(yīng)的提前觀測方法，根據(jù)動作顯著性來動態(tài)決定是否提前觀測。

動作顯著性，即某一動作對后續(xù)觀測結(jié)果的影響程度。高顯著性動作（如大幅度移動）會引發(fā)環(huán)境的劇烈變化，若在尚未執(zhí)行此類動作時就提前觀測，VLM 得到的環(huán)境信息與實際物理環(huán)境之間將出現(xiàn)嚴(yán)重不匹配，生成的后續(xù)動作自然難以準(zhǔn)確。相反，低顯著性動作對環(huán)境變化影響甚微，提前觀測造成的誤差也相應(yīng)較小。

為了量化動作顯著性這一指標(biāo)，本文設(shè)計了一個基于 Transformer 的輕量級預(yù)測器，用于動態(tài)評估尚未執(zhí)行的動作的顯著性。該預(yù)測器以當(dāng)前時刻的圖像 embedding 和剩余未執(zhí)行的動作序列作為輸入，輸出執(zhí)行這些動作后圖像 embedding 的預(yù)測變化量。預(yù)測器以實際執(zhí)行后觀測到的圖像 embedding 變化作為監(jiān)督信號進行訓(xùn)練，其參數(shù)量遠小于完整 VLM，訓(xùn)練成本也相對較低。在推理階段，系統(tǒng)調(diào)用該預(yù)測器估算剩余動作的顯著性：若預(yù)測變化量低于預(yù)設(shè)閾值，則提前啟動下一輪觀測，實現(xiàn)觀測與執(zhí)行的并行；若高于閾值，則等待動作執(zhí)行完畢后再進行觀測，以確保 VLM 獲取準(zhǔn)確的環(huán)境信息。該預(yù)測器運行時的額外開銷僅占模型總推理時間的約 5%，訓(xùn)練成本也遠低于全模型微調(diào)，卻能帶來可觀的加速收益。

三、實驗結(jié)果：雙重優(yōu)異的性能與效率

（一）模擬環(huán)境測試

本文在 LIBERO 仿真環(huán)境的四個任務(wù)集上對 StreamingVLA 進行了全面評估。實驗結(jié)果表明，StreamingVLA 在保持與基線模型（Pi0.5）相當(dāng)?shù)某晒β剩?4.9%）的前提下，實現(xiàn)了顯著的效率提升。相較于一次觀測生成 10 個動作的 Pi0.5（h=10），單動作延遲從 49.9 毫秒降低至 31.6 毫秒，實現(xiàn)了 1.57 倍的加速；卡頓時間從 230.8 毫秒銳減至 36.0 毫秒，降幅達 6.45 倍。

（二）消融實驗

消融實驗進一步驗證了各模塊的有效性。狀態(tài)對齊是動作流匹配成功的關(guān)鍵，缺乏對齊會直接導(dǎo)致訓(xùn)練失敗，而引入對齊后模型成功率躍升至 97.1%，同時延遲與卡頓均大幅降低。自適應(yīng)提前觀測相比隨機提前觀測，在相同觸發(fā)頻率下將成功率從 90.9% 提升至 94.9%，充分證明了其智能調(diào)度的有效性。

（三）真機實驗

為進一步驗證 StreamingVLA 在真實物理環(huán)境中的有效性，本文將其部署于 Franka Panda 機械臂平臺，在桌面工作空間下執(zhí)行抓取 - 放置任務(wù)。該任務(wù)要求機械臂從指定位置抓取物體并放置于目標(biāo)位置，是檢驗動作執(zhí)行精度與感知更新及時性的典型場景。實驗采用基于 Pi0.5 架構(gòu)的模型，動作視界設(shè)為 8?；€配置下，原始 Pi0.5 策略使用 8 個動作視界與 4 步重規(guī)劃；StreamingVLA 則采用相同視界但以流式方式生成動作。實驗結(jié)果表明，StreamingVLA 的平均動作延遲為 170.88 毫秒，而原始 Pi0.5 基線模型的平均動作延遲為 271.49 毫秒。這一結(jié)果驗證了 StreamingVLA 在真實物理系統(tǒng)中同樣能夠顯著提升控制效率，為實時機器人操作提供了關(guān)鍵的速度保障。

四、總結(jié)與展望

本文針對 VLA 模型在實際部署中面臨的高延遲與執(zhí)行卡頓問題，提出了 StreamingVLA 框架。通過對執(zhí)行流程的系統(tǒng)性分析，本文識別出關(guān)鍵瓶頸，并引入動作流匹配與自適應(yīng)提前觀測兩項核心技術(shù)，分別實現(xiàn)了 “動作生成 - 動作執(zhí)行” 與 “場景觀測 - 動作執(zhí)行” 兩個維度的并行處理。實驗結(jié)果表明，StreamingVLA 在不犧牲模型性能的前提下，實現(xiàn)了顯著的速度提升與流暢度改善。

這一工作為研究者提供了更深入的啟發(fā)：在構(gòu)建高效的具身智能系統(tǒng)時，優(yōu)化不應(yīng)僅停留在模型壓縮層面，更應(yīng)關(guān)注執(zhí)行流程的協(xié)同與并行。StreamingVLA 所展現(xiàn)的 “流式” 執(zhí)行思想，不僅適用于 VLA 模型，也為其他多階段、多模態(tài)的實時交互系統(tǒng)提供了新的設(shè)計思路，有望推動智能系統(tǒng)在真實場景中的高效部署與廣泛應(yīng)用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.