告別多步去噪！清華團隊推出MVP，實現(xiàn)機器人動作單步極速生成

2026-03-16 18:38:38　來源: 機器之心Pro

河北舉報

分享至

生成式策略（如 Diffusion Policy 和 Flow Matching）在強化學習中展現(xiàn)了強大的多模態(tài)分布擬合能力，但其多步迭代采樣帶來的高延遲一直是實時控制的痛點。

清華大學智能駕駛課題組 iDLab，加州大學伯克利分校人工智能研究院 BAIR在ICLR 2026 (Oral, Top 1%)聯(lián)合發(fā)表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》：突破生成式強化學習的效率與質(zhì)量瓶頸，實現(xiàn)最快最好的單步動作生成。該研究工作由清華大學博士生占國建和陶樂天在李升波教授指導下完成。

論文標題：Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
論文鏈接：https://openreview.net/forum?id=mIeKe74W43

本文最新研究成果MVP (Mean Velocity Policy)：提出了一種建模均值速度場（Mean Velocity Field）的新型生成式策略。該方法通過引入瞬時速度約束（IVC）作為關鍵的邊界條件，解決了均值流學習中的解不唯一性問題，并且設計了復合生成與選擇機制，確保在線強化學習過程中策略 “步步變強”。MVP 實現(xiàn)了極致的單步生成 —— 從噪聲直接映射到動作，徹底消除了迭代計算開銷。在 Robomimic 和 OGBench 等高難度具身智能基準測試中，MVP 不僅取得了 SOTA 的成功率，更在訓練和推理速度上實現(xiàn)了數(shù)量級的提升。

背景：生成式強化學習的效率與質(zhì)量瓶頸

在具身智能（Embodied AI）和機器人控制領域，面對復雜的任務，最優(yōu)動作往往呈現(xiàn)多模態(tài)分布（Multimodal Distribution）。傳統(tǒng)的單高斯策略難以應對，而基于擴散模型（Diffusion）或流匹配（Flow Matching）的生成式策略雖然表達能力強，但通常依賴幾十甚至上百步的迭代去噪，導致推理延遲極高，難以滿足機器人高頻控制的實時性要求。為了提高推理速度，字節(jié)跳動、加州伯克利等團隊曾嘗試通過大步長離散化或單步蒸餾等技術(shù)進行優(yōu)化，但往往不可避免地以犧牲生成質(zhì)量為代價，陷入了速度與精度難以兩全的瓶頸。

核心問題出現(xiàn)了：我們能否在保持流模型強大表達能力的同時，直接實現(xiàn)一步到位的動作生成？

MVP 給出的答案是肯定的。相比于傳統(tǒng)方法學習 “瞬時速度” 逐步生成動作，MVP 學習的是 “均值速度”，這使得它能夠直接跨越時間步，一步生成目標動作。

核心貢獻：MVP—— 兼具生成式策略的 “高表達能力” 與單步生成的 “高時間效率”。

技術(shù)一：瞬時速度約束錨定，精確極速的均值流策略

傳統(tǒng)的 Flow Matching 往往受限于 “步步為營”：它學習的是某一時刻的瞬時速度，導致推理時必須像歐拉積分那樣多步逼近。而 MVP 另辟蹊徑，直接建模時間區(qū)間內(nèi)的均值速度。這種設計允許網(wǎng)絡直接學習如何 “跨越時間”，在推理階段實現(xiàn)從初始噪聲到目標動作的單步跳躍，真正做到了 “一步即終點”。

然而，單純學習均值速度存在一個致命的理論困局：由于缺乏明確的邊界條件，描述均值速度的常微分方程（ODE）存在無窮多組解。這會導致神經(jīng)網(wǎng)絡在訓練時陷入不確定性，產(chǎn)生嚴重的擬合偏差。

為了破局，該研究引入了瞬時速度約束（Instantaneous Velocity Constraint, IVC）作為 “定海神針”：

1.物理直覺：在時間間隔趨于零的極限下，均值速度必須收斂于瞬時速度。

2.理論護航：IVC 為 ODE 顯式提供了唯一的邊界條件。論文中的 Theorem 3 從理論上證明了，最小化 IVC Loss 可以強制積分常數(shù)誤差歸零。

通過 IVC 的錨定，MVP 在省去繁瑣迭代步驟的同時，極大地提升了策略擬合的精度與穩(wěn)定性，實現(xiàn)了精度與速度的雙重突破。

技術(shù)二：復合生成與選擇，確保策略 “步步變強”

強化學習沒有現(xiàn)成的專家動作供生成式模型進行匹配，為了實現(xiàn)生成式策略提升，MVP 采用了 Generate-and-Select（復合生成與選擇）機制，以自舉方式進行動作優(yōu)選與匹配，逐步收斂至多模態(tài)最優(yōu)策略。

1.高效生成 (Generate)：利用 GPU 并行能力快速生成 N 個候選動作。

2.智能優(yōu)選 (Select)：利用 Q 函數(shù)對候選動作精確評分，鎖定最優(yōu)執(zhí)行方案。

理論保證：論文中的 Theorem 1 證明了，該機制能確保策略性能的單調(diào)提升。它將增益拆解為 Best-Select 優(yōu)勢（嚴格非負）與擬合誤差。只要通過 IVC 約束將誤差控制在極低水平，Generate-and-Select 就能確保策略在迭代中穩(wěn)定變強。這一理論貢獻為 MVP 的收斂性和最優(yōu)性提供了嚴格的數(shù)學保障。

實驗結(jié)果：刷新 SOTA，征服具身機器人靈巧操作挑戰(zhàn)

研究團隊在 Robomimic 和 OGBench 兩大主流機器人操作基準上進行了廣泛測試，涵蓋了從基礎的 Lift、Can 到極具挑戰(zhàn)性的 Cube-Double/Triple 等 9 個稀疏獎勵任務。

1.MVP 在絕大多數(shù)任務上都取得了 SOTA 性能。特別是在長視距、高難度的方塊錯位重排任務中，MVP（粉色）表現(xiàn)出更快的在線收斂速度和更高的最終性能。

2. 得益于單步生成的特性，MVP 在計算效率上展現(xiàn)了壓倒性優(yōu)勢。

訓練速度：相比于需要多步去噪計算的 QC，F(xiàn)QL 和 BFN，單步生成動作的 MVP 的在線訓練吞吐量（iter/s）提升超過 50%。
推理延遲：在統(tǒng)一的無編譯加速的 CPU 環(huán)境下，MVP 的單步推理耗時僅為幾毫秒，而同樣而同樣基于生成式流模型的 BFN 和 QC 等方法則需百毫秒量級。這使得 MVP 能夠輕松部署在算力受限的具身機器人本體上。

總結(jié)與展望

在本研究中，團隊直擊了生成式強化學習在交互訓練與實時控制場景下 “采樣速度慢、推理延遲高” 的痛點，提出了 MVP（Mean Velocity Policy）框架，通過學習均值速度場繞過了復雜的時序迭代采樣過程，實現(xiàn)了無需蒸餾的單步極速生成。為了彌補均值流學習在邊界條件上的理論缺失，研究設計了瞬時速度約束（IVC），從數(shù)學底層保證了策略函數(shù)的高精度擬合。實驗表明，MVP 在保持 SOTA 成功率的同時，不僅顯著縮短了訓練周期，更將推理延遲壓低至毫秒量級。這種 “極速生成” 與 “高精控制” 的深度融合，為未來追求極致響應速度的具身智能系統(tǒng)指明了新的范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.