国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別多步去噪!清華團隊推出MVP,實現(xiàn)機器人動作單步極速生成

0
分享至



生成式策略(如 Diffusion Policy 和 Flow Matching)在強化學習中展現(xiàn)了強大的多模態(tài)分布擬合能力,但其多步迭代采樣帶來的高延遲一直是實時控制的痛點。

清華大學智能駕駛課題組 iDLab,加州大學伯克利分校人工智能研究院 BAIR在ICLR 2026 (Oral, Top 1%)聯(lián)合發(fā)表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》:突破生成式強化學習的效率與質(zhì)量瓶頸,實現(xiàn)最快最好的單步動作生成。該研究工作由清華大學博士生占國建和陶樂天在李升波教授指導下完成。



  • 論文標題:Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
  • 論文鏈接:https://openreview.net/forum?id=mIeKe74W43

本文最新研究成果MVP (Mean Velocity Policy):提出了一種建模均值速度場(Mean Velocity Field)的新型生成式策略。該方法通過引入瞬時速度約束(IVC)作為關鍵的邊界條件,解決了均值流學習中的解不唯一性問題,并且設計了復合生成與選擇機制,確保在線強化學習過程中策略 “步步變強”。MVP 實現(xiàn)了極致的單步生成 —— 從噪聲直接映射到動作,徹底消除了迭代計算開銷。在 Robomimic 和 OGBench 等高難度具身智能基準測試中,MVP 不僅取得了 SOTA 的成功率,更在訓練和推理速度上實現(xiàn)了數(shù)量級的提升。

背景:生成式強化學習的效率與質(zhì)量瓶頸


在具身智能(Embodied AI)和機器人控制領域,面對復雜的任務,最優(yōu)動作往往呈現(xiàn)多模態(tài)分布(Multimodal Distribution)。傳統(tǒng)的單高斯策略難以應對,而基于擴散模型(Diffusion)或流匹配(Flow Matching)的生成式策略雖然表達能力強,但通常依賴幾十甚至上百步的迭代去噪,導致推理延遲極高,難以滿足機器人高頻控制的實時性要求。為了提高推理速度,字節(jié)跳動、加州伯克利等團隊曾嘗試通過大步長離散化或單步蒸餾等技術(shù)進行優(yōu)化,但往往不可避免地以犧牲生成質(zhì)量為代價,陷入了速度與精度難以兩全的瓶頸。

核心問題出現(xiàn)了:我們能否在保持流模型強大表達能力的同時,直接實現(xiàn)一步到位的動作生成?

MVP 給出的答案是肯定的。相比于傳統(tǒng)方法學習 “瞬時速度” 逐步生成動作,MVP 學習的是 “均值速度”,這使得它能夠直接跨越時間步,一步生成目標動作。

核心貢獻:MVP—— 兼具生成式策略的 “高表達能力” 與單步生成的 “高時間效率”。

技術(shù)一:瞬時速度約束錨定,精確極速的均值流策略


傳統(tǒng)的 Flow Matching 往往受限于 “步步為營”:它學習的是某一時刻的瞬時速度,導致推理時必須像歐拉積分那樣多步逼近。而 MVP 另辟蹊徑,直接建模時間區(qū)間內(nèi)的均值速度。這種設計允許網(wǎng)絡直接學習如何 “跨越時間”,在推理階段實現(xiàn)從初始噪聲到目標動作的單步跳躍,真正做到了 “一步即終點”。

然而,單純學習均值速度存在一個致命的理論困局:由于缺乏明確的邊界條件,描述均值速度的常微分方程(ODE)存在無窮多組解。這會導致神經(jīng)網(wǎng)絡在訓練時陷入不確定性,產(chǎn)生嚴重的擬合偏差。

為了破局,該研究引入了瞬時速度約束(Instantaneous Velocity Constraint, IVC)作為 “定海神針”:

1.物理直覺:在時間間隔趨于零的極限下,均值速度必須收斂于瞬時速度。

2.理論護航:IVC 為 ODE 顯式提供了唯一的邊界條件。論文中的 Theorem 3 從理論上證明了,最小化 IVC Loss 可以強制積分常數(shù)誤差歸零。

通過 IVC 的錨定,MVP 在省去繁瑣迭代步驟的同時,極大地提升了策略擬合的精度與穩(wěn)定性,實現(xiàn)了精度與速度的雙重突破。

技術(shù)二:復合生成與選擇,確保策略 “步步變強”


強化學習沒有現(xiàn)成的專家動作供生成式模型進行匹配,為了實現(xiàn)生成式策略提升,MVP 采用了 Generate-and-Select(復合生成與選擇)機制,以自舉方式進行動作優(yōu)選與匹配,逐步收斂至多模態(tài)最優(yōu)策略。

1.高效生成 (Generate):利用 GPU 并行能力快速生成 N 個候選動作。

2.智能優(yōu)選 (Select):利用 Q 函數(shù)對候選動作精確評分,鎖定最優(yōu)執(zhí)行方案。

理論保證:論文中的 Theorem 1 證明了,該機制能確保策略性能的單調(diào)提升。它將增益拆解為 Best-Select 優(yōu)勢(嚴格非負)與擬合誤差。只要通過 IVC 約束將誤差控制在極低水平,Generate-and-Select 就能確保策略在迭代中穩(wěn)定變強。這一理論貢獻為 MVP 的收斂性和最優(yōu)性提供了嚴格的數(shù)學保障。

實驗結(jié)果:刷新 SOTA,征服具身機器人靈巧操作挑戰(zhàn)


研究團隊在 Robomimic 和 OGBench 兩大主流機器人操作基準上進行了廣泛測試,涵蓋了從基礎的 Lift、Can 到極具挑戰(zhàn)性的 Cube-Double/Triple 等 9 個稀疏獎勵任務。

1.MVP 在絕大多數(shù)任務上都取得了 SOTA 性能。特別是在長視距、高難度的方塊錯位重排任務中,MVP(粉色)表現(xiàn)出更快的在線收斂速度和更高的最終性能。





2. 得益于單步生成的特性,MVP 在計算效率上展現(xiàn)了壓倒性優(yōu)勢。



  • 訓練速度:相比于需要多步去噪計算的 QC,F(xiàn)QL 和 BFN,單步生成動作的 MVP 的在線訓練吞吐量(iter/s)提升超過 50%。
  • 推理延遲:在統(tǒng)一的無編譯加速的 CPU 環(huán)境下,MVP 的單步推理耗時僅為幾毫秒,而同樣而同樣基于生成式流模型的 BFN 和 QC 等方法則需百毫秒量級。這使得 MVP 能夠輕松部署在算力受限的具身機器人本體上。

總結(jié)與展望


在本研究中,團隊直擊了生成式強化學習在交互訓練與實時控制場景下 “采樣速度慢、推理延遲高” 的痛點,提出了 MVP(Mean Velocity Policy)框架,通過學習均值速度場繞過了復雜的時序迭代采樣過程,實現(xiàn)了無需蒸餾的單步極速生成。為了彌補均值流學習在邊界條件上的理論缺失,研究設計了瞬時速度約束(IVC),從數(shù)學底層保證了策略函數(shù)的高精度擬合。實驗表明,MVP 在保持 SOTA 成功率的同時,不僅顯著縮短了訓練周期,更將推理延遲壓低至毫秒量級。這種 “極速生成” 與 “高精控制” 的深度融合,為未來追求極致響應速度的具身智能系統(tǒng)指明了新的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場134-109讓快船無奈!西部附加賽對陣基本敲定,勇士難上加難

一場134-109讓快船無奈!西部附加賽對陣基本敲定,勇士難上加難

小徐講八卦
2026-03-29 12:53:33
徹底變了!大眾全面換裝8AT,家用車舒適性大提升

徹底變了!大眾全面換裝8AT,家用車舒適性大提升

劉哥談體育
2026-03-28 12:06:54
剛剛,伊朗發(fā)動大規(guī)模襲擊

剛剛,伊朗發(fā)動大規(guī)模襲擊

中國基金報
2026-03-29 21:29:30
成吉思汗有一“特殊嗜好”,古代女人們苦不堪言,如今卻見怪不怪

成吉思汗有一“特殊嗜好”,古代女人們苦不堪言,如今卻見怪不怪

鶴羽說個事
2026-03-27 22:50:28
啤酒五巨頭,有人開始掉隊了

啤酒五巨頭,有人開始掉隊了

財天COVER
2026-03-23 16:32:28
雄鹿本賽季無緣季后賽,結(jié)束聯(lián)盟第二長連續(xù)季后賽紀錄

雄鹿本賽季無緣季后賽,結(jié)束聯(lián)盟第二長連續(xù)季后賽紀錄

懂球帝
2026-03-29 12:25:10
福特號士兵叛亂?著火真實情況浮出水面,44名美軍死亡只是開始

福特號士兵叛亂?著火真實情況浮出水面,44名美軍死亡只是開始

郭蛹包工頭
2026-03-28 15:47:34
老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
50歲老虎伍茲入獄照曝光!被指控3罪名獲保釋 女友是特朗普前兒媳

50歲老虎伍茲入獄照曝光!被指控3罪名獲保釋 女友是特朗普前兒媳

念洲
2026-03-29 08:01:58
警惕!公知正在悄悄換掉我們的價值觀:三件事正在瓦解社會根基

警惕!公知正在悄悄換掉我們的價值觀:三件事正在瓦解社會根基

云景侃記
2026-03-26 14:56:36
美伊最大贏家出來了,李嘉誠賺瘋了!

美伊最大贏家出來了,李嘉誠賺瘋了!

販財局
2026-03-29 19:14:24
自討苦吃,巴拿馬傻眼了,搶完港口后,卻發(fā)現(xiàn)全世界沒人敢接盤

自討苦吃,巴拿馬傻眼了,搶完港口后,卻發(fā)現(xiàn)全世界沒人敢接盤

跳跳歷史
2026-03-25 08:04:10
盲目的大學擴招,正在反噬整個社會

盲目的大學擴招,正在反噬整個社會

凡人志
2026-03-25 01:34:53
張雪峰遺產(chǎn)分割復雜!11歲女兒面臨跟后媽爭產(chǎn),是否立遺囑成關鍵

張雪峰遺產(chǎn)分割復雜!11歲女兒面臨跟后媽爭產(chǎn),是否立遺囑成關鍵

萌神木木
2026-03-25 18:56:27
對不住交過公糧的老農(nóng)民們,該給他們一個幸福的晚年!

對不住交過公糧的老農(nóng)民們,該給他們一個幸福的晚年!

濤哥銳評
2026-03-15 13:17:54
2020年女子當眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
張雪峰員工:看到張老師躺著,公司下班無人離開,紅色錦旗被拆完

張雪峰員工:看到張老師躺著,公司下班無人離開,紅色錦旗被拆完

一盅情懷
2026-03-29 16:22:05
一輛自行車賣18萬元還被搶光,上海"首發(fā)經(jīng)濟"憑的是什么?

一輛自行車賣18萬元還被搶光,上海"首發(fā)經(jīng)濟"憑的是什么?

界面新聞
2026-03-29 08:01:04
一句顧客像狗,羅技兩天蒸發(fā)5.7億:毀掉深耕30年的中國市場!

一句顧客像狗,羅技兩天蒸發(fā)5.7億:毀掉深耕30年的中國市場!

有范又有料
2026-03-28 18:38:15
浙江5-2大勝東吳!陜西1-2河南還沖錘子超?和海港一樣比分不錯了

浙江5-2大勝東吳!陜西1-2河南還沖錘子超?和海港一樣比分不錯了

刀鋒體育
2026-03-29 11:44:54
2026-03-29 23:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

美軍地面戰(zhàn)"數(shù)周速決"方案披露 欲復刻"42天滅伊"神話

頭條要聞

美軍地面戰(zhàn)"數(shù)周速決"方案披露 欲復刻"42天滅伊"神話

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
時尚
健康

藝術(shù)要聞

314米!溫哥華第一座超高層摩天樓,像“海綿礁”

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

旅游要聞

半日游、一日游都有!南京棲霞發(fā)布首批27條精品研學路線

來到1980的周也,好毛利蘭

干細胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關懷版