国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦引望提出Masked Diffusion端到端自動(dòng)駕駛新框架

0
分享至



隨著 VLA(Vision-Language-Action)模型的興起,端到端自動(dòng)駕駛正經(jīng)歷從「模塊化」向「大一統(tǒng)」的范式轉(zhuǎn)移。然而,將感知、推理與規(guī)劃壓縮進(jìn)單一模型后,主流的自回歸(Auto-regressive)生成范式逐漸顯露出局限性?,F(xiàn)有的自回歸模型強(qiáng)制遵循「從左到右」的時(shí)序生成邏輯,這與人類駕駛員的思維直覺存在本質(zhì)差異 —— 經(jīng)驗(yàn)豐富的駕駛員在處理復(fù)雜路況時(shí),往往采用「以終為始」的策略,即先確立長(zhǎng)期的駕駛意圖(如切入匝道、避讓行人、靠邊??浚俜赐飘?dāng)前的短期操控動(dòng)作。此外,基于模仿學(xué)習(xí)的模型容易陷入「平均司機(jī)」陷阱,傾向于擬合數(shù)據(jù)分布的均值,導(dǎo)致策略平庸化,難以在激進(jìn)博弈與保守避讓之間靈活切換。

針對(duì)上述痛點(diǎn),復(fù)旦大學(xué)與引望智能聯(lián)合提出了 WAM-Diff 框架。該研究創(chuàng)新性地將離散掩碼擴(kuò)散模型(Discrete Masked Diffusion)引入 VLA 自動(dòng)駕駛規(guī)劃,并結(jié)合稀疏混合專家(MoE)架構(gòu)與在線強(qiáng)化學(xué)習(xí)(GSPO),構(gòu)建了一套不再受限于單向時(shí)序的生成式規(guī)劃系統(tǒng)。

在權(quán)威評(píng)測(cè)基準(zhǔn) NAVSIM 中,WAM-Diff 展現(xiàn)了卓越的性能,在 NAVSIM-v1 和 v2 榜單上分別取得了91.0 PDMS和89.7 EPDMS的 SOTA 成績(jī),有力證明了非自回歸生成范式在復(fù)雜自動(dòng)駕駛場(chǎng)景下的巨大潛力。



  • 論文標(biāo)題: WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving
  • 論文鏈接: https://arxiv.org/abs/2512.11872
  • 開源項(xiàng)目: https://github.com/fudan-generative-vision/WAM-Diff

核心創(chuàng)新:重新思考生成邏輯


從數(shù)值回歸到離散序列生成

為了在統(tǒng)一的特征空間內(nèi)實(shí)現(xiàn)對(duì)世界的理解與動(dòng)作規(guī)劃,WAM-Diff 首先引入了混合離散動(dòng)作分詞(Hybrid Discrete Action Tokenization)技術(shù)。研究團(tuán)隊(duì)將連續(xù)的 2D 軌跡坐標(biāo)量化為高精度的離散 Token(誤差控制在 0.005 以內(nèi)),并將其與代表駕駛指令(如「左轉(zhuǎn)」、「避讓」、「停靠」)的語義 Token 置于共享詞表中。

在此基礎(chǔ)上,WAM-Diff 采用 Masked Diffusion 作為生成骨干。與逐個(gè)預(yù)測(cè)下一個(gè) Token 的自回歸模型不同,Masked Diffusion 從一個(gè)全掩碼序列出發(fā),利用雙向上下文信息,在每一步迭代中并行預(yù)測(cè)所有位置的 Token。這種機(jī)制不僅大幅提升了推理效率,更重要的是賦予了模型全局優(yōu)化的能力,使其能夠同時(shí)利用過去和未來的信息來推斷當(dāng)前的最優(yōu)動(dòng)作。



Figure 1 : WAM-Diff 的模型總體架構(gòu)圖。

解碼策略驗(yàn)證「反因果」規(guī)劃的有效性

擺脫了「從左到右」的時(shí)序束縛后,模型該如何安排軌跡生成的優(yōu)先級(jí)?WAM-Diff 深入探索了因果序(Causal)、反因果序(Reverse-Causal)和隨機(jī)序(Random)三種解碼調(diào)度策略。實(shí)驗(yàn)結(jié)果揭示了一個(gè)反直覺但極具價(jià)值的現(xiàn)象:反因果序策略在閉環(huán)指標(biāo)上表現(xiàn)最佳。這意味著,先確定遠(yuǎn)處的終點(diǎn)狀態(tài),再倒推近處的軌跡細(xì)節(jié),這種「以終為始」的生成邏輯能顯著提升規(guī)劃的一致性與安全性。這一發(fā)現(xiàn)從模型層面驗(yàn)證了人類駕駛員在復(fù)雜博弈場(chǎng)景下的直覺思維。



Figure 2 : Masked Diffusion 的不同解碼調(diào)度策略。

MoE 混合專家與 GSPO 在線強(qiáng)化學(xué)習(xí)

面對(duì)多變的駕駛場(chǎng)景,單一模型往往難以兼顧各種極端情況。WAM-Diff 通過在主干網(wǎng)絡(luò)中集成 LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)架構(gòu)來解決這一難題。模型包含 64 個(gè)輕量級(jí)專家,通過門控網(wǎng)絡(luò)實(shí)現(xiàn)動(dòng)態(tài)路由與稀疏激活。在推理過程中,模型能夠根據(jù)當(dāng)前場(chǎng)景自動(dòng)激活最匹配的駕駛專家,在控制計(jì)算開銷的同時(shí)顯著提升了模型的容量與適應(yīng)性。此外,團(tuán)隊(duì)采用了多任務(wù)聯(lián)合訓(xùn)練策略,使模型在學(xué)習(xí)軌跡預(yù)測(cè)的同時(shí),通過駕駛 VQA 任務(wù)理解場(chǎng)景語義。這使得專家網(wǎng)絡(luò)不僅掌握了駕駛技能,更理解了駕駛決策背后的因果邏輯,顯著增強(qiáng)了規(guī)劃的可解釋性與泛化能力。



Figure 3 : MoE 組件的定性分析。不同場(chǎng)景下規(guī)劃軌跡的 BEV 可視化與專家激活熱力圖。

與此同時(shí),單純的模仿學(xué)習(xí)容易導(dǎo)致模型在長(zhǎng)尾場(chǎng)景下缺乏魯棒性,且難以顯式優(yōu)化安全指標(biāo)。為此,WAM-Diff 引入了分組序列策略優(yōu)化(GSPO, Group Sequence Policy Optimization)算法,旨在彌合開環(huán)訓(xùn)練與閉環(huán)執(zhí)行之間的鴻溝。GSPO 的核心思想是將優(yōu)化粒度從「單步 Token」提升至「完整軌跡序列」。系統(tǒng)在仿真環(huán)境中采樣一組候選軌跡,并依據(jù)安全性(碰撞檢測(cè))、合規(guī)性(車道保持)及舒適性(加減速平滑度)等多維指標(biāo)對(duì)整條軌跡進(jìn)行評(píng)分。通過計(jì)算組內(nèi)相對(duì)優(yōu)勢(shì),模型被顯式引導(dǎo)向「高安全、高舒適」的區(qū)域更新。這種序列級(jí)的價(jià)值對(duì)齊機(jī)制,從根本上確保了規(guī)劃結(jié)果不僅「像人」,而且比人類駕駛數(shù)據(jù)更安全、更規(guī)范。


實(shí)驗(yàn)結(jié)果


為了驗(yàn)證 WAM-Diff 的有效性,我們?cè)跈?quán)威的 NAVSIM 自動(dòng)駕駛評(píng)測(cè)基準(zhǔn)上進(jìn)行了廣泛實(shí)驗(yàn)。結(jié)果顯示,該方法在 NAVSIM-v1 和 v2 榜單上均取得了具有競(jìng)爭(zhēng)力的表現(xiàn)。具體而言,在 NAVSIM-v1 中,WAM-Diff 達(dá)到了 91.0 的 PDMS 分?jǐn)?shù),超越了 DiffusionDrive、ReCogDrive 以及 DriveVLA-W0 等主流基線模型。



Table 1 : 在 NAVSIM-v1 上與最先進(jìn)方法(SOTA)的對(duì)比。

進(jìn)一步地,在引入了交通規(guī)則遵循度與舒適性等更嚴(yán)格指標(biāo)的 NAVSIM-v2 測(cè)試中,模型依然保持了穩(wěn)健性,取得了 89.7 的 EPDMS 成績(jī),相較于 DiffusionDrive 提升了 5.2 分。這表明 WAM-Diff 能夠有效平衡駕駛的安全性與合規(guī)性,在面對(duì)貼近真實(shí)駕駛的復(fù)雜評(píng)測(cè)體系時(shí)仍能生成高質(zhì)量的規(guī)劃軌跡。



Table 2 : 在 NAVSIM-v2 上與最先進(jìn)方法(SOTA)的對(duì)比。

此外,我們對(duì)掩碼擴(kuò)散的解碼策略進(jìn)行了深入的消融研究。實(shí)驗(yàn)對(duì)比了隨機(jī)序、因果序與反因果序三種模式,結(jié)果發(fā)現(xiàn)反因果序策略取得了最佳的閉環(huán)性能(91.0 PDMS)。這一數(shù)據(jù)有力支持了 “以終為始” 的規(guī)劃直覺:優(yōu)先確立遠(yuǎn)期駕駛意圖,再反推近端動(dòng)作細(xì)節(jié),有助于生成在時(shí)序上更一致、安全的可執(zhí)行軌跡。



Table 3 :掩碼解碼調(diào)度策略的消融研究。

定性實(shí)驗(yàn)與可視化結(jié)果進(jìn)一步展示了模型在復(fù)雜博弈場(chǎng)景下的穩(wěn)定性,驗(yàn)證了 MoE 架構(gòu)與在線強(qiáng)化學(xué)習(xí)(GSPO)組件在提升長(zhǎng)尾場(chǎng)景魯棒性方面的作用。



Figure 4 : 強(qiáng)化學(xué)習(xí) GSPO 在不同駕駛場(chǎng)景下的定性消融分析。

總結(jié)


WAM-Diff 的出現(xiàn),標(biāo)志著端到端自動(dòng)駕駛規(guī)劃向離散化、結(jié)構(gòu)化、閉環(huán)化邁出了重要一步。它并未簡(jiǎn)單地堆砌模型參數(shù),而是通過 Masked Diffusion 重構(gòu)了時(shí)序生成的邏輯,利用 MoE 解決了策略單一性的瓶頸,最后通過 RL 守住了安全的底線。對(duì)于業(yè)界而言,WAM-Diff 證明了在 VLA 時(shí)代,「如何生成」與「生成什么」同樣重要。這種具備反向推理能力且風(fēng)格多變的規(guī)劃器,或許正是通往 L4 級(jí)自動(dòng)駕駛的一塊關(guān)鍵拼圖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

千言娛樂記
2025-12-27 18:55:00
最快護(hù)士張水華遭中國(guó)田協(xié)除名?官方競(jìng)賽系統(tǒng)業(yè)余跑者唯獨(dú)沒有她

最快護(hù)士張水華遭中國(guó)田協(xié)除名?官方競(jìng)賽系統(tǒng)業(yè)余跑者唯獨(dú)沒有她

楊華評(píng)論
2025-12-27 13:10:15
李嘉誠(chéng):有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

李嘉誠(chéng):有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

紫京講談
2025-12-26 16:59:51
合租5年的男室友,突然說要回老家訂婚,我調(diào)侃說:干脆娶我算了

合租5年的男室友,突然說要回老家訂婚,我調(diào)侃說:干脆娶我算了

朝暮書屋
2025-12-22 18:14:10
方博這次直播真是把話說得明明白白,一點(diǎn)情面都沒給某些人留。

方博這次直播真是把話說得明明白白,一點(diǎn)情面都沒給某些人留。

小光侃娛樂
2025-12-28 05:40:03
2026宜蘭縣長(zhǎng)藍(lán)營(yíng)人選首次協(xié)調(diào)失敗,若二次協(xié)調(diào)不成將辦初選

2026宜蘭縣長(zhǎng)藍(lán)營(yíng)人選首次協(xié)調(diào)失敗,若二次協(xié)調(diào)不成將辦初選

海峽導(dǎo)報(bào)社
2025-12-28 09:00:03
詹?。郝怯忠涎荨凹菜僮窔ⅰ保恢x爾基是英超夏窗最佳引援

詹?。郝怯忠涎荨凹菜僮窔ⅰ?;謝爾基是英超夏窗最佳引援

懂球帝
2025-12-27 22:59:27
目標(biāo)明確!海港敲定3大后衛(wèi)后,要強(qiáng)挖中超第一鐵腰,強(qiáng)徐新十倍

目標(biāo)明確!海港敲定3大后衛(wèi)后,要強(qiáng)挖中超第一鐵腰,強(qiáng)徐新十倍

零度眼看球
2025-12-28 08:22:32
賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

古書記史
2025-12-12 11:21:38
2026做什么都順的星座,沒有之一

2026做什么都順的星座,沒有之一

同道大叔
2025-12-27 22:04:48
任期超10年!廣東金融學(xué)院女書記李建軍卸任,曾在5所高校工作

任期超10年!廣東金融學(xué)院女書記李建軍卸任,曾在5所高校工作

百家論大學(xué)
2025-12-28 07:10:06
中足聯(lián)官宣!新賽季首支解散球隊(duì)浮現(xiàn)

中足聯(lián)官宣!新賽季首支解散球隊(duì)浮現(xiàn)

徽派體育
2025-12-27 22:48:12
東北人口危機(jī)爆發(fā),1456萬消失,空城現(xiàn)象震驚全國(guó)

東北人口危機(jī)爆發(fā),1456萬消失,空城現(xiàn)象震驚全國(guó)

沒有偏旁的常慶
2025-12-27 09:10:45
姜昆團(tuán)隊(duì)越澄清越露餡!網(wǎng)友扒出18日北京天氣,老藝術(shù)家們太抗凍

姜昆團(tuán)隊(duì)越澄清越露餡!網(wǎng)友扒出18日北京天氣,老藝術(shù)家們太抗凍

好賢觀史記
2025-12-27 18:09:59
兒子結(jié)婚不讓我去,竟邀請(qǐng)前夫和小三?我退婚慶、賣婚房,他慌了

兒子結(jié)婚不讓我去,竟邀請(qǐng)前夫和小三?我退婚慶、賣婚房,他慌了

磊子講史
2025-06-25 14:43:26
宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

清茶淺談
2024-12-20 22:30:46
東引島:距離大陸僅50公里,武裝嚴(yán)密,山體竟早就已被全面挖空!

東引島:距離大陸僅50公里,武裝嚴(yán)密,山體竟早就已被全面挖空!

boss外傳
2025-12-27 00:00:04
上海民警猥褻繼女案二審維持原判:劉某濤因猥褻兒童罪、強(qiáng)制猥褻罪數(shù)罪并罰,被判處有期徒刑八年

上海民警猥褻繼女案二審維持原判:劉某濤因猥褻兒童罪、強(qiáng)制猥褻罪數(shù)罪并罰,被判處有期徒刑八年

揚(yáng)子晚報(bào)
2025-12-27 22:04:10
NBA傳聞:老鷹隊(duì)和獨(dú)行俠隊(duì)正在就安東尼·戴維斯的交易進(jìn)行談判

NBA傳聞:老鷹隊(duì)和獨(dú)行俠隊(duì)正在就安東尼·戴維斯的交易進(jìn)行談判

好火子
2025-12-28 03:44:56
300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對(duì)此沒有需要

300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對(duì)此沒有需要

史海孤雁
2025-12-24 14:20:17
2025-12-28 10:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
健康
數(shù)碼
公開課
軍事航空

教育要聞

家長(zhǎng)來討說法,要怎么應(yīng)對(duì)?

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

彩殼版蘋果初代AirPods耳機(jī)曝光:風(fēng)格酷似iPhone 5C

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版