北交大 x 小米 EV 團(tuán)隊(duì)：一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

2025-12-26 14:19:12　來源: 雷峰網(wǎng)

北京舉報(bào)

分享至

在自動駕駛研究不斷向世界模型演進(jìn)的過程中，一個(gè)長期被回避卻無法忽視的問題正逐漸凸顯：模型在論文中的性能提升，是否真的對應(yīng)著系統(tǒng)在真實(shí)駕駛環(huán)境中的魯棒性提升?

過去數(shù)年中，大量工作通過更復(fù)雜的生成結(jié)構(gòu)、更精細(xì)的預(yù)測目標(biāo)和更先進(jìn)的訓(xùn)練策略，使世界模型在視覺預(yù)測與場景生成指標(biāo)上取得了顯著進(jìn)展。然而，在工程實(shí)踐中，這些看起來 reminder 的模型，往往并不能穩(wěn)定支撐長期決策、復(fù)雜交互和安全約束并存的真實(shí)駕駛系統(tǒng)。

問題并不完全出在模型本身，而更深層地指向了實(shí)驗(yàn)范式與評測目標(biāo)的錯位：我們究竟在通過實(shí)驗(yàn)驗(yàn)證什么？是模型是否預(yù)測得更像，還是系統(tǒng)是否運(yùn)行得更穩(wěn)？在缺乏統(tǒng)一任務(wù)定義、系統(tǒng)級閉環(huán)驗(yàn)證和可信評測標(biāo)準(zhǔn)的前提下，世界模型的能力邊界正在被系統(tǒng)性高估。

正是在這一背景下，北京交通大學(xué)研究團(tuán)隊(duì)聯(lián)合小米汽車自動駕駛與具身智能算法團(tuán)隊(duì)，在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中，對自動駕駛世界模型進(jìn)行了不同于傳統(tǒng)綜述的系統(tǒng)性審視。

這項(xiàng)工作并未提出新的模型或算法，而是基于大量已有實(shí)驗(yàn)結(jié)果，重構(gòu)了一套以魯棒性為核心變量的分析框架，從生成評測、結(jié)構(gòu)化空間建模、規(guī)劃驗(yàn)證到系統(tǒng)級閉環(huán)行為，逐層揭示了當(dāng)前世界模型研究中被忽視的關(guān)鍵斷層，并明確指出哪些結(jié)論是被實(shí)驗(yàn)真正支持的，哪些則仍停留在指標(biāo)幻覺之中。

論文地址：https://doi.org/10.36227/techrxiv.176523308.84756413/v1

基于既有實(shí)驗(yàn)結(jié)果的系統(tǒng)性觀察

如果將這篇論文視作一次嚴(yán)格意義上的實(shí)驗(yàn)研究，那么它的實(shí)驗(yàn)結(jié)果并不是某個(gè)模型在某個(gè)指標(biāo)上的提升，而是一組關(guān)于整個(gè)自動駕駛世界模型研究方向有效性與局限性的實(shí)證性結(jié)論。這些結(jié)論來自對大量已有實(shí)驗(yàn)結(jié)果的系統(tǒng)重組，而非主觀推斷。

首先，在最基礎(chǔ)的層面，論文通過對近年來生成式世界模型實(shí)驗(yàn)結(jié)果的系統(tǒng)梳理，確認(rèn)了一個(gè)表面上樂觀、但內(nèi)在矛盾的事實(shí)：自動駕駛世界模型在視覺預(yù)測、場景生成等任務(wù)上的定量指標(biāo)確實(shí)在持續(xù)進(jìn)步，但這種進(jìn)步并未線性轉(zhuǎn)化為對駕駛安全或系統(tǒng)穩(wěn)定性的可靠提升。

具體來說，圖像與視頻預(yù)測類實(shí)驗(yàn)顯示，多數(shù)方法在諸如 FID、FVD 這類統(tǒng)計(jì)分布相似性指標(biāo)上已經(jīng)達(dá)到了相當(dāng)成熟的水平。一些模型生成的未來幀在視覺質(zhì)量上甚至難以與真實(shí)數(shù)據(jù)區(qū)分。這一實(shí)驗(yàn)現(xiàn)象在不同論文、不同數(shù)據(jù)集上反復(fù)出現(xiàn)，因此并非偶然。然而，當(dāng)這些結(jié)果被進(jìn)一步放置到時(shí)間序列維度進(jìn)行審視時(shí)，問題開始顯現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示，許多模型在短期預(yù)測窗口內(nèi)表現(xiàn)穩(wěn)定，但隨著預(yù)測時(shí)間延長，場景結(jié)構(gòu)、目標(biāo)位置和運(yùn)動軌跡逐漸偏離合理范圍。這種偏離往往不會在傳統(tǒng)生成指標(biāo)中被顯式懲罰，卻在真實(shí)駕駛中對應(yīng)著潛在的碰撞風(fēng)險(xiǎn)、規(guī)則違反或不可恢復(fù)的系統(tǒng)失效。雷峰網(wǎng)

這一實(shí)驗(yàn)現(xiàn)象本身構(gòu)成了論文的第一個(gè)關(guān)鍵結(jié)論：當(dāng)前主流生成評測體系無法充分刻畫自動駕駛所需的魯棒性維度。

其次，當(dāng)論文將分析重心轉(zhuǎn)向點(diǎn)云與 Occupancy 表征相關(guān)實(shí)驗(yàn)結(jié)果時(shí)，出現(xiàn)了明顯不同的趨勢?；谌S或四維空間表征的世界模型，在多個(gè)實(shí)驗(yàn)設(shè)置中表現(xiàn)出更強(qiáng)的一致性和穩(wěn)定性。

無論是在空間重建精度，還是在為規(guī)劃模塊提供狀態(tài)輸入時(shí)，這類方法在多項(xiàng)公開基準(zhǔn)上都展現(xiàn)出相對更可靠的性能。這種優(yōu)勢并非來源于單一指標(biāo)的極致優(yōu)化，而是體現(xiàn)在多指標(biāo)、多任務(wù)條件下的整體穩(wěn)定性。

通過對比這些實(shí)驗(yàn)結(jié)果，論文實(shí)際上確認(rèn)了第二個(gè)重要事實(shí)：魯棒性更容易從結(jié)構(gòu)化空間建模中涌現(xiàn)，而非從純粹的感知級生成中涌現(xiàn)。

在規(guī)劃相關(guān)實(shí)驗(yàn)中，論文進(jìn)一步通過區(qū)分開環(huán)與閉環(huán)評測，揭示了世界模型能力評估中的一個(gè)長期混淆點(diǎn)。在開環(huán)規(guī)劃實(shí)驗(yàn)中，即僅評估模型在給定歷史條件下預(yù)測未來狀態(tài)的能力時(shí)，多項(xiàng)實(shí)驗(yàn)結(jié)果顯示，世界模型在軌跡預(yù)測質(zhì)量、環(huán)境理解一致性等方面已經(jīng)接近甚至匹配部分強(qiáng)端到端系統(tǒng)。這說明，從世界演化建模的角度看，世界模型已經(jīng)具備相當(dāng)程度的表達(dá)能力。

然而，當(dāng)這些模型被嵌入閉環(huán)系統(tǒng)，在真實(shí)的決策鏈條中承擔(dān)連續(xù)規(guī)劃與控制職責(zé)時(shí)，它的能力邊界便開始暴露。

系統(tǒng)不同于更為理想化的開環(huán)評測，它引入了反饋機(jī)制，模型的輸出會直接影響環(huán)境狀態(tài)，并作為新的輸入重新回到系統(tǒng)之中，小幅的感知與預(yù)測偏差會在這種反饋中逐步累積與放大。

例如在 Bench2Drive 等閉環(huán)測評中，只有依賴專家信息的 Think2Drive 能夠?qū)⒕C合駕駛得分提升至 92 分左右，而不使用專家信息的 Raw2Drive 得分僅為 71 分，多數(shù)使用世界模型方法的駕駛得分集中在 40-60 分之間，并伴隨成功率與碰撞率的顯著差異。

也正因如此，可以觀察到一種穩(wěn)定存在的能力斷層：在開環(huán)指標(biāo)上表現(xiàn)優(yōu)秀的模型，并不必然在閉環(huán)仿真乃至真實(shí)系統(tǒng)中展現(xiàn)出同等水平的安全性與穩(wěn)定性。

由此可見，開環(huán)和閉環(huán)系統(tǒng)并非簡單的替代關(guān)系，而應(yīng)被視作是互補(bǔ)的兩個(gè)層級，即開環(huán)主要用于驗(yàn)證表示與預(yù)測的認(rèn)知正確性，而閉環(huán)則用于檢驗(yàn)長期交互中的行為穩(wěn)健性。

或許未來的關(guān)鍵方向，不僅在于繼續(xù)提升開環(huán)的預(yù)測精度，更在于能夠構(gòu)建一個(gè)能夠有效銜接開環(huán)和閉環(huán)系統(tǒng)的訓(xùn)練體系，進(jìn)而真正支撐系統(tǒng)及魯棒性自動駕駛的實(shí)現(xiàn)。雷峰網(wǎng)

由此，論文在實(shí)驗(yàn)層面確認(rèn)了第三個(gè)關(guān)鍵結(jié)論：開環(huán)性能并不能可靠預(yù)測閉環(huán)系統(tǒng)的安全性與穩(wěn)定性。

在更高層級的實(shí)驗(yàn)歸納中，論文還總結(jié)了一系列系統(tǒng)性證據(jù)，表明世界模型在某些條件下確實(shí)能夠?yàn)樽詣玉{駛系統(tǒng)帶來實(shí)質(zhì)性收益。這些證據(jù)并不集中于單一指標(biāo)，而體現(xiàn)在可控生成、零樣本泛化、跨任務(wù)遷移以及人類主觀評估等多個(gè)實(shí)驗(yàn)維度上。

這些實(shí)驗(yàn)結(jié)果共同指向一個(gè)結(jié)論：當(dāng)世界模型被用于增強(qiáng)系統(tǒng)整體能力，而非單一任務(wù)性能時(shí)，其價(jià)值才開始顯現(xiàn)。

非傳統(tǒng)實(shí)驗(yàn)范式的建立

理解這篇論文的實(shí)驗(yàn)過程，關(guān)鍵在于認(rèn)識到它采用的并非傳統(tǒng)意義上的“訓(xùn)練—測試”實(shí)驗(yàn)范式，而是一種跨研究工作的實(shí)驗(yàn)重構(gòu)方法。作者并沒有新增模型或數(shù)據(jù)，而是通過重新組織已有實(shí)驗(yàn)結(jié)果，構(gòu)建了一套用于檢驗(yàn)研究方向本身的實(shí)驗(yàn)邏輯。

在實(shí)驗(yàn)的第一階段，作者關(guān)注的并不是模型能力，而是評測工具本身。他們系統(tǒng)梳理了自動駕駛世界模型領(lǐng)域常用的數(shù)據(jù)集、仿真平臺與評價(jià)指標(biāo)，并分析這些工具在多大程度上能夠反映真實(shí)駕駛需求。通過對比不同論文的實(shí)驗(yàn)設(shè)置，作者發(fā)現(xiàn)：即使研究目標(biāo)相似，不同工作之間的評測方式也往往高度異質(zhì)。這種異質(zhì)性使得實(shí)驗(yàn)結(jié)果難以直接比較，也使得“性能提升”這一結(jié)論本身變得不穩(wěn)定。

這一階段的實(shí)驗(yàn)分析實(shí)際上是在對整個(gè)領(lǐng)域的實(shí)驗(yàn)基礎(chǔ)設(shè)施進(jìn)行審視，其隱含問題是：如果評測方式本身存在系統(tǒng)性盲區(qū)，那么基于這些評測得出的結(jié)論是否可靠？

在第二階段，作者將實(shí)驗(yàn)分析的重點(diǎn)從評測工具轉(zhuǎn)向系統(tǒng)行為。他們不再試圖回答“哪個(gè)模型更好”，而是試圖回答“哪些實(shí)驗(yàn)結(jié)果在系統(tǒng)層面仍然成立”。為此，論文系統(tǒng)整理了涉及可控生成、零樣本泛化和跨任務(wù)遷移的實(shí)驗(yàn)工作。這些實(shí)驗(yàn)往往難以嚴(yán)格控制變量，但正因如此，更接近真實(shí)工程環(huán)境。

通過比較這些實(shí)驗(yàn)結(jié)果，作者發(fā)現(xiàn)：某些在單一任務(wù)中并不占優(yōu)的方法，在系統(tǒng)級實(shí)驗(yàn)中反而表現(xiàn)出更高的穩(wěn)定性；而一些在生成指標(biāo)上表現(xiàn)突出的模型，在系統(tǒng)集成后卻難以維持性能。這種反差本身構(gòu)成了一種實(shí)驗(yàn)發(fā)現(xiàn)，迫使研究者重新思考性能評估的目標(biāo)。

至于第三階段，論文并未給出完整實(shí)驗(yàn)結(jié)果，而是明確指出當(dāng)前實(shí)驗(yàn)體系的缺失。這并非實(shí)驗(yàn)不足，而是作者基于前兩階段實(shí)驗(yàn)分析后得出的理性判斷：在缺乏統(tǒng)一任務(wù)定義、可解釋性評測和可信閉環(huán)仿真之前，任何關(guān)于“開放世界魯棒性”的結(jié)論都缺乏實(shí)驗(yàn)支撐。

重新定義「值得被驗(yàn)證」的實(shí)驗(yàn)?zāi)繕?biāo)

從實(shí)驗(yàn)意義上看，這篇論文的價(jià)值并不在于它總結(jié)了多少工作，而在于它通過實(shí)驗(yàn)性分析改變了“什么值得被實(shí)驗(yàn)驗(yàn)證”的標(biāo)準(zhǔn)。

首先，它在實(shí)驗(yàn)層面否定了一種隱含但普遍存在的假設(shè)，即認(rèn)為只要生成或預(yù)測性能不斷提升，系統(tǒng)魯棒性就會自然改善。通過對大量實(shí)驗(yàn)結(jié)果的系統(tǒng)分析，論文清楚地表明，這種假設(shè)在自動駕駛場景下并不成立。魯棒性并不會自動從局部性能優(yōu)化中涌現(xiàn)。

其次，這篇論文通過實(shí)驗(yàn)拆解，強(qiáng)調(diào)了系統(tǒng)級評測的重要性。它表明，真正有意義的實(shí)驗(yàn)不應(yīng)只關(guān)注模型在孤立任務(wù)中的表現(xiàn)，而應(yīng)關(guān)注模型在復(fù)雜系統(tǒng)中的行為。這一觀點(diǎn)對研究范式具有直接約束力：它要求研究者在設(shè)計(jì)實(shí)驗(yàn)時(shí)，必須明確自己所驗(yàn)證的魯棒性層級。

更深層的意義在于，這篇論文將自動駕駛世界模型的研究問題，從“模型是否足夠強(qiáng)”轉(zhuǎn)變?yōu)椤皩?shí)驗(yàn)是否足夠真實(shí)”。這意味著，未來的關(guān)鍵突破不一定來自更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，而可能來自更合理的實(shí)驗(yàn)設(shè)計(jì)與評測體系。

一支把魯棒性「講透」的團(tuán)隊(duì)

賈飛陽為本文第一作者，現(xiàn)為北京交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士研究生，研究方向包括自動駕駛?cè)S目標(biāo)檢測、端到端自動駕駛以及自動駕駛世界模型等。

賈彩燕為本文通訊作者之一，現(xiàn)任北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院教授，并擔(dān)任交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室副主任。其主要研究方向包括機(jī)器學(xué)習(xí)模型（尤其是圖神經(jīng)網(wǎng)絡(luò)）、虛假信息檢測、大模型生成內(nèi)容檢測與可信計(jì)算、推薦算法，以及自動駕駛場景下的多模態(tài)融合目標(biāo)檢測與大模型泛化研究等。

近年來已在國內(nèi)外學(xué)術(shù)期刊和國際會議上發(fā)表論文80余篇，主持國家自然科學(xué)基金面上項(xiàng)目兩項(xiàng)、國家自然科學(xué)基金青年基金項(xiàng)目一項(xiàng)，并主持國家重點(diǎn)研發(fā)計(jì)劃“新一代人工智能”專項(xiàng)子課題一項(xiàng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.