国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

0
分享至

在自動駕駛研究不斷向世界模型演進(jìn)的過程中,一個(gè)長期被回避卻無法忽視的問題正逐漸凸顯:模型在論文中的性能提升,是否真的對應(yīng)著系統(tǒng)在真實(shí)駕駛環(huán)境中的魯棒性提升?

過去數(shù)年中,大量工作通過更復(fù)雜的生成結(jié)構(gòu)、更精細(xì)的預(yù)測目標(biāo)和更先進(jìn)的訓(xùn)練策略,使世界模型在視覺預(yù)測與場景生成指標(biāo)上取得了顯著進(jìn)展。然而,在工程實(shí)踐中,這些看起來 reminder 的模型,往往并不能穩(wěn)定支撐長期決策、復(fù)雜交互和安全約束并存的真實(shí)駕駛系統(tǒng)。

問題并不完全出在模型本身,而更深層地指向了實(shí)驗(yàn)范式與評測目標(biāo)的錯位:我們究竟在通過實(shí)驗(yàn)驗(yàn)證什么?是模型是否預(yù)測得更像,還是系統(tǒng)是否運(yùn)行得更穩(wěn)?在缺乏統(tǒng)一任務(wù)定義、系統(tǒng)級閉環(huán)驗(yàn)證和可信評測標(biāo)準(zhǔn)的前提下,世界模型的能力邊界正在被系統(tǒng)性高估。

正是在這一背景下,北京交通大學(xué)研究團(tuán)隊(duì)聯(lián)合小米汽車自動駕駛與具身智能算法團(tuán)隊(duì),在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,對自動駕駛世界模型進(jìn)行了不同于傳統(tǒng)綜述的系統(tǒng)性審視。

這項(xiàng)工作并未提出新的模型或算法,而是基于大量已有實(shí)驗(yàn)結(jié)果,重構(gòu)了一套以魯棒性為核心變量的分析框架,從生成評測、結(jié)構(gòu)化空間建模、規(guī)劃驗(yàn)證到系統(tǒng)級閉環(huán)行為,逐層揭示了當(dāng)前世界模型研究中被忽視的關(guān)鍵斷層,并明確指出哪些結(jié)論是被實(shí)驗(yàn)真正支持的,哪些則仍停留在指標(biāo)幻覺之中。


論文地址:https://doi.org/10.36227/techrxiv.176523308.84756413/v1

基于既有實(shí)驗(yàn)結(jié)果的系統(tǒng)性觀察

如果將這篇論文視作一次嚴(yán)格意義上的實(shí)驗(yàn)研究,那么它的實(shí)驗(yàn)結(jié)果并不是某個(gè)模型在某個(gè)指標(biāo)上的提升,而是一組關(guān)于整個(gè)自動駕駛世界模型研究方向有效性與局限性的實(shí)證性結(jié)論。這些結(jié)論來自對大量已有實(shí)驗(yàn)結(jié)果的系統(tǒng)重組,而非主觀推斷。


首先,在最基礎(chǔ)的層面,論文通過對近年來生成式世界模型實(shí)驗(yàn)結(jié)果的系統(tǒng)梳理,確認(rèn)了一個(gè)表面上樂觀、但內(nèi)在矛盾的事實(shí):自動駕駛世界模型在視覺預(yù)測、場景生成等任務(wù)上的定量指標(biāo)確實(shí)在持續(xù)進(jìn)步,但這種進(jìn)步并未線性轉(zhuǎn)化為對駕駛安全或系統(tǒng)穩(wěn)定性的可靠提升。

具體來說,圖像與視頻預(yù)測類實(shí)驗(yàn)顯示,多數(shù)方法在諸如 FID、FVD 這類統(tǒng)計(jì)分布相似性指標(biāo)上已經(jīng)達(dá)到了相當(dāng)成熟的水平。一些模型生成的未來幀在視覺質(zhì)量上甚至難以與真實(shí)數(shù)據(jù)區(qū)分。這一實(shí)驗(yàn)現(xiàn)象在不同論文、不同數(shù)據(jù)集上反復(fù)出現(xiàn),因此并非偶然。然而,當(dāng)這些結(jié)果被進(jìn)一步放置到時(shí)間序列維度進(jìn)行審視時(shí),問題開始顯現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,許多模型在短期預(yù)測窗口內(nèi)表現(xiàn)穩(wěn)定,但隨著預(yù)測時(shí)間延長,場景結(jié)構(gòu)、目標(biāo)位置和運(yùn)動軌跡逐漸偏離合理范圍。這種偏離往往不會在傳統(tǒng)生成指標(biāo)中被顯式懲罰,卻在真實(shí)駕駛中對應(yīng)著潛在的碰撞風(fēng)險(xiǎn)、規(guī)則違反或不可恢復(fù)的系統(tǒng)失效。雷峰網(wǎng)

這一實(shí)驗(yàn)現(xiàn)象本身構(gòu)成了論文的第一個(gè)關(guān)鍵結(jié)論:當(dāng)前主流生成評測體系無法充分刻畫自動駕駛所需的魯棒性維度。


其次,當(dāng)論文將分析重心轉(zhuǎn)向點(diǎn)云與 Occupancy 表征相關(guān)實(shí)驗(yàn)結(jié)果時(shí),出現(xiàn)了明顯不同的趨勢?;谌S或四維空間表征的世界模型,在多個(gè)實(shí)驗(yàn)設(shè)置中表現(xiàn)出更強(qiáng)的一致性和穩(wěn)定性。


無論是在空間重建精度,還是在為規(guī)劃模塊提供狀態(tài)輸入時(shí),這類方法在多項(xiàng)公開基準(zhǔn)上都展現(xiàn)出相對更可靠的性能。這種優(yōu)勢并非來源于單一指標(biāo)的極致優(yōu)化,而是體現(xiàn)在多指標(biāo)、多任務(wù)條件下的整體穩(wěn)定性。


通過對比這些實(shí)驗(yàn)結(jié)果,論文實(shí)際上確認(rèn)了第二個(gè)重要事實(shí):魯棒性更容易從結(jié)構(gòu)化空間建模中涌現(xiàn),而非從純粹的感知級生成中涌現(xiàn)。


在規(guī)劃相關(guān)實(shí)驗(yàn)中,論文進(jìn)一步通過區(qū)分開環(huán)與閉環(huán)評測,揭示了世界模型能力評估中的一個(gè)長期混淆點(diǎn)。在開環(huán)規(guī)劃實(shí)驗(yàn)中,即僅評估模型在給定歷史條件下預(yù)測未來狀態(tài)的能力時(shí),多項(xiàng)實(shí)驗(yàn)結(jié)果顯示,世界模型在軌跡預(yù)測質(zhì)量、環(huán)境理解一致性等方面已經(jīng)接近甚至匹配部分強(qiáng)端到端系統(tǒng)。這說明,從世界演化建模的角度看,世界模型已經(jīng)具備相當(dāng)程度的表達(dá)能力。


然而,當(dāng)這些模型被嵌入閉環(huán)系統(tǒng),在真實(shí)的決策鏈條中承擔(dān)連續(xù)規(guī)劃與控制職責(zé)時(shí),它的能力邊界便開始暴露。

系統(tǒng)不同于更為理想化的開環(huán)評測,它引入了反饋機(jī)制,模型的輸出會直接影響環(huán)境狀態(tài),并作為新的輸入重新回到系統(tǒng)之中,小幅的感知與預(yù)測偏差會在這種反饋中逐步累積與放大。

例如在 Bench2Drive 等閉環(huán)測評中,只有依賴專家信息的 Think2Drive 能夠?qū)⒕C合駕駛得分提升至 92 分左右,而不使用專家信息的 Raw2Drive 得分僅為 71 分,多數(shù)使用世界模型方法的駕駛得分集中在 40-60 分之間,并伴隨成功率與碰撞率的顯著差異。

也正因如此,可以觀察到一種穩(wěn)定存在的能力斷層:在開環(huán)指標(biāo)上表現(xiàn)優(yōu)秀的模型,并不必然在閉環(huán)仿真乃至真實(shí)系統(tǒng)中展現(xiàn)出同等水平的安全性與穩(wěn)定性。

由此可見,開環(huán)和閉環(huán)系統(tǒng)并非簡單的替代關(guān)系,而應(yīng)被視作是互補(bǔ)的兩個(gè)層級,即開環(huán)主要用于驗(yàn)證表示與預(yù)測的認(rèn)知正確性,而閉環(huán)則用于檢驗(yàn)長期交互中的行為穩(wěn)健性。

或許未來的關(guān)鍵方向,不僅在于繼續(xù)提升開環(huán)的預(yù)測精度,更在于能夠構(gòu)建一個(gè)能夠有效銜接開環(huán)和閉環(huán)系統(tǒng)的訓(xùn)練體系,進(jìn)而真正支撐系統(tǒng)及魯棒性自動駕駛的實(shí)現(xiàn)。雷峰網(wǎng)

由此,論文在實(shí)驗(yàn)層面確認(rèn)了第三個(gè)關(guān)鍵結(jié)論:開環(huán)性能并不能可靠預(yù)測閉環(huán)系統(tǒng)的安全性與穩(wěn)定性。


在更高層級的實(shí)驗(yàn)歸納中,論文還總結(jié)了一系列系統(tǒng)性證據(jù),表明世界模型在某些條件下確實(shí)能夠?yàn)樽詣玉{駛系統(tǒng)帶來實(shí)質(zhì)性收益。這些證據(jù)并不集中于單一指標(biāo),而體現(xiàn)在可控生成、零樣本泛化、跨任務(wù)遷移以及人類主觀評估等多個(gè)實(shí)驗(yàn)維度上。

這些實(shí)驗(yàn)結(jié)果共同指向一個(gè)結(jié)論:當(dāng)世界模型被用于增強(qiáng)系統(tǒng)整體能力,而非單一任務(wù)性能時(shí),其價(jià)值才開始顯現(xiàn)。


非傳統(tǒng)實(shí)驗(yàn)范式的建立

理解這篇論文的實(shí)驗(yàn)過程,關(guān)鍵在于認(rèn)識到它采用的并非傳統(tǒng)意義上的“訓(xùn)練—測試”實(shí)驗(yàn)范式,而是一種跨研究工作的實(shí)驗(yàn)重構(gòu)方法。作者并沒有新增模型或數(shù)據(jù),而是通過重新組織已有實(shí)驗(yàn)結(jié)果,構(gòu)建了一套用于檢驗(yàn)研究方向本身的實(shí)驗(yàn)邏輯。

在實(shí)驗(yàn)的第一階段,作者關(guān)注的并不是模型能力,而是評測工具本身。他們系統(tǒng)梳理了自動駕駛世界模型領(lǐng)域常用的數(shù)據(jù)集、仿真平臺與評價(jià)指標(biāo),并分析這些工具在多大程度上能夠反映真實(shí)駕駛需求。通過對比不同論文的實(shí)驗(yàn)設(shè)置,作者發(fā)現(xiàn):即使研究目標(biāo)相似,不同工作之間的評測方式也往往高度異質(zhì)。這種異質(zhì)性使得實(shí)驗(yàn)結(jié)果難以直接比較,也使得“性能提升”這一結(jié)論本身變得不穩(wěn)定。

這一階段的實(shí)驗(yàn)分析實(shí)際上是在對整個(gè)領(lǐng)域的實(shí)驗(yàn)基礎(chǔ)設(shè)施進(jìn)行審視,其隱含問題是:如果評測方式本身存在系統(tǒng)性盲區(qū),那么基于這些評測得出的結(jié)論是否可靠?

在第二階段,作者將實(shí)驗(yàn)分析的重點(diǎn)從評測工具轉(zhuǎn)向系統(tǒng)行為。他們不再試圖回答“哪個(gè)模型更好”,而是試圖回答“哪些實(shí)驗(yàn)結(jié)果在系統(tǒng)層面仍然成立”。為此,論文系統(tǒng)整理了涉及可控生成、零樣本泛化和跨任務(wù)遷移的實(shí)驗(yàn)工作。這些實(shí)驗(yàn)往往難以嚴(yán)格控制變量,但正因如此,更接近真實(shí)工程環(huán)境。

通過比較這些實(shí)驗(yàn)結(jié)果,作者發(fā)現(xiàn):某些在單一任務(wù)中并不占優(yōu)的方法,在系統(tǒng)級實(shí)驗(yàn)中反而表現(xiàn)出更高的穩(wěn)定性;而一些在生成指標(biāo)上表現(xiàn)突出的模型,在系統(tǒng)集成后卻難以維持性能。這種反差本身構(gòu)成了一種實(shí)驗(yàn)發(fā)現(xiàn),迫使研究者重新思考性能評估的目標(biāo)。

至于第三階段,論文并未給出完整實(shí)驗(yàn)結(jié)果,而是明確指出當(dāng)前實(shí)驗(yàn)體系的缺失。這并非實(shí)驗(yàn)不足,而是作者基于前兩階段實(shí)驗(yàn)分析后得出的理性判斷:在缺乏統(tǒng)一任務(wù)定義、可解釋性評測和可信閉環(huán)仿真之前,任何關(guān)于“開放世界魯棒性”的結(jié)論都缺乏實(shí)驗(yàn)支撐。


重新定義「值得被驗(yàn)證」的實(shí)驗(yàn)?zāi)繕?biāo)

從實(shí)驗(yàn)意義上看,這篇論文的價(jià)值并不在于它總結(jié)了多少工作,而在于它通過實(shí)驗(yàn)性分析改變了“什么值得被實(shí)驗(yàn)驗(yàn)證”的標(biāo)準(zhǔn)。

首先,它在實(shí)驗(yàn)層面否定了一種隱含但普遍存在的假設(shè),即認(rèn)為只要生成或預(yù)測性能不斷提升,系統(tǒng)魯棒性就會自然改善。通過對大量實(shí)驗(yàn)結(jié)果的系統(tǒng)分析,論文清楚地表明,這種假設(shè)在自動駕駛場景下并不成立。魯棒性并不會自動從局部性能優(yōu)化中涌現(xiàn)。

其次,這篇論文通過實(shí)驗(yàn)拆解,強(qiáng)調(diào)了系統(tǒng)級評測的重要性。它表明,真正有意義的實(shí)驗(yàn)不應(yīng)只關(guān)注模型在孤立任務(wù)中的表現(xiàn),而應(yīng)關(guān)注模型在復(fù)雜系統(tǒng)中的行為。這一觀點(diǎn)對研究范式具有直接約束力:它要求研究者在設(shè)計(jì)實(shí)驗(yàn)時(shí),必須明確自己所驗(yàn)證的魯棒性層級。

更深層的意義在于,這篇論文將自動駕駛世界模型的研究問題,從“模型是否足夠強(qiáng)”轉(zhuǎn)變?yōu)椤皩?shí)驗(yàn)是否足夠真實(shí)”。這意味著,未來的關(guān)鍵突破不一定來自更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),而可能來自更合理的實(shí)驗(yàn)設(shè)計(jì)與評測體系。

一支把魯棒性「講透」的團(tuán)隊(duì)

賈飛陽為本文第一作者,現(xiàn)為北京交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士研究生,研究方向包括自動駕駛?cè)S目標(biāo)檢測、端到端自動駕駛以及自動駕駛世界模型等。

賈彩燕為本文通訊作者之一,現(xiàn)任北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院教授,并擔(dān)任交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室副主任。其主要研究方向包括機(jī)器學(xué)習(xí)模型(尤其是圖神經(jīng)網(wǎng)絡(luò))、虛假信息檢測、大模型生成內(nèi)容檢測與可信計(jì)算、推薦算法,以及自動駕駛場景下的多模態(tài)融合目標(biāo)檢測與大模型泛化研究等。

近年來已在國內(nèi)外學(xué)術(shù)期刊和國際會議上發(fā)表論文80余篇,主持國家自然科學(xué)基金面上項(xiàng)目兩項(xiàng)、國家自然科學(xué)基金青年基金項(xiàng)目一項(xiàng),并主持國家重點(diǎn)研發(fā)計(jì)劃“新一代人工智能”專項(xiàng)子課題一項(xiàng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我重病住院要20萬救命,爸媽借口旅游裝失聯(lián),岳母掏光養(yǎng)老錢救我

我重病住院要20萬救命,爸媽借口旅游裝失聯(lián),岳母掏光養(yǎng)老錢救我

今天說故事
2025-12-19 16:17:12
法國背叛日本,馬克龍邀中方參會,不許G7反華!有本事高市別去了

法國背叛日本,馬克龍邀中方參會,不許G7反華!有本事高市別去了

風(fēng)云人物看歷史
2026-01-10 17:03:39
數(shù)學(xué)瘋子陳景潤:47歲住6平米鍋爐房,娶29歲美女軍醫(yī),如今唯一的兒子過得怎樣?

數(shù)學(xué)瘋子陳景潤:47歲住6平米鍋爐房,娶29歲美女軍醫(yī),如今唯一的兒子過得怎樣?

源溯歷史
2026-01-07 20:42:15
一年一度的噩夢要來了!吃不完,根本吃不完!四川那個(gè)我最愛

一年一度的噩夢要來了!吃不完,根本吃不完!四川那個(gè)我最愛

有趣的火烈鳥
2026-01-10 11:28:11
戰(zhàn)場上過于疲軟,內(nèi)政上極度興奮

戰(zhàn)場上過于疲軟,內(nèi)政上極度興奮

我是歷史其實(shí)挺有趣
2025-12-13 07:44:02
港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國可乘之機(jī)

港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國可乘之機(jī)

論事的老樞
2026-01-10 15:25:10
火箭再輸開拓者,賽后4人被炮轟,球隊(duì)不交易休想奪冠

火箭再輸開拓者,賽后4人被炮轟,球隊(duì)不交易休想奪冠

鄒維體育
2026-01-10 13:56:04
我給市長寫了8年發(fā)言稿,關(guān)系戶頂了我位置,大會前稿子卻出現(xiàn)問題

我給市長寫了8年發(fā)言稿,關(guān)系戶頂了我位置,大會前稿子卻出現(xiàn)問題

張道陵秘話
2025-12-14 21:35:05
博主:上海海港給讓-克勞德開出了10倍工資

博主:上海海港給讓-克勞德開出了10倍工資

懂球帝
2026-01-09 18:20:08
老公每月給我14000,我省吃儉用轉(zhuǎn)給我爸媽10000,弟弟卻開上大奔

老公每月給我14000,我省吃儉用轉(zhuǎn)給我爸媽10000,弟弟卻開上大奔

飯小妹說歷史
2025-12-17 09:10:06
最低調(diào)普京女婿被億萬富豪當(dāng)街暴打:拒絕10億賠償,只提一個(gè)要求

最低調(diào)普京女婿被億萬富豪當(dāng)街暴打:拒絕10億賠償,只提一個(gè)要求

貳文
2024-10-31 00:30:11
梅爾頓兩場轟58分,勇士有望逃離附加賽區(qū)

梅爾頓兩場轟58分,勇士有望逃離附加賽區(qū)

阿錯田間生活
2026-01-10 14:11:37
從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

照見古今
2025-12-12 18:19:05
獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

方圓
2025-12-22 16:30:46
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

博覽歷史
2025-12-26 06:40:03
陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發(fā)好高級,又高又美!

陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發(fā)好高級,又高又美!

喜歡歷史的阿繁
2026-01-10 11:57:05
烏多卡談末節(jié)崩盤:37歲老將下場休息兩分鐘 就被打出11比0

烏多卡談末節(jié)崩盤:37歲老將下場休息兩分鐘 就被打出11比0

北青網(wǎng)-北京青年報(bào)
2026-01-10 15:35:03
2首輪+2次輪!回看阿夫迪亞交易,開拓者贏麻了?

2首輪+2次輪!回看阿夫迪亞交易,開拓者贏麻了?

籃球?qū)嶄?/span>
2026-01-09 17:41:04
86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

誰將笑到最后
2026-01-08 09:29:51
2026-01-10 17:59:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
68315文章數(shù) 656051關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

男生遭老師按地上強(qiáng)制要求剪頭發(fā) 被老師勒脖子騎身上

頭條要聞

男生遭老師按地上強(qiáng)制要求剪頭發(fā) 被老師勒脖子騎身上

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

親子
家居
健康
教育
軍事航空

親子要聞

韓國女星公開備孕全過程,面對鏡頭忍不住落淚,疼到哭也堅(jiān)持生孩

家居要聞

木色留白 演繹現(xiàn)代自由

這些新療法,讓化療不再那么痛苦

教育要聞

讓籃球“生長”在校園里:玉林中學(xué)用十年構(gòu)建體教融合新生態(tài)

軍事要聞

海空英雄高翔逝世 曾駕駛殲-6打爆美軍機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版