看得清還不夠，汽車開始“理解”世界

2026-02-14 10:22:07　來源: 蓋世汽車

上海舉報

分享至

過去十年，智能駕駛的發(fā)展始終圍繞“感知”展開。車內(nèi)攝像頭分辨率不斷提高，激光雷達數(shù)量持續(xù)增加，算法對目標的識別精度被反復推高到接近極限。但現(xiàn)實已經(jīng)反復驗證：看得更清楚，并不能等同于駕駛更安全。

真正制約高階輔助駕駛能力上限的，并非單點感知精度，而是系統(tǒng)是否具備對真實世界進行整體理解與推演的能力。

進入 2025 年，一個清晰的變化正在行業(yè)內(nèi)部顯現(xiàn)：視覺系統(tǒng)不再只是感知鏈路中的前端模塊，而是開始承載更高層級的認知任務，逐步成為世界模型、端到端決策與推理能力連接現(xiàn)實世界的關鍵入口。這一變化，正在重塑智能駕駛的技術底座。

圖片來源： notateslaap

拐點初現(xiàn)：視覺系統(tǒng)從“感知輸入”走向“認知基礎”

在傳統(tǒng)自動駕駛架構中，視覺系統(tǒng)承擔的角色相對清晰：采集圖像、完成目標檢測與語義分割，然后將結(jié)構化結(jié)果交給后續(xù)模塊。整個系統(tǒng)強調(diào)模塊解耦，感知、預測、規(guī)劃各自獨立優(yōu)化。這種模式在 L2 階段行之有效，卻在更復雜的城市場景中逐漸顯露出瓶頸。

問題并不在于“是否看得清”，而在于系統(tǒng)是否始終看得見。在雨霧、強逆光、夜間或復雜氣候條件下，傳統(tǒng)視覺、雷達和激光雷達各自存在失效區(qū)間，感知的不連續(xù)性，直接限制了系統(tǒng)對現(xiàn)實世界狀態(tài)的穩(wěn)定理解。

也正是在這一背景下，新的視覺感知形態(tài)開始進入智能駕駛體系。

Teradar在CES 2026上發(fā)布的太赫茲視覺傳感器Summit，正是這一趨勢的縮影。太赫茲波段位于雷達與激光雷達之間，兼具較高分辨率與全天候穿透能力，使車輛在霧、雨、雪和強眩光條件下仍能獲取穩(wěn)定的環(huán)境信息。

圖片來源： Terada

從工程基礎看，這種升級并非偶然。2024–2025年，多攝像頭方案成為主流，8顆甚至更多攝像頭進入量產(chǎn)車型；高帶寬傳輸方案（如基于GMSL2的多攝像頭系統(tǒng)）與更精確的時序同步能力，使跨視角、跨時間的特征融合成為現(xiàn)實。視覺數(shù)據(jù)不再是孤立幀圖像，而是構成一個高頻、全域、時間一致的連續(xù)信息流。

真正的變化發(fā)生在模型層面。

隨著端到端架構成為行業(yè)共識，感知、預測、規(guī)劃不再通過規(guī)則化接口串聯(lián)，而是在統(tǒng)一網(wǎng)絡中協(xié)同優(yōu)化。在這種結(jié)構下，視覺不再只是“提供目標框”，而是直接參與環(huán)境狀態(tài)的隱空間建模。模型從圖像中學習到的不只是物體類別，而是空間幾何關系、動態(tài)演化趨勢以及行為先驗。

換句話說，視覺正在承擔三項新的“認知職責”：

第一，是構建連續(xù)空間表達。通過多視角融合與BEV建模，視覺輸出的不再是離散檢測結(jié)果，而是統(tǒng)一的三維場景表示，為后續(xù)預測提供穩(wěn)定基礎。

第二，是提供時間一致的狀態(tài)演化信息。時序建模讓系統(tǒng)能夠理解“變化趨勢”，而不僅是當前畫面。視覺開始成為時間建模的核心信號源。

第三，是參與隱式行為理解。在大模型與世界模型框架下，視覺特征被映射到高維語義空間，成為推理與反事實預測的輸入。這意味著視覺不僅回答“這里有什么”，還參與回答“接下來可能發(fā)生什么”。

至此，視覺系統(tǒng)完成了角色轉(zhuǎn)變。

它不再是傳感器層的輸入模塊，而成為認知體系的現(xiàn)實錨點——世界模型與端到端決策之所以能夠成立，是因為視覺提供了穩(wěn)定、連續(xù)、可泛化的環(huán)境表達。模型的“理解能力”并非憑空產(chǎn)生，而是建立在視覺連續(xù)性和信息密度之上。

這一拐點的真正含義在于：當視覺具備跨場景穩(wěn)定性、跨時間連續(xù)性以及高維語義表達能力時，它不再只是看見世界，而是成為系統(tǒng)理解世界的起點。

從感知連續(xù)性到行為推演：世界模型如何補上“下一步”的空缺

當視覺系統(tǒng)完成從“感知輸入”到“認知基礎”的轉(zhuǎn)變后，一個更核心的問題隨之浮現(xiàn)：如果系統(tǒng)已經(jīng)能夠穩(wěn)定、連續(xù)地理解環(huán)境狀態(tài)，那么它是否具備推演環(huán)境演化的能力？

這正是世界模型登場的邏輯起點。

如果說端到端解決的是系統(tǒng)結(jié)構問題，那么世界模型要解決的，則是智能駕駛長期存在的“預測盲區(qū)”。

在真實道路中，許多風險并非來自目標識別錯誤，而是源于系統(tǒng)無法合理判斷環(huán)境的演化趨勢。例如，系統(tǒng)可以識別行人，卻難以判斷其是否即將橫穿馬路；可以識別前車，卻難以預測其是否會突然變道。這類問題，本質(zhì)上源于對世界狀態(tài)缺乏連續(xù)、可推演的內(nèi)部表達。

傳統(tǒng)規(guī)則驅(qū)動或模塊化的系統(tǒng)，本質(zhì)上依賴人工設計的邏輯與先驗假設。一旦場景超出預設邊界，系統(tǒng)便難以應對。而世界模型的核心是通過對真實世界的高維建模，使系統(tǒng)具備理解、預測與內(nèi)部模擬能力，從而在決策前“先在腦中跑一遍未來”。

從技術角度看，世界模型至少具備三層價值。

首先是時間連續(xù)性建模。真實世界并非離散幀的拼接，而是連續(xù)演化的系統(tǒng)。世界模型強調(diào)在時間維度上保持狀態(tài)一致性，使車輛能夠理解行為趨勢，而不僅理解當前狀態(tài)。

更進一步的是因果推理能力。世界模型不再簡單回答“這是什么”，而是嘗試回答“如果我這樣做，會發(fā)生什么”。這種反事實推演能力，是復雜城市場景中實現(xiàn)類人決策的關鍵。

最終是可訓練性與數(shù)據(jù)閉環(huán)。世界模型可以在云端仿真環(huán)境中訓練，通過大規(guī)模合成數(shù)據(jù)彌補真實世界長尾場景不足，再將能力蒸餾至車端執(zhí)行。這一點，直接影響高階輔助駕駛的工程可行性。

正因如此，世界模型不再停留在學術概念層面，而是開始成為主機廠和頭部智駕供應商的重點投入方向。

Nextbase在CES 2026上發(fā)布的InSight全球街景視覺平臺，提供了一種不同于傳統(tǒng)“單車采集”的路徑。通過覆蓋數(shù)十億英里道路的行車記錄儀網(wǎng)絡，平臺能夠持續(xù)生成低延遲、匿名化、帶有精確時空標注的真實世界影像。這些數(shù)據(jù)并非用于即時駕駛決策，而是用于構建更接近真實道路運行狀態(tài)的世界模型，為系統(tǒng)理解“世界如何變化”提供長期、規(guī)?；臉颖?。

圖片來源： Nextbase

這種從群體視角獲取世界數(shù)據(jù)的方式，使世界模型不再局限于單一車輛的感知閉環(huán)，而開始具備更宏觀的環(huán)境理解能力。對世界模型而言，這類高保真、強時間關聯(lián)的數(shù)據(jù)，正是進行行為推演和因果學習的關鍵資源。

端到端、VLA與世界模型的融合演進

如果說世界模型解決的是“系統(tǒng)如何理解未來”，那么一個更現(xiàn)實的問題是——今天的量產(chǎn)體系，是建立在什么基礎之上？

答案已經(jīng)很清晰：端到端。

端到端自動駕駛（End-to-End Autonomous Driving, E2E）并不只是“單一神經(jīng)網(wǎng)絡”的技術概念，而是一整套圍繞數(shù)據(jù)驅(qū)動構建的工程體系。它將多傳感器輸入（攝像頭、毫米波雷達、激光雷達、定位信息與車輛狀態(tài)）到駕駛輸出（軌跡規(guī)劃、轉(zhuǎn)向/加速/制動控制）的全流程，納入統(tǒng)一訓練框架，并通過“數(shù)據(jù)閉環(huán) + 持續(xù)訓練迭代 + 回歸驗證 + OTA升級交付”的機制替代傳統(tǒng)模塊化規(guī)則開發(fā)。

從產(chǎn)業(yè)實踐來看，端到端已經(jīng)成為當前智能駕駛的“地基”。根據(jù)某行業(yè)調(diào)研數(shù)據(jù)顯示，全球端到端自動駕駛市場未來幾年將保持19.0%的年復合增長率（CAGR）。

這一數(shù)據(jù)背后有一個更關鍵的信號：端到端正在從“技術探索”轉(zhuǎn)向“規(guī)模化商業(yè)體系”。

在應用層面，乘用車量產(chǎn)搭載頁已成為核心場景。根據(jù)蓋世汽車研究院的數(shù)據(jù)，截至2025年11月，國內(nèi)乘用車L2及以上輔助駕駛滲透率已達64%，高速NOA滲透率29%，城市NOA也達到 8.5%。端到端架構的加速上車，是這一進展的重要推動力。

也就是說，今天絕大多數(shù)高階輔助駕駛系統(tǒng)，已經(jīng)運行在端到端體系之上。

但問題隨之出現(xiàn)。

端到端解決的是結(jié)構問題——減少模塊邊界損耗、壓縮延遲、提升泛化能力。但它并未天然解決“理解世界”的深層挑戰(zhàn)。尤其在低頻極端場景、復雜博弈行為和長尾分布下，純端到端模型仍面臨數(shù)據(jù)稀缺與推理能力受限的問題。

這正是VLA與世界模型開始進入體系內(nèi)部的原因。

VLA通過引入語言模態(tài)，將視覺信息轉(zhuǎn)化為可推理的語言token，使系統(tǒng)具備一定的解釋和推演能力；而世界模型則更強調(diào)對物理與行為規(guī)律的整體建模，側(cè)重“理解世界如何運轉(zhuǎn)”。從當前趨勢看，這兩種路線并非對立，而是互補。

主機廠的選擇已體現(xiàn)出這一融合趨勢。蓋世汽車觀察得出，新勢力中，理想、小鵬更偏向VLA路線，蔚來則押注世界模型；傳統(tǒng)車企則多通過供應商實現(xiàn)端到端量產(chǎn)，并同步預研世界模型能力，例如華為的WEWA世界行為模型、Momenta 的強化學習大模型、卓馭的世界模型端到端方案等。

這些路徑差異，并不代表技術路線分歧，而更多反映了各家在數(shù)據(jù)形態(tài)、算力布局和工程節(jié)奏上的不同選擇。

可以預見，未來高階智駕系統(tǒng)并不會在“端到端、VLA或世界模型”中三選一，而是以端到端為基底，融合語言推理與世界建模能力，形成統(tǒng)一的認知系統(tǒng)。

現(xiàn)實約束與落地路徑：視覺世界模型如何“先上車”

需要明確的是，世界模型并不會以“完整形態(tài)”一步到位登上量產(chǎn)車。算力成本、數(shù)據(jù)分布偏差、功能安全與法規(guī)驗證，仍然是必須跨越的現(xiàn)實門檻。

從算力趨勢看，隨著大模型能力上車，車端計算平臺正向500 TOPS乃至千TOPS演進，云端算力規(guī)模也同步擴張。這意味著，世界模型在短期內(nèi)更可能以增強模塊的形式存在，而非完全替代現(xiàn)有系統(tǒng)。

在落地路徑上，更可行的方式是先在云端完成世界模型訓練與驗證，通過仿真補齊長尾場景能力，再將核心能力蒸餾至車端，用于提升預測、規(guī)劃或異常處理能力。這種“云端理解 + 車端執(zhí)行”的模式，正在成為行業(yè)共識。

從功能層級看，世界模型最先服務的并非L4，而是L2+/L3階段的安全冗余與體驗提升。它解決的不是“自動駕駛是否可用”，而是“在復雜、不確定環(huán)境中，自動駕駛系統(tǒng)是否更穩(wěn)健”。

總的來看，世界模型并非一項孤立技術，而是視覺系統(tǒng)、端到端架構與大模型能力共同演進的結(jié)果。它的成熟，將決定智能駕駛能否真正跨過“規(guī)則邊界”，邁向更接近人類的決策方式。

如果說過去十年自動駕駛比拼側(cè)重于“看見世界”，那么接下來，競賽的核心將是——如何讓自動駕駛系統(tǒng)更懂這個世界。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.