ColaVLA：自動駕駛大模型，不一定非要把「思考過程」寫成文字

2026-04-03 12:48:20　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

過去兩年，自動駕駛和大模型的結(jié)合越來越熱。一個很自然的方向是：既然視覺語言模型已經(jīng)具備很強(qiáng)的場景理解和推理能力，那能不能讓它像人類司機(jī)一樣，先理解環(huán)境、再做判斷、最后輸出軌跡？

這條路線聽起來很合理，但真正落到自動駕駛上，很快就會遇到一個問題：很多方法雖然引入了大模型，卻仍然把「推理」做成了文本鏈?zhǔn)酵评?。也就是說，模型要先生成中間解釋，再把這些解釋一步步轉(zhuǎn)成動作或軌跡。這樣做的優(yōu)點(diǎn)是看起來「更會思考」，但代價也非常明顯：文本是離散 token，而軌跡是連續(xù)控制；文本推理還依賴自回歸解碼，速度慢、鏈路長，不太適合實(shí)時駕駛。

來自清華大學(xué)與香港中文大學(xué) MMLab 的研究團(tuán)隊(duì)提出了全新的隱空間推理與層次化軌跡規(guī)劃的 VLA 框架 --ColaVLA，論文已經(jīng)被 CVPR2026 主會接收。

論文標(biāo)題：ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
論文鏈接： https://arxiv.org/abs/2512.22939
代碼鏈接： https://github.com/pqh22/ColaVLA

這篇論文給出的答案很直接：自動駕駛中的推理，不一定要寫成文字。

與其讓模型「邊說邊想」，不如讓它在統(tǒng)一潛空間里完成推理，再把結(jié)果直接交給動作規(guī)劃器。這樣既能保留 VLM 的語義先驗(yàn)和知識能力，又能繞開顯式文本生成帶來的延遲和表示錯位。

整篇論文最重要的貢獻(xiàn)，其實(shí)可以概括成兩句話：第一，把推理從文本空間搬到潛空間；第二，把軌跡生成從串行過程改成分層并行過程。

一、核心思路：先「想清楚」，再「開出來」

ColaVLA 的整體框架由兩個核心部分組成：

Cognitive Latent Reasoner：負(fù)責(zé)完成高層駕駛認(rèn)知
Hierarchical Parallel Planner：負(fù)責(zé)把高層策略展開成連續(xù)軌跡

作者的目標(biāo)不是簡單把一個大模型接到規(guī)劃器前面，而是重新定義「推理」和「動作」之間的接口，讓二者真正對齊。

先看前半部分，也就是潛空間推理器。作者把它設(shè)計(jì)成一個很像人類司機(jī)的四步過程：

Understand
Recognize
Rethink
Decide

這四步看上去很直觀，但真正巧妙的地方在于，它們都不是通過自然語言完成的，而是在統(tǒng)一潛空間中隱式完成。

第一步 Understand，是先整體看懂場景。模型會把多視角視覺信息、固定駕駛提示和 ego 車狀態(tài)一起送入共享 VLM，先建立一個全局場景理解，而不是一上來就直接回歸軌跡。

第二步 Recognize，是從大量視覺信息里篩出真正和當(dāng)前駕駛動作相關(guān)的關(guān)鍵實(shí)體。這里論文設(shè)計(jì)了一個 ego-adaptive router，根據(jù)當(dāng)前自車狀態(tài)動態(tài)選擇最重要的視覺 token，保留的通常是車道、鄰近車輛、行人、交通燈這些安全關(guān)鍵線索，而不是無差別地處理整張圖。

第三步 Rethink，則是在壓縮后的關(guān)鍵信息上再做一次 “復(fù)核式推理”，并借助一組可學(xué)習(xí)的 meta-query 來表示不同高層駕駛策略。

最后一步 Decide，輸出的也不是一句解釋文本，而是一組面向動作生成的高層駕駛先驗(yàn)。這樣一來，模型就不再需要把推理結(jié)果先翻譯成自然語言，再從語言翻譯回動作空間，而是直接完成從認(rèn)知到策略的內(nèi)部閉合。

二、真正落到動作層面，它的規(guī)劃器為什么更合理？

很多自動駕駛方法的問題，不只是上游推理方式不合適，下游軌跡生成方式也未必真正符合駕駛動作的結(jié)構(gòu)。有些方法一次性直接回歸整條軌跡，雖然簡單，但缺少層次；有些方法依賴復(fù)雜生成過程，雖然表達(dá)能力強(qiáng)，但效率和部署穩(wěn)定性不一定理想。

ColaVLA 這里的思路很清晰：駕駛軌跡本來就是分層的，所以生成過程也應(yīng)該分層。

論文提出的Hierarchical Parallel Planner有三個關(guān)鍵詞：

先粗后細(xì)
保持因果
并行解碼

它不是把未來軌跡當(dāng)作一個扁平輸出，而是先確定粗粒度意圖，再逐步補(bǔ)足中間細(xì)節(jié)。這更像真實(shí)駕駛員的決策方式：先想清楚「往哪去」，再決定「具體怎么走」。

同時，作者還設(shè)計(jì)了一個 causality-preserving 的注意力機(jī)制，保證不同尺度之間的信息流是從粗到細(xì)、逐層細(xì)化的，而不是相互泄漏。這樣一來，多尺度結(jié)構(gòu)就不只是形式上的分解，而是真正具有因果約束的軌跡生成過程。

更重要的是，這個 planner 可以在單次前向傳播中并行完成多尺度、多模式軌跡解碼，不用再像文本 CoT 那樣一步一步串行生成。

三、實(shí)驗(yàn)結(jié)果說明了什么？

從結(jié)果上看，ColaVLA 最打動人的地方，不只是「指標(biāo)更高」，而是它同時兼顧了精度、安全和效率。

1. Open-loop：不只是預(yù)測更準(zhǔn)，而且更安全

在 nuScenes 的開環(huán)評測中，ColaVLA 在動作類方法里取得了最優(yōu)綜合表現(xiàn)，平均 L2 誤差為0.30 m，平均碰撞率為0.23%。相比強(qiáng)基線 SOLVE-E2E，L2 進(jìn)一步下降，碰撞率也明顯降低。

這說明它輸出的軌跡并不只是數(shù)值上更接近真值，而是在安全性層面也更優(yōu)。

2. Closed-loop：真正體現(xiàn)方法價值的部分

在更關(guān)鍵的閉環(huán)評測 NeuroNCAP 中，ColaVLA 的平均得分達(dá)到3.48，平均碰撞率降到36.8%，明顯優(yōu)于多種前序方法。

論文特別指出，相比依賴文本推理、并使用額外數(shù)據(jù)的 ImpromptuVLA，ColaVLA 在不顯式生成文本思維鏈的情況下，依然取得了更好的閉環(huán)表現(xiàn)。

這個結(jié)果很有說服力，因?yàn)樗f明：對自動駕駛來說，更長、更復(fù)雜的文字推理鏈，并不一定能帶來更好的真實(shí)駕駛行為；真正關(guān)鍵的，還是內(nèi)部決策表征是否適合動作生成，以及規(guī)劃器是否具有合理的因果結(jié)構(gòu)。

3. 推理效率：它把「落地可能性」往前推了一步

效率上，ColaVLA 也給出了非常亮眼的結(jié)果。在扎實(shí)的工程優(yōu)化后，它的在 H200 上的端到端推理延遲為228 ms/frame，而對比的文本式方法整體快了5 倍到 10 倍左右。

這意味著，把推理從文本搬到潛空間，并不只是概念上更優(yōu)雅，而是真的換來了實(shí)打?qū)嵉乃俣仁找妗τ趶?qiáng)調(diào)閉環(huán)和實(shí)時性的自動駕駛來說，這一點(diǎn)尤其關(guān)鍵。

四、消融實(shí)驗(yàn)最值得記住的幾點(diǎn)

這篇論文的消融實(shí)驗(yàn)也比較完整，但最值得記住的其實(shí)只有四點(diǎn)。

第一，潛空間推理本身確實(shí)有效。只要加入 latent reasoning，模型的軌跡誤差就會下降；再加入 rethink 階段，效果還會進(jìn)一步提升。這說明「先抓關(guān)鍵、再做復(fù)核」的認(rèn)知鏈條不是敘事包裝，而是真正有助于決策質(zhì)量。

第二，分層并行規(guī)劃器本身也很重要。即便把 reasoning 模塊去掉，作者的 planner 在閉環(huán)上依然明顯優(yōu)于普通 MLP 頭和 diffusion 頭，說明它確實(shí)更符合真實(shí)駕駛動作的生成邏輯。

第三，關(guān)鍵 token 不是越多越好，而是平衡最好最重要。保留太少會丟信息，保留太多又會引入冗余，論文最終選擇了一個在表達(dá)能力和效率之間更均衡的配置。

第四，最優(yōu)的軌跡生成方式不是一次性回歸整條軌跡，而是先確定關(guān)鍵點(diǎn)，再逐層補(bǔ)齊中間細(xì)節(jié)，這和駕駛動作本身的因果結(jié)構(gòu)是對得上的。

五、這篇論文真正有價值的地方是什么？

如果只把 ColaVLA 看成「又一個自動駕駛模型」，其實(shí)低估了它。

我覺得這篇工作的更大意義在于，它提出了一個非常明確的判斷：

自動駕駛中的推理，不一定需要顯式寫成文字。

過去很多工作默認(rèn)認(rèn)為，大模型的優(yōu)勢來自「會解釋」「會說話」「能輸出思維鏈」。但 ColaVLA 給出的答案是：在自動駕駛這種連續(xù)控制任務(wù)里，更重要的也許不是「讓模型把思考說出來」，而是「讓模型在內(nèi)部真正想清楚，并用更適合動作生成的方式表達(dá)出來」。

從這個角度看，它代表的是一種很值得重視的范式變化：

從text reasoning轉(zhuǎn)向latent reasoning
從sequential decoding轉(zhuǎn)向parallel decoding
從「展示推理過程」轉(zhuǎn)向「兼顧安全、效率和閉環(huán)表現(xiàn)」

論文最后的結(jié)論也很清楚：把推理從文本遷移到潛空間，為自動駕駛中的知識驅(qū)動決策提供了一條更可擴(kuò)展、也更現(xiàn)實(shí)的路徑。

六、總結(jié)

如果要用一句話總結(jié) ColaVLA，我會這樣說：

它不是讓自動駕駛大模型「更會說」，而是讓它「更會在內(nèi)部想清楚，再更快地開出來」。

這篇論文最核心的貢獻(xiàn)，不只是提出了一個新模塊，也不只是刷新了幾項(xiàng)指標(biāo)，而是它證明了下面幾件事：

自動駕駛里的推理，可以不依賴顯式文本思維鏈；
潛空間推理同樣可以保留高層駕駛決策能力；
分層并行、因果一致的規(guī)劃器，更適合真實(shí)駕駛動作生成；
當(dāng)推理形式和動作生成真正對齊時，系統(tǒng)才能同時獲得更好的安全性、效率和閉環(huán)表現(xiàn)。

對于后續(xù)自動駕駛大模型的發(fā)展來說，這篇工作很可能代表著一個很值得繼續(xù)深入的方向：

不是把大模型硬塞進(jìn)自動駕駛，而是重新設(shè)計(jì)一種真正適合自動駕駛的大模型推理方式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.