網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

理想GTC亮出新基礎(chǔ)模型！李想發(fā)文解讀，破解VLA三大痛點

2026-03-19 17:27:13　來源: 車東西

北京舉報

分享至

作者｜張睿
編輯｜志豪

理想汽車發(fā)布新自動駕駛基礎(chǔ)模型，李想與基座模型一把手出面詳解。

車東西3月18日消息，今日，理想汽車CEO李想與理想汽車基座模型負責人詹錕交流了理想汽車發(fā)布的新基礎(chǔ)模型。

▲李想（圖左）與詹錕（圖右）

理想汽車在NVIDIA GTC 2026上發(fā)布的理想汽車下一代自動駕駛基礎(chǔ)模型MindVLA-o1，而根據(jù)詹錕的介紹，MindVLA-o1以原生多模態(tài)MoETransformer為核心，通過五大技術(shù)——3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強化學習（Closed-loop RL）和軟硬件協(xié)同設(shè)計（Hardware–Software Co-Design），讓自動駕駛看得更遠、想得更深、行得更穩(wěn)、進化更快、部署更高效。

▲MindVLA-o1基礎(chǔ)模型

而李想問詹錕，理想自研的馬赫M100芯片能不能“扛得住”最新的模型，詹錕則透露道馬赫M100芯片的性能很強，在標準的矩陣層計算任務(wù)上比上一代芯片強三倍，同時詹錕覺得到今年年中新模型就將具備一定的思維鏈能力。

▲理想汽車基座模型負責人詹錕

同時根據(jù)詹錕的說法，MindVLA-o1基礎(chǔ)模型正在向具身智能通用模型進化，他表示：“當我們把視覺、語言和行動統(tǒng)一到一個模型中時，它已不再只是自動駕駛模型，而是在逐漸演化為面向物理世界的通用智能體?；谕惶譜LA模型，不僅可以控制車輛，也能夠擴展到機器人。因此，自動駕駛只是物理AI的起點，未來這類基礎(chǔ)模型將驅(qū)動新的具身智能范式?！?/p>

李想本人也在社交媒體上發(fā)文，進一步解讀了MindVLA-o1。

▲李想在社交媒體上發(fā)文

李想在視頻中還提到了對于AI的看法，他認為AI對所有人都是一個杠桿，必須主動擁抱。

對一家公司而言，如果所在領(lǐng)域里，AI無法創(chuàng)造新需求，往往只能用AI替代人力、降低成本。

但是對于理想汽車這樣的企業(yè)，李想表示，理想目前布局了汽車、機器人、芯片等領(lǐng)域，目前年收入1000多億，而全球汽車行業(yè)規(guī)模超過10萬億，機器人、算力、下一代終端等領(lǐng)域加起來也是幾十萬億的市場。

因此，理想汽車思考的不是用AI去替代人，而是把AI這個杠桿用起來，用今天的三萬多員工，做到1萬億的收入。

一、VLA方案存在三大挑戰(zhàn)效率仍不夠理想

自2021年啟動輔助駕駛自研以來，理想輔助駕駛技術(shù)架構(gòu)經(jīng)歷了多輪迭代，2025年理想汽車推出了VLA司機大模型，并于8月隨理想i8交付正式推送，9月向AD Max用戶全量推送。

而詹錕表示，當進一步觀察當前業(yè)界VLA方案時，理想汽車發(fā)現(xiàn)VLA方案仍然存在三個非常關(guān)鍵的挑戰(zhàn)：

1、3D空間語言思考和行為之間存在對齊效率不夠理想。

詹錕提到在自動駕駛系統(tǒng)中，模型需要同時完成三件事情，理解3D空間、進行語義層面的思考和推理、輸出具體的駕駛行為軌跡，如何讓這三個過程在同一個隱空間中高效對齊是非常困難的事情。

如果對齊的不夠好，就會出現(xiàn)兩類問題。第一是語義理解和行為出現(xiàn)了偏差，模型能夠理解場景，但最后生成的軌跡并不符合預(yù)期。

第二是決策延遲，視覺語言行動之間的傳遞鏈路過長，導致反應(yīng)速度下降。

詹錕舉了一個例子，當車輛前方出現(xiàn)了一個行駛較慢的車時，系統(tǒng)不僅需要理解這個場景，還要快速推理，是要立即變道還是持續(xù)跟隨，而且變道的時候速度應(yīng)該如何控制。

如果空間理解、語言推理和行為決策對齊效率不夠高，最后的生成的軌跡可能就并不是最優(yōu)，因此需要提升3D空間理解能力，讓語義和行為之間對齊精度和整體推理效率進一步提升。

2、長尾場景問題。

詹錕表示，在自動駕駛中很多關(guān)鍵問題都來自極少發(fā)生的長尾場景，僅僅依靠真實數(shù)據(jù)的規(guī)模擴展很難覆蓋這些場景。

比如山區(qū)道路的突發(fā)落石、高速上的小動物竄出，這些場景在真實數(shù)據(jù)中占比較低，但卻是用戶實際駕駛中可能遇到的風險點。

理想汽車發(fā)現(xiàn)必須需要結(jié)合合成數(shù)據(jù)與強化學習，在架構(gòu)設(shè)計初就必須考慮好強化學習的范式特點，通過仿真環(huán)境進行大規(guī)模的訓練，才能讓系統(tǒng)真正具備泛化能力和魯棒性。

3、計算效率和系統(tǒng)成本。

詹錕表示，VLA模型往往包含大規(guī)模的語言能力，這會帶來非常高的計算和內(nèi)存開銷。

這會帶來兩方面的問題，一方面如果遇到算力不足的情況，可能影響輔助駕駛使用體驗；另一方面，高計算開銷也會推高車企的硬件成本，要么導致車型定價上漲，要么壓縮其他配置的成本，最終影響用戶購車決策。

在車端系統(tǒng)中，如何在有限的計算資源下運行VLA，詹錕認為這是非?，F(xiàn)實的問題，未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計，通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力，才能讓VLA真正在車端規(guī)?；穆涞亍?/p>

▲詹錕提出的VLA方案三大挑戰(zhàn)

二、基于五大技術(shù) 多方面提升自動駕駛性能

為了解決上文提到的三大問題，理想汽車提出了下一代自動駕駛基礎(chǔ)模型MindVLA-o1。具體來看，理想汽車自動駕駛基礎(chǔ)模型MindVLA-o1有以下五大技術(shù)要點：

1、具備3D空間理解能力，使模型看得更遠。

在感知層面，理想汽車采用以視覺為核心的3D ViT Encoder（3D視覺模型編碼器），用于對真實世界三維結(jié)構(gòu)進行直接建模。詹錕介紹到，3D ViT Encoder并不是簡單的將2D圖像和3D信息進行拼接，而是在編碼階段直接構(gòu)建3D的空間表示，使得模型能夠更加自然的理解真實的物理世界的空間結(jié)構(gòu)。

▲3D空間理解技術(shù)

在訓練過程中，理想汽車同時利用視覺和雷達的數(shù)據(jù)，雷達提供了準確的三維幾何信息，視覺提供了豐富的語義信息，通過自監(jiān)督訓練，模型可以在同一個表示空間中同時學習幾何結(jié)構(gòu)和語義信息。

為了進一步提升對環(huán)境的理解，理想汽車在訓練中引入前饋式3DGS表示（Feedforward 3D Representation），將場景拆分為靜態(tài)環(huán)境與動態(tài)物體分別建模，靜態(tài)環(huán)境用穩(wěn)定的3DGS進行建模，動態(tài)環(huán)境單獨建模運動狀態(tài)。

在訓練過程中，通過下一幀預(yù)測（Next-state prediction）作為自監(jiān)督信號，使模型同時學習深度信息、語義結(jié)構(gòu)與物體運動，最終形成融合了空間結(jié)構(gòu)時間的上下文信息，并將大規(guī)模的自監(jiān)督預(yù)訓練進行特征提取，因此不僅能夠描述當前場景，還能夠為后面的決策模型提供高質(zhì)量的3D視覺表征。

總結(jié)來看，3D空間理解能力核心目的是縮短決策的時間，讓輔助駕駛在緊急場景反應(yīng)更快，或者在跟車之類的場景減少頓挫等問題。

2、擁有多模態(tài)思考能力，讓模型想得更深。

在語言模型承擔語義理解、常識知識和交互能力的基礎(chǔ)上，理想汽車引入了預(yù)測式隱世界模型，核心思想是讓模型在預(yù)空間中模擬未來。

▲多模態(tài)思考能力

如果直接生成未來真實的圖像，計算成本會非常高，因此理想汽車選擇在Latent World中進行預(yù)測。首先把當前的視覺輸入編碼成一組Latent World Token，作為當前場景的一個緊湊的表征。然后World Model會基于token預(yù)測未來的Latent的狀態(tài)，通過這種方式，模型可以在隱空間中高效的模擬未來場景的演化過程。

在訓練上則分為三個階段：第一，用海量視頻數(shù)據(jù)預(yù)訓練Latent World Token（隱世界詞元），構(gòu)建未來表征；第二，在MindVLA-o1中持續(xù)世界模型的推演，形成隱空間的未來推理能力；第三，將世界模型、多模態(tài)推理能力及駕駛行為進行聯(lián)合訓練與對齊。

由此，模型可以對未來的環(huán)境狀態(tài)進行預(yù)測，不僅僅能理解當前環(huán)境，還能在隱空間中模擬未來發(fā)生的可能情況。這個能力對于自動駕駛的決策非常關(guān)鍵，理想汽車稱之為多模態(tài)思考（Generative Multimodal Thinking）。

總的來看，多模態(tài)思考能力讓模型能預(yù)判下一步應(yīng)該做什么，來提前規(guī)劃應(yīng)對策略，用戶的體驗自然就更加流暢舒適。

3、形成統(tǒng)一行為生成機制，使模型行得更穩(wěn)。

在行為層面，理想汽車構(gòu)建了統(tǒng)一行為生成（Unified Action Generation）機制。

▲統(tǒng)一行為生成

首先，MindVLA-o1使用VLA-MoE（混合專家模型）架構(gòu)，并引入專門的Action Expert（動作專家），從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息，并結(jié)合多模態(tài)思考生成高精度駕駛軌跡。

其次，為滿足實時性要求，系統(tǒng)采用并行解碼（Parallel Decoding），同時生成所有軌跡點，大幅提升效率。

最后，引入Discrete Diffusion（離散擴散）進行多輪迭代優(yōu)化，類似逐步去噪，確保軌跡空間連續(xù)、時間穩(wěn)定，并符合車輛動力學約束。

這套軌跡生成的機制可以總結(jié)為三個點：MOE保證了生成的專業(yè)性、Parallel保證了生成的速度、Diffusion保證了生成的軌跡精度。

從具體效果來看，統(tǒng)一行為生成機制讓輔助駕駛更“老司機”，可以減少急打方向或急加減速等操作，提升了駕駛的流暢性與乘客的乘坐體驗，同時也降低了車輛的能耗與制動損耗。

4、在閉環(huán)強化學習框架下，模型實現(xiàn)更快進化。

在模型迭代層面，理想汽車構(gòu)建了閉環(huán)強化學習框架，讓模型不僅能從真實數(shù)據(jù)學習，還能在世界模擬器（World Simulator）中持續(xù)探索和優(yōu)化策略，系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略，根據(jù)反饋進行策略更新。

▲閉環(huán)強化學習

其中幾個關(guān)鍵的組成部分，首先是要確定探索的數(shù)據(jù)集，理想汽車通常采用人類接管的困難數(shù)據(jù)集作為探索。其次，要具備一個很好的反饋模型，確認給模型正確的反饋。最后，需要構(gòu)建良好的世界模引擎來探索不同的場景。

而在整個強化學習框架中，World Simulator的能力實際上直接決定了強化學習的上限。

為此，理想汽車將逐步優(yōu)化式重建為Feed-forward（前饋）場景重建，使系統(tǒng)能夠瞬時生成大規(guī)模、高保真駕駛場景，支持大規(guī)模并行訓練。

同時，結(jié)合生成式模型（Generative Models），模擬環(huán)境可擴展、編輯并生成全新場景。為支持大規(guī)模模擬與訓練，理想汽車開發(fā)了統(tǒng)一的3D Gaussian Splatting（3D高斯?jié)姙R）渲染引擎和分布式訓練框架，渲染速度提升近2倍，整體訓練成本降低約75%。

只有在這種效率的提升的情況下，才能真正進行大規(guī)模的3DGS分布式的訓練，實現(xiàn)真正的低成本高效率的強化學習閉環(huán)。

總的來看，閉環(huán)強化學習能快速生成各類真實場景與長尾場景，讓模型在虛擬環(huán)境中反復(fù)訓練、試錯，無需等待真實道路數(shù)據(jù)采集，縮短模型迭代周期，也就是可以讓用戶更快的用上新版本。

5、在軟硬件協(xié)同設(shè)計定律下，模型部署更高效。

為解決傳統(tǒng)端側(cè)大模型部署耗時長、調(diào)試頻繁的問題，理想汽車面向端側(cè)大模型的軟硬件協(xié)同設(shè)計定律，將模型結(jié)構(gòu)與驗證損失建模，并結(jié)合Roofline模型刻畫硬件計算能力與內(nèi)存帶寬限制，在模型性能與硬件約束之間建立統(tǒng)一的分析框架。

▲軟硬件協(xié)同設(shè)計

理想汽車基座模型團隊評估了近2000種模型架構(gòu)配置，在英偉達Orin與Thor平臺上完成驗證，找到了模型精度與推理延遲之間的Pareto Front（帕累托前沿），可以在給定的計算預(yù)算下得出模型的層數(shù)、隱藏的維度、MOE的激活比例應(yīng)該如何組合才能達到性能最優(yōu)。

詹錕分享了一個觀察，在端側(cè)計算資源受限的情況下，更寬且更淺的模型結(jié)構(gòu)往往比傳統(tǒng)的深層模型更加有效。通過這一套軟硬件協(xié)同的設(shè)計方案，理想汽車將模型探索的架構(gòu)探索的時間從數(shù)月縮短到了幾天，大大提升了端側(cè)VLA的模型設(shè)計效率和部署速度。

三、四大核心構(gòu)建AI框架也可擴展至機器人

同時，理想汽車方面提到，MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分，這套AI框架由四大核心模塊組成：

1、MindData，統(tǒng)一的VLA數(shù)據(jù)引擎，負責大規(guī)模數(shù)據(jù)的采集、清洗和自動標注；

2、MindVLA-o1，統(tǒng)一的原生多模態(tài)VLA模型，可以理解環(huán)境、進行推理，并生成駕駛行為；

3、MindSim，可控的多模態(tài)世界模型，用于生成復(fù)雜駕駛場景并支持大規(guī)模閉環(huán)訓練；

4、RL Infra（強化學習基礎(chǔ)設(shè)施），通過獎勵模型和策略學習，使系統(tǒng)在仿真與真實環(huán)境中自我進化。

▲AI框架四大核心模塊

四部分協(xié)同形成完整閉環(huán)，使AI能夠感知、理解并在物理世界中自主行動，并持續(xù)學習。

從結(jié)構(gòu)上看，這套系統(tǒng)如同一個“數(shù)字大腦”：感知層對應(yīng)視覺皮層，推理與規(guī)劃如前額葉，場景生成似運動皮層，強化學習則類似多巴胺反饋，實現(xiàn)了感知、理解、行動和持續(xù)優(yōu)化的完整閉環(huán)。

理想汽車方面表示，車是最大號的機器人，其本質(zhì)是在構(gòu)建硅基生命體的軀干與大腦，而該AI框架不僅服務(wù)于汽車，也可擴展至機器人及各種物理系統(tǒng)。

另外，理想汽車方面還提到，MindVLA-o1相關(guān)的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發(fā)表。

結(jié)語：理想加速AI轉(zhuǎn)型

理想汽車CEO李想曾在多個場合公開表示，理想汽車要轉(zhuǎn)型為“人工智能（AI）企業(yè)”。

根據(jù)理想汽車2025年全年財報，理想汽車在2025年的研發(fā)投入達到113億元，平均每月投入近10億元，創(chuàng)歷史新高，其中AI相關(guān)投入占比50%。

而從理想汽車在NVIDIA GTC 2026上發(fā)布的MindVLA-o1自動駕駛基礎(chǔ)模型來看，其不僅是在自動駕駛領(lǐng)域的一次技術(shù)升級，更是理想汽車向AI企業(yè)全面轉(zhuǎn)型的又一重要進程。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.