国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

理想GTC亮出新基礎(chǔ)模型!李想發(fā)文解讀,破解VLA三大痛點

0
分享至

作者 | 張睿
編輯 |志豪

理想汽車發(fā)布新自動駕駛基礎(chǔ)模型,李想與基座模型一把手出面詳解。

車東西3月18日消息,今日,理想汽車CEO李想與理想汽車基座模型負責人詹錕交流了理想汽車發(fā)布的新基礎(chǔ)模型。



▲李想(圖左)與詹錕(圖右)

理想汽車在NVIDIA GTC 2026上發(fā)布的理想汽車下一代自動駕駛基礎(chǔ)模型MindVLA-o1,而根據(jù)詹錕的介紹,MindVLA-o1以原生多模態(tài)MoETransformer為核心,通過五大技術(shù)——3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強化學習(Closed-loop RL)和軟硬件協(xié)同設(shè)計(Hardware–Software Co-Design),讓自動駕駛看得更遠、想得更深、行得更穩(wěn)、進化更快、部署更高效。



▲MindVLA-o1基礎(chǔ)模型

而李想問詹錕,理想自研的馬赫M100芯片能不能“扛得住”最新的模型,詹錕則透露道馬赫M100芯片的性能很強,在標準的矩陣層計算任務(wù)上比上一代芯片強三倍,同時詹錕覺得到今年年中新模型就將具備一定的思維鏈能力。



▲理想汽車基座模型負責人詹錕

同時根據(jù)詹錕的說法,MindVLA-o1基礎(chǔ)模型正在向具身智能通用模型進化,他表示:“當我們把視覺、語言和行動統(tǒng)一到一個模型中時,它已不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體?;谕惶譜LA模型,不僅可以控制車輛,也能夠擴展到機器人。因此,自動駕駛只是物理AI的起點,未來這類基礎(chǔ)模型將驅(qū)動新的具身智能范式?!?/p>

李想本人也在社交媒體上發(fā)文,進一步解讀了MindVLA-o1。



▲李想在社交媒體上發(fā)文

李想在視頻中還提到了對于AI的看法,他認為AI對所有人都是一個杠桿,必須主動擁抱。

對一家公司而言,如果所在領(lǐng)域里,AI無法創(chuàng)造新需求,往往只能用AI替代人力、降低成本。

但是對于理想汽車這樣的企業(yè),李想表示,理想目前布局了汽車、機器人、芯片等領(lǐng)域,目前年收入1000多億,而全球汽車行業(yè)規(guī)模超過10萬億,機器人、算力、下一代終端等領(lǐng)域加起來也是幾十萬億的市場。

因此,理想汽車思考的不是用AI去替代人,而是把AI這個杠桿用起來,用今天的三萬多員工,做到1萬億的收入。

一、VLA方案存在三大挑戰(zhàn)效率仍不夠理想

自2021年啟動輔助駕駛自研以來,理想輔助駕駛技術(shù)架構(gòu)經(jīng)歷了多輪迭代,2025年理想汽車推出了VLA司機大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶全量推送。

而詹錕表示,當進一步觀察當前業(yè)界VLA方案時,理想汽車發(fā)現(xiàn)VLA方案仍然存在三個非常關(guān)鍵的挑戰(zhàn):

1、3D空間語言思考和行為之間存在對齊效率不夠理想。

詹錕提到在自動駕駛系統(tǒng)中,模型需要同時完成三件事情,理解3D空間、進行語義層面的思考和推理、輸出具體的駕駛行為軌跡,如何讓這三個過程在同一個隱空間中高效對齊是非常困難的事情。

如果對齊的不夠好,就會出現(xiàn)兩類問題。第一是語義理解和行為出現(xiàn)了偏差,模型能夠理解場景,但最后生成的軌跡并不符合預(yù)期。

第二是決策延遲,視覺語言行動之間的傳遞鏈路過長,導致反應(yīng)速度下降。

詹錕舉了一個例子,當車輛前方出現(xiàn)了一個行駛較慢的車時,系統(tǒng)不僅需要理解這個場景,還要快速推理,是要立即變道還是持續(xù)跟隨,而且變道的時候速度應(yīng)該如何控制。

如果空間理解、語言推理和行為決策對齊效率不夠高,最后的生成的軌跡可能就并不是最優(yōu),因此需要提升3D空間理解能力,讓語義和行為之間對齊精度和整體推理效率進一步提升。

2、長尾場景問題。

詹錕表示,在自動駕駛中很多關(guān)鍵問題都來自極少發(fā)生的長尾場景,僅僅依靠真實數(shù)據(jù)的規(guī)模擴展很難覆蓋這些場景。

比如山區(qū)道路的突發(fā)落石、高速上的小動物竄出,這些場景在真實數(shù)據(jù)中占比較低,但卻是用戶實際駕駛中可能遇到的風險點。

理想汽車發(fā)現(xiàn)必須需要結(jié)合合成數(shù)據(jù)與強化學習,在架構(gòu)設(shè)計初就必須考慮好強化學習的范式特點,通過仿真環(huán)境進行大規(guī)模的訓練,才能讓系統(tǒng)真正具備泛化能力和魯棒性。

3、計算效率和系統(tǒng)成本。

詹錕表示,VLA模型往往包含大規(guī)模的語言能力,這會帶來非常高的計算和內(nèi)存開銷。

這會帶來兩方面的問題,一方面如果遇到算力不足的情況,可能影響輔助駕駛使用體驗;另一方面,高計算開銷也會推高車企的硬件成本,要么導致車型定價上漲,要么壓縮其他配置的成本,最終影響用戶購車決策。

在車端系統(tǒng)中,如何在有限的計算資源下運行VLA,詹錕認為這是非?,F(xiàn)實的問題,未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計,通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力,才能讓VLA真正在車端規(guī)?;穆涞亍?/p>



▲詹錕提出的VLA方案三大挑戰(zhàn)

二、基于五大技術(shù) 多方面提升自動駕駛性能

為了解決上文提到的三大問題,理想汽車提出了下一代自動駕駛基礎(chǔ)模型MindVLA-o1。具體來看,理想汽車自動駕駛基礎(chǔ)模型MindVLA-o1有以下五大技術(shù)要點:

1、具備3D空間理解能力,使模型看得更遠。

在感知層面,理想汽車采用以視覺為核心的3D ViT Encoder(3D視覺模型編碼器),用于對真實世界三維結(jié)構(gòu)進行直接建模。詹錕介紹到,3D ViT Encoder并不是簡單的將2D圖像和3D信息進行拼接,而是在編碼階段直接構(gòu)建3D的空間表示,使得模型能夠更加自然的理解真實的物理世界的空間結(jié)構(gòu)。



▲3D空間理解技術(shù)

在訓練過程中,理想汽車同時利用視覺和雷達的數(shù)據(jù),雷達提供了準確的三維幾何信息,視覺提供了豐富的語義信息,通過自監(jiān)督訓練,模型可以在同一個表示空間中同時學習幾何結(jié)構(gòu)和語義信息。

為了進一步提升對環(huán)境的理解,理想汽車在訓練中引入前饋式3DGS表示(Feedforward 3D Representation),將場景拆分為靜態(tài)環(huán)境與動態(tài)物體分別建模,靜態(tài)環(huán)境用穩(wěn)定的3DGS進行建模,動態(tài)環(huán)境單獨建模運動狀態(tài)。

在訓練過程中,通過下一幀預(yù)測(Next-state prediction)作為自監(jiān)督信號,使模型同時學習深度信息、語義結(jié)構(gòu)與物體運動,最終形成融合了空間結(jié)構(gòu)時間的上下文信息,并將大規(guī)模的自監(jiān)督預(yù)訓練進行特征提取,因此不僅能夠描述當前場景,還能夠為后面的決策模型提供高質(zhì)量的3D視覺表征。

總結(jié)來看,3D空間理解能力核心目的是縮短決策的時間,讓輔助駕駛在緊急場景反應(yīng)更快,或者在跟車之類的場景減少頓挫等問題。

2、擁有多模態(tài)思考能力,讓模型想得更深。

在語言模型承擔語義理解、常識知識和交互能力的基礎(chǔ)上,理想汽車引入了預(yù)測式隱世界模型,核心思想是讓模型在預(yù)空間中模擬未來。



▲多模態(tài)思考能力

如果直接生成未來真實的圖像,計算成本會非常高,因此理想汽車選擇在Latent World中進行預(yù)測。首先把當前的視覺輸入編碼成一組Latent World Token,作為當前場景的一個緊湊的表征。然后World Model會基于token預(yù)測未來的Latent的狀態(tài),通過這種方式,模型可以在隱空間中高效的模擬未來場景的演化過程。

在訓練上則分為三個階段:第一,用海量視頻數(shù)據(jù)預(yù)訓練Latent World Token(隱世界詞元),構(gòu)建未來表征;第二,在MindVLA-o1中持續(xù)世界模型的推演,形成隱空間的未來推理能力;第三,將世界模型、多模態(tài)推理能力及駕駛行為進行聯(lián)合訓練與對齊。

由此,模型可以對未來的環(huán)境狀態(tài)進行預(yù)測,不僅僅能理解當前環(huán)境,還能在隱空間中模擬未來發(fā)生的可能情況。這個能力對于自動駕駛的決策非常關(guān)鍵,理想汽車稱之為多模態(tài)思考(Generative Multimodal Thinking)。

總的來看,多模態(tài)思考能力讓模型能預(yù)判下一步應(yīng)該做什么,來提前規(guī)劃應(yīng)對策略,用戶的體驗自然就更加流暢舒適。

3、形成統(tǒng)一行為生成機制,使模型行得更穩(wěn)。

在行為層面,理想汽車構(gòu)建了統(tǒng)一行為生成(Unified Action Generation)機制。



▲統(tǒng)一行為生成

首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構(gòu),并引入專門的Action Expert(動作專家),從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息,并結(jié)合多模態(tài)思考生成高精度駕駛軌跡。

其次,為滿足實時性要求,系統(tǒng)采用并行解碼(Parallel Decoding),同時生成所有軌跡點,大幅提升效率。

最后,引入Discrete Diffusion(離散擴散)進行多輪迭代優(yōu)化,類似逐步去噪,確保軌跡空間連續(xù)、時間穩(wěn)定,并符合車輛動力學約束。

這套軌跡生成的機制可以總結(jié)為三個點:MOE保證了生成的專業(yè)性、Parallel保證了生成的速度、Diffusion保證了生成的軌跡精度。

從具體效果來看,統(tǒng)一行為生成機制讓輔助駕駛更“老司機”,可以減少急打方向或急加減速等操作,提升了駕駛的流暢性與乘客的乘坐體驗,同時也降低了車輛的能耗與制動損耗。

4、在閉環(huán)強化學習框架下,模型實現(xiàn)更快進化。

在模型迭代層面,理想汽車構(gòu)建了閉環(huán)強化學習框架,讓模型不僅能從真實數(shù)據(jù)學習,還能在世界模擬器(World Simulator)中持續(xù)探索和優(yōu)化策略,系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略,根據(jù)反饋進行策略更新。



▲閉環(huán)強化學習

其中幾個關(guān)鍵的組成部分,首先是要確定探索的數(shù)據(jù)集,理想汽車通常采用人類接管的困難數(shù)據(jù)集作為探索。其次,要具備一個很好的反饋模型,確認給模型正確的反饋。最后,需要構(gòu)建良好的世界模引擎來探索不同的場景。

而在整個強化學習框架中,World Simulator的能力實際上直接決定了強化學習的上限。

為此,理想汽車將逐步優(yōu)化式重建為Feed-forward(前饋)場景重建,使系統(tǒng)能夠瞬時生成大規(guī)模、高保真駕駛場景,支持大規(guī)模并行訓練。

同時,結(jié)合生成式模型(Generative Models),模擬環(huán)境可擴展、編輯并生成全新場景。為支持大規(guī)模模擬與訓練,理想汽車開發(fā)了統(tǒng)一的3D Gaussian Splatting(3D高斯?jié)姙R)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%。

只有在這種效率的提升的情況下,才能真正進行大規(guī)模的3DGS分布式的訓練,實現(xiàn)真正的低成本高效率的強化學習閉環(huán)。

總的來看,閉環(huán)強化學習能快速生成各類真實場景與長尾場景,讓模型在虛擬環(huán)境中反復(fù)訓練、試錯,無需等待真實道路數(shù)據(jù)采集,縮短模型迭代周期,也就是可以讓用戶更快的用上新版本。

5、在軟硬件協(xié)同設(shè)計定律下,模型部署更高效。

為解決傳統(tǒng)端側(cè)大模型部署耗時長、調(diào)試頻繁的問題,理想汽車面向端側(cè)大模型的軟硬件協(xié)同設(shè)計定律,將模型結(jié)構(gòu)與驗證損失建模,并結(jié)合Roofline模型刻畫硬件計算能力與內(nèi)存帶寬限制,在模型性能與硬件約束之間建立統(tǒng)一的分析框架。



▲軟硬件協(xié)同設(shè)計

理想汽車基座模型團隊評估了近2000種模型架構(gòu)配置,在英偉達Orin與Thor平臺上完成驗證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),可以在給定的計算預(yù)算下得出模型的層數(shù)、隱藏的維度、MOE的激活比例應(yīng)該如何組合才能達到性能最優(yōu)。

詹錕分享了一個觀察,在端側(cè)計算資源受限的情況下,更寬且更淺的模型結(jié)構(gòu)往往比傳統(tǒng)的深層模型更加有效。通過這一套軟硬件協(xié)同的設(shè)計方案,理想汽車將模型探索的架構(gòu)探索的時間從數(shù)月縮短到了幾天,大大提升了端側(cè)VLA的模型設(shè)計效率和部署速度。

三、四大核心構(gòu)建AI框架也可擴展至機器人

同時,理想汽車方面提到,MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分,這套AI框架由四大核心模塊組成:

1、MindData,統(tǒng)一的VLA數(shù)據(jù)引擎,負責大規(guī)模數(shù)據(jù)的采集、清洗和自動標注;

2、MindVLA-o1,統(tǒng)一的原生多模態(tài)VLA模型,可以理解環(huán)境、進行推理,并生成駕駛行為;

3、MindSim,可控的多模態(tài)世界模型,用于生成復(fù)雜駕駛場景并支持大規(guī)模閉環(huán)訓練;

4、RL Infra(強化學習基礎(chǔ)設(shè)施),通過獎勵模型和策略學習,使系統(tǒng)在仿真與真實環(huán)境中自我進化。



▲AI框架四大核心模塊

四部分協(xié)同形成完整閉環(huán),使AI能夠感知、理解并在物理世界中自主行動,并持續(xù)學習。

從結(jié)構(gòu)上看,這套系統(tǒng)如同一個“數(shù)字大腦”:感知層對應(yīng)視覺皮層,推理與規(guī)劃如前額葉,場景生成似運動皮層,強化學習則類似多巴胺反饋,實現(xiàn)了感知、理解、行動和持續(xù)優(yōu)化的完整閉環(huán)。

理想汽車方面表示,車是最大號的機器人,其本質(zhì)是在構(gòu)建硅基生命體的軀干與大腦,而該AI框架不僅服務(wù)于汽車,也可擴展至機器人及各種物理系統(tǒng)。

另外,理想汽車方面還提到,MindVLA-o1相關(guān)的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發(fā)表。

結(jié)語:理想加速AI轉(zhuǎn)型

理想汽車CEO李想曾在多個場合公開表示,理想汽車要轉(zhuǎn)型為“人工智能(AI)企業(yè)”。

根據(jù)理想汽車2025年全年財報,理想汽車在2025年的研發(fā)投入達到113億元,平均每月投入近10億元,創(chuàng)歷史新高,其中AI相關(guān)投入占比50%。

而從理想汽車在NVIDIA GTC 2026上發(fā)布的MindVLA-o1自動駕駛基礎(chǔ)模型來看,其不僅是在自動駕駛領(lǐng)域的一次技術(shù)升級,更是理想汽車向AI企業(yè)全面轉(zhuǎn)型的又一重要進程。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
清明將至,俗話說:“墳頭三不動,一動窮三代”今年應(yīng)如何祭祖?

清明將至,俗話說:“墳頭三不動,一動窮三代”今年應(yīng)如何祭祖?

磊子講史
2026-03-20 16:07:07
燃氣調(diào)價通知

燃氣調(diào)價通知

孝感匯
2026-03-25 16:38:10
小毛打醬油 浙江雙煞快廢了!于金永該讓位姚浩洋 依木蘭眼神太狠

小毛打醬油 浙江雙煞快廢了!于金永該讓位姚浩洋 依木蘭眼神太狠

刀鋒體育
2026-03-26 10:43:52
態(tài)度180度大轉(zhuǎn)變!外媒集體改口:中國已在三大關(guān)鍵領(lǐng)域強勢崛起

態(tài)度180度大轉(zhuǎn)變!外媒集體改口:中國已在三大關(guān)鍵領(lǐng)域強勢崛起

大衛(wèi)聊科技
2026-03-26 13:11:34
昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

都市快報橙柿互動
2026-03-26 08:00:05
江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

燦爛夏天
2025-02-10 20:20:13
巴拿馬接手港口僅一個月,中遠海運集運宣布恢復(fù)中東六國新訂艙業(yè)務(wù)!

巴拿馬接手港口僅一個月,中遠海運集運宣布恢復(fù)中東六國新訂艙業(yè)務(wù)!

趣味萌寵的日常
2026-03-26 14:04:01
美軍全球調(diào)兵、要打地面戰(zhàn)爭?伊朗:要給特朗普一個“巨大驚喜”

美軍全球調(diào)兵、要打地面戰(zhàn)爭?伊朗:要給特朗普一個“巨大驚喜”

野史日記
2026-03-25 10:00:12
四川高縣村支書暴打殘疾村婦致輕傷 法院判決免于刑事處罰引爭議

四川高縣村支書暴打殘疾村婦致輕傷 法院判決免于刑事處罰引爭議

律法刑道
2026-03-26 10:55:03
女媧的傳說藏了一個遠古秘密,雖然后人不愿承認,但的確真實存在

女媧的傳說藏了一個遠古秘密,雖然后人不愿承認,但的確真實存在

銘記歷史呀
2026-03-25 13:00:36
英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

老范談史
2026-03-18 23:51:08
穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無解難題!

穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無解難題!

田先生籃球
2026-03-26 14:23:29
逃亡沙特不久,馬步芳強取親侄女為妻,蔣介石:他讓我顏面盡失

逃亡沙特不久,馬步芳強取親侄女為妻,蔣介石:他讓我顏面盡失

史筆似塵鉤
2026-03-17 20:35:07
世預(yù)賽歐洲區(qū)開打!明晨將有8隊出局 8隊進決賽 意大利生死戰(zhàn)

世預(yù)賽歐洲區(qū)開打!明晨將有8隊出局 8隊進決賽 意大利生死戰(zhàn)

葉青足球世界
2026-03-26 08:47:10
“我的部長同學進去了”

“我的部長同學進去了”

霹靂炮
2026-03-21 16:58:17
1955年蔣介石想吃奉化老家的黃花泥螺,保密局知道后如何搞到的?

1955年蔣介石想吃奉化老家的黃花泥螺,保密局知道后如何搞到的?

銅臭的歷史味
2026-03-16 13:05:54
廣東男籃最新動態(tài)!杜峰回懟記者發(fā)言引不滿,胡明軒被批不配頂薪,徐杰狀態(tài)回歸

廣東男籃最新動態(tài)!杜峰回懟記者發(fā)言引不滿,胡明軒被批不配頂薪,徐杰狀態(tài)回歸

凱豐侃球
2026-03-26 11:20:03
最早發(fā)現(xiàn)偉人才華的3人是誰?其中一人:想救國,必重用毛澤東

最早發(fā)現(xiàn)偉人才華的3人是誰?其中一人:想救國,必重用毛澤東

那年的春夏
2024-11-15 22:43:54
特朗普:對伊朗打擊未獲國會授權(quán),僅為軍事行動,不是戰(zhàn)爭

特朗普:對伊朗打擊未獲國會授權(quán),僅為軍事行動,不是戰(zhàn)爭

觀世環(huán)球
2026-03-26 12:50:25
先被里瓦爾多全面逆襲,后遭齊達內(nèi)強勢碾壓,全能戰(zhàn)士時運不濟

先被里瓦爾多全面逆襲,后遭齊達內(nèi)強勢碾壓,全能戰(zhàn)士時運不濟

足籃大世界
2026-03-26 10:52:09
2026-03-26 15:20:49
車東西
車東西
未來汽車看這里。
6010文章數(shù) 6407關(guān)注度
往期回顧 全部

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

頭條要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

頭條要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

態(tài)度原創(chuàng)

本地
藝術(shù)
旅游
房產(chǎn)
軍事航空

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

藝術(shù)要聞

哪一座橋不是風景?

旅游要聞

淡季旺銷!南明住宿業(yè)今年前兩月營收斬獲1.18億元

房產(chǎn)要聞

質(zhì)價比標桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬科!

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版