国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

理想發(fā)布新基礎(chǔ)模型MindVLA-o1!五大創(chuàng)新技術(shù),打通智駕與具身智能

0
分享至


車東西(公眾號(hào):chedongxi)
作者 | 張睿
編輯 | 志豪

理想汽車發(fā)布新自動(dòng)駕駛基礎(chǔ)模型,也能夠擴(kuò)展到機(jī)器人。

車東西3月17日消息,今日,理想汽車基座模型負(fù)責(zé)人詹錕出席NVIDIA GTC 2026,發(fā)布了理想汽車下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。


▲理想汽車基座模型負(fù)責(zé)人詹錕(圖源網(wǎng)絡(luò))

根據(jù)詹錕的介紹,MindVLA-o1以原生多模態(tài)MoE Transformer為核心,通過五大技術(shù)——3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強(qiáng)化學(xué)習(xí)(Closed-loop RL)和軟硬件協(xié)同設(shè)計(jì)(Hardware–Software Co-Design),構(gòu)建了面向物理世界智能的自動(dòng)駕駛基礎(chǔ)模型,讓自動(dòng)駕駛看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效。


▲MindVLA-o1基礎(chǔ)模型

而根據(jù)詹錕的說法,MindVLA-o1基礎(chǔ)模型正在向具身智能通用模型進(jìn)化,他表示:“當(dāng)我們把視覺、語言和行動(dòng)統(tǒng)一到一個(gè)模型中時(shí),它已不再只是自動(dòng)駕駛模型,而是在逐漸演化為面向物理世界的通用智能體?;谕惶譜LA模型,不僅可以控制車輛,也能夠擴(kuò)展到機(jī)器人。因此,自動(dòng)駕駛只是物理AI的起點(diǎn),未來這類基礎(chǔ)模型將驅(qū)動(dòng)新的具身智能范式。”

一、基于五大技術(shù) 多方面提升自動(dòng)駕駛性能

具體來看,理想汽車自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1有以下五大技術(shù)要點(diǎn):

1、具備3D空間理解能力,使模型看得更遠(yuǎn)。

在感知層面,理想汽車采用以視覺為核心的 3D ViT Encoder(3D視覺模型編碼器),并利用激光雷達(dá)點(diǎn)云作為三維幾何提示,引導(dǎo)模型理解真實(shí)空間結(jié)構(gòu),使其在單一表示中同時(shí)具備語義理解與三維感知能力。


▲3D空間理解技術(shù)

同時(shí)引入前饋式3DGS表示(Feedforward 3D Representation),將場(chǎng)景拆分為靜態(tài)環(huán)境與動(dòng)態(tài)物體分別建模,并通過下一幀預(yù)測(cè)(Next-state prediction)作為自監(jiān)督信號(hào),使模型同時(shí)學(xué)習(xí)深度信息、語義結(jié)構(gòu)與物體運(yùn)動(dòng),最終形成融合空間結(jié)構(gòu)與時(shí)間上下文的高質(zhì)量3D表示。

2、擁有多模態(tài)思考能力,讓模型想得更深。

在思考層面,自動(dòng)駕駛既要理解當(dāng)前環(huán)境,也要預(yù)測(cè)未來幾秒的場(chǎng)景演化。在語言模型承擔(dān)語義理解、常識(shí)知識(shí)和交互能力的基礎(chǔ)上,理想汽車還引入了預(yù)測(cè)式隱世界模型。


▲多模態(tài)思考能力

訓(xùn)練分三階段:第一,用海量視頻數(shù)據(jù)預(yù)訓(xùn)練Latent World Token(隱世界詞元),構(gòu)建未來表征;第二,在MindVLA-o1中持續(xù)世界模型的推演,形成隱空間的未來推理能力;第三,將世界模型、多模態(tài)推理能力及駕駛行為進(jìn)行聯(lián)合訓(xùn)練與對(duì)齊。

由此,模型不僅能理解當(dāng)前場(chǎng)景并進(jìn)行邏輯判斷,還能在隱空間中提前“想象”未來畫面,將駕駛決策具象化,理想汽車將這種能力定義為多模態(tài)思考(Generative Multimodal Thinking)。

3、形成統(tǒng)一行為生成機(jī)制,使模型行得更穩(wěn)。

在行為層面,理想汽車構(gòu)建了統(tǒng)一行為生成(Unified Action Generation)機(jī)制。


▲統(tǒng)一行為生成

首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構(gòu),并引入專門的Action Expert(動(dòng)作專家),從3D場(chǎng)景特征、導(dǎo)航目標(biāo)、駕駛指令等多維輸入中提取信息,并結(jié)合多模態(tài)思考生成高精度駕駛軌跡。

其次,為滿足實(shí)時(shí)性要求,系統(tǒng)采用并行解碼(Parallel Decoding),同時(shí)生成所有軌跡點(diǎn),大幅提升效率。

最后,引入Discrete Diffusion(離散擴(kuò)散)進(jìn)行多輪迭代優(yōu)化,類似逐步去噪,確保軌跡空間連續(xù)、時(shí)間穩(wěn)定,并符合車輛動(dòng)力學(xué)約束。

4、在閉環(huán)強(qiáng)化學(xué)習(xí)框架下,模型實(shí)現(xiàn)更快進(jìn)化。

在模型迭代層面,理想汽車構(gòu)建了閉環(huán)強(qiáng)化學(xué)習(xí)框架,讓模型不僅能從真實(shí)數(shù)據(jù)學(xué)習(xí),還能在世界模擬器(World Simulator)中持續(xù)探索和優(yōu)化策略。


▲閉環(huán)強(qiáng)化學(xué)習(xí)

為此,理想汽車將逐步優(yōu)化式重建為Feed-forward(前饋)場(chǎng)景重建,使系統(tǒng)能夠瞬時(shí)生成大規(guī)模、高保真駕駛場(chǎng)景,支持大規(guī)模并行訓(xùn)練。

同時(shí),結(jié)合生成式模型(Generative Models),模擬環(huán)境可擴(kuò)展、編輯并生成全新場(chǎng)景。為支持大規(guī)模模擬與訓(xùn)練,理想汽車開發(fā)了統(tǒng)一的3D Gaussian Splatting(3D高斯?jié)姙R)渲染引擎和分布式訓(xùn)練框架,渲染速度提升近2倍,整體訓(xùn)練成本降低約75%。

5、在軟硬件協(xié)同設(shè)計(jì)定律下,模型部署更高效。

為解決傳統(tǒng)端側(cè)大模型部署耗時(shí)長(zhǎng)、調(diào)試頻繁的問題,理想汽車面向端側(cè)大模型的軟硬件協(xié)同設(shè)計(jì)定律,將模型結(jié)構(gòu)與驗(yàn)證損失建模,并結(jié)合Roofline模型刻畫硬件計(jì)算能力與內(nèi)存帶寬限制,在模型性能與硬件約束之間建立統(tǒng)一的分析框架。


▲軟硬件協(xié)同設(shè)計(jì)

理想汽車基座模型團(tuán)隊(duì)評(píng)估了近2000種模型架構(gòu)配置,在英偉達(dá)Orin與Thor平臺(tái)上完成驗(yàn)證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),將架構(gòu)探索時(shí)間縮短,提升了端側(cè)VLA模型的設(shè)計(jì)與部署效率。

二、四大核心構(gòu)建AI框架 也可擴(kuò)展至機(jī)器人

同時(shí),理想汽車方面提到,MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分,這套AI框架由四大核心模塊組成:

1、MindData,統(tǒng)一的VLA數(shù)據(jù)引擎,負(fù)責(zé)大規(guī)模數(shù)據(jù)的采集、清洗和自動(dòng)標(biāo)注;

2、MindVLA-o1,統(tǒng)一的原生多模態(tài)VLA模型,可以理解環(huán)境、進(jìn)行推理,并生成駕駛行為;

3、MindSim,可控的多模態(tài)世界模型,用于生成復(fù)雜駕駛場(chǎng)景并支持大規(guī)模閉環(huán)訓(xùn)練;

4、RL Infra(強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施),通過獎(jiǎng)勵(lì)模型和策略學(xué)習(xí),使系統(tǒng)在仿真與真實(shí)環(huán)境中自我進(jìn)化。


▲AI框架四大核心模塊

四部分協(xié)同形成完整閉環(huán),使AI能夠感知、理解并在物理世界中自主行動(dòng),并持續(xù)學(xué)習(xí)。

從結(jié)構(gòu)上看,這套系統(tǒng)如同一個(gè)“數(shù)字大腦”:感知層對(duì)應(yīng)視覺皮層,推理與規(guī)劃如前額葉,場(chǎng)景生成似運(yùn)動(dòng)皮層,強(qiáng)化學(xué)習(xí)則類似多巴胺反饋,實(shí)現(xiàn)了感知、理解、行動(dòng)和持續(xù)優(yōu)化的完整閉環(huán)。

理想汽車方面表示,車是最大號(hào)的機(jī)器人,其本質(zhì)是在構(gòu)建硅基生命體的軀干與大腦,而該AI框架不僅服務(wù)于汽車,也可擴(kuò)展至機(jī)器人及各種物理系統(tǒng)。

另外,理想汽車方面還提到,MindVLA-o1相關(guān)的多篇論文已在CVPR、ICLR、ICRA、AAAI等國(guó)際頂會(huì)上發(fā)表。

結(jié)語:理想新模型意在打通自動(dòng)駕駛與具身智能

自2021年啟動(dòng)輔助駕駛自研以來,理想輔助駕駛技術(shù)架構(gòu)經(jīng)歷了多輪迭代,2025年,理想汽車推出了VLA司機(jī)大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶全量推送。

截至2025年底,VLA司機(jī)大模型月使用率達(dá)到80%,VLA指令累計(jì)使用1225.4萬次;春節(jié)期間理想輔助駕駛總里程達(dá)2.5億公里,VLA指令使用次數(shù)達(dá)130.3萬次。

未來,理想汽車表示持續(xù)構(gòu)建面向物理世界智能的完整AI系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突然公開這段水下畫面,中國(guó)海軍在釋放什么信號(hào)?背后博弈不簡(jiǎn)單

突然公開這段水下畫面,中國(guó)海軍在釋放什么信號(hào)?背后博弈不簡(jiǎn)單

劉振起觀點(diǎn)
2026-04-14 10:55:55
27歲演員周墨患腦梗死!185公分體重曾達(dá)60斤,疑與熬夜勞累有關(guān)

27歲演員周墨患腦梗死!185公分體重曾達(dá)60斤,疑與熬夜勞累有關(guān)

裕豐娛間說
2026-04-14 11:05:13
“特朗普2.0”對(duì)華態(tài)度轉(zhuǎn)變背后

“特朗普2.0”對(duì)華態(tài)度轉(zhuǎn)變背后

參考消息
2026-04-14 07:47:04
人口大遷徙已悄然開啟!未來幾年,無數(shù)中國(guó)人命運(yùn)或?qū)氐赘膶懀?>
    </a>
        <h3>
      <a href=小陸搞笑日常
2026-04-12 17:54:18
歐冠4強(qiáng)將誕生2席!巴薩+利物浦都面臨0-2絕境,有1隊(duì)有望3-0逆轉(zhuǎn)

歐冠4強(qiáng)將誕生2席!巴薩+利物浦都面臨0-2絕境,有1隊(duì)有望3-0逆轉(zhuǎn)

球場(chǎng)沒跑道
2026-04-14 10:15:36
感覺鐘楚曦衣服都要掉了,但是一臉鎮(zhèn)定美的讓人忘記了旁邊是娜扎

感覺鐘楚曦衣服都要掉了,但是一臉鎮(zhèn)定美的讓人忘記了旁邊是娜扎

阿廢冷眼觀察所
2026-04-12 08:09:14
俄羅斯外長(zhǎng)加急訪華,比中東戰(zhàn)爭(zhēng)更重要的,是普京的中國(guó)之行?

俄羅斯外長(zhǎng)加急訪華,比中東戰(zhàn)爭(zhēng)更重要的,是普京的中國(guó)之行?

老范談史
2026-04-14 18:18:13
世錦賽資格賽太殘酷了:隨著袁思俊9-10,又有5名中國(guó)選手無緣正賽

世錦賽資格賽太殘酷了:隨著袁思俊9-10,又有5名中國(guó)選手無緣正賽

側(cè)身凌空斬
2026-04-14 06:00:44
4月13日炸鍋!國(guó)民黨強(qiáng)硬表態(tài),臺(tái)灣民眾怒了

4月13日炸鍋!國(guó)民黨強(qiáng)硬表態(tài),臺(tái)灣民眾怒了

人生就是要簡(jiǎn)單
2026-04-14 08:10:42
他發(fā)明一道菜在美國(guó)一年賣52163噸,年入203億,卻稱絕不進(jìn)入中國(guó)

他發(fā)明一道菜在美國(guó)一年賣52163噸,年入203億,卻稱絕不進(jìn)入中國(guó)

杰絲聊古今
2026-04-09 23:44:51
哈啰拒不改正將被處罰,其已被約談25次

哈啰拒不改正將被處罰,其已被約談25次

瀟湘晨報(bào)
2026-04-14 16:03:16
喝完星巴克41元新品咖啡相當(dāng)于連吃4個(gè)雞蛋,"味道歹毒但專供健身牛馬?"

喝完星巴克41元新品咖啡相當(dāng)于連吃4個(gè)雞蛋,"味道歹毒但專供健身牛馬?"

Vista氫商業(yè)
2026-04-13 17:13:14
毛主席去南泥灣視察,王震請(qǐng)客吃燒雞,飯后主席悄悄將雞架塞兜里

毛主席去南泥灣視察,王震請(qǐng)客吃燒雞,飯后主席悄悄將雞架塞兜里

老范談史
2026-04-14 16:37:10
美涉臺(tái)表述巨變!美上將大膽預(yù)言:統(tǒng)一之戰(zhàn),將以這個(gè)名義打響

美涉臺(tái)表述巨變!美上將大膽預(yù)言:統(tǒng)一之戰(zhàn),將以這個(gè)名義打響

時(shí)光在作祟
2026-04-14 10:47:45
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
1982年血色使館:中國(guó)外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國(guó)外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
再見了,NBA!最后一舞,河村勇98分超楊瀚森!

再見了,NBA!最后一舞,河村勇98分超楊瀚森!

體育新角度
2026-04-14 08:18:13
日網(wǎng)瘋傳“日本買石油,用人民幣結(jié)算”,網(wǎng)民反應(yīng)太好玩

日網(wǎng)瘋傳“日本買石油,用人民幣結(jié)算”,網(wǎng)民反應(yīng)太好玩

這里是東京
2026-04-13 19:13:51
蘋果版套娃 買臺(tái)Mac Pro回家:打開一看里面還藏著一臺(tái)Mac Pro

蘋果版套娃 買臺(tái)Mac Pro回家:打開一看里面還藏著一臺(tái)Mac Pro

快科技
2026-04-12 20:51:04
2026-04-14 19:35:00
車東西
車東西
未來汽車看這里。
6064文章數(shù) 6408關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

美伊談到80%突然崩了:會(huì)場(chǎng)傳爭(zhēng)論聲 內(nèi)塔尼亞胡打電話

頭條要聞

美伊談到80%突然崩了:會(huì)場(chǎng)傳爭(zhēng)論聲 內(nèi)塔尼亞胡打電話

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

許家印受審當(dāng)庭表示認(rèn)罪悔罪

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

游戲
本地
房產(chǎn)
公開課
軍事航空

《大鏢客2》這張地圖被砍90%!玩家熱議太可惜

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

房產(chǎn)要聞

改善標(biāo)桿,1.5w+起橫掃國(guó)興!海口樓市,打出最猛一張牌!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗要求五個(gè)中東國(guó)家賠償戰(zhàn)爭(zhēng)損失

無障礙瀏覽 進(jìn)入關(guān)懷版