網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

英偉達(dá)拿出推理版VLA：Alpamayo-R1讓自動駕駛AI更會動腦子

2025-12-02 14:07:01　來源: 機(jī)器之心Pro

河北舉報

分享至

一、自動駕駛的瓶頸：「看」得見，卻「想」不明白

當(dāng)今自動駕駛模型越來越強(qiáng)大，攝像頭、雷達(dá)、Transformer 網(wǎng)絡(luò)一齊上陣，似乎什么都「看得見」。但真正的挑戰(zhàn)在于：模型能否像人一樣「想明白」為什么要這么開？

傳統(tǒng)的端到端（E2E）系統(tǒng)雖然能從感知到控制一氣呵成，卻常在「長尾場景」翻車 —— 比如：

迎面來車違規(guī)左轉(zhuǎn)；
行人突然闖入；
臨時施工、交通標(biāo)志被遮擋。

這些「極少數(shù)但容易發(fā)生事故」的場景正是當(dāng)前系統(tǒng)的盲點(diǎn)。

二、Alpamayo-R1：給模型裝上「推理鏈條」

NVIDIA Research 推出的Alpamayo-R1（AR1），是一種全新的帶有推理能力的視覺 - 語言 - 行動模型（Reasoning VLA），讓車輛不只是「執(zhí)行指令」，而是能在決策前「推理出因果關(guān)系」。

圖 1：Alpamayo-R1 模型架構(gòu)（示意）

AR1 的核心創(chuàng)新有三個方面：

1. Chain of Causation（因果鏈）數(shù)據(jù)集

AR1 引入了一套全新的數(shù)據(jù)標(biāo)注體系：每一段駕駛數(shù)據(jù)不僅有「做了什么」，還有「為什么這樣做」。例如：「減速并左變道，是因為前方有助動車等紅燈，且左側(cè)車道空閑�！�

圖 2：因果鏈（CoC）標(biāo)注示例

2. Diffusion-based Trajectory Decoder（擴(kuò)散式軌跡解碼器）

AR1 引入了一種基于擴(kuò)散模型的軌跡解碼器，它能在實(shí)時約束下生成連續(xù)、動態(tài)可行的駕駛軌跡。該模塊結(jié)合語言推理輸出與物理約束，實(shí)現(xiàn)從推理到控制的無縫銜接。

3. Multi-Stage Training（多階段訓(xùn)練策略）

AR1 是基于 NVIDIA 的 Cosmos Reason 模型，這是一種專為物理 AI（Physical AI）設(shè)計的推理視覺語言模型；并采用多階段訓(xùn)練策略：首先在大規(guī)模駕駛數(shù)據(jù)上做模態(tài)注入，學(xué)習(xí)從視覺到動作的基本映射；第二階段在 CoC 因果鏈數(shù)據(jù)上做監(jiān)督微調(diào)，顯式教會模型「先想清楚再開」；最后通過強(qiáng)化學(xué)習(xí)（RL）進(jìn)一步優(yōu)化推理質(zhì)量、推理 - 行動一致性和軌跡安全性。

這種分階段、分目標(biāo)的訓(xùn)練流程，使得模型在開放場景、長尾危險場景中都表現(xiàn)的更加穩(wěn)健。

三、性能飛躍：更穩(wěn)、更準(zhǔn)、更懂你

在實(shí)驗中，AR1 為以下性能帶來了顯著提升：

規(guī)劃精度提升 12%
越界率降低 35%
近碰率降低 25%
推理 - 行動一致性提升 37%
? 實(shí)時性能：99 ms 端到端延遲

更重要的是，這些提升主要體現(xiàn)在以往最容易出錯的「長尾場景」中 —— 也就是說，它更接近「真正會判斷的司機(jī)」。

四、Vision Encoding：高效多相機(jī)時序感知

AR1 的輸入由多相機(jī)、多時序觀測幀組成，同時可以選配高層語言輸入（如導(dǎo)航指令或駕駛目標(biāo)）。所有輸入（包括歷史自車運(yùn)動）會被統(tǒng)一編碼成多模態(tài) token 序列，按時序和傳感器順序排列，再送入主干模型 Cosmos-Reason 進(jìn)行推理與預(yù)測。

在這一過程中：

每個相機(jī)視角先經(jīng)過輕量級 CNN 與時間注意力模塊做特征壓縮與時序建模；
多相機(jī)特征隨后融合為 BEV（鳥瞰圖）表征；
所有模態(tài)（圖像、導(dǎo)航文本、自車狀態(tài)）被 token 化后統(tǒng)一輸入 Transformer；
模型的輸出包含三類 token：推理鏈（reasoning traces）、中層動作（meta-actions）與未來軌跡預(yù)測（trajectories）。

這種統(tǒng)一編碼方式讓模型具備了多模態(tài)語義理解與運(yùn)動狀態(tài)感知的「一體化」能力。

五、數(shù)據(jù)的靈魂：結(jié)構(gòu)化標(biāo)注的革命

AR1 的 CoC 數(shù)據(jù)集采用「人機(jī)協(xié)同標(biāo)注」機(jī)制：

人工部分：標(biāo)注關(guān)鍵幀、核心因果因素（如紅燈、行人、障礙物），并撰寫推理鏈。
自動部分：通過 GPT-5 等大模型自動生成初版推理，再由人類審查。
質(zhì)量審核：每條樣本通過因果覆蓋、因果正確性、近因優(yōu)先等四項規(guī)則嚴(yán)格把關(guān)。

最終形成數(shù)十萬條高質(zhì)量推理 - 行動樣本，使 VLA 模型能真正「理解因果，而非記憶現(xiàn)象」。

圖 3：CoC 數(shù)據(jù)標(biāo)注流程示意圖

六、Multi-Stage Training：從常識推理到行為控制

Alpamayo-R1 的訓(xùn)練分為三個階段，旨在讓模型從「看懂」到「會想」再到「能開」。

圖 4: AR1 訓(xùn)練流程示意圖

1. 監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）

基于 Cosmos-Reason 的預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào)。該主干模型原本在 370 萬條 VQA 數(shù)據(jù)上后訓(xùn)練（post-training），其中包括 2.47 萬條專為駕駛設(shè)計的視頻樣本，帶有場景描述、駕駛難度和推理軌跡標(biāo)注，幫助模型建立「物理常識」和「因果直覺」。

此外還構(gòu)建了額外的 10 萬條駕駛樣本，標(biāo)注關(guān)鍵目標(biāo)、交通信號、因果行為解釋等信息，用于領(lǐng)域自適應(yīng)微調(diào)。

2. 因果鏈監(jiān)督階段（CoC Supervision）

引入 CoC 因果鏈數(shù)據(jù)集，顯式監(jiān)督模型的推理輸出，使其能回答「為什么要減速」、「為什么左轉(zhuǎn)」。這一階段通過人工 + 教師模型（如 GPT-5）生成高質(zhì)量推理樣本，使模型在策略學(xué)習(xí)前先獲得強(qiáng)大的語言 - 推理能力。

3. 強(qiáng)化學(xué)習(xí)后訓(xùn)練優(yōu)化（Reinforcement Learning based Post-Training）。

在最終階段，英偉達(dá)通過強(qiáng)化學(xué)習(xí)對模型進(jìn)行策略微調(diào)，以進(jìn)一步提升其在推理精準(zhǔn)性、推理–行動一致性、軌跡平滑性以及閉環(huán)控制穩(wěn)定性等方面的表現(xiàn)。

Alpamayo-R1 引入了多維度獎勵機(jī)制：包括由專家級推理模型提供的反饋信號，用于評估并引導(dǎo)模型生成更具因果邏輯的推理；「推理–行動一致性（Reasoning–Action Consistency）」獎勵，用于鼓勵模型依據(jù)自身推理合理執(zhí)行動作；以及底層安全獎勵，用以促進(jìn)模型生成更加安全、平滑且可執(zhí)行的運(yùn)動軌跡。

七、未來展望：邁向可解釋的 L4 自動駕駛

AR1 的設(shè)計理念可以看作是自動駕駛從「黑箱」到「白箱」的轉(zhuǎn)折點(diǎn)。

它不再只是一個會開車的 AI，而是一個能告訴你「為什么這樣開」的駕駛員。

? 小結(jié)：讓自動駕駛「有理可講」

Alpamayo-R1 的意義不止在性能提升，更在于：它讓 AI 的「推理鏈」與物理世界的「行動鏈」形成真正的閉環(huán)。

當(dāng)車輛能解釋自己的每一個決策時，才能確保更加安全，信任與普及才會得以實(shí)現(xiàn)。

一句話總結(jié)：AR1 = 會開車 + 會思考 + 會解釋的自動駕駛模型。

詳細(xì)內(nèi)容請查看：https://research.nvidia.com/publication/2025-10_alpamayo-r1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.