国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

都在吹小鵬二代VLA,它到底厲害在哪?

0
分享至

百車全說

別人研究車,而我研究你!

今天咱們聊聊,前不久小鵬發(fā)布的第二代VLA,也就是第二代VLA物理世界大模型。沒關(guān)注智駕領(lǐng)域的人可能都聽不懂這是個(gè)什么東西,關(guān)注智駕的朋友,可能聽起來不明覺厲,但也很難說清楚好在哪里,背后是什么原理,今后買車如果更看重智駕,小鵬帶有二代VLA的車型,是不是應(yīng)該優(yōu)先考慮?

今天這篇文章,咱們詳細(xì)聊聊這玩意到底是真厲害,還是說只是停留在概念上而已,是吹的天花亂墜,還是真有兩把刷子?


什么是VLA

VLA就是“Vision-Language-Action”,視覺-語言-行動模型,一聽就懂,相當(dāng)于看到了什么-用文字描述出來-再根據(jù)文字執(zhí)行動作。之前大家經(jīng)常聽到“端到端”智能駕駛,就肯定會聽到VLA這個(gè)詞,對吧?,F(xiàn)在大家買車,只要帶智駕的,無非是有激光雷達(dá),沒有激光雷達(dá)兩個(gè)版本。沒有激光雷達(dá)的智駕走純視覺路線,有激光雷達(dá)的智駕,他其實(shí)主要也是靠視覺,只不過帶了激光雷達(dá),相當(dāng)于多了一重保障,走的是融合感知方案。但無論哪種方案,有了更先進(jìn)的硬件做基礎(chǔ),所以這兩年各家都在VLA這條路上一路狂飆。


小鵬二代VLA之前,智駕經(jīng)歷的三個(gè)階段

而在智駕領(lǐng)域,小鵬的二代VLA技術(shù)出來之前,還經(jīng)歷過三個(gè)階段。

第一個(gè)階段,是典型的模塊化方案加高精地圖。說白了,就是把感知、預(yù)測、規(guī)劃、控制拆成一個(gè)個(gè)模塊,再靠人工編寫規(guī)則把它們串起來。車先靠傳感器識別車道線、紅綠燈、路牌、障礙物,再結(jié)合高精地圖,去判斷自己現(xiàn)在在哪、該往哪走、下一步該怎么做。這套方案的問題在于,規(guī)則是人提前寫死的,地圖也是提前標(biāo)好的,所以它對已知場景處理得還行,但一旦碰到?jīng)]見過的、沒覆蓋到的、或者地圖和現(xiàn)實(shí)有偏差的情況,系統(tǒng)就容易發(fā)懵。它不是不會開車,它是只會開自己提前背過答案的那條路。早期自動駕駛廣泛采用這種模塊化棧,而且高度依賴精準(zhǔn)定位與高精地圖,這也是后來行業(yè)越來越想擺脫它的重要原因。

第二個(gè)階段,就開始從人工寫規(guī)則,升級到讓模型通過海量駕駛數(shù)據(jù)去學(xué)習(xí),也就是大家常說的端到端、或者偏端到端的數(shù)據(jù)驅(qū)動方案。你可以理解成,第一階段是老師把答案寫在黑板上,讓車背下來。第二階段是把大量人類司機(jī)怎么開車的數(shù)據(jù)喂給它,讓它自己去學(xué)輸入和輸出之間的關(guān)系。比如,前面看到什么畫面,后面就打多少方向、踩多大油門、剎多大力度。


這個(gè)階段比第一階段確實(shí)先進(jìn),因?yàn)樗鼫p少了人工規(guī)則堆砌,提升了訓(xùn)練和迭代效率,但它本質(zhì)上還是一種映射學(xué)習(xí)。也就是說,它更像是在模仿,而不是在真正理解。換句話說,訓(xùn)練里見過的場景,它會越來越熟。但是訓(xùn)練里沒見過的長尾場景,它照樣可能不會。

而且第二階段還有個(gè)很致命的問題,就是黑箱。你看到的是它做出了動作,但你很難準(zhǔn)確說清楚,它為什么這么做。出了問題,往往只能看到結(jié)果不對,卻很難一層一層地追溯,到底是感知錯了,還是理解錯了,還是規(guī)劃錯了。換句話說,它會開,但它不太會解釋。它像一個(gè)做題很快的學(xué)生,答案可能能寫出來,但你讓他把解題過程完整復(fù)述出來,他不一定講得清楚。對于智駕這種高安全要求的系統(tǒng)來說,這件事就很麻煩,因?yàn)槟悴还庖鼤?,還要知道它為什么這么做,出了問題怎么查,怎么改,怎么驗(yàn)證。

接下來,就到了第三個(gè)階段,也就是一代VLA,視覺—語言—行動模型。


這一代跟前面最大的區(qū)別,不是它終于看得更清楚了,而是它開始試著先理解,再行動。以前的系統(tǒng),很多時(shí)候是看到畫面,直接輸出動作,中間像一根線,輸入接輸出,快是快了,但到底理解了多少,不好說。VLA不一樣,它把視覺信息、語言知識和行動決策放進(jìn)了一個(gè)更統(tǒng)一的框架里。它不僅想知道前面有車、有燈、有行人,它還想進(jìn)一步理解,這個(gè)場景里誰更危險(xiǎn),哪個(gè)目標(biāo)更關(guān)鍵,這個(gè)行人是在等待,還是準(zhǔn)備突然橫穿,這輛電瓶車接下來大概率會不會并線,這個(gè)路口真正該優(yōu)先處理的矛盾是什么。

VLA的核心就是把視覺感知、語義理解、語言推理和軌跡/動作輸出更緊地連起來,而不是只做機(jī)械的畫面到動作映射。


所以總結(jié)來講,第一階段,是把規(guī)則寫死,像查字典、翻說明書開車。題庫里有,它就會。題庫里沒有,它就愣住。

第二階段,是通過數(shù)據(jù)去模仿,像看別人怎么開,自己照著學(xué)。學(xué)得多了,很多常見題也能做得不錯,但它更像小鎮(zhèn)做題家,不是真正理解題意,只是為了刷到過,填上了正確答案而已。題目稍微拐個(gè)彎,或者換個(gè)沒見過的說法,它還是容易翻車。

第三階段,也就是一代VLA,才開始往理解題意這個(gè)方向走。它不是單純記住:看到這個(gè)畫面就該往左打一把,看到那個(gè)路口就該踩一腳剎車。它開始嘗試回答另一個(gè)更關(guān)鍵的問題:我為什么要這么做。它會把環(huán)境里的視覺信息,和更高層的語義知識、行為邏輯結(jié)合起來,再去生成動作或者軌跡。

所以理論上,它對陌生場景、長尾場景、復(fù)雜交互場景,會比前兩代更有潛力?,F(xiàn)在很多VLA論文都在強(qiáng)調(diào)一件事,就是想讓車不只是會反應(yīng),還要會推理,會解釋,會按更接近人類駕駛邏輯的方式處理復(fù)雜場景。

所以,在VLA之前:感知≠理解,只能“看到”,不能“看懂”;動作≠推理,只會“條件反射”,不會“思考”。在VLA之后:視覺+語言+動作深度融合,具備語義理解、常識推理、泛化能力,能看懂路牌、理解場景、推理因果、應(yīng)對未知障礙,基本實(shí)現(xiàn)了“看懂+聽懂+做對”。

小鵬二代VLA有什么不同

如果說一代VLA,解決的是車開始試著看懂這個(gè)世界,那二代VLA,解決的就是車看懂以后,能不能像人一樣把前因后果串起來,再決定下一步該怎么做。這個(gè)差別看上去只是從能理解,到更會理解,但本質(zhì)上已經(jīng)不是同一個(gè)層級了。


一代更像一個(gè)已經(jīng)挺聰明的實(shí)習(xí)生。你把場景給它,它能大致看明白,也能做出八九不離十的動作。它知道前面是路口,旁邊有行人,左邊有車插進(jìn)來,這時(shí)候該減速,該觀察,該避讓。它比前兩代強(qiáng)的地方,在于不再只會背題,而是開始會讀題了??蓡栴}在于,它很多時(shí)候還是停留在看懂這一層。它知道發(fā)生了什么,但對為什么會這樣,接下來大概率會怎樣,理解還不夠深。

二代VLA想做的,是從看懂眼前,往看穿局勢再走一步。它不只是識別這是不是一個(gè)路口,這是不是一個(gè)行人,這是不是一個(gè)施工錐桶。它還要判斷,這個(gè)行人是準(zhǔn)備過,還是只是站著等人;這臺電動車是在正常靠邊,還是下一秒就要突然斜切;前方這臺車減速,是因?yàn)閾矶拢€是因?yàn)樗舶l(fā)現(xiàn)了前面有風(fēng)險(xiǎn);甚至一個(gè)交警抬手的動作,到底是在讓你停,還是讓對向先走。說白了,一代更像是把場景翻譯成動作,二代開始試著把場景翻譯成意圖。

拿同一個(gè)最典型的場景來說,前方是個(gè)沒有明確保護(hù)的路口,右側(cè)有個(gè)大車遮擋視線,路邊站著一個(gè)人,身后還跟著個(gè)小孩。這個(gè)場景,一代VLA大概率也會減速,也會謹(jǐn)慎,也知道這里有鬼探頭風(fēng)險(xiǎn)。但它更像是一種經(jīng)驗(yàn)性反應(yīng),因?yàn)樗R別到了危險(xiǎn)構(gòu)型,所以先保守一點(diǎn)。二代VLA如果做得更成熟,它不是單純知道危險(xiǎn),而是會進(jìn)一步推理,這個(gè)大人站位靠前,頭朝路口,小孩身體有前傾趨勢,而且兩個(gè)人之間沒有明顯牽手約束,那下一秒小孩突然沖出來的概率就高。它的動作就不只是減速,而是更早收油,更堅(jiān)決備剎,甚至在通過這個(gè)遮擋區(qū)之前就把整套風(fēng)險(xiǎn)預(yù)案先擺出來。表面看都是慢一點(diǎn),背后其實(shí)完全不是一個(gè)思路。一個(gè)是看見風(fēng)險(xiǎn)再應(yīng)對,一個(gè)是預(yù)判風(fēng)險(xiǎn)要發(fā)生,所以提前站位。

再比如一個(gè)更復(fù)雜的城市場景。前面紅燈被雪覆蓋住了,路口還有交警在指揮。對一代VLA來說,它也許能識別出交警動作,也能結(jié)合周圍車流做出一個(gè)相對合理的選擇,但這個(gè)過程更像是把多個(gè)信號拼起來,哪個(gè)信號更明顯,更有把握,它就聽誰的。


二代VLA追求的則是對交通秩序優(yōu)先級本身的理解。它不是簡單地看見一個(gè)人在揮手,而是知道在這個(gè)時(shí)刻,現(xiàn)場人工指揮的權(quán)重高于被遮擋的信號燈,高于地圖預(yù)期,高于靜態(tài)交通規(guī)則。它不只是識別了動作,而是理解了這個(gè)動作在整個(gè)交通系統(tǒng)里的角色。所以它給出的動作不像一代VLA,靠蒙,而應(yīng)該更接近人類老司機(jī)那種我知道現(xiàn)在該聽誰的判斷。

再往下說,同樣是施工繞行場景,一代VLA可能會表現(xiàn)得像個(gè)很謹(jǐn)慎的好學(xué)生。它看到錐桶,看見臨時(shí)改道,看見地面線和導(dǎo)航線對不上,就開始小心翼翼往前蹭。只要場景還在它理解邊界內(nèi),它也能過。

但二代如果真做起來了,它會表現(xiàn)得更像一個(gè)經(jīng)驗(yàn)豐富的司機(jī)。它會知道這里雖然地上還是舊線,但大家都在跟著臨時(shí)導(dǎo)流牌走;雖然左邊理論上能走,但前車軌跡、護(hù)欄開口、施工人員站位都在告訴它正確路線其實(shí)是往右借道。這個(gè)時(shí)候它不只是避障,而是在還原現(xiàn)場臨時(shí)秩序。一個(gè)是在復(fù)雜場景里勉強(qiáng)不犯錯,一個(gè)是在復(fù)雜場景里主動找到真正的通行邏輯。


所以,一代和二代最大的區(qū)別,不是識別精度從九十分提到九十五分,也不是剎車更柔了、轉(zhuǎn)向更順了。這些都只是結(jié)果。真正的核心差別在于,一代主要還是在做場景到動作的映射,二代開始做場景到意圖,再到動作的推演。前者更像經(jīng)驗(yàn)驅(qū)動,后者更像世界模型驅(qū)動。前者是我見過類似的,所以我知道大概怎么辦。后者是即便我沒見過一模一樣的,我也能根據(jù)這件事為什么會發(fā)生,推出來接下來應(yīng)該怎么做。


所以你看,這背后邏輯其實(shí)也不難理解。因?yàn)檎鎸?shí)道路最難的,從來不是那些標(biāo)準(zhǔn)題,而是那些沒有標(biāo)準(zhǔn)答案的半開放題。紅綠燈誰都能認(rèn),車道線誰都能看,難的是線被磨沒了、燈被擋住了、人不按套路來、車和人都在互相試探。

你要真想把智駕往上推,不可能永遠(yuǎn)靠擴(kuò)題庫。題庫擴(kuò)得再大,也擋不住現(xiàn)實(shí)世界每天都在出新題。所以一代VLA是讓車第一次開始擺脫死記硬背,二代VLA則是繼續(xù)往前走,試著讓它具備一點(diǎn)舉一反三的能力。

當(dāng)然,你也可以把它理解成,一代是在讓車從條件反射進(jìn)化到初步理解,二代是在讓車從初步理解進(jìn)化到連續(xù)推理。前者解決的是別再像機(jī)器人一樣開車,后者解決的是能不能像人一樣,把這個(gè)路口前后三秒鐘會發(fā)生什么,在腦子里先過一遍,也就是我們說的防御型駕駛。

說到底,誰更接近真正的比老司機(jī)還老司機(jī)的智駕,不在于它吹得多玄,而在于預(yù)判的準(zhǔn)確。


哪些車可以升級VLA二代,有什么區(qū)別

聽完上面這段,你是不是會覺得,神了,小鵬的VLA二代等于自己有思想了啊,這豈不是離自動駕駛更進(jìn)一步了嗎?但依我看,這里面問題還是有很多的。

首先,按小鵬目前官方披露的信息,第二代VLA除了推送給三顆圖靈芯片的Ultra版,也會推送給雙圖靈的UltraSE,以及部分單圖靈的Max,只是版本和推送節(jié)奏不一樣。比如小鵬P7官方寫得很清楚,UltraSE是2顆圖靈AI芯片+第二代VLA,Ultra是3顆圖靈AI芯片+第二代VLA和VLM大模型。

小鵬G6的說法更直白。官方明確說,Ultra、UltraSE版本會在4月開啟第二代VLA全量推送;Max版也會在今年下半年推送蒸餾后的版本。也就是說,單圖靈的Max不是完全上不了,而是上的不是和Ultra完全同一檔的版本,你可以把蒸餾版,理解為閹割版、殘血版。


至于更老的平臺,尤其不是圖靈芯片那一代的老車,目前我沒有看到小鵬官方給出能直接升級到第二代VLA的明確承諾,我看也有媒體說,未來會給雙Orin-X推蒸餾版。

目前,三顆圖靈芯片的包含:P7Ultra、G7Ultra、X9Ultra、G6Ultra等

兩個(gè)圖靈芯片的包含:X9UltraSE、G7UltraSE、G6UltraSE等。少了未來的座艙融合能力,其他全一樣。

一顆圖靈芯片的包含:P7Max、G7Max、G6Max等。只覆蓋高速、城市主干道,沒有全場景、沒有極端場景能力。

記得小鵬剛亮相三顆圖靈芯片的時(shí)候,我還不太建議大家入手Ultra版本,我覺得以當(dāng)時(shí)小鵬的智駕能力,三顆圖靈芯片完全是性能過剩。但現(xiàn)在看到二代VLA的能力,我覺得當(dāng)下如果你要買小鵬的車,三顆圖靈芯片的Ultra版應(yīng)該是首選。


三顆圖靈芯片分工非常明確,兩塊芯片組成一個(gè)超強(qiáng)的計(jì)算單元,專門負(fù)責(zé)自動駕駛,所有的感知融合、規(guī)劃決策都在這里完成;另一塊芯片獨(dú)立出來,專門負(fù)責(zé)所謂的智能座艙,也就是你的語音助手、車載娛樂、導(dǎo)航地圖、手勢識別等功能。

為什么要這么做?

因?yàn)橐郧昂芏嘬嚨淖詣玉{駛和娛樂系統(tǒng)是共享計(jì)算資源的。就像在一個(gè)家庭里,哥哥和弟弟用同一臺電腦,哥哥要寫畢業(yè)論文,弟弟非要看動畫片。結(jié)果就是:你可能在高速上讓車自己開,同時(shí)又想導(dǎo)航、聽周杰倫的歌。就在你喊出“播放《聽媽媽的話》”時(shí),系統(tǒng)為了渲染歌詞、字幕或加載高清MV,占用了GPU的一點(diǎn)點(diǎn)資源。就這零點(diǎn)幾秒的反應(yīng)延遲,可能在遇到緊急情況時(shí)導(dǎo)致一腳急剎。你以為是前面有危險(xiǎn),其實(shí)是系統(tǒng)內(nèi)部的資源沖突、內(nèi)存被打斷導(dǎo)致的“幽靈剎車”。


小鵬的這個(gè)三芯片方案,就是用最物理、最直接的方式解決問題:開車的歸開車,聽歌的歸聽歌,兩個(gè)大腦互不干擾。

這是一種典型的垂直整合工匠思維:從最底層的硬件到最上層的軟件,每一個(gè)環(huán)節(jié)都要自己掌控,做到極致優(yōu)化。這種做法的好處是將性能榨干到極致:

小鵬這三塊“圖靈芯片”并聯(lián)的總算力達(dá)到了2250TOPS。

(a)作為對比,NVIDIA下一代旗艦平臺DriveThor的算力是2000TOPS。

(b)這意味著小鵬的自研方案在量產(chǎn)車上,紙面參數(shù)比芯片巨頭NVIDIA的下一代產(chǎn)品還要高。

配備了總共216GB的超大內(nèi)存,這導(dǎo)致了一個(gè)質(zhì)變:

(a)他們可以把一個(gè)高達(dá)300億參數(shù)的大語言模型完整地塞進(jìn)車?yán)?,?shí)現(xiàn)本地化運(yùn)行。

(b)以前的車只能跑幾十億參數(shù)的模型,遇到復(fù)雜問題(如看不清前方事故)需要把數(shù)據(jù)傳到云端計(jì)算再傳回,這一來一回可能半秒鐘就過去了。


在開車的世界里,半秒鐘就是生與死的距離。小鵬的XREA2.0因?yàn)槟P驮诒镜兀麄€(gè)思考過程(從發(fā)現(xiàn)問題到執(zhí)行決策)在50到100毫秒內(nèi)就能完成,甚至比人類的反應(yīng)還要快很多。這就是垂直整合、死磕硬件帶來的巨大優(yōu)勢。

那么,NVIDIA又是怎么操作的呢?

比如說,你可以給系統(tǒng)加一個(gè)語言提示,就像給AI大廚一個(gè)指令:“今天做菜,安全和舒適是第一位的,不要追求速度。”然后整個(gè)車的駕駛風(fēng)格就會變得更柔和、更保守。這就是一種“水平擴(kuò)展”的平臺思維。它的優(yōu)勢在于:

1. 讓更多的車企能更快用上最先進(jìn)的技術(shù)

2. 給了車企定制化的空間(這在歐洲、日本這些法規(guī)嚴(yán)格且獨(dú)特的地方尤其重要)

所以這里就出現(xiàn)了兩條完全不同的路徑:

小鵬:像是一個(gè)頂級的工匠。他要親手打造一把完美的寶劍,從煉鋼、鍛打到開刃,每一個(gè)細(xì)節(jié)都自己來。雖然能打造出鋒利無比的劍,但很有可能這把劍只有他自己用得最順手。


NVIDIA:像是一個(gè)軍火商。他打造了一個(gè)可以生產(chǎn)各種武器的兵工廠,把圖紙和生產(chǎn)線開放給你,讓你自己去造適合自己的槍炮。所以這場硬件的戰(zhàn)爭,可能沒有絕對的誰贏誰輸,它更像是一場關(guān)于未來的哲學(xué)辯論:是把一輛車本身打磨得越來越聰明,最終成為一個(gè)接近完美的個(gè)體;還是創(chuàng)造一個(gè)生態(tài),讓世界上所有的車都能更容易地接入到這個(gè)智能網(wǎng)絡(luò)里?是不是有點(diǎn)蘋果跟安卓的感覺了?

前面聊的是硬件方面的不同思路,下面再講講關(guān)于軟件方面。在VLA這個(gè)大的框架下,其實(shí)不同的公司對智能的理解,也會有一些不同的分化。這里面會出現(xiàn)兩種有意思的AI人格,一種是預(yù)言家,另一種是自省者。

我們先說預(yù)言家,它的代表就是理想汽車。理想汽車它有一套系統(tǒng)叫做MindVLA-o1。它比較厲害的地方在于,它不僅能看清楚現(xiàn)在,而且它能生成未來。


什么意思呢?傳統(tǒng)的自動駕駛是“看到,然后再反應(yīng)”這種模式。我看到一個(gè)行人,我計(jì)算它的速度和方向,然后我決定是剎車還是繞行。但理想的這套系統(tǒng),它在看到那個(gè)行人的瞬間,它的大腦里面,或者說它的計(jì)算模型里面會立刻生成好幾個(gè)未來三秒鐘的3D動畫短片。第一個(gè)短片里面,這個(gè)行人停下來看手機(jī);在另一個(gè)短片里面,他突然加速跑向馬路對面;在第三個(gè)短片里面,他可能被旁邊的一輛自行車嚇到,往后退了一步。那么系統(tǒng)可能會同時(shí)推演十幾種可能性,并且給每一種可能性分配一個(gè)概率。然后它會選擇一個(gè)無論在哪種未來里都最安全的駕駛策略。

這就跟下圍棋一樣,圍棋的高手落子之前腦子里面,已經(jīng)推演了后面十幾步甚至幾十步的所有變化。那么這種能力在處理一些比如像行人鬼探頭,或者路口闖紅燈的電動自行車,會有非常大優(yōu)勢。因?yàn)樗皇窃诜磻?yīng),而是在預(yù)判。它在毫秒之間就已經(jīng)看到了那個(gè)潛在的危險(xiǎn),并且提前做好了規(guī)避動作。

那么這種生成式世界模型的技術(shù)背后,就是有著3D高斯濺射這樣非常前沿的圖形學(xué)和AI技術(shù)。它構(gòu)建的不是一個(gè)平面的鳥瞰圖,而是一個(gè)可以被推演,可以被想象的活生生的三維世界。當(dāng)然了,這么做的代價(jià)就是算力的消耗極大。但是理想汽車賭的是對未來的判斷,所以他們覺得,這帶來的那一點(diǎn)點(diǎn)安全冗余是值得的。

所以,理想汽車這是預(yù)言家,也就是向外看,試圖窮盡世界的所有可能性。


那么自省者是什么意思呢?

自省者,它的代表是一家叫做DeepRoute.ai元戎啟行的公司。他們在GTC大會上展示了他們的VLA模型,一個(gè)高達(dá)400億參數(shù)的龐然大物,這個(gè)模型最有意思的是它的架構(gòu)。他們的系統(tǒng)在開車的時(shí)候可以一心三用,你可以想象它有三種人格:司機(jī)、分析師和批評家。是不是有點(diǎn)像狼人殺?

1.司機(jī)

他負(fù)責(zé)實(shí)時(shí)開車處理眼前的路況,能夠做出轉(zhuǎn)向、剎車、加速的指令,這是他的本職工作

2.分析師

他在后臺默默地觀察著司機(jī)的一舉一動,并且不斷地分析周圍的環(huán)境。當(dāng)遇到了一些關(guān)鍵的、復(fù)雜的或者危險(xiǎn)的場景時(shí),比如說一次緊急避讓或者一個(gè)處理的不太完美的變道,那么分析師就會立刻把這個(gè)場景記下來,并且進(jìn)行因果分析。剛才為什么會差點(diǎn)撞上了,是因?yàn)槲覜]看到他,還是因?yàn)槲翌A(yù)判錯了他的意圖?

3.批評家

他不關(guān)心具體的操作,他只負(fù)責(zé)評價(jià)司機(jī)開的好不好。他會從三個(gè)維度來打分:安全、舒適,還有是否自然。比如說,剛才那個(gè)變道雖然安全,但是動作太生硬,讓乘客不舒服,要扣分。這一次過路口讓行讓得太猶豫了,像一個(gè)新手不夠果斷,扣分

所以,這三個(gè)人格同時(shí)工作,形成一個(gè)完美的閉環(huán)。

司機(jī)在開車,分析師在找問題,批評家在打分。然后那些被標(biāo)記出來的壞案例和有價(jià)值的案例會被系統(tǒng)自動優(yōu)先提取出來,進(jìn)入下一輪的模型訓(xùn)練,這就形成了一種自我進(jìn)化的機(jī)制。他不再需要成千上萬的人工標(biāo)注員,去從海量的視頻數(shù)據(jù)里面大海撈針一樣,去找那些有用的訓(xùn)練素材,他自己就成了自己最嚴(yán)格的老師,自己給自己找茬,自己給自己改作業(yè)。

所以這個(gè)模式最終帶來的結(jié)果是驚人的。


傳統(tǒng)車企的數(shù)據(jù)迭代周期可能是一周甚至更長,而元戎啟行就宣稱他們的迭代周期,可以縮短到只要12個(gè)小時(shí)。那么這就意味著他們的AI司機(jī)學(xué)習(xí)和進(jìn)步的速度,是別的企業(yè)的4倍到14倍。他可能今天犯的錯,明天就不會再犯了。

所以你看,理想的預(yù)言家是向外看,要理解預(yù)測這個(gè)復(fù)雜的世界。而元戎啟行是自省者,是向內(nèi)看,試圖反思和完善自己的人格。他們其實(shí)都在用VLA,都在用語言和邏輯來解釋這個(gè)世界,但一個(gè)在預(yù)測未來,一個(gè)在反思過去。

所以你說哪個(gè)更能接近我們?nèi)祟愴敿馑緳C(jī)的駕駛直覺呢?其實(shí)我覺得可能兩者都有。一個(gè)優(yōu)秀的司機(jī)既要眼觀六路,預(yù)判風(fēng)險(xiǎn),也要在每次開車后默默地復(fù)盤自己哪里做得不好。所以這兩種AI人格的沖突和融合可能就是通往真正通用人工智能的一條必經(jīng)之路。


真正的難點(diǎn)

前面聊了那么多,大家聽了應(yīng)該也很興奮,覺得離自動駕駛越來越近了。但是大家想過一個(gè)問題沒有?技術(shù)再厲害,算力再強(qiáng),數(shù)據(jù)再多,最終還是要解決一個(gè)最根本的問題,就是我們作為人類敢不敢用它,敢不敢把自己的生命交到一個(gè)機(jī)器手里。

畢竟在大馬路上和坐在高鐵里,它是完全不一樣的。開車沒有軌道,沒有固定的路線,它沒有一個(gè)不受干擾的封閉的環(huán)境,一切都是開放的。但你發(fā)現(xiàn)沒有,當(dāng)開車環(huán)境無法改變的時(shí)候,通往自動駕駛最核心的一個(gè)環(huán)節(jié),其實(shí)是“可解釋性”帶來的信任重構(gòu)。


過去幾年自動駕駛的事故,每一次都鬧得沸沸揚(yáng)揚(yáng)。出了事,車企的工程師站出來,面對監(jiān)管機(jī)構(gòu)和媒體的質(zhì)問,他們能做什么呢?他們只能是攤開手給你看一堆復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)重圖,或者幾百頁的日志代碼,然后告訴你,根據(jù)我們的模型分析,當(dāng)時(shí)系統(tǒng)的決策在概率上是最優(yōu)解。這種解釋你聽得懂嗎?普通人都聽不懂,所以監(jiān)管者也很頭疼。

這就像一個(gè)醫(yī)生做完手術(shù),病人出了問題,家屬問他,為什么?他說我們嚴(yán)格按照一本你看不懂的醫(yī)學(xué)操作手冊進(jìn)行的,書上說這么做成功率是最高。你說這個(gè)解釋你能接受嗎?你肯定不會啊,你只會覺得他在推卸責(zé)任。


而二代VLA的出現(xiàn)徹底解決了這個(gè)問題。那么再回到我們開頭說的那個(gè)場景,現(xiàn)在如果監(jiān)管機(jī)構(gòu)問小鵬,你的車在那個(gè)路口為什么減速,你的依據(jù)是什么?工程師不用再甩出一堆的圖表,他可以直接播放車?yán)锏哪且欢诬囕d語音,語音里說:

“我觀察到前方有臨時(shí)路牌,但是信號燈被積雪覆蓋無法識別。因此,我會根據(jù)前方穿著制服的交警,他的手勢指引慢速通過?!?/p>

這是一個(gè)清晰、有邏輯、符合人類常識的解釋。那么監(jiān)管者一聽就明白了,原來你當(dāng)時(shí)的這個(gè)動作,你的判斷是這么想的,這個(gè)思路很合理很安全。甚至于他們可以進(jìn)一步討論,如果當(dāng)時(shí)沒有一個(gè)交警站在那邊去指揮,你會怎么做?VLA系統(tǒng)甚至可以回答:

“如果沒有人指揮,無法確認(rèn)路權(quán),那么我的策略就是停車等待,直到確認(rèn)安全,或者請求人類接管。”

所以你看,當(dāng)機(jī)器可以用語言來解釋自己的決策邏輯的時(shí)候,它就不再是一個(gè)冰冷的、不可知的“它”,而變成了一個(gè)可以溝通、可以理解的伙伴。


這種可解釋性帶來的影響是連鎖反應(yīng):

1.監(jiān)管層面

中國的監(jiān)管機(jī)構(gòu)現(xiàn)在已經(jīng)開始批準(zhǔn)L3級別的自動駕駛上路,他們的審批要求里面很重要的一條,就是決策的可解釋性和透明度。這幾乎是在倒逼所有的車企,必須往VLA這個(gè)方向走。

2.保險(xiǎn)公司

保險(xiǎn)公司有資深人士透露,他們正在開發(fā)新的車險(xiǎn)產(chǎn)品,未來能夠提供清晰決策日志、能夠解釋自己行為的車輛,保費(fèi)會大大降低。而那些還在使用黑盒子的系統(tǒng),保費(fèi)可能會高得離譜。為什么呢?因?yàn)樨?zé)任清晰了,出了事故,一看日志,是系統(tǒng)判斷失誤,還是硬件故障,一目了然。這對于保險(xiǎn)公司來說,就降低了最大的不確定性。所以這是一個(gè)巨大的經(jīng)濟(jì)杠桿。

3.公眾的信任

最后,也是最重要的,是公眾的信任。當(dāng)你坐在一輛自動駕駛的車?yán)?,他突然靠邊停車,在你正不太理解這個(gè)動作時(shí),車內(nèi)語音告訴你:“不要擔(dān)心,我正在為右后方快速接近的救護(hù)車讓路。”這時(shí)候你會怎么想?無數(shù)次解答你的疑惑,你會發(fā)現(xiàn),這種透明是任何參數(shù)、任何技術(shù)參數(shù)都換不來的信任構(gòu)建的過程。

所以,2026年這一場自動駕駛的革命,我覺得最核心的關(guān)鍵詞不是算力,不是模型參數(shù),而是解釋。這不是算法的勝利,是人類語言的勝利。語言,這個(gè)我們?nèi)祟愖罟爬?、最基礎(chǔ)的溝通工具,在AI時(shí)代重新成為了連接技術(shù)與社會、機(jī)器與人心的那一座最重要的橋梁。

我們今天聊那么多,從硬件的戰(zhàn)爭到算法的靈魂,再到數(shù)據(jù)的洪流,最后落到信任的重建。這一切都指向一個(gè)結(jié)論:2026年確實(shí)是自動駕駛歷史上的一個(gè)巨大拐點(diǎn)。這個(gè)轉(zhuǎn)折不僅僅是車變得更聰明,而是車終于學(xué)會了用一種我們能聽懂的方式,來解釋它為什么會變聰明。


所以說,關(guān)于更宏大的所謂“物理AI”這個(gè)概念,我們不能簡單的把VLA這個(gè)架構(gòu),理解為只是用于自動駕駛。你想一想,一個(gè)能理解視覺、能運(yùn)用語言、能夠做出行動的AI核心,把它從車?yán)锬贸鰜?,放到一個(gè)機(jī)器人里,它是不是能做更多的事情?

所以,小鵬為什么同時(shí)在做汽車的自動駕駛,也在做人形機(jī)器人?現(xiàn)在想想,大家就都明白了。因?yàn)樽詣玉{駛上取得的每一個(gè)突破,幾乎都可以無縫地遷移到機(jī)器人、工業(yè)自動化等等所有需要與物理世界打交道的領(lǐng)域。我們其實(shí)在見證的可能不僅僅是一場交通工具的革命,而是通用物理智能的黎明。所以,小鵬這家公司的價(jià)值也在被重構(gòu)。

第二代VLA發(fā)布后資本市場的反應(yīng)就是很好的證明,摩根士丹利、美國銀行、匯豐銀行同步給出“買入”評級,摩根士丹利的研究報(bào)告中指出:小鵬第二代VLA的落地,使其具備與特斯拉在全球市場直接競爭的能力,全球智能汽車產(chǎn)業(yè)的格局或迎來新的變量。

你看,現(xiàn)在一臺車已經(jīng)從一個(gè)把我們從A點(diǎn)送到B點(diǎn)的鐵皮盒子,變成了一個(gè)可以和你溝通、幫你思考,甚至比你更了解這個(gè)物理世界的推理引擎。當(dāng)我們還在討論AI會不會取代我們工作的時(shí)候,一種新的能夠理解并且改造物理世界的智能,已經(jīng)悄悄地融入我們最日常的生活里。這意味著什么?沒人能說得清。但這種感覺是不是就像我們第一次看到iPhone,或者第一次連上互聯(lián)網(wǎng)一樣?你知道世界將因此而改變,只是這一次改變的可能不只是信息世界,而是我們身處的這個(gè)實(shí)實(shí)在在的物理世界本身。


想和三刀做朋友?想和三刀的讀者做朋友?

平時(shí)不能說,不方便說的

咱們在這里暢快聊~

高質(zhì)量答疑,高含金量資訊,自媒體學(xué)習(xí)

全在三刀的知識星球


BBA不裝了,豪車的好日子結(jié)束了

徹底殺死燃油車的全固態(tài)電池,真的要來了嗎?
大換代的日產(chǎn)軒逸參數(shù)圖片),油車也要跟電車拼智商了?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
成都一小區(qū)菜刀從天而降,墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上;警方正進(jìn)一步調(diào)查

成都一小區(qū)菜刀從天而降,墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上;警方正進(jìn)一步調(diào)查

大象新聞
2026-04-16 22:49:09
最美滬牌!滬AHF9776車主,全網(wǎng)都在找你!

最美滬牌!滬AHF9776車主,全網(wǎng)都在找你!

上海約飯局
2026-04-17 17:20:38
經(jīng)過伊朗這一戰(zhàn),中美之間可能至少50年內(nèi)不會爆發(fā)戰(zhàn)爭

經(jīng)過伊朗這一戰(zhàn),中美之間可能至少50年內(nèi)不會爆發(fā)戰(zhàn)爭

地球記
2026-04-16 20:21:55
中國公司將推出全球首款可量產(chǎn)、能量密度達(dá)500Wh/kg的固態(tài)電池

中國公司將推出全球首款可量產(chǎn)、能量密度達(dá)500Wh/kg的固態(tài)電池

知新了了
2026-04-16 14:12:29
黃渤和鄧超為什么無戲可拍了?

黃渤和鄧超為什么無戲可拍了?

閑人電影
2026-04-16 18:55:11
特朗普:我們現(xiàn)在和伊朗關(guān)系老好了!

特朗普:我們現(xiàn)在和伊朗關(guān)系老好了!

看看新聞Knews
2026-04-17 17:04:07
吉林省紀(jì)委監(jiān)委通報(bào):鄧德超被查

吉林省紀(jì)委監(jiān)委通報(bào):鄧德超被查

吉刻新聞
2026-04-17 17:48:43
突發(fā):Claude引入強(qiáng)實(shí)名制驗(yàn)證!必須真人手持證件自拍,否則直接封號!

突發(fā):Claude引入強(qiáng)實(shí)名制驗(yàn)證!必須真人手持證件自拍,否則直接封號!

果殼
2026-04-17 16:11:25
男子住酒店攀爬樓道窗戶墜樓,5天后被發(fā)現(xiàn)已死亡,家屬起訴酒店索賠57萬被駁回

男子住酒店攀爬樓道窗戶墜樓,5天后被發(fā)現(xiàn)已死亡,家屬起訴酒店索賠57萬被駁回

紅星新聞
2026-04-17 11:40:19
靈隱寺事件,遠(yuǎn)非低智表象那么簡單

靈隱寺事件,遠(yuǎn)非低智表象那么簡單

林中木白
2026-04-16 17:34:07
劉震云:一個(gè)媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

劉震云:一個(gè)媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

新浪財(cái)經(jīng)
2026-04-10 12:43:57
蔚來哪來的膽子?

蔚來哪來的膽子?

汽車商業(yè)評論
2026-04-17 14:29:30
女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報(bào)警

女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報(bào)警

閱微札記
2026-04-16 11:37:41
特朗普拖家?guī)Э谠L華,只有一個(gè)目的,他們家族用腳給中國投票

特朗普拖家?guī)Э谠L華,只有一個(gè)目的,他們家族用腳給中國投票

有牙的兔紙
2026-04-17 16:41:20
采訪了100個(gè)娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個(gè)娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動物奇奇怪怪
2026-04-12 12:44:36
地頭蛇砸了我家燒烤攤,媽媽不哭不鬧,拿著一等功勛章還給國家

地頭蛇砸了我家燒烤攤,媽媽不哭不鬧,拿著一等功勛章還給國家

紅豆講堂
2025-03-27 10:57:30
蘇林的高鐵體驗(yàn):兩段行程,一路點(diǎn)贊

蘇林的高鐵體驗(yàn):兩段行程,一路點(diǎn)贊

上游新聞
2026-04-17 10:58:08
國際油價(jià)走低,WTI原油期貨跌幅擴(kuò)大至3%,報(bào)88.4美元/桶

國際油價(jià)走低,WTI原油期貨跌幅擴(kuò)大至3%,報(bào)88.4美元/桶

每日經(jīng)濟(jì)新聞
2026-04-17 17:32:06
黃仁勛:DeepSeek如果先在華為平臺適配,對美國來說非常糟糕

黃仁勛:DeepSeek如果先在華為平臺適配,對美國來說非常糟糕

瀟湘晨報(bào)
2026-04-17 17:28:15
2026-04-17 19:56:49
百車全說
百車全說
聽三刀說車事
4602文章數(shù) 5073關(guān)注度
往期回顧 全部

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

頭條要聞

"封鎖"行動升級 美軍:在全球公海追捕所有"涉伊"船只

頭條要聞

"封鎖"行動升級 美軍:在全球公海追捕所有"涉伊"船只

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

科技要聞

7家頭部平臺被罰沒35.97億元

態(tài)度原創(chuàng)

教育
家居
親子
旅游
軍事航空

教育要聞

全國僅99個(gè)!綿陽成功上榜教育部區(qū)域優(yōu)秀案例

家居要聞

法式線條 時(shí)光靜淌

親子要聞

“孩子在童年接觸的高雅事物越多,成年后,低俗的事物就越難進(jìn)入孩子的生命”,男子:童年的審美土壤決定了孩子一生的精神底色

旅游要聞

不想走,還想來!“賞花+采摘+農(nóng)家飯+夜游”鄉(xiāng)村農(nóng)趣新體驗(yàn)點(diǎn)亮春日經(jīng)濟(jì)

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進(jìn)入關(guān)懷版