国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

FSD V14的技術突破——ICCV Ashok技術分享解析

0
分享至

Tesla FSD V14系列推出約兩周以來,已連續(xù)迭代了4個小版本,展現(xiàn)了快速的進化節(jié)奏。初始版本14.1在駕駛AI能力上實現(xiàn)了顯著突破,讓人初步窺見“覺醒”的駕駛AI的雛形。隨后的14.1.1版本重點優(yōu)化了初版存在的剎車頓挫問題;14.1.2引入了廣受好評的極致高效的Mad Max模式;而14.1.3則擴大了對Model S/X車型的支持,并開始向更廣泛的非KOL用戶推送。這種高速的版本迭代表明,自動駕駛技術在融入其他AI領域的進展后,正進入一個加速演化的新階段。

在14.1版本發(fā)布后不久,我曾撰寫了一篇V14的初步探索文章,匯總了相關傳聞和實車表現(xiàn)亮點。感興趣的朋友可以點擊鏈接閱讀。端到端架構下的FSD實車體驗進步迅猛,但自2022年AI Day后,Tesla對其自動駕駛技術的詳細進展披露甚少。在10月20日于夏威夷舉辦的ICCV國際計算機視覺學術會議上,Tesla AI副總裁Ashok分享了公司自動駕駛技術的最新進展,為我們解析Tesla的端到端自動駕駛理念以及V14可能整合的技術升級提供了寶貴信息。


Tesla端到端自動駕駛理念

從V12版本開始,Tesla FSD轉向了全面的端到端架構,這也帶動了業(yè)界對端到端技術的研究熱潮。端到端本質就是馬老板時常掛在嘴邊的“Photon In,Control Out”,也就是從傳感器像素輸入到車輛控制信號(如油門、剎車)輸出,都由一個宏觀意義上的神經網(wǎng)絡模型完成。該架構減少了中間規(guī)則處理環(huán)節(jié),使得模型訓練的梯度能夠從輸出端無縫反向傳播至感知端,從而實現(xiàn)模型各部分的整體協(xié)同優(yōu)化。以此類模型為核心的自動駕駛系統(tǒng)即為端到端系統(tǒng)。業(yè)界目睹了Tesla V12版本帶來的擬人化、絲滑的駕駛體驗后,紛紛加大了對端到端系統(tǒng)的投入。而直到此次分享,Tesla AI團隊才更系統(tǒng)地闡釋了采用端到端方案解決自動駕駛問題的核心理由。


編碼人類價值判斷的復雜性:Ashok現(xiàn)場舉例說明了自動駕駛中常見的兩難抉擇,例如車輛在遇到路邊水坑的雙向單車道上,是應該稍微偏離車道繞開水坑,還是嚴格避免侵入對向車道?基于預設規(guī)則很難完美定義此類情境下的合理行為。而端到端系統(tǒng)通過大量學習人類駕駛數(shù)據(jù),能夠掌握這些細微的價值權衡,在恰當時機做出類似“借道繞行”的決策。


感知與決策規(guī)劃間的接口定義難題:傳統(tǒng)模塊化自動駕駛系統(tǒng)中,各模塊間通過預設接口通信,例如使用邊界框(Bounding Box)定義車輛行人,用多段線描述車道線。但Ashok展示的FSD應對雞、鵝等動物過馬路的實拍視頻表明,傳統(tǒng)感知接口難以定義這些動物的類型、過馬路意圖等屬性。既定接口會形成信息瓶頸,而端到端模型中神經網(wǎng)絡間的直接信息傳遞,能最大程度減少這種信息損失,確保決策模塊獲取更全面的環(huán)境信息


模塊化自動駕駛功能模塊間通過預設的接口進行通信

應對現(xiàn)實世界的長尾問題:此優(yōu)勢直接源于上述信息瓶頸的解決。端到端模型確保在罕見場景下,決策系統(tǒng)仍能基于豐富的輸入信息做出合理判斷,并通過學習人類駕駛行為獲得處理長尾場景的能力。

同構計算帶來的確定性延遲:自動駕駛系統(tǒng)對時延極其敏感。傳統(tǒng)基于規(guī)則和優(yōu)化的規(guī)控方案,其求解時間受環(huán)境復雜性、初始解質量等多種因素影響,難以保證穩(wěn)定。而端到端神經網(wǎng)絡具有固定的模型結構和參數(shù)量,其單幀計算延遲是確定性的,有利于控制系統(tǒng)的時間波動。

更好地契合AI領域的數(shù)據(jù)規(guī)模效應:端到端自動駕駛是徹底的數(shù)據(jù)驅動范式,它摒棄了大量人為設計的規(guī)則和評價指標(即Sutton在“Bitter Lesson”中提及的“人類知識”),從而能更充分地利用計算力和數(shù)據(jù)的增長來提升系統(tǒng)性能。

端到端自動駕駛的三大挑戰(zhàn)

端到端模型維度詛咒



Ashok指出,一個理想的端到端模型結構看似簡單:輸入包括過去30秒時間窗口內以36Hz頻率采集的7路500萬像素攝像頭視頻、長達數(shù)英里的導航地圖、100Hz的車速與IMU信息,甚至包括48KHz的音頻信息(可能為FSD V14新增),其信息維度相當于20億token。而輸出僅為方向盤和加減速信號,約等于2個token。因此端到端系統(tǒng)要解決的是一個從極高維度到極低維度的映射問題,而高維到低維的映射本質上是多對一的,這個映射還要反饋正確邏輯,這就好比要從一團亂麻中要找到最終指引向出口的那唯一的一根,其訓練難度可想而知。


Tesla通過強大的數(shù)據(jù)引擎(Data Engine)來應對此挑戰(zhàn),致力于采集大量高質量數(shù)據(jù)。Tesla車隊每日可產生相當于500年駕駛時長的數(shù)據(jù),但其中多數(shù)為常規(guī)場景。為此,Tesla采用了復雜的觸發(fā)機制來回傳長尾場景數(shù)據(jù),如使用專用模型采集特殊車輛數(shù)據(jù)、基于預測偏差回傳bad cases、收集所有用戶接管數(shù)據(jù),以及感知狀態(tài)突變的場景。高效的數(shù)據(jù)篩選與回傳機制,使得Tesla能收集海量的極端場景和主動避險數(shù)據(jù),確保FSD模型具備極強的泛化能力。

VLA架構端到端保障可解釋性和安全性

簡單的端到端系統(tǒng)作為“黑箱”,在問題分析、行為解釋和安全驗證方面存在隱患。Ashok介紹說,Tesla的端到端系統(tǒng)并非徹頭徹尾的“黑箱”系統(tǒng),他看起來更加像是下圖的樣子。


可以看到這樣的端到端系統(tǒng)不僅輸出了下一個駕駛控制指令,還在決策規(guī)劃信號前輸出了很多中間結果,包括了帶速度信號的3D占據(jù)網(wǎng)格,3D高斯特征,車輛,行人,騎行人等動態(tài)障礙物,交通信號燈,信號牌,道路邊沿、車道線等靜態(tài)物體,還有限速,道路屬性,以及語言模式表達的決策信息。


這些中間結果信息不僅僅用于車機可視化渲染,更加可以通過條件概率,也就是大語言模型中廣泛應用的思維鏈COT(Chain-of-Thought)形式以及過程校驗手段,確保了最終輸出駕駛控制信號的正確性。Tesla是強視覺方案,具備語言形式的決策輸出,還有動作控制信號輸出,不用說大家可能也意識到了,Tesla FSD V14很可能采用的就是基于VLA的端到端技術方案,而這一技術路線其實與國內頭部自動駕駛團隊不謀而合,比如理想、小鵬都在最新的智駕功能中采用了VLA為核心的技術方案。


國內頭部智駕公司也不謀而合的采用了VLA的技術架構

在所有COT中間輸出中,自然語言決策和3D高斯表征尤為引人注目。

1. 自然語言實現(xiàn)了慢系統(tǒng)思考


Ashok在分享中給出了一個利用快慢雙系統(tǒng)思維中慢思考應對施工長尾場景的實際例子。在這個場景中,Tesla駕駛AI不僅通過文字識別道路封路(Road Closed)標志,還通過邏輯推理得出無法直行,并識別左側繞行標志,最終做出左轉決策,展現(xiàn)了邏輯推理能力在復雜決策中的關鍵作用。

2. Feedforward 3D Gaussian提供豐富的監(jiān)督信號和空間理解能力

Ashok還在分享中展示了Tesla基于生成重建范式FeedForward 3D Gaussian,在生成效率,初始化條件,動態(tài)物體重建,還有新視角生成上都有著非常明顯的優(yōu)勢。

這里簡單介紹下3D Gaussian,它是目前在3D重建領域非常流行的一種表征方式,基本上他利用了眾多具備位置信息,作用范圍(協(xié)方差),以及相應顏色,透明度屬性的高斯橢球體對場景進行表征,然后再利用投影關系將可微分性能良好的高斯橢球投影到圖像平面進行可微分渲染,并利用渲染出來的圖像與相機捕捉的真實圖像差異作為監(jiān)督信號對場景重建表征進行優(yōu)化,最終達到照片級的逼真場景重建效果。相比點云或多邊形,3D高斯表達更高效可微;相比NeRF等隱式表達,其幾何信息更明確,因此3D Gaussian成為了目前自動駕駛領域最主流的場景重建表征。


3D Gaussian自動駕駛場景重建,圖片來自Street Gaussians: Modeling Dynamic UrbanScenes with Gaussian Splatting

然而一般的3D場景重建需要進行逐場景優(yōu)化,重建效率仍舊是比較低的。最近的一些工作則通過利用神經網(wǎng)絡模型的泛化能力,通過重建模型的前向推理推導出場景幾何信息和顏色屬性,不需要點云的初始化,在重建效率上獲得了極大提升,并且對于新視角生成有非常大的靈活性。從Tesla的效果上看,不僅重建過程生成了語義分割信息,還能夠支持非常大的新角度渲染,這樣的能力一方面解決了Tesla端到端模型訓練時候單純監(jiān)督駕駛動作監(jiān)督信號過于稀疏單一的問題,也確保了Tesla對周圍環(huán)境的良好空間理解,類似的重建技術也支撐了Tesla實現(xiàn)閉環(huán)仿真系統(tǒng)。

評測體系是實現(xiàn)端到端系統(tǒng)的核心壁壘


Ashok本次分享的最重要的觀點莫過于完善的評測體系對于端到端系統(tǒng)的重要性了。上面這頁PPT可以說每一條信息都代表了Tesla AI團隊對于端到端自動駕駛的核心認知。

  • 無論數(shù)據(jù)集質量多高,訓練Loss不能代表端到端模型性能(合理的評測指標是關鍵)

  • 開環(huán)指標不能保證閉環(huán)性能(所以閉環(huán)的評測是必要的)

  • 自動駕駛存在多種駕駛行為來避免駕駛失敗,評測指標需要正確的反應這種駕駛行為的多模態(tài)性(對不起L2 Loss,你還差得遠呢)

  • 一種方法是來評估對駕駛行為結果的預測(個人理解意思是類似Maximize Reward + Imitation Loss)

  • 一個平衡且全面的評測集非常關鍵(數(shù)據(jù),核心關鍵還是數(shù)據(jù))

  • 枯燥乏味,但是告訴你個秘密,評測至關重要(都跟你說是秘密,要不要重點關注由你)



Tesla完善的評測體系中的核心就是基于神經網(wǎng)絡的閉環(huán)仿真系統(tǒng)。這個仿真系統(tǒng)可以通過收集大量廉價的離線狀態(tài)-動作數(shù)據(jù)對進行訓練。Ashok展示了這樣的閉環(huán)仿真系統(tǒng)的幾大作用:

1. 利用閉環(huán)仿真驗證端到端Policy的正確性

2. 利用場景編輯生成能力生成對抗樣本檢驗模型能力

3. 利用模擬器在閉環(huán)仿真系統(tǒng)中獲取人駕真值

從Tesla閉環(huán)仿真分享中我們可以發(fā)現(xiàn)Tesla的場景重建,生成,編輯能力都非常強大,不過Tesla的所有場景都是基于真實場景進行訓練,編輯修改而來。我想這很好的解答了為什么無論世界模型/世界引擎多么強大,豐富多樣的真實數(shù)據(jù)永遠都是自動駕駛中的核心資源,因為無論多強大的世界模型,其訓練數(shù)據(jù)都來自于真實數(shù)據(jù),訓練數(shù)據(jù)的多樣性和質量決定世界模型的性能。而無論世界模型的性能多么強大,單純坐在辦公室的研發(fā)工程師無法想象真實世界的駕駛場景可以變得多么多樣且復雜,所以最復雜的長尾場景一定是基于真實數(shù)據(jù)衍生來的,而不能無中生有。因此在自動駕駛領域,擁有眾多豐富多樣真實數(shù)據(jù)的車企,就是在端到端數(shù)據(jù)驅動的自動駕駛系統(tǒng)研發(fā)中擁有巨大的優(yōu)勢。

最后Tesla的強大閉環(huán)仿真引擎同樣可以遷移到機器人領域,而機器人Optimus和自動駕駛FSD技術棧的統(tǒng)一,也為后續(xù)Cross Embodiment帶來的更泛化的具身AI發(fā)展帶了巨大的想象空間!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
投資5億,荒廢10年!破產清算后,這座南京“迪士尼”拆了

投資5億,荒廢10年!破產清算后,這座南京“迪士尼”拆了

財經八卦
2026-01-01 17:19:40
快船118-101爵士豪取6連勝,倫納德45分,李凱爾賽季新高22分

快船118-101爵士豪取6連勝,倫納德45分,李凱爾賽季新高22分

懂球帝
2026-01-02 14:15:06
朱丹新年曬全家福,兒女戴眼鏡長相很一般,夫妻倆素顏蒼老皺紋深

朱丹新年曬全家福,兒女戴眼鏡長相很一般,夫妻倆素顏蒼老皺紋深

瘋說時尚
2026-01-01 11:30:28
蔡依林松口臺灣加場:今年沒機會! 被贊「華語天花板」霸氣吐金句

蔡依林松口臺灣加場:今年沒機會! 被贊「華語天花板」霸氣吐金句

ETtoday星光云
2026-01-02 14:14:04
國外心理學家:大小威都選擇白人結婚是為了避免子女受到種族歧視

國外心理學家:大小威都選擇白人結婚是為了避免子女受到種族歧視

網(wǎng)球之家
2026-01-02 01:38:41
末節(jié)18分!戰(zhàn)神卡轟45+7豪取6連勝,哈登20分,李凱爾創(chuàng)得分紀錄

末節(jié)18分!戰(zhàn)神卡轟45+7豪取6連勝,哈登20分,李凱爾創(chuàng)得分紀錄

你的籃球頻道
2026-01-02 14:01:27
金飾克價一夜大跌,跌回去了

金飾克價一夜大跌,跌回去了

最金華
2026-01-01 22:41:36
張雨綺性感透視裝造型,這身材誰看了不迷糊?

張雨綺性感透視裝造型,這身材誰看了不迷糊?

星美圖
2026-01-01 16:58:44
一瓶肉寶王扯出驚天劇本!探店博主刪視頻跑路,16歲燒雞少年涼了

一瓶肉寶王扯出驚天劇本!探店博主刪視頻跑路,16歲燒雞少年涼了

一盅情懷
2025-12-27 17:59:26
5-3!斯諾克再爆冷門:中國80后名將贏了世界冠軍!吳宜澤2-5落敗

5-3!斯諾克再爆冷門:中國80后名將贏了世界冠軍!吳宜澤2-5落敗

球場沒跑道
2026-01-01 23:28:31
特斯拉,突然官宣大降價!

特斯拉,突然官宣大降價!

大佬灼見
2026-01-02 10:05:28
壟斷行業(yè)多年,如今光環(huán)已經黯淡!一旦煙草行業(yè)倒了,軍費怎么辦

壟斷行業(yè)多年,如今光環(huán)已經黯淡!一旦煙草行業(yè)倒了,軍費怎么辦

近史博覽
2025-12-29 19:12:15
國運由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨的堅持”

國運由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨的堅持”

遠方風林
2025-12-26 00:05:55
iPhone18史無前例跳票!延期至2027年推出,蘋果發(fā)布節(jié)奏徹底改了

iPhone18史無前例跳票!延期至2027年推出,蘋果發(fā)布節(jié)奏徹底改了

雷科技
2026-01-02 13:36:25
2025新能源汽車收官戰(zhàn)報:比亞迪455萬輛、吉利169萬輛…

2025新能源汽車收官戰(zhàn)報:比亞迪455萬輛、吉利169萬輛…

電車匯
2026-01-02 14:06:21
-5℃!雨、雨夾雪、雪又來了!

-5℃!雨、雨夾雪、雪又來了!

湖北e家庭
2026-01-02 12:03:22
全紅嬋老家新房剛封頂,老宅“磚瓦房”就圍上板子,準備推翻重蓋

全紅嬋老家新房剛封頂,老宅“磚瓦房”就圍上板子,準備推翻重蓋

瘋說時尚
2026-01-02 10:36:13
換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

藍色海邊
2025-12-27 07:14:15
重大突破!中國向全球宣布:“人造太陽”捅破密度天花板

重大突破!中國向全球宣布:“人造太陽”捅破密度天花板

軍武咖
2026-01-02 13:18:01
CBA就目前來看可稱有冠軍水平教練只有三人,杜鋒并未排在第一名

CBA就目前來看可稱有冠軍水平教練只有三人,杜鋒并未排在第一名

大眼瞄世界
2026-01-01 23:37:45
2026-01-02 15:07:00
問問馬斯克AskMusk incentive-icons
問問馬斯克AskMusk
了解馬斯克,關注我們就對了
235文章數(shù) 566關注度
往期回顧 全部

科技要聞

新勢力年榜:零跑險勝華為,蔚來小鵬新高

頭條要聞

男子花500萬建的別墅被鄰居侵占養(yǎng)雞鴨 鄰居:可交租金

頭條要聞

男子花500萬建的別墅被鄰居侵占養(yǎng)雞鴨 鄰居:可交租金

體育要聞

英超離譜夜?4戰(zhàn)全平3場0-0 曼城紅軍翻車

娛樂要聞

武林外傳開播20年,郭芙蓉打工期結束

財經要聞

8200億擴產潮下的鋰電供應鏈之戰(zhàn)

汽車要聞

奇瑞汽車12月銷量超23萬輛 全年超263萬輛

態(tài)度原創(chuàng)

時尚
本地
游戲
數(shù)碼
軍事航空

2026新年禮:歡迎來到「靈感劇場」

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

《GTA6》粉絲歡呼2026:終于可以說今年發(fā)售了!

數(shù)碼要聞

LG公布2026款LG Gram輕薄本,升級Aerominum鎂鋁合金材質

軍事要聞

澤連斯基:烏全力推動恢復戰(zhàn)俘交換工作

無障礙瀏覽 進入關懷版