国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025中國智駕開發(fā)者50人(第一集)

0
分享至

茨威格說過,一個真正具有世界歷史意義的時刻 —— 一個人類群星閃耀的時刻出現(xiàn)以前,必然會有漫長的歲月無謂地流逝而去。

類似的話,中國古人也說過:“天不生仲尼,萬古如長夜”。你知道的,仲尼來的時候,不是一個人,而是一票人,他們一起爭奇斗艷,改寫了其后的2500年。



不知道歷史進度條是否被突然加速了,還是這一代人原本就是這么幸運,還是別的什么——在2024-2025年的某些時刻,我們忽然有了這樣的感覺:群星正在遙遙升起,即將劃過頭頂?shù)囊箍铡?/p>

具體的說,是2024年11月和2025年9月,中國智駕行業(yè)突然出現(xiàn)的兩次拐點,在【智駕大賽】上表現(xiàn)為參賽成績突然大幅提升,被參賽車友和裁判驚訝地捕捉到,快速溢出到更大范圍的車友群里。

把這兩次拐點串起來看,你會看到一條清晰的脈絡(luò),這就是國內(nèi)智駕行業(yè)頭部陣營過去兩年里攀登天梯的脈絡(luò):

1、E2E 車端模型(參數(shù)量 2B - 4B),從 2024年Q4 的 “兩段式(感知 + 規(guī)控分階段)” 迭代為 2025年Q4 的 “一段式(單模型全流程)”,在結(jié)構(gòu)化城市場景的能力與體驗上已逼近特斯拉 FSD V13;

2、云端基座模型(參數(shù)量多為30B-70B),從2024年Q4 的 “BEV+OCC+Transformer(感知底座)”,迭代升級為 2025年Q4 的“VLA(認(rèn)知決策)+WA(世界建模)+RL(行為優(yōu)化)+Transformer(核心骨干)”復(fù)合架構(gòu) —— 在保留原感知優(yōu)勢的基礎(chǔ)上,融入多模態(tài)理解與因果推理能力,打開了跨域應(yīng)用的大門。

2025年度,誰在推動智駕進步?今天起,我們將推出《2025中國智駕開發(fā)者50人》系列,分5期刊發(fā)。

入圍的80多位候選人,絕大多數(shù)在國內(nèi),少數(shù)在國外,個別是海外華人。他們的研發(fā)成果,體現(xiàn)在過去兩年里發(fā)生的兩次智駕拐點上。但其中的大部分,都很低調(diào)。

入圍的標(biāo)準(zhǔn)有兩條(個別極其優(yōu)秀者例外):

1、2025年內(nèi),在全球頂會頂刊發(fā)表高引論文的第一作者(含合著團隊);

2、2025《智駕天梯榜》年度榜單上榜方案商和主機廠的核心研發(fā)人員。

經(jīng)過核實與比對,最終挑選出50位有代表性的人物。他們的身份,大體分四類:

1、學(xué)術(shù)研究者,在頂會頂刊上發(fā)表高引論文的第一作者(含合著團隊);

2、研發(fā)組織者,定投資、定方向、定目標(biāo)、定范式、定團隊的人,類似奧本海默;

3、研發(fā)骨干,負(fù)責(zé)某一個具體方向的研發(fā)統(tǒng)籌,并和兄弟們一起拼搏出成果的人;

4、產(chǎn)品和工程負(fù)責(zé)人,負(fù)責(zé)產(chǎn)品定義、用戶交互、工程實施的人,做出了非常棒的產(chǎn)品體驗,或者保障了連續(xù)的工程交付表現(xiàn)。

今天第一期,推薦11篇卓越論文及其作者。每篇論文都可能是團隊協(xié)作完成,亦或由不同單位之間的團隊協(xié)作完成。本文主要記錄第一作者,兼帶介紹合著團隊(排名不分先后)。

01、楊磊:在“海拔高度”中尋找純視覺感知的精確性

學(xué)術(shù)成果:《BEVHeight++: Toward Robust Visual Centric 3D Object Detection》(3D目標(biāo)檢測通用框架)

第一作者:楊磊,清華大學(xué)2020級博士研究生;合著團隊:清華大學(xué)李駿院士團隊

發(fā)表時間:2025年3月11日(發(fā)表于IEEE TPAMI)



(圖片來源:清華大學(xué)研究生教育)

2023年前后,視覺3D檢測正陷入一場“深度糾結(jié)”——行業(yè)標(biāo)配的做法是先預(yù)測“深度”,再投影。但他敏銳察覺到了視覺的天然軟肋:攝像頭預(yù)測的深度就像盲人摸象,尤其在遇到坡道或車輛顛簸時,預(yù)測出的深度會產(chǎn)生劇烈抖動,導(dǎo)致感知結(jié)果“滿屏亂飄”。

那什么是可靠的?他和團隊想到了“高度”。即便地面有坡度,車與路面的相對高度是相對穩(wěn)定的物理量。這就好比在原本松動的地基(深度)旁,打下了一根名為“海拔高度”的鋼筋。通過對像素高度信息的挖掘,在不增加額外硬件傳感器(不加LiDAR)的情況下,提升了視覺感知在三維空間中的定位精度。



這意味著,可以用成本可控的攝像頭方案,達(dá)到接近昂貴傳感器的感知效果,這對降低量產(chǎn)車成本至關(guān)重要,所以BEVHeight++的角色,是“全場景感知的穩(wěn)定器”,它讓自動駕駛汽車在面對復(fù)雜的上下坡、顛簸路面,以及在與智能路側(cè)設(shè)備“對話”時,擁有一雙更準(zhǔn)確、更不容易被欺騙的“三維眼睛”,它讓純視覺3D感知不再是一個“脆而易碎”的估算模型,而變成了一個具備幾何約束的穩(wěn)定工程方案。

這份學(xué)術(shù)成果的意義,是讓自動駕駛系統(tǒng)在高速場景下的判斷更穩(wěn),在復(fù)雜起伏的城市立交橋上,實現(xiàn)了打通“車路協(xié)同”最后一步的可能。

02、曹家俊:在算力紅線面前,讓模型“少看一點”

學(xué)術(shù)成果:《FastDriveVLA:Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》(基于重建的新型視覺token剪枝框架)

第一作者:曹家俊,北京大學(xué)計算機學(xué)院多媒體信息處理全國重點實驗室;合著機構(gòu):小鵬汽車

發(fā)表時間:2025年11月14日;AAAI 2026收錄公布于2025年12月28日



(圖片來源:Google Scholar)

VLA(視覺-語言-動作大模型),它有著驚人的駕駛智慧,但體積大得驚人。成千上萬個視覺token隨時都在像潮水一樣涌入狹小的計算單元,巨大的計算開銷增加了推理延遲,算力總有跟不上的時候,這就出現(xiàn)了兩個問題:計算跑不動、關(guān)鍵信息丟失。在瞬息萬變的時刻智駕出現(xiàn)致命“卡頓”,該怎么解決?

去年,在北京大學(xué)的實驗室里,曹家。▓F隊)和小鵬汽車開始審視那些被模型奉為圭臬的視覺信息——天空中的流云、路邊早已路過的廣告牌,這些token占據(jù)了大量算力資源,但對VLA輸出的行為貢獻不大。他們沒有粗魯?shù)亍翱车簟边@些畫面,而是像一位精細(xì)的外科醫(yī)生,開發(fā)出了一套不改動原模型權(quán)重,但能將計算負(fù)載降低75%以上的token剪枝框架。



在研發(fā)FastDriveVLA的那段日子里,他們反復(fù)測試“刪除”的邊界,讓模型去學(xué)習(xí),哪些像素即使消失了,也不會影響對駕駛意圖的判斷,用MAE風(fēng)格的像素重建技術(shù),通過評估Token對前景區(qū)域重建的貢獻度來判斷其重要性,當(dāng)最終實現(xiàn)7.5倍的計算量縮減、且在nuScenes測試中幾乎不損失精度時,這份學(xué)術(shù)成果顯示出了它最大的意義,填補了智駕領(lǐng)域缺乏精細(xì)前景標(biāo)注的空白,賦予了VLA“排除雜念”的本能,讓智能模型在邁向L4時變得更輕盈、更敏捷。

03、魯洪良:為冰冷死板的機器注入“社會直覺”

學(xué)術(shù)成果:《Empowering safer socially sensitive autonomous vehicles using human-plausible cognitive encoding》(利用類人認(rèn)知編碼賦能更安全、具有社會敏感性的自動駕駛汽車)

第一作者:魯洪良,香港科技大學(xué)(廣州)博士;合著團隊:東南大學(xué)、香港科技大學(xué)等團隊

發(fā)表時間:2025年5月19日(PNAS《美國國家科學(xué)院院刊》)



(圖片來源于網(wǎng)絡(luò))

好用的智能駕駛,應(yīng)該是同時具備高效和安全的。眼下,各類智駕系統(tǒng)都太“有禮貌”了,而這種禮貌是源于對規(guī)則的死板遵守,而非對社會的真正理解。這種機器人的生硬,往往是引發(fā)路怒和交通事故的隱性誘因。

于是,魯洪良與他的團隊,決定做一個大膽的跨界:把人類的“認(rèn)知編碼”引入到代碼。這聽起來甚至有些哲學(xué):如何量化“禮讓”的權(quán)重?如何讓車感知行人多變的運動軌跡?

他在論文中提出的“擬人化認(rèn)知編碼”,讓車輛開始具備某種“社會直覺”。比如借鑒神經(jīng)科學(xué)概念,通過編碼給系統(tǒng)看得到的交通參與者做一次風(fēng)險分級,同時賦予他們差異化權(quán)重,再將加權(quán)后的風(fēng)險整合成“行為信念”,最終動態(tài)反映與潛在風(fēng)險的時空關(guān)聯(lián)性。這將使得智駕系統(tǒng),會預(yù)判自身動作對周邊交通流的影響(比如突然變道是否會引發(fā)后車急剎),從而實現(xiàn)更平順的社會化交互。



當(dāng)算法跑通的那一刻,不再是冷冰冰的概率分布,而是車輛在路口優(yōu)雅地與其他交通參與者達(dá)成的默契。所以這份學(xué)術(shù)成果的意義,讓我們看到了智駕落地的終點,不是冰冷的機器接管世界,而是機器能與人類共建交通規(guī)則。

04、明南:看清腳下路面的“褶皺”

學(xué)術(shù)成果:《TA-TOS: Terrain-Aware Tiny Obstacle Segmentation Based on MRF Road Modeling Using 3-D LiDAR Scans》(基于馬爾可夫隨機場的地形自適應(yīng)小型障礙物分割算法)

第一作者:明南,上海交通大學(xué)自動化與感知學(xué)院2023級碩士;合著團隊:上海交通大學(xué)智能網(wǎng)聯(lián)電動汽車創(chuàng)新中心團隊

發(fā)表時間:2025年6月10日(發(fā)表于IEEE Xplor)



(圖片來源于:上海交大智能網(wǎng)聯(lián)創(chuàng)新中心)

在上海交大智能網(wǎng)聯(lián)汽車中心的實驗室里,明南和團隊不斷在嘗試破解一個難題:除了肉眼可見的人、車和被標(biāo)注進白名單的常見異型障礙物之外,有沒有一種不依賴GPU性能,專門解決坑洼碎石等小型障礙物的高精度檢測方法呢?

在研發(fā)TA-TOS期間,明南正處于碩士求學(xué)的高強度階段,這也是智駕技術(shù)火的發(fā)燙的技術(shù)大年,行業(yè)里都在追求“大模型”,但很少有人愿意俯下身子去研究路面的“褶皺”。



在這份學(xué)術(shù)成果里,他們像是一個手持放大鏡的偵探,引入了馬爾可夫隨機場(MRF)來對路面建模,經(jīng)過漫長的打磨和一次次修正,最終通過負(fù)指數(shù)能量函數(shù)實現(xiàn)了障礙物的魯棒分割。這為智駕系統(tǒng)補上了一塊“非平整路工況”的關(guān)鍵拼圖。這份學(xué)術(shù)成果,也讓外界注意到,真正的安全好用的智駕系統(tǒng),不僅應(yīng)具備強博弈能力,更應(yīng)首先能看清腳下的路。

05、鄭宇鵬:在無標(biāo)注的荒原上,讓機器學(xué)會自我進化

學(xué)術(shù)成果:《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》(融合多模態(tài)駕駛意圖的物理潛世界模型端到端自動駕駛框架)

第一作者:鄭宇鵬(圖片資料暫時空缺),中國科學(xué)院自動化研究所2024級博士;合著機構(gòu):理想汽車

發(fā)表時間:2025年7月1日

能不能跳過人工標(biāo)注,讓汽車直接從原始傳感器數(shù)據(jù)里,自己“悟”出來一則駕駛之道?

2025年7月前,正在攻讀博士的鄭宇鵬和正全力推進下一代智能駕駛技術(shù)的理想汽車,就一同在探索這個問題,到底能不能實現(xiàn)?



學(xué)術(shù)團隊和理想團隊一邊打磨物理潛空間表征理論,一邊拿著不斷投喂的新模型做實戰(zhàn),最終他們發(fā)現(xiàn),其實系統(tǒng)并不需要知道路上的物體叫什么,只需要知道在某種“駕駛意圖”下,未來的物理空間會怎么去演化,這就是World4Drive的核心:一個“意圖感知”的物理潛世界模型。它不再像傳統(tǒng)的視覺模型那樣,耗費巨大算力生成華麗的像素畫面,而是在干澀但高效的“潛空間”里腦補出多條候選軌跡,然后再拿著預(yù)測結(jié)果和實際觀測做一輪自監(jiān)督比對,哪條路徑最穩(wěn)、哪條路徑最不容易碰撞,最終完成“閉環(huán)自校準(zhǔn)”。



實戰(zhàn)下來的效果驚人,在完全沒有人工標(biāo)注的情況下,碰撞率降低了46.7%,軌跡偏差縮小了18.1%,訓(xùn)練收斂速度提升了整整3.75倍。這意味著系統(tǒng)可以擺脫對昂貴標(biāo)注數(shù)據(jù)的依賴,在缺失外部標(biāo)注的極端環(huán)境下也能做出安全決策。這不僅為城區(qū)NOA的決策博弈提供了關(guān)鍵路徑,也標(biāo)志著智駕會從“看見世界”邁向“理解物理規(guī)律”完成進化。

06、陳小雪:0.4秒,讓仿真訓(xùn)練進入“大批量自動化生成時代”

學(xué)術(shù)成果:《DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images》(自動駕駛仿真場景的無姿態(tài)圖像4D前饋重建方案)

第一作者:陳小雪,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)趙昊課題組;合著機構(gòu):小米汽車

發(fā)表時間:2025年12月2日



(圖片來源于:清華大學(xué)智能產(chǎn)業(yè)研究院)

智駕行業(yè)一直有個“昂貴的門檻”:想要把一段平凡的路測視頻,復(fù)刻成可以在電腦里反復(fù)練習(xí)的4D仿真場景,傳統(tǒng)方法(如3DGS或NeRF)通常需要針對每個視頻進行長達(dá)數(shù)小時、甚至數(shù)天的計算優(yōu)化。更糟糕的是,如果傳感器的外參標(biāo)定有一點點偏差,生成的畫面就會像被打碎的鏡子一樣重影。對于追求“發(fā)布即量產(chǎn)、量產(chǎn)即好用”的智能駕駛系統(tǒng)來說,這種數(shù)據(jù)處理方式談不上高效,更談不上緊跟模型迭代的腳步。有沒有破局之道?

已經(jīng)在清華AIR實驗室攻讀博士的陳小雪,她想找到這個答案,也包括小米汽車。2025年,學(xué)術(shù)團隊和小米汽車,日復(fù)一日的在挑戰(zhàn)這個讓行業(yè)頭疼已久的效率瓶頸:能不能跳過漫長的訓(xùn)練,實現(xiàn)“瞬間復(fù)刻”?



學(xué)術(shù)團隊在扎實的幾何視覺理論基礎(chǔ)上,大膽提出了“前饋重建”的新范式,企方則拿出了端到端路測原始數(shù)據(jù),雙方在實戰(zhàn)中反復(fù)磨合,最終誕生的DGGT框架展現(xiàn)了令人震撼的性能:它將原本數(shù)小時的重建過程縮短到了驚人的0.4秒。

這意味著,智駕每天產(chǎn)生的數(shù)百萬小時路測視頻,幾乎可以實時地轉(zhuǎn)化為可交互的4D仿真教材!更具意義的是,參與論文研發(fā)的團隊還攻克了“Unposed(無位姿)”難題,讓系統(tǒng)能直接處理存在標(biāo)定誤差的原始數(shù)據(jù)。這份成果不僅為“閉環(huán)仿真”插上了翅膀,更標(biāo)志著智駕仿真從“手工作坊式”的精雕細(xì)琢,正式跨入了“工業(yè)級流水線”的瞬間生成時代。

07、馬楠:讓智能駕駛“活過來”

學(xué)術(shù)成果:《Embodied Interactive Intelligence Towards Autonomous Driving》(邁向自動駕駛的核心技術(shù)框架)

第一作者:馬楠,北京工業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院教授;合著團隊:李德毅團隊(中國工程院院士)

發(fā)表時間:2025年12月3日(發(fā)表于Engineering)



(圖為馬楠;圖片來源于:北京工業(yè)大學(xué)新聞網(wǎng))

當(dāng)全行業(yè)都在通過卷參數(shù)、卷算力來提升感知精度時,馬楠教授與李德毅院士注意到了一個被忽略的深層危機:自動駕駛車開得越來越像“準(zhǔn)時卻生硬的機器人”。在擁堵的路口,它們要么因為過于保守而永遠(yuǎn)動彈不了,要么因為無法預(yù)判行人的運動軌跡而頻繁點頭急剎。這種“缺乏人味”的表現(xiàn),揭示了傳統(tǒng)“感知→規(guī)劃→控制”鏈條的局限。



(圖為李德毅;圖片來源于:網(wǎng)絡(luò))

2025年底,兩位學(xué)者和他們的團隊,在“駕駛腦”理論的基礎(chǔ)上,正式提出了“具身交互智能”架構(gòu)。這不再是針對某一個算法的縫縫補補,而是一場由學(xué)術(shù)界發(fā)起的范式革命:將自動駕駛從“看圖做題”的計算機視覺任務(wù),徹底轉(zhuǎn)變?yōu)椤熬呱碇悄荏w”與物理環(huán)境的博弈與協(xié)作。

論文中尖銳地指出了當(dāng)下的三大難題:意圖對齊難、泛化能力弱、被動響應(yīng)多。為了解決這些痛點,團隊提出了一個稱為UniCVE的閉環(huán)智能架構(gòu),同時圍繞“感知-認(rèn)知-行為”三層模型展開,構(gòu)建了一套讓汽車具備“物理直覺”和“社會常識”的認(rèn)知模型,讓系統(tǒng)根據(jù)實時反饋的信息,不斷優(yōu)化內(nèi)部預(yù)測與行為決策。這讓最終的智駕行為,不再是單純的避障,而是真正的像老司機一樣,通過輕微的位移試探或意圖表達(dá),與周圍的行人、車輛進行主動溝通。



雖然距離這種完全擬人化的駕駛?cè)媛涞厣行钑r日,但這份科研成果仍具有劃時代的意義,這份構(gòu)想已成為通往L5級無人駕駛的關(guān)鍵理論支柱,它為“后端到端”時代的進化指明了終極方向——讓車輛從一臺“按線行駛的機器”,變成有交互能力的“智能生命體”。

08、中科院自動化所:用世界模型解決“監(jiān)督赤字”

學(xué)術(shù)成果:《DriveVLA-W0:World Models Amplify Data Scaling Law in Autonomous Driving》(基于世界模型增強自動駕駛數(shù)據(jù)規(guī)模化效應(yīng)的研究)

署名作者:Liyingyan(英譯李艷英,資料暫時空缺)等多位中國科學(xué)院自動化研究所成員;合著機構(gòu):引望智能

發(fā)表時間:2025年12月18日

自動駕駛領(lǐng)域一直信奉著一條“暴力美學(xué)”定律——數(shù)據(jù)規(guī)模定律(Scaling Law):只要投喂的數(shù)據(jù)足夠多,模型就會越聰明。然而,2025年的開發(fā)者們普遍撞上了一堵墻:監(jiān)督赤字(Supervision Deficit)。



啥是“監(jiān)督赤字”?在VLA模型里,輸入的是高維且稠密的視覺信息流,但它的監(jiān)督信號卻往往是低維且稀疏的駕駛動作,模型的大部分表征能力都被白白浪費了,這就導(dǎo)致了模型無法充分學(xué)習(xí)復(fù)雜的行為。正當(dāng)學(xué)術(shù)界和開發(fā)者們熱議這一瓶頸時,一支來自國內(nèi)頂尖學(xué)術(shù)機構(gòu)和華為合作的研發(fā)團隊,在去年12月悄然給出了破解的錦囊。

研究團隊想到了一個辦法,與其依賴稀疏的“動作”,倒不如讓模型去學(xué)習(xí)稠密的“世界”,把預(yù)測未來圖像作為一項稠密的自監(jiān)督訓(xùn)練任務(wù),也就是利用世界模型提供“稠密”的自監(jiān)督信號,大量的實驗最終證實了:在稀疏的動作監(jiān)督下,VLA模型的性能會隨著數(shù)據(jù)量的增加迅速飽和,所謂的Data Scaling Law效應(yīng)在此大打折扣。



也可以理解成傳統(tǒng)的VLA僅依賴稀疏的動作監(jiān)督,而DriveVLA-W0是額外引入了稠密的視覺預(yù)測任務(wù),迫使模型去理解環(huán)境,當(dāng)模型被要求預(yù)測下一幀的完整視覺畫面時,它就必須得學(xué)習(xí)和理解這個物理世界的真實運行規(guī)律,這為VLA模型提供了更豐富和稠密的學(xué)習(xí)信號,從根本上緩解了“監(jiān)督赤字”,這套方案不僅提供了清晰的解題思路,也展示了世界模型在“生成”之外的另一條核心價值路徑。

09、蔣安慶:在概率的叢林里,為智駕找尋“最優(yōu)解”

學(xué)術(shù)成果:《DiffVLA:Vision-Language Guided Diffusion Planning for Autonomous Driving》(視覺-語言引導(dǎo)擴散規(guī)劃賦能自動駕駛)

第一作者:蔣安慶(圖片資料暫時空缺),清華大學(xué)智能產(chǎn)業(yè)研究院(AIR) ;合著機構(gòu):博世中國研究院

發(fā)表時間:2025年6月3日;CVPR 2025正式收錄于同年6月17日



當(dāng)你開車進入一個極其擁堵的路口,左側(cè)有加塞的公交車,右側(cè)有亂穿馬路的電動車,作為人類司機,你的大腦其實瞬間模擬了無數(shù)種可能:是稍微減速避讓?還是果斷切斜前方通過?這種“多路徑生成與優(yōu)中選優(yōu)”的能力,正是VLA最稀缺的。

2025年初,蔣安慶與研發(fā)團隊注意到了傳統(tǒng)端到端模型的一個通。河捎诓捎脝我坏膭幼黝A(yù)測,模型在復(fù)雜博弈中往往顯得“優(yōu)柔寡斷”,或者只能給出一個平庸的平均方案。為了破解這一局限,蔣安慶(團隊)將大語言模型(LLM)的常識推理能力與擴散模型(Diffusion Model)的生成能力巧妙結(jié)合,提出了DiffVLA框架,并經(jīng)過博世中國研究院進行了大量驗證,來確保這套復(fù)雜的數(shù)學(xué)推演能夠真正適配真實的行車邏輯。



DiffVLA的核心創(chuàng)新在于,它不再讓模型只猜一個“標(biāo)準(zhǔn)答案”。模型會首先通過視覺和語言指令理解當(dāng)前的復(fù)雜語義(如路況擁堵,請尋找超車空隙),隨后利用擴散模型在空間中像“潑墨”一樣生成大量可能的候選軌跡。最關(guān)鍵的一步是,系統(tǒng)會根據(jù)語言指令的引導(dǎo),從這些候選方案中篩選出最符合安全、效率與舒適度的路徑。它賦予了自動駕駛系統(tǒng)一種前所未有的“決策彈性”,也為自動駕駛的閉環(huán)性能樹立了新的標(biāo)桿。

10、林宏彬:讓端到端學(xué)會“思考”

學(xué)術(shù)成果:《FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model》(基于潛在思維鏈推理的自動駕駛軌跡優(yōu)化框架)

第一作者:林宏彬,香港中文大學(xué)(深圳)博士 ;合著機構(gòu):小鵬汽車

發(fā)表時間:2025年12月12日



(圖片來源于網(wǎng)絡(luò))

現(xiàn)在的端到端模型反應(yīng)雖然很快,但在處理復(fù)雜路口博弈時,往往顯得有些“一根筋”。它們更像是一個只有肌肉記憶、不懂戰(zhàn)術(shù)的短跑運動員,看到障礙物會躲避,卻不理解“躲避”背后的連鎖反應(yīng)。人類司機的強大就在于會預(yù)判,比如看到路邊有皮球,腦子里會立刻跳出“后面可能會跟著小孩”,這個就叫邏輯鏈。那么,能不能給自動駕駛也裝上這種“先思考、再動手”的大腦?

2025年末,林宏彬和他的團隊,與小鵬汽車一起試圖去破解智駕大模型“邏輯缺失”的頑疾。他們面臨的挑戰(zhàn)極其硬核:大語言模型的思維鏈(CoT)雖然聰明,但極度消耗算力,如果車在路口思考太久,就會產(chǎn)生致命的延遲。

他們想到了一個辦法,不在冗余的像素世界里思考,而是在極度壓縮的“潛空間(Latent Space)”里,點亮思維鏈。這套名為FutureX的框架,為系統(tǒng)設(shè)計了一個“自動思考開關(guān)”,在路況簡單的環(huán)路上,模型保持高效的瞬時反應(yīng);一旦進入人車混行的復(fù)雜工況,開關(guān)開啟,模型便會在潛空間里進行多步未來演化的“邏輯預(yù)演”。

實戰(zhàn)數(shù)據(jù)顯示了這套“三思而后行”方案的威力。在NavSim等閉環(huán)模擬中,F(xiàn)utureX顯著降低了碰撞率,展現(xiàn)了極強的博弈能力。這份成果最大的意義在于,它證明了端到端系統(tǒng)不應(yīng)只是機械地模仿動作,而應(yīng)具備邏輯推演的能力,這讓智駕大腦告別了盲目執(zhí)行,揭開了屬于智駕系統(tǒng)的“認(rèn)知”大幕。

11、特別推薦:這篇論文發(fā)表10年,含金量還在上升

盡管本文人選的入圍范圍,是2025年內(nèi)在頂會/頂刊發(fā)表過高引論文的開發(fā)者,但有一個例外人選不得不提:任少卿,現(xiàn)任蔚來副總裁、自動駕駛研發(fā)首席專家,中國科技大學(xué)講座教授。



他在2015年作為第一作者發(fā)表的《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》(基于區(qū)域建議網(wǎng)絡(luò)的實時目標(biāo)檢測),這篇讓深度學(xué)習(xí)真正具備“上車資格”的開山之作,經(jīng)過10年時間,成為智能駕駛領(lǐng)域引用數(shù)最高的(11.5萬次)經(jīng)典論文。直到今天,它依然是無數(shù)感知算法的根基,在NeurIPS 2025(人工智能頂會)獲得了時間檢驗獎。



回到2015年,那是一個感知算法極慢、完全無法用于動態(tài)駕駛的年代。人們面對的是一個幾乎無解的矛盾:想要識別得準(zhǔn),計算量就大得沒法跑;想要跑得快,準(zhǔn)確率就慘不忍睹。任少卿用一種近乎優(yōu)雅的物理直覺,提出了“候選區(qū)域網(wǎng)絡(luò)(RPN)”。

這個設(shè)計的精妙之處在于,它讓神經(jīng)網(wǎng)絡(luò)學(xué)會了“先看一眼哪里像物體”,并實現(xiàn)了特征的完美共享,直接把物體檢測的速度提到了“準(zhǔn)實時”的門檻。

10年后的今天,《Faster R-CNN》所開創(chuàng)的錨點框和區(qū)域建議思想,影響力還在增長。超過11.5萬次的引用記錄,證明了它作為感知論文“北斗星參數(shù)圖片)”般的地位。

寫在最后:群星閃耀的時刻,再一次開始了

在跨越拐點的過程中,必然有分歧和爭論,有時聲音還蠻大,但都是插曲,因為爭論過后不久,方向和步調(diào)很快就變得一致起來。

目前,在中國智駕的前面,有且僅有一座高山,大家離他越來越近,近的幾乎已經(jīng)可以聽到他的心跳了。這種新鮮感讓人興奮不已。

但越過這座山之后,前方就是茫茫黑夜,再無高舉火把的手。在歷史的刻度上,我們即將到達(dá)人類認(rèn)知的新邊疆。巨大的孤獨即將襲來。怎么辦?

不知道。

但我們知道,孤獨和無助,并不是人類前進的障礙,傲慢和無知才是。正因為孤獨和無助,才讓人類得以更好的連接。而美好的連接,會激發(fā)出探索未知的勇氣。本文推薦的11篇重磅論文及其第一作者,和合著團隊(機構(gòu)),正是勇敢探索未知的范例。

看到他們,那些年輕人的臉,相信你會有一種雞皮疙瘩炸起的感覺:群星閃耀的時刻,再一次開始了。

任少卿在十年前種下的那顆感知的種子,已升起為一顆大星。陳小雪用0.4秒的奇跡,讓機器學(xué)會了如何在瞬息間復(fù)刻出“平行世界”;楊磊為那些輕飄飄的視覺幻覺釘上了物理的骨骼。他們解決的是“真實感”的問題,讓智駕的進化擁有了無窮無盡、且絕對可信的數(shù)字戰(zhàn)場。

當(dāng)數(shù)據(jù)量堆疊到令人窒息的千萬小時時,李英艷敏銳地捕捉到了“監(jiān)督赤字”的陰影,她用世界模型作為杠桿,撬動了數(shù)據(jù)進化的第二曲線。這種對效率的極致追求,與曹家俊那把剪向冗余Token的“手術(shù)刀”交相輝映——他們一個在為大腦擴容,一個在為神經(jīng)減負(fù)。

更令人欣慰的變化,發(fā)生在機器的“性格”里。鄭宇鵬試圖在潛空間里尋找機器的自我意識,讓“自監(jiān)督”取代了昂貴的人工標(biāo)注;而林宏彬和蔣安慶則分別用“思維鏈”和“擴散規(guī)劃”,教會了模型在復(fù)雜的人性博弈中學(xué)會三思而后行。從此,車不再是冰冷的鐵盒,它開始具備了某種程度上的“博弈直覺”與“決策彈性”。

最后,馬楠教授與李德毅院士的具身智能范式,則像一顆最新的星,照亮了更遠(yuǎn)的方向:智駕不應(yīng)只是看圖做題的算法,它應(yīng)該是具備社會常識、能與人類共情的生命體。

這些勇敢的充滿創(chuàng)造力的探索,展現(xiàn)了當(dāng)代中國智駕開發(fā)者們的格局和氣象。在1月31日舉行的【2025智駕天梯榜年度盛典】上,我們將邀請他們中的一部分,作為“2025智駕開發(fā)者50人”的代表進行現(xiàn)場分享,敬請關(guān)注。2025中國智駕開發(fā)者50人(第一集)

第一電動編輯部

茨威格說過,一個真正具有世界歷史意義的時刻 —— 一個人類群星閃耀的時刻出現(xiàn)以前,必然會有漫長的歲月無謂地流逝而去。

類似的話,中國古人也說過:“天不生仲尼,萬古如長夜”。你知道的,仲尼來的時候,不是一個人,而是一票人,他們一起爭奇斗艷,改寫了其后的2500年。



不知道歷史進度條是否被突然加速了,還是這一代人原本就是這么幸運,還是別的什么——在2024-2025年的某些時刻,我們忽然有了這樣的感覺:群星正在遙遙升起,即將劃過頭頂?shù)囊箍铡?/p>

具體的說,是2024年11月和2025年9月,中國智駕行業(yè)突然出現(xiàn)的兩次拐點,在【智駕大賽】上表現(xiàn)為參賽成績突然大幅提升,被參賽車友和裁判驚訝地捕捉到,快速溢出到更大范圍的車友群里。

把這兩次拐點串起來看,你會看到一條清晰的脈絡(luò),這就是國內(nèi)智駕行業(yè)頭部陣營過去兩年里攀登天梯的脈絡(luò):

1、E2E 車端模型(參數(shù)量 2B - 4B),從 2024年Q4 的 “兩段式(感知 + 規(guī)控分階段)” 迭代為 2025年Q4 的 “一段式(單模型全流程)”,在結(jié)構(gòu)化城市場景的能力與體驗上已逼近特斯拉 FSD V13;

2、云端基座模型(參數(shù)量多為30B-70B),從2024年Q4 的 “BEV+OCC+Transformer(感知底座)”,迭代升級為 2025年Q4 的“VLA(認(rèn)知決策)+WA(世界建模)+RL(行為優(yōu)化)+Transformer(核心骨干)”復(fù)合架構(gòu) —— 在保留原感知優(yōu)勢的基礎(chǔ)上,融入多模態(tài)理解與因果推理能力,打開了跨域應(yīng)用的大門。

2025年度,誰在推動智駕進步?今天起,我們將推出《2025中國智駕開發(fā)者50人》系列,分5期刊發(fā)。

入圍的80多位候選人,絕大多數(shù)在國內(nèi),少數(shù)在國外,個別是海外華人。他們的研發(fā)成果,體現(xiàn)在過去兩年里發(fā)生的兩次智駕拐點上。但其中的大部分,都很低調(diào)。

入圍的標(biāo)準(zhǔn)有兩條(個別極其優(yōu)秀者例外):

1、2025年內(nèi),在全球頂會頂刊發(fā)表高引論文的第一作者(含合著團隊);

2、2025《智駕天梯榜》年度榜單上榜方案商和主機廠的核心研發(fā)人員。

經(jīng)過核實與比對,最終挑選出50位有代表性的人物。他們的身份,大體分四類:

1、學(xué)術(shù)研究者,在頂會頂刊上發(fā)表高引論文的第一作者(含合著團隊);

2、研發(fā)組織者,定投資、定方向、定目標(biāo)、定范式、定團隊的人,類似奧本海默;

3、研發(fā)骨干,負(fù)責(zé)某一個具體方向的研發(fā)統(tǒng)籌,并和兄弟們一起拼搏出成果的人;

4、產(chǎn)品和工程負(fù)責(zé)人,負(fù)責(zé)產(chǎn)品定義、用戶交互、工程實施的人,做出了非常棒的產(chǎn)品體驗,或者保障了連續(xù)的工程交付表現(xiàn)。

今天第一期,推薦11篇卓越論文及其作者。每篇論文都可能是團隊協(xié)作完成,亦或由不同單位之間的團隊協(xié)作完成。本文主要記錄第一作者,兼帶介紹合著團隊(排名不分先后)。

01、楊磊:在“海拔高度”中尋找純視覺感知的精確性

學(xué)術(shù)成果:《BEVHeight++: Toward Robust Visual Centric 3D Object Detection》(3D目標(biāo)檢測通用框架)

第一作者:楊磊,清華大學(xué)2020級博士研究生;合著團隊:清華大學(xué)李駿院士團隊

發(fā)表時間:2025年3月11日(發(fā)表于IEEE TPAMI)



(圖片來源:清華大學(xué)研究生教育)

2023年前后,視覺3D檢測正陷入一場“深度糾結(jié)”——行業(yè)標(biāo)配的做法是先預(yù)測“深度”,再投影。但他敏銳察覺到了視覺的天然軟肋:攝像頭預(yù)測的深度就像盲人摸象,尤其在遇到坡道或車輛顛簸時,預(yù)測出的深度會產(chǎn)生劇烈抖動,導(dǎo)致感知結(jié)果“滿屏亂飄”。

那什么是可靠的?他和團隊想到了“高度”。即便地面有坡度,車與路面的相對高度是相對穩(wěn)定的物理量。這就好比在原本松動的地基(深度)旁,打下了一根名為“海拔高度”的鋼筋。通過對像素高度信息的挖掘,在不增加額外硬件傳感器(不加LiDAR)的情況下,提升了視覺感知在三維空間中的定位精度。



這意味著,可以用成本可控的攝像頭方案,達(dá)到接近昂貴傳感器的感知效果,這對降低量產(chǎn)車成本至關(guān)重要,所以BEVHeight++的角色,是“全場景感知的穩(wěn)定器”,它讓自動駕駛汽車在面對復(fù)雜的上下坡、顛簸路面,以及在與智能路側(cè)設(shè)備“對話”時,擁有一雙更準(zhǔn)確、更不容易被欺騙的“三維眼睛”,它讓純視覺3D感知不再是一個“脆而易碎”的估算模型,而變成了一個具備幾何約束的穩(wěn)定工程方案。

這份學(xué)術(shù)成果的意義,是讓自動駕駛系統(tǒng)在高速場景下的判斷更穩(wěn),在復(fù)雜起伏的城市立交橋上,實現(xiàn)了打通“車路協(xié)同”最后一步的可能。

02、曹家。涸谒懔t線面前,讓模型“少看一點”

學(xué)術(shù)成果:《FastDriveVLA:Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》(基于重建的新型視覺token剪枝框架)

第一作者:曹家俊,北京大學(xué)計算機學(xué)院多媒體信息處理全國重點實驗室;合著機構(gòu):小鵬汽車

發(fā)表時間:2025年11月14日;AAAI 2026收錄公布于2025年12月28日



(圖片來源:Google Scholar)

VLA(視覺-語言-動作大模型),它有著驚人的駕駛智慧,但體積大得驚人。成千上萬個視覺token隨時都在像潮水一樣涌入狹小的計算單元,巨大的計算開銷增加了推理延遲,算力總有跟不上的時候,這就出現(xiàn)了兩個問題:計算跑不動、關(guān)鍵信息丟失。在瞬息萬變的時刻智駕出現(xiàn)致命“卡頓”,該怎么解決?

去年,在北京大學(xué)的實驗室里,曹家。▓F隊)和小鵬汽車開始審視那些被模型奉為圭臬的視覺信息——天空中的流云、路邊早已路過的廣告牌,這些token占據(jù)了大量算力資源,但對VLA輸出的行為貢獻不大。他們沒有粗魯?shù)亍翱车簟边@些畫面,而是像一位精細(xì)的外科醫(yī)生,開發(fā)出了一套不改動原模型權(quán)重,但能將計算負(fù)載降低75%以上的token剪枝框架。



在研發(fā)FastDriveVLA的那段日子里,他們反復(fù)測試“刪除”的邊界,讓模型去學(xué)習(xí),哪些像素即使消失了,也不會影響對駕駛意圖的判斷,用MAE風(fēng)格的像素重建技術(shù),通過評估Token對前景區(qū)域重建的貢獻度來判斷其重要性,當(dāng)最終實現(xiàn)7.5倍的計算量縮減、且在nuScenes測試中幾乎不損失精度時,這份學(xué)術(shù)成果顯示出了它最大的意義,填補了智駕領(lǐng)域缺乏精細(xì)前景標(biāo)注的空白,賦予了VLA“排除雜念”的本能,讓智能模型在邁向L4時變得更輕盈、更敏捷。

03、魯洪良:為冰冷死板的機器注入“社會直覺”

學(xué)術(shù)成果:《Empowering safer socially sensitive autonomous vehicles using human-plausible cognitive encoding》(利用類人認(rèn)知編碼賦能更安全、具有社會敏感性的自動駕駛汽車)

第一作者:魯洪良,香港科技大學(xué)(廣州)博士;合著團隊:東南大學(xué)、香港科技大學(xué)等團隊

發(fā)表時間:2025年5月19日(PNAS《美國國家科學(xué)院院刊》)



(圖片來源于網(wǎng)絡(luò))

好用的智能駕駛,應(yīng)該是同時具備高效和安全的。眼下,各類智駕系統(tǒng)都太“有禮貌”了,而這種禮貌是源于對規(guī)則的死板遵守,而非對社會的真正理解。這種機器人的生硬,往往是引發(fā)路怒和交通事故的隱性誘因。

于是,魯洪良與他的團隊,決定做一個大膽的跨界:把人類的“認(rèn)知編碼”引入到代碼。這聽起來甚至有些哲學(xué):如何量化“禮讓”的權(quán)重?如何讓車感知行人多變的運動軌跡?

他在論文中提出的“擬人化認(rèn)知編碼”,讓車輛開始具備某種“社會直覺”。比如借鑒神經(jīng)科學(xué)概念,通過編碼給系統(tǒng)看得到的交通參與者做一次風(fēng)險分級,同時賦予他們差異化權(quán)重,再將加權(quán)后的風(fēng)險整合成“行為信念”,最終動態(tài)反映與潛在風(fēng)險的時空關(guān)聯(lián)性。這將使得智駕系統(tǒng),會預(yù)判自身動作對周邊交通流的影響(比如突然變道是否會引發(fā)后車急剎),從而實現(xiàn)更平順的社會化交互。



當(dāng)算法跑通的那一刻,不再是冷冰冰的概率分布,而是車輛在路口優(yōu)雅地與其他交通參與者達(dá)成的默契。所以這份學(xué)術(shù)成果的意義,讓我們看到了智駕落地的終點,不是冰冷的機器接管世界,而是機器能與人類共建交通規(guī)則。

04、明南:看清腳下路面的“褶皺”

學(xué)術(shù)成果:《TA-TOS: Terrain-Aware Tiny Obstacle Segmentation Based on MRF Road Modeling Using 3-D LiDAR Scans》(基于馬爾可夫隨機場的地形自適應(yīng)小型障礙物分割算法)

第一作者:明南,上海交通大學(xué)自動化與感知學(xué)院2023級碩士;合著團隊:上海交通大學(xué)智能網(wǎng)聯(lián)電動汽車創(chuàng)新中心團隊

發(fā)表時間:2025年6月10日(發(fā)表于IEEE Xplor)



(圖片來源于:上海交大智能網(wǎng)聯(lián)創(chuàng)新中心)

在上海交大智能網(wǎng)聯(lián)汽車中心的實驗室里,明南和團隊不斷在嘗試破解一個難題:除了肉眼可見的人、車和被標(biāo)注進白名單的常見異型障礙物之外,有沒有一種不依賴GPU性能,專門解決坑洼碎石等小型障礙物的高精度檢測方法呢?

在研發(fā)TA-TOS期間,明南正處于碩士求學(xué)的高強度階段,這也是智駕技術(shù)火的發(fā)燙的技術(shù)大年,行業(yè)里都在追求“大模型”,但很少有人愿意俯下身子去研究路面的“褶皺”。



在這份學(xué)術(shù)成果里,他們像是一個手持放大鏡的偵探,引入了馬爾可夫隨機場(MRF)來對路面建模,經(jīng)過漫長的打磨和一次次修正,最終通過負(fù)指數(shù)能量函數(shù)實現(xiàn)了障礙物的魯棒分割。這為智駕系統(tǒng)補上了一塊“非平整路工況”的關(guān)鍵拼圖。這份學(xué)術(shù)成果,也讓外界注意到,真正的安全好用的智駕系統(tǒng),不僅應(yīng)具備強博弈能力,更應(yīng)首先能看清腳下的路。

05、鄭宇鵬:在無標(biāo)注的荒原上,讓機器學(xué)會自我進化

學(xué)術(shù)成果:《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》(融合多模態(tài)駕駛意圖的物理潛世界模型端到端自動駕駛框架)

第一作者:鄭宇鵬(圖片資料暫時空缺),中國科學(xué)院自動化研究所2024級博士;合著機構(gòu):理想汽車

發(fā)表時間:2025年7月1日

能不能跳過人工標(biāo)注,讓汽車直接從原始傳感器數(shù)據(jù)里,自己“悟”出來一則駕駛之道?

2025年7月前,正在攻讀博士的鄭宇鵬和正全力推進下一代智能駕駛技術(shù)的理想汽車,就一同在探索這個問題,到底能不能實現(xiàn)?



學(xué)術(shù)團隊和理想團隊一邊打磨物理潛空間表征理論,一邊拿著不斷投喂的新模型做實戰(zhàn),最終他們發(fā)現(xiàn),其實系統(tǒng)并不需要知道路上的物體叫什么,只需要知道在某種“駕駛意圖”下,未來的物理空間會怎么去演化,這就是World4Drive的核心:一個“意圖感知”的物理潛世界模型。它不再像傳統(tǒng)的視覺模型那樣,耗費巨大算力生成華麗的像素畫面,而是在干澀但高效的“潛空間”里腦補出多條候選軌跡,然后再拿著預(yù)測結(jié)果和實際觀測做一輪自監(jiān)督比對,哪條路徑最穩(wěn)、哪條路徑最不容易碰撞,最終完成“閉環(huán)自校準(zhǔn)”。



實戰(zhàn)下來的效果驚人,在完全沒有人工標(biāo)注的情況下,碰撞率降低了46.7%,軌跡偏差縮小了18.1%,訓(xùn)練收斂速度提升了整整3.75倍。這意味著系統(tǒng)可以擺脫對昂貴標(biāo)注數(shù)據(jù)的依賴,在缺失外部標(biāo)注的極端環(huán)境下也能做出安全決策。這不僅為城區(qū)NOA的決策博弈提供了關(guān)鍵路徑,也標(biāo)志著智駕會從“看見世界”邁向“理解物理規(guī)律”完成進化。

06、陳小雪:0.4秒,讓仿真訓(xùn)練進入“大批量自動化生成時代”

學(xué)術(shù)成果:《DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images》(自動駕駛仿真場景的無姿態(tài)圖像4D前饋重建方案)

第一作者:陳小雪,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)趙昊課題組;合著機構(gòu):小米汽車

發(fā)表時間:2025年12月2日



(圖片來源于:清華大學(xué)智能產(chǎn)業(yè)研究院)

智駕行業(yè)一直有個“昂貴的門檻”:想要把一段平凡的路測視頻,復(fù)刻成可以在電腦里反復(fù)練習(xí)的4D仿真場景,傳統(tǒng)方法(如3DGS或NeRF)通常需要針對每個視頻進行長達(dá)數(shù)小時、甚至數(shù)天的計算優(yōu)化。更糟糕的是,如果傳感器的外參標(biāo)定有一點點偏差,生成的畫面就會像被打碎的鏡子一樣重影。對于追求“發(fā)布即量產(chǎn)、量產(chǎn)即好用”的智能駕駛系統(tǒng)來說,這種數(shù)據(jù)處理方式談不上高效,更談不上緊跟模型迭代的腳步。有沒有破局之道?

已經(jīng)在清華AIR實驗室攻讀博士的陳小雪,她想找到這個答案,也包括小米汽車。2025年,學(xué)術(shù)團隊和小米汽車,日復(fù)一日的在挑戰(zhàn)這個讓行業(yè)頭疼已久的效率瓶頸:能不能跳過漫長的訓(xùn)練,實現(xiàn)“瞬間復(fù)刻”?



學(xué)術(shù)團隊在扎實的幾何視覺理論基礎(chǔ)上,大膽提出了“前饋重建”的新范式,企方則拿出了端到端路測原始數(shù)據(jù),雙方在實戰(zhàn)中反復(fù)磨合,最終誕生的DGGT框架展現(xiàn)了令人震撼的性能:它將原本數(shù)小時的重建過程縮短到了驚人的0.4秒。

這意味著,智駕每天產(chǎn)生的數(shù)百萬小時路測視頻,幾乎可以實時地轉(zhuǎn)化為可交互的4D仿真教材!更具意義的是,參與論文研發(fā)的團隊還攻克了“Unposed(無位姿)”難題,讓系統(tǒng)能直接處理存在標(biāo)定誤差的原始數(shù)據(jù)。這份成果不僅為“閉環(huán)仿真”插上了翅膀,更標(biāo)志著智駕仿真從“手工作坊式”的精雕細(xì)琢,正式跨入了“工業(yè)級流水線”的瞬間生成時代。

07、馬楠:讓智能駕駛“活過來”

學(xué)術(shù)成果:《Embodied Interactive Intelligence Towards Autonomous Driving》(邁向自動駕駛的核心技術(shù)框架)

第一作者:馬楠,北京工業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院教授;合著團隊:李德毅團隊(中國工程院院士)

發(fā)表時間:2025年12月3日(發(fā)表于Engineering)



(圖為馬楠;圖片來源于:北京工業(yè)大學(xué)新聞網(wǎng))

當(dāng)全行業(yè)都在通過卷參數(shù)、卷算力來提升感知精度時,馬楠教授與李德毅院士注意到了一個被忽略的深層危機:自動駕駛車開得越來越像“準(zhǔn)時卻生硬的機器人”。在擁堵的路口,它們要么因為過于保守而永遠(yuǎn)動彈不了,要么因為無法預(yù)判行人的運動軌跡而頻繁點頭急剎。這種“缺乏人味”的表現(xiàn),揭示了傳統(tǒng)“感知→規(guī)劃→控制”鏈條的局限。



(圖為李德毅;圖片來源于:網(wǎng)絡(luò))

2025年底,兩位學(xué)者和他們的團隊,在“駕駛腦”理論的基礎(chǔ)上,正式提出了“具身交互智能”架構(gòu)。這不再是針對某一個算法的縫縫補補,而是一場由學(xué)術(shù)界發(fā)起的范式革命:將自動駕駛從“看圖做題”的計算機視覺任務(wù),徹底轉(zhuǎn)變?yōu)椤熬呱碇悄荏w”與物理環(huán)境的博弈與協(xié)作。

論文中尖銳地指出了當(dāng)下的三大難題:意圖對齊難、泛化能力弱、被動響應(yīng)多。為了解決這些痛點,團隊提出了一個稱為UniCVE的閉環(huán)智能架構(gòu),同時圍繞“感知-認(rèn)知-行為”三層模型展開,構(gòu)建了一套讓汽車具備“物理直覺”和“社會常識”的認(rèn)知模型,讓系統(tǒng)根據(jù)實時反饋的信息,不斷優(yōu)化內(nèi)部預(yù)測與行為決策。這讓最終的智駕行為,不再是單純的避障,而是真正的像老司機一樣,通過輕微的位移試探或意圖表達(dá),與周圍的行人、車輛進行主動溝通。



雖然距離這種完全擬人化的駕駛?cè)媛涞厣行钑r日,但這份科研成果仍具有劃時代的意義,這份構(gòu)想已成為通往L5級無人駕駛的關(guān)鍵理論支柱,它為“后端到端”時代的進化指明了終極方向——讓車輛從一臺“按線行駛的機器”,變成有交互能力的“智能生命體”。

08、中科院自動化所:用世界模型解決“監(jiān)督赤字”

學(xué)術(shù)成果:《DriveVLA-W0:World Models Amplify Data Scaling Law in Autonomous Driving》(基于世界模型增強自動駕駛數(shù)據(jù)規(guī);(yīng)的研究)

署名作者:Liyingyan(英譯李艷英,資料暫時空缺)等多位中國科學(xué)院自動化研究所成員;合著機構(gòu):引望智能

發(fā)表時間:2025年12月18日

自動駕駛領(lǐng)域一直信奉著一條“暴力美學(xué)”定律——數(shù)據(jù)規(guī)模定律(Scaling Law):只要投喂的數(shù)據(jù)足夠多,模型就會越聰明。然而,2025年的開發(fā)者們普遍撞上了一堵墻:監(jiān)督赤字(Supervision Deficit)。



啥是“監(jiān)督赤字”?在VLA模型里,輸入的是高維且稠密的視覺信息流,但它的監(jiān)督信號卻往往是低維且稀疏的駕駛動作,模型的大部分表征能力都被白白浪費了,這就導(dǎo)致了模型無法充分學(xué)習(xí)復(fù)雜的行為。正當(dāng)學(xué)術(shù)界和開發(fā)者們熱議這一瓶頸時,一支來自國內(nèi)頂尖學(xué)術(shù)機構(gòu)和華為合作的研發(fā)團隊,在去年12月悄然給出了破解的錦囊。

研究團隊想到了一個辦法,與其依賴稀疏的“動作”,倒不如讓模型去學(xué)習(xí)稠密的“世界”,把預(yù)測未來圖像作為一項稠密的自監(jiān)督訓(xùn)練任務(wù),也就是利用世界模型提供“稠密”的自監(jiān)督信號,大量的實驗最終證實了:在稀疏的動作監(jiān)督下,VLA模型的性能會隨著數(shù)據(jù)量的增加迅速飽和,所謂的Data Scaling Law效應(yīng)在此大打折扣。



也可以理解成傳統(tǒng)的VLA僅依賴稀疏的動作監(jiān)督,而DriveVLA-W0是額外引入了稠密的視覺預(yù)測任務(wù),迫使模型去理解環(huán)境,當(dāng)模型被要求預(yù)測下一幀的完整視覺畫面時,它就必須得學(xué)習(xí)和理解這個物理世界的真實運行規(guī)律,這為VLA模型提供了更豐富和稠密的學(xué)習(xí)信號,從根本上緩解了“監(jiān)督赤字”,這套方案不僅提供了清晰的解題思路,也展示了世界模型在“生成”之外的另一條核心價值路徑。

09、蔣安慶:在概率的叢林里,為智駕找尋“最優(yōu)解”

學(xué)術(shù)成果:《DiffVLA:Vision-Language Guided Diffusion Planning for Autonomous Driving》(視覺-語言引導(dǎo)擴散規(guī)劃賦能自動駕駛)

第一作者:蔣安慶(圖片資料暫時空缺),清華大學(xué)智能產(chǎn)業(yè)研究院(AIR) ;合著機構(gòu):博世中國研究院

發(fā)表時間:2025年6月3日;CVPR 2025正式收錄于同年6月17日



當(dāng)你開車進入一個極其擁堵的路口,左側(cè)有加塞的公交車,右側(cè)有亂穿馬路的電動車,作為人類司機,你的大腦其實瞬間模擬了無數(shù)種可能:是稍微減速避讓?還是果斷切斜前方通過?這種“多路徑生成與優(yōu)中選優(yōu)”的能力,正是VLA最稀缺的。

2025年初,蔣安慶與研發(fā)團隊注意到了傳統(tǒng)端到端模型的一個通病:由于采用單一的動作預(yù)測,模型在復(fù)雜博弈中往往顯得“優(yōu)柔寡斷”,或者只能給出一個平庸的平均方案。為了破解這一局限,蔣安慶(團隊)將大語言模型(LLM)的常識推理能力與擴散模型(Diffusion Model)的生成能力巧妙結(jié)合,提出了DiffVLA框架,并經(jīng)過博世中國研究院進行了大量驗證,來確保這套復(fù)雜的數(shù)學(xué)推演能夠真正適配真實的行車邏輯。



DiffVLA的核心創(chuàng)新在于,它不再讓模型只猜一個“標(biāo)準(zhǔn)答案”。模型會首先通過視覺和語言指令理解當(dāng)前的復(fù)雜語義(如路況擁堵,請尋找超車空隙),隨后利用擴散模型在空間中像“潑墨”一樣生成大量可能的候選軌跡。最關(guān)鍵的一步是,系統(tǒng)會根據(jù)語言指令的引導(dǎo),從這些候選方案中篩選出最符合安全、效率與舒適度的路徑。它賦予了自動駕駛系統(tǒng)一種前所未有的“決策彈性”,也為自動駕駛的閉環(huán)性能樹立了新的標(biāo)桿。

10、林宏彬:讓端到端學(xué)會“思考”

學(xué)術(shù)成果:《FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model》(基于潛在思維鏈推理的自動駕駛軌跡優(yōu)化框架)

第一作者:林宏彬,香港中文大學(xué)(深圳)博士 ;合著機構(gòu):小鵬汽車

發(fā)表時間:2025年12月12日



(圖片來源于網(wǎng)絡(luò))

現(xiàn)在的端到端模型反應(yīng)雖然很快,但在處理復(fù)雜路口博弈時,往往顯得有些“一根筋”。它們更像是一個只有肌肉記憶、不懂戰(zhàn)術(shù)的短跑運動員,看到障礙物會躲避,卻不理解“躲避”背后的連鎖反應(yīng)。人類司機的強大就在于會預(yù)判,比如看到路邊有皮球,腦子里會立刻跳出“后面可能會跟著小孩”,這個就叫邏輯鏈。那么,能不能給自動駕駛也裝上這種“先思考、再動手”的大腦?

2025年末,林宏彬和他的團隊,與小鵬汽車一起試圖去破解智駕大模型“邏輯缺失”的頑疾。他們面臨的挑戰(zhàn)極其硬核:大語言模型的思維鏈(CoT)雖然聰明,但極度消耗算力,如果車在路口思考太久,就會產(chǎn)生致命的延遲。

他們想到了一個辦法,不在冗余的像素世界里思考,而是在極度壓縮的“潛空間(Latent Space)”里,點亮思維鏈。這套名為FutureX的框架,為系統(tǒng)設(shè)計了一個“自動思考開關(guān)”,在路況簡單的環(huán)路上,模型保持高效的瞬時反應(yīng);一旦進入人車混行的復(fù)雜工況,開關(guān)開啟,模型便會在潛空間里進行多步未來演化的“邏輯預(yù)演”。

實戰(zhàn)數(shù)據(jù)顯示了這套“三思而后行”方案的威力。在NavSim等閉環(huán)模擬中,F(xiàn)utureX顯著降低了碰撞率,展現(xiàn)了極強的博弈能力。這份成果最大的意義在于,它證明了端到端系統(tǒng)不應(yīng)只是機械地模仿動作,而應(yīng)具備邏輯推演的能力,這讓智駕大腦告別了盲目執(zhí)行,揭開了屬于智駕系統(tǒng)的“認(rèn)知”大幕。

11、特別推薦:這篇論文發(fā)表10年,含金量還在上升

盡管本文人選的入圍范圍,是2025年內(nèi)在頂會/頂刊發(fā)表過高引論文的開發(fā)者,但有一個例外人選不得不提:任少卿,現(xiàn)任蔚來副總裁、自動駕駛研發(fā)首席專家,中國科技大學(xué)講座教授。



他在2015年作為第一作者發(fā)表的《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》(基于區(qū)域建議網(wǎng)絡(luò)的實時目標(biāo)檢測),這篇讓深度學(xué)習(xí)真正具備“上車資格”的開山之作,經(jīng)過10年時間,成為智能駕駛領(lǐng)域引用數(shù)最高的(11.5萬次)經(jīng)典論文。直到今天,它依然是無數(shù)感知算法的根基,在NeurIPS 2025(人工智能頂會)獲得了時間檢驗獎。



回到2015年,那是一個感知算法極慢、完全無法用于動態(tài)駕駛的年代。人們面對的是一個幾乎無解的矛盾:想要識別得準(zhǔn),計算量就大得沒法跑;想要跑得快,準(zhǔn)確率就慘不忍睹。任少卿用一種近乎優(yōu)雅的物理直覺,提出了“候選區(qū)域網(wǎng)絡(luò)(RPN)”。

這個設(shè)計的精妙之處在于,它讓神經(jīng)網(wǎng)絡(luò)學(xué)會了“先看一眼哪里像物體”,并實現(xiàn)了特征的完美共享,直接把物體檢測的速度提到了“準(zhǔn)實時”的門檻。

10年后的今天,《Faster R-CNN》所開創(chuàng)的錨點框和區(qū)域建議思想,影響力還在增長。超過11.5萬次的引用記錄,證明了它作為感知論文“北斗星”般的地位。

寫在最后:群星閃耀的時刻,再一次開始了

在跨越拐點的過程中,必然有分歧和爭論,有時聲音還蠻大,但都是插曲,因為爭論過后不久,方向和步調(diào)很快就變得一致起來。

目前,在中國智駕的前面,有且僅有一座高山,大家離他越來越近,近的幾乎已經(jīng)可以聽到他的心跳了。這種新鮮感讓人興奮不已。

但越過這座山之后,前方就是茫茫黑夜,再無高舉火把的手。在歷史的刻度上,我們即將到達(dá)人類認(rèn)知的新邊疆。巨大的孤獨即將襲來。怎么辦?

不知道。

但我們知道,孤獨和無助,并不是人類前進的障礙,傲慢和無知才是。正因為孤獨和無助,才讓人類得以更好的連接。而美好的連接,會激發(fā)出探索未知的勇氣。本文推薦的11篇重磅論文及其第一作者,和合著團隊(機構(gòu)),正是勇敢探索未知的范例。

看到他們,那些年輕人的臉,相信你會有一種雞皮疙瘩炸起的感覺:群星閃耀的時刻,再一次開始了。

任少卿在十年前種下的那顆感知的種子,已升起為一顆大星。陳小雪用0.4秒的奇跡,讓機器學(xué)會了如何在瞬息間復(fù)刻出“平行世界”;楊磊為那些輕飄飄的視覺幻覺釘上了物理的骨骼。他們解決的是“真實感”的問題,讓智駕的進化擁有了無窮無盡、且絕對可信的數(shù)字戰(zhàn)場。

當(dāng)數(shù)據(jù)量堆疊到令人窒息的千萬小時時,李英艷敏銳地捕捉到了“監(jiān)督赤字”的陰影,她用世界模型作為杠桿,撬動了數(shù)據(jù)進化的第二曲線。這種對效率的極致追求,與曹家俊那把剪向冗余Token的“手術(shù)刀”交相輝映——他們一個在為大腦擴容,一個在為神經(jīng)減負(fù)。

更令人欣慰的變化,發(fā)生在機器的“性格”里。鄭宇鵬試圖在潛空間里尋找機器的自我意識,讓“自監(jiān)督”取代了昂貴的人工標(biāo)注;而林宏彬和蔣安慶則分別用“思維鏈”和“擴散規(guī)劃”,教會了模型在復(fù)雜的人性博弈中學(xué)會三思而后行。從此,車不再是冰冷的鐵盒,它開始具備了某種程度上的“博弈直覺”與“決策彈性”。

最后,馬楠教授與李德毅院士的具身智能范式,則像一顆最新的星,照亮了更遠(yuǎn)的方向:智駕不應(yīng)只是看圖做題的算法,它應(yīng)該是具備社會常識、能與人類共情的生命體。

這些勇敢的充滿創(chuàng)造力的探索,展現(xiàn)了當(dāng)代中國智駕開發(fā)者們的格局和氣象。在1月31日舉行的【2025智駕天梯榜年度盛典】上,我們將邀請他們中的一部分,作為“2025智駕開發(fā)者50人”的代表進行現(xiàn)場分享,敬請關(guān)注。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
高市早苗:日本將于2月8日舉行眾議院選舉

高市早苗:日本將于2月8日舉行眾議院選舉

界面新聞
2026-01-19 17:33:39
“i茅臺”連續(xù)19天秒空,代搶軟件出現(xiàn)了,黃牛稱可“提前入場”

“i茅臺”連續(xù)19天秒空,代搶軟件出現(xiàn)了,黃牛稱可“提前入場”

第一財經(jīng)資訊
2026-01-19 15:52:13
麒盛科技創(chuàng)始人唐國海:一張智能床背后的數(shù)字睡眠版圖

麒盛科技創(chuàng)始人唐國海:一張智能床背后的數(shù)字睡眠版圖

晚點LatePost
2026-01-16 22:22:41
降溫圖變紫了!南方部分地區(qū)也要體驗全天冰凍了,大范圍雨雪冰凍持續(xù),雪線再往南推

降溫圖變紫了!南方部分地區(qū)也要體驗全天冰凍了,大范圍雨雪冰凍持續(xù),雪線再往南推

極目新聞
2026-01-19 18:19:27
中方再次嚴(yán)正要求日本:立即歸還中國!

中方再次嚴(yán)正要求日本:立即歸還中國!

達(dá)文西看世界
2026-01-19 14:08:27
吳京、李連杰新電影遭大量抵制,網(wǎng)友異口同聲:你出錢,他買零件

吳京、李連杰新電影遭大量抵制,網(wǎng)友異口同聲:你出錢,他買零件

琴聲飛揚
2026-01-19 14:13:37
家屬稱男子三年前右腦出血被開左腦,醫(yī)生發(fā)現(xiàn)出錯又開右腦 希望認(rèn)定責(zé)任、賠償并追責(zé)

家屬稱男子三年前右腦出血被開左腦,醫(yī)生發(fā)現(xiàn)出錯又開右腦 希望認(rèn)定責(zé)任、賠償并追責(zé)

紅星新聞
2026-01-19 11:47:22
恭喜中國航天進入發(fā)射失敗高峰期

恭喜中國航天進入發(fā)射失敗高峰期

基本常識
2026-01-18 21:20:28
楊皓宇罰丟點球,猜猜李昊說了什么?難怪烏茲別克斯坦會被淘汰!

楊皓宇罰丟點球,猜猜李昊說了什么?難怪烏茲別克斯坦會被淘汰!

我就是一個說球的
2026-01-18 21:57:44
澳網(wǎng)大驚喜!商竣程3-1爆冷淘汰前世界第9阿古特 第四盤6-0

澳網(wǎng)大驚喜!商竣程3-1爆冷淘汰前世界第9阿古特 第四盤6-0

醉臥浮生
2026-01-19 12:38:23
2025年出生人口僅792萬比預(yù)計最低方案都還要低,10年出生人口減少1000萬

2025年出生人口僅792萬比預(yù)計最低方案都還要低,10年出生人口減少1000萬

小星球探索
2026-01-19 12:04:51
痛別!官網(wǎng)已變黑白

痛別!官網(wǎng)已變黑白

吉刻新聞
2026-01-18 09:12:36
高考719分我騙女友考408,她轉(zhuǎn)身跟學(xué)霸去清華!開學(xué)我們四目相對

高考719分我騙女友考408,她轉(zhuǎn)身跟學(xué)霸去清華!開學(xué)我們四目相對

星宇共鳴
2026-01-13 09:20:02
難以置信!給李亞鵬基金捐款1800萬是30萬網(wǎng)友,無一明星發(fā)文響應(yīng)

難以置信!給李亞鵬基金捐款1800萬是30萬網(wǎng)友,無一明星發(fā)文響應(yīng)

火山詩話
2026-01-19 16:05:40
央媒就扶起老人反被訛發(fā)聲!如果要自證清白,公安機關(guān)要主動介入

央媒就扶起老人反被訛發(fā)聲!如果要自證清白,公安機關(guān)要主動介入

小熊侃史
2026-01-19 07:35:08
梅德韋杰夫發(fā)文諷刺:讓美國再次偉大等于讓丹麥再次變小,等于讓歐洲再次貧窮;此前梅德韋杰夫諷刺美國“再不抓緊,格陵蘭就要入俄了”

梅德韋杰夫發(fā)文諷刺:讓美國再次偉大等于讓丹麥再次變小,等于讓歐洲再次貧窮;此前梅德韋杰夫諷刺美國“再不抓緊,格陵蘭就要入俄了”

大象新聞
2026-01-19 16:49:04
嫣然天使兒童醫(yī)院欠租千萬風(fēng)波始末

嫣然天使兒童醫(yī)院欠租千萬風(fēng)波始末

新京報
2026-01-19 14:00:26
梁小龍去世早有預(yù)兆,關(guān)門弟子爆料3個“不良愛好”,都是催命符

梁小龍去世早有預(yù)兆,關(guān)門弟子爆料3個“不良愛好”,都是催命符

查爾菲的筆記
2026-01-19 12:35:23
記者:賽后迪亞斯在更衣室落淚,摩洛哥球員對他罰丟點球極為不滿

記者:賽后迪亞斯在更衣室落淚,摩洛哥球員對他罰丟點球極為不滿

懂球帝
2026-01-19 15:09:09
六位省級黨委常委,有新職!另有多位副省級領(lǐng)導(dǎo)增補為省政協(xié)委員

六位省級黨委常委,有新職!另有多位副省級領(lǐng)導(dǎo)增補為省政協(xié)委員

上觀新聞
2026-01-19 14:48:06
2026-01-19 18:51:00
第一電動網(wǎng) incentive-icons
第一電動網(wǎng)
第一電動網(wǎng)網(wǎng)易平臺官方賬號
28029文章數(shù) 31039關(guān)注度
往期回顧 全部

汽車要聞

徐軍:沖擊百萬銷量,零跑一直很清醒

頭條要聞

24歲唇腭裂患者接受了免費手術(shù):嫣然基金會做了好事

頭條要聞

24歲唇腭裂患者接受了免費手術(shù):嫣然基金會做了好事

體育要聞

錯失英超冠軍獎牌,他卻在德甲成為傳奇

娛樂要聞

離婚三年,孫怡董子健首次公開互動

財經(jīng)要聞

公章爭奪 家族反目 雙星為何從頂端跌落?

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個月一更"

態(tài)度原創(chuàng)

手機
藝術(shù)
旅游
數(shù)碼
教育

手機要聞

抓緊下單!iQOO Z11 Turbo首銷期即將結(jié)束

藝術(shù)要聞

有一種美,叫做中國園林!

旅游要聞

清照泉城喜迎新年首場雪,青磚黛瓦中年味被喚醒

數(shù)碼要聞

正面挑戰(zhàn)三星、LG!美的將攜多款空調(diào)進軍韓國市場

教育要聞

2026年大學(xué)俄語四六級1分鐘速通攻略!

無障礙瀏覽 進入關(guān)懷版