国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

VLA和世界模型,誰才是自動(dòng)駕駛的最優(yōu)解?

0
分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動(dòng))模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界模型(World Model)路線,這兩種路徑都為自動(dòng)駕駛快速落地提供了可能,那誰才是最優(yōu)解?

什么是VLA模型?

VLA模型,即視覺—語言—行動(dòng)模型,是將視覺感知、語言理解和動(dòng)作生成串聯(lián)起來的一套方法。它先是通過視覺編碼器,將攝像頭看到的畫面轉(zhuǎn)換成語義豐富的特征向量,像是SigLIP、Dino V2/V3等這類模型就是用于完成這項(xiàng)任務(wù)的。這些視覺特征會(huì)被“翻譯”成一種類似語言的表征單元(token),并將其送入一個(gè)大型語言模型(LLM)中。LLM經(jīng)過多模態(tài)改造后,其任務(wù)不再只是生成文本,而是能夠基于這些視覺信息進(jìn)行如分析車道線的狀況、預(yù)判前方行人的意圖、或者評(píng)估不同駕駛策略的合理性等更高層次的語義推理。LLM的推理結(jié)果會(huì)被轉(zhuǎn)化為例像是軌跡和速度,從而驅(qū)動(dòng)車輛執(zhí)行等具體的控制指令。



圖片源自:網(wǎng)絡(luò)

從理論上看,VLA還是比較難以理解的,通俗理解下就是,VLA是讓車輛先用語言描述清楚眼睛看到了什么,再用語言進(jìn)行思考,最后把思考結(jié)果轉(zhuǎn)化為行動(dòng)。這種方法的優(yōu)勢在于,語言層面天然適合進(jìn)行抽象和長時(shí)序推理,也便于整合上下文信息和規(guī)則知識(shí),這使得從感知到?jīng)Q策的橋梁可以建立在更明確、更具可遷移性的語義表示之上。

因?yàn)檎Z言模型擅長將零散信息組合成高層結(jié)論,VLA在遇到多種復(fù)雜場景時(shí),理論上能更容易進(jìn)行“概念化”的判斷,同時(shí)也更容易將人類規(guī)則、法規(guī)或場景說明以文本形式融入到訓(xùn)練與調(diào)優(yōu)流程中。

當(dāng)然,想將視覺特征可靠地轉(zhuǎn)換為LLM能夠有效利用的token并不容易,有很多問題需要解決。視覺與語言之間的信息損失和對(duì)齊問題是一定要解決的;語言推理產(chǎn)生的結(jié)論也需要被嚴(yán)格約束在物理可行的動(dòng)作范圍內(nèi),否則就可能出現(xiàn)“想法很好”但“執(zhí)行不安全”的情況。此外,LLM的推理開銷、系統(tǒng)實(shí)時(shí)性以及決策的可解釋性等都是需要解決的問題。雖然語言的抽象能力很強(qiáng),但物理世界對(duì)控制精度和約束的要求極高,如何在語義抽象與精確控制之間建立可信賴的映射,更是VLA需要去攻克的。

VLA的優(yōu)勢在于其強(qiáng)大的語義理解能力,對(duì)復(fù)雜的社交互動(dòng)和規(guī)則理解有天然優(yōu)勢,適合用較少的顯式規(guī)則去捕捉場景中的行為意圖。對(duì)于那些希望利用“數(shù)據(jù)和模型”將駕駛經(jīng)驗(yàn)遷移到不同車型、不同城市的廠商而言,VLA的通用性和抽象能力是非常有吸引力的。其短板在于,對(duì)物理精度和安全約束的保障需要額外的工程手段,且其推理延遲、模型可解釋性和系統(tǒng)驗(yàn)證的難度都相對(duì)更高。

什么是世界模型路線

世界模型的核心思想,是把環(huán)境、物體和行為都建模成一個(gè)可計(jì)算、可推演的“物理世界”,決策不用借助自然語言作為中介,可以直接在狀態(tài)空間中進(jìn)行。世界模型強(qiáng)調(diào)“空間認(rèn)知與物理推演”,它從多傳感器數(shù)據(jù)出發(fā),能構(gòu)建一個(gè)連續(xù)、可預(yù)測的世界狀態(tài)表示,并基于物理規(guī)則進(jìn)行行為生成與驗(yàn)證。

以華為WEWA的“云端與本地協(xié)同”模式為例,團(tuán)隊(duì)可以在云端構(gòu)建高保真的物理仿真環(huán)境,讓模型在虛擬世界中不斷“駕駛”并生成海量的仿真軌跡。仿真環(huán)境能提供極高的數(shù)據(jù)密度,模型可以在大量受控的、甚至是極端的場景中學(xué)習(xí)物理世界的因果關(guān)系。通過一套對(duì)模型生成行為進(jìn)行打分的獎(jiǎng)懲機(jī)制,模型可以逐漸學(xué)會(huì)在各種情境下如何規(guī)避風(fēng)險(xiǎn),并做出合規(guī)且穩(wěn)定的決策。



華為WEWA技術(shù)架構(gòu),圖片源自:網(wǎng)絡(luò)

訓(xùn)練完成后,通過模型蒸餾或壓縮技術(shù),將復(fù)雜的云端模型轉(zhuǎn)化為能在車端實(shí)時(shí)運(yùn)行的輕量版本,使得車輛能夠根據(jù)實(shí)時(shí)傳感器數(shù)據(jù)直接生成軌跡與控制命令。

世界模型的優(yōu)勢在于其出色的可控性和物理一致性。因?yàn)闆Q策是建立在明確的、可驗(yàn)證的狀態(tài)與動(dòng)力學(xué)模型之上,所以更容易進(jìn)行形式化驗(yàn)證、安全邊界檢查以及物理約束的強(qiáng)制執(zhí)行。這對(duì)于安全關(guān)鍵場景的可解釋性和可證偽性也更為有利。由于采用的是仿真訓(xùn)練,可以人為創(chuàng)造現(xiàn)實(shí)中罕見但對(duì)安全至關(guān)重要的極端場景,能有效彌補(bǔ)真實(shí)道路采集數(shù)據(jù)的不足,從而提升系統(tǒng)在危險(xiǎn)情況下的魯棒性。

與VLA模型一樣,世界模型技術(shù)路線也有很多問題需要解決。高保真仿真、復(fù)雜動(dòng)力學(xué)建模以及對(duì)自車與環(huán)境的精確重建,都需要龐大的算力支撐與成本投入,這將是一筆非常大的開銷。對(duì)于如何構(gòu)建足夠多樣化的仿真環(huán)境以覆蓋現(xiàn)實(shí)世界的復(fù)雜性,并有效彌合“仿真與現(xiàn)實(shí)之間的遷移鴻溝”,也是一個(gè)需要解決的問題。此外,該路線對(duì)感知傳感器的類型與精度存在較高依賴性,若采用以激光雷達(dá)為核心的方案,將直接讓系統(tǒng)成本與部署門檻直接提升,進(jìn)而會(huì)影響其規(guī);涞氐倪M(jìn)程。

世界模型的優(yōu)勢在于其決策結(jié)果更接近真實(shí)的物理世界,易于注入約束并進(jìn)行形式化的檢驗(yàn),仿真訓(xùn)練能夠高效覆蓋各類風(fēng)險(xiǎn)場景,適合對(duì)安全性要求極高的產(chǎn)品化路徑。其短板在于仿真與現(xiàn)實(shí)的差距難以完全消除、系統(tǒng)建模復(fù)雜,以及對(duì)高精度傳感器的依賴可能推高整體成本。此外,在某些需要“常識(shí)”或長時(shí)序社會(huì)推理的場景下,純物理規(guī)則驅(qū)動(dòng)的模型可能不如引入語言中介的模型那樣靈活和直觀。

兩條路線的核心差異

將兩條路線進(jìn)行比較,會(huì)發(fā)現(xiàn)它們在“世界如何表示”、“決策如何形成”、“訓(xùn)練數(shù)據(jù)來源”以及“部署策略”這幾個(gè)維度上是完全不同的。



圖片源自:網(wǎng)絡(luò)

對(duì)于世界如何表示的問題上,VLA傾向于用語義化的token來表達(dá)世界,突出抽象概念和高層意圖,這種表示方式便于將人類知識(shí)和規(guī)則以語言形式注入系統(tǒng);而世界模型則將世界表示為連續(xù)的狀態(tài)變量和實(shí)體間的空間關(guān)系,更強(qiáng)調(diào)幾何屬性、動(dòng)力學(xué)與可預(yù)測性。

在推理機(jī)制上,VLA依賴大語言模型的語義推理能力,擅長處理長時(shí)序依賴和復(fù)雜上下文的綜合判斷,但需要將語言結(jié)論映射到具體動(dòng)作,并確保其滿足物理約束;世界模型則直接在狀態(tài)空間進(jìn)行物理推演和策略生成,其推理過程更貼近物理規(guī)律,結(jié)果通常更易于驗(yàn)證,但在處理語義模糊、規(guī)則解釋或長時(shí)序社會(huì)行為推斷時(shí),靈活性可能不如前者。

兩者訓(xùn)練數(shù)據(jù)的來源也有明顯差異。VLA更依賴大量經(jīng)過標(biāo)注的多模態(tài)數(shù)據(jù)、真實(shí)道路場景數(shù)據(jù),以及用于對(duì)齊的語言數(shù)據(jù);世界模型則重度依賴高質(zhì)量的仿真數(shù)據(jù)以及多傳感器融合的真實(shí)駕駛?cè)罩,仿真?shù)據(jù)在數(shù)據(jù)量和場景可控性上占據(jù)明顯優(yōu)勢。

兩者在部署策略上也各有側(cè)重。VLA需要更復(fù)雜的模型棧來完成從視覺到語言再到控制的完整映射,LLM帶來的推理開銷和實(shí)時(shí)性要求會(huì)影響其在車端的直接應(yīng)用,因此很多技術(shù)方案中會(huì)采用輕量化、模型蒸餾或分層決策的方式,將高層規(guī)劃放在云端或開發(fā)階段,而將受嚴(yán)格約束的執(zhí)行模塊部署在車端。世界模型的“云端仿真訓(xùn)練、車端模型蒸餾”流程則更為直接,將仿真中學(xué)到的策略壓縮后運(yùn)行在車端,車端系統(tǒng)可以根據(jù)實(shí)時(shí)感知直接進(jìn)行物理層面的決策。

最后的話

將VLA和世界模型放在一起比較,會(huì)發(fā)現(xiàn)它們各有專長,也各有局限,如果要給出誰更具優(yōu)勢的結(jié)論,或許會(huì)很難。未來,VLA與世界模型或?qū)⒆呦蛏疃热诤系姆较,VLA作為感知與決策的“大腦”,負(fù)責(zé)理解復(fù)雜場景與高層規(guī)劃;世界模型則成為控制與執(zhí)行的“小腦”,確保所有動(dòng)作均符合物理規(guī)律與安全邊界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

寄史言志
2026-01-09 17:55:10
U23國足踢了兩場亞洲杯為何頭號(hào)球星王玉棟不如聯(lián)賽里那么出色呢

U23國足踢了兩場亞洲杯為何頭號(hào)球星王玉棟不如聯(lián)賽里那么出色呢

梅亭談
2026-01-12 10:22:42
票房破14億,只是開始!謝霆鋒、周星馳、張頌文要掀起一波新高潮

票房破14億,只是開始!謝霆鋒、周星馳、張頌文要掀起一波新高潮

皮皮電影
2026-01-09 16:31:32
林昀儒談結(jié)束26月冠軍荒:完全沒想到奪冠 逆轉(zhuǎn)張本智和靠頭腦清晰

林昀儒談結(jié)束26月冠軍荒:完全沒想到奪冠 逆轉(zhuǎn)張本智和靠頭腦清晰

818體育
2026-01-12 09:24:10
當(dāng)年他訂了批諾基亞手機(jī),海關(guān)積壓16年后居然才收到貨?! 全數(shù)碼古董!

當(dāng)年他訂了批諾基亞手機(jī),海關(guān)積壓16年后居然才收到貨?! 全數(shù)碼古董!

英國那些事兒
2026-01-11 22:55:45
貴州省管干部任前公示

貴州省管干部任前公示

貴陽網(wǎng)
2026-01-12 09:25:13
上海一男子泡了3年的人參酒,人參突然長出綠葉!當(dāng)事人:50度散白酒泡的,鹿鞭味較腥,人參味基本嘗不出來

上海一男子泡了3年的人參酒,人參突然長出綠葉!當(dāng)事人:50度散白酒泡的,鹿鞭味較腥,人參味基本嘗不出來

臺(tái)州交通廣播
2026-01-12 00:34:48
中國特使連訪3天,以色列重申一個(gè)中國原則,賴清德幻想破滅

中國特使連訪3天,以色列重申一個(gè)中國原則,賴清德幻想破滅

現(xiàn)代小青青慕慕
2026-01-12 10:54:04
張本智和這就繃不住了?大好局面痛失好局,賽后表情太真實(shí)

張本智和這就繃不住了?大好局面痛失好局,賽后表情太真實(shí)

行舟問茶
2026-01-12 10:09:44
老用戶成“冤大頭”?新號(hào)29元100G 老號(hào)89元不夠用 3招破局不換號(hào)

老用戶成“冤大頭”?新號(hào)29元100G 老號(hào)89元不夠用 3招破局不換號(hào)

Thurman在昆明
2026-01-03 15:59:21
優(yōu)衣庫這件“菱格羽絨服”,黑灰倆色我直接all,in了!

優(yōu)衣庫這件“菱格羽絨服”,黑灰倆色我直接all,in了!

吳霶愛體育
2025-12-19 11:55:59
中央政法委,通報(bào)表揚(yáng)李佳婷

中央政法委,通報(bào)表揚(yáng)李佳婷

極目新聞
2026-01-12 10:42:19
就在剛剛,1月12日凌晨,CBA陸續(xù)傳來潘江、盧偉、邱彪新消息

就在剛剛,1月12日凌晨,CBA陸續(xù)傳來潘江、盧偉、邱彪新消息

梅亭談
2026-01-12 09:59:18
“日本已鎖定第一,韓國卻瀕臨出局”U23亞洲杯韓媒對(duì)比本國現(xiàn)狀黯然神傷

“日本已鎖定第一,韓國卻瀕臨出局”U23亞洲杯韓媒對(duì)比本國現(xiàn)狀黯然神傷

煙潯渺渺
2026-01-12 09:41:57
林昀儒奪冠了!國乒男隊(duì)真該好好看看了。到了該反思的時(shí)候了!

林昀儒奪冠了!國乒男隊(duì)真該好好看看了。到了該反思的時(shí)候了!

眼界縱橫
2026-01-12 11:01:24
擔(dān)心遭到中方稀土反制,日本先把狀告到G7,要求西方為日主持公道

擔(dān)心遭到中方稀土反制,日本先把狀告到G7,要求西方為日主持公道

現(xiàn)代小青青慕慕
2026-01-12 11:02:27
原來這么多常識(shí)大家都不知道!網(wǎng)友:設(shè)計(jì)師出來挨打!

原來這么多常識(shí)大家都不知道!網(wǎng)友:設(shè)計(jì)師出來挨打!

沙雕小琳琳
2026-01-04 01:24:55
中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個(gè)

博覽歷史
2025-12-26 06:40:03
瑞安代市長,接任市委書記

瑞安代市長,接任市委書記

溫百君
2026-01-11 20:22:44
以藝術(shù)之名,行流氓之舉,影視圈這3起“假戲真做”真可怕

以藝術(shù)之名,行流氓之舉,影視圈這3起“假戲真做”真可怕

上官晚安
2025-12-02 09:46:50
2026-01-12 11:44:49
智駕最前沿
智駕最前沿
自動(dòng)駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺(tái)。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
323文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米二手車價(jià)大跳水:SU7半年跌5萬元

頭條要聞

媒體:美國"不演了" 特朗普直白表態(tài)震驚世界

頭條要聞

媒體:美國"不演了" 特朗普直白表態(tài)震驚世界

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財(cái)經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項(xiàng)目騙局

汽車要聞

"家轎之王"變帥了 東風(fēng)日產(chǎn)全新軒逸量產(chǎn)下線

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
手機(jī)
房產(chǎn)

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

教育要聞

22分鐘只能背十個(gè)單詞,高二英語50分,如何提高背單詞效率?

普通人就該照搬這些穿搭!衣服不用買太貴,自然耐看又舒適

手機(jī)要聞

2026年第一款真全面屏來了!紅魔11 Air官宣

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

無障礙瀏覽 進(jìn)入關(guān)懷版