国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港大突破:AI在虛擬世界中學(xué)會真實駕駛技能

0
分享至


當(dāng)我們談?wù)撟詣玉{駛汽車的未來時,一個看似簡單卻至關(guān)重要的問題始終困擾著研究人員:如何讓AI在安全的環(huán)境中學(xué)會應(yīng)對各種復(fù)雜的駕駛場景?香港大學(xué)的研究團(tuán)隊在2024年12月14日發(fā)表了一項突破性研究,題為"GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation",為這個問題提供了令人驚喜的解決方案。這項研究由香港大學(xué)、華為諾亞方舟實驗室和華中科技大學(xué)的研究人員共同完成,論文編號為arXiv:2512.12751v1。

設(shè)想這樣一個場景:你正在教一個新手司機(jī)開車,但不是在真實道路上冒險,而是在一個無比真實的虛擬世界中。這個虛擬世界不僅看起來像真的一樣,更重要的是,它完全遵循真實世界的物理規(guī)律。當(dāng)你告訴虛擬車輛"向左轉(zhuǎn)"時,它不會突然消失或做出不合理的動作,而是嚴(yán)格按照物理定律完成轉(zhuǎn)彎動作。這正是GenieDrive技術(shù)要實現(xiàn)的核心目標(biāo)。

傳統(tǒng)的自動駕駛訓(xùn)練方法面臨一個根本性問題,就像讓一個從未見過廚房的人僅僅通過觀看烹飪視頻就學(xué)會做菜一樣困難?,F(xiàn)有的AI系統(tǒng)往往只能從大量駕駛視頻中學(xué)習(xí)表面模式,卻無法真正理解駕駛行為背后的物理原理。比如,當(dāng)AI看到大部分訓(xùn)練視頻中的車輛都在直行時,它可能會產(chǎn)生一種偏見,認(rèn)為汽車應(yīng)該一直直行,即使接收到轉(zhuǎn)彎指令也會固執(zhí)地保持直行狀態(tài)。

研究團(tuán)隊深入分析了這個問題,發(fā)現(xiàn)癥結(jié)在于現(xiàn)有方法缺乏對物理世界的真正理解。他們提出的解決方案就像為AI配備了一副"物理眼鏡",讓它能夠看懂和遵循真實世界的物理規(guī)律。GenieDrive的核心創(chuàng)新在于引入了一個稱為"4D占用空間"的概念,這聽起來很抽象,但我們可以用一個簡單的比喻來理解它。

如果把駕駛環(huán)境比作一個巨大的立體拼圖,那么4D占用空間就是記錄這個拼圖中每個位置在每個時刻被什么物體占用的完整信息。這不僅包括靜態(tài)的建筑物和道路,還包括動態(tài)的汽車、行人甚至飛鳥。更重要的是,它還記錄了這些物體如何隨時間移動和變化,就像一部超級詳細(xì)的四維電影。

這種方法的巧妙之處在于,它將復(fù)雜的駕駛場景分解為兩個相對簡單的步驟。首先,AI學(xué)會預(yù)測未來的4D占用空間,就像一個熟練的象棋大師能夠提前幾步預(yù)見棋盤上的變化。然后,AI再將這個抽象的占用空間轉(zhuǎn)換為我們能看到的真實駕駛視頻,就像將建筑師的藍(lán)圖轉(zhuǎn)化為實際的建筑。

為了讓這個過程更加高效,研究團(tuán)隊開發(fā)了一種名為"三平面變分自編碼器"的技術(shù)。這個名字聽起來很復(fù)雜,但實際上就像一個超級壓縮算法。想象你要把一本厚厚的百科全書放進(jìn)一個小小的U盤里,你需要一種特殊的壓縮方法既能大幅減小文件大小,又能保證重要信息不丟失。研究團(tuán)隊的方法能夠?qū)⒃拘枰罅看鎯臻g的3D場景信息壓縮到原來的58%,同時還能提高重建質(zhì)量。

研究團(tuán)隊還引入了"互相控制注意力機(jī)制",這是一個聽起來很學(xué)術(shù)但實際上很直觀的概念。就像一個經(jīng)驗豐富的司機(jī)在開車時會同時關(guān)注前方道路、后視鏡、速度表和方向盤的反饋一樣,這個機(jī)制讓AI能夠同時處理來自環(huán)境觀察和駕駛指令的信息,并讓它們相互影響、相互調(diào)節(jié)。

當(dāng)涉及到視頻生成時,研究團(tuán)隊面臨的挑戰(zhàn)就像要讓一個只會畫單個物體的畫家學(xué)會繪制復(fù)雜的全景畫。傳統(tǒng)的視頻生成模型通常只能處理單一視角的視頻,但真實的駕駛需要同時考慮多個攝像頭的視角。為了解決這個問題,他們開發(fā)了"標(biāo)準(zhǔn)化多視角注意力"技術(shù),這就像為畫家提供了一套特殊的工具,讓他能夠同時協(xié)調(diào)處理來自不同角度的信息,確保生成的多視角視頻保持一致性和連貫性。

在性能測試方面,GenieDrive的表現(xiàn)令人印象深刻。在occupancy預(yù)測準(zhǔn)確度方面,它比之前最好的方法提高了7.2%,同時運行速度達(dá)到了每秒41幀,而且只需要340萬個參數(shù),這個數(shù)字比許多競爭方法少了幾十倍甚至上百倍。這就像制造出了一輛既省油又跑得快的超級跑車。

在視頻生成質(zhì)量方面,GenieDrive同樣表現(xiàn)出色。它能夠生成長達(dá)20秒的多視角駕駛視頻,視頻質(zhì)量評分比之前的方法提高了20.7%。更重要的是,當(dāng)研究人員給它下達(dá)"左轉(zhuǎn)"或"右轉(zhuǎn)"的指令時,生成的視頻能夠準(zhǔn)確反映這些駕駛動作,而不是像某些傳統(tǒng)方法那樣無視指令繼續(xù)直行。

研究團(tuán)隊在著名的NuScenes數(shù)據(jù)集上進(jìn)行了大量實驗。NuScenes是一個包含700個訓(xùn)練場景和150個驗證場景的大型自動駕駛數(shù)據(jù)集,就像是自動駕駛研究領(lǐng)域的標(biāo)準(zhǔn)考場。他們使用的預(yù)訓(xùn)練視頻生成模型是Wan2.1-1.3B,整個實驗在配備8塊NVIDIA L40S GPU的服務(wù)器上進(jìn)行。

最有趣的是GenieDrive展現(xiàn)出的"物理意識"能力。當(dāng)研究團(tuán)隊用同樣的起始場景但不同的駕駛指令來測試不同的系統(tǒng)時,發(fā)現(xiàn)只有GenieDrive能夠為所有三種指令(左轉(zhuǎn)、直行、右轉(zhuǎn))生成合理的駕駛視頻。其他先進(jìn)的系統(tǒng),如Vista和Epona,雖然在直行指令上表現(xiàn)良好,但在處理轉(zhuǎn)彎指令時要么表現(xiàn)出微弱的轉(zhuǎn)彎傾向,要么完全無視指令,要么生成不一致的場景。

這種差異的根本原因在于GenieDrive使用的4D占用空間作為物理約束。就像建筑師必須遵循物理定律設(shè)計建筑一樣,GenieDrive在生成駕駛視頻時必須遵循其預(yù)測的4D空間結(jié)構(gòu),這確保了生成的視頻在物理上是合理的。

在技術(shù)實現(xiàn)的細(xì)節(jié)上,研究團(tuán)隊采用了一種巧妙的端到端訓(xùn)練策略。與傳統(tǒng)方法先訓(xùn)練壓縮模型再訓(xùn)練預(yù)測模型的兩階段方式不同,他們讓這兩個部分同時學(xué)習(xí)和優(yōu)化,就像讓舞蹈搭檔在練習(xí)中逐漸磨合,最終達(dá)到完美配合。這種方法顯著提升了整體性能,但有趣的是,當(dāng)他們在其他方法上嘗試這種端到端訓(xùn)練時,效果反而變差了,這說明這種訓(xùn)練方式需要與特定的模型設(shè)計相匹配才能發(fā)揮效果。

GenieDrive還展現(xiàn)出了出色的可編輯性。研究人員可以很容易地在預(yù)測的4D占用空間中添加或刪除物體,然后生成相應(yīng)的駕駛視頻。比如,他們可以在道路上"虛擬地"放置一個障礙物,然后觀察AI如何規(guī)劃繞行路徑。這種能力對于測試自動駕駛系統(tǒng)在各種罕見場景下的表現(xiàn)非常有價值。

從效率角度來看,GenieDrive在訓(xùn)練時間、GPU使用量和推理速度方面都有顯著優(yōu)勢。傳統(tǒng)方法往往需要32到128個GPU訓(xùn)練192到1080小時,而GenieDrive只需要8個GPU訓(xùn)練一周時間。在推理時,它的平均生成速度為每幀4.36秒,顯存消耗僅為11.72GB,可以在單個GPU上運行,而某些競爭方法需要39.76GB顯存并且需要8個GPU并行處理。

研究團(tuán)隊還展示了GenieDrive在模擬到現(xiàn)實轉(zhuǎn)換方面的能力。他們使用CARLA模擬器生成的虛擬駕駛場景,然后用GenieDrive將這些場景轉(zhuǎn)換為真實感的駕駛視頻。結(jié)果顯示,生成的視頻不僅準(zhǔn)確反映了模擬場景中的駕駛行為,還保留了環(huán)境細(xì)節(jié)如植被和車輛。這種能力可以幫助縮小模擬訓(xùn)練和真實世界應(yīng)用之間的差距。

在更長時間的occupancy預(yù)測測試中,GenieDrive表現(xiàn)出了優(yōu)異的穩(wěn)定性。當(dāng)預(yù)測時間延長到4秒、5秒甚至6秒時,其他方法的性能急劇下降,而GenieDrive仍能保持相對穩(wěn)定的預(yù)測準(zhǔn)確度。這種長期穩(wěn)定性對于生成更長的駕駛視頻序列至關(guān)重要。

研究團(tuán)隊深入分析了各個技術(shù)組件的貢獻(xiàn)。他們發(fā)現(xiàn),互相控制注意力機(jī)制對于準(zhǔn)確建模駕駛控制對occupancy演化的影響非常關(guān)鍵。沒有這個機(jī)制,系統(tǒng)在處理長期預(yù)測時性能會顯著下降。同樣,標(biāo)準(zhǔn)化多視角注意力對于穩(wěn)定的視頻生成微調(diào)也必不可少。移除標(biāo)準(zhǔn)化會導(dǎo)致明顯的網(wǎng)格偽影和模糊輸出,而移除多視角注意力則會造成多視角之間的不一致。

值得注意的是,端到端訓(xùn)練策略的成功與模型的具體設(shè)計密切相關(guān)。研究團(tuán)隊發(fā)現(xiàn),連續(xù)表示(而非離散表示)是端到端訓(xùn)練成功的關(guān)鍵因素。當(dāng)他們在模型中添加向量量化時,端到端訓(xùn)練的效果就會下降,這驗證了他們選擇連續(xù)表示的正確性。

在與其他最先進(jìn)方法的比較中,GenieDrive在多個維度都表現(xiàn)出色。在occupancy預(yù)測方面,它不僅準(zhǔn)確度最高,參數(shù)量也最少,推理速度最快。在視頻生成方面,雖然一些方法可能在特定指標(biāo)上有所優(yōu)勢,但GenieDrive是唯一一個能在保持高質(zhì)量的同時支持真正可控的多視角長視頻生成的系統(tǒng)。

這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它為自動駕駛系統(tǒng)的開發(fā)提供了一個全新的范式:通過物理感知的世界模型來理解和預(yù)測駕駛環(huán)境的變化,而不是簡單地從視頻數(shù)據(jù)中學(xué)習(xí)表面模式。這種方法不僅能提高自動駕駛系統(tǒng)的可靠性,還能為安全測試和驗證提供強(qiáng)有力的工具。

說到底,GenieDrive代表了自動駕駛AI從"模仿學(xué)習(xí)"向"物理理解"的重要轉(zhuǎn)變。就像人類司機(jī)不僅要學(xué)會操作車輛,更要理解道路交通的物理規(guī)律一樣,GenieDrive讓AI系統(tǒng)具備了真正的物理感知能力。這不僅提高了系統(tǒng)的可靠性和可控性,還為創(chuàng)建更安全、更智能的自動駕駛系統(tǒng)鋪平了道路。

雖然這項技術(shù)目前還處在研究階段,但它展示的潛力是巨大的。未來,我們可能會看到基于類似原理的自動駕駛系統(tǒng)能夠在各種復(fù)雜場景下做出更加合理和安全的決策。對于普通消費者來說,這意味著未來的自動駕駛汽車可能會更加可靠和安全。

歸根結(jié)底,這項研究為我們描繪了一個未來圖景:AI不再是簡單地復(fù)制人類的駕駛動作,而是真正理解了駕駛的物理本質(zhì)。當(dāng)這樣的技術(shù)最終走向?qū)嵱没瘯r,我們或許能夠真正實現(xiàn)安全、可靠的全自動駕駛,讓每個人都能享受到科技進(jìn)步帶來的便利。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2512.12751v1查找完整研究論文。

Q&A

Q1:GenieDrive的4D占用空間是什么?

A:4D占用空間就像一個記錄駕駛環(huán)境中每個位置在每個時刻被什么物體占用的完整信息系統(tǒng)。它不僅包括靜態(tài)的建筑物和道路,還包括動態(tài)的汽車、行人,并且記錄這些物體如何隨時間移動變化,為AI提供物理世界的真實理解基礎(chǔ)。

Q2:GenieDrive與傳統(tǒng)自動駕駛AI有什么區(qū)別?

A:傳統(tǒng)AI只能從駕駛視頻中學(xué)習(xí)表面模式,容易產(chǎn)生偏見,比如大部分視頻是直行就偏向直行。而GenieDrive通過物理感知的世界模型真正理解駕駛的物理規(guī)律,能夠準(zhǔn)確響應(yīng)轉(zhuǎn)彎等各種駕駛指令,就像從"模仿學(xué)習(xí)"進(jìn)化到"物理理解"。

Q3:普通人什么時候能用上這種技術(shù)?

A:目前GenieDrive還在研究階段,主要用于自動駕駛系統(tǒng)的開發(fā)和測試。雖然不能確定具體時間,但這項技術(shù)為開發(fā)更安全可靠的自動駕駛汽車鋪平了道路,未來可能會讓自動駕駛車輛在各種復(fù)雜場景下做出更合理的決策。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護(hù)臺

中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護(hù)臺

博覽歷史
2025-12-27 16:31:18
普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠(yuǎn)了

5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠(yuǎn)了

海峽導(dǎo)報社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟(jì)新聞
2025-12-27 19:22:17
李兆會的18年復(fù)仇路

李兆會的18年復(fù)仇路

詩意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國家勿向烏派兵

俄警告歐洲國家勿向烏派兵

界面新聞
2025-12-28 14:26:52
姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

游戲
數(shù)碼
藝術(shù)
親子
公開課

PS5到底還能戰(zhàn)幾年?外媒解析“買或等PS6”

數(shù)碼要聞

華為FreeClip 2耳夾耳機(jī)通過星閃認(rèn)證,有望近期OTA星閃音頻

藝術(shù)要聞

郭沫若為何輸給康生?只因后者練過一部“百億法帖”,內(nèi)藏古人秘法

親子要聞

千萬別把孩子,養(yǎng)成這種“奴隸”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版