国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上海交通大學(xué)團(tuán)隊(duì)推出EgoSim:讓機(jī)器人學(xué)會(huì)從人的視角看世界

0
分享至


這項(xiàng)由上海交通大學(xué)、上海AI實(shí)驗(yàn)室和香港大學(xué)聯(lián)合開展的研究于2024年發(fā)表,論文編號(hào)arXiv:2604.01001。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為EgoSim的全新系統(tǒng),這個(gè)系統(tǒng)最大的特點(diǎn)就是能夠從第一人稱視角生成連續(xù)的互動(dòng)視頻,并且始終保持3D場(chǎng)景的一致性。

想象一下,當(dāng)你戴上VR眼鏡進(jìn)入虛擬世界時(shí),你希望看到的不是預(yù)設(shè)好的固定畫面,而是一個(gè)真正能夠響應(yīng)你動(dòng)作的活生生的世界。你伸手拿起一個(gè)杯子,杯子會(huì)真的被你拿起來;你打開一扇門,門會(huì)保持開啟狀態(tài);你移動(dòng)物品,它們會(huì)一直待在新位置上。這正是EgoSim想要實(shí)現(xiàn)的目標(biāo)——?jiǎng)?chuàng)造一個(gè)真正"記住"你行為后果的虛擬世界。

在這之前,大多數(shù)世界模擬器都有一個(gè)致命缺陷:它們要么像老式電影一樣只能從旁觀者角度觀看,要么無法記住你剛才做了什么。比如你在虛擬廚房里打開冰箱門,下一秒冰箱門可能又自動(dòng)關(guān)上了,仿佛你從來沒有碰過它一樣。這種現(xiàn)象在技術(shù)上叫做"結(jié)構(gòu)漂移",就像患了健忘癥的虛擬世界,無法保持狀態(tài)的連續(xù)性。

EgoSim的突破性在于它建立了一套"世界記憶系統(tǒng)"。這個(gè)系統(tǒng)就像一個(gè)超級(jí)管家,時(shí)刻記錄著虛擬世界中每一個(gè)物體的位置和狀態(tài)變化。當(dāng)你在虛擬場(chǎng)景中移動(dòng)一把椅子,系統(tǒng)不僅會(huì)生成移動(dòng)的視頻畫面,還會(huì)在內(nèi)部的3D地圖上更新椅子的新位置。下次你再看向那個(gè)地方時(shí),椅子確實(shí)還在你放置的位置上。

這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是解決了訓(xùn)練數(shù)據(jù)的難題。訓(xùn)練這樣一個(gè)智能系統(tǒng)需要大量的配對(duì)數(shù)據(jù)——既要有人們做動(dòng)作的視頻,又要有對(duì)應(yīng)的3D場(chǎng)景信息。傳統(tǒng)方法通常依賴昂貴的多攝像頭設(shè)備或者合成數(shù)據(jù),但這些方法要么成本高昂,要么無法反映真實(shí)世界的復(fù)雜性。研究團(tuán)隊(duì)設(shè)計(jì)了一套巧妙的數(shù)據(jù)處理流水線,能夠從普通的單攝像頭視頻中自動(dòng)提取出所需的各種信息,包括靜態(tài)的3D場(chǎng)景、攝像頭運(yùn)動(dòng)軌跡和手部動(dòng)作序列。

具體來說,系統(tǒng)首先會(huì)分析視頻的第一幀,識(shí)別出手部等動(dòng)態(tài)元素,然后使用圖像修復(fù)技術(shù)將這些動(dòng)態(tài)元素"擦除",得到一個(gè)干凈的靜態(tài)背景。接下來,系統(tǒng)使用深度估計(jì)技術(shù)重建這個(gè)靜態(tài)場(chǎng)景的3D結(jié)構(gòu),就像建筑師根據(jù)平面圖構(gòu)建立體模型一樣。同時(shí),系統(tǒng)還會(huì)分析整個(gè)視頻序列,提取出攝像頭的運(yùn)動(dòng)軌跡和手部動(dòng)作的關(guān)鍵點(diǎn)信息。

在動(dòng)作表示方面,研究團(tuán)隊(duì)采用了一個(gè)非常聰明的統(tǒng)一框架。無論是人的手部動(dòng)作還是機(jī)器人的抓取動(dòng)作,都被轉(zhuǎn)換成相同格式的關(guān)鍵點(diǎn)序列。這就像設(shè)計(jì)了一套通用的"動(dòng)作語言",讓系統(tǒng)能夠理解不同類型的操作主體。對(duì)于人手,系統(tǒng)提取21個(gè)關(guān)鍵點(diǎn)來描述手指的位置和姿態(tài);對(duì)于機(jī)器人夾爪,系統(tǒng)將其映射為類似人手拇指和食指的簡(jiǎn)化表示。

EgoSim的核心架構(gòu)包含兩個(gè)關(guān)鍵模塊。第一個(gè)是"幾何-動(dòng)作感知觀察模擬"模塊,它的作用是根據(jù)當(dāng)前的3D場(chǎng)景狀態(tài)和輸入的動(dòng)作序列,生成對(duì)應(yīng)的第一人稱視角視頻。這個(gè)模塊使用了擴(kuò)散變換器(DiT)架構(gòu),能夠同時(shí)處理靜態(tài)場(chǎng)景渲染、動(dòng)作條件和遮擋信息,確保生成的視頻在幾何上保持一致性。

第二個(gè)關(guān)鍵模塊是"交互感知狀態(tài)更新"模塊,這是整個(gè)系統(tǒng)的"記憶中樞"。當(dāng)系統(tǒng)生成了新的觀察視頻后,這個(gè)模塊會(huì)分析視頻內(nèi)容,識(shí)別出哪些物體發(fā)生了位置變化,然后更新內(nèi)部的3D場(chǎng)景表示。這個(gè)過程包含三個(gè)步驟:首先重建當(dāng)前觀察序列的3D點(diǎn)云,然后識(shí)別和追蹤發(fā)生交互的物體,最后將這些物體的最新狀態(tài)融合到全局場(chǎng)景中。

為了識(shí)別交互物體,系統(tǒng)使用了視覺語言模型來理解場(chǎng)景中的物體類別,再結(jié)合分割和追蹤算法來定位這些物體在3D空間中的位置。系統(tǒng)會(huì)優(yōu)先保留物體最后被觀察到的狀態(tài),確保它們?cè)诤罄m(xù)的模擬中保持正確的位置和姿態(tài)。

在訓(xùn)練數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)處理了來自EgoDex和EgoVid數(shù)據(jù)集的共40萬個(gè)視頻片段。EgoDex主要包含精細(xì)的桌面操作場(chǎng)景,而EgoVid則涵蓋了更多樣化的真實(shí)世界交互。為了驗(yàn)證系統(tǒng)的跨領(lǐng)域能力,研究團(tuán)隊(duì)還整合了5萬個(gè)機(jī)器人操作視頻,展示了從人類動(dòng)作到機(jī)器人控制的遷移學(xué)習(xí)能力。

實(shí)驗(yàn)結(jié)果表明,EgoSim在多個(gè)關(guān)鍵指標(biāo)上顯著超越了現(xiàn)有方法。在視頻質(zhì)量方面,EgoSim在EgoDex數(shù)據(jù)集上實(shí)現(xiàn)了25.056的PSNR值和0.896的SSIM值,遠(yuǎn)高于其他基線方法。更重要的是,在空間一致性方面,EgoSim的深度誤差僅為8.888,相比最好的基線方法降低了約80%。這意味著EgoSim生成的視頻在3D幾何上更加準(zhǔn)確和穩(wěn)定。

連續(xù)生成能力是EgoSim的另一個(gè)重要優(yōu)勢(shì)。在連續(xù)生成測(cè)試中,系統(tǒng)能夠生成長(zhǎng)達(dá)121幀的視頻序列,同時(shí)保持良好的視覺質(zhì)量和空間一致性。雖然相比單次生成會(huì)有輕微的質(zhì)量下降,但這主要是由于累積誤差造成的,整體表現(xiàn)仍然令人滿意。

跨模態(tài)應(yīng)用方面,研究團(tuán)隊(duì)在AgiBot機(jī)器人數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,使用人類手部動(dòng)作數(shù)據(jù)預(yù)訓(xùn)練的模型,在適配機(jī)器人任務(wù)時(shí)表現(xiàn)顯著優(yōu)于從零開始訓(xùn)練的模型。這證明了人類交互數(shù)據(jù)中包含的通用物理動(dòng)力學(xué)知識(shí)可以有效遷移到機(jī)器人控制中。

為了驗(yàn)證系統(tǒng)在真實(shí)環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)還開發(fā)了一套名為EgoCap的低成本數(shù)據(jù)采集工具。這套工具使用普通智能手機(jī)就能采集高質(zhì)量的訓(xùn)練數(shù)據(jù),大大降低了數(shù)據(jù)獲取的成本和技術(shù)門檻。在超市等真實(shí)環(huán)境中的測(cè)試表明,即使只用30個(gè)訓(xùn)練樣本進(jìn)行微調(diào),EgoSim也能快速適應(yīng)新的場(chǎng)景和任務(wù)。

消融研究進(jìn)一步驗(yàn)證了各個(gè)組件的重要性。移除攝像頭軌跡渲染會(huì)導(dǎo)致視頻質(zhì)量顯著下降,因?yàn)橄到y(tǒng)失去了重要的幾何約束。移除遮擋掩碼也會(huì)影響生成效果,盡管系統(tǒng)仍能在未知區(qū)域生成合理的內(nèi)容。交互感知狀態(tài)更新模塊的各個(gè)子組件都對(duì)最終性能有重要貢獻(xiàn),移除任何一個(gè)都會(huì)導(dǎo)致3D重建質(zhì)量的明顯下降。

這項(xiàng)研究的意義不僅限于技術(shù)層面的突破。從實(shí)際應(yīng)用角度看,EgoSim為虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、游戲開發(fā)和機(jī)器人訓(xùn)練等領(lǐng)域提供了全新的可能性。在VR游戲中,玩家可以享受到更加真實(shí)和連續(xù)的交互體驗(yàn);在機(jī)器人訓(xùn)練中,可以使用大量人類演示數(shù)據(jù)來訓(xùn)練機(jī)器人的操作技能;在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,虛擬物體可以更自然地與真實(shí)環(huán)境融合。

當(dāng)然,這項(xiàng)研究也存在一些局限性。目前系統(tǒng)主要依賴單目深度估計(jì)和相機(jī)位姿估計(jì),在極度遮擋或高度動(dòng)態(tài)的環(huán)境中可能會(huì)出現(xiàn)重建誤差。此外,系統(tǒng)的計(jì)算復(fù)雜度相對(duì)較高,實(shí)時(shí)應(yīng)用還需要進(jìn)一步的優(yōu)化。未來的工作方向包括集成更魯棒的多視圖先驗(yàn)知識(shí)、引入基于物理的接觸約束等。

說到底,EgoSim代表了世界模擬器技術(shù)的一個(gè)重要里程碑。它首次真正實(shí)現(xiàn)了從第一人稱視角的連續(xù)世界模擬,并具備了持久的狀態(tài)記憶能力。這不僅是技術(shù)上的進(jìn)步,更是向真正智能的虛擬世界邁出的關(guān)鍵一步。隨著這項(xiàng)技術(shù)的不斷完善,我們有理由期待一個(gè)更加智能、更加真實(shí)的虛擬世界時(shí)代的到來。這個(gè)世界不再是預(yù)設(shè)的死板場(chǎng)景,而是能夠真正理解和響應(yīng)我們行為的活生生的數(shù)字空間。

Q&A

Q1:EgoSim和傳統(tǒng)的世界模擬器有什么不同?

A:EgoSim最大的不同在于它能從第一人稱視角生成視頻,并且具備"世界記憶"功能。傳統(tǒng)模擬器要么只能從第三人稱角度觀看,要么無法記住用戶的操作結(jié)果。比如你在虛擬世界里移動(dòng)了一把椅子,傳統(tǒng)系統(tǒng)可能下一秒椅子就回到原位了,而EgoSim會(huì)永久記住椅子的新位置,讓虛擬世界保持連續(xù)性。

Q2:EgoSim如何解決訓(xùn)練數(shù)據(jù)不足的問題?

A:研究團(tuán)隊(duì)設(shè)計(jì)了一套智能的數(shù)據(jù)處理流水線,能夠從普通的單攝像頭視頻中自動(dòng)提取訓(xùn)練所需的所有信息。系統(tǒng)會(huì)分析視頻第一幀來重建3D場(chǎng)景,提取攝像頭運(yùn)動(dòng)軌跡,并識(shí)別手部動(dòng)作關(guān)鍵點(diǎn)。這樣就避免了使用昂貴的多攝像頭設(shè)備,可以利用網(wǎng)上大量現(xiàn)有的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。

Q3:EgoSim能夠應(yīng)用到機(jī)器人控制中嗎?

A:可以。研究顯示EgoSim具有很強(qiáng)的跨模態(tài)遷移能力。通過將人手動(dòng)作和機(jī)器人夾爪動(dòng)作統(tǒng)一為相同的關(guān)鍵點(diǎn)表示格式,用人類演示數(shù)據(jù)訓(xùn)練的模型可以有效遷移到機(jī)器人任務(wù)中。實(shí)驗(yàn)表明,這種預(yù)訓(xùn)練方法比從零開始訓(xùn)練機(jī)器人模型效果更好,大大提升了機(jī)器人學(xué)習(xí)復(fù)雜操作技能的效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大料!許家印的背后金主,也栽了!

大料!許家印的背后金主,也栽了!

財(cái)經(jīng)要參
2026-04-16 13:31:31
剛簽德國(guó)大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

剛簽德國(guó)大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

泠泠說史
2026-04-17 20:05:32
遠(yuǎn)嫁中國(guó)8年回伊朗娘家,突然發(fā)現(xiàn)自己已經(jīng)成為了當(dāng)?shù)馗黄牛?>
    </a>
        <h3>
      <a href=老特有話說
2026-04-17 17:10:53
乒乓球最新消息!傳來4大主力好消息,樊振東、王楚欽馬龍孫穎莎

乒乓球最新消息!傳來4大主力好消息,樊振東、王楚欽馬龍孫穎莎

曹說體育
2026-04-17 11:55:54
我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號(hào)

24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號(hào)

極目新聞
2026-04-17 13:25:30
日本賭中方不會(huì)動(dòng)手,軍艦直接開進(jìn)臺(tái)海,解放軍為何仍保持克制?

日本賭中方不會(huì)動(dòng)手,軍艦直接開進(jìn)臺(tái)海,解放軍為何仍保持克制?

阿芒娛樂說
2026-04-17 17:49:52
以色列和黎巴嫩政府和談,真主黨面臨徹底覆滅的危險(xiǎn)

以色列和黎巴嫩政府和談,真主黨面臨徹底覆滅的危險(xiǎn)

高博新視野
2026-04-17 07:30:13
鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

青橘罐頭
2026-04-17 07:19:47
每升降幅0.42元,國(guó)內(nèi)油價(jià)或迎大幅下調(diào)

每升降幅0.42元,國(guó)內(nèi)油價(jià)或迎大幅下調(diào)

金融界
2026-04-17 14:36:41
156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

閃電新聞
2026-04-17 10:38:59
零食包裝上寫著“勿忘國(guó)恥是每個(gè)中國(guó)人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

零食包裝上寫著“勿忘國(guó)恥是每個(gè)中國(guó)人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

極目新聞
2026-04-17 09:51:27
突發(fā)!日本驅(qū)逐艦強(qiáng)沖臺(tái)灣海峽,待足14小時(shí)

突發(fā)!日本驅(qū)逐艦強(qiáng)沖臺(tái)灣海峽,待足14小時(shí)

烽火觀天下
2026-04-17 19:34:55
多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

荊醫(yī)生科普
2026-04-17 15:32:24
中石X某入職剛4年員工年收入,實(shí)名羨慕了啊。

中石X某入職剛4年員工年收入,實(shí)名羨慕了啊。

微微熱評(píng)
2026-04-17 17:33:38
80臺(tái)飛度80臺(tái)雅閣同框,廣汽本田的“可玩基因”藏不住了

80臺(tái)飛度80臺(tái)雅閣同框,廣汽本田的“可玩基因”藏不住了

擎動(dòng)
2026-04-15 18:58:15
重慶男子落水拽人后續(xù):故意摁壓救人者惹眾怒,真容曝光警方介入

重慶男子落水拽人后續(xù):故意摁壓救人者惹眾怒,真容曝光警方介入

奇思妙想草葉君
2026-04-16 13:12:35
深圳一員工拿到月薪4.5萬元工作后,因前公司不肯開離職證明錯(cuò)過機(jī)會(huì),法院:前司賠1.4萬元

深圳一員工拿到月薪4.5萬元工作后,因前公司不肯開離職證明錯(cuò)過機(jī)會(huì),法院:前司賠1.4萬元

環(huán)球網(wǎng)資訊
2026-04-17 19:00:07
茅臺(tái)的苦日子,可能才剛開始

茅臺(tái)的苦日子,可能才剛開始

大貓財(cái)經(jīng)Pro
2026-04-17 14:01:05
年輕人為什么寧愿跑單也不進(jìn)廠?廣州藍(lán)寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

年輕人為什么寧愿跑單也不進(jìn)廠?廣州藍(lán)寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

風(fēng)向觀察
2026-04-17 16:36:41
2026-04-17 22:35:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3306文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

健康
旅游
藝術(shù)
親子
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

炫!云南西雙版納文化游演 民族風(fēng)情拉滿

藝術(shù)要聞

潘石屹、王石、許家印、王健林的審美比較,結(jié)局已注定?

親子要聞

我給韓國(guó)婆婆當(dāng)苦力去啦 看看最近涂涂在忙啥

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版