国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

與普遍預(yù)期相反!清華、阿里Qwen團(tuán)隊(duì)聯(lián)合研究,系統(tǒng)性揭示VLM如何影響VLA性能

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨譚梓馨

視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型最近已成為具身智能領(lǐng)域的研究焦點(diǎn),VLA模型利用視覺(jué)-語(yǔ)言模型(VLM)中豐富的知識(shí)作為先驗(yàn),有助于增強(qiáng)機(jī)器人策略的泛化能力。

現(xiàn)有的大多數(shù)VLA方法都側(cè)重于開(kāi)發(fā)更先進(jìn)的網(wǎng)絡(luò)架構(gòu)、整合額外的訓(xùn)練范式或模態(tài),以及優(yōu)化動(dòng)作解碼方案。

然而,對(duì)于VLA核心的一個(gè)基本問(wèn)題,目前的關(guān)注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?


針對(duì)這個(gè)課題, 清華、阿里Qwen團(tuán)隊(duì)在日前聯(lián)合發(fā)表的一篇論文中提出了VLM4VLA,這是一個(gè)統(tǒng)一的訓(xùn)練和評(píng)估框架,旨在系統(tǒng)地研究VLM模型對(duì)VLA模型性能的影響。

研究發(fā)現(xiàn),在具身操作任務(wù)中,對(duì)VLM的性能要求與其視覺(jué)問(wèn)答(VQA)能力并不完全一致。


與普遍預(yù)期相反,在通用VQA基準(zhǔn)測(cè)試中表現(xiàn)良好的VLM,在應(yīng)用于VLA時(shí)并不一定表現(xiàn)得更好。此外,在多個(gè)輔助的具身問(wèn)答(Embodied-QA)任務(wù)上,對(duì)其中大多數(shù)任務(wù)進(jìn)行微調(diào)反而會(huì)導(dǎo)致最終VLA的性能下降。

評(píng)估框架設(shè)計(jì)

研究人員首先構(gòu)建了通用的VLM4VLA流水線,可將通用VLM轉(zhuǎn)換為VLA策略,這是一個(gè)精心設(shè)計(jì)的網(wǎng)絡(luò)插件,僅引入不到1%的新參數(shù)


基于VLM4VLA流水線,這項(xiàng)研究在三個(gè)常用基準(zhǔn)的多個(gè)下游任務(wù)上進(jìn)行了大規(guī)模實(shí)證研究,共評(píng)估了24個(gè)不同的、零樣本或經(jīng)過(guò)微調(diào)的VLM,主要從三個(gè)維度考察VLM的能力:通用能力、具身特定能力、模態(tài)級(jí)分析。

初步研究發(fā)現(xiàn),雖然VLM初始化相比從頭訓(xùn)練具有持續(xù)優(yōu)勢(shì),但VLM的通用能力并不能很好地預(yù)測(cè)其在下游任務(wù)中的性能。

不同基準(zhǔn)之間的不一致性表明,VLA策略所需要的能力超出了當(dāng)前VLM所追求的范圍。此外,通過(guò)在特定輔助具身任務(wù)上微調(diào)VLM所獲得的提升并不能遷移到下游控制任務(wù)中。

最后,模態(tài)級(jí)分析確定視覺(jué)編碼器是主要的性能瓶頸, 而非語(yǔ)言組件 。

微調(diào)視覺(jué)編碼器對(duì)于實(shí)現(xiàn)強(qiáng)控制性能至關(guān)重要,而語(yǔ)言編碼器的重要性較低。在將與動(dòng)作相關(guān)的信息注入VLM內(nèi)部的視覺(jué)模塊后所觀察到的顯著性能提升,證實(shí)了標(biāo)準(zhǔn)VLM預(yù)訓(xùn)練與 VLA模型的實(shí)際需求 之間存在關(guān)鍵的領(lǐng)域鴻溝。

結(jié)果對(duì)比和關(guān)鍵結(jié)論

為確保實(shí)驗(yàn)的可復(fù)現(xiàn)性和公平性,這項(xiàng)研究在三個(gè)仿真環(huán)境中進(jìn)行測(cè)試,并選擇最具挑戰(zhàn)性的場(chǎng)景作為評(píng)估基準(zhǔn):Calvin ABC-D、SimplerEnv Bridge和Libero-Long。



通過(guò)繪制多條通用VLM質(zhì)量保證基準(zhǔn)測(cè)試結(jié)果(橫軸代表VLM能力),以及VLA在各仿真環(huán)境下的性能(縱軸),并對(duì)兩者進(jìn)行線性擬合,結(jié)果發(fā)現(xiàn)VLM能力與VLA性能之間并無(wú)明顯的正相關(guān)性,更強(qiáng)的VLM并不一定產(chǎn)生更強(qiáng)的VLA,這表明VLM預(yù)訓(xùn)練目標(biāo)與VLA目標(biāo)之間存在錯(cuò)位。

此外,論文還研究了不同VLM輔助任務(wù)對(duì)VLA性能的影響。

近期不少研究提出利用機(jī)器人數(shù)據(jù)構(gòu)建VQA數(shù)據(jù)集以改進(jìn)VLM骨干網(wǎng),但鮮有研究探討這種持續(xù)微調(diào)是否真的能提升下游任務(wù)中VLA的性能。


結(jié)果顯示,向VLM添加與具身相關(guān)的輔助任務(wù)損失并不能保證更強(qiáng)的VLA。所有模型的表現(xiàn)均不如原始基線,大多數(shù)模型的性能都出現(xiàn)了輕微下降。

現(xiàn)有的具身VQA風(fēng)格任務(wù)并不能為訓(xùn)練端到端VLA以執(zhí)行下游操作任務(wù)提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務(wù)中表現(xiàn)良好。


在VLM4VLA訓(xùn)練期間,凍結(jié)視覺(jué)編碼器會(huì)導(dǎo)致所有模型在Calvin和Simpler兩個(gè)基準(zhǔn)測(cè)試上的性能顯著下降,這強(qiáng)烈表明,在將VLM適配為VLA時(shí),微調(diào)視覺(jué)編碼器至關(guān)重要。

對(duì)于VLM和VLA之間差距的分析,研究人員推測(cè),可能源于以下兩個(gè)因素:

1、真實(shí)圖像與模擬渲染(真實(shí)到模擬):在預(yù)訓(xùn)練階段,視覺(jué)模型接觸到的桌面模擬渲染圖像相對(duì)較少。因此,視覺(jué)編碼器可能缺乏對(duì)操作過(guò)程中遇到的模擬圖像的有效高級(jí)語(yǔ)義表示。

2、視覺(jué)語(yǔ)言理解與低級(jí)動(dòng)作控制:VLM的視覺(jué)編碼器編碼的視覺(jué)特征與QA類任務(wù)典型的語(yǔ)言輸出目標(biāo)更加一致,而機(jī)器人中的低級(jí)動(dòng)作控制需要不同的視覺(jué)線索和表示。

結(jié)果還揭示了一個(gè)關(guān)鍵洞察,視覺(jué)編碼器微調(diào)的必要性源于“語(yǔ)義鴻溝”,而非仿真?zhèn)斡埃?strong>因?yàn)椋瑸橥评韮?yōu)化的VLM特征缺乏控制任務(wù)所需的細(xì)粒度表示。VLM視覺(jué)編碼器捕獲語(yǔ)義級(jí)別的信息,而VLA需要更詳細(xì)的空間信息。


雖然VLM預(yù)訓(xùn)練對(duì)于泛化能力仍然不可或缺,但VLM和VLA的學(xué)習(xí)軌跡最終會(huì)分歧到不同的區(qū)域,這種分歧解釋了盡管兩者最初是對(duì)齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調(diào)策略來(lái)彌合多模態(tài)理解與機(jī)器人操作之間的差異。

研究人員表示,VLM與VLA之間的視覺(jué)差異很可能源于視覺(jué)-語(yǔ)言任務(wù)與底層動(dòng)作控制任務(wù)之間的固有異質(zhì)性,而不僅僅是簡(jiǎn)單的圖像級(jí)“仿真到真實(shí)”差距。

爆炸式增長(zhǎng)的VLA研究

VLA領(lǐng)域在過(guò)去兩年經(jīng)歷了顯著增長(zhǎng)。根據(jù)OpenReview上的關(guān)鍵詞搜索,在AI頂會(huì)ICLR中提交的相關(guān)論文數(shù)量呈現(xiàn)出有趣的增長(zhǎng)趨勢(shì)。

ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學(xué)術(shù)創(chuàng)新出現(xiàn)在令人興奮的機(jī)器人學(xué)領(lǐng)域。


當(dāng)前VLA研究的現(xiàn)狀和該領(lǐng)域取得的進(jìn)展非常樂(lè)觀,從架構(gòu)設(shè)計(jì)到訓(xùn)練策略和評(píng)估方法,不少科研團(tuán)隊(duì)對(duì)VLA模型的各個(gè)方面都展現(xiàn)出濃厚的興趣和積極貢獻(xiàn)。

業(yè)內(nèi)人士認(rèn)為,投稿數(shù)量的爆炸式增長(zhǎng)以及在離散擴(kuò)散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業(yè)內(nèi)不斷突破根本性挑戰(zhàn),我們有望實(shí)現(xiàn)超強(qiáng)泛化能力的VLA,促進(jìn)機(jī)器人在混亂的、非結(jié)構(gòu)化的環(huán)境中更好工作。


GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
決戰(zhàn)時(shí)刻:美軍增兵一萬(wàn)即將抵達(dá),伊朗公布海底光纜圖!

決戰(zhàn)時(shí)刻:美軍增兵一萬(wàn)即將抵達(dá),伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
不打了!退出G3和G4!雷霆遭遇最大危機(jī)

不打了!退出G3和G4!雷霆遭遇最大危機(jī)

籃球教學(xué)論壇
2026-04-23 17:14:19
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風(fēng)窗
2026-04-23 16:11:15
最新公布:韓國(guó)兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布:韓國(guó)兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

環(huán)球時(shí)報(bào)國(guó)際
2026-04-23 20:42:17
我在日本生活了15年,娶過(guò)三任妻子,日本女人大多數(shù)都很物質(zhì)

我在日本生活了15年,娶過(guò)三任妻子,日本女人大多數(shù)都很物質(zhì)

千秋文化
2026-04-22 20:21:49
鴻蒙智行發(fā)布會(huì)被質(zhì)疑出意外,僅尚界新車最后停留在舞臺(tái)上沒(méi)有移動(dòng),“尚界Z7 趴窩”沖上熱搜,工作人員:請(qǐng)大家不要過(guò)度解讀傳播

鴻蒙智行發(fā)布會(huì)被質(zhì)疑出意外,僅尚界新車最后停留在舞臺(tái)上沒(méi)有移動(dòng),“尚界Z7 趴窩”沖上熱搜,工作人員:請(qǐng)大家不要過(guò)度解讀傳播

魯中晨報(bào)
2026-04-23 07:04:04
庫(kù)克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

庫(kù)克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

魯中晨報(bào)
2026-04-23 13:16:04
50億!國(guó)產(chǎn)保溫杯賣爆美國(guó):為了成為中國(guó)人,這幫老外也是拼了!

50億!國(guó)產(chǎn)保溫杯賣爆美國(guó):為了成為中國(guó)人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

桌子的生活觀
2026-04-23 12:01:50
反超重慶!中國(guó)最強(qiáng)省會(huì),逆轉(zhuǎn)了

反超重慶!中國(guó)最強(qiáng)省會(huì),逆轉(zhuǎn)了

國(guó)民經(jīng)略
2026-04-23 11:44:00
外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀(jì)
2026-04-23 13:56:03
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

懂球帝
2026-04-23 18:35:02
俄副外長(zhǎng):俄方獲邀以最高級(jí)別參加美國(guó)G20峰會(huì)

俄副外長(zhǎng):俄方獲邀以最高級(jí)別參加美國(guó)G20峰會(huì)

財(cái)聯(lián)社
2026-04-23 11:20:05
不裝了?馬斯克罕見(jiàn)承認(rèn):美國(guó)是第一,但第二到第十全都來(lái)自中國(guó)

不裝了?馬斯克罕見(jiàn)承認(rèn):美國(guó)是第一,但第二到第十全都來(lái)自中國(guó)

大衛(wèi)聊科技
2026-04-23 12:13:36
特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國(guó)官員悄悄說(shuō):不,并沒(méi)有!

特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國(guó)官員悄悄說(shuō):不,并沒(méi)有!

國(guó)是直通車
2026-04-23 20:07:07
76歲的萬(wàn)科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

76歲的萬(wàn)科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

夢(mèng)錄的西方史話
2026-04-23 14:36:39
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
納斯達(dá)克中國(guó)金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

納斯達(dá)克中國(guó)金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

每日經(jīng)濟(jì)新聞
2026-04-23 22:00:07
李斌回應(yīng)樂(lè)道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

李斌回應(yīng)樂(lè)道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

驅(qū)動(dòng)中國(guó)
2026-04-23 18:56:09
2026-04-24 02:36:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂(lè)要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見(jiàn)到"回頭錢"

汽車要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
時(shí)尚
公開(kāi)課

藝術(shù)要聞

吉達(dá)塔蓋到第100層,“它是沙特唯一能按期完成的大項(xiàng)目”

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

李昀銳:林深見(jiàn)木

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版