国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

景不動(dòng)人動(dòng),OST-Bench揭示多模態(tài)大模型在線時(shí)空理解短板

0
分享至



多模態(tài)大語(yǔ)言模型(MLLMs)已在視覺與語(yǔ)言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場(chǎng)景的動(dòng)態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項(xiàng)目主頁(yè):https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫(kù):https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場(chǎng)景。隨著不斷的探索,移步換景,我們對(duì)于全局場(chǎng)景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測(cè),我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來(lái)越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實(shí)中的人類一樣,在真實(shí)世界部署的智能體通常無(wú)法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測(cè),需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。

隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄,人們開始關(guān)注它們?cè)?strong>真實(shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測(cè)構(gòu)建 3d 空間布局認(rèn)知。

然而,以往的空間智能評(píng)測(cè)多為離線、固定輸入長(zhǎng)度,而涌現(xiàn)的一些在線視頻評(píng)測(cè)基準(zhǔn)往往只考察局部或語(yǔ)義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場(chǎng)景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):

  1. 在線設(shè)定:模型必須在不斷增長(zhǎng)的觀測(cè)中進(jìn)行實(shí)時(shí)感知、記憶與推理;
  2. 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理

視頻演示

正如下圖所示,與傳統(tǒng)離線空間基準(zhǔn)相比,在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。



基準(zhǔn)介紹:「移步換景」為大模型帶來(lái)了哪些新難題?

傳統(tǒng)的靜態(tài)場(chǎng)景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來(lái)持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場(chǎng)景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP)四類題型?;谝?guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測(cè)試集數(shù)據(jù) (1.4k 個(gè)場(chǎng)景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場(chǎng)景)。



實(shí)驗(yàn)結(jié)果:大模型的在線場(chǎng)景時(shí)空理解答卷







  1. 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說(shuō)明現(xiàn)有范式難以適應(yīng)長(zhǎng)時(shí)序的在線設(shè)定。
  2. 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒那么樂觀。「空間建?!箼C(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降??傮w來(lái)看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復(fù)雜的在線場(chǎng)景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。



深入分析:大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索,模型更傾向于「就地猜測(cè)」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。

研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無(wú)充分依據(jù),往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

2.跨視角推理測(cè)評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考

為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測(cè)評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長(zhǎng)觀察中識(shí)別用于解答的關(guān)鍵幀。

(2) 補(bǔ)考的結(jié)果表明:復(fù)雜線索條件下的空間推理能力不足與長(zhǎng)期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。



3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?

為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來(lái)自 7000 個(gè)場(chǎng)景的 5 萬(wàn)條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說(shuō)明單純微調(diào)并不能觸及問題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」,無(wú)法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

現(xiàn)象表明:微調(diào)可以帶來(lái)提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門課上,沒有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無(wú)法真正拿高分的。要攻克 OST-Bench,必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

總結(jié)

OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來(lái)模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長(zhǎng)期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
煮湯圓,有人用開水,用冷水!廚師長(zhǎng):都不對(duì),教您做法,不粘鍋

煮湯圓,有人用開水,用冷水!廚師長(zhǎng):都不對(duì),教您做法,不粘鍋

阿龍美食記
2026-02-23 17:09:09
央行突然出手“降溫”人民幣,出口企業(yè)的春天要來(lái)了?|商業(yè)微史記

央行突然出手“降溫”人民幣,出口企業(yè)的春天要來(lái)了?|商業(yè)微史記

界面新聞
2026-02-27 13:01:50
黃金白銀,集體下跌

黃金白銀,集體下跌

第一財(cái)經(jīng)資訊
2026-02-27 09:54:21
看完《鏢人》,對(duì)塑料古偶應(yīng)激了!滿屏假頭套的痛,此刻盡數(shù)爆發(fā)

看完《鏢人》,對(duì)塑料古偶應(yīng)激了!滿屏假頭套的痛,此刻盡數(shù)爆發(fā)

八卦南風(fēng)
2026-02-24 16:26:16
人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

侃神評(píng)故事
2026-02-27 07:40:03
美國(guó)防部擬追加預(yù)算應(yīng)對(duì)中國(guó),外交部:以中國(guó)為借口強(qiáng)化亞太部署

美國(guó)防部擬追加預(yù)算應(yīng)對(duì)中國(guó),外交部:以中國(guó)為借口強(qiáng)化亞太部署

澎湃新聞
2026-02-27 15:36:33
WTT大滿貫:蒯曼2-3爆冷出局,女單8強(qiáng)國(guó)乒占5席,孫穎莎保送冠軍

WTT大滿貫:蒯曼2-3爆冷出局,女單8強(qiáng)國(guó)乒占5席,孫穎莎保送冠軍

銜春信
2026-02-27 17:35:41
三只羊上市成功,一切都反轉(zhuǎn)了

三只羊上市成功,一切都反轉(zhuǎn)了

大佬灼見
2026-02-25 09:58:38
1952年,黃克誠(chéng)在岳父被判死刑后,找到負(fù)責(zé)的干部:能否幫個(gè)小忙

1952年,黃克誠(chéng)在岳父被判死刑后,找到負(fù)責(zé)的干部:能否幫個(gè)小忙

茅舍品史
2026-02-26 17:45:03
15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎?

15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎?

墨蘭史書
2026-02-09 23:08:35
北京一女子去哈爾濱旅游將貓弄丟,為尋貓滯留15天未回家過年,當(dāng)事人發(fā)聲:小貓有心臟病,還聽不見聲音,若有人撿到歸還愿給予4000元感謝

北京一女子去哈爾濱旅游將貓弄丟,為尋貓滯留15天未回家過年,當(dāng)事人發(fā)聲:小貓有心臟病,還聽不見聲音,若有人撿到歸還愿給予4000元感謝

瀟湘晨報(bào)
2026-02-27 10:36:54
炸了!克洛普要去皇馬?紅牛即將官宣離職

炸了!克洛普要去皇馬?紅牛即將官宣離職

瀾歸序
2026-02-27 13:40:28
79年對(duì)越戰(zhàn)爭(zhēng),入伍52天的新兵唐立忠榮獲一等功,后來(lái)是何軍銜?

79年對(duì)越戰(zhàn)爭(zhēng),入伍52天的新兵唐立忠榮獲一等功,后來(lái)是何軍銜?

搜史君
2026-02-27 07:00:16
美伊核談判未達(dá)成協(xié)議,美方提出了強(qiáng)硬要求

美伊核談判未達(dá)成協(xié)議,美方提出了強(qiáng)硬要求

起喜電影
2026-02-27 16:16:42
逃離三亞大潰?。∫蝗f(wàn)四天價(jià)機(jī)票逼瘋打工人,中產(chǎn)游客已窮哭

逃離三亞大潰??!一萬(wàn)四天價(jià)機(jī)票逼瘋打工人,中產(chǎn)游客已窮哭

烈史
2026-02-26 14:51:59
叫囂2025年決戰(zhàn)的美司令退休之后再談中國(guó),說(shuō)了以前不敢說(shuō)的實(shí)話

叫囂2025年決戰(zhàn)的美司令退休之后再談中國(guó),說(shuō)了以前不敢說(shuō)的實(shí)話

快看張同學(xué)
2026-02-27 17:32:55
馬筱梅產(chǎn)后3天又曬兒子!小汪寶躺包被里睡眼惺忪,雙眼皮像媽媽

馬筱梅產(chǎn)后3天又曬兒子!小汪寶躺包被里睡眼惺忪,雙眼皮像媽媽

小娛樂悠悠
2026-02-27 11:19:24
2026第一波大裁員來(lái)了,注意這5個(gè)危險(xiǎn)行業(yè)

2026第一波大裁員來(lái)了,注意這5個(gè)危險(xiǎn)行業(yè)

愛看劇的阿峰
2026-02-25 04:59:54
吳京再創(chuàng)票房神話!《鏢人》逆襲奪冠,這“玄學(xué)”真絕了

吳京再創(chuàng)票房神話!《鏢人》逆襲奪冠,這“玄學(xué)”真絕了

喜歡歷史的阿繁
2026-02-27 16:02:55
女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

掉了顆大白兔糖
2026-02-25 07:07:28
2026-02-27 18:48:51
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12374文章數(shù) 142570關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

發(fā)布"中國(guó)男籃逆轉(zhuǎn)日本隊(duì)"的帖子中措辭不妥 FIBA致歉

頭條要聞

發(fā)布"中國(guó)男籃逆轉(zhuǎn)日本隊(duì)"的帖子中措辭不妥 FIBA致歉

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國(guó)欲沒收其全部收入

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
旅游
健康
藝術(shù)
公開課

教育要聞

未雨綢繆?多地明確:開學(xué)不強(qiáng)制作業(yè)檢查,不得因作業(yè)未完成處罰學(xué)生!你家寒假作業(yè)怎樣了?

旅游要聞

9天25萬(wàn)人次!春節(jié)期間泰國(guó)贏麻了

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

紫氣東來(lái),好運(yùn)一整年!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版