国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

引入幾何約束后,VLM跨越了「空間推理」的認(rèn)知鴻溝

0
分享至



現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時(shí),餐桌在你的哪一側(cè)?」,VLM 常常答錯(cuò)。

這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細(xì)節(jié),導(dǎo)致其在空間推理時(shí)是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現(xiàn)實(shí)世界賴以運(yùn)行的幾何直覺,導(dǎo)致空間判斷漏洞百出。



  • 論文標(biāo)題:Geometrically-Constrained Agent for Spatial Reasoning
  • 論文鏈接:https://arxiv.org/pdf/2511.22659
  • 作者團(tuán)隊(duì):Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
  • 通訊單位:北京航空航天大學(xué),上海人工智能實(shí)驗(yàn)室
  • 項(xiàng)目主頁:https://gca-spatial-reasoning.github.io
  • 項(xiàng)目代碼:https://github.com/gca-spatial-reasoning/gca

針對(duì)這一痛點(diǎn),北京航空航天大學(xué)上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)創(chuàng)新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創(chuàng)了「先形式化約束,后確定性計(jì)算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào),而是通過構(gòu)建形式化任務(wù)約束,強(qiáng)制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」,通過視覺工具調(diào)用和編寫計(jì)算代碼進(jìn)行參數(shù)化計(jì)算,為空間推理搭建了一座可驗(yàn)證、確定性的幾何橋梁。

GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實(shí)現(xiàn)「能力躍遷」。在公認(rèn)高難度的 MMSI-Bench 測(cè)試中,GCA 將模型性能提升近 50%,擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法,并在多個(gè)主流空間推理測(cè)試中確立了空間推理領(lǐng)域的新 SOTA。



核心挑戰(zhàn):跨越「語義 - 幾何」的認(rèn)知鴻溝

視覺語言模型(VLM)在圖像描述與通用語義理解上表現(xiàn)卓越,然而,當(dāng)任務(wù)轉(zhuǎn)向需要高精度幾何計(jì)算的空間推理時(shí) —— 例如判斷物體的精確朝向、測(cè)量距離或進(jìn)行視角變換 —— 其表現(xiàn)卻顯著下滑。

研究團(tuán)隊(duì)指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為:

  • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細(xì)地圖簡(jiǎn)化為幾個(gè)地標(biāo)名稱,導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細(xì)節(jié)大量丟失。
  • 幾何想象的缺失:以「坐在沙發(fā)上」這一場(chǎng)景為例,VLM 僅能調(diào)用模糊的空間常識(shí)(知道人與沙發(fā)通常同向),卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場(chǎng)景。這種幾何想象力的匱乏,使其在面對(duì)復(fù)雜空間推理時(shí)力不從心。

? 核心方法:基于形式化約束的兩階段推理





1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

VLM 首先扮演「語義分析師」的角色,利用其強(qiáng)大的語義理解能力,將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計(jì)算,而是確立規(guī)則:



  • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標(biāo)系。例如指令「當(dāng)你在洗手時(shí)...」隱含了觀察者必須「面對(duì)洗手池」,因此參考系由洗手池的朝向決定。
  • 基于相機(jī)的參考系 (Camera-based Frame):即標(biāo)準(zhǔn)的視圖坐標(biāo)系。例如「從圖 1 的視角來看...」,此時(shí)參考系直接綁定為相機(jī)的基于方向的參考系 (Direction-based Frame):由兩個(gè)物體的位置關(guān)系定義。例如「烤箱在水槽的北面」,此時(shí)「北」的方向由從水槽指向烤箱的向量嚴(yán)格定義。





2. 幾何計(jì)算 —— 在規(guī)則內(nèi)進(jìn)行「確定性求解」



  • 智能工具調(diào)度與綁定:VLM 像指揮官一樣,調(diào)度 3D 重建等感知工具獲取數(shù)據(jù),并能智能地將「最左邊的椅子」等模糊描述,精準(zhǔn)綁定到具體的幾何對(duì)象上,消除語義歧義。
  • 感知與計(jì)算的無縫銜接:感知工具負(fù)責(zé)將視覺世界參數(shù)化為高保真 3D 表示,計(jì)算工具則負(fù)責(zé)執(zhí)行代碼、完成坐標(biāo)轉(zhuǎn)換,二者在統(tǒng)一框架下協(xié)同,實(shí)現(xiàn)從「看到」到「算準(zhǔn)」的閉環(huán)。
  • 檢索增強(qiáng)的可靠計(jì)算:采用類似 RAG 的策略,VLM 從一個(gè)已驗(yàn)證的幾何公式庫(kù)中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項(xiàng)計(jì)算都基于可靠的物理原理。

實(shí)驗(yàn)結(jié)果:全新的空間推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個(gè)主流空間推理基準(zhǔn)上,GCA 證明了其有效性,構(gòu)建了一個(gè)全新的空間智能 SOTA。

綜合性能提升

GCA 取得了 65.1% 的平均準(zhǔn)確率,顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準(zhǔn) MMSI-Bench 中,面對(duì)復(fù)雜的視角變換與相對(duì)方位推斷,現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機(jī)猜測(cè)」水平線。

而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA,準(zhǔn)確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關(guān)鍵一步。

強(qiáng)大的通用性

GCA 并非特定模型的「專屬補(bǔ)丁」,而是一種無需訓(xùn)練(Training-free)的通用推理范式,可直接賦能各類基座模型。

實(shí)驗(yàn)顯示,在搭載 GCA 架構(gòu)后,受測(cè)模型在 MMSI-Bench 上的性能平均實(shí)現(xiàn)了約 37% 的相對(duì)提升。其中,基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷,其準(zhǔn)確率從 36.9% 飛躍至 55.0%,有效地激發(fā)了頂級(jí)模型的空間推理潛力。





通過系統(tǒng)的消融實(shí)驗(yàn)與歸因分析,研究進(jìn)一步證實(shí)了 GCA 架構(gòu)的前瞻性:



  • 可解釋的錯(cuò)誤歸因:得益于 GCA 架構(gòu)的模塊化設(shè)計(jì),研究團(tuán)隊(duì)能夠?qū)ν评礞溌愤M(jìn)行精確的錯(cuò)誤歸因。分析顯示,VLM 在「任務(wù)形式化」階段的準(zhǔn)確率已高達(dá)~70%,當(dāng)前主要錯(cuò)誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩(wěn)健的,其性能將隨著感知模型的進(jìn)步而持續(xù)提升。



總結(jié)與意義

GCA 提出了一種「語言定義約束,幾何執(zhí)行計(jì)算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題,GCA 有效避免了 VLM 在有損語義空間中進(jìn)行不可靠的空間想象。這不僅大幅提升了推理的準(zhǔn)確性,也讓機(jī)器向擁有「幾何直覺」邁出了關(guān)鍵一步,回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

懂球帝
2026-04-20 08:00:07
世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

球場(chǎng)沒跑道
2026-04-20 05:38:54
39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛女兒

39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛女兒

攬星河的筆記
2026-04-14 15:18:30
天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

抽象派大師
2026-04-19 15:45:34
貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
若沒有此人,中國(guó)歷史或?qū)⒏膶?!晚年離休后享受什么待遇?

若沒有此人,中國(guó)歷史或?qū)⒏膶懀⊥砟觌x休后享受什么待遇?

史之銘
2026-04-19 15:49:20
瑞典:國(guó)王拒絕與澤連斯基握手的說法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問題上斷章取義!

瑞典:國(guó)王拒絕與澤連斯基握手的說法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問題上斷章取義!

李未熟擒話2
2026-04-19 17:08:59
4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
斯諾克世錦賽:丁俊暉首?。⊥炼垢鐔螚U70分追平,張安達(dá)優(yōu)勢(shì)縮水

斯諾克世錦賽:丁俊暉首?。⊥炼垢鐔螚U70分追平,張安達(dá)優(yōu)勢(shì)縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

火山詩話
2026-04-20 06:31:57
55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經(jīng)縱橫談
2026-04-19 19:03:09
“鳥巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

“鳥巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

拳擊時(shí)空
2026-04-20 06:18:44
都說孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒出過河南省

都說孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒出過河南省

長(zhǎng)風(fēng)文史
2026-04-18 16:39:15
“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬美金

“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬美金

瀟湘晨報(bào)
2026-04-19 11:48:20
黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺

黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺

顧史
2026-04-18 09:17:19
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

史之銘
2026-04-19 17:44:23
天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

心中的麥田
2026-03-06 19:27:32
25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

大風(fēng)新聞
2026-04-19 10:14:13
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
2026-04-20 09:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
手機(jī)
家居
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

紅米K100系列再次曝光:BOSE揚(yáng)聲器+超強(qiáng)馬達(dá),沖高不靠風(fēng)扇!

家居要聞

法式線條 時(shí)光靜淌

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

無障礙瀏覽 進(jìn)入關(guān)懷版