国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

24歲博士生造出空間AI大師G2VLM,讓機(jī)器人眼明手快

0
分享至

近日,24 歲的 00 后博士生胡文博和所在團(tuán)隊(duì)造出一款名為 G2VLM 的超級(jí) AI 模型,它是一位擁有空間超能力的視覺(jué)語(yǔ)言小能手,不僅能從普通的平面圖片中精準(zhǔn)地重建出三維世界,還能像人類一樣進(jìn)行復(fù)雜的空間思考和空間推理。

它除了可以判斷一張照片里有一把椅子之外,還能知道這把椅子距離桌子有多遠(yuǎn),更能知道有多高、是正著放還是歪著放。這意味著,未來(lái)的機(jī)器人可能會(huì)更靈活地幫你拿取物品,AR/VR 游戲的世界會(huì)更加真實(shí),甚至自動(dòng)駕駛汽車能夠更精準(zhǔn)地判斷距離和障礙物。


圖 | 胡文博(來(lái)源:胡文博)

在 SPAR-Bench 測(cè)試中,G2VLM 的總分比頂尖商業(yè)模型 GPT-4o 超出了 18.5 分,位居榜首。在 OmniSpatial、MindCube 等多個(gè)空間推理測(cè)試基準(zhǔn)中,它也取得了最優(yōu)或極具競(jìng)爭(zhēng)力的成績(jī)。

最有趣的是,盡管 G2VLM 的模型尺寸只有 4B 參數(shù),遠(yuǎn)遠(yuǎn)小于一些動(dòng)輒數(shù)百億甚至上千億參數(shù)的大型模型,但是它在空間任務(wù)上的表現(xiàn)卻輕松超過(guò)了這些大塊頭,這證明它的雙專家架構(gòu)設(shè)計(jì)得非常高效,不是靠蠻力,而是靠巧勁。

胡文博告訴 DeepTech:“機(jī)器人要執(zhí)行如泡咖啡這類復(fù)雜操作,必須實(shí)時(shí)、精準(zhǔn)地理解物體的位置、距離和相互關(guān)系。G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力?!?/p>


(來(lái)源:https://arxiv.org/pdf/2511.21688)

從平面眼到立體眼:AI 的空間視力進(jìn)化史

G2VLM 和我們手機(jī)里的圖像識(shí)別軟件有著本質(zhì)不同,要想理解它的獨(dú)特之處得先從現(xiàn)有的視覺(jué)-語(yǔ)言模型講起。這類模型所存在的共同缺點(diǎn)在于,它們僅僅擁有平面眼。

假如你給這些 AI 看一張桌子的照片,經(jīng)過(guò)海量圖片訓(xùn)練的它們,可以很輕松地識(shí)別出這是一張桌子,甚至能夠描述桌子的顏色和樣式。

但是,如果你問(wèn)它:桌子左邊的杯子距離桌子右邊的書籍大概有多遠(yuǎn)?或者你問(wèn)它:能否繪制一張關(guān)于這個(gè)房間的三維結(jié)構(gòu)圖。這時(shí),它可能就傻眼了。因?yàn)樗幚韴D片的方式,就像把一幅有深度的油畫壓成一幅扁平的剪貼畫,丟失了至關(guān)重要的深度和空間關(guān)系信息。

這就像只通過(guò)影子來(lái)猜測(cè)物體的形狀,準(zhǔn)確度非常低。也就是說(shuō)這些 AI 模型主要依靠圖片的紋理、顏色和已有的知識(shí)比如桌子通常比杯子大來(lái)猜測(cè)空間關(guān)系,而不是真正地理解三維幾何關(guān)系。因此,它們需要在精確空間感知的任務(wù)上,比如機(jī)器人導(dǎo)航、三維場(chǎng)景編輯或者回答復(fù)雜的空間關(guān)系問(wèn)題時(shí),表現(xiàn)得差強(qiáng)人意。


(來(lái)源:https://arxiv.org/pdf/2511.21688)

靈感來(lái)源于人腦,打造雙專家協(xié)作系統(tǒng)

胡文博等人在設(shè)計(jì) G2VLM 的時(shí)候,從人腦處理視覺(jué)信息的方式中獲得了靈感。人腦主要有兩條視覺(jué)處理通路:第一條是“是什么”的通路,該通路負(fù)責(zé)識(shí)別物體是什么。

比如,看到紅色、圓形、有柄的東西,就能認(rèn)出來(lái)這是蘋果、第二條是“在哪里”的通路,該通路負(fù)責(zé)判斷物體的位置、距離和空間關(guān)系。比如,判斷蘋果在盤子上方,距離人手大約有 20 厘米。

G2VLM 將這個(gè)原理用在了 AI 模型上,它不是一個(gè)單一的“大腦”,而是由兩位專家緊密合作構(gòu)成的:

第一位是幾何感知專家,這位專家的專長(zhǎng)是從 2D 圖片中解讀 3D 幾何信息,它的目標(biāo)是弄清楚物體的深度、各個(gè)點(diǎn)的三維坐標(biāo),以及拍攝照片的相機(jī)角度。

第二位專家是語(yǔ)義感知專家,這位專家繼承了現(xiàn)有 AI 模型的優(yōu)點(diǎn),擅長(zhǎng)理解圖片內(nèi)容并用語(yǔ)言進(jìn)行描述。它能認(rèn)出物體和理解場(chǎng)景,并能回答一般性問(wèn)題。

最關(guān)鍵的是,這兩位專家并不是各自為戰(zhàn),而是通過(guò)一個(gè)共享的注意力機(jī)制來(lái)進(jìn)行緊密相連,以便能夠隨時(shí)交流信息。當(dāng)語(yǔ)義專家說(shuō)“這里有個(gè)沙發(fā)”時(shí),幾何專家就會(huì)立馬補(bǔ)充說(shuō):“這個(gè)沙發(fā)距離墻壁大約有 1.5 米,高度是 0.8 米。”這種實(shí)時(shí)的、深度的協(xié)作,讓 G2VLM 同時(shí)具備了看懂內(nèi)容和理解空間的超能力。


(來(lái)源:https://arxiv.org/pdf/2511.21688)

獨(dú)特的學(xué)藝過(guò)程:兩步訓(xùn)練法

培養(yǎng)這樣一位雙料專家并非易事,胡文博為 G2VLM 設(shè)計(jì)了一套獨(dú)特的學(xué)藝方案:

在第一階段,讓其閉關(guān)修煉幾何神功。首先,得固定住語(yǔ)義專家也就是讓它暫時(shí)休息,此時(shí)只針對(duì)幾何專家進(jìn)行訓(xùn)練。胡文博等人使用帶有精確三維標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練它。

這就好比讓一名未來(lái)的建筑測(cè)量師,在擁有完整藍(lán)圖的成千上萬(wàn)個(gè)建筑模型上反復(fù)練習(xí),直到練就一雙火眼金睛,光看照片就能在腦中精確構(gòu)建三維模型。這個(gè)過(guò)程非常耗費(fèi)計(jì)算資源,需要在數(shù)十臺(tái)頂級(jí)顯卡上連續(xù)訓(xùn)練好幾天。

在第二階段,讓其進(jìn)行融會(huì)貫通。當(dāng)幾何專家初步練就基本功之后,就輪到它和另一位專家一起訓(xùn)練了。

這時(shí),訓(xùn)練數(shù)據(jù)變成了各種需要空間推理的問(wèn)題,比如需要解決“根據(jù)這兩張從不同角度拍攝的照片來(lái)判斷球是滾向了左邊還是右邊?”在這個(gè)階段,語(yǔ)義專家被喚醒之后,能夠?qū)W習(xí)如何主動(dòng)利用幾何專家提供的深度和距離等信息來(lái)回答問(wèn)題。

而幾何專家也有可能進(jìn)行自我微調(diào),來(lái)讓自己提供的空間信息更加適用于高級(jí)推理。通過(guò)這種聯(lián)合,兩位專家磨合得越來(lái)越好,最終合體成為強(qiáng)大的 G2VLM。


(來(lái)源:https://arxiv.org/pdf/2511.21688)

在多個(gè)國(guó)際 AI“比武擂臺(tái)”上證明自己

練成之后的 G2VLM 到底有多強(qiáng)?

在三維重建的測(cè)試中:就深度估計(jì)來(lái)說(shuō),給定一張單視角照片,它能估計(jì)出照片中每個(gè)像素點(diǎn)距離相機(jī)的實(shí)際深度,誤差很小;就點(diǎn)云估計(jì)來(lái)說(shuō),給定幾張多視角照片,它能生成密集且準(zhǔn)確的三維點(diǎn)云模型,清晰地勾勒出物體的形狀;就相機(jī)姿態(tài)估計(jì)來(lái)說(shuō),它能反推出拍攝每張照片時(shí),相機(jī)在空間中的精確位置和角度。

在這些純粹考驗(yàn)三維幾何理解能力的任務(wù)上,G2VLM 的表現(xiàn)與當(dāng)前世界上最頂尖的專用三維重建模型不相上下,甚至在某些指標(biāo)上更加出色,這意味著它的立體眼已經(jīng)達(dá)到了專業(yè)水準(zhǔn)。

在空間推理的測(cè)試中,它展現(xiàn)出了最閃耀的部分。胡文博等人在包含了深度比較、距離判斷、物體相對(duì)關(guān)系、空間想象等各類難題的綜合評(píng)測(cè)集上測(cè)試了 G2VLM,于是便有了本文開頭的精彩表現(xiàn)。

對(duì)于 G2VLM 這樣一個(gè)擁有立體眼和空間腦的 AI 來(lái)說(shuō),它會(huì)打開通往更多應(yīng)用的大門,比如打造更智能的機(jī)器人助手、打造沉浸感更強(qiáng)的 AR 和 VR、打造自動(dòng)駕駛的安全衛(wèi)士、打造人人可用的三維內(nèi)容創(chuàng)作工具、打造強(qiáng)大的視覺(jué)問(wèn)答與教育等。


(來(lái)源:https://arxiv.org/pdf/2511.21688)

胡文博表示:“這項(xiàng)成果的首創(chuàng)性在于,我們是首個(gè)在當(dāng)前主流視覺(jué)語(yǔ)言模型架構(gòu)中,原生地集成了從二維圖片直接預(yù)測(cè)三維信息的能力。以往要理解三維空間,往往需要依賴深度圖、相機(jī)位姿等難以大規(guī)模獲取的額外標(biāo)注信息。

而我們的模型僅需任意角度拍攝的二維圖片,就能預(yù)測(cè)出三維信息,并用于空間理解,這使得模型能夠擴(kuò)展到海量數(shù)據(jù)上進(jìn)行訓(xùn)練,更具實(shí)用性和可擴(kuò)展性?!?/p>

G2VLM 的突破性不止體現(xiàn)在測(cè)試成績(jī)里的那些數(shù)字,還在于它所蘊(yùn)含的理念。那就是要想讓 AI 真正理解我們身處的物理直接,不能只讓它學(xué)習(xí)圖片和文字,還得教會(huì)它關(guān)于這個(gè)世界的底層的、根本的幾何與空間規(guī)則?!翱傊?,G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力。”胡文博總結(jié)稱。

另?yè)?jù)悉,胡文博本科就讀于美國(guó)加州大學(xué)圣地亞哥分校,曾跟隨機(jī)器人學(xué)與具身智能領(lǐng)域?qū)<姨K昊進(jìn)行研究,接觸機(jī)器人機(jī)械臂和三維學(xué)習(xí),這激發(fā)了他對(duì) 3D 和具身智能的濃厚興趣。

隨后,胡文博跟隨計(jì)算機(jī)視覺(jué)專家屠卓文進(jìn)入視覺(jué)語(yǔ)言模型領(lǐng)域,參與開發(fā)了早期開源 VLM 模型 BLIVA,該模型在理解圖像中的文字和通用場(chǎng)景方面表現(xiàn)突出,相關(guān)論文發(fā)表在 AAAI 2024,獲得了數(shù)百次引用。這為胡文博當(dāng)前的研究奠定了重要基礎(chǔ)。

本科畢業(yè)后,胡文博在美國(guó)加州大學(xué)洛杉磯分校攻讀碩士學(xué)位,師從常凱威導(dǎo)師和彭楠赟導(dǎo)師(他們現(xiàn)在也是胡文博的博士導(dǎo)師),期間胡文博繼續(xù)專注于 VLM 與 3D 空間結(jié)合的研究方向,完成了一系列相關(guān)工作,相關(guān)論文發(fā)表在了 NeurIPS、ICLR 等機(jī)器學(xué)習(xí)頂級(jí)會(huì)議, 還獲得了 CVPR Workshop 最佳論文, 目前他依然在攻讀博士。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2511.21688

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
隊(duì)報(bào):皇馬認(rèn)為姆巴佩能出戰(zhàn)巴薩,球員不想冒任何不理性風(fēng)險(xiǎn)

隊(duì)報(bào):皇馬認(rèn)為姆巴佩能出戰(zhàn)巴薩,球員不想冒任何不理性風(fēng)險(xiǎn)

懂球帝
2026-01-10 06:00:13
我70歲才明白:孩子不尊重你,無(wú)需翻臉,用“烏鴉定律”就行

我70歲才明白:孩子不尊重你,無(wú)需翻臉,用“烏鴉定律”就行

蘭姐說(shuō)故事
2026-01-03 17:40:03
張柏芝大兒子終于“長(zhǎng)開”了!穿西裝比謝霆鋒還帥,網(wǎng)友:像爺爺

張柏芝大兒子終于“長(zhǎng)開”了!穿西裝比謝霆鋒還帥,網(wǎng)友:像爺爺

木子愛娛樂(lè)大號(hào)
2026-01-07 21:47:13
阿隆索爭(zhēng)首冠!24場(chǎng)進(jìn)29球巨星有望復(fù)出,2奇兵或助皇馬雙殺巴薩

阿隆索爭(zhēng)首冠!24場(chǎng)進(jìn)29球巨星有望復(fù)出,2奇兵或助皇馬雙殺巴薩

體育知多少
2026-01-10 10:31:41
外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰(shuí)在我家!

外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰(shuí)在我家!

曉艾故事匯
2025-07-14 17:13:00
伊朗最高領(lǐng)袖哈梅內(nèi)伊呼吁伊朗人民保持團(tuán)結(jié)

伊朗最高領(lǐng)袖哈梅內(nèi)伊呼吁伊朗人民保持團(tuán)結(jié)

界面新聞
2026-01-09 17:26:42
厚黑:我的穿衣辯證法

厚黑:我的穿衣辯證法

疾跑的小蝸牛
2026-01-09 22:05:00
林光寧追悼會(huì):蕭敬騰落淚,林有慧跪地,送花名單貼滿墻全是大咖

林光寧追悼會(huì):蕭敬騰落淚,林有慧跪地,送花名單貼滿墻全是大咖

妙知
2026-01-09 16:52:04
燒錢點(diǎn)煙被罰一萬(wàn)?這波操作真的蠢到家了

燒錢點(diǎn)煙被罰一萬(wàn)?這波操作真的蠢到家了

前沿天地
2026-01-10 09:34:51
4年時(shí)間門店從0增至960家,全國(guó)開店的零食品牌,如今陷入閉店?duì)幾h!官方回應(yīng):主動(dòng)放緩是策略,不是叫停加盟

4年時(shí)間門店從0增至960家,全國(guó)開店的零食品牌,如今陷入閉店?duì)幾h!官方回應(yīng):主動(dòng)放緩是策略,不是叫停加盟

每日經(jīng)濟(jì)新聞
2025-12-28 23:52:06
果然是圍城!沒(méi)想到引進(jìn)克勞德海港球迷和其他球隊(duì)球迷是兩種反應(yīng)

果然是圍城!沒(méi)想到引進(jìn)克勞德海港球迷和其他球隊(duì)球迷是兩種反應(yīng)

陌識(shí)
2026-01-10 09:51:05
高中生扶老人被訛50萬(wàn),15年后老人孫子考上清華,在校門口跪下求饒

高中生扶老人被訛50萬(wàn),15年后老人孫子考上清華,在校門口跪下求饒

紅豆講堂
2025-07-14 17:21:43
算分!U23國(guó)足VS澳大利亞,開球時(shí)間確定,王鈺棟和李昊影響出線

算分!U23國(guó)足VS澳大利亞,開球時(shí)間確定,王鈺棟和李昊影響出線

體育大學(xué)僧
2026-01-09 12:31:13
2025年,這些廣東的大廠停工停產(chǎn)了。。

2025年,這些廣東的大廠停工停產(chǎn)了。。

微微熱評(píng)
2026-01-10 00:19:12
韓國(guó)總統(tǒng)李在明即將訪問(wèn)日本,中方表態(tài)

韓國(guó)總統(tǒng)李在明即將訪問(wèn)日本,中方表態(tài)

環(huán)球網(wǎng)資訊
2026-01-09 15:22:14
太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護(hù)傘又是誰(shuí)?

太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護(hù)傘又是誰(shuí)?

公子麥少
2025-10-22 14:43:48
泰國(guó)這次厲害了!泰國(guó)警方稱3名國(guó)人攜帶8628張電話卡!

泰國(guó)這次厲害了!泰國(guó)警方稱3名國(guó)人攜帶8628張電話卡!

荊楚寰宇文樞
2026-01-08 22:51:38
碩果累累!巴基斯坦與蘇丹敲定15億美元軍售協(xié)議,成全球軍貿(mào)主力

碩果累累!巴基斯坦與蘇丹敲定15億美元軍售協(xié)議,成全球軍貿(mào)主力

軍迷戰(zhàn)情室
2026-01-10 09:51:16
國(guó)乒再輸張本智和,中國(guó)球迷竟霸屏慶祝:贏得好!真有實(shí)力!

國(guó)乒再輸張本智和,中國(guó)球迷竟霸屏慶祝:贏得好!真有實(shí)力!

十點(diǎn)街球體育
2026-01-10 00:00:03
太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

鶴羽說(shuō)個(gè)事
2026-01-08 11:02:25
2026-01-10 10:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16103文章數(shù) 514466關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

媒體:中國(guó)若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

頭條要聞

媒體:中國(guó)若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

體育要聞

楊瀚森:上場(chǎng)時(shí)間要去爭(zhēng)取 而不是要求

娛樂(lè)要聞

曹西平遺照曝光:靈堂布置過(guò)于簡(jiǎn)陋

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

游戲
時(shí)尚
房產(chǎn)
公開課
軍事航空

美任玩具宣傳圖疑似AI生成引批判 參演演員否認(rèn)

2026春夏八大流行趨勢(shì)

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版