網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

24歲博士生造出空間AI大師G2VLM，讓機(jī)器人眼明手快

2025-12-12 17:20:23　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

近日，24 歲的 00 后博士生胡文博和所在團(tuán)隊(duì)造出一款名為 G2VLM 的超級(jí) AI 模型，它是一位擁有空間超能力的視覺(jué)語(yǔ)言小能手，不僅能從普通的平面圖片中精準(zhǔn)地重建出三維世界，還能像人類一樣進(jìn)行復(fù)雜的空間思考和空間推理。

它除了可以判斷一張照片里有一把椅子之外，還能知道這把椅子距離桌子有多遠(yuǎn)，更能知道有多高、是正著放還是歪著放。這意味著，未來(lái)的機(jī)器人可能會(huì)更靈活地幫你拿取物品，AR/VR 游戲的世界會(huì)更加真實(shí)，甚至自動(dòng)駕駛汽車能夠更精準(zhǔn)地判斷距離和障礙物。

圖 | 胡文博（來(lái)源：胡文博）

在 SPAR-Bench 測(cè)試中，G2VLM 的總分比頂尖商業(yè)模型 GPT-4o 超出了 18.5 分，位居榜首。在 OmniSpatial、MindCube 等多個(gè)空間推理測(cè)試基準(zhǔn)中，它也取得了最優(yōu)或極具競(jìng)爭(zhēng)力的成績(jī)。

最有趣的是，盡管 G2VLM 的模型尺寸只有 4B 參數(shù)，遠(yuǎn)遠(yuǎn)小于一些動(dòng)輒數(shù)百億甚至上千億參數(shù)的大型模型，但是它在空間任務(wù)上的表現(xiàn)卻輕松超過(guò)了這些大塊頭，這證明它的雙專家架構(gòu)設(shè)計(jì)得非常高效，不是靠蠻力，而是靠巧勁。

胡文博告訴 DeepTech：“機(jī)器人要執(zhí)行如泡咖啡這類復(fù)雜操作，必須實(shí)時(shí)、精準(zhǔn)地理解物體的位置、距離和相互關(guān)系。G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型，可以為下游的具身智能模型提供預(yù)訓(xùn)練支持，極大地增強(qiáng)其空間感知與操作能力?！?/p>

（來(lái)源：https://arxiv.org/pdf/2511.21688）

從平面眼到立體眼：AI 的空間視力進(jìn)化史

G2VLM 和我們手機(jī)里的圖像識(shí)別軟件有著本質(zhì)不同，要想理解它的獨(dú)特之處得先從現(xiàn)有的視覺(jué)-語(yǔ)言模型講起。這類模型所存在的共同缺點(diǎn)在于，它們僅僅擁有平面眼。

假如你給這些 AI 看一張桌子的照片，經(jīng)過(guò)海量圖片訓(xùn)練的它們，可以很輕松地識(shí)別出這是一張桌子，甚至能夠描述桌子的顏色和樣式。

但是，如果你問(wèn)它：桌子左邊的杯子距離桌子右邊的書籍大概有多遠(yuǎn)？或者你問(wèn)它：能否繪制一張關(guān)于這個(gè)房間的三維結(jié)構(gòu)圖。這時(shí)，它可能就傻眼了。因?yàn)樗幚韴D片的方式，就像把一幅有深度的油畫壓成一幅扁平的剪貼畫，丟失了至關(guān)重要的深度和空間關(guān)系信息。

這就像只通過(guò)影子來(lái)猜測(cè)物體的形狀，準(zhǔn)確度非常低。也就是說(shuō)這些 AI 模型主要依靠圖片的紋理、顏色和已有的知識(shí)比如桌子通常比杯子大來(lái)猜測(cè)空間關(guān)系，而不是真正地理解三維幾何關(guān)系。因此，它們需要在精確空間感知的任務(wù)上，比如機(jī)器人導(dǎo)航、三維場(chǎng)景編輯或者回答復(fù)雜的空間關(guān)系問(wèn)題時(shí)，表現(xiàn)得差強(qiáng)人意。

（來(lái)源：https://arxiv.org/pdf/2511.21688）

靈感來(lái)源于人腦，打造雙專家協(xié)作系統(tǒng)

胡文博等人在設(shè)計(jì) G2VLM 的時(shí)候，從人腦處理視覺(jué)信息的方式中獲得了靈感。人腦主要有兩條視覺(jué)處理通路：第一條是“是什么”的通路，該通路負(fù)責(zé)識(shí)別物體是什么。

比如，看到紅色、圓形、有柄的東西，就能認(rèn)出來(lái)這是蘋果、第二條是“在哪里”的通路，該通路負(fù)責(zé)判斷物體的位置、距離和空間關(guān)系。比如，判斷蘋果在盤子上方，距離人手大約有 20 厘米。

G2VLM 將這個(gè)原理用在了 AI 模型上，它不是一個(gè)單一的“大腦”，而是由兩位專家緊密合作構(gòu)成的：

第一位是幾何感知專家，這位專家的專長(zhǎng)是從 2D 圖片中解讀 3D 幾何信息，它的目標(biāo)是弄清楚物體的深度、各個(gè)點(diǎn)的三維坐標(biāo)，以及拍攝照片的相機(jī)角度。

第二位專家是語(yǔ)義感知專家，這位專家繼承了現(xiàn)有 AI 模型的優(yōu)點(diǎn)，擅長(zhǎng)理解圖片內(nèi)容并用語(yǔ)言進(jìn)行描述。它能認(rèn)出物體和理解場(chǎng)景，并能回答一般性問(wèn)題。

最關(guān)鍵的是，這兩位專家并不是各自為戰(zhàn)，而是通過(guò)一個(gè)共享的注意力機(jī)制來(lái)進(jìn)行緊密相連，以便能夠隨時(shí)交流信息。當(dāng)語(yǔ)義專家說(shuō)“這里有個(gè)沙發(fā)”時(shí)，幾何專家就會(huì)立馬補(bǔ)充說(shuō)：“這個(gè)沙發(fā)距離墻壁大約有 1.5 米，高度是 0.8 米。”這種實(shí)時(shí)的、深度的協(xié)作，讓 G2VLM 同時(shí)具備了看懂內(nèi)容和理解空間的超能力。

（來(lái)源：https://arxiv.org/pdf/2511.21688）

獨(dú)特的學(xué)藝過(guò)程：兩步訓(xùn)練法

培養(yǎng)這樣一位雙料專家并非易事，胡文博為 G2VLM 設(shè)計(jì)了一套獨(dú)特的學(xué)藝方案：

在第一階段，讓其閉關(guān)修煉幾何神功。首先，得固定住語(yǔ)義專家也就是讓它暫時(shí)休息，此時(shí)只針對(duì)幾何專家進(jìn)行訓(xùn)練。胡文博等人使用帶有精確三維標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練它。

這就好比讓一名未來(lái)的建筑測(cè)量師，在擁有完整藍(lán)圖的成千上萬(wàn)個(gè)建筑模型上反復(fù)練習(xí)，直到練就一雙火眼金睛，光看照片就能在腦中精確構(gòu)建三維模型。這個(gè)過(guò)程非常耗費(fèi)計(jì)算資源，需要在數(shù)十臺(tái)頂級(jí)顯卡上連續(xù)訓(xùn)練好幾天。

在第二階段，讓其進(jìn)行融會(huì)貫通。當(dāng)幾何專家初步練就基本功之后，就輪到它和另一位專家一起訓(xùn)練了。

這時(shí)，訓(xùn)練數(shù)據(jù)變成了各種需要空間推理的問(wèn)題，比如需要解決“根據(jù)這兩張從不同角度拍攝的照片來(lái)判斷球是滾向了左邊還是右邊？”在這個(gè)階段，語(yǔ)義專家被喚醒之后，能夠?qū)W習(xí)如何主動(dòng)利用幾何專家提供的深度和距離等信息來(lái)回答問(wèn)題。

而幾何專家也有可能進(jìn)行自我微調(diào)，來(lái)讓自己提供的空間信息更加適用于高級(jí)推理。通過(guò)這種聯(lián)合，兩位專家磨合得越來(lái)越好，最終合體成為強(qiáng)大的 G2VLM。

（來(lái)源：https://arxiv.org/pdf/2511.21688）

在多個(gè)國(guó)際 AI“比武擂臺(tái)”上證明自己

練成之后的 G2VLM 到底有多強(qiáng)？

在三維重建的測(cè)試中：就深度估計(jì)來(lái)說(shuō)，給定一張單視角照片，它能估計(jì)出照片中每個(gè)像素點(diǎn)距離相機(jī)的實(shí)際深度，誤差很小；就點(diǎn)云估計(jì)來(lái)說(shuō)，給定幾張多視角照片，它能生成密集且準(zhǔn)確的三維點(diǎn)云模型，清晰地勾勒出物體的形狀；就相機(jī)姿態(tài)估計(jì)來(lái)說(shuō)，它能反推出拍攝每張照片時(shí)，相機(jī)在空間中的精確位置和角度。

在這些純粹考驗(yàn)三維幾何理解能力的任務(wù)上，G2VLM 的表現(xiàn)與當(dāng)前世界上最頂尖的專用三維重建模型不相上下，甚至在某些指標(biāo)上更加出色，這意味著它的立體眼已經(jīng)達(dá)到了專業(yè)水準(zhǔn)。

在空間推理的測(cè)試中，它展現(xiàn)出了最閃耀的部分。胡文博等人在包含了深度比較、距離判斷、物體相對(duì)關(guān)系、空間想象等各類難題的綜合評(píng)測(cè)集上測(cè)試了 G2VLM，于是便有了本文開頭的精彩表現(xiàn)。

對(duì)于 G2VLM 這樣一個(gè)擁有立體眼和空間腦的 AI 來(lái)說(shuō)，它會(huì)打開通往更多應(yīng)用的大門，比如打造更智能的機(jī)器人助手、打造沉浸感更強(qiáng)的 AR 和 VR、打造自動(dòng)駕駛的安全衛(wèi)士、打造人人可用的三維內(nèi)容創(chuàng)作工具、打造強(qiáng)大的視覺(jué)問(wèn)答與教育等。

（來(lái)源：https://arxiv.org/pdf/2511.21688）

胡文博表示：“這項(xiàng)成果的首創(chuàng)性在于，我們是首個(gè)在當(dāng)前主流視覺(jué)語(yǔ)言模型架構(gòu)中，原生地集成了從二維圖片直接預(yù)測(cè)三維信息的能力。以往要理解三維空間，往往需要依賴深度圖、相機(jī)位姿等難以大規(guī)模獲取的額外標(biāo)注信息。

而我們的模型僅需任意角度拍攝的二維圖片，就能預(yù)測(cè)出三維信息，并用于空間理解，這使得模型能夠擴(kuò)展到海量數(shù)據(jù)上進(jìn)行訓(xùn)練，更具實(shí)用性和可擴(kuò)展性?！?/p>

G2VLM 的突破性不止體現(xiàn)在測(cè)試成績(jī)里的那些數(shù)字，還在于它所蘊(yùn)含的理念。那就是要想讓 AI 真正理解我們身處的物理直接，不能只讓它學(xué)習(xí)圖片和文字，還得教會(huì)它關(guān)于這個(gè)世界的底層的、根本的幾何與空間規(guī)則?！翱傊?，G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型，可以為下游的具身智能模型提供預(yù)訓(xùn)練支持，極大地增強(qiáng)其空間感知與操作能力。”胡文博總結(jié)稱。

另?yè)?jù)悉，胡文博本科就讀于美國(guó)加州大學(xué)圣地亞哥分校，曾跟隨機(jī)器人學(xué)與具身智能領(lǐng)域?qū)＜姨K昊進(jìn)行研究，接觸機(jī)器人機(jī)械臂和三維學(xué)習(xí)，這激發(fā)了他對(duì) 3D 和具身智能的濃厚興趣。

隨后，胡文博跟隨計(jì)算機(jī)視覺(jué)專家屠卓文進(jìn)入視覺(jué)語(yǔ)言模型領(lǐng)域，參與開發(fā)了早期開源 VLM 模型 BLIVA，該模型在理解圖像中的文字和通用場(chǎng)景方面表現(xiàn)突出，相關(guān)論文發(fā)表在 AAAI 2024，獲得了數(shù)百次引用。這為胡文博當(dāng)前的研究奠定了重要基礎(chǔ)。

本科畢業(yè)后，胡文博在美國(guó)加州大學(xué)洛杉磯分校攻讀碩士學(xué)位，師從常凱威導(dǎo)師和彭楠赟導(dǎo)師（他們現(xiàn)在也是胡文博的博士導(dǎo)師），期間胡文博繼續(xù)專注于 VLM 與 3D 空間結(jié)合的研究方向，完成了一系列相關(guān)工作，相關(guān)論文發(fā)表在了 NeurIPS、ICLR 等機(jī)器學(xué)習(xí)頂級(jí)會(huì)議, 還獲得了 CVPR Workshop 最佳論文, 目前他依然在攻讀博士。

參考資料：

相關(guān)論文 https://arxiv.org/pdf/2511.21688

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.