北大攻克三維場景理解難題:用"雙曲空間"重新定義AI看世界的方式

2026-04-28 17:05:17　來源: 科技行者

天津舉報

分享至

這項由北京大學計算機科學學院主導的研究成果于2026年4月發(fā)布，論文編號為arXiv:2604.17454，有興趣深入了解的讀者可以通過該編號在學術(shù)預印本平臺查閱完整論文。

**當機器人迷路時，問題出在哪里？**

假設你第一天去一個完全陌生的購物中心，你的大腦會自然地建立一張"心智地圖"：一樓是超市，二樓是餐廳，餐廳里有幾張桌子，桌子旁邊有椅子。這種從"大范圍場所"到"具體物品"的層級感，對你來說毫不費力——你天然就知道椅子比餐廳更"具體"，餐廳比整棟樓更"局部"。

然而，對于當今的人工智能系統(tǒng)來說，這種看似理所當然的層級感恰恰是一塊難啃的骨頭?，F(xiàn)有的大多數(shù)AI在理解場景時，會把"餐廳"和"椅子"丟進同一個"平面容器"里——就好像你把不同大小的俄羅斯套娃全都拆散鋪在桌子上，失去了原本一個套著一個的嵌套關(guān)系。這個問題直接影響了機器人導航、自動駕駛、增強現(xiàn)實等一系列與普通人生活息息相關(guān)的技術(shù)。

北京大學的研究團隊提出了一個頗具創(chuàng)意的解決方案，他們開發(fā)了一套名為"雙曲場景圖"（Hyperbolic Scene Graph，以下簡稱HSG）的新框架。這套框架的核心思想是：把AI理解場景的"戰(zhàn)場"從普通的歐幾里得空間（也就是我們?nèi)粘Ｉ罾锪块L度用的那種平直空間）換到一種特殊的"雙曲空間"——在這里，層級關(guān)系會被空間的幾何形狀天然地編碼進去，就像俄羅斯套娃被放回了它們該在的嵌套位置。

**一、普通空間為何裝不下"誰包含誰"的關(guān)系**

理解HSG的關(guān)鍵，首先要理解為什么現(xiàn)有的方法會在層級關(guān)系上栽跟頭。

當下主流的場景圖系統(tǒng)，比如北京大學團隊此前提出的MSG（多視角場景圖）框架，會用一種叫做"對比學習"的技術(shù)讓AI學習場景理解。這種技術(shù)就像在告訴AI："這兩張照片里都有同一把椅子，所以它們應該在數(shù)學空間里彼此靠近；而這把椅子和那個完全不相關(guān)的馬桶就應該離得遠遠的。"學完之后，AI會把每個場景元素——不管是一個房間還是一把椅子——用一串數(shù)字來表示，這串數(shù)字決定了它在數(shù)學空間里的"坐標"。

問題在于，普通的歐幾里得空間（你可以理解為標準的坐標紙，橫軸豎軸都是直線）在表示層級關(guān)系時效率極低。在一張普通坐標紙上，如果你想表示"餐廳包含桌子，桌子旁有椅子"這樣三層嵌套的關(guān)系，隨著層級越來越多、越來越復雜，你需要的坐標軸數(shù)量會急劇膨脹——就像你試圖把一棵參天大樹壓扁塞進一張薄薄的紙里，樹枝不得不重疊交叉、亂成一團。麻省理工學院和其他機構(gòu)的先前研究已經(jīng)證實，歐幾里得空間處理這類樹形層級結(jié)構(gòu)時確實力不從心。

于是，北京大學團隊把目光投向了雙曲空間。雙曲空間是一種具有"恒定負曲率"的彎曲空間——如果普通坐標紙是一張平鋪的桌面，那雙曲空間就像一個形狀類似馬鞍或羽衣甘藍葉子邊緣的彎曲表面，越往外延伸，空間就以指數(shù)級速度變大。這個特性讓雙曲空間天然適合表示樹形結(jié)構(gòu)：越抽象、越宏觀的概念放在靠近中心的位置，越具體、越細粒度的概念放在遠離中心的外圍，而隨著層級的增加，外圍空間會以指數(shù)速度增長，永遠有足夠的地方容納更多細節(jié)。

用一個類比來說：雙曲空間就像一棵被魔法縮小的神奇樹。樹干（最抽象的概念，比如"整個建筑"）在最中心，枝干（中等層級的概念，比如"餐廳"、"臥室"）向外延伸，每一根樹葉（最具體的元素，比如"那把紅色的椅子"）掛在最外面。越往外，可以掛的樹葉數(shù)量以指數(shù)級增長，無論你的場景多么復雜，這棵樹永遠有足夠的枝丫來容納所有細節(jié)。

**二、HSG是如何把這棵"神奇的樹"搭建起來的**

HSG的實現(xiàn)依賴于一種被稱為"洛倫茲模型"的數(shù)學工具——這是描述雙曲空間最常用的幾種數(shù)學語言之一，和愛因斯坦相對論里描述時空的數(shù)學結(jié)構(gòu)有幾分相似之處（雖然物理含義完全不同）。在洛倫茲模型里，每個概念被表示為一個多維空間中的點，這個空間滿足一個特殊的方程，使得整個空間具有均勻的負曲率。

在這個框架里，"原點"（也就是空間里最中心的那個點）被賦予了特殊的意義：它代表最抽象、最宏觀的概念，可以把它理解為"世界上所有事物的祖先"，研究團隊稱之為"根節(jié)點"（ROOT）。越接近根節(jié)點，概念越抽象；越遠離根節(jié)點，概念越具體。按照這個設定，"餐廳"這類場所級別的概念應該比"椅子"這類物體級別的概念更靠近根節(jié)點。

HSG的第一個核心操作是"把普通數(shù)字變成雙曲空間里的點"。AI在處理圖像時，圖像編碼器（這里使用的是來自Meta的DINOv2模型，一種經(jīng)過大規(guī)模自監(jiān)督訓練的強大視覺特征提取器）會先把每張圖片變成一串普通的數(shù)字。然后HSG通過一種叫做"指數(shù)映射"的數(shù)學操作，把這串數(shù)字"搬"到雙曲空間的表面上，就像把一張平整的地圖貼到一個彎曲的球面上一樣。貼上去之后，所有的數(shù)字點都嚴格地落在雙曲曲面上，而不是在空間里到處亂飄。

HSG的第二個核心操作是改造"學習方式"。原有的MSG框架使用余弦相似度（兩個向量夾角的余弦值）來衡量兩個概念的相似程度。HSG把這個衡量工具換成了雙曲空間里的"測地距離"（也就是曲面上兩點之間的最短路徑長度）。這種距離有一個歐幾里得空間沒有的奇妙特性：在雙曲空間里，隨著層級深度的增加，距離以指數(shù)速度拉開，而不是線性增長。這意味著"餐廳"和"椅子"之間的距離，不僅僅因為它們是不同類型的東西而拉大，還會因為它們處于不同的層級而進一步拉開——這正是人類直覺里"場所比物品更宏觀"的數(shù)學體現(xiàn)。

研究團隊還特別注意了一個實際工程問題：雙曲函數(shù)（cosh、sinh）的值會隨著數(shù)值增大而急劇膨脹，很容易超出計算機能處理的數(shù)值范圍，產(chǎn)生數(shù)值溢出錯誤。為了解決這個問題，HSG在進行指數(shù)映射之前，會把輸入向量的大小限制在一個安全范圍內(nèi)，確保整個計算過程的穩(wěn)定性。

**三、讓AI真正"懂得"包含關(guān)系的法寶：蘊含錐損失函數(shù)**

僅僅把空間換成雙曲空間還不夠，因為AI在學習時不一定會自動"領會"雙曲空間的層級含義。北京大學團隊的一個重要創(chuàng)新是引入了一種叫做"蘊含錐損失函數(shù)"（Entailment Loss）的額外學習目標，主動地把"場所包含物體"這個常識強制編碼進AI的學習過程里。

這個機制的原理可以用一個燈塔和它的照射范圍來理解。在雙曲空間里，每個"場所"概念（比如"廚房"）都會定義一個從它出發(fā)的錐形區(qū)域，就像燈塔發(fā)出的錐形光束。這個錐形區(qū)域被稱為"蘊含錐"，凡是屬于這個場所的物體（比如"灶臺"、"冰箱"），它們在雙曲空間里的位置都應該落在這個錐形區(qū)域之內(nèi)。

更巧妙的是，錐形區(qū)域的"張開角度"（專業(yè)術(shù)語叫"半開角"）并不是固定不變的：越靠近原點的場所，它的錐形張角就越大（覆蓋更廣泛的可能性）；越遠離原點的概念，錐形張角就越小（只覆蓋非常具體的內(nèi)容）。這完全符合我們的直覺——"整棟建筑"可以包含各種各樣的東西，而"某一個具體的書架"只能包含有限的幾種物品。

HSG的蘊含錐損失函數(shù)會計算每一個"物體"概念與其對應的"場所"概念之間的"外角"（外角可以理解為物體相對于場所的偏離程度），然后判斷這個外角是否落在場所的蘊含錐范圍之內(nèi)。如果落在里面，損失為零（AI已經(jīng)學對了）；如果跑出了錐形區(qū)域，損失就會等于"超出的角度量"，迫使AI調(diào)整，把物體的位置"拽"回錐形區(qū)域里來。

研究團隊還引入了一個"開口系數(shù)η"來靈活調(diào)節(jié)蘊含錐的松緊程度——η越大，蘊含錐越寬松（更容易包含），η越小，要求越嚴格。實驗表明，這個系數(shù)的取值對最終結(jié)果影響不大，說明HSG對這個參數(shù)非常魯棒，不需要花大量時間調(diào)參。

最終，HSG的總學習目標由三部分組成：場所級別的對比學習損失、物體級別的對比學習損失，以及蘊含錐損失，三者加權(quán)相加，權(quán)重比例為1:1:20（蘊含錐損失被賦予了更大的權(quán)重，說明層級約束在整個學習過程中占有舉足輕重的地位）。

**四、HSG如何把場景圖從圖片里"拼"出來**

理解了HSG的數(shù)學基礎之后，來看看它在實際場景中是怎么運作的。

假設你手里有幾十張從不同角度拍攝的同一個公寓的照片，但這些照片沒有任何標注，甚至不知道拍攝順序。HSG的任務是從這些"散亂的照片"里，重建出一張結(jié)構(gòu)化的"場景圖"——里面記錄了這個公寓里有哪些地點（客廳、臥室、廚房），每個地點里有哪些物體（沙發(fā)、書架、冰箱），以及哪些照片其實拍的是同一個地點或同一個物體。

整個流程分成幾個步驟。首先，每張輸入照片會同時經(jīng)過兩條處理通道：圖像編碼器提取整張照片的全局視覺特征（用來表示"場所"），以及物體檢測器識別出照片里出現(xiàn)的每一個具體物體。這里使用的物體檢測器基于DETR（一種用Transformer架構(gòu)設計的端到端目標檢測模型），通過可學習的"物體查詢"向量和交叉注意力機制，從圖像特征中提取出每個物體的視覺表示。

然后，這些來自不同照片的場所特征和物體特征分別經(jīng)過HSG的雙曲映射，被送入雙曲空間里。利用雙曲距離（測地距離），AI判斷哪些照片拍的是同一個地點（場所匹配），哪些檢測到的物體其實是同一個現(xiàn)實中的物體（物體匹配）——就像把散亂的拼圖碎片根據(jù)它們在雙曲空間里的位置關(guān)系拼在一起。

對于被判定為同一個物體的多個觀測（來自不同角度的照片），系統(tǒng)會通過"融合"操作把它們的特征合并成一個統(tǒng)一的全局表示。融合方式可以是簡單的平均，也可以是更復雜的基于注意力機制的加權(quán)融合，讓系統(tǒng)更側(cè)重于從更清晰、信息更豐富的視角獲取的特征。

跨視角的物體匹配借助了一個額外的指標：廣義交并比（GIoU）。它衡量兩張照片里檢測到的物體邊界框有多大程度的重疊，配合視覺特征相似度，共同決定兩個檢測結(jié)果是否對應同一個現(xiàn)實物體。最終，通過最優(yōu)匹配算法（類似于婚戀配對中的穩(wěn)定婚姻算法），每個預測物體都會被指派給最匹配的真實物體，從而讓場景圖的評估有了公平、可量化的基礎。

訓練數(shù)據(jù)來自ARKitScenes數(shù)據(jù)集——蘋果公司發(fā)布的一個大規(guī)模室內(nèi)場景數(shù)據(jù)集，包含用iPhone拍攝的大量室內(nèi)RGB-D（帶深度信息的彩色）視頻。研究團隊從中提取了4492個訓練場景和200個測試場景，兩者沒有任何重疊，保證了評估的公正性。

**五、實驗結(jié)果：數(shù)字背后的真實故事**

研究團隊設計了一套完整的評估體系，用來量化場景圖的質(zhì)量。核心評估指標包括三個維度：場所與場所之間連接關(guān)系的準確性（PP IoU）、場所與物體之間歸屬關(guān)系的準確性（PO IoU），以及整張場景圖綜合質(zhì)量的圖級交并比（Graph IoU）。這里的"交并比"可以這樣理解：把預測的場景圖和真實的場景圖各自畫出來，看看它們重疊的部分占總面積的比例——重疊越多，說明預測越準確。

對比的基線模型包括多個版本的MSG變體：SepMSG-Direct（直接用編碼器輸出作為特征）、SepMSG-Linear（加一層線性變換）、SepMSG-MLP（加一個小型神經(jīng)網(wǎng)絡）、以及不同層數(shù)的AoMSG（1層、2層、4層的Transformer解碼器版本）。

結(jié)果相當引人注目。在場所檢索的準確性（Recall@1）上，HSG達到了98.39%，與最強基線AoMSG-B-4的98.61%基本持平——這說明HSG在不犧牲基礎檢索能力的前提下，大幅提升了層級結(jié)構(gòu)的表示質(zhì)量。

最顯著的提升發(fā)生在圖結(jié)構(gòu)相關(guān)的指標上。HSG的PP IoU達到33.17，Graph IoU達到33.51，而最強的AoMSG基線（AoMSG-1）在這兩個指標上的成績分別為24.87和25.37。換句話說，HSG在場景圖的整體結(jié)構(gòu)質(zhì)量上比最強競爭對手高出了8個多百分點。在機器學習領域，這樣的提升幅度是非常實質(zhì)性的進步——研究團隊將其歸功于雙曲空間在編碼層級關(guān)系方面的天然優(yōu)勢。

一個有趣的對照來自SepMSG-Direct：這個基線雖然PP IoU（33.19）和Graph IoU（33.67）與HSG相近，但它的PO IoU（48.58）明顯低于SepMSG-Linear的55.67，而HSG的PO IoU為45.52。這說明不同的方法在不同維度上各有側(cè)重，而HSG在各個維度上保持了較為均衡的高水準——場所級別表現(xiàn)優(yōu)異，整體結(jié)構(gòu)準確，沒有出現(xiàn)"顧此失彼"的情況。

曲率參數(shù)的選擇對性能有顯著影響。研究團隊發(fā)現(xiàn)，曲率初始值在30到250之間時，系統(tǒng)表現(xiàn)比較穩(wěn)定，最優(yōu)點出現(xiàn)在80附近。曲率太?。ㄐ∮诘扔?0），雙曲空間接近于普通平直空間，失去了層級表示的能力；曲率太大（大于等于300），數(shù)值計算變得極不穩(wěn)定，梯度消失，性能驟降。最終選用curv_init = 80作為默認值，并讓這個參數(shù)在訓練中可以自動微調(diào)。

**六、"裝備檢查"：每個設計選擇有沒有真正起到作用**

在科學研究里，一個好的設計必須經(jīng)得起"逐一拆解"的考驗——去掉某個組件之后，性能是否真的下滑？北京大學團隊為此進行了一系列消融實驗（也就是"每次去掉一個零件看車還能不能跑"的測試），結(jié)果相當清晰。

當把雙曲空間的對比學習目標換回普通的歐幾里得InfoNCE損失函數(shù)時，PP IoU從33.2暴跌到21.5（DINOv2-Base作為編碼器時），Graph IoU也大幅下滑。Recall@1雖然仍然較高（96.4%），但圖結(jié)構(gòu)質(zhì)量慘不忍睹。這說明即使AI在檢索上依然能找到正確的照片，它對場景層級結(jié)構(gòu)的理解卻幾乎蕩然無存——歐幾里得空間真的裝不下層級關(guān)系。

當保留雙曲空間但去掉蘊含錐損失函數(shù)時，性能下降的幅度相對溫和但依然一致：PO IoU輕微下滑，說明蘊含錐損失在精細化場所與物體的歸屬關(guān)系上確實有貢獻，但幅度比替換整個學習框架要小得多。研究團隊由此得出結(jié)論：雙曲空間的幾何本身提供了主要的層級結(jié)構(gòu)優(yōu)勢，而蘊含錐損失則進一步精煉了這種優(yōu)勢。

將曲率固定為c=1（一個較小的值）而不讓其自由學習時，蘊含錐損失直接"崩潰"為零——因為在如此小的曲率下，蘊含錐的角度計算會退化，層級約束完全失效。PP IoU隨之大幅下降，而Recall@1依然保持較高水平，再次印證了"檢索能力"和"層級結(jié)構(gòu)理解"是兩件需要分別關(guān)注的事情。

投影頭的維度（即把編碼器輸出映射到雙曲空間所用向量的長度）也經(jīng)過了系統(tǒng)測試。512維時，HSG的PP IoU為32.0；1024維時達到峰值33.2；2048維時反而下滑到29.5。相比之下，歐幾里得基線模型（AoMSG-4和SepMSG-Linear）對維度的變化幾乎不敏感，在512到2048之間的變化幾乎微乎其微。這個差異揭示了一個規(guī)律：雙曲空間對"容量"的選擇更加敏感，太小會欠擬合，太大會引入冗余和優(yōu)化困難，而歐幾里得空間則更為"寬容"。

編碼器的選擇同樣接受了全面對比。研究團隊測試了ConvNeXt-Tiny、ConvNeXt-Base、ViT-Base、ResNet-18、DINOv2-Small、DINOv2-Large和DINOv2-Base共七種編碼器。結(jié)果顯示，DINOv2-Base（Meta開發(fā)的基于自監(jiān)督學習的視覺Transformer模型）在綜合性能上最強，PP IoU為33.17，Graph IoU為33.51。值得注意的是，DINOv2-Small的Recall@1高達98.08%，卻在圖結(jié)構(gòu)指標上只有16.04的PP IoU——再次證明了單看檢索準確率是不夠的，層級結(jié)構(gòu)的質(zhì)量才是更難、也更有價值的考驗。總體趨勢是：基于Transformer的現(xiàn)代大模型（DINOv2系列）比CNN架構(gòu)（ConvNeXt、ResNet）在雙曲場景圖任務上表現(xiàn)更好，大規(guī)模自監(jiān)督預訓練的特征表示與雙曲空間的層級幾何之間似乎存在更好的配合。

溫度參數(shù)τ的影響也經(jīng)過了細致測試。τ從0.5下降到0.1時，性能持續(xù)提升；在0.1時達到最優(yōu)；進一步降低到0.01時性能略有下滑。在0.05到0.12的范圍內(nèi)，HSG表現(xiàn)相當穩(wěn)定，說明這個參數(shù)的調(diào)節(jié)空間比較寬裕，不需要過于精細的調(diào)參工作。

**七、用眼睛驗證：AI的"內(nèi)心世界"是否真的有層次感**

數(shù)字上的提升固然重要，但更直觀的證據(jù)來自可視化分析。研究團隊通過兩種方式展示了HSG在層級結(jié)構(gòu)上的真實表現(xiàn)。

第一種方式是繪制"根節(jié)點距離分布圖"。對于HSG，根節(jié)點就是雙曲空間的原點；對于歐幾里得基線模型，研究團隊用所有訓練嵌入的平均值近似作為"根節(jié)點"。然后分別計算所有場所概念和物體概念與根節(jié)點的距離，畫出分布直方圖。

在HSG的分布圖里，場所的距離（均值約0.0584）明顯小于物體的距離（均值約0.0610）——兩個峰值清晰地分開，場所確實更靠近原點。這正是研究設計所期望的：場所作為更抽象的概念，應當離根更近。相比之下，AoMSG和SepMSG的分布圖里，場所和物體的距離幾乎完全混疊在一起，看不出任何有意義的層級分離——用普通歐幾里得空間學出來的表示，對"誰比誰更宏觀"這個問題毫無感知。

第二種可視化方式是追蹤訓練過程中嵌入在龐加萊圓盤（雙曲空間的另一種等價表示，可以畫在二維平面上）上的演化。在訓練初期，場所和物體的點混雜地分布在圓盤中心附近；隨著訓練的推進，場所的點逐漸向圓盤中心靠攏，物體的點則逐漸漂移到更外圍的位置；到訓練結(jié)束時，兩類點的分布區(qū)域出現(xiàn)了明顯的層次分離。這個視覺上的變化過程清晰地展示了HSG是如何"學會"把層級關(guān)系編碼進空間結(jié)構(gòu)里的——不是靠外力強行壓迫，而是在雙曲幾何的引導下自然形成的。

研究團隊還用不同編碼器骨干重復了這個可視化實驗。使用DINOv2-Base時，分離效果清晰但不極端；使用ConvNeXt-Base時，分離方向甚至出現(xiàn)了反轉(zhuǎn)（物體比場所更靠近中心），說明編碼器的特征質(zhì)量對雙曲空間是否能正確形成層級結(jié)構(gòu)有著關(guān)鍵影響；使用ViT-Base時，兩類點的分布高度重疊，幾乎沒有層級感。這從側(cè)面解釋了為什么不同編碼器在最終的定量指標上會出現(xiàn)這么大的差距。

此外，研究團隊還通過定性實驗展示了HSG在真實視頻上的表現(xiàn)：用一個預訓練的Grounding DINO檢測器處理一段真實辦公室環(huán)境的視頻，HSG成功地將不同角度拍到的同一臺顯示器、同一張辦公桌識別為同一個物體，并將它們合理地歸屬到對應的場所節(jié)點下，構(gòu)建出一張連貫的場景圖。這表明HSG不僅在訓練數(shù)據(jù)集上表現(xiàn)優(yōu)異，在訓練集以外的真實世界場景里也能產(chǎn)生有意義的輸出。

**八、這項研究還差什么，未來能走多遠**

北京大學團隊在論文里相當坦誠地列出了當前方法的局限性，以及他們認為最有價值的改進方向。

首先是曲率的處理方式。當前HSG雖然允許曲率在訓練中自動調(diào)整，但整個系統(tǒng)只使用單一的均勻曲率。現(xiàn)實世界的場景結(jié)構(gòu)并非完全均勻——不同區(qū)域的層級深度和復雜程度可能差異很大。多階段或自適應曲率優(yōu)化可能讓系統(tǒng)更靈活地適應這種不均勻性。

其次是編碼器和檢測器的能力上限。HSG的最終表現(xiàn)與底層視覺編碼器的質(zhì)量高度綁定。隨著更強的基礎模型（比如DINOv3或更新的視覺-語言預訓練模型）的出現(xiàn)，以及更準確的開放詞匯檢測器的集成，HSG的天花板有望進一步提升。

第三個方向是與下游任務的聯(lián)合優(yōu)化。目前HSG的場景圖表示是獨立訓練的，尚未與機器人導航、視覺問答等具體下游任務做端到端的聯(lián)合優(yōu)化。如果把場景圖的構(gòu)建質(zhì)量直接與機器人能否正確找到目標房間掛鉤，可能會激發(fā)出更強的性能。

歸根結(jié)底，這項研究做了一件很有意義的事情：它證明了幾何空間的選擇本身就是一種重要的"歸納偏置"——不同的空間形狀天然地支持或阻礙不同類型的知識結(jié)構(gòu)。當我們把AI理解場景的"工作空間"從平坦的歐幾里得平原換成彎曲的雙曲空間，AI就自動獲得了一種"看層級"的視角，而這種視角在普通空間里需要消耗大量額外資源才能勉強模擬。

對普通人來說，這意味著：未來幫你在家里找鑰匙的家用機器人、在醫(yī)院里引導病人去正確診室的導航系統(tǒng)、在博物館里為你講解展品的AR眼鏡，或許都會因為這種"換個空間來理解世界"的思路而變得更聰明、更可靠。當AI的"心智地圖"終于有了和人類直覺相匹配的層級感，它理解世界的方式才會真正接近我們自己的認知方式。

Q&A

Q1：雙曲場景圖（HSG）和普通場景圖有什么區(qū)別？

A：普通場景圖（比如MSG框架）把場所和物體都放在平直的歐幾里得空間里表示，這個空間不能天然地區(qū)分"誰比誰更宏觀"。HSG把場所和物體的表示搬到雙曲空間里，這種空間越往外越寬廣，越靠中心越"抽象"，使得場所（更宏觀）自然靠近中心，物體（更具體）遠離中心，層級關(guān)系被空間幾何本身編碼，不需要額外的標注信息。

Q2：蘊含錐損失函數(shù)解決了什么問題？

A：蘊含錐損失函數(shù)解決了"AI怎么學會場所包含物體"這個問題。它在雙曲空間里為每個場所定義一個錐形區(qū)域，要求屬于這個場所的物體必須落在錐形區(qū)域內(nèi)，否則就產(chǎn)生學習懲罰。越抽象的場所錐形越寬（包容更多），越具體的概念錐形越窄，這與人類對"宏觀概念包含微觀概念"的直覺完全一致。

Q3：HSG在實際應用中對普通人有什么影響？

A：HSG改善的是AI對三維場景層級結(jié)構(gòu)的理解能力，這對機器人導航、家用智能助手、醫(yī)院導引系統(tǒng)、增強現(xiàn)實等應用都有直接影響。當AI能正確理解"這個冰箱屬于廚房、廚房在一樓左側(cè)"這類層級關(guān)系時，它才能更可靠地執(zhí)行"幫我去廚房拿冰箱里的蘋果"這類指令。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.