国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

橫掃室內(nèi)3D場景,港科大(廣州)打造單目開放詞匯占據(jù)預(yù)測新SOTA

0
分享至



在具身智能研究中,如何讓智能體精準理解周圍環(huán)境的精細幾何結(jié)構(gòu)與開放語義信息,始終是具身感知的核心難題。近年來,語義占據(jù)預(yù)測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統(tǒng)一到三維體素網(wǎng)格中,用于構(gòu)建 3D 語義占據(jù)地圖,為機器人的空間推理、導(dǎo)航與交互操作提供了場景表達基礎(chǔ)。

然而,現(xiàn)有方法大多建立在封閉詞匯(Closed-vocabulary) 設(shè)定下,模型只能識別訓(xùn)練階段預(yù)先定義好的有限類別。一旦進入真實環(huán)境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統(tǒng)占據(jù)預(yù)測方法而言,超出預(yù)定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。

近期,香港科技大學(xué)(廣州)陳昶昊教授團隊聯(lián)合香港中文大學(xué)(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現(xiàn)了單目開放詞匯三維占據(jù)預(yù)測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。

LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統(tǒng)一的三維表示,在僅使用幾何標簽(二值占據(jù)標簽) 訓(xùn)練的情況下,便能支持任意文本描述的目標類別查詢,實現(xiàn)開放詞匯的三維語義占據(jù)預(yù)測。

在 Occ-ScanNet 數(shù)據(jù)集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預(yù)測結(jié)果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據(jù)預(yù)測精度也超越了多種封閉詞匯方法,展現(xiàn)出極強的性能與泛化能力。



  • 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
  • 論文地址:https://arxiv.org/abs/2602.22667

為什么具身場景的開放語義占據(jù)預(yù)測更困難?

傳統(tǒng)的占據(jù)預(yù)測模型像僅僅背過單詞書,只能認出學(xué)過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據(jù)文本描述進行推理。下圖展示了這一差異:

  • 封閉詞匯模型- 只能識別「椅子」「桌子」等訓(xùn)練時見過的類別。
  • 開放詞匯模型(LegoOcc)- 可以響應(yīng)任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應(yīng)區(qū)域的熱力圖。



Figure 1 閉集 vs 開集 3D 占據(jù)預(yù)測

此外,室內(nèi)具身環(huán)境與戶外車輛駕駛場景也有不同:

  1. 室內(nèi)場景的幾何更稠密、結(jié)構(gòu)更復(fù)雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
  2. 室內(nèi)場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓(xùn)練數(shù)據(jù)中只出現(xiàn)寥寥幾次。

因此,直接將室外開放詞匯占據(jù)預(yù)測模型遷移到室內(nèi),會出現(xiàn)性能下降,已有的少數(shù)室內(nèi)占據(jù)預(yù)測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

LegoOCC 框架介紹



Figure 2 LegoOcc 整體算法框架

LegoOcc 將問題拆解為兩部分:幾何學(xué)習(xí)決定空間里哪里「被占據(jù)」,語義學(xué)習(xí)決定這些被占據(jù)區(qū)域「是什么」。為實現(xiàn)開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統(tǒng)一的中間表示:每個高斯同時攜帶幾何參數(shù)(位置、協(xié)方差、不透明度)與一個語言對齊的語義嵌入。

(1)從單目圖像生成語言嵌入的 3D 高斯

給定輸入圖像,LegoOcc 首先通過前饋網(wǎng)絡(luò)預(yù)測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協(xié)方差和不透明度等幾何參數(shù),還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務(wù)于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統(tǒng)一到了同一個場景表示框架中。

(2)泊松視角的高斯到占據(jù)轉(zhuǎn)換

在僅有二值占據(jù)監(jiān)督的設(shè)定下,進一步研究如何將高斯表示穩(wěn)定地聚合為體素占據(jù)結(jié)果,F(xiàn)有方法在這一環(huán)節(jié)易出現(xiàn)訓(xùn)練不穩(wěn)定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據(jù)聚合時卻可能忽略不透明度信息,導(dǎo)致二維渲染監(jiān)督與三維占據(jù)監(jiān)督之間存在優(yōu)化沖突。

為此,LegoOcc 提出了基于泊松過程的高斯到占據(jù)轉(zhuǎn)換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據(jù)」解釋為「至少發(fā)生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監(jiān)督條件下更穩(wěn)定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學(xué)習(xí)階段的穩(wěn)定性與可優(yōu)化性。



(3)漸進溫度衰減減少沿光線的特征混合

在語義學(xué)習(xí)部分,LegoOcc 采用高斯?jié)姙R將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓(xùn)練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權(quán)混合,然而室內(nèi)場景對象密集、投影重疊多,易導(dǎo)致監(jiān)督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。

因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數(shù)控制不透明度,并在訓(xùn)練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續(xù)梯度(區(qū)別于硬 Top?k 的離散選擇),提升語言監(jiān)督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。



實驗結(jié)果

論文從定量實驗、消融實驗和可視化結(jié)果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據(jù)預(yù)測、三維幾何占據(jù)預(yù)測和推理效率上都展現(xiàn)出了明顯優(yōu)勢。

(1)開放詞匯設(shè)定下 mIoU 超過此前最佳方法 2 倍

論文展示了閉集評測和開放詞匯評測兩種設(shè)定下的定量實驗結(jié)果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預(yù)測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應(yīng)類別的三維語義占據(jù)結(jié)果,實現(xiàn)文本驅(qū)動的任意語義類別定位。

在 Occ-ScanNet 數(shù)據(jù)集上,LegoOcc 在開放詞匯設(shè)定下取得了 21.05 mIoU 和 59.50 IoU 的結(jié)果。相比此前表現(xiàn)最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領(lǐng)先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



(2)Poisson 聚合的作用驗證

本工作對提出的泊松式高斯到占據(jù)轉(zhuǎn)換(Poisson-based G2O)進行了消融實驗。

在開放詞匯設(shè)定下,當使用 GaussianFormer2 風(fēng)格聚合時,結(jié)果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復(fù)到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監(jiān)督條件下穩(wěn)定訓(xùn)練、有效學(xué)習(xí)。



(3)漸進溫度衰減緩解特征混合問題

本文對溫度控制策略進行了消融實驗:若訓(xùn)練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學(xué)習(xí)仍受特征混合影響;若訓(xùn)練時用高溫、測試時突然切換到低溫,則會出現(xiàn)訓(xùn)練測試不匹配(Train-test Mismatch);若從訓(xùn)練一開始就使用低溫,則優(yōu)化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓(xùn)練穩(wěn)定性與最終語義判別性,取得最佳結(jié)果。



(4)推理速度具備優(yōu)勢,更適合機器人平臺部署

在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。



(5)可視化結(jié)果

1. 閉集評測結(jié)果

在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預(yù)測結(jié)果與真實標簽更為一致,幾何和語義預(yù)測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



圖 3 Occ-ScanNet 閉集測試結(jié)果(Closed-vocabulary Results on Occ-ScanNet)

2. 開放詞匯測試結(jié)果

進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應(yīng)類別的三維語義占據(jù)預(yù)測結(jié)果。LegoOcc 不局限于訓(xùn)練時給定的固定類別,能夠根據(jù)自然語言描述進行三維空間中的目標識別,實現(xiàn)了文本驅(qū)動的開放詞匯三維查詢。



圖 4 開放詞匯測試結(jié)果(Open-vocabulary Results)

展望與意義

面向具身室內(nèi)場景,本文提出 LegoOcc ,一種單目開放語義占據(jù)預(yù)測框架,采用語言嵌入的高斯統(tǒng)一表達幾何與語義場景信息。幾何側(cè)以泊松聚合穩(wěn)定弱監(jiān)督訓(xùn)練,語義側(cè)用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現(xiàn)了文本驅(qū)動的三維語義占據(jù)預(yù)測。

未來的家用機器人能夠高效地將三維場景表達為體素網(wǎng)格,只需一句「幫我找一下茶幾上的遙控器」,即可在復(fù)雜空間中精準定位目標物體,而無需預(yù)先「學(xué)習(xí)」過遙控器這一類別。

作者介紹

周常青:香港科技大學(xué)(廣州)博士生,致力于高效且穩(wěn)定的三維場景理解方法研究,當前重點關(guān)注端到端軌跡生成模型,以及面向?qū)Ш饺蝿?wù)的高效世界模型構(gòu)建。

張涵:香港科技大學(xué)(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現(xiàn)階段重點探索三維視覺語義定位方法,以及適配導(dǎo)航任務(wù)的高效世界模型構(gòu)建。

江澤宇:香港科技大學(xué)(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現(xiàn)實開放環(huán)境的具身應(yīng)用場景。

陳昶昊(通訊作者):香港科技大學(xué)(廣州)智能交通學(xué)域和人工智能學(xué)域助理教授,博士生導(dǎo)師,香港科技大學(xué)跨學(xué)科學(xué)院聯(lián)署助理教授,從事具身智能感知、導(dǎo)航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔(dān)任獨立 PI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大風(fēng)11級!大雨、雷電、冰雹接連登場!沈陽主要降水時間就在……

大風(fēng)11級!大雨、雷電、冰雹接連登場!沈陽主要降水時間就在……

魯中晨報
2026-05-05 14:42:50
“山西訂婚強奸案”男子刑滿釋放回家 其母:剛回來狀態(tài)有些緊張,以后要好好生活

“山西訂婚強奸案”男子刑滿釋放回家 其母:剛回來狀態(tài)有些緊張,以后要好好生活

紅星新聞
2026-05-04 18:24:32
金價銀價大跌!

金價銀價大跌!

臺州交通廣播
2026-05-05 13:56:40
江蘇13市2026年第一季度GDP出爐,沈陽在那只能排第7

江蘇13市2026年第一季度GDP出爐,沈陽在那只能排第7

這是盛京
2026-05-05 16:08:06
特朗普威脅退出北約,歐洲徹底攤牌:美國再見,我們不伺候了!

特朗普威脅退出北約,歐洲徹底攤牌:美國再見,我們不伺候了!

忠于法紀
2026-05-05 15:58:36
廣東隊能贏北京隊晉級四強嗎?來看,籃球?qū)<沂窃趺凑f的

廣東隊能贏北京隊晉級四強嗎?來看,籃球?qū)<沂窃趺凑f的

體育哲人
2026-05-05 16:36:51
吳千語結(jié)束上海租房生活,大別墅裝修一年終于完工,迫不及待搬家

吳千語結(jié)束上海租房生活,大別墅裝修一年終于完工,迫不及待搬家

柒佰娛
2026-05-04 09:33:17
他是吳宜澤外籍教練,手把手指導(dǎo)11年,今拿下世錦賽冠軍實至名歸

他是吳宜澤外籍教練,手把手指導(dǎo)11年,今拿下世錦賽冠軍實至名歸

有范又有料
2026-05-05 16:19:28
“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

番外行
2026-04-15 10:03:50
“史無前例!中方選擇無視,美國制裁不靈了”

“史無前例!中方選擇無視,美國制裁不靈了”

觀察者網(wǎng)
2026-05-05 12:11:04
一過山車忙到“冒煙起火”?景區(qū)緊急辟謠!網(wǎng)友:憋不住想笑……

一過山車忙到“冒煙起火”?景區(qū)緊急辟謠!網(wǎng)友:憋不住想笑……

上觀新聞
2026-05-05 15:45:03
隊報:西蒙尼對贏得歐冠充滿執(zhí)念 馬競高層證實他下賽季仍會執(zhí)教

隊報:西蒙尼對贏得歐冠充滿執(zhí)念 馬競高層證實他下賽季仍會執(zhí)教

云隱南山
2026-05-05 16:34:27
在小動保也會被打為境外勢力的語境下

在小動保也會被打為境外勢力的語境下

林中木白
2026-05-05 11:55:14
問題果然出現(xiàn)了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

問題果然出現(xiàn)了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

藍色海邊
2026-05-04 23:49:08
30 萬級閉眼入!啟境 GT7 “5 米車身 + 掀背尾門”無短板全能表現(xiàn)!

30 萬級閉眼入!啟境 GT7 “5 米車身 + 掀背尾門”無短板全能表現(xiàn)!

聊聊車生活
2026-05-05 15:45:04
千萬企退人員多年合理訴求遲遲未落地!真實現(xiàn)狀深度解析

千萬企退人員多年合理訴求遲遲未落地!真實現(xiàn)狀深度解析

匹夫來搞笑
2026-04-25 15:26:44
A股:不用等了,三個信號來了,明天周三走勢分析!

A股:不用等了,三個信號來了,明天周三走勢分析!

明心
2026-05-05 09:43:35
張軍被查創(chuàng)下多個尷尬“紀錄”,18年前曾因酒駕被查

張軍被查創(chuàng)下多個尷尬“紀錄”,18年前曾因酒駕被查

元芳有看法
2026-04-30 09:25:44
57集諜戰(zhàn)大作,僅播2天,收視率直接破2,生死角逐,一觸即發(fā)

57集諜戰(zhàn)大作,僅播2天,收視率直接破2,生死角逐,一觸即發(fā)

樂楓電影
2026-05-05 15:32:21
她,陪主席走完最后一程,一生未婚,與主席同月同日離世!

她,陪主席走完最后一程,一生未婚,與主席同月同日離世!

老范談史
2026-03-23 19:40:15
2026-05-05 17:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12917文章數(shù) 142642關(guān)注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

頭條要聞

伊朗警告阿聯(lián)酋:勿當以色列棋子 否則將得到難忘教訓(xùn)

頭條要聞

伊朗警告阿聯(lián)酋:勿當以色列棋子 否則將得到難忘教訓(xùn)

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會 張敬軒被救護車拉走

財經(jīng)要聞

五一假期,中國年輕人的“首爾病”犯了

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

游戲
親子
時尚
教育
軍事航空

“百萬元”買不到國產(chǎn)大作的廁所!玩家:美少女不需要

親子要聞

吃糖對孩子的危害不只是牙齒!家長一定要注意

夏天最經(jīng)典的銀色,貴氣十足!

教育要聞

語法第3課(上)-英文造句的被動結(jié)構(gòu)

軍事要聞

特朗普威脅伊朗不要向美國船開火

無障礙瀏覽 進入關(guān)懷版