国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

如何讓一張照片重建完整3D世界?

0
分享至

從一張普通照片中重建出完整的3D物體,這聽(tīng)起來(lái)像是科幻電影里的情節(jié)。然而Meta的研究團(tuán)隊(duì)真的做到了。他們開(kāi)發(fā)的SAM 3D模型能夠從單張圖像中預(yù)測(cè)物體的形狀、紋理和空間位置,即使物體被遮擋或處于雜亂場(chǎng)景中也能準(zhǔn)確重建。更令人驚訝的是,這個(gè)模型不僅能重建看得見(jiàn)的部分,還能推測(cè)出被遮擋的背面結(jié)構(gòu),就像人類(lèi)大腦能從局部信息推斷整體一樣。


這項(xiàng)研究的突破性在于解決了3D領(lǐng)域長(zhǎng)期存在的"數(shù)據(jù)壁壘"問(wèn)題。傳統(tǒng)的3D重建模型主要依賴(lài)多視角幾何信息,但人類(lèi)其實(shí)能從單張照片推斷深度和形狀,這種能力來(lái)自于識(shí)別和上下文理解。

早在1963年,計(jì)算機(jī)視覺(jué)先驅(qū)勞倫斯·羅伯茨就提出,當(dāng)識(shí)別出圖像中的物體后,就能恢復(fù)其3D形狀和姿態(tài)。SAM 3D正是繼承了這一思想,并通過(guò)現(xiàn)代深度學(xué)習(xí)技術(shù)將其發(fā)揚(yáng)光大。研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一套"人機(jī)協(xié)作"的數(shù)據(jù)標(biāo)注流程,以前所未有的規(guī)模生成了包含形狀、紋理和姿態(tài)信息的3D數(shù)據(jù)集,使模型能夠在真實(shí)世界場(chǎng)景中表現(xiàn)出色。

核心技術(shù):從合成到真實(shí)的多階段訓(xùn)練

SAM 3D的訓(xùn)練過(guò)程可以類(lèi)比為培養(yǎng)一位3D藝術(shù)家的成長(zhǎng)歷程。就像藝術(shù)家需要經(jīng)歷基礎(chǔ)訓(xùn)練、實(shí)踐磨練和風(fēng)格培養(yǎng)三個(gè)階段,SAM 3D也采用了預(yù)訓(xùn)練、中期訓(xùn)練和后期訓(xùn)練的多階段策略。

在預(yù)訓(xùn)練階段,模型從270萬(wàn)個(gè)合成3D物體中學(xué)習(xí)基礎(chǔ)的形狀和紋理知識(shí)。這些物體來(lái)自O(shè)bjaverse-XL等數(shù)據(jù)庫(kù),被渲染成24個(gè)不同視角的高分辨率圖像。此時(shí)的模型就像初學(xué)者臨摹石膏像,雖然能畫(huà)出規(guī)整的形狀,但缺乏應(yīng)對(duì)真實(shí)世界復(fù)雜情況的能力。這個(gè)階段消耗了2.5萬(wàn)億個(gè)訓(xùn)練樣本,為后續(xù)學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。

中期訓(xùn)練階段引入了"半合成"數(shù)據(jù),即將3D物體渲染后粘貼到真實(shí)照片中。研究團(tuán)隊(duì)開(kāi)發(fā)了名為RP-3DO的數(shù)據(jù)集,包含6100萬(wàn)個(gè)樣本。這個(gè)階段教會(huì)模型三個(gè)關(guān)鍵技能:遵循物體遮罩、處理遮擋情況、估計(jì)物體在場(chǎng)景中的位置和尺度。就像藝術(shù)家開(kāi)始寫(xiě)生,需要學(xué)會(huì)在復(fù)雜環(huán)境中抓住物體的本質(zhì)特征。特別值得一提的是"飛行遮擋物"技術(shù),通過(guò)在圖像中隨機(jī)添加遮擋物體,強(qiáng)制模型學(xué)習(xí)形狀補(bǔ)全能力。另一種"物體交換"技術(shù)則確保渲染的物體與真實(shí)場(chǎng)景在深度和尺度上保持一致,提供更真實(shí)的視覺(jué)線索。


后期訓(xùn)練是整個(gè)流程的精髓所在。傳統(tǒng)方法面臨的困境是:普通人無(wú)法直接創(chuàng)建3D模型,而專(zhuān)業(yè)3D藝術(shù)家成本高昂且效率低下。研究團(tuán)隊(duì)巧妙地將問(wèn)題轉(zhuǎn)化為"選擇題"——讓標(biāo)注者從多個(gè)候選3D模型中選擇最匹配的一個(gè),而不是從零開(kāi)始創(chuàng)建。這種"模型在環(huán)"的標(biāo)注流程包含三個(gè)關(guān)鍵步驟。

第一步是選擇目標(biāo)物體。團(tuán)隊(duì)從多個(gè)真實(shí)世界數(shù)據(jù)集中采樣圖像,包括大規(guī)模網(wǎng)絡(luò)圖片、日常環(huán)境視頻、以自我中心視角拍攝的數(shù)據(jù)集等,確保覆蓋廣泛的物體類(lèi)別和場(chǎng)景類(lèi)型。他們構(gòu)建了一個(gè)面向3D的物體分類(lèi)體系,例如將不同品種的狗歸為一類(lèi),因?yàn)樗鼈兙哂邢嗨频?D結(jié)構(gòu)。通過(guò)這種方式,團(tuán)隊(duì)標(biāo)注了近100萬(wàn)張圖像中的約314萬(wàn)個(gè)物體。

第二步是3D模型的排序與選擇。由于普通標(biāo)注者無(wú)法生成3D形狀,研究團(tuán)隊(duì)部署了一套"模型套件",包括檢索方法、文本生成3D方法和圖像生成3D方法。對(duì)于每個(gè)物體,標(biāo)注者會(huì)看到6到10個(gè)候選模型,通過(guò)一系列成對(duì)比較選出最佳匹配。這個(gè)過(guò)程采用"8選1"的最優(yōu)搜索策略,顯著提高了找到高質(zhì)量標(biāo)注的概率。標(biāo)注者隨后對(duì)選中的模型進(jìn)行質(zhì)量評(píng)分,達(dá)標(biāo)的樣本進(jìn)入下一階段,不達(dá)標(biāo)的作為偏好學(xué)習(xí)的負(fù)樣本。當(dāng)所有模型都無(wú)法滿(mǎn)足要求時(shí),這些困難樣本會(huì)被轉(zhuǎn)交給專(zhuān)業(yè)3D藝術(shù)家進(jìn)行人工建模。

第三步是將3D模型對(duì)齊到2.5D場(chǎng)景。標(biāo)注者使用專(zhuān)門(mén)開(kāi)發(fā)的工具,將選定的3D模型在點(diǎn)云中進(jìn)行旋轉(zhuǎn)、平移和縮放,使其與圖像中的物體精確對(duì)齊。點(diǎn)云由深度估計(jì)模型生成,提供了足夠的空間結(jié)構(gòu)信息,使標(biāo)注者能夠一致地放置和定向物體。整個(gè)標(biāo)注流程中,選擇物體平均需要10秒,選擇3D模型需要80秒,對(duì)齊模型需要150秒。


這套數(shù)據(jù)引擎的巧妙之處在于形成了一個(gè)良性循環(huán)。隨著模型性能提升,它在候選生成中的占比從最初的少數(shù)逐漸增加到約80%,數(shù)據(jù)質(zhì)量也隨之提高。研究團(tuán)隊(duì)可以動(dòng)態(tài)調(diào)整質(zhì)量閾值,只保留達(dá)到更高標(biāo)準(zhǔn)的樣本用于訓(xùn)練。最終,這個(gè)數(shù)據(jù)引擎產(chǎn)出了314萬(wàn)個(gè)可訓(xùn)練的形狀、123萬(wàn)個(gè)布局?jǐn)?shù)據(jù)、10萬(wàn)個(gè)紋理樣本,以及超過(guò)700萬(wàn)對(duì)偏好數(shù)據(jù),規(guī)模前所未有。

在模型改進(jìn)階段,團(tuán)隊(duì)采用監(jiān)督微調(diào)和直接偏好優(yōu)化相結(jié)合的策略。監(jiān)督微調(diào)使用所有達(dá)到質(zhì)量標(biāo)準(zhǔn)的標(biāo)注數(shù)據(jù),而直接偏好優(yōu)化則利用選擇過(guò)程中產(chǎn)生的偏好對(duì)——被選中的"更好"樣本和被拒絕的"較差"樣本。這種方法借鑒了大語(yǔ)言模型訓(xùn)練中的成功經(jīng)驗(yàn),能夠讓模型學(xué)習(xí)人類(lèi)的審美偏好,抑制常見(jiàn)失敗模式,比如懸浮碎片、缺少底部的網(wǎng)格、缺失對(duì)稱(chēng)性等問(wèn)題。整個(gè)后期訓(xùn)練最終迭代使用了5000億個(gè)訓(xùn)練樣本。

為了實(shí)現(xiàn)亞秒級(jí)的形狀和布局推理,研究團(tuán)隊(duì)還進(jìn)行了模型蒸餾,將推理所需的函數(shù)評(píng)估次數(shù)從25次減少到4次,實(shí)現(xiàn)了10倍的速度提升,同時(shí)幾乎不損失性能。

模型架構(gòu):雙階段設(shè)計(jì)與混合變換器

SAM 3D的核心架構(gòu)采用兩階段設(shè)計(jì),分別處理幾何和紋理。這種分工類(lèi)似于雕塑家先塑造形體,再進(jìn)行表面處理。


第一階段的幾何模型負(fù)責(zé)聯(lián)合預(yù)測(cè)物體的粗略形狀和空間布局。輸入編碼采用DINOv2作為視覺(jué)特征提取器,處理四組條件信息:裁剪后的物體圖像及其遮罩,提供高分辨率的局部視圖;完整圖像及其遮罩,提供全局場(chǎng)景上下文和識(shí)別線索。模型還可以選擇性地接受粗略的場(chǎng)景點(diǎn)云作為額外輸入,這些點(diǎn)云可以來(lái)自硬件傳感器或單目深度估計(jì)。

幾何模型的核心是一個(gè)包含12億參數(shù)的流變換器,采用"混合變換器"架構(gòu)。這種設(shè)計(jì)的精妙之處在于使用結(jié)構(gòu)化的注意力掩碼,允許不同模態(tài)之間共享信息,同時(shí)保持獨(dú)立的處理流。具體而言,模型包含兩個(gè)變換器流:一個(gè)專(zhuān)門(mén)處理形狀特征,另一個(gè)的參數(shù)在旋轉(zhuǎn)、平移和縮放之間共享。這種設(shè)計(jì)帶來(lái)兩個(gè)關(guān)鍵優(yōu)勢(shì):能夠獨(dú)立訓(xùn)練或微調(diào)某些模態(tài),同時(shí)通過(guò)多模態(tài)自注意力層實(shí)現(xiàn)跨模態(tài)信息共享,確保預(yù)測(cè)的自洽性。

形狀的表示采用643分辨率的粗體素,旋轉(zhuǎn)使用6維連續(xù)表示法以避免不連續(xù)性,平移和縮放則直接在參數(shù)空間中去噪。所有模態(tài)映射到1024維的共享特征空間,形狀產(chǎn)生4096個(gè)token,而旋轉(zhuǎn)、平移、縮放各產(chǎn)生1個(gè)token。

第二階段的紋理與細(xì)化模型以幾何模型預(yù)測(cè)的粗體素為輸入,生成高分辨率的幾何細(xì)節(jié)和物體紋理。模型首先提取活躍體素,然后使用包含6億參數(shù)的稀疏潛在流變換器進(jìn)行細(xì)化。最終的潛在表示可以通過(guò)兩個(gè)獨(dú)立訓(xùn)練的VAE解碼器轉(zhuǎn)換為網(wǎng)格或3D高斯點(diǎn)云,兩者共享相同的結(jié)構(gòu)化潛在空間。

研究團(tuán)隊(duì)對(duì)紋理VAE進(jìn)行了重要改進(jìn)。原始設(shè)計(jì)將特征反投影到所有體素,包括不可見(jiàn)的遮擋部分,導(dǎo)致重建圖像清晰度下降。改進(jìn)后的"深度感知VAE"只將特征反投影到從當(dāng)前視圖可見(jiàn)的體素,利用深度信息進(jìn)行遮擋處理,顯著提升了重建質(zhì)量。訓(xùn)練時(shí),KL正則化項(xiàng)按活躍體素?cái)?shù)量歸一化,防止大物體主導(dǎo)訓(xùn)練損失。

整個(gè)系統(tǒng)的訓(xùn)練采用整流條件流匹配目標(biāo)函數(shù)。對(duì)于幾何模型,目標(biāo)是學(xué)習(xí)從噪聲分布到目標(biāo)分布的速度場(chǎng),聯(lián)合生成形狀、旋轉(zhuǎn)、平移和縮放。每個(gè)模態(tài)都有獨(dú)立的權(quán)重系數(shù),用于平衡不同輸出的重要性。紋理模型采用類(lèi)似的流匹配策略,在潛在空間中細(xì)化形狀并合成紋理。

訓(xùn)練超參數(shù)方面,預(yù)訓(xùn)練階段在512個(gè)A100 GPU上進(jìn)行200輪,中期訓(xùn)練先在320個(gè)GPU上運(yùn)行50輪,再在128個(gè)GPU上額外訓(xùn)練50輪,物體交換數(shù)據(jù)在256個(gè)GPU上訓(xùn)練12輪。監(jiān)督微調(diào)在128個(gè)H200 GPU上進(jìn)行100輪,隨著數(shù)據(jù)引擎產(chǎn)生更高質(zhì)量的數(shù)據(jù),質(zhì)量閾值逐步提高,最終保留50萬(wàn)個(gè)樣本。偏好優(yōu)化在128個(gè)A100上運(yùn)行1輪。紋理模型的訓(xùn)練規(guī)模相當(dāng),預(yù)訓(xùn)練在256個(gè)A100上進(jìn)行245輪,中期訓(xùn)練80輪,監(jiān)督微調(diào)89輪,偏好優(yōu)化2輪。

值得注意的是,研究團(tuán)隊(duì)在紋理訓(xùn)練中引入了光照增強(qiáng)技術(shù)。對(duì)于合成數(shù)據(jù),他們?cè)阡秩据斎雸D像時(shí)使用隨機(jī)光照,而在渲染目標(biāo)潛在表示的視圖時(shí)使用環(huán)境光照。這種設(shè)計(jì)鼓勵(lì)模型學(xué)習(xí)預(yù)測(cè)"去光照"的紋理,避免將強(qiáng)方向性陰影或高光烘焙到紋理中,使生成的3D資產(chǎn)更加通用。

評(píng)估體系:藝術(shù)家級(jí)別的基準(zhǔn)測(cè)試

為了全面評(píng)估SAM 3D在真實(shí)世界場(chǎng)景中的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SA-3DAO的新基準(zhǔn)測(cè)試集。這個(gè)數(shù)據(jù)集包含1000個(gè)由專(zhuān)業(yè)3D藝術(shù)家從自然圖像創(chuàng)建的高保真3D物體。與現(xiàn)有基準(zhǔn)相比,SA-3DAO的獨(dú)特之處在于其視覺(jué)多樣性和真實(shí)世界復(fù)雜性。

數(shù)據(jù)集覆蓋的場(chǎng)景包括公園、滑雪場(chǎng)、跳蚤市場(chǎng)、游行等室內(nèi)外環(huán)境,物體范圍從大型結(jié)構(gòu)如滑雪纜車(chē)和自動(dòng)扶梯,到日常用品如衣物,再到罕見(jiàn)的文化特定物體如部落面具。藝術(shù)家的任務(wù)是從單張圖像中恢復(fù)物體的完整3D形狀,必須處理局部信息缺失、自然遮擋、物體尺寸較小等挑戰(zhàn)。為了填補(bǔ)這些信息空白,藝術(shù)家依靠識(shí)別和上下文,使用常識(shí)先驗(yàn)、物理合理性假設(shè)和對(duì)稱(chēng)性原則來(lái)完成網(wǎng)格。

制作這些高質(zhì)量基準(zhǔn)數(shù)據(jù)的成本相當(dāng)高昂。對(duì)于簡(jiǎn)單幾何形狀的明顯物體,藝術(shù)家可能只需5分鐘,但對(duì)于復(fù)雜案例可能需要超過(guò)5小時(shí)。數(shù)據(jù)集中網(wǎng)格的中位數(shù)包含4751個(gè)頂點(diǎn),許多圖像提供了多個(gè)物體,每張圖像的物體數(shù)量遵循大致的冪律分布,最多可達(dá)11個(gè)物體。

研究團(tuán)隊(duì)還設(shè)計(jì)了針對(duì)不同場(chǎng)景的人類(lèi)偏好測(cè)試集,包括四個(gè)領(lǐng)域:從SA-1B均勻采樣1000個(gè)圖像和物體遮罩對(duì),覆蓋多樣的物體類(lèi)別;從MetaCLIP選擇1000個(gè)中度或嚴(yán)重遮擋的樣本;從LVIS密集采樣1000張包含10到30個(gè)物體的場(chǎng)景圖像;從Aria數(shù)字孿生數(shù)據(jù)集采樣40個(gè)視頻幀,每個(gè)場(chǎng)景約30個(gè)物體。這些測(cè)試集分別評(píng)估模型在長(zhǎng)尾類(lèi)別、遮擋情況、密集場(chǎng)景和高精度點(diǎn)云場(chǎng)景中的表現(xiàn)。

評(píng)估指標(biāo)涵蓋形狀、紋理和布局三個(gè)方面。對(duì)于形狀質(zhì)量,研究團(tuán)隊(duì)使用四個(gè)互補(bǔ)指標(biāo):F1分?jǐn)?shù)(閾值0.01)測(cè)量0.01閾值下重建點(diǎn)和真實(shí)點(diǎn)之間的對(duì)應(yīng)精度;體素IoU提供粗略的體積一致性評(píng)分;倒角距離測(cè)量雙向最近鄰距離,突出細(xì)粒度幾何偏差;推土機(jī)距離量化將一個(gè)點(diǎn)分布轉(zhuǎn)換為另一個(gè)點(diǎn)分布所需的最小成本,更加嚴(yán)格地捕捉全局結(jié)構(gòu)差異。這些指標(biāo)從局部精度到全局形狀一致性提供了全面的重建保真度視圖。

對(duì)于紋理評(píng)估,由于SA-3DAO的藝術(shù)家創(chuàng)建的網(wǎng)格是無(wú)紋理的,研究團(tuán)隊(duì)采用感知相似度指標(biāo)。在ISO3D數(shù)據(jù)集上,他們使用ULIP和Uni3D計(jì)算點(diǎn)云特征和圖像特征之間的跨模態(tài)相似度,每個(gè)生成的網(wǎng)格均勻采樣8192個(gè)表面點(diǎn)形成點(diǎn)云表示。

布局評(píng)估采用標(biāo)準(zhǔn)的6D姿態(tài)估計(jì)指標(biāo):3D IoU測(cè)量預(yù)測(cè)和真實(shí)3D軸對(duì)齊邊界框的重疊;ICP旋轉(zhuǎn)誤差是ICP對(duì)齊后的殘差旋轉(zhuǎn)誤差(以度為單位);ADD-S(對(duì)稱(chēng)平均距離)是預(yù)測(cè)和真實(shí)姿態(tài)物體之間的對(duì)稱(chēng)化平均最小點(diǎn)對(duì)點(diǎn)距離,按物體直徑歸一化;ADD-S@0.1表示ADD-S距離是否小于物體直徑的10%。這些指標(biāo)全面衡量了模型預(yù)測(cè)物體空間位置和方向的準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果:壓倒性?xún)?yōu)勢(shì)

在SA-3DAO基準(zhǔn)測(cè)試上,SAM 3D展現(xiàn)出顯著優(yōu)于現(xiàn)有最先進(jìn)方法的性能。與最近的Trellis、Hunyuan3D-2.1、Direct3D-S2、TripoSG和Hi3DGen等模型相比,SAM 3D在所有形狀質(zhì)量指標(biāo)上都取得了大幅領(lǐng)先。具體而言,F1分?jǐn)?shù)達(dá)到0.2344,相比第二名提升約44%;體素IoU為0.2311,提升約51%;倒角距離降至0.0400,改善超過(guò)50%;推土機(jī)距離為0.1211,也有顯著提升。


在人類(lèi)偏好測(cè)試中,結(jié)果更加令人印象深刻。對(duì)于真實(shí)圖像的單物體重建,SAM 3D獲得了5:1的壓倒性勝率。在場(chǎng)景級(jí)重建方面,用戶(hù)以6:1的比例更偏好SAM 3D的結(jié)果。這些偏好測(cè)試在三個(gè)評(píng)估集上進(jìn)行,涵蓋了場(chǎng)景偏好集、LVIS和Aria數(shù)字孿生數(shù)據(jù)集,結(jié)果一致顯示SAM 3D的顯著優(yōu)勢(shì)。

特別值得關(guān)注的是模型在處理遮擋和雜亂場(chǎng)景時(shí)的表現(xiàn)。定性示例清楚地展示了SAM 3D在嚴(yán)重遮擋情況下的強(qiáng)大泛化能力。當(dāng)物體被部分遮擋或處于復(fù)雜場(chǎng)景中時(shí),競(jìng)爭(zhēng)方法往往產(chǎn)生不完整或扭曲的重建,而SAM 3D能夠利用上下文線索和識(shí)別能力,推斷出合理的完整形狀。

對(duì)于3D場(chǎng)景重建,SAM 3D在實(shí)際數(shù)據(jù)如SA-3DAO和Aria數(shù)字孿生數(shù)據(jù)集上的改進(jìn)尤為顯著。模型引入了聯(lián)合生成形狀和布局的新能力,將ADD-S@0.1指標(biāo)從2%提升到77%。即使與使用SAM 3D網(wǎng)格的流水線方法相比,性能提升依然持續(xù)存在。研究團(tuán)隊(duì)還展示了"采樣后優(yōu)化"方法可以進(jìn)一步改善性能,類(lèi)似于渲染比較方法,在554個(gè)接受優(yōu)化的樣本中,3D布局指標(biāo)和2D遮罩IoU都有顯著提升。


紋理質(zhì)量方面,SAM 3D同樣表現(xiàn)出色。在使用相同SAM 3D幾何形狀的紋理生成對(duì)比中,標(biāo)注者顯著偏好SAM 3D的紋理結(jié)果。在ISO3D數(shù)據(jù)集上,SAM 3D相對(duì)于Trellis的勝率達(dá)到81.1%,相對(duì)于Hunyuan3D-2.1為63.8%,相對(duì)于Unitex為83.3%。偏好集和SA-3DAO上的結(jié)果同樣一邊倒,勝率普遍在84%以上。這主要?dú)w功于SAM 3D在處理遮擋和雜亂環(huán)境時(shí)的優(yōu)勢(shì),而這正是先前工作的薄弱環(huán)節(jié)。

研究團(tuán)隊(duì)通過(guò)一系列消融實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)選擇的有效性。多階段訓(xùn)練的級(jí)聯(lián)改進(jìn)實(shí)驗(yàn)顯示,每添加一個(gè)訓(xùn)練階段,形狀質(zhì)量指標(biāo)都呈現(xiàn)近乎單調(diào)的提升。從僅預(yù)訓(xùn)練到添加中期訓(xùn)練,F1分?jǐn)?shù)從0.1349提升到0.1705;繼續(xù)添加MITL-3DO監(jiān)督微調(diào)后達(dá)到0.2027;DPO進(jìn)一步提升到0.2156;加入藝術(shù)家數(shù)據(jù)的監(jiān)督微調(diào)達(dá)到0.2331;最終的藝術(shù)家數(shù)據(jù)DPO將性能推至0.2344。

對(duì)于中間訓(xùn)練階段的剔除實(shí)驗(yàn)表明,任何一個(gè)真實(shí)世界數(shù)據(jù)階段的缺失都會(huì)導(dǎo)致明顯的性能下降。移除MITL-3DO訓(xùn)練使F1分?jǐn)?shù)下降到0.2211,移除藝術(shù)家數(shù)據(jù)降至0.2027,不使用MITL-3DO的DPO則為0.2156。這驗(yàn)證了整個(gè)訓(xùn)練流程中每個(gè)組件的必要性。

紋理模型的消融實(shí)驗(yàn)揭示了幾個(gè)關(guān)鍵設(shè)計(jì)選擇的重要性。光照增強(qiáng)是最關(guān)鍵的因素,帶來(lái)顯著的偏好提升。遮罩和模糊增強(qiáng)主要針對(duì)特定挑戰(zhàn)場(chǎng)景,在整體評(píng)估中效果被稀釋但仍然重要。RP-3DO數(shù)據(jù)對(duì)于適應(yīng)真實(shí)世界至關(guān)重要。后期訓(xùn)練數(shù)據(jù)帶來(lái)顯著增益,數(shù)據(jù)引擎的有效性得到證明,DPO進(jìn)一步放大了增益。此外,獲取特定類(lèi)型的高美學(xué)數(shù)據(jù)和擴(kuò)展數(shù)據(jù)規(guī)模都顯示出顯著改進(jìn)。

旋轉(zhuǎn)表示的消融實(shí)驗(yàn)證實(shí),從四元數(shù)切換到6D連續(xù)旋轉(zhuǎn)參數(shù)化顯著降低了定向旋轉(zhuǎn)誤差。進(jìn)一步對(duì)6D旋轉(zhuǎn)向量進(jìn)行歸一化又帶來(lái)額外改進(jìn)。點(diǎn)云條件對(duì)形狀性能的影響最小,在LVIS上的頭對(duì)頭偏好測(cè)試中,有點(diǎn)云和無(wú)點(diǎn)云的版本各被選擇約48%的時(shí)間。

數(shù)據(jù)引擎中獎(jiǎng)勵(lì)模型輔助的最優(yōu)N選搜索實(shí)驗(yàn)顯示,使用獎(jiǎng)勵(lì)模型從50個(gè)候選中篩選能夠?qū)⒗щy樣本的成功標(biāo)注率從0%提升到86.8%。在難度測(cè)試集、Epic Kitchens和SA-3DAO上,使用恢復(fù)數(shù)據(jù)進(jìn)行微調(diào)都改善了模型在挑戰(zhàn)性輸入上的性能。這表明進(jìn)一步放大專(zhuān)家策略可以提高數(shù)據(jù)引擎的收斂速度。

技術(shù)創(chuàng)新與未來(lái)展望

SAM 3D的成功建立在幾個(gè)關(guān)鍵創(chuàng)新之上。核心突破在于將大語(yǔ)言模型訓(xùn)練范式成功移植到3D領(lǐng)域。傳統(tǒng)3D重建受限于數(shù)據(jù)稀缺,而SAM 3D通過(guò)合成預(yù)訓(xùn)練建立豐富的形狀和紋理詞匯,通過(guò)半合成中期訓(xùn)練學(xué)習(xí)處理遮擋和場(chǎng)景布局的能力,最后通過(guò)真實(shí)世界后期訓(xùn)練對(duì)齊人類(lèi)偏好。這種從合成到真實(shí)的漸進(jìn)式學(xué)習(xí)策略,有效彌補(bǔ)了3D領(lǐng)域與文本、圖像、視頻等領(lǐng)域數(shù)量級(jí)的數(shù)據(jù)差距。

模型在環(huán)的數(shù)據(jù)標(biāo)注流程是另一個(gè)關(guān)鍵創(chuàng)新。研究團(tuán)隊(duì)將無(wú)法直接完成的3D建模任務(wù)轉(zhuǎn)化為人類(lèi)擅長(zhǎng)的選擇和驗(yàn)證任務(wù)。通過(guò)部署包含檢索、文本生成3D、圖像生成3D等多種方法的模型套件,并讓標(biāo)注者從8個(gè)候選中選擇最佳匹配,這種"最優(yōu)N選"搜索顯著提高了找到高質(zhì)量標(biāo)注的概率。更重要的是,這個(gè)過(guò)程形成了良性循環(huán):改進(jìn)的模型產(chǎn)生更好的候選,更好的候選帶來(lái)更高質(zhì)量的標(biāo)注,更高質(zhì)量的標(biāo)注又進(jìn)一步改進(jìn)模型。歷史Elo評(píng)分顯示,隨著數(shù)據(jù)引擎迭代運(yùn)行,模型性能穩(wěn)步提升,呈現(xiàn)近似線性的擴(kuò)展規(guī)律。

混合變換器架構(gòu)巧妙地平衡了模態(tài)獨(dú)立性和信息共享。通過(guò)結(jié)構(gòu)化注意力掩碼,模型能夠獨(dú)立訓(xùn)練或微調(diào)某些模態(tài),同時(shí)通過(guò)多模態(tài)自注意力層實(shí)現(xiàn)跨模態(tài)交互。這種設(shè)計(jì)使得模型可以在只有部分模態(tài)標(biāo)注的數(shù)據(jù)上訓(xùn)練,也可以?xún)鼋Y(jié)某些能力只微調(diào)其他部分,大大提高了訓(xùn)練的靈活性。

深度感知的VAE改進(jìn)看似簡(jiǎn)單,卻帶來(lái)了紋理質(zhì)量的顯著提升。通過(guò)只將特征反投影到可見(jiàn)體素,模型避免了不可見(jiàn)區(qū)域的特征污染,使重建圖像更加清晰。結(jié)合光照增強(qiáng)技術(shù),模型學(xué)會(huì)預(yù)測(cè)不受光照影響的"去光照"紋理,使生成的3D資產(chǎn)具有更好的通用性。

模型蒸餾技術(shù)借鑒了擴(kuò)散模型的"捷徑模型"方法,通過(guò)結(jié)合流匹配目標(biāo)和自一致性目標(biāo),成功將推理步數(shù)從25步減少到4步,實(shí)現(xiàn)10倍速度提升,同時(shí)幾乎不損失性能。這對(duì)于需要在線3D感知能力的應(yīng)用(如機(jī)器人)至關(guān)重要。

當(dāng)然,SAM 3D也存在一些局限性。由于架構(gòu)超參數(shù)的限制,模型的分辨率存在上限。幾何模型使用643的粗體素分辨率,每個(gè)占用體素最多32個(gè)高斯點(diǎn)。這對(duì)許多物體足夠,但對(duì)于復(fù)雜形狀或人類(lèi)視覺(jué)系統(tǒng)特別敏感的特征,可能導(dǎo)致可察覺(jué)的失真或細(xì)節(jié)丟失。當(dāng)重建整個(gè)人體時(shí),分配給手部或面部的體素/高斯點(diǎn)數(shù)量受限于整體身體的尺度,可能產(chǎn)生可察覺(jué)的偽影。相比之下,當(dāng)只關(guān)注單只手或頭部時(shí),可用的相對(duì)分辨率更高,SAM 3D能夠重建得顯著更好。

物體布局是另一個(gè)需要改進(jìn)的領(lǐng)域。SAM 3D逐個(gè)預(yù)測(cè)物體,沒(méi)有被訓(xùn)練來(lái)推理物理交互,如接觸、物理穩(wěn)定性、相互穿透或共同對(duì)齊。多物體聯(lián)合預(yù)測(cè)結(jié)合適當(dāng)?shù)膿p失函數(shù),將允許對(duì)場(chǎng)景中多個(gè)物體進(jìn)行聯(lián)合推理。此外,SAM 3D的紋理預(yù)測(cè)不知道預(yù)測(cè)物體的姿態(tài),對(duì)于具有旋轉(zhuǎn)對(duì)稱(chēng)性的物體,偶爾會(huì)預(yù)測(cè)出實(shí)際上將物體旋轉(zhuǎn)到錯(cuò)誤方向的紋理。

SAM 3D為3D重建和下游應(yīng)用開(kāi)啟了新的可能性。在機(jī)器人領(lǐng)域,能夠從單張圖像快速重建場(chǎng)景中物體的完整3D形狀和位置,將極大增強(qiáng)機(jī)器人的環(huán)境理解和操作能力。在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)中,SAM 3D可以實(shí)時(shí)將真實(shí)世界物體轉(zhuǎn)換為虛擬資產(chǎn),實(shí)現(xiàn)更自然的混合現(xiàn)實(shí)體驗(yàn)。在游戲和電影制作中,創(chuàng)作者可以快速?gòu)膮⒖紙D像生成高質(zhì)量3D資產(chǎn),大幅縮短制作周期。在電子商務(wù)領(lǐng)域,商品照片可以自動(dòng)轉(zhuǎn)換為可旋轉(zhuǎn)查看的3D模型,提升用戶(hù)體驗(yàn)。

本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1:SAM 3D相比傳統(tǒng)3D重建方法有什么優(yōu)勢(shì)?

A:SAM 3D的核心優(yōu)勢(shì)在于能夠從單張自然圖像重建完整的3D物體,即使在遮擋和雜亂場(chǎng)景中也表現(xiàn)出色。傳統(tǒng)方法主要依賴(lài)多視角幾何信息或需要在隔離環(huán)境中拍攝的物體照片。SAM 3D通過(guò)結(jié)合識(shí)別和上下文理解,能夠像人類(lèi)一樣從局部信息推斷整體結(jié)構(gòu)。在人類(lèi)偏好測(cè)試中,SAM 3D相對(duì)于現(xiàn)有最先進(jìn)方法獲得了至少5:1的勝率,在真實(shí)世界場(chǎng)景的表現(xiàn)遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。

Q2:模型在環(huán)的數(shù)據(jù)標(biāo)注流程是如何工作的?

A:這個(gè)流程巧妙地將困難的3D建模任務(wù)轉(zhuǎn)化為選擇和驗(yàn)證任務(wù)。系統(tǒng)首先使用多種方法(檢索、文本生成3D、圖像生成3D)生成6到10個(gè)候選3D模型,標(biāo)注者通過(guò)成對(duì)比較選出最匹配的一個(gè),然后對(duì)其質(zhì)量評(píng)分。達(dá)標(biāo)樣本進(jìn)入下一階段對(duì)齊,不達(dá)標(biāo)樣本作為偏好學(xué)習(xí)的負(fù)樣本。特別困難的案例會(huì)轉(zhuǎn)交專(zhuān)業(yè)3D藝術(shù)家處理。隨著模型改進(jìn),它在候選生成中的占比從少數(shù)增加到約80%,形成良性循環(huán)。整個(gè)數(shù)據(jù)引擎最終產(chǎn)出了314萬(wàn)個(gè)形狀、123萬(wàn)個(gè)布局?jǐn)?shù)據(jù)和10萬(wàn)個(gè)紋理樣本。

Q3:SAM 3D模型在實(shí)際應(yīng)用中的推理速度如何?

A:研究團(tuán)隊(duì)通過(guò)模型蒸餾技術(shù)實(shí)現(xiàn)了顯著的速度提升。通過(guò)采用"捷徑模型"方法,將推理所需的函數(shù)評(píng)估次數(shù)從25次減少到4次,實(shí)現(xiàn)了10倍的速度提升,同時(shí)幾乎不損失性能。對(duì)于幾何模型,使用1步和4步方法分別實(shí)現(xiàn)了38倍和10倍的推理速度改進(jìn)。這使得SAM 3D能夠?qū)崿F(xiàn)亞秒級(jí)的形狀和布局預(yù)測(cè),滿(mǎn)足需要在線3D感知能力的應(yīng)用需求,如機(jī)器人操作、增強(qiáng)現(xiàn)實(shí)等場(chǎng)景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇州“放煙花大軍”跨年點(diǎn)燃湖邊干草,消防員及時(shí)滅火并在旁守候,市民點(diǎn)贊

蘇州“放煙花大軍”跨年點(diǎn)燃湖邊干草,消防員及時(shí)滅火并在旁守候,市民點(diǎn)贊

極目新聞
2026-01-01 19:24:34
為什么,很多子女到了五六十歲后,慢慢對(duì)家里老人變得不孝了?

為什么,很多子女到了五六十歲后,慢慢對(duì)家里老人變得不孝了?

詩(shī)詞中國(guó)
2026-01-01 18:58:07
中國(guó)最珍貴的資源,不是石油,不是稀土,而是北方最常見(jiàn)的黃土層

中國(guó)最珍貴的資源,不是石油,不是稀土,而是北方最常見(jiàn)的黃土層

花花娛界
2026-01-01 15:42:29
西部最新排名:掘金創(chuàng)NBA奇跡,湖人收大禮,快船劍指前十

西部最新排名:掘金創(chuàng)NBA奇跡,湖人收大禮,快船劍指前十

籃球大視野
2026-01-01 16:08:54
凌晨3點(diǎn)屏東以南發(fā)生激烈對(duì)峙,052D不顧阻擾,強(qiáng)行壓向臺(tái)護(hù)衛(wèi)艦

凌晨3點(diǎn)屏東以南發(fā)生激烈對(duì)峙,052D不顧阻擾,強(qiáng)行壓向臺(tái)護(hù)衛(wèi)艦

墨蘭史書(shū)
2025-12-31 04:55:03
“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤(pán)血虧?

“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤(pán)血虧?

蜉蝣說(shuō)
2025-12-23 20:00:55
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

瓜汁橘長(zhǎng)Dr
2025-12-30 17:03:39
戈貝爾:我們到底在不在乎贏球?還是說(shuō)反正掙著大錢(qián)就隨意打打

戈貝爾:我們到底在不在乎贏球?還是說(shuō)反正掙著大錢(qián)就隨意打打

北青網(wǎng)-北京青年報(bào)
2026-01-01 21:30:23
父親再婚后沒(méi)聯(lián)系,我39歲申請(qǐng)車(chē)貸,銀行經(jīng)理:您名下有一賬戶(hù)

父親再婚后沒(méi)聯(lián)系,我39歲申請(qǐng)車(chē)貸,銀行經(jīng)理:您名下有一賬戶(hù)

紅豆講堂
2025-12-23 12:50:05
難受!廣東慘敗,戰(zhàn)術(shù)被限制球星們不會(huì)打球,賽后還有四個(gè)壞消息

難受!廣東慘敗,戰(zhàn)術(shù)被限制球星們不會(huì)打球,賽后還有四個(gè)壞消息

陳赩愛(ài)體育
2026-01-01 21:47:21
高市早苗終于開(kāi)口反思,盼望得到中國(guó)原諒,語(yǔ)氣中透露著羞愧

高市早苗終于開(kāi)口反思,盼望得到中國(guó)原諒,語(yǔ)氣中透露著羞愧

面包夾知識(shí)
2025-12-19 13:07:36
2026 新一輪 “ 國(guó)補(bǔ) ” 開(kāi)搶?zhuān)【W(wǎng)友炸了:準(zhǔn)備集體漲價(jià)?

2026 新一輪 “ 國(guó)補(bǔ) ” 開(kāi)搶?zhuān)【W(wǎng)友炸了:準(zhǔn)備集體漲價(jià)?

科技狐
2025-12-31 23:29:50
52歲朱迅主持跨年晚會(huì),被吐槽像芭比娃娃,網(wǎng)友:給整懵圈了

52歲朱迅主持跨年晚會(huì),被吐槽像芭比娃娃,網(wǎng)友:給整懵圈了

丫頭舫
2026-01-01 21:39:17
上?!笆讏?chǎng)雪”終于來(lái)了,氣溫降至冰點(diǎn),“熱鬧”模式開(kāi)啟,最高峰就在今天

上?!笆讏?chǎng)雪”終于來(lái)了,氣溫降至冰點(diǎn),“熱鬧”模式開(kāi)啟,最高峰就在今天

新民晚報(bào)
2026-01-01 15:21:49
郭可盈在豪宅過(guò)節(jié),與女兒在圣誕樹(shù)前合照,屋內(nèi)燈火通明市值半億

郭可盈在豪宅過(guò)節(jié),與女兒在圣誕樹(shù)前合照,屋內(nèi)燈火通明市值半億

民間平哥
2026-01-01 20:01:39
奇瑞再次否認(rèn)與追覓合作:雙方并未進(jìn)行合作簽約

奇瑞再次否認(rèn)與追覓合作:雙方并未進(jìn)行合作簽約

IT之家
2026-01-01 20:23:11
羽超!15-1橫掃世界第二!臨時(shí)組合19分鐘打崩蔣振邦/魏雅欣

羽超!15-1橫掃世界第二!臨時(shí)組合19分鐘打崩蔣振邦/魏雅欣

小蘭看體育
2026-01-01 20:11:21
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
股民坐穩(wěn)扶好!下周A股2026年行情開(kāi)啟,或?qū)⒅噩F(xiàn)19年歷史行情了?

股民坐穩(wěn)扶好!下周A股2026年行情開(kāi)啟,或?qū)⒅噩F(xiàn)19年歷史行情了?

股市皆大事
2026-01-01 12:10:26
2026-01-01 23:04:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車(chē)主首度全程自駕橫穿美國(guó)

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂(lè)要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤(rùn)被網(wǎng)友喊話(huà)

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車(chē)要聞

一汽-大眾2025年整車(chē)銷(xiāo)量超158萬(wàn)輛 燃油車(chē)市占率創(chuàng)新高

態(tài)度原創(chuàng)

藝術(shù)
教育
本地
時(shí)尚
數(shù)碼

藝術(shù)要聞

私房照揭秘:你不知道的陰柔之美!

教育要聞

有些孩子,上了初中就掉線了

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

2025年,記住她們的名字!

數(shù)碼要聞

RTX 5090改裝上到1350W差點(diǎn)燒毀!華擎溫度傳感器成功救命

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版