国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NTU S-Lab 團(tuán)隊(duì)探索可動(dòng) 3D 新方向:結(jié)構(gòu)、關(guān)節(jié)、紋理一次到位

0
分享至



ArtiLatent:用統(tǒng)一潛空間讓單圖也能生成結(jié)構(gòu)清晰、動(dòng)作合理的可動(dòng)三維模型。

作者丨鄭佳美

編輯丨馬曉寧

在生成式 AI 全面進(jìn)入三維空間的當(dāng)下,如何讓機(jī)器不僅“看到”物體,還能理解其結(jié)構(gòu)、關(guān)節(jié)和運(yùn)動(dòng)方式,正在成為全球研究機(jī)構(gòu)與產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。

從虛擬內(nèi)容制作到機(jī)器人操作,從數(shù)字孿生到工業(yè)仿真,可動(dòng)三維的自動(dòng)化生成正在被視為未來交互式數(shù)字世界的重要基礎(chǔ)能力。然而,現(xiàn)有方法仍普遍受限于對(duì)完整三維掃描的依賴、對(duì)結(jié)構(gòu)與紋理分離建模造成的不一致性,以及難以處理運(yùn)動(dòng)帶來可見性變化等難題。

在這一背景下,南洋理工大學(xué)S-Lab 團(tuán)隊(duì)近期發(fā)布的一項(xiàng)研究提供了新的解決路徑。他們提出的統(tǒng)一建模框架能夠從單張圖像生成具備真實(shí)幾何結(jié)構(gòu)、準(zhǔn)確關(guān)節(jié)參數(shù)和自然外觀紋理的可動(dòng)三維對(duì)象,在幾何精度、外觀一致性與運(yùn)動(dòng)合理性上均取得顯著提升。

這項(xiàng)工作不僅展示了結(jié)構(gòu)化潛空間、擴(kuò)散式 3D 生成與關(guān)節(jié)感知紋理建模的協(xié)同潛力,也為進(jìn)一步提升 AI 對(duì)物體功能性與交互屬性的理解奠定了基礎(chǔ)。

值得一提的是,該論文作者之一的潘新鋼曾作為2023 年 GAIR 全球人工智能與機(jī)器人大會(huì)的受邀嘉賓,與眾多來自國際頂級(jí)院校與企業(yè)的研究者共同探討三維視覺、機(jī)器人操作和生成式模型的前沿方向。

GAIR 對(duì)三維生成、機(jī)器人智能與新型視覺系統(tǒng)長期保持關(guān)注,而即將在2025 年 12 月 12 — 13 日于深圳·博林天瑞喜來登酒店舉辦的 GAIR 大會(huì),也將繼續(xù)聚焦這些技術(shù)的產(chǎn)業(yè)化趨勢,與一眾來自研究機(jī)構(gòu)、科技企業(yè)與應(yīng)用行業(yè)的專家共同關(guān)注空間智能與新型生成模型等新興技術(shù)在未來交互式場景中的落地路徑與發(fā)展方向。


論文地址:https://arxiv.org/pdf/2510.21432

01
整體的性能躍升

S-Lab 團(tuán)隊(duì)這篇論文中的實(shí)驗(yàn)結(jié)果顯示,他們研發(fā)的模型在多個(gè)關(guān)鍵維度上都有明顯提升,無論是幾何結(jié)構(gòu)的完整度、關(guān)節(jié)運(yùn)動(dòng)的穩(wěn)定性,還是外觀呈現(xiàn)的真實(shí)度與跨數(shù)據(jù)集的泛化能力,都展現(xiàn)出優(yōu)于現(xiàn)有方法的綜合表現(xiàn)。

首先,在幾何結(jié)構(gòu)生成方面,通過 Chamfer Distance 指標(biāo)可以看到,無論是在靜止?fàn)顟B(tài)還是在經(jīng)歷關(guān)節(jié)旋轉(zhuǎn)、平移等運(yùn)動(dòng)之后,模型都能夠生成與真實(shí)物體高度接近的三維結(jié)構(gòu),并且在多種方法中保持了最低水平的幾何誤差。

生成物體在關(guān)節(jié)運(yùn)動(dòng)前后仍能維持清晰的部件邊界和穩(wěn)定的空間關(guān)系,沒有出現(xiàn)錯(cuò)位或穿插現(xiàn)象,這說明模型所學(xué)習(xí)的結(jié)構(gòu)潛空間有效捕捉了各部件之間的連續(xù)性與耦合關(guān)系,從而使運(yùn)動(dòng)前后的幾何一致性明顯優(yōu)于現(xiàn)有方法。


在外觀紋理生成方面,模型在 FID 得分及可視化表現(xiàn)上均展示了顯著優(yōu)勢。生成結(jié)果的紋理更加清晰,顏色分布一致,細(xì)節(jié)保留充分,尤其是在關(guān)節(jié)運(yùn)動(dòng)后才會(huì)暴露的內(nèi)部區(qū)域,例如抽屜內(nèi)部或門板背面,模型依然能夠合成自然且無噪點(diǎn)的紋理。

這種穩(wěn)定且連貫的紋理表現(xiàn)不僅體現(xiàn)在局部細(xì)節(jié)上,也體現(xiàn)在關(guān)節(jié)狀態(tài)變化前后的整體一致性上,即生成的表面在不同關(guān)節(jié)位置下不會(huì)出現(xiàn)顏色跳變或紋理斷裂,從而實(shí)現(xiàn)了對(duì)因運(yùn)動(dòng)帶來可見性變化的正確補(bǔ)全。


此外,模型生成的運(yùn)動(dòng)行為也表現(xiàn)出高度的物理合理性。對(duì)于常見的家具對(duì)象,模型能夠自動(dòng)為抽屜生成平移關(guān)節(jié)并沿合理方向運(yùn)動(dòng),為門板生成旋轉(zhuǎn)關(guān)節(jié)并圍繞正確的軸心展開,同時(shí)在運(yùn)動(dòng)過程中保持部件間無不合理的干涉或扭曲。在多次運(yùn)動(dòng)狀態(tài)的測試中,模型展現(xiàn)出優(yōu)異的可控性、穩(wěn)定性和部件分離度,遠(yuǎn)超依賴部件檢索或后期裝配的傳統(tǒng)方法。


更進(jìn)一步地,論文還驗(yàn)證了模型在新數(shù)據(jù)集上的泛化能力。在來自完全不同來源的數(shù)據(jù)上,無論是幾何精度、外觀真實(shí)度還是運(yùn)動(dòng)表現(xiàn),模型都維持了高質(zhì)量輸出,未出現(xiàn)結(jié)構(gòu)性錯(cuò)誤,這說明模型并沒有簡單記憶訓(xùn)練數(shù)據(jù),而是真正學(xué)習(xí)到了可遷移的“關(guān)節(jié)結(jié)構(gòu) + 外觀生成”能力。

最后,消融實(shí)驗(yàn)也強(qiáng)調(diào)了關(guān)節(jié)感知外觀微調(diào)策略的重要性。如果不使用該策略,生成結(jié)果在關(guān)節(jié)處和運(yùn)動(dòng)后暴露出的內(nèi)部區(qū)域容易出現(xiàn)噪點(diǎn)、模糊或顏色異常。而加入該策略后,紋理清晰度及穩(wěn)定性顯著提升,新暴露區(qū)域的外觀也更加自然一致,從而證明這一模塊是整體性能提升的關(guān)鍵因素。


02
可動(dòng)三維的構(gòu)建機(jī)制

總的來說,團(tuán)隊(duì)的實(shí)驗(yàn)流程可以整體概括為結(jié)構(gòu)學(xué)習(xí)、潛空間生成以及外觀學(xué)習(xí)三個(gè)環(huán)節(jié)。

首先,研究者為每個(gè)訓(xùn)練對(duì)象構(gòu)建了一種帶有豐富關(guān)節(jié)信息的稀疏三維體素表示。在這一表示中,體素不僅記錄了物體是否占據(jù)該空間位置,還包含部件類別、所屬部件的空間包圍盒、關(guān)節(jié)類型、關(guān)節(jié)的軸向和原點(diǎn)位置以及關(guān)節(jié)的可運(yùn)動(dòng)范圍等描述物體結(jié)構(gòu)與運(yùn)動(dòng)屬性的關(guān)鍵要素。

所有體素?cái)?shù)據(jù)會(huì)被統(tǒng)一歸一化后輸入到一個(gè)三維卷積式的變分自編碼器中,通過占據(jù)分類損失、部件語義與關(guān)節(jié)類型的分類損失、關(guān)節(jié)參數(shù)以及包圍盒的回歸損失,并結(jié)合 KL 正則化形成整體訓(xùn)練目標(biāo),從而使模型能夠?qū)⒏呔S而復(fù)雜的體素結(jié)構(gòu)壓縮成一個(gè)緊湊、連續(xù)且可生成的三維潛編碼。經(jīng)過充分訓(xùn)練后,該自編碼器已經(jīng)能夠準(zhǔn)確復(fù)原完整的可動(dòng)結(jié)構(gòu),并為后續(xù)的生成任務(wù)提供穩(wěn)定的結(jié)構(gòu)潛空間。

在獲得結(jié)構(gòu)潛編碼之后,論文進(jìn)一步在潛空間中訓(xùn)練擴(kuò)散模型以生成可動(dòng)結(jié)構(gòu)。為此,作者構(gòu)建了大量由潛編碼與其對(duì)應(yīng)條件組成的數(shù)據(jù)對(duì),其中條件既可以是來自真實(shí)圖像的視覺特征,也可以是簡單的類別標(biāo)簽。


擴(kuò)散模型采用基于 Transformer 的三維結(jié)構(gòu)建模方式,能夠捕捉潛網(wǎng)格內(nèi)部的空間依賴關(guān)系,并在此基礎(chǔ)上學(xué)習(xí)結(jié)構(gòu)潛分布。完成訓(xùn)練后,該模型不僅能夠無條件生成多樣化的可動(dòng)三維結(jié)構(gòu),還能夠在給定單張圖像的情況下,生成與輸入在外觀、幾何結(jié)構(gòu)和關(guān)節(jié)屬性上均保持一致的可動(dòng)對(duì)象。

在結(jié)構(gòu)生成能力具備之后,論文最后解決的是外觀生成的問題。由于原始的三維高斯解碼器只在靜態(tài)物體上訓(xùn)練,它無法處理關(guān)節(jié)運(yùn)動(dòng)帶來的可見性變化,因此在運(yùn)動(dòng)后暴露出的內(nèi)部區(qū)域容易出現(xiàn)紋理缺失或異常。


為此,作者提出了關(guān)節(jié)感知的外觀解碼微調(diào)策略。具體做法是,在每個(gè)訓(xùn)練物體的關(guān)節(jié)運(yùn)動(dòng)范圍內(nèi)均勻采樣若干狀態(tài),并對(duì)每個(gè)狀態(tài)渲染多視角圖像,然后提取其特征與體素一一對(duì)應(yīng),為模型提供“不同關(guān)節(jié)狀態(tài)下真實(shí)可見外觀”的參考。

在微調(diào)過程中,生成的三維高斯點(diǎn)會(huì)根據(jù)對(duì)應(yīng)的關(guān)節(jié)參數(shù)進(jìn)行實(shí)際的旋轉(zhuǎn)或平移,然后被渲染成圖像并與真實(shí)渲染結(jié)果進(jìn)行比較。通過這種多狀態(tài)的重建監(jiān)督,模型逐漸學(xué)會(huì)了哪些區(qū)域在關(guān)節(jié)運(yùn)動(dòng)時(shí)會(huì)變得可見、如何為這些新暴露的表面生成合理紋理,以及如何在不同關(guān)節(jié)位置下保持整體外觀的一致性。


完成上述三個(gè)階段的訓(xùn)練后,模型的推理流程也相對(duì)簡潔。給定一張真實(shí)圖像,模型首先利用擴(kuò)散模型生成一個(gè)與輸入相匹配的可動(dòng)體素結(jié)構(gòu),然后根據(jù)體素語義和空間包圍盒自動(dòng)對(duì)物體進(jìn)行部件劃分,接著對(duì)每個(gè)部件的關(guān)節(jié)參數(shù)進(jìn)行聚合以確保其運(yùn)動(dòng)的一致性。

隨后,高斯解碼器會(huì)將結(jié)構(gòu)潛表示還原為完整的三維外觀,最終得到一個(gè)既保留真實(shí)外觀,又具備正確關(guān)節(jié)行為的三維高斯對(duì)象,用戶可以直接對(duì)其進(jìn)行旋轉(zhuǎn)或平移等運(yùn)動(dòng)操作。整個(gè)推理過程大約需要二十幾秒即可完成。

03
統(tǒng)一建模帶來了新可能

論文之外,這項(xiàng)工作的最大意義,在于構(gòu)建了一套真正可擴(kuò)展的可動(dòng)三維生成框架,而不僅僅是提出一種新的技術(shù)方法。以往的三維生成要么只能輸出靜態(tài)模型,要么依賴完整的三維掃描數(shù)據(jù),也有一些方法通過檢索和拼裝來構(gòu)造結(jié)構(gòu),難以實(shí)現(xiàn)從少量輸入中生成能運(yùn)動(dòng)的物體。

現(xiàn)在只需要一張普通圖像,就能得到結(jié)構(gòu)合理、關(guān)節(jié)設(shè)置正確、外觀逼真的可動(dòng)三維對(duì)象,這大幅降低了創(chuàng)建三維內(nèi)容的難度,對(duì)整個(gè)生成領(lǐng)域都是一次重要突破。

方法的核心在于把幾何結(jié)構(gòu)、運(yùn)動(dòng)機(jī)制和外觀紋理放在統(tǒng)一框架中進(jìn)行學(xué)習(xí)。結(jié)構(gòu)化潛空間同時(shí)表達(dá)幾何、語義與關(guān)節(jié)信息,擴(kuò)散模型進(jìn)一步學(xué)習(xí)它們之間的關(guān)聯(lián),外觀微調(diào)機(jī)制保證物體在發(fā)生運(yùn)動(dòng)后仍然呈現(xiàn)自然、穩(wěn)定的紋理。通過這種整體式的建模方式,生成結(jié)果避免了傳統(tǒng)流程中結(jié)構(gòu)和外觀不協(xié)調(diào)的問題,看起來更加一致和可信。

在應(yīng)用層面,這種能夠從單圖生成可動(dòng)三維物體的能力具有很大的價(jià)值。虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)場景可以快速獲得可交互物體,線上家具展示能夠更容易地呈現(xiàn)開合、旋轉(zhuǎn)等動(dòng)作,游戲制作也能受益于自動(dòng)生成帶關(guān)節(jié)的三維模型。對(duì)于機(jī)器人學(xué)習(xí)而言,這類可動(dòng)生成物體有助于機(jī)器人理解和預(yù)判未知物體的使用方式,也適用于家庭和工業(yè)場景的數(shù)字孿生構(gòu)建。幾乎所有需要大量可交互三維對(duì)象的行業(yè)都可能因此受益。

方法本身也具有很強(qiáng)的泛化能力和擴(kuò)展空間。結(jié)構(gòu)化潛空間、可動(dòng)結(jié)構(gòu)擴(kuò)散模型和關(guān)節(jié)感知外觀解碼并不依賴特定的物體品類,因此不僅適用于家具,還可以推廣到機(jī)械設(shè)備、工具、生物體的骨骼結(jié)構(gòu)以及復(fù)雜的裝配系統(tǒng)。

由此看來,這項(xiàng)研究不僅解決了當(dāng)前可動(dòng)三維生成的核心難題,也為未來相關(guān)方向的發(fā)展奠定了基礎(chǔ)。

首批 GAIR 2025 重磅大咖名單正式揭曉,還有更多行業(yè)領(lǐng)軍者將齊聚現(xiàn)場,共探智能的未來。


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突然變道飛往東京!這場出逃把自由焊在了路上。

突然變道飛往東京!這場出逃把自由焊在了路上。

百態(tài)人間
2025-12-23 16:41:18
美日對(duì)中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

美日對(duì)中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

我心縱橫天地間
2025-12-24 16:47:33
陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

庭小娛
2025-12-21 14:51:03
令人捉摸不透!湖人后場大閘在這場慘敗中又找到了自己的手感?

令人捉摸不透!湖人后場大閘在這場慘敗中又找到了自己的手感?

稻谷與小麥
2025-12-24 19:41:45
俄羅斯最高法院:批評(píng)政治人物不構(gòu)成犯罪

俄羅斯最高法院:批評(píng)政治人物不構(gòu)成犯罪

桂系007
2025-12-23 23:13:39
香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

懂球帝
2025-12-24 12:26:29
2025年國家杰青最新名單

2025年國家杰青最新名單

高分子科學(xué)前沿
2025-12-24 10:26:21
當(dāng)你隔壁是個(gè)超級(jí)大國:東南亞人眼中的中國,到底是什么樣的?

當(dāng)你隔壁是個(gè)超級(jí)大國:東南亞人眼中的中國,到底是什么樣的?

斜煙風(fēng)起雨未
2025-12-24 13:32:53
6000 萬歐水貨?阿爾特塔暴怒有理!球迷狂噴:恥辱級(jí)表現(xiàn)

6000 萬歐水貨?阿爾特塔暴怒有理!球迷狂噴:恥辱級(jí)表現(xiàn)

瀾歸序
2025-12-24 09:50:42
國家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

國家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

韓馳
2025-12-24 17:07:11
笑死!全網(wǎng)最炸裂阿貝貝合集,家長:我真的要瘋了

笑死!全網(wǎng)最炸裂阿貝貝合集,家長:我真的要瘋了

夜深愛雜談
2025-12-03 20:26:34
確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

籃球?qū)崙?zhàn)寶典
2025-12-24 07:19:33
故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

清茶淺談
2024-12-04 14:29:09
當(dāng)法官宣判死刑,殺了南大女研究生哥哥的兇手在法庭上瘋狂嘶吼

當(dāng)法官宣判死刑,殺了南大女研究生哥哥的兇手在法庭上瘋狂嘶吼

詩意世界
2025-12-14 11:25:24
歷史驚人的相似:白人與中國三次生死較量,最終都以“滅族”收?qǐng)?>
    </a>
        <h3>
      <a href=南宗歷史
2025-12-23 14:46:20
12月24日俄烏最新:新的里程牌

12月24日俄烏最新:新的里程牌

西樓飲月
2025-12-24 18:05:03
楊瀚森替補(bǔ)4+2+2開拓者惜敗魔術(shù),阿夫迪亞25+6+8錯(cuò)失扳平三分

楊瀚森替補(bǔ)4+2+2開拓者惜敗魔術(shù),阿夫迪亞25+6+8錯(cuò)失扳平三分

湖人崛起
2025-12-24 13:26:59
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

奇思妙想草葉君
2025-12-23 22:58:43
特朗普下令,要把中企一鍋端,美禁令生效前,中國取消10萬噸訂單

特朗普下令,要把中企一鍋端,美禁令生效前,中國取消10萬噸訂單

井普椿的獨(dú)白
2025-12-24 19:29:12
2025-12-24 20:12:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

果農(nóng)再次開啟"賽博助農(nóng)":在"魔獸世界"賣3.5萬斤橙子

頭條要聞

果農(nóng)再次開啟"賽博助農(nóng)":在"魔獸世界"賣3.5萬斤橙子

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

重磅!北京市優(yōu)化調(diào)整住房限購政策

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
手機(jī)
旅游
公開課
軍事航空

1月PS+會(huì)免陣容預(yù)測:《真人快打11》《狙擊精英》等

手機(jī)要聞

小米高端旗艦價(jià)格門檻要升至7000元+了!盧偉冰:無論怎么漲 定會(huì)物超所值

旅游要聞

百項(xiàng)跨年活動(dòng)點(diǎn)燃申城 元旦假期酒店預(yù)訂火爆

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個(gè)正步 每步75厘米

無障礙瀏覽 進(jìn)入關(guān)懷版