国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無需多視角,單圖重建可交互3D模型!南洋理工開源結(jié)構(gòu)推理框架

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】讓3D模型「活」起來!南洋理工大學(xué)團(tuán)隊(duì)提出MonoArt,通過逐步推理實(shí)現(xiàn)從單圖生成可動(dòng)3D模型。該方法先恢復(fù)幾何結(jié)構(gòu),再識(shí)別部件,最后推斷運(yùn)動(dòng)方式與參數(shù)。無需外部數(shù)據(jù)或先驗(yàn),即可構(gòu)建出具備運(yùn)動(dòng)能力的3D表示,有效提升重建穩(wěn)定性與實(shí)用性。

在3D生成領(lǐng)域,我們已經(jīng)習(xí)慣了從單張圖片中生成3D物體模型。

然而,隨著具身智能(Embodied AI)的爆發(fā),一個(gè)新的現(xiàn)實(shí)擺在研究者面前:這些模型大多是難以交互的靜態(tài)資產(chǎn)。

你想打開生成的冰箱門?它是焊死的。你想讓機(jī)器人搬動(dòng)生成的椅子?它不知道哪里可以折疊 。

近日,來自南洋理工大學(xué)S-Lab的研究團(tuán)隊(duì)提出MonoArt,嘗試高效的解決這一問題:與其讓模型直接「猜」物體怎么動(dòng),不如先讓它一步步「理解」物體的結(jié)構(gòu)。

MonoArt 的核心思路可以概括為一句話: 把單目可動(dòng)物體重建,建模為一個(gè)漸進(jìn)式結(jié)構(gòu)推理過程(progressive structural reasoning)。

在這個(gè)框架里,模型不是一次性輸出articulation,而是依次完成幾何恢復(fù)、部件感知、運(yùn)動(dòng)推理和運(yùn)動(dòng)學(xué)參數(shù)估計(jì),最終得到一個(gè)既有形狀、又有部件層級(jí)和關(guān)節(jié)信息的3D表示。


論文鏈接:https://arxiv.org/abs/2603.19231

項(xiàng)目鏈接:https://lihaitian.com/MonoArt/

GitHub鏈接:https://github.com/Quest4Science/MonoArt

引言

與靜態(tài)3D重建不同,articulated 3D reconstruction不僅要恢復(fù)物體形狀,還要進(jìn)一步建模部件劃分、關(guān)節(jié)類型、運(yùn)動(dòng)軸、旋轉(zhuǎn)中心和運(yùn)動(dòng)范圍。這個(gè)任務(wù)的難點(diǎn)不僅在于需要預(yù)測(cè)的參數(shù)更多,更在于結(jié)構(gòu)與運(yùn)動(dòng)是耦合的:不知道可動(dòng)部件怎么劃分,就很難推斷它如何運(yùn)動(dòng);反過來,不理解運(yùn)動(dòng)關(guān)系,又很難真正建好可動(dòng)部件的結(jié)構(gòu)。也正因?yàn)槿绱,直接從圖像特征回歸articulation往往不穩(wěn)定,泛化也有限。

現(xiàn)有方法大致可以分為三類:

  • 基于多視角或視頻的方法依賴同一物體在不同開合狀態(tài)下的觀測(cè),雖然效果較好,但對(duì)數(shù)據(jù)條件要求高,真實(shí)場(chǎng)景中往往不具備。

  • 基于檢索與拼裝的方法通過已有資產(chǎn)庫(kù)組裝可動(dòng)物體,但容易受到庫(kù)內(nèi)形狀覆蓋的限制,結(jié)果常出現(xiàn)幾何誤差和紋理不匹配。

  • 基于額外先驗(yàn)的方法借助視覺語言模型、輔助視頻生成或預(yù)定義運(yùn)動(dòng)方向來推斷articulation,雖然減少了對(duì)多視角數(shù)據(jù)的依賴,但系統(tǒng)更復(fù)雜,更依賴外部先驗(yàn),同時(shí)通常需要更漫長(zhǎng)的推理時(shí)間。

這些方法有一個(gè)共同問題:它們都沒有真正把結(jié)構(gòu)理解本身作為articulation inference的起點(diǎn)。

要么依賴更多觀測(cè)補(bǔ)信息,要么依賴外部先驗(yàn)補(bǔ)線索,但都沒有回答一個(gè)更本質(zhì)的問題:?jiǎn)螐垐D像里的可動(dòng)物體,能否先被拆解為穩(wěn)定的幾何與部件結(jié)構(gòu),再在此基礎(chǔ)上推斷運(yùn)動(dòng)關(guān)系?

MonoArt正是為了解決這個(gè)問題而提出。它不再把 articulation 視為一個(gè)直接回歸的結(jié)果,而是將單目可動(dòng)物體重建建模為一個(gè)漸進(jìn)式結(jié)構(gòu)推理過程,把 geometry、part structure 和 motion 放進(jìn)同一條連續(xù)的推理鏈里,讓運(yùn)動(dòng)成為結(jié)構(gòu)理解的自然結(jié)果。

方法設(shè)計(jì)


具體來看,MonoArt 由四個(gè)關(guān)鍵模塊組成,來實(shí)現(xiàn)圖像 → 幾何恢復(fù) → 部件感知 → 運(yùn)動(dòng)推理 → 運(yùn)動(dòng)學(xué)參數(shù)估計(jì)的逐步的推理。

第一步:先有一個(gè)靠譜的3D形狀

一切的起點(diǎn)是從單張圖像恢復(fù)出物體的三維幾何。MonoArt使用TRELLIS作為凍結(jié)的3D生成骨干,輸出一個(gè)canonical mesh以及與之對(duì)齊的latent features。這一步的意義在于:后續(xù)所有關(guān)于「部件」和「運(yùn)動(dòng)」的推理,都建立在三維空間而非二維圖像上——這比直接從像素特征回歸關(guān)節(jié)參數(shù)要穩(wěn)定得多。

第二步:知道物體由哪些可動(dòng)部件組成

有了3D形狀,下一個(gè)問題是:這個(gè)形狀里哪些部分是可動(dòng)的?一個(gè)柜子的門和柜體是兩個(gè)不同的部件,但mesh本身不會(huì)告訴你這一點(diǎn)。Part-Aware Semantic Reasoner的作用就是讓模型「看懂」部件結(jié)構(gòu)。

它將表面上每個(gè)點(diǎn)的幾何特征投影到三個(gè)正交平面上(triplane),再通過Transformer 捕捉全局結(jié)構(gòu)關(guān)系,最終為每個(gè)點(diǎn)生成一個(gè)包含部件歸屬信息的embedding。

訓(xùn)練時(shí)通過triplet loss來拉開不同部件特征之間的距離,讓屬于同一部件的點(diǎn)聚在一起,不同部件的點(diǎn)彼此遠(yuǎn)離。

下面的可視化很直觀地展示了這一步的效果:沒有這個(gè)模塊時(shí),點(diǎn)特征對(duì)于部件難以有運(yùn)動(dòng)層級(jí)上的區(qū)分(第二列);加上模塊和triplet監(jiān)督后,不同部件的特征有了較好的區(qū)分(最后一列)。


第三步:推斷每個(gè)部件怎么動(dòng)

知道了部件劃分,接下來要推斷運(yùn)動(dòng)。但這里有一個(gè)微妙的難點(diǎn):描述一個(gè)部件的運(yùn)動(dòng),需要同時(shí)回答兩類不同性質(zhì)的問題——它「是什么」(語義:這是一扇門還是一個(gè)抽屜?)和它的運(yùn)動(dòng)「發(fā)生在哪里」(空間:旋轉(zhuǎn)中心在什么位置?)。

如果把這兩類信息混在同一個(gè)表征里端到端回歸,往往不穩(wěn)定。 MonoArt的Dual-Query Motion Decoder用了一個(gè)解耦的設(shè)計(jì):用content query編碼部件語義,用position query編碼空間運(yùn)動(dòng)錨點(diǎn),兩者通過6層迭代 refinement 逐步對(duì)齊。

每一層中,query之間通過self-attention建模部件間關(guān)系,再通過 cross-attention 從點(diǎn)特征中提取證據(jù)。這種「一邊搞清楚是什么,一邊搞清楚在哪里」的并行迭代方式,讓運(yùn)動(dòng)推理更加穩(wěn)定。

第四步:輸出物理上可用的運(yùn)動(dòng)學(xué)參數(shù)

最后,Kinematic Estimator 把前面的推理結(jié)果轉(zhuǎn)化為明確的、物理可解釋的輸出:每個(gè)部件的 mask、關(guān)節(jié)類型(固定、旋轉(zhuǎn)、平移等)、旋轉(zhuǎn)軸方向、旋轉(zhuǎn)中心位置、以及運(yùn)動(dòng)范圍上下限。

此外,它還預(yù)測(cè)部件之間的父子關(guān)系,構(gòu)建出完整的 kinematic tree——也就是「哪個(gè)部件連在哪個(gè)部件上」。

一個(gè)值得注意的設(shè)計(jì)細(xì)節(jié)是:關(guān)節(jié)位置的預(yù)測(cè)采用了殘差形式,以上一步輸出的 position query(即部件質(zhì)心)為錨點(diǎn),只預(yù)測(cè)偏移量。消融實(shí)驗(yàn)表明這比直接回歸絕對(duì)坐標(biāo)更準(zhǔn)確——這也呼應(yīng)了整個(gè)框架「漸進(jìn)式」的設(shè)計(jì)哲學(xué):每一步都站在上一步的肩膀上。

這四步遞進(jìn)的設(shè)計(jì)帶來一個(gè)直接的好處:整個(gè)articulation推理不需要任何外部先驗(yàn)——不需要多視角、不需要資產(chǎn)庫(kù)、不需要VLM、不需要輔助視頻生成。那么它的效果到底怎么樣?

實(shí)驗(yàn)效果

在PartNet-Mobility基準(zhǔn)測(cè)試中,MonoArt在7類和46類兩種設(shè)置下均展現(xiàn)出領(lǐng)先性能。

相比SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等代表性方法,MonoArt在幾何重建質(zhì)量、關(guān)節(jié)類型預(yù)測(cè)以及關(guān)鍵運(yùn)動(dòng)參數(shù)估計(jì)等多個(gè)核心指標(biāo)上取得最優(yōu)表現(xiàn),同時(shí)兼顧了更高的推理效率。

相比Articulate-Anything的229.9s和PhysXAnything的256.8s, MonoArt只需要20.5s(其中 18.2 秒花在 TRELLIS做3D重建上,articulation reasoning本身只增加了約 2 秒的開銷)。

同時(shí),在下游任務(wù)中,MonoArt生成的3D物體可以用在機(jī)械臂的仿真訓(xùn)練,MonoArt 重建出來的物體可以直接導(dǎo)入 IsaacSim,讓 Franka 機(jī)械臂去抓取和開門,不需要任何額外的關(guān)節(jié)標(biāo)注。

MonoArt可以擴(kuò)展到具有可動(dòng)部件的場(chǎng)景生成上。

局限性與思考

MonoArt給單目articulated 3D reconstruction提供了一條清晰的新路線:不是依賴越來越重的外部先驗(yàn)去「補(bǔ)」運(yùn)動(dòng),而是通過progressive structural reasoning,讓模型真正學(xué)會(huì)物體為什么這樣組成、又為什么可以這樣運(yùn)動(dòng)。

但是對(duì)于尺度極不均衡的小部件,均勻采樣可能導(dǎo)致特征不夠明顯;對(duì)于非常新的拓?fù)浣Y(jié)構(gòu)或罕見模式,模型的運(yùn)動(dòng)參數(shù)預(yù)測(cè)也可能下降。這些問題也為后續(xù)工作留下了空間。

參考資料:

[1] TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. CVPR 2025.

[2] URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images. RSS 2024.

[3] SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects. ICLR 2025.

[4] Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. ICLR 2025.

[5] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image. CVPR 2026.

[6] DreamArt: Generating Interactable Articulated Objects from a Single Image. SIGGRAPH Asia 2025.

[7] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics. ICCV 2025.

[8] PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects. ICCV 2023.

[9] ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting. CVPR 2025.

[10] PhysX-3D: Physical-Grounded 3D Asset Generation. NeurIPS 2025.


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

漢史趣聞
2026-04-06 19:17:12
2.5L+5.5s提速,豐田新車上市

2.5L+5.5s提速,豐田新車上市

新浪財(cái)經(jīng)
2026-04-20 00:10:19
15次丟球權(quán)+單刀必進(jìn)踢飛!被捧殺的王鈺棟,早已不堪大用?

15次丟球權(quán)+單刀必進(jìn)踢飛!被捧殺的王鈺棟,早已不堪大用?

圣西羅的太陽(yáng)
2026-04-22 13:43:09
世錦賽戰(zhàn)報(bào):00后只剩中國(guó)3人!世界亞軍0-6,吳宜澤對(duì)手基本出爐

世錦賽戰(zhàn)報(bào):00后只剩中國(guó)3人!世界亞軍0-6,吳宜澤對(duì)手基本出爐

球場(chǎng)沒跑道
2026-04-22 20:03:40
知名男歌手宣布二胎得子!一家四口合照曝光

知名男歌手宣布二胎得子!一家四口合照曝光

廣州生活美食圈
2026-04-22 16:14:10
布達(dá)諾夫視察前線曾遇俄軍偷襲,大膽跳海,成功撤退!

布達(dá)諾夫視察前線曾遇俄軍偷襲,大膽跳海,成功撤退!

項(xiàng)鵬飛
2026-04-22 18:53:14
重慶一大叔火車上崩潰大哭,同車男子買盒飯轉(zhuǎn)賬500元:他趕回老家見大兒子最后一面

重慶一大叔火車上崩潰大哭,同車男子買盒飯轉(zhuǎn)賬500元:他趕回老家見大兒子最后一面

瀟湘晨報(bào)
2026-04-21 13:00:15
只有一個(gè)兒子的父母千萬記。簾o論兒媳再孝順這5樣老底絕不能交

只有一個(gè)兒子的父母千萬記住:無論兒媳再孝順這5樣老底絕不能交

周哥一影視
2026-04-22 12:15:29
不敵銅梁龍!上海海港做出重要決定:申訴漏判2點(diǎn)球 楊希禁區(qū)被推

不敵銅梁龍!上海海港做出重要決定:申訴漏判2點(diǎn)球 楊希禁區(qū)被推

球場(chǎng)新視角1號(hào)
2026-04-22 16:48:51
火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

萌蘭聊個(gè)球
2026-04-22 17:47:03
4500萬人要斷糧,美財(cái)長(zhǎng)深夜求援中俄:這一次,真的扛不住了

4500萬人要斷糧,美財(cái)長(zhǎng)深夜求援中俄:這一次,真的扛不住了

讓心靈得以棲息
2026-04-21 20:15:40
歐洲芯片巨頭官宣:我已經(jīng)在中國(guó)大陸,制造40nm芯片了

歐洲芯片巨頭官宣:我已經(jīng)在中國(guó)大陸,制造40nm芯片了

混沌錄
2026-04-22 19:51:03
隊(duì)報(bào):皇馬內(nèi)部難以理解為何卡馬文加這兩年停滯不前甚至倒退

隊(duì)報(bào):皇馬內(nèi)部難以理解為何卡馬文加這兩年停滯不前甚至倒退

懂球帝
2026-04-22 17:11:35
起風(fēng)了!大陸接到臺(tái)灣消息,解放軍剛按住日本,又有6國(guó)調(diào)兵遣將

起風(fēng)了!大陸接到臺(tái)灣消息,解放軍剛按住日本,又有6國(guó)調(diào)兵遣將

書紀(jì)文譚
2026-04-21 23:03:59
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
KTV服務(wù)員被指強(qiáng)奸14歲女生,官方通報(bào)

KTV服務(wù)員被指強(qiáng)奸14歲女生,官方通報(bào)

界面新聞
2026-04-22 12:02:16
吳敏霞沒想到,退役10年結(jié)婚9年啥都有了,7歲女兒竟能再爭(zhēng)份光

吳敏霞沒想到,退役10年結(jié)婚9年啥都有了,7歲女兒竟能再爭(zhēng)份光

以茶帶書
2026-04-22 17:15:43
一步登天!美印達(dá)成里程碑協(xié)議——美向印出售關(guān)鍵戰(zhàn)機(jī)發(fā)動(dòng)機(jī)技術(shù)

一步登天!美印達(dá)成里程碑協(xié)議——美向印出售關(guān)鍵戰(zhàn)機(jī)發(fā)動(dòng)機(jī)技術(shù)

軍迷戰(zhàn)情室
2026-04-22 20:12:06
周總理對(duì)毛主席說:“葉帥尚有一女在獄中”,毛主席說了9個(gè)字

周總理對(duì)毛主席說:“葉帥尚有一女在獄中”,毛主席說了9個(gè)字

鶴羽說個(gè)事
2026-03-25 22:11:54
900萬套房子空著沒人要,東京房?jī)r(jià)一億還要搶,日本房產(chǎn)太擰巴!

900萬套房子空著沒人要,東京房?jī)r(jià)一億還要搶,日本房產(chǎn)太擰巴!

時(shí)評(píng)人李文君
2026-04-21 20:01:44
2026-04-22 20:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15039文章數(shù) 66798關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗扣留兩艘船并強(qiáng)調(diào)"紅線" 責(zé)令美國(guó)釋放被扣貨船

頭條要聞

伊朗扣留兩艘船并強(qiáng)調(diào)"紅線" 責(zé)令美國(guó)釋放被扣貨船

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

本地
手機(jī)
時(shí)尚
健康
公開課

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

手機(jī)要聞

7050mAh冰川大電池 Find X9 Ultra續(xù)航更可靠

今年春夏一定要有“這件衣服”,高級(jí)又氣質(zhì)!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版