国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖片生成仿真!這個AI讓3D資產(chǎn)「開箱即用」,直接賦能機器人訓(xùn)練

0
分享至

非羊 整理自 凹非寺
量子位 | 公眾號 QbitAI

一張照片,就能生成可直接用于仿真的3D資產(chǎn)。

(沒錯,下圖中幾乎所有物體都是AI生成的)



隨著三維建模從傳統(tǒng)的靜態(tài)視覺效果,逐步邁向可用于仿真與交互的物理可動資產(chǎn),如何直接生成具備物理屬性與關(guān)節(jié)結(jié)構(gòu)的3D對象,成為推動具身智能(embodied AI)發(fā)展的關(guān)鍵。

然而,現(xiàn)有大多數(shù)3D生成方法往往忽視這些核心的物理與運動特性,嚴重限制了其在機器人等相關(guān)領(lǐng)域的應(yīng)用。

為此,來自南洋理工大學(xué)與上海人工智能實驗室的合作研究團隊提出PhysX-Anything——首個面向仿真、具備物理屬性的3D生成框架:僅需單張圖像,即可生成高質(zhì)量、可直接用于仿真的3D資產(chǎn),并同時具備顯式幾何結(jié)構(gòu)、關(guān)節(jié)運動以及物理參數(shù)。

從「靜態(tài)模型」走向「物理仿真」

在機器人、具身智能和交互仿真等任務(wù)中,對能在物理引擎中直接運行的高質(zhì)量3D資產(chǎn)需求日益增長。然而,當前大多數(shù)3D生成方法仍側(cè)重于整體幾何與外觀,或僅關(guān)注部件結(jié)構(gòu),普遍缺失密度、絕對尺度、關(guān)節(jié)約束等關(guān)鍵物理信息,難以直接用于真實仿真與控制。

盡管已有少數(shù)研究開始探索可動3D對象的生成,但由于高質(zhì)量3D物理標注數(shù)據(jù)的稀缺,多采用“檢索現(xiàn)有模型+附加運動”的范式,難以從單張真實圖像泛化生成全新且物理一致的資產(chǎn)。此外,現(xiàn)有方法對形變行為的建模也常假設(shè)材料均勻或忽略部分物理屬性。即便是能夠生成物理3D資產(chǎn)的PhysXGen,其輸出也尚未支持在主流物理引擎中即插即用,限制了在控制任務(wù)中的實用性。

為彌合合成3D資產(chǎn)與真實下游應(yīng)用之間的差距,研究團隊提出了PhysX-Anything——首個面向仿真的物理3D生成范式。該框架僅憑一張圖像,即可生成高質(zhì)量、可直接導(dǎo)入標準模擬器的sim-ready(仿真就緒)3D資產(chǎn)。該成果有望為3D生成、具身智能與機器人領(lǐng)域帶來新的可能性與研究范式。



如何通過一張圖,實現(xiàn)3D物理重建?

PhysX-Anything采用“由粗到細(coarse-to-fine)”的生成框架。給定一張真實場景圖像,系統(tǒng)通過多輪對話,依次生成整體物理描述與各部件幾何信息,通過對物理表征進行解碼,最終解碼輸出六種常用格式的可仿真3D資產(chǎn)。



1. 實現(xiàn)193倍壓縮比!「體素」如何重構(gòu)3D表示?

在傳統(tǒng)視覺語言模型(VLM)中進行3D生成時,為壓縮原始網(wǎng)格的token長度,主流方法通常采用基于頂點量化的文本序列表示,但所得幾何token仍十分冗長。3D VQ-GAN雖可進一步壓縮幾何token,卻需要在微調(diào)階段引入額外特殊token和自定義tokenizer,增加了訓(xùn)練與部署的復(fù)雜度。

為此,研究團隊提出一種新型3D表征方式,在顯式保留幾何結(jié)構(gòu)的同時顯著縮短token序列,且無需任何額外token。該方法受體素(就是三維的像素)表征在精度與效率間良好折中的啟發(fā),基于體素構(gòu)建幾何表示:首先在323體素網(wǎng)格上由VLM建模粗略幾何,再由下游解碼器細化得到高保真形狀,從而保留體素顯式結(jié)構(gòu)優(yōu)勢,同時避免過高token開銷。



在整體信息表征上,團隊沿用樹狀、VLM友好的結(jié)構(gòu),并以JSON風格格式替代標準URDF,使其包含更豐富的物理屬性與文本描述,便于VLM理解與推理。同時,團隊將關(guān)鍵運動學(xué)參數(shù)(如運動方向、關(guān)節(jié)軸位置、運動范圍等)統(tǒng)一映射到體素空間,以保證運動學(xué)與幾何結(jié)構(gòu)的一致性。

2. 從「全局藍圖」到「局部精修」

在上述物理3D資產(chǎn)表征的基礎(chǔ)上,研究團隊采用Qwen2.5作為基礎(chǔ)模型,并在自建的物理3D數(shù)據(jù)集上對該VLM進行微調(diào)。通過精心設(shè)計的多輪對話流程,PhysX-Anything能同時生成高質(zhì)量的全局描述(整體物理與結(jié)構(gòu)屬性)與局部信息(部件級幾何)。

為獲取更精細的幾何細節(jié),團隊受ControlNet啟發(fā),設(shè)計了一個可控的flow transformer。該模塊將粗體素表示作為擴散模型的引導(dǎo)信號,控制細粒度體素幾何的生成。在得到細粒度體素表示后,系統(tǒng)采用預(yù)訓(xùn)練的結(jié)構(gòu)化潛在擴散模型解碼出多種格式的3D資產(chǎn),包括網(wǎng)格表面、輻射場與3D高斯等。

隨后,基于體素分配結(jié)果,使用最近鄰算法將重建網(wǎng)格劃分為部件級組件。

最終,結(jié)合全局結(jié)構(gòu)信息與細粒度體素幾何,PhysX-Anything能夠生成用于仿真的URDF、XML及部件級網(wǎng)格,實現(xiàn)“仿真就緒”的物理3D生成。



效果如何?多項實測全面驗證

1. 在PhysX-Mobility數(shù)據(jù)集上的評估

研究團隊將PhysX-Anything與當前最新方法URDFormer、Articulate-Anything和PhysXGen進行對比。如下表所示,PhysX-Anything在幾何與物理兩類指標上均取得最優(yōu)表現(xiàn)。得益于強大的VLM先驗,其在絕對尺度上的誤差大幅降低。此外,由于VLM結(jié)構(gòu)適合處理文本,PhysX-Anything在文本描述相關(guān)指標上也取得最高得分,表明該方法方法不僅能夠生成物理上合理的屬性,還能產(chǎn)出連貫的、具備部件層級的文字描述,對物體結(jié)構(gòu)與功能具備較強理解能力。



除了定量結(jié)果,定性對比也清晰顯示,PhysX-Anything在泛化能力方面具有顯著優(yōu)勢,尤其相較于檢索式方法更為突出。依托強大的VLM先驗與高效表征設(shè)計,該系統(tǒng)還能生成比PhysXGen更合理、可信的物理屬性。



2. 真實世界場景測試

基于VLM的評估:為評估方法的泛化能力,團隊進一步在真實世界圖像上測試其性能。這些圖像覆蓋了最常見的日常物體類別。為避免VLM在某些具體物理屬性上判斷不穩(wěn)定的問題,本次評估重點放在幾何與關(guān)節(jié)運動質(zhì)量上。結(jié)果表明,PhysX-Anything在幾何與運動學(xué)參數(shù)兩項指標上均顯著優(yōu)于所有對比方法,顯示出對真實輸入的強泛化能力。



作為補充,團隊還召集了一些人類志愿者為不同模型的生成結(jié)果打分,PhysX-Anything的生成結(jié)構(gòu)在幾何與物理屬性都獲得了最高分,表明其生成結(jié)果對比來看也更受人類認可。



在真實場景上的可視化結(jié)果也可進一步直觀展示該方法的優(yōu)勢:PhysX-Anything能夠生成更加準確的幾何結(jié)構(gòu)、關(guān)節(jié)運動以及物理屬性。



3. 「開箱即用」賦能具身智能訓(xùn)練

為驗證生成資產(chǎn)對下游任務(wù)的支撐能力,團隊在MuJoCo風格的模擬器中進行了實驗。生成的sim-ready 3D資產(chǎn)——包括水龍頭、柜子、打火機、眼鏡等日常物體——可以直接導(dǎo)入模擬器,并用于接觸豐富的機器人策略學(xué)習(xí)。



該實驗不僅展示了生成資產(chǎn)在物理行為與幾何結(jié)構(gòu)上的高度可信性,也突顯了它們在推動多種下游機器人與具身智能應(yīng)用方面的巨大潛力。

推動3D重建從「形似」走向「神似」

研究團隊提出首個面向仿真的物理3D生成范式PhysX-Anything,通過統(tǒng)一的VLM管線與定制3D表征,在顯式保留幾何結(jié)構(gòu)的前提下實現(xiàn)超過193倍的token壓縮,顯著提升了物理3D生成的效率與可擴展性。

同時,團隊構(gòu)建了覆蓋47個常見真實類別、具備豐富物理標注的PhysX-Mobility數(shù)據(jù)集,大幅拓展了現(xiàn)有物理3D資產(chǎn)的多樣性?;谠摂?shù)據(jù)集及真實世界場景的實驗表明,PhysX-Anything在sim-ready物理3D生成上具有優(yōu)異性能與穩(wěn)健泛化能力,仿真實驗進一步驗證了其在下游機器人策略學(xué)習(xí)中的應(yīng)用潛力。

該框架有望為3D視覺、具身智能與機器人研究開辟新的方向,推動從“視覺建?!钡健拔锢斫!钡姆妒睫D(zhuǎn)變。



視頻鏈接:https://mp.weixin.qq.com/s/gUooZUSc1yWQlf4NpViZrA

原論文第一作者曹子昂,南洋理工大學(xué)博士二年級,研究方向是計算機視覺、3D AIGC和具身智能。主要合作者為來自南洋理工大學(xué)洪方舟、陳昭熹和來自上海人工智能實驗室的潘亮,通訊作者為南洋理工大學(xué)劉子緯教授。

論文鏈接:https://arxiv.org/abs/2511.13648
項目主頁:hthttps://physx-anything.github.io/
GitHub代碼:https://github.com/ziangcao0312/PhysX-Anything

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

南方都市報
2026-04-20 17:16:09
姆巴佩宣布“加盟”東鵬補水啦,擔任品牌代言人

姆巴佩宣布“加盟”東鵬補水啦,擔任品牌代言人

懂球帝
2026-04-20 17:11:05
山東省青島市委常委、副市長王波被查

山東省青島市委常委、副市長王波被查

新京報
2026-04-20 11:12:09
中國高鐵出海,迎來真正的“大單”

中國高鐵出海,迎來真正的“大單”

無憂啟程
2026-04-20 11:40:20
4月20日人民幣對美元中間價調(diào)貶26個基點

4月20日人民幣對美元中間價調(diào)貶26個基點

證券時報
2026-04-20 09:33:02
財務(wù)造假,3倍牛股突遭ST

財務(wù)造假,3倍牛股突遭ST

21世紀經(jīng)濟報道
2026-04-20 13:17:37
王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

悅君兮君不知
2026-04-19 13:21:45
太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

火山詩話
2026-04-20 07:13:56
南方電網(wǎng)招了7308人,華南理工485個,這所學(xué)校把南網(wǎng)變成了"自家后院"

南方電網(wǎng)招了7308人,華南理工485個,這所學(xué)校把南網(wǎng)變成了"自家后院"

老滿說高考
2026-04-20 20:04:56
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

鶴羽說個事
2026-04-02 23:00:01
央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術(shù)封鎖

央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術(shù)封鎖

混沌錄
2026-04-20 21:04:06
轟2桿破百!丁俊暉10-5躋身世錦賽16強,下輪PK趙心童上演德比戰(zhàn)

轟2桿破百!丁俊暉10-5躋身世錦賽16強,下輪PK趙心童上演德比戰(zhàn)

全景體育V
2026-04-20 19:42:08
丁俊暉趙心童上演中國德比

丁俊暉趙心童上演中國德比

界面新聞
2026-04-20 20:17:40
過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

阿離家居
2026-04-20 16:16:41
上海樓市回暖信號:拐點初步顯現(xiàn),一二手房置換鏈條正在啟動

上海樓市回暖信號:拐點初步顯現(xiàn),一二手房置換鏈條正在啟動

南方都市報
2026-04-20 20:16:16
海康威視2026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

金融界
2026-04-20 17:25:20
宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

阿器談史
2026-04-20 19:11:56
2026-04-20 22:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12502文章數(shù) 176456關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
健康
家居
教育
軍事航空

房產(chǎn)要聞

大規(guī)模商改?。『?谖骱0?,這波項目要贏麻了!

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

自然慢調(diào) 慢享時光

教育要聞

關(guān)注!海淀這所學(xué)校不再具備辦學(xué)資格

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關(guān)懷版