国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICCV 2025 | TriDi:3D人物交互建模新突破,三向擴(kuò)散模型顯著提升三維交互性能

0
分享至

隨著三維計(jì)算機(jī)視覺(jué)技術(shù)的不斷進(jìn)步,三維人類(lèi)-物體交互(3D Human-Object Interaction,3D HOI)建模成為了一個(gè)備受關(guān)注的研究方向,尤其是在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域?,F(xiàn)有方法主要局限于單向建模,需要為每種條件設(shè)計(jì)獨(dú)立的模型,無(wú)法靈活處理復(fù)雜的交互場(chǎng)景。本文介紹一篇來(lái)自德國(guó)蒂賓根大學(xué)和慕尼黑工業(yè)大學(xué)的工作,目前已經(jīng)發(fā)表在計(jì)算機(jī)視覺(jué)頂會(huì)ICCV2025上。本文提出了一種名為TriDi的方法,通過(guò)三向擴(kuò)散(Trilateral Diffusion)過(guò)程可以同時(shí)建模人類(lèi)、物體和交互的聯(lián)合分布,打破了傳統(tǒng)單向模型的局限,能夠在多種輸入條件下生成高質(zhì)量的三維交互模型。


論文題目: TriDi: Trilateral Diffusion of 3D Humans, Objects and Interactions 文章鏈接: https://arxiv.org/abs/2412.06334 項(xiàng)目鏈接: https://virtualhumans.mpi-inf.mpg.de/tridi/
一、研究動(dòng)機(jī)

目前的三維人類(lèi)-物體交互(3D HOI)建模方法存在以下兩大問(wèn)題,影響了模型的準(zhǔn)確性和應(yīng)用范圍:

  • 單向建模。目前3D HOI方法仍然是單向建模方法,這類(lèi)方法的主要問(wèn)題在于,模型需要為每一個(gè)特定的條件(如“給定物體,生成人體姿勢(shì)”或“給定人體姿勢(shì),生成物體”)設(shè)計(jì)不同的架構(gòu)和訓(xùn)練流程,這使得模型在擴(kuò)展性和效率方面表現(xiàn)不佳。并且,這種單向建模方法難以充分利用三者之間的結(jié)構(gòu)性依賴,也限制了模型在復(fù)雜條件下的生成能力。

  • 缺乏交互細(xì)節(jié)。現(xiàn)實(shí)世界中,人、物和交互是高度耦合的,人的行為和姿勢(shì)會(huì)依賴于被操作的物體,人和物體的交互又受到人體姿態(tài)的約束。單向建模方法僅通過(guò)基于物體或人體的幾何特征來(lái)恢復(fù)另一方的姿勢(shì),未能深入考慮交互過(guò)程中人物與物體之間的微妙細(xì)節(jié)。

因此,目前該領(lǐng)域迫切需要一個(gè)統(tǒng)一的概率模型來(lái)同時(shí)建模人體 、物體 、人與物體的交互 三種模態(tài)之間的聯(lián)合分布,來(lái)實(shí)現(xiàn)跨模態(tài)的條件生成和推理。


本文提出了首個(gè)將人體姿態(tài)( )、物體( )與人與物之間交互( )進(jìn)行統(tǒng)一建模的聯(lián)合概率模型TriDi,如上圖所示。TriDi模型將三種模態(tài)融合為一個(gè)整體框架,旨在捕捉它們之間復(fù)雜且緊密的依賴關(guān)系。TriDi支持在七種不同的條件配置下進(jìn)行采樣,涵蓋了以往工作中分別處理的多種場(chǎng)景。

二、本文方法

本文提出的TriDi模型旨在對(duì)人體( )、物體( )和 交互( )的三變量聯(lián)合分布 進(jìn)行建模,從而統(tǒng)一處理人類(lèi)、物體與交互之間的復(fù)雜關(guān)系,具體框架如下圖所示。


2.1 模態(tài)表示

在這一節(jié)中主要介紹TriDi模型如何表示人體( )、物體( )和 交互( )三種模態(tài)。

(1)人體的表示:基于常用于人體姿態(tài)與形狀建模的SMPL+H體模方法。人體的表示被分解為姿勢(shì) 、形狀 和全局姿勢(shì) ,定義為:


(2)物體的表示:由物體特征 和物體類(lèi)別 兩部分表示,TriDi模型接收由用戶提供的物體幾何形狀作為輸入。


(3)交互的表示:采用接觸圖文本描述結(jié)合的聯(lián)合表示方法,本文提出了一種學(xué)習(xí)緊湊統(tǒng)一潛在表示的方法,將交互 編碼到一個(gè)共享的潛在空間中,如下圖所示:


具體而言,給定一組配對(duì)數(shù)據(jù) ,其中 為該交互的文本描述, 為定義在人體表面頂點(diǎn)集 上的接觸圖,本文同時(shí)訓(xùn)練以下編碼器和解碼器:

  • 接觸圖編碼器 :將接觸圖映射到潛在空間中的向量 ;

  • 文本編碼器 :通過(guò) CLIP 模型將文本 編碼為文本特征

  • 接觸圖解碼器 :用于將潛在表示重新解碼回接觸圖 。

為了統(tǒng)一這兩種模態(tài),作者設(shè)計(jì)了如下?lián)p失函數(shù) 進(jìn)行優(yōu)化:

最終,交互 轉(zhuǎn)換為統(tǒng)一潛在空間的一個(gè)緊湊向量,表示為 。

2.2 三向擴(kuò)散模型

隨后作者提出了一個(gè)三向擴(kuò)散模型,該模型基于擴(kuò)散過(guò)程進(jìn)行聯(lián)合建模,在擴(kuò)散過(guò)程下的噪聲期望定義如下:

為了學(xué)習(xí)三模態(tài)的聯(lián)合分布,模型參數(shù) 通過(guò)最小化擴(kuò)展后的聯(lián)合擴(kuò)散重建損失進(jìn)行優(yōu)化,損失函數(shù)定義為:

, , 表示在擴(kuò)散過(guò)程中的人體、物體和交互的表示, , , 表示相應(yīng)的時(shí)間步, 是物體的條件信息。通過(guò)這個(gè)過(guò)程,TriDi能夠在三種模態(tài)之間進(jìn)行生成和推理。

2.3 具體實(shí)現(xiàn)

在詳細(xì)實(shí)現(xiàn)時(shí),本文以Transformer 架構(gòu)為主體,額外引入了一個(gè)embedding層,將所有輸入模態(tài)映射到統(tǒng)一的 token 空間中,如以下公式所示:

在所有輸入中,唯一必需的條件是物體的表示,其他模態(tài)的輸入屬于可選。為了幫助網(wǎng)絡(luò)學(xué)習(xí)三種模態(tài)之間的聯(lián)合依賴關(guān)系, 、 、 這三種輸入分別轉(zhuǎn)化為 token,并通過(guò)自注意機(jī)制實(shí)現(xiàn)跨模態(tài)交互,從而捕捉人-物-交互之間的細(xì)粒度耦合關(guān)系。

三、實(shí)驗(yàn)結(jié)果

本文使用了四個(gè)數(shù)據(jù)集來(lái)評(píng)估TriDi模型的性能,分別是BEHAVE、GRAB、InterCap和OMOMO數(shù)據(jù)集。這些數(shù)據(jù)集包含了3D人體、物體及其交互數(shù)據(jù),用于訓(xùn)練和驗(yàn)證TriDi模型的生成能力。作者將TriDi與現(xiàn)有的單向建模方法(如GNet)以及其他基于擴(kuò)散模型的HOI建模方法進(jìn)行了比較,以驗(yàn)證TriDi在生成3D人體、物體姿勢(shì)和交互建模上的優(yōu)越性。

3.1 定量分析

如上表所示,TriDi在生成的分布質(zhì)量上顯著優(yōu)于基線方法。在BEHAVE數(shù)據(jù)集的 模式下,TriDi的COV達(dá)到了51.71%,MMD為0.166,顯著優(yōu)于ObjPOP+cVAE方法。較高的COV,表明TriDi生成的樣本更好地覆蓋了目標(biāo)分布。較低的MMD說(shuō)明TriDi生成的樣本與地面真實(shí)數(shù)據(jù)的對(duì)齊度較高。

3.2 定性結(jié)果

隨后作者也展示了本文方法與其他方法的定性對(duì)比結(jié)果。前兩列分別展示了TriDi在 和 模式下的生成效果。例如,在 模式下,TriDi生成的樣本避免了與物體(球)之間的穿透,并且在人類(lèi)與物體的接觸點(diǎn)上表現(xiàn)得更加一致。相比之下,GNet方法則出現(xiàn)了物體交疊或細(xì)節(jié)缺失的問(wèn)題。在 模式下,TriDi生成的結(jié)果更加自然流暢,特別是在不受接觸限制的肢體表現(xiàn)上,準(zhǔn)確性也更高。

3.3 場(chǎng)景填充實(shí)驗(yàn)結(jié)果

本文還驗(yàn)證了TriDi在多種條件下進(jìn)行場(chǎng)景填充的實(shí)用性,實(shí)驗(yàn)結(jié)果如上圖所示。在這些實(shí)驗(yàn)中,作者將一個(gè)虛擬物體或人物放置在HPS數(shù)據(jù)集中的場(chǎng)景中,并利用TriDi生成與之匹配的交互結(jié)果。上圖中的左圖展示了在人與物體交互條件下TriDi生成的結(jié)果。右圖則展示了TriDi用于人與物體聯(lián)合生成的效果。這些實(shí)驗(yàn)結(jié)果展現(xiàn)了其在動(dòng)態(tài)場(chǎng)景中生成合理交互的能力。

3.4 從圖像中重建3D交互結(jié)果

本文提出的TriDi方法還能夠間接地從圖像中重建3D人類(lèi)-物體交互。上圖展示了來(lái)自DAMON數(shù)據(jù)集的示例,該數(shù)據(jù)集為HOT圖像以及人體接觸標(biāo)注。盡管TriDi并未在DECO數(shù)據(jù)集上進(jìn)行專門(mén)訓(xùn)練,但其出色的泛化能力使得它能夠成功地?cái)U(kuò)展到這類(lèi)場(chǎng)景中,并生成準(zhǔn)確的3D交互結(jié)果。

四、總結(jié)

本文提出了一種創(chuàng)新的三模態(tài)聯(lián)合生成模型TriDi,用于同時(shí)建模和生成人體、物體交互。TriDi通過(guò)三向擴(kuò)散過(guò)程將這三種模態(tài)的聯(lián)合分布進(jìn)行建模,能夠在多種條件下靈活生成與人體、物體和交互相關(guān)的3D樣本。該方法結(jié)合了文本描述和接觸圖的優(yōu)勢(shì),通過(guò)共享的潛在空間實(shí)現(xiàn)了更加直觀和精確的控制。TriDi不僅能處理復(fù)雜的交互場(chǎng)景,還能擴(kuò)展到未見(jiàn)過(guò)的幾何形狀和場(chǎng)景,展現(xiàn)了強(qiáng)大的泛化能力和多模態(tài)生成的潛力,特別是在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)及虛擬人類(lèi)建模等應(yīng)用中具有廣泛的應(yīng)用前景。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門(mén)”

將門(mén)是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長(zhǎng)要警惕

假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長(zhǎng)要警惕

趣文說(shuō)娛
2026-03-10 16:47:22
凌晨刷屏!中遠(yuǎn)海運(yùn)強(qiáng)硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

凌晨刷屏!中遠(yuǎn)海運(yùn)強(qiáng)硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

生活新鮮市
2026-03-14 00:18:55
美國(guó)“林肯”號(hào)航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國(guó)

美國(guó)“林肯”號(hào)航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國(guó)

安安說(shuō)
2026-03-14 18:53:39
中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

老馬拉車(chē)莫少裝
2026-03-14 18:34:48
阿德巴約:如果逝者能夠開(kāi)口說(shuō)話,我堅(jiān)信科比一定會(huì)恭喜我

阿德巴約:如果逝者能夠開(kāi)口說(shuō)話,我堅(jiān)信科比一定會(huì)恭喜我

懂球帝
2026-03-14 09:45:09
57歲王菲斷崖式衰老!臉腫皮膚松,十個(gè)月前和謝霆鋒秀恩愛(ài)差距大

57歲王菲斷崖式衰老!臉腫皮膚松,十個(gè)月前和謝霆鋒秀恩愛(ài)差距大

青梅侃史啊
2026-02-18 07:25:41
在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒(méi)有與你相關(guān)的個(gè)股?

在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒(méi)有與你相關(guān)的個(gè)股?

股市皆大事
2026-03-14 11:09:10
北京市屬公園春花觀賞季陸續(xù)啟幕

北京市屬公園春花觀賞季陸續(xù)啟幕

北京商報(bào)
2026-03-13 17:12:20
分手7年范冰冰也沒(méi)想到,46歲李晨隱藏身份曝光,王寶強(qiáng)沒(méi)說(shuō)錯(cuò)

分手7年范冰冰也沒(méi)想到,46歲李晨隱藏身份曝光,王寶強(qiáng)沒(méi)說(shuō)錯(cuò)

錯(cuò)過(guò)美好
2026-03-13 23:16:47
別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

諾媽家有男寶娃
2026-03-13 15:15:55
有很多人可能根本“撐不過(guò)”2026年了

有很多人可能根本“撐不過(guò)”2026年了

放牛娃的遐想
2026-03-12 08:29:33
早春外套別亂買(mǎi)!跟著博主解鎖3件王炸單品,顯瘦時(shí)髦一整季!

早春外套別亂買(mǎi)!跟著博主解鎖3件王炸單品,顯瘦時(shí)髦一整季!

虎哥說(shuō)衣不二
2026-03-14 19:10:10
蒙古總理?yè)Q人后,一下子硬氣了,當(dāng)面要求西方廢除不平等條款

蒙古總理?yè)Q人后,一下子硬氣了,當(dāng)面要求西方廢除不平等條款

知鑒明史
2026-03-13 18:31:46
蒙哥馬利:我們?cè)诙ㄎ磺蚍朗匦枳龅酶?,侯森肋部受傷需休?>
    </a>
        <h3>
      <a href=懂球帝
2026-03-14 18:38:05
曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說(shuō)其他隊(duì)友返回伊朗

曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說(shuō)其他隊(duì)友返回伊朗

念洲
2026-03-14 13:47:06
上甘嶺戰(zhàn)役,美軍為什么不像對(duì)付日軍那樣,用噴火器向坑道里狂噴

上甘嶺戰(zhàn)役,美軍為什么不像對(duì)付日軍那樣,用噴火器向坑道里狂噴

朝子亥
2026-03-14 17:15:03
不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

起喜電影
2026-03-02 07:35:37
“美國(guó)不敢打”論誤國(guó)誤民!

“美國(guó)不敢打”論誤國(guó)誤民!

據(jù)說(shuō)無(wú)據(jù)
2026-03-12 15:56:59
有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深?lèi)?ài)雜談
2026-02-18 20:55:58
以軍發(fā)動(dòng)大規(guī)模空襲 伊朗首都發(fā)生爆炸

以軍發(fā)動(dòng)大規(guī)??找u 伊朗首都發(fā)生爆炸

財(cái)聯(lián)社
2026-03-14 02:40:14
2026-03-14 20:00:49
將門(mén)創(chuàng)投 incentive-icons
將門(mén)創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂(lè)要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車(chē)要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
數(shù)碼
教育
游戲

房產(chǎn)要聞

不容易啊!??诮K于又要賣(mài)地了!

審美提升|| 來(lái)和時(shí)髦尖子生學(xué)幾招

數(shù)碼要聞

399 元 2TB!長(zhǎng)江存儲(chǔ)致態(tài) TiPlus7200 殺瘋,7200MB/s 封神

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

《GTA》歷代開(kāi)發(fā)成本對(duì)比:25年來(lái)暴增上百倍!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版