国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機(jī)器讓虛擬角色活靈活現(xiàn):華中科技大學(xué)團(tuán)隊(duì)破解人機(jī)交互難題

0
分享至


這項(xiàng)由華中科技大學(xué)人工智能與自動(dòng)化學(xué)院聯(lián)合南洋理工大學(xué)S-Lab實(shí)驗(yàn)室以及北京智源人工智能研究院共同完成的研究發(fā)表于2026年3月的計(jì)算機(jī)視覺頂級會(huì)議論文集,論文編號為arXiv:2603.04338v1。想深入了解這項(xiàng)研究的讀者可以通過該編號查詢完整論文。

如果你曾經(jīng)在玩游戲或看動(dòng)畫時(shí)想過,為什么虛擬角色做動(dòng)作時(shí)總是顯得那么僵硬不自然,那你就觸及了一個(gè)困擾科技界多年的核心問題。當(dāng)虛擬人物要去開一扇門、打開冰箱或是合上筆記本電腦時(shí),他們的動(dòng)作往往讓人感覺就像木偶一樣機(jī)械。這背后的根本原因是,現(xiàn)有的技術(shù)只能處理"死"物體——那些不會(huì)動(dòng)的桌子椅子,但面對有活動(dòng)部件的物品時(shí)就束手無策了。

研究團(tuán)隊(duì)發(fā)現(xiàn)了問題的癥結(jié)所在。以往的方法就像是訓(xùn)練一個(gè)只見過石頭的人去操作機(jī)械表——完全不知道里面的齒輪是如何轉(zhuǎn)動(dòng)的。當(dāng)虛擬角色面對一扇有鉸鏈的門或是有滑軌的抽屜時(shí),他們無法理解這些物體的運(yùn)動(dòng)規(guī)律,更不用說做出自然的交互動(dòng)作了。

這種技術(shù)局限性不僅僅是學(xué)術(shù)問題。在虛擬現(xiàn)實(shí)游戲中,當(dāng)你想要打開游戲里的柜門時(shí),角色的手要么穿過了柜門,要么動(dòng)作僵硬得像機(jī)器人。在電影特效制作中,要讓虛擬角色自然地操作帶有活動(dòng)部件的物品,往往需要?jiǎng)赢嫀熁ㄙM(fèi)大量時(shí)間手工調(diào)整每一幀畫面。

更令人頭疼的是,現(xiàn)有技術(shù)需要大量的3D數(shù)據(jù)作為訓(xùn)練素材,但獲取這些數(shù)據(jù)既昂貴又復(fù)雜。想象一下,為了教會(huì)AI如何開門,你需要用特殊設(shè)備記錄無數(shù)次開門動(dòng)作的完整3D信息——這就像為了教孩子騎自行車,必須先建一個(gè)物理學(xué)實(shí)驗(yàn)室一樣繁瑣。

研究團(tuán)隊(duì)提出了一個(gè)極為巧妙的解決方案,他們稱之為ArtHOI框架。這個(gè)方案的核心思路就像是教一個(gè)聰明的偵探通過觀察2D監(jiān)控錄像來推斷3D世界中發(fā)生的一切。與其費(fèi)力收集3D數(shù)據(jù),不如直接從普通視頻中學(xué)習(xí)。

整個(gè)過程可以比作拼圖游戲的兩個(gè)階段。在第一個(gè)階段,AI扮演物理學(xué)家的角色,專門研究物體本身的運(yùn)動(dòng)規(guī)律。它通過觀察視頻中物體各部分的移動(dòng)模式,就像古代天文學(xué)家觀察星體運(yùn)行一樣,推斷出物體的內(nèi)在結(jié)構(gòu)和運(yùn)動(dòng)機(jī)制。比如看到門的某一部分始終不動(dòng),而另一部分在轉(zhuǎn)動(dòng),就能推斷出這是一扇帶鉸鏈的門。

在第二個(gè)階段,AI轉(zhuǎn)換角色成為舞蹈編導(dǎo),根據(jù)已經(jīng)理解的物體運(yùn)動(dòng)規(guī)律來設(shè)計(jì)人物的動(dòng)作。此時(shí)物體的運(yùn)動(dòng)模式已經(jīng)確定,AI只需要讓虛擬角色的動(dòng)作與之協(xié)調(diào)配合即可。這就好比已經(jīng)知道了音樂的節(jié)拍,現(xiàn)在只需要設(shè)計(jì)舞步來配合音樂。

這種分階段的方法解決了一個(gè)關(guān)鍵問題:如果同時(shí)讓AI學(xué)習(xí)物體運(yùn)動(dòng)和人物動(dòng)作,就像讓一個(gè)人同時(shí)學(xué)開車和修車,結(jié)果往往是兩樣都學(xué)不好。通過分步驟處理,每個(gè)階段都能專注于自己的任務(wù),最終效果自然更好。

一、視頻中的運(yùn)動(dòng)密碼:光流追蹤技術(shù)的妙用

理解ArtHOI的工作原理,首先要從它如何"看懂"視頻說起。當(dāng)我們?nèi)祟愑^看一個(gè)人開冰箱的視頻時(shí),我們能輕易分辨出哪些部分在動(dòng),哪些部分是靜止的。但對AI來說,這并非易事。

研究團(tuán)隊(duì)開發(fā)了一套基于光流的智能分析系統(tǒng),這套系統(tǒng)的工作方式很像野生動(dòng)物學(xué)家追蹤動(dòng)物遷徙的方法。野生動(dòng)物學(xué)家會(huì)在動(dòng)物身上做標(biāo)記,然后跟蹤它們的移動(dòng)軌跡。類似地,這套系統(tǒng)會(huì)在視頻的每一幀畫面中標(biāo)記大量的特征點(diǎn),然后跟蹤這些點(diǎn)在后續(xù)幀中的位置變化。

當(dāng)系統(tǒng)分析一個(gè)人開冰箱門的視頻時(shí),它會(huì)發(fā)現(xiàn)一些有趣的模式。冰箱主體上的標(biāo)記點(diǎn)幾乎沒有移動(dòng),而冰箱門上的標(biāo)記點(diǎn)卻在做弧形運(yùn)動(dòng)。更微妙的是,在門的鉸鏈附近,標(biāo)記點(diǎn)的移動(dòng)幅度很小,但隨著距離鉸鏈越遠(yuǎn),移動(dòng)幅度就越大。這種運(yùn)動(dòng)模式就像是在為AI繪制一張物體的"運(yùn)動(dòng)地圖"。

系統(tǒng)進(jìn)一步使用了一種叫做SAM(分割一切模型)的技術(shù)來精確劃分物體的不同部分。如果說前面的光流追蹤是粗略地標(biāo)記了運(yùn)動(dòng)區(qū)域,那么SAM就像是一位精密的外科醫(yī)生,能夠準(zhǔn)確地"切開"物體的動(dòng)態(tài)部分和靜態(tài)部分。繼續(xù)以冰箱為例,SAM能夠精確地將冰箱門從整個(gè)冰箱中分離出來,即使在門把手、密封條等細(xì)節(jié)區(qū)域也能保持準(zhǔn)確的邊界。

這個(gè)過程中最巧妙的部分是"準(zhǔn)靜態(tài)綁定"技術(shù)。研究團(tuán)隊(duì)發(fā)現(xiàn),在物體的關(guān)節(jié)處(比如門鉸鏈),存在一些特殊的區(qū)域——它們屬于活動(dòng)部分,但移動(dòng)幅度相對較小。這些區(qū)域就像是連接靜態(tài)世界和動(dòng)態(tài)世界的橋梁。通過識別和利用這些"橋梁點(diǎn)",系統(tǒng)能夠理解物體不同部分之間的連接關(guān)系,確保分解出來的部分在物理上是合理的。

整個(gè)光流分析過程就像是在解讀一場精心編排的舞蹈。舞臺(tái)上的道具有些固定不動(dòng),有些在旋轉(zhuǎn)搖擺,有些在滑動(dòng)平移。通過仔細(xì)觀察每個(gè)元素的運(yùn)動(dòng)特征,AI逐漸理解了整個(gè)"舞蹈"的編排邏輯,為后續(xù)的3D重建工作奠定了堅(jiān)實(shí)基礎(chǔ)。

二、從平面到立體:4D重建的技術(shù)魔法

光流分析為AI提供了物體運(yùn)動(dòng)的2D線索,但要真正理解物體的空間結(jié)構(gòu)和運(yùn)動(dòng)機(jī)制,還需要進(jìn)行4D重建——也就是在三維空間基礎(chǔ)上加上時(shí)間維度的重建。這個(gè)過程可以比作考古學(xué)家根據(jù)出土文物碎片還原古代器物的完整形態(tài)。

研究團(tuán)隊(duì)采用了3D高斯點(diǎn)云技術(shù)作為重建的基礎(chǔ)工具。如果把傳統(tǒng)的3D建模比作用黏土捏雕塑,那么3D高斯點(diǎn)云技術(shù)就像是用無數(shù)個(gè)發(fā)光的小球來構(gòu)建物體。每個(gè)小球都有自己的位置、大小、顏色和透明度屬性。當(dāng)無數(shù)個(gè)這樣的小球按照合理的方式排列時(shí),就能形成逼真的3D物體表面。

在第一階段的物體重建中,系統(tǒng)需要解決一個(gè)關(guān)鍵問題:如何根據(jù)2D視頻信息推斷出3D物體的運(yùn)動(dòng)方式。研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的約束機(jī)制,就像給拼圖游戲制定了一系列規(guī)則。

首先是重建約束,確保從3D模型渲染出來的圖像要盡可能匹配原始視頻幀。這就像要求拼好的拼圖圖案要和盒子上的參考圖一模一樣。但僅有這一個(gè)約束是不夠的,因?yàn)榭赡艽嬖诙喾N3D結(jié)構(gòu)都能產(chǎn)生相同的2D投影。

因此系統(tǒng)還加入了關(guān)節(jié)約束,確保物體的不同部分之間保持合理的連接關(guān)系?;氐奖溟T的例子,無論門如何開合,鉸鏈處的距離關(guān)系必須保持穩(wěn)定。這個(gè)約束防止了物體在重建過程中"散架"。

追蹤約束則利用了前面光流分析的結(jié)果,要求3D重建的運(yùn)動(dòng)軌跡要與2D追蹤結(jié)果保持一致。如果光流分析顯示某個(gè)點(diǎn)應(yīng)該向右上方移動(dòng)5個(gè)像素,那么對應(yīng)的3D點(diǎn)在重新投影到2D平面時(shí)也應(yīng)該有相同的移動(dòng)軌跡。

平滑約束確保物體的運(yùn)動(dòng)是連續(xù)的,避免出現(xiàn)突然跳躍或抖動(dòng)。就像真實(shí)世界中的物體不會(huì)瞬間移動(dòng)一樣,重建出的物體運(yùn)動(dòng)也應(yīng)該符合物理直覺。

這些約束條件共同作用,就像是多個(gè)線索幫助偵探破案一樣,讓系統(tǒng)能夠從有限的2D信息中推斷出合理的3D物體結(jié)構(gòu)和運(yùn)動(dòng)模式。整個(gè)過程采用逐幀優(yōu)化的策略,從第一幀開始,每一幀都基于前一幀的結(jié)果進(jìn)行微調(diào),確保時(shí)間上的連續(xù)性。

三、虛擬角色的精準(zhǔn)表演:人體動(dòng)作合成技術(shù)

當(dāng)物體的運(yùn)動(dòng)規(guī)律被完全理解之后,就到了讓虛擬角色登臺(tái)表演的時(shí)候。這個(gè)階段的任務(wù)可以比作為一位演員設(shè)計(jì)精確的舞臺(tái)表演,演員不僅要做出自然的動(dòng)作,還要與舞臺(tái)道具實(shí)現(xiàn)完美的交互配合。

研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是如何確定虛擬角色的手應(yīng)該接觸物體的哪些具體位置。在真實(shí)世界中,我們用眼睛就能判斷手與門把手的接觸點(diǎn),但對于只有2D視頻輸入的AI來說,這個(gè)問題相當(dāng)復(fù)雜。

團(tuán)隊(duì)開發(fā)了一套巧妙的3D接觸點(diǎn)推導(dǎo)方法。系統(tǒng)首先會(huì)識別視頻中物體發(fā)生明顯運(yùn)動(dòng)的時(shí)間段,因?yàn)檫@通常意味著人物正在與物體發(fā)生接觸。就像聽到門吱嘎響就知道有人在開門一樣,通過監(jiān)測物體運(yùn)動(dòng)的變化,系統(tǒng)能夠定位交互發(fā)生的時(shí)刻。

接下來,系統(tǒng)會(huì)分析這些關(guān)鍵時(shí)刻的畫面,尋找人體輪廓與物體輪廓重疊的區(qū)域。這些重疊區(qū)域往往表示接觸正在發(fā)生。但由于是從單一視角觀察,系統(tǒng)需要進(jìn)一步推斷接觸的深度信息。

這里用到了一個(gè)聰明的技巧:系統(tǒng)會(huì)將人體關(guān)鍵點(diǎn)(特別是手部關(guān)節(jié)點(diǎn))投影到這些接觸區(qū)域,然后利用第一階段重建得到的物體3D信息來確定最合理的接觸深度。具體來說,系統(tǒng)會(huì)找到距離相機(jī)最近的物體表面點(diǎn),并將其作為手部接觸的目標(biāo)位置。

有了明確的接觸目標(biāo),系統(tǒng)就可以開始優(yōu)化虛擬角色的姿態(tài)了。這個(gè)過程使用了SMPL-X人體模型,這是一個(gè)包含了詳細(xì)手指關(guān)節(jié)的高精度人體表示方法。整個(gè)優(yōu)化過程同時(shí)考慮了多個(gè)目標(biāo):確保渲染出的人體外觀與視頻匹配,讓手部關(guān)節(jié)準(zhǔn)確接觸目標(biāo)位置,保持動(dòng)作的自然流暢性,防止身體穿透物體,以及確保腳部接觸地面時(shí)不會(huì)出現(xiàn)滑動(dòng)。

為了防止虛擬角色出現(xiàn)不自然的動(dòng)作,系統(tǒng)還加入了先驗(yàn)約束,讓優(yōu)化后的姿態(tài)不會(huì)偏離初始估計(jì)太遠(yuǎn)。這就像給演員提供了一個(gè)基本的表演框架,在這個(gè)框架內(nèi)進(jìn)行精細(xì)調(diào)整,而不是完全重新創(chuàng)造動(dòng)作。

腳部滑動(dòng)問題是一個(gè)特別需要注意的細(xì)節(jié)。在真實(shí)世界中,當(dāng)我們的腳接觸地面時(shí)是不會(huì)滑動(dòng)的,但在3D重建中很容易出現(xiàn)腳部"溜冰"的現(xiàn)象。系統(tǒng)通過檢測腳部與地面的接觸狀態(tài),并在接觸期間固定腳部位置來解決這個(gè)問題。

四、突破傳統(tǒng)界限:實(shí)驗(yàn)驗(yàn)證的驚人效果

為了驗(yàn)證ArtHOI框架的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對比實(shí)驗(yàn)。他們選擇了多個(gè)代表性的交互場景進(jìn)行測試,包括開冰箱、操作微波爐、合上筆記本電腦、打開茶柜等日常生活中常見的活動(dòng)。

實(shí)驗(yàn)結(jié)果相當(dāng)令人振奮。在語義匹配度測試中,ArtHOI獲得了0.244的X-CLIP分?jǐn)?shù),這意味著生成的交互場景與文字描述的匹配程度最高。相比之下,現(xiàn)有的最佳方法ZeroHSI只達(dá)到了0.204的分?jǐn)?shù)。這個(gè)提升看似微小,但在AI領(lǐng)域,這樣的改進(jìn)往往代表著質(zhì)的飛躍。

更重要的是接觸質(zhì)量的顯著提升。在衡量虛擬角色與物體接觸一致性的指標(biāo)上,ArtHOI達(dá)到了75.64%的接觸率,這意味著在超過四分之三的時(shí)間里,虛擬角色的手都能正確地接觸到物體表面。而傳統(tǒng)方法中表現(xiàn)最好的ZeroHSI只能達(dá)到61.95%的接觸率,差距相當(dāng)明顯。

在物理真實(shí)性方面,ArtHOI的表現(xiàn)同樣出色。穿透錯(cuò)誤率僅為0.08%,遠(yuǎn)低于其他方法。這意味著虛擬角色的身體幾乎不會(huì)出現(xiàn)不合理地穿過物體的現(xiàn)象。同時(shí),腳部滑動(dòng)現(xiàn)象也被控制在極低水平,僅為0.31,而對比方法普遍在0.40以上。

特別值得注意的是關(guān)節(jié)物體動(dòng)力學(xué)重建的精度。在與專門針對關(guān)節(jié)物體設(shè)計(jì)的方法D3D-HOI和3DADN的對比中,ArtHOI在旋轉(zhuǎn)誤差方面實(shí)現(xiàn)了顯著降低。平均旋轉(zhuǎn)誤差從D3D-HOI的25.13度降低到了6.71度,降幅達(dá)到73.3%。這種精度的提升意味著重建出的物體運(yùn)動(dòng)更加接近真實(shí)情況。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的用戶調(diào)研,邀請51名具有不同背景的參與者對生成的交互場景進(jìn)行評估。結(jié)果顯示,在真實(shí)性、接觸質(zhì)量、運(yùn)動(dòng)流暢性和整體偏好四個(gè)維度上,ArtHOI都獲得了壓倒性的支持。特別是在與TRUMANS方法的對比中,98.04%的用戶更傾向于選擇ArtHOI生成的結(jié)果。

這些實(shí)驗(yàn)數(shù)據(jù)背后反映的是一個(gè)重要事實(shí):通過合理的技術(shù)設(shè)計(jì),確實(shí)可以從普通的2D視頻中提取出足夠豐富的信息來重建復(fù)雜的3D交互場景。這不僅證明了方法的有效性,也為未來的研究指明了方向。

五、技術(shù)細(xì)節(jié)的精妙設(shè)計(jì):分階段優(yōu)化的智慧

ArtHOI框架成功的關(guān)鍵在于其分階段優(yōu)化策略的精妙設(shè)計(jì)。這種設(shè)計(jì)理念可以比作建造一座復(fù)雜建筑:與其試圖同時(shí)完成所有工程,不如先打好地基,再建造主體結(jié)構(gòu),最后進(jìn)行裝修裝飾。

在第一階段的物體重建中,系統(tǒng)采用了逐幀優(yōu)化的策略。這種方法的好處是可以充分利用時(shí)間連續(xù)性。第一幀從標(biāo)準(zhǔn)狀態(tài)開始優(yōu)化,后續(xù)每一幀都以前一幀的結(jié)果作為起點(diǎn),這樣既保證了時(shí)間上的連貫性,又避免了優(yōu)化過程陷入局部最優(yōu)解。

特別巧妙的是準(zhǔn)靜態(tài)點(diǎn)對的設(shè)計(jì)。在關(guān)節(jié)物體中,連接活動(dòng)部分和靜態(tài)部分的區(qū)域往往包含關(guān)鍵的約束信息。比如門鉸鏈附近的區(qū)域雖然屬于門的活動(dòng)部分,但它們的移動(dòng)幅度相對較小。通過識別這些準(zhǔn)靜態(tài)點(diǎn)并建立它們與靜態(tài)部分的對應(yīng)關(guān)系,系統(tǒng)能夠確保重建出的物體結(jié)構(gòu)在物理上是合理的。

光流閾值的設(shè)定也體現(xiàn)了研究團(tuán)隊(duì)的深厚經(jīng)驗(yàn)。動(dòng)態(tài)區(qū)域的閾值設(shè)為5像素,靜態(tài)區(qū)域設(shè)為2像素,這個(gè)看似簡單的參數(shù)選擇實(shí)際上是在噪聲容忍度和運(yùn)動(dòng)敏感度之間找到的最佳平衡點(diǎn)。太低的閾值會(huì)導(dǎo)致噪聲被誤認(rèn)為是運(yùn)動(dòng),太高的閾值則可能錯(cuò)過細(xì)微但重要的運(yùn)動(dòng)信息。

在第二階段的人體優(yōu)化中,損失函數(shù)的權(quán)重設(shè)計(jì)同樣值得關(guān)注。接觸損失和運(yùn)動(dòng)學(xué)損失的權(quán)重都設(shè)為10000,這個(gè)相對較高的權(quán)重確保了手部接觸的準(zhǔn)確性。而先驗(yàn)損失的權(quán)重設(shè)為1.0,碰撞損失的權(quán)重設(shè)為100000,這種權(quán)重分配體現(xiàn)了不同約束條件的優(yōu)先級:物理合理性(防止穿透)是最高優(yōu)先級,接觸準(zhǔn)確性次之,動(dòng)作自然性再次之。

系統(tǒng)的運(yùn)行效率也經(jīng)過了精心優(yōu)化。整個(gè)流程大約需要30分鐘,其中視頻生成占5分鐘,光流分析占2分鐘,物體重建占15分鐘,人體優(yōu)化占8分鐘。這種時(shí)間分配是合理的,因?yàn)槲矬w重建需要處理復(fù)雜的3D約束,自然需要更多計(jì)算時(shí)間。

六、創(chuàng)新突破與現(xiàn)實(shí)應(yīng)用的廣闊前景

ArtHOI框架的創(chuàng)新意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它代表了一種全新的思路:與其費(fèi)力收集昂貴的3D數(shù)據(jù),不如充分挖掘普通2D視頻中蘊(yùn)含的豐富信息。這種理念的轉(zhuǎn)變可能會(huì)影響整個(gè)相關(guān)研究領(lǐng)域的發(fā)展方向。

在游戲產(chǎn)業(yè)中,這項(xiàng)技術(shù)的應(yīng)用潛力巨大。傳統(tǒng)的游戲開發(fā)流程中,為角色設(shè)計(jì)與復(fù)雜物體的交互動(dòng)作需要大量的手工調(diào)整工作。一個(gè)簡單的開門動(dòng)作可能就需要?jiǎng)赢嫀熁ㄙM(fèi)數(shù)小時(shí)來確保手部與門把手的接觸看起來自然。有了ArtHOI技術(shù),開發(fā)者只需要提供一段參考視頻,系統(tǒng)就能自動(dòng)生成相應(yīng)的交互動(dòng)畫,大大提高了開發(fā)效率。

在電影和動(dòng)畫制作領(lǐng)域,這項(xiàng)技術(shù)同樣具有革命性意義。特效藝術(shù)家經(jīng)常需要讓虛擬角色與復(fù)雜的機(jī)械裝置進(jìn)行交互,比如操作飛船控制臺(tái)或者使用未來科技設(shè)備。傳統(tǒng)方法需要對每個(gè)交互細(xì)節(jié)進(jìn)行精細(xì)的手工調(diào)整,而ArtHOI可以基于真人演示自動(dòng)生成這些交互動(dòng)作。

虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展也將從中受益。在VR游戲中,用戶希望能夠自然地與虛擬環(huán)境中的各種物體進(jìn)行交互。ArtHOI技術(shù)可以幫助創(chuàng)建更加豐富和真實(shí)的交互體驗(yàn),讓用戶在虛擬世界中的行為更加接近真實(shí)世界。

機(jī)器人技術(shù)是另一個(gè)重要的應(yīng)用方向。雖然ArtHOI主要用于生成虛擬交互,但其中的運(yùn)動(dòng)理解和規(guī)劃思路可以為機(jī)器人學(xué)習(xí)人類操作技巧提供參考。通過觀察人類的操作視頻,機(jī)器人可以學(xué)習(xí)如何與各種關(guān)節(jié)物體進(jìn)行交互。

在教育培訓(xùn)領(lǐng)域,這項(xiàng)技術(shù)可以用來創(chuàng)建交互式的教學(xué)內(nèi)容。比如,在機(jī)械維修培訓(xùn)中,可以基于專家操作視頻自動(dòng)生成虛擬教學(xué)場景,讓學(xué)員能夠在安全的虛擬環(huán)境中練習(xí)復(fù)雜的操作技巧。

數(shù)字人技術(shù)的發(fā)展也將受益于這項(xiàng)研究。隨著元宇宙概念的興起,人們對虛擬化身的真實(shí)感要求越來越高。ArtHOI技術(shù)可以讓數(shù)字人在虛擬空間中的行為更加自然和可信,提升用戶的沉浸式體驗(yàn)。

不過,研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前技術(shù)的一些局限性。對于紋理較少或反射較強(qiáng)的物體表面,光流追蹤的準(zhǔn)確性會(huì)受到影響。多關(guān)節(jié)復(fù)雜物體(比如帶有多個(gè)抽屜的柜子)仍然是一個(gè)挑戰(zhàn)。長時(shí)間序列中的累積誤差問題也需要進(jìn)一步解決。此外,目前的方法假設(shè)相機(jī)是固定的,對于移動(dòng)相機(jī)的情況還需要額外的處理。

盡管存在這些局限性,ArtHOI框架仍然代表了該領(lǐng)域的重大進(jìn)步。它首次實(shí)現(xiàn)了真正意義上的零樣本關(guān)節(jié)物體交互合成,為未來的研究奠定了堅(jiān)實(shí)基礎(chǔ)。

七、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)挑戰(zhàn)的深度解析

深入理解ArtHOI的技術(shù)實(shí)現(xiàn),需要關(guān)注幾個(gè)關(guān)鍵的技術(shù)細(xì)節(jié)和挑戰(zhàn)。這些細(xì)節(jié)的處理往往決定了整個(gè)系統(tǒng)的成敗。

在光流分析階段,點(diǎn)追蹤的穩(wěn)定性是一個(gè)關(guān)鍵挑戰(zhàn)。研究團(tuán)隊(duì)選擇了CoTracker作為基礎(chǔ)追蹤器,這個(gè)選擇并非偶然。CoTracker相比傳統(tǒng)的光流方法具有更好的長期追蹤能力,能夠處理遮擋、光照變化等復(fù)雜情況。但即使如此,在處理快速運(yùn)動(dòng)或模糊圖像時(shí),追蹤仍可能出現(xiàn)漂移。

為了解決這個(gè)問題,系統(tǒng)采用了源幀和目標(biāo)幀配對的策略,而不是簡單的相鄰幀追蹤。通過選擇時(shí)間間隔足夠大的幀對,系統(tǒng)可以確保關(guān)節(jié)運(yùn)動(dòng)產(chǎn)生足夠明顯的位移,從而提高檢測精度。同時(shí),時(shí)間間隔也不能太大,否則可能導(dǎo)致追蹤失敗。經(jīng)過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)選擇間隔3-5幀的幀對能夠達(dá)到最佳效果。

SAM模型的使用也有其技巧。直接在原始視頻幀上使用SAM往往會(huì)受到人體遮擋的影響,導(dǎo)致物體分割不準(zhǔn)確。研究團(tuán)隊(duì)的解決方案是在物體的標(biāo)準(zhǔn)姿態(tài)下進(jìn)行渲染,得到一個(gè)干凈的物體圖像,然后在這個(gè)圖像上應(yīng)用SAM。這樣既避免了遮擋問題,又保持了分割的準(zhǔn)確性。

3D高斯點(diǎn)云的初始化同樣需要精心設(shè)計(jì)。研究團(tuán)隊(duì)發(fā)現(xiàn),如果高斯點(diǎn)的初始分布不合理,優(yōu)化過程很容易陷入局部最優(yōu)解。他們采用了基于第一幀深度估計(jì)的初始化策略,確保高斯點(diǎn)的初始位置大致符合物體的真實(shí)幾何結(jié)構(gòu)。

在優(yōu)化過程中,梯度裁剪技術(shù)的應(yīng)用也很重要。由于涉及到復(fù)雜的幾何約束,梯度的數(shù)值范圍可能變化很大。通過將梯度范數(shù)限制在1.0以內(nèi),系統(tǒng)能夠保持訓(xùn)練的穩(wěn)定性,避免數(shù)值爆炸導(dǎo)致的優(yōu)化失敗。

學(xué)習(xí)率的設(shè)置體現(xiàn)了不同參數(shù)的重要性差異。物體關(guān)節(jié)參數(shù)的學(xué)習(xí)率設(shè)為1e-4,相對較小,這是因?yàn)殛P(guān)節(jié)參數(shù)直接影響物體的物理結(jié)構(gòu),需要更謹(jǐn)慎的更新。而人體姿態(tài)參數(shù)的學(xué)習(xí)率設(shè)為1e-3,相對較大,因?yàn)樽藨B(tài)參數(shù)的調(diào)整空間更大,可以容忍更大的更新步長。

損失函數(shù)的設(shè)計(jì)也包含了許多細(xì)節(jié)考慮。重建損失不僅包括RGB誤差,還包括輪廓誤差,權(quán)重比例為1:βo。這個(gè)權(quán)重的選擇很重要:RGB誤差提供紋理匹配約束,輪廓誤差提供形狀約束。實(shí)驗(yàn)發(fā)現(xiàn),βo設(shè)為0.1能夠在兩者之間達(dá)到良好平衡。

運(yùn)動(dòng)學(xué)損失的計(jì)算采用了加權(quán)方式,手部關(guān)節(jié)的權(quán)重高于其他身體部位。這是因?yàn)槭植渴墙换サ年P(guān)鍵部位,其精度對最終效果影響最大。具體而言,手腕和手指關(guān)節(jié)的權(quán)重是軀干關(guān)節(jié)的5倍。

八、從實(shí)驗(yàn)數(shù)據(jù)看技術(shù)優(yōu)勢的量化體現(xiàn)

ArtHOI的技術(shù)優(yōu)勢不僅體現(xiàn)在定性的視覺效果上,更重要的是在量化指標(biāo)上的顯著提升。這些數(shù)據(jù)背后反映的是技術(shù)方法的根本性改進(jìn)。

在接觸一致性指標(biāo)上,75.64%的成績相比ZeroHSI的61.95%提升了近14個(gè)百分點(diǎn)。這個(gè)提升的意義在于,它意味著虛擬角色與物體的交互看起來更加可信。在實(shí)際應(yīng)用中,這種改進(jìn)可以顯著減少用戶的違和感,提升沉浸式體驗(yàn)的質(zhì)量。

穿透率的降低同樣意義重大。從ZeroHSI的1.49%降低到0.08%,降幅超過95%。雖然絕對數(shù)值看起來很小,但在視覺效果上,穿透現(xiàn)象是最容易被用戶察覺的不自然現(xiàn)象之一。即使是輕微的穿透也會(huì)嚴(yán)重影響視覺真實(shí)感。

腳部滑動(dòng)問題的改善體現(xiàn)了系統(tǒng)對物理約束的精確控制。0.31的滑動(dòng)分?jǐn)?shù)相比其他方法的普遍0.4+有了明顯改進(jìn)。在實(shí)際觀感中,腳部滑動(dòng)會(huì)讓整個(gè)動(dòng)作看起來像是在冰面上表演,嚴(yán)重影響真實(shí)感。

關(guān)節(jié)物體動(dòng)力學(xué)的重建精度提升最為顯著。平均旋轉(zhuǎn)誤差6.71度相比D3D-HOI的25.13度和3DADN的21.17度有了質(zhì)的改進(jìn)??紤]到人類對角度變化的敏感性,這種精度提升直接轉(zhuǎn)化為視覺質(zhì)量的改善。

用戶研究的結(jié)果提供了另一個(gè)角度的驗(yàn)證。98.04%的用戶偏好率表明,技術(shù)改進(jìn)確實(shí)轉(zhuǎn)化為了用戶體驗(yàn)的提升。特別值得注意的是,在接觸質(zhì)量評價(jià)中,98%的用戶認(rèn)為ArtHOI表現(xiàn)更好,這與量化指標(biāo)的結(jié)果高度一致。

運(yùn)行時(shí)間的分析也揭示了系統(tǒng)設(shè)計(jì)的合理性。30分鐘的總時(shí)間中,視頻生成占5分鐘,這部分時(shí)間主要由外部視頻生成模型決定。光流分析僅需2分鐘,說明這個(gè)環(huán)節(jié)的計(jì)算效率很高。物體重建占15分鐘,這是最耗時(shí)的部分,反映了3D約束優(yōu)化的復(fù)雜性。人體優(yōu)化占8分鐘,相對較快,這得益于有了前一階段提供的穩(wěn)定幾何基礎(chǔ)。

消融實(shí)驗(yàn)的結(jié)果進(jìn)一步證實(shí)了各個(gè)技術(shù)組件的重要性。移除關(guān)節(jié)正則化后,平均旋轉(zhuǎn)誤差從6.71度飆升到15.67度,增幅超過133%。這說明物體部件間的約束對維持物理合理性至關(guān)重要。

移除運(yùn)動(dòng)學(xué)損失后,接觸率從75.64%下降到59.82%,這是所有消融實(shí)驗(yàn)中接觸率最低的結(jié)果。這充分說明了3D接觸點(diǎn)推導(dǎo)機(jī)制的核心作用。

聯(lián)合優(yōu)化與分階段優(yōu)化的對比最為直觀地展示了設(shè)計(jì)思路的正確性。聯(lián)合優(yōu)化在各項(xiàng)指標(biāo)上都明顯遜色,X-CLIP分?jǐn)?shù)下降到0.187,接觸率下降到61.45%,旋轉(zhuǎn)誤差增加到12.34度。這些數(shù)據(jù)清晰地表明,將復(fù)雜問題分解為更容易處理的子問題是正確的技術(shù)路線。

歸根結(jié)底,ArtHOI框架代表了人機(jī)交互技術(shù)發(fā)展中的一個(gè)重要里程碑。它不僅解決了長期困擾研究者的技術(shù)難題,更為整個(gè)領(lǐng)域提供了新的思路和方法。通過巧妙地利用普通視頻中的信息,結(jié)合精心設(shè)計(jì)的分階段優(yōu)化策略,研究團(tuán)隊(duì)成功地讓AI學(xué)會(huì)了如何理解和模擬復(fù)雜的人機(jī)交互行為。

這項(xiàng)技術(shù)的成功不僅僅是算法層面的突破,更是對如何從有限信息中提取最大價(jià)值這一根本問題的深刻思考。在數(shù)據(jù)獲取成本日益高昂的今天,ArtHOI提出的從2D到3D的重建思路具有重要的啟發(fā)意義。它告訴我們,有時(shí)候解決復(fù)雜問題的關(guān)鍵不在于獲取更多數(shù)據(jù),而在于更聰明地利用已有信息。

隨著虛擬現(xiàn)實(shí)、游戲產(chǎn)業(yè)和人工智能技術(shù)的快速發(fā)展,對逼真人機(jī)交互的需求只會(huì)越來越大。ArtHOI框架為滿足這一需求提供了一個(gè)可行且高效的解決方案。雖然目前的技術(shù)還有一些局限性,但其核心理念和方法為未來的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。我們有理由相信,在不久的將來,虛擬角色與物體的交互將變得越來越自然,越來越接近真實(shí)世界的體驗(yàn)。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2603.04338v1查詢完整的研究報(bào)告。

Q&A

Q1:ArtHOI技術(shù)是什么,它解決了什么問題?

A:ArtHOI是華中科技大學(xué)團(tuán)隊(duì)開發(fā)的零樣本人機(jī)交互合成框架。它解決的核心問題是讓虛擬角色能夠自然地與有活動(dòng)部件的物體(如門、抽屜、筆記本電腦等)進(jìn)行交互。以往的技術(shù)只能處理固定不動(dòng)的物體,面對可開合、可旋轉(zhuǎn)的物體就束手無策,導(dǎo)致虛擬角色動(dòng)作僵硬不自然。ArtHOI通過分析普通視頻就能學(xué)會(huì)如何生成逼真的交互動(dòng)作。

Q2:ArtHOI技術(shù)的工作原理是怎樣的?

A:ArtHOI采用分兩個(gè)階段的工作方式。第一階段專門分析物體的運(yùn)動(dòng)規(guī)律,通過光流追蹤技術(shù)識別物體的哪些部分在動(dòng)、哪些部分是靜止的,然后重建出物體的3D結(jié)構(gòu)和運(yùn)動(dòng)機(jī)制。第二階段則專注于人體動(dòng)作設(shè)計(jì),根據(jù)已經(jīng)理解的物體運(yùn)動(dòng)規(guī)律來讓虛擬角色做出協(xié)調(diào)配合的動(dòng)作。這種分步處理的方法比同時(shí)學(xué)習(xí)物體運(yùn)動(dòng)和人體動(dòng)作更加穩(wěn)定有效。

Q3:ArtHOI技術(shù)在實(shí)際應(yīng)用中效果如何?

A:實(shí)驗(yàn)結(jié)果顯示ArtHOI在多個(gè)關(guān)鍵指標(biāo)上都有顯著提升。在接觸一致性方面達(dá)到75.64%,比現(xiàn)有最佳方法提高了近14個(gè)百分點(diǎn);在物理真實(shí)性方面,穿透錯(cuò)誤率僅為0.08%,遠(yuǎn)低于其他方法;在關(guān)節(jié)物體動(dòng)力學(xué)重建精度上,平均旋轉(zhuǎn)誤差降低到6.71度,相比傳統(tǒng)方法降幅超過70%。用戶調(diào)研顯示,98%的參與者認(rèn)為ArtHOI生成的交互效果更自然真實(shí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6999元!新機(jī)官宣:3月20日,正式開售!

6999元!新機(jī)官宣:3月20日,正式開售!

科技堡壘
2026-03-14 11:48:32
伊朗軍方宣布打擊美國多處基地

伊朗軍方宣布打擊美國多處基地

參考消息
2026-03-13 21:22:35
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

紅星新聞
2026-03-14 15:58:37
順產(chǎn)分娩手術(shù)時(shí)直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

順產(chǎn)分娩手術(shù)時(shí)直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

極目新聞
2026-03-14 17:27:32
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

鞭牛士
2026-03-14 12:04:14
隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊(duì)負(fù)分

隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊(duì)負(fù)分

側(cè)身凌空斬
2026-03-14 17:48:06
伊朗稱哈爾克島局勢已得到控制

伊朗稱哈爾克島局勢已得到控制

界面新聞
2026-03-14 18:35:14
河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

臺(tái)州交通廣播
2026-03-14 08:59:12
外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時(shí)間

外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時(shí)間

牛鍋巴小釩
2026-03-14 09:52:49
無錫至成都航班在地面滑行時(shí),一旅客隨身充電寶突發(fā)自燃

無錫至成都航班在地面滑行時(shí),一旅客隨身充電寶突發(fā)自燃

都市快報(bào)橙柿互動(dòng)
2026-03-14 13:18:38
主動(dòng)辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

主動(dòng)辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

萌蘭聊個(gè)球
2026-03-14 14:28:11
其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會(huì)豁然開朗

其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會(huì)豁然開朗

暖風(fēng)吹過竹林
2026-03-14 10:23:30
日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

GA環(huán)球建筑
2026-03-13 17:27:01
鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

籃球快餐車
2026-03-14 16:48:34
中國女足為何戰(zhàn)勝中國臺(tái)北賽后王霜毫不客氣說出原因 說的很實(shí)在

中國女足為何戰(zhàn)勝中國臺(tái)北賽后王霜毫不客氣說出原因 說的很實(shí)在

籃球看比賽
2026-03-14 17:06:54
中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

奧拜爾
2026-03-14 17:40:57
馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺(tái),以方應(yīng)“抓住機(jī)會(huì)”

馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺(tái),以方應(yīng)“抓住機(jī)會(huì)”

環(huán)球網(wǎng)資訊
2026-03-14 19:42:07
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
王霜停賽!中國女足3月17日18點(diǎn)對陣東道主澳大利亞 勝者將進(jìn)決賽

王霜停賽!中國女足3月17日18點(diǎn)對陣東道主澳大利亞 勝者將進(jìn)決賽

風(fēng)過鄉(xiāng)
2026-03-14 16:00:51
2026-03-14 20:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

教育
游戲
手機(jī)
數(shù)碼
公開課

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

《GTA》歷代開發(fā)成本對比:25年來暴增上百倍!

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

數(shù)碼要聞

399 元 2TB!長江存儲(chǔ)致態(tài) TiPlus7200 殺瘋,7200MB/s 封神

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版