国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西湖大學(xué)修宇亮:數(shù)字人重建,慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù) | GAIR 2025

0
分享至



臟數(shù)據(jù)變廢為寶,1.5秒完成數(shù)字人重建。

作者丨梁丙鑒

編輯丨馬曉寧


12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導(dǎo)委員會主席,楊強院士與朱曉蕊教授任大會主席。大會共開設(shè)三個主題論壇,聚焦大模型、具身智能、算力變革、強化學(xué)習(xí)與世界模型等多個議題,描繪AI最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學(xué)研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學(xué)界思想接力的陣地、技術(shù)交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場,西湖大學(xué)助理教授,遠兮實驗室負責人修宇亮進行了以《走出蠟像館,交互新世界:開拓三維數(shù)字人研究新疆域》為主題的演講,分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作,分別為 UP2You,ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點,如何從無限制的日常采集圖像(如手機相冊)出發(fā),進行高精度的三維重建,是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間,提出了第一套,先圖生文,再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應(yīng)用,但效率非常低,DreamBooth和SDS(Score Distillation Sampling)漫長的微調(diào)和優(yōu)化流程,導(dǎo)致單個數(shù)字人建模任務(wù)需要3至4個小時。

遠兮實驗室的最新成果UP2You,將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片,在此基礎(chǔ)上套用已有的多視角重建算法,實現(xiàn)提效。

相較于傳統(tǒng)方案,UP2You的優(yōu)勢,一是快——從一坨臟數(shù)據(jù)中,只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人;二是多多益善——用數(shù)量換質(zhì)量,重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié),“無論圖片有多臟,這個方案只要保證圖片源源不斷灌進來,更細節(jié)的幾何和更完整的紋理,就可以立竿見影?!?/p>

修宇亮分享的第二項工作名為ETCH,旨在從穿衣服的人物三維掃描中,得到解剖學(xué)上正確的內(nèi)部人體。由于此前的其他嘗試,很少建模人體和衣服之間的厚度,往往直接將最外層服裝視為人體皮膚來做人體模型擬合,這就導(dǎo)致擬合結(jié)果普遍偏胖。而ETCH則是通過等變向量,定義了衣服和皮膚之間的厚度關(guān)系,從而獲得更準確的內(nèi)部人體結(jié)構(gòu),而且由于旋轉(zhuǎn)等變性的引入,也可以大大減少訓(xùn)練數(shù)據(jù)。在今年的ICCV上,ETCH獲評Highlight Paper。

最后一項工作名為Human3R,旨在實現(xiàn)人物及場景的實時動態(tài)重建?!澳愫茈y只從人體動作出發(fā),就看懂人在做什么”,修宇亮解釋,“但如果把場景也給到你,語義就相對清晰?!?/p>

據(jù)介紹,Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預(yù)測、追蹤的基礎(chǔ)上,可以做到實時15FPS 的推理,8GB顯存占用。這意味著僅需一張商用GPU,即可實現(xiàn)SOTA級性能。單張顯卡訓(xùn)一天,單個模型跑一遍,多人跟蹤實時出,場景還更準了些。

為了實現(xiàn)這一點,Human3R基本保留了CUT3R的 backbone,同時新增了一條人體回歸的分支,借鑒了VPT(Visual-Prompt Tuning)策略,以實現(xiàn)高效微調(diào),這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎(chǔ)上,對人體相關(guān)的幾何信息解碼成 SMPL,場景在這里,可以視為一種上下文,保證人體被正確的放置到場景中。

展望未來,修宇亮最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務(wù)迎刃而解。“數(shù)字人的重建任務(wù),慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)?!毙抻盍林赋觥?/p>

以下為修宇亮的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)進行了不改變原意的編輯整理:

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館,交互新世界》,起這個題目的主要原因是,在我看來,數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài),就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài),怎么讓這個人可以活靈活現(xiàn)地動起來,這是兩個非常關(guān)鍵的問題。

我今天分享的有三個工作。第一個工作是關(guān)于三維形象重建,怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH,如果我們已經(jīng)拿到了一個高精度的,穿著衣服的人體幾何建模,怎么能夠再從這里拿到一個解剖學(xué)上正確的內(nèi)部的人體結(jié)構(gòu)?第三個是Human3R,我們往往要把人的行為放到一個場景里才能更好地理解,所以我們最新的工作Human3R,就是把人和場景放到一起去做重建。

在講之前,我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結(jié)一下。我們以相機和人動不動作為量綱,比如Snapshot這個數(shù)據(jù)集,它是相機靜止,但是人在運動著的數(shù)據(jù),綠色就是運動,紅色就是靜止,那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻,它也是相機靜止,人在運動。當然這件事也可以反過來。我們也可以讓人固定不動,讓相機進行轉(zhuǎn)動。這邊這個就是,因為要保持人的穩(wěn)定,就加了兩個三腳架做人的姿態(tài)固定,這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集,從單個相機來看,它是相機固定,人在動的情況。如果我們把具體的某一時刻的多相機采集結(jié)果拿出來看,就又變成了一個相機在動,但是人靜止的情況。也就是本質(zhì)上來講,密集陣列相機采集能夠work,還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的,就是單張圖片,相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題,如果相機是動的,人也是動的,我們有沒有辦法去做重建?我給出一個例子,手機相冊,實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服,其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例,然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下,我們能不能夠把重建這個事情給做了?這就是我博士期間開始研究的一個問題。


這個問題的難點在哪呢?坦誠地講,我們不算是第一個來嘗試解決這個問題的。最早一個相關(guān)工作就是Photo Tourism,做場景重建的同學(xué)或者老師肯定知道。比如我要重建巴黎圣母院,這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來,嘗試去跑SFM(Structure from Motion),拿到相機位姿,然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢?因為巴黎圣母院是不會動的。它燒了之后當然形變了,但它沒燒之前是不形變的,永遠是那個樣子,所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景,人的動作是會動的,相機也是動的,你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn),于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的,一句話就可以講清楚。我們首先嘗試把這些圖片壓成token,或者說壓縮成文字,然后我們再做文生3D,就這么簡單,這是個非常符合直覺的做法。然后人分很多個part,我們有上衣、褲子、臉,為了保證從圖像到文字的壓縮是無損的,我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后,首先嘗試去做分割,這樣就可以分割出一堆褲子、一堆臉、一堆鞋,然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學(xué)習(xí)到一個文生圖模型里。比如臉是asset 01,上衣是asset 02,以此類推,這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D,因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式,我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程,先嘗試恢復(fù)幾何,然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了,我們就嘗試固定幾何,再跑它的紋理,這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢?因為我們相當于把所有圖片都壓縮成文字了,那就可以做這樣的事情。大家可以看到,左側(cè)是我的圖片,右側(cè)是我同事的圖片,都壓縮成文字之后,文字之間是可以進行交換的。那我們就做最簡單的事情,比如我的shirt叫A shirt,她的shirt叫B shirt,我們做一下交換,我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務(wù),虛擬試衣。同時因為我的所有圖像都壓縮成文字了,文字是很容易編輯的,我們可以把褲子改成牛仔褲,或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理,所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題,就是這個工作是沒有辦法落地的,因為它時間非常長。如果訓(xùn)過DreamBooth,或者用過SDS的肯定知道,這兩個流程是曠日持久。在那種普通的GPU上,DreamBooth大概微調(diào)要一個小時左右,SDS 優(yōu)化要3個小時,那4個小時出一個人,這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作,嘗試把這個時間從4個小時壓縮到了1.5分鐘。


我們嘗試了一種全新的思路去做這個問題。直白來講,PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字,然后從文字恢復(fù)3D?,F(xiàn)在我們換了一種思路,就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data,把它洗干凈。什么叫洗干凈呢?洗干凈就是說,把這些圖片全轉(zhuǎn)化成多視角的正交圖片,像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的,你可以套用任何現(xiàn)有的多視角重建算法,很快就能出來我們想要的結(jié)果,所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務(wù),就好像是你拿了一個卡片相機,圍著一個動的人不斷地拍。拍下來的圖片,我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片,包括RGB,包括法向,我們就可以重建出質(zhì)量比較高的數(shù)字人。這個工作叫UP2You,UP是unconstrained photos的縮寫,you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片,首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形,也就是這個人到底胖還是瘦。有了這個大概的人體形狀,我們就可以渲染出多視角的法向圖。接下來的問題就是,我有一些法向圖控制人體姿態(tài),我又有一些臟臟的圖片,它們定義了這個人的外表,那我們怎么把這兩個結(jié)合起來,最后生成一個多視角的圖像?

關(guān)鍵就是這個Correlation Map。它是做啥的呢?簡單地講,就是我現(xiàn)在給你一個人體的pose,我需要按需去取這上面的像素,拿到每一張臟圖片和這個姿態(tài)之間的相關(guān)性。大家看右邊的可視化,可以看出來,當這個姿態(tài)是一個正面姿態(tài)的時候,那些圖像的正面部分,權(quán)重或者置信度就會相對高。那這個人不斷旋轉(zhuǎn),置信度也在不斷變化,這個模塊非常非常關(guān)鍵。

我們這個方法最大的優(yōu)勢是什么呢?這也是一個我特別喜歡的性質(zhì),就是隨著輸入圖片的增多,重建質(zhì)量可以穩(wěn)定地變好。換句話來講,我們輸入的是大量非常臟的圖片,但無論它有多臟,只要能夠保證源源不斷地輸入圖片,最后重建的質(zhì)量就可以穩(wěn)定變好,多多益善。


中間就是我們的重建結(jié)果。最右邊是光場掃描的一個ground truth,你可以看到一張圖片的結(jié)果、兩張圖片,十張圖片,隨著輸入圖片的增多,我能拿到這個人的外表、正面、反面、背面、側(cè)面,我能拿到的信息更全面,那理論上講我們也可以恢復(fù)出更好的幾何和紋理。

我們的整個訓(xùn)練是在合成數(shù)據(jù)上完成的,所以我們也測試了在真實場景下的效果。這是我們實驗室的同學(xué),我們用他們隨便拍的照片做測試,發(fā)現(xiàn)也是可以泛化的。這是第一個工作,UP2You,主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結(jié)構(gòu),怎么拿到解剖學(xué)正確的內(nèi)部人體結(jié)構(gòu)?今年ICCV,我們這項工作被選為了Highlight Paper。簡單來說,我們這個任務(wù)就是將一個參數(shù)化的人體模型,最常見的比如SMPL?X或者 MHR,想辦法把它準確塞到三維掃描里。


這個準確怎么定義呢?大家可以看到,這張圖最左邊是原始的輸入,一個三維掃描的穿衣服人體建模,藍色部分是真實的人體。用之前一些方法拿到的結(jié)果,你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單,之前我們分不清到底是衣服還是內(nèi)部皮膚,所以我們只能把衣服當成皮膚,然后去做body fitting,最后得到的結(jié)果往往就是偏胖。而第四個fitting,就是我們現(xiàn)在方案的結(jié)果。


在這個工作里,我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關(guān)系,把這個厚度關(guān)系減掉,就可以把衣服剝離,這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline,首先是掃描,在上面做均勻的采樣變成點云,對于每個點,我們找到一個指向內(nèi)部人體的向量,我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker,然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺,過程也非???,大概幾秒鐘就可以搞定。這邊是一些最后的人體擬合結(jié)果。你會看到第三列的紅色、黃色,其實就是定義了衣服到底距離人體有多遠。


我們應(yīng)該是第一個嘗試用向量來定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢?因為如果用向量,我們就可以利用旋轉(zhuǎn)等變性來訓(xùn)練這個網(wǎng)絡(luò)。那為什么要用旋轉(zhuǎn)等變性呢?因為這樣訓(xùn)練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā),簡單來講它的輸入是裸體的人,我們做的是穿著衣服的點云,但其實問題本質(zhì)上是比較相似的。衣服有非剛體形變,所以我們的旋轉(zhuǎn)等變性并不完美,但我們依然可以利用這樣的性質(zhì),大大減少訓(xùn)練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集,往往相機和人只能動一個,而我們?nèi)粘O鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況,就是我們?nèi)粘W畛R姷?,在互?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候,相機不可能是靜止不動的,它往往也會隨著人去移動,只是和相冊比起來,相冊的圖片比較離散,視頻里面的這種采集,相對更連續(xù)一些,但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作,叫Human3R。這個工作的這個初衷是,我們能不能夠?qū)崟r地,并且前用前饋式的方式同時重建人和場景,并且只用一個模型。

這邊是結(jié)果,右下角是一個電影場景,我們可以看到隨著這個電影場景的播放,這個場景本身是可以重建出來的,包括場景中人的姿態(tài)我們也可以很準確地預(yù)測出來,并且不同人體的tracking也可以做到。這整個重建的pipeline,我們可以做到實時15 FPS,8GB顯存占用,所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建,很重要的一個原因是為了更好地理解人的行為。我舉一個例子,其實你其實很難單純從動作里面看到,一個人究竟在做什么。但是如果我們把場景也給到你,你就可以非常清晰地看出來,這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建,因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone,Everywhere,All at Once,是借鑒了楊紫瓊老師的電影Everything,Everywhere,All at Once。這個名字是我起的,我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢?首先我們只有一個模型,沒有很多個part,one model,而且one stage。我們也是 one shot,也就是說不需要一個人一個人地出,我們是所有人一塊出。另外我們整個訓(xùn)練只需要一張GPU,訓(xùn)一天就可以了。五個one,all at once,一股腦地、實時地把所有結(jié)果全部跑出來。


我們的輸入就是一個普通的單目視頻,輸出包括一個全局坐標系下的人體姿態(tài),包括三維場景重建以及camera pose。

我們這個工作和之前的工作,最大的差別是什么?我們把之前的很多工作總結(jié)了一下,大概就是這樣的范式,它們都是multi stage。比如我給一個視頻,首先要做detection,檢測到人的bounding box,然后對每個bounding box里面的人做tracking,拿到trajectory,再然后每個人都要做HMR(Human Mesh Recovery),都要跑出一個人體的pose,同時我們還要做整個場景的深度估計,還要做分割,要預(yù)測相機的pose。最后所有的這些,場景的點云,人的pose,全部要放到一個框架里面進行聯(lián)合優(yōu)化,整個流程基本上都要跑幾個小時。


這是大家之前的做法。我們現(xiàn)在把這些非常復(fù)雜的流程全部砍掉,只用一個模型,一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā),它是一個online的4D重建工作,圖片一張一張往里面進,整個4D的場景,包括人,包括物,一幀一幀地重建,都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章,它也是在一個非常大規(guī)模的數(shù)據(jù)上訓(xùn)練的。我們?nèi)绻猣rom scratch去訓(xùn)練的話,也同樣需要大量的數(shù)據(jù)。但是問題在于,其實人和場景交互沒有那么多的數(shù)據(jù),我們可能可以拿到很多的3D場景數(shù)據(jù),但是很難拿到一個場景和人都在,而且場景和人的深度交互也都有的數(shù)據(jù),所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到,上面所有帶雪花的都是CUT3R原始的backbone,我們沒有改動,因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch,專門從這個場景里面read out出人的點云,然后read out出這個人體的pose。然后我們還借鑒了VPT(Visual-Prompt Tuning),這樣可以非常高效地做微調(diào),就可以實現(xiàn)一天、一張GPU,把這個模型給訓(xùn)出來,而且達到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個3DPW(3D Pose in the Wild)的場景,兩個人在一條路上行走,你可以看到這個人的軌跡是非常平滑的,整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測,這個人跑一圈,最后整個場景和人是不是也都能重建出來?效果其實也是比較滿意的。這是在一個相對長程的場景里,這是一個實驗室,你可以看到隨著這個人在各個房間里面走動,最后整個房間被重建出來,然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case,一個電影場景,兩個人,不光做pose,人的ID也可以同時做跟蹤,而且隨著視頻跑得越來越多,整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預(yù)測和ground truth之間的對比,黑色的影子就是 ground truth,藍色的就是人體估計的動作,大家可以看到幾乎是嚴絲合縫的,我們的準確性是非常高的。

當然也有一些failure case,這是比較經(jīng)典的一個,因為我們這個方法還是前饋式的,就是一步到位把所有結(jié)果給到你,沒有任何后續(xù)的優(yōu)化,所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里,或者腳跑到地底下穿模,這種情況還是有的。以及如果這個人在和場景交互的同時,還和一些物體交互,比如說拿了一把吉他,那這個吉他相當于也是一個動態(tài)的,那這種情況我們目前沒有辦法建模,只能在處理的過程中我們把這個東西摳掉,只做靜態(tài)場景和人的重建,動態(tài)場景目前沒法處理。

這里可以順勢講一下,其實我們認為這個工作有個非常自然的extension,就是把Everyone,Everywhere,All at Once,拓展成Everything,Everyone,Everywhere All at Once,人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模,然后只做 6D pose,也可以online地去把這物體重建出來。那這個問題怎么解決呢?各位老師如果感興趣的話,一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢?因為我是做數(shù)字人的,這其實是一個比較悲傷的事情,我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大,正在迎刃而解。比如Human3R,簡單來講,我們拿了一個有場景感知能力的視覺基礎(chǔ)模型,稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作,叫KaoLRM,他們拿object centric的LRM,去做臉部的重建,和之前的方法相比,在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是,可能未來數(shù)字人的很多重建任務(wù),慢慢都會變?yōu)橐粋€基礎(chǔ)模型的微調(diào)任務(wù)。

剛才講的三個工作我們?nèi)慷奸_源了,也在網(wǎng)站上提供了一些可以交互的demo,歡迎大家去我們的網(wǎng)站上使用下載,如果有bug也可以和我講,我們盡快修復(fù)。


最后summarize一下,我們今天講了三個工作。第一個是三維形象重建UP2You,主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶,怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器,就好像交流電變直流電一樣,我們把臟數(shù)據(jù)變成干凈數(shù)據(jù),重建的問題就更好解決。

第二個工作是三維體型估計ETCH,我們和之前的工作不一樣的點是,之前做相關(guān)任務(wù)是從一個幾何視角出發(fā)的,把衣服當成皮膚,然后去做fitting。而我們是解剖學(xué)視角,我們希望拿到衣服之下那個真實人體的、解剖學(xué)正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度,我們叫它Thightness Vector,等變緊度向量。

第三個是Human3R,人和場景的實時動態(tài)重建。之前的工作都是先分后總,先做人,再做場景,然后人和場景聯(lián)合優(yōu)化,非常費時費力。我們的思路反過來,先總后分,先拿到一個大的重建結(jié)果,然后再從這個大的重建結(jié)果里面,一點一點把我們需要的,比如人體的pose或者物體的pose給讀出來,最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教,我們實驗室主要還是做關(guān)于人的一切,我們做人臉,做人體,做人和物的交互,人和場景的交互,人和人的交互,我們做衣服,我們做肌肉,我們做骨骼,做靜態(tài)的人、動態(tài)的動作,我們都會做,只要是和人相關(guān)的,都是我們研究的重點,另外,小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學(xué),實習(xí)生,RA,PhD以及 Postdoc,所以如果大家對我們的工作感興趣,歡迎后續(xù)跟蹤我們的最新進展,也歡迎加入我們一起干,謝謝。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
賀希寧21+9+11深圳送四川開局6連敗 景菡一24+6+5段睿騏20分

賀希寧21+9+11深圳送四川開局6連敗 景菡一24+6+5段睿騏20分

醉臥浮生
2025-12-24 21:23:53
泰國防長不點名批評:有些國家聲稱保持中立,實際上在幫柬埔寨

泰國防長不點名批評:有些國家聲稱保持中立,實際上在幫柬埔寨

觀星賞月
2025-12-24 12:37:23
文物行業(yè)從業(yè)者對于“南博事件”的三點猜想

文物行業(yè)從業(yè)者對于“南博事件”的三點猜想

祥和居主人
2025-12-24 10:58:38
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
中國專家對中美關(guān)系的三個戰(zhàn)略誤判

中國專家對中美關(guān)系的三個戰(zhàn)略誤判

孤酒老巷QA
2025-12-23 21:07:40
全球第三美!確實實至名歸!

全球第三美!確實實至名歸!

伊人河畔
2025-12-23 21:16:34
小洛熙醫(yī)療案主審法官注定身敗名裂,不管他多公正,都會有人不滿

小洛熙醫(yī)療案主審法官注定身敗名裂,不管他多公正,都會有人不滿

軍科零零
2025-12-25 07:29:06
何晴離世不到半個月!閨蜜曝許何跟媽媽住,一直照顧何晴直到離世

何晴離世不到半個月!閨蜜曝許何跟媽媽住,一直照顧何晴直到離世

娛樂圈圈圓
2025-12-24 12:12:22
李湘帶王詩齡擠高端圈遇挫,穿搭太張揚被安排到禮儀區(qū),尷尬拉滿

李湘帶王詩齡擠高端圈遇挫,穿搭太張揚被安排到禮儀區(qū),尷尬拉滿

巧妹電影
2025-12-21 14:42:39
非洲杯:曼聯(lián)雙煞齊獲開門紅

非洲杯:曼聯(lián)雙煞齊獲開門紅

體壇周報
2025-12-25 08:36:25
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂了

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂了

小蜜情感說
2025-12-24 12:21:12
厲害了!劉強東拿下理想汽車大單,車企合作拿到手軟

厲害了!劉強東拿下理想汽車大單,車企合作拿到手軟

雷科技
2025-12-24 15:46:23
網(wǎng)易不忍了,旗下游戲正逐漸與安卓渠道決裂

網(wǎng)易不忍了,旗下游戲正逐漸與安卓渠道決裂

三易生活
2025-12-23 19:21:16
一夜2場大?。BA兩支奪冠大熱均輸球,換教練之師成“燈塔”

一夜2場大敗!CBA兩支奪冠大熱均輸球,換教練之師成“燈塔”

世界背后的秘密
2025-12-25 02:37:02
小孩報取餐碼拿奶茶被店員拒絕,家長發(fā)帖后沒想到網(wǎng)友們一邊倒

小孩報取餐碼拿奶茶被店員拒絕,家長發(fā)帖后沒想到網(wǎng)友們一邊倒

知肇分子
2025-12-23 17:35:09
文班亞馬:我跟切特沒有競爭關(guān)系,在籃球?qū)用鏇]什么可比較的

文班亞馬:我跟切特沒有競爭關(guān)系,在籃球?qū)用鏇]什么可比較的

懂球帝
2025-12-25 08:00:14
關(guān)于性欲的真相(適用于所有人)

關(guān)于性欲的真相(適用于所有人)

心理咨詢師陳實
2025-12-03 22:10:03
川普級戰(zhàn)列艦,滿載排水量3.5萬噸,總計10艘,已成定局?

川普級戰(zhàn)列艦,滿載排水量3.5萬噸,總計10艘,已成定局?

萬里繁華
2025-12-23 16:23:23
幸好我國沒有采納這5位專家的建議,不然老百姓就真跟著遭殃了!

幸好我國沒有采納這5位專家的建議,不然老百姓就真跟著遭殃了!

小lu侃侃而談
2025-12-19 18:22:37
與黃圣依離婚11個月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

與黃圣依離婚11個月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

夢想總會變成真
2025-12-23 19:50:32
2025-12-25 09:40:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

頭條要聞

路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

美國未來18個月不對中國芯片加額外關(guān)稅

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
健康
數(shù)碼

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

親子要聞

小號圣誕老人+麋鹿真的好可愛!

藝術(shù)要聞

毛主席草書背后的故事:小練字者迷失,書法之路揭示真相。

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

無障礙瀏覽 進入關(guān)懷版