国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西湖大學修宇亮:數(shù)字人重建,慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù) | GAIR 2025

0
分享至

雷峰網(wǎng)訊 12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。大會共開設(shè)三個主題論壇,聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題,描繪AI最前沿的探索群像,折射學界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學界思想接力的陣地、技術(shù)交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場,西湖大學助理教授,遠兮實驗室負責人修宇亮進行了以《走出蠟像館,交互新世界:開拓三維數(shù)字人研究新疆域》為主題的演講,分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作,分別為 UP2You,ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點,如何從無限制的日常采集圖像(如手機相冊)出發(fā),進行高精度的三維重建,是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間,提出了第一套,先圖生文,再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應(yīng)用,但效率非常低,DreamBooth和SDS(Score Distillation Sampling)漫長的微調(diào)和優(yōu)化流程,導致單個數(shù)字人建模任務(wù)需要3至4個小時。

遠兮實驗室的最新成果UP2You,將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片,在此基礎(chǔ)上套用已有的多視角重建算法,實現(xiàn)提效。

相較于傳統(tǒng)方案,UP2You的優(yōu)勢,一是快——從一坨臟數(shù)據(jù)中,只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人;二是多多益善——用數(shù)量換質(zhì)量,重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié),“無論圖片有多臟,這個方案只要保證圖片源源不斷灌進來,更細節(jié)的幾何和更完整的紋理,就可以立竿見影。”

修宇亮分享的第二項工作名為ETCH,旨在從穿衣服的人物三維掃描中,得到解剖學上正確的內(nèi)部人體。由于此前的其他嘗試,很少建模人體和衣服之間的厚度,往往直接將最外層服裝視為人體皮膚來做人體模型擬合,這就導致擬合結(jié)果普遍偏胖。而ETCH則是通過等變向量,定義了衣服和皮膚之間的厚度關(guān)系,從而獲得更準確的內(nèi)部人體結(jié)構(gòu),而且由于旋轉(zhuǎn)等變性的引入,也可以大大減少訓練數(shù)據(jù)。在今年的ICCV上,ETCH獲評Highlight Paper。

最后一項工作名為Human3R,旨在實現(xiàn)人物及場景的實時動態(tài)重建。“你很難只從人體動作出發(fā),就看懂人在做什么”,修宇亮解釋,“但如果把場景也給到你,語義就相對清晰。”

據(jù)介紹,Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預(yù)測、追蹤的基礎(chǔ)上,可以做到實時15FPS 的推理,8GB顯存占用。這意味著僅需一張商用GPU,即可實現(xiàn)SOTA級性能。單張顯卡訓一天,單個模型跑一遍,多人跟蹤實時出,場景還更準了些。

為了實現(xiàn)這一點,Human3R基本保留了CUT3R的 backbone,同時新增了一條人體回歸的分支,借鑒了VPT(Visual-Prompt Tuning)策略,以實現(xiàn)高效微調(diào),這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎(chǔ)上,對人體相關(guān)的幾何信息解碼成 SMPL,場景在這里,可以視為一種上下文,保證人體被正確的放置到場景中。

展望未來,修宇亮最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務(wù)迎刃而解?!皵?shù)字人的重建任務(wù),慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)?!毙抻盍林赋觥?/p>

以下為修宇亮的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)進行了不改變原意的編輯整理:

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館,交互新世界》,起這個題目的主要原因是,在我看來,數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài),就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài),怎么讓這個人可以活靈活現(xiàn)地動起來,這是兩個非常關(guān)鍵的問題。

我今天分享的有三個工作。第一個工作是關(guān)于三維形象重建,怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH,如果我們已經(jīng)拿到了一個高精度的,穿著衣服的人體幾何建模,怎么能夠再從這里拿到一個解剖學上正確的內(nèi)部的人體結(jié)構(gòu)?第三個是Human3R,我們往往要把人的行為放到一個場景里才能更好地理解,所以我們最新的工作Human3R,就是把人和場景放到一起去做重建。

在講之前,我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結(jié)一下。我們以相機和人動不動作為量綱,比如Snapshot這個數(shù)據(jù)集,它是相機靜止,但是人在運動著的數(shù)據(jù),綠色就是運動,紅色就是靜止,那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻,它也是相機靜止,人在運動。當然這件事也可以反過來。我們也可以讓人固定不動,讓相機進行轉(zhuǎn)動。這邊這個就是,因為要保持人的穩(wěn)定,就加了兩個三腳架做人的姿態(tài)固定,這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集,從單個相機來看,它是相機固定,人在動的情況。如果我們把具體的某一時刻的多相機采集結(jié)果拿出來看,就又變成了一個相機在動,但是人靜止的情況。也就是本質(zhì)上來講,密集陣列相機采集能夠work,還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的,就是單張圖片,相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題,如果相機是動的,人也是動的,我們有沒有辦法去做重建?我給出一個例子,手機相冊,實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服,其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例,然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下,我們能不能夠把重建這個事情給做了?這就是我博士期間開始研究的一個問題。

這個問題的難點在哪呢?坦誠地講,我們不算是第一個來嘗試解決這個問題的。最早一個相關(guān)工作就是Photo Tourism,做場景重建的同學或者老師肯定知道。比如我要重建巴黎圣母院,這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來,嘗試去跑SFM(Structure from Motion),拿到相機位姿,然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢?因為巴黎圣母院是不會動的。它燒了之后當然形變了,但它沒燒之前是不形變的,永遠是那個樣子,所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景,人的動作是會動的,相機也是動的,你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn),于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的,一句話就可以講清楚。我們首先嘗試把這些圖片壓成token,或者說壓縮成文字,然后我們再做文生3D,就這么簡單,這是個非常符合直覺的做法。然后人分很多個part,我們有上衣、褲子、臉,為了保證從圖像到文字的壓縮是無損的,我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后,首先嘗試去做分割,這樣就可以分割出一堆褲子、一堆臉、一堆鞋,然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學習到一個文生圖模型里。比如臉是asset 01,上衣是asset 02,以此類推,這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D,因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式,我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程,先嘗試恢復幾何,然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了,我們就嘗試固定幾何,再跑它的紋理,這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢?因為我們相當于把所有圖片都壓縮成文字了,那就可以做這樣的事情。大家可以看到,左側(cè)是我的圖片,右側(cè)是我同事的圖片,都壓縮成文字之后,文字之間是可以進行交換的。那我們就做最簡單的事情,比如我的shirt叫A shirt,她的shirt叫B shirt,我們做一下交換,我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務(wù),虛擬試衣。同時因為我的所有圖像都壓縮成文字了,文字是很容易編輯的,我們可以把褲子改成牛仔褲,或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理,所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題,就是這個工作是沒有辦法落地的,因為它時間非常長。如果訓過DreamBooth,或者用過SDS的肯定知道,這兩個流程是曠日持久。在那種普通的GPU上,DreamBooth大概微調(diào)要一個小時左右,SDS 優(yōu)化要3個小時,那4個小時出一個人,這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作,嘗試把這個時間從4個小時壓縮到了1.5分鐘。

我們嘗試了一種全新的思路去做這個問題。直白來講,PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字,然后從文字恢復3D。現(xiàn)在我們換了一種思路,就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data,把它洗干凈。什么叫洗干凈呢?洗干凈就是說,把這些圖片全轉(zhuǎn)化成多視角的正交圖片,像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的,你可以套用任何現(xiàn)有的多視角重建算法,很快就能出來我們想要的結(jié)果,所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務(wù),就好像是你拿了一個卡片相機,圍著一個動的人不斷地拍。拍下來的圖片,我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片,包括RGB,包括法向,我們就可以重建出質(zhì)量比較高的數(shù)字人。這個工作叫UP2You,UP是unconstrained photos的縮寫,you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片,首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形,也就是這個人到底胖還是瘦。有了這個大概的人體形狀,我們就可以渲染出多視角的法向圖。接下來的問題就是,我有一些法向圖控制人體姿態(tài),我又有一些臟臟的圖片,它們定義了這個人的外表,那我們怎么把這兩個結(jié)合起來,最后生成一個多視角的圖像?

關(guān)鍵就是這個Correlation Map。它是做啥的呢?簡單地講,就是我現(xiàn)在給你一個人體的pose,我需要按需去取這上面的像素,拿到每一張臟圖片和這個姿態(tài)之間的相關(guān)性。大家看右邊的可視化,可以看出來,當這個姿態(tài)是一個正面姿態(tài)的時候,那些圖像的正面部分,權(quán)重或者置信度就會相對高。那這個人不斷旋轉(zhuǎn),置信度也在不斷變化,這個模塊非常非常關(guān)鍵。

我們這個方法最大的優(yōu)勢是什么呢?這也是一個我特別喜歡的性質(zhì),就是隨著輸入圖片的增多,重建質(zhì)量可以穩(wěn)定地變好。換句話來講,我們輸入的是大量非常臟的圖片,但無論它有多臟,只要能夠保證源源不斷地輸入圖片,最后重建的質(zhì)量就可以穩(wěn)定變好,多多益善。

中間就是我們的重建結(jié)果。最右邊是光場掃描的一個ground truth,你可以看到一張圖片的結(jié)果、兩張圖片,十張圖片,隨著輸入圖片的增多,我能拿到這個人的外表、正面、反面、背面、側(cè)面,我能拿到的信息更全面,那理論上講我們也可以恢復出更好的幾何和紋理。

我們的整個訓練是在合成數(shù)據(jù)上完成的,所以我們也測試了在真實場景下的效果。這是我們實驗室的同學,我們用他們隨便拍的照片做測試,發(fā)現(xiàn)也是可以泛化的。這是第一個工作,UP2You,主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結(jié)構(gòu),怎么拿到解剖學正確的內(nèi)部人體結(jié)構(gòu)?今年ICCV,我們這項工作被選為了Highlight Paper。簡單來說,我們這個任務(wù)就是將一個參數(shù)化的人體模型,最常見的比如SMPL?X或者 MHR,想辦法把它準確塞到三維掃描里。

這個準確怎么定義呢?大家可以看到,這張圖最左邊是原始的輸入,一個三維掃描的穿衣服人體建模,藍色部分是真實的人體。用之前一些方法拿到的結(jié)果,你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單,之前我們分不清到底是衣服還是內(nèi)部皮膚,所以我們只能把衣服當成皮膚,然后去做body fitting,最后得到的結(jié)果往往就是偏胖。而第四個fitting,就是我們現(xiàn)在方案的結(jié)果。

在這個工作里,我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關(guān)系,把這個厚度關(guān)系減掉,就可以把衣服剝離,這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline,首先是掃描,在上面做均勻的采樣變成點云,對于每個點,我們找到一個指向內(nèi)部人體的向量,我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker,然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺,過程也非???,大概幾秒鐘就可以搞定。這邊是一些最后的人體擬合結(jié)果。你會看到第三列的紅色、黃色,其實就是定義了衣服到底距離人體有多遠。

我們應(yīng)該是第一個嘗試用向量來定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢?因為如果用向量,我們就可以利用旋轉(zhuǎn)等變性來訓練這個網(wǎng)絡(luò)。那為什么要用旋轉(zhuǎn)等變性呢?因為這樣訓練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā),簡單來講它的輸入是裸體的人,我們做的是穿著衣服的點云,但其實問題本質(zhì)上是比較相似的。衣服有非剛體形變,所以我們的旋轉(zhuǎn)等變性并不完美,但我們依然可以利用這樣的性質(zhì),大大減少訓練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集,往往相機和人只能動一個,而我們?nèi)粘O鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況,就是我們?nèi)粘W畛R姷?,在互?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候,相機不可能是靜止不動的,它往往也會隨著人去移動,只是和相冊比起來,相冊的圖片比較離散,視頻里面的這種采集,相對更連續(xù)一些,但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作,叫Human3R。這個工作的這個初衷是,我們能不能夠?qū)崟r地,并且前用前饋式的方式同時重建人和場景,并且只用一個模型。

這邊是結(jié)果,右下角是一個電影場景,我們可以看到隨著這個電影場景的播放,這個場景本身是可以重建出來的,包括場景中人的姿態(tài)我們也可以很準確地預(yù)測出來,并且不同人體的tracking也可以做到。這整個重建的pipeline,我們可以做到實時15 FPS,8GB顯存占用,所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建,很重要的一個原因是為了更好地理解人的行為。我舉一個例子,其實你其實很難單純從動作里面看到,一個人究竟在做什么。但是如果我們把場景也給到你,你就可以非常清晰地看出來,這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建,因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone,Everywhere,All at Once,是借鑒了楊紫瓊老師的電影Everything,Everywhere,All at Once。這個名字是我起的,我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢?首先我們只有一個模型,沒有很多個part,one model,而且one stage。我們也是 one shot,也就是說不需要一個人一個人地出,我們是所有人一塊出。另外我們整個訓練只需要一張GPU,訓一天就可以了。五個one,all at once,一股腦地、實時地把所有結(jié)果全部跑出來。

我們的輸入就是一個普通的單目視頻,輸出包括一個全局坐標系下的人體姿態(tài),包括三維場景重建以及camera pose。

我們這個工作和之前的工作,最大的差別是什么?我們把之前的很多工作總結(jié)了一下,大概就是這樣的范式,它們都是multi stage。比如我給一個視頻,首先要做detection,檢測到人的bounding box,然后對每個bounding box里面的人做tracking,拿到trajectory,再然后每個人都要做HMR(Human Mesh Recovery),都要跑出一個人體的pose,同時我們還要做整個場景的深度估計,還要做分割,要預(yù)測相機的pose。最后所有的這些,場景的點云,人的pose,全部要放到一個框架里面進行聯(lián)合優(yōu)化,整個流程基本上都要跑幾個小時。

這是大家之前的做法。我們現(xiàn)在把這些非常復雜的流程全部砍掉,只用一個模型,一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā),它是一個online的4D重建工作,圖片一張一張往里面進,整個4D的場景,包括人,包括物,一幀一幀地重建,都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章,它也是在一個非常大規(guī)模的數(shù)據(jù)上訓練的。我們?nèi)绻猣rom scratch去訓練的話,也同樣需要大量的數(shù)據(jù)。但是問題在于,其實人和場景交互沒有那么多的數(shù)據(jù),我們可能可以拿到很多的3D場景數(shù)據(jù),但是很難拿到一個場景和人都在,而且場景和人的深度交互也都有的數(shù)據(jù),所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到,上面所有帶雪花的都是CUT3R原始的backbone,我們沒有改動,因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch,專門從這個場景里面read out出人的點云,然后read out出這個人體的pose。然后我們還借鑒了VPT(Visual-Prompt Tuning),這樣可以非常高效地做微調(diào),就可以實現(xiàn)一天、一張GPU,把這個模型給訓出來,而且達到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個3DPW(3D Pose in the Wild)的場景,兩個人在一條路上行走,你可以看到這個人的軌跡是非常平滑的,整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測,這個人跑一圈,最后整個場景和人是不是也都能重建出來?效果其實也是比較滿意的。這是在一個相對長程的場景里,這是一個實驗室,你可以看到隨著這個人在各個房間里面走動,最后整個房間被重建出來,然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case,一個電影場景,兩個人,不光做pose,人的ID也可以同時做跟蹤,而且隨著視頻跑得越來越多,整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預(yù)測和ground truth之間的對比,黑色的影子就是 ground truth,藍色的就是人體估計的動作,大家可以看到幾乎是嚴絲合縫的,我們的準確性是非常高的。

當然也有一些failure case,這是比較經(jīng)典的一個,因為我們這個方法還是前饋式的,就是一步到位把所有結(jié)果給到你,沒有任何后續(xù)的優(yōu)化,所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里,或者腳跑到地底下穿模,這種情況還是有的。以及如果這個人在和場景交互的同時,還和一些物體交互,比如說拿了一把吉他,那這個吉他相當于也是一個動態(tài)的,那這種情況我們目前沒有辦法建模,只能在處理的過程中我們把這個東西摳掉,只做靜態(tài)場景和人的重建,動態(tài)場景目前沒法處理。

這里可以順勢講一下,其實我們認為這個工作有個非常自然的extension,就是把Everyone,Everywhere,All at Once,拓展成Everything,Everyone,Everywhere All at Once,人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模,然后只做 6D pose,也可以online地去把這物體重建出來。那這個問題怎么解決呢?各位老師如果感興趣的話,一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢?因為我是做數(shù)字人的,這其實是一個比較悲傷的事情,我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大,正在迎刃而解。比如Human3R,簡單來講,我們拿了一個有場景感知能力的視覺基礎(chǔ)模型,稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作,叫KaoLRM,他們拿object centric的LRM,去做臉部的重建,和之前的方法相比,在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是,可能未來數(shù)字人的很多重建任務(wù),慢慢都會變?yōu)橐粋€基礎(chǔ)模型的微調(diào)任務(wù)。

剛才講的三個工作我們?nèi)慷奸_源了,也在網(wǎng)站上提供了一些可以交互的demo,歡迎大家去我們的網(wǎng)站上使用下載,如果有bug也可以和我講,我們盡快修復。

最后summarize一下,我們今天講了三個工作。第一個是三維形象重建UP2You,主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶,怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器,就好像交流電變直流電一樣,我們把臟數(shù)據(jù)變成干凈數(shù)據(jù),重建的問題就更好解決。

第二個工作是三維體型估計ETCH,我們和之前的工作不一樣的點是,之前做相關(guān)任務(wù)是從一個幾何視角出發(fā)的,把衣服當成皮膚,然后去做fitting。而我們是解剖學視角,我們希望拿到衣服之下那個真實人體的、解剖學正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度,我們叫它Thightness Vector,等變緊度向量。

第三個是Human3R,人和場景的實時動態(tài)重建。之前的工作都是先分后總,先做人,再做場景,然后人和場景聯(lián)合優(yōu)化,非常費時費力。我們的思路反過來,先總后分,先拿到一個大的重建結(jié)果,然后再從這個大的重建結(jié)果里面,一點一點把我們需要的,比如人體的pose或者物體的pose給讀出來,最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教,我們實驗室主要還是做關(guān)于人的一切,我們做人臉,做人體,做人和物的交互,人和場景的交互,人和人的交互,我們做衣服,我們做肌肉,我們做骨骼,做靜態(tài)的人、動態(tài)的動作,我們都會做,只要是和人相關(guān)的,都是我們研究的重點,另外,小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學,實習生,RA,PhD以及 Postdoc,所以如果大家對我們的工作感興趣,歡迎后續(xù)跟蹤我們的最新進展,也歡迎加入我們一起干,謝謝。

雷峰網(wǎng)文章

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
許晴一看就老了,竟然還沒張凱麗顯年輕!

許晴一看就老了,竟然還沒張凱麗顯年輕!

草莓解說體育
2026-01-07 09:12:50
中方是否計劃采取行動幫助馬杜羅夫婦獲釋?外交部回應(yīng)

中方是否計劃采取行動幫助馬杜羅夫婦獲釋?外交部回應(yīng)

新京報政事兒
2026-01-07 15:41:25
李在明也沒想到,訪華僅3天,59歲妻子竟憑一個舉動給他長臉了

李在明也沒想到,訪華僅3天,59歲妻子竟憑一個舉動給他長臉了

浮光驚掠影
2026-01-08 00:49:35
演員閆學晶陷輿論爭議,遭網(wǎng)友集體抵制!兒子發(fā)聲:網(wǎng)上所有回應(yīng)都不實

演員閆學晶陷輿論爭議,遭網(wǎng)友集體抵制!兒子發(fā)聲:網(wǎng)上所有回應(yīng)都不實

現(xiàn)代快報
2026-01-07 17:23:46
馬杜羅有救了?48小時內(nèi),中方兩次要求放人,特朗普對華作出承諾

馬杜羅有救了?48小時內(nèi),中方兩次要求放人,特朗普對華作出承諾

近史博覽
2026-01-07 11:39:25
比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

攬星河的筆記
2026-01-07 19:21:08
南京“一混凝土攪拌車撞電動兩輪車致3死1傷”事故,調(diào)查報告公布

南京“一混凝土攪拌車撞電動兩輪車致3死1傷”事故,調(diào)查報告公布

澎湃新聞
2026-01-07 16:30:26
中國留學生講述“日本梅毒擴散”:東京病例下降,但其他城市病例增多,自己接受檢測被口頭告知結(jié)果

中國留學生講述“日本梅毒擴散”:東京病例下降,但其他城市病例增多,自己接受檢測被口頭告知結(jié)果

極目新聞
2026-01-07 15:34:59
馬杜羅拘留單間內(nèi)部情景曝光:洗手池和廁所一體,有多道鐵門隔離

馬杜羅拘留單間內(nèi)部情景曝光:洗手池和廁所一體,有多道鐵門隔離

史料布籍
2026-01-07 22:33:34
“一個杯子開15次會”?小米徐潔云:至少開了16次

“一個杯子開15次會”?小米徐潔云:至少開了16次

三言科技
2026-01-07 22:29:04
3大國家保密中成藥:中風急救、心??祻停难艿淖o身符!

3大國家保密中成藥:中風急救、心??祻?,心血管的護身符!

展望云霄
2025-12-25 21:39:14
伊朗···美國可能護送巴列維進入并接管能源等

伊朗···美國可能護送巴列維進入并接管能源等

邵旭峰域
2026-01-08 09:50:03
人一定要大量讀書:否則你弱到連說話、吵架都不會

人一定要大量讀書:否則你弱到連說話、吵架都不會

木言觀
2026-01-04 15:05:01
不是馬琳!不是王皓!王勵勤背后大招曝光,奧運冠軍或殺回戰(zhàn)場!

不是馬琳!不是王皓!王勵勤背后大招曝光,奧運冠軍或殺回戰(zhàn)場!

籃球看比賽
2026-01-08 11:38:31
凌晨打車22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定價

凌晨打車22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定價

奇思妙想草葉君
2026-01-07 22:36:16
魯比奧一言,美國又倒退到大航海時代了

魯比奧一言,美國又倒退到大航海時代了

新民晚報
2026-01-08 10:06:50
留給大清的時間,真的不多了

留給大清的時間,真的不多了

我是歷史其實挺有趣
2026-01-03 08:50:37
女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結(jié)果曝光:小便困難,毒品呈陽性

女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結(jié)果曝光:小便困難,毒品呈陽性

凡知
2026-01-08 07:46:45
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
廣東外援薩姆納:NBA合同實際到手嚇你一跳 很多人說運動員退役了就會破產(chǎn)

廣東外援薩姆納:NBA合同實際到手嚇你一跳 很多人說運動員退役了就會破產(chǎn)

籃球大圖
2026-01-08 11:53:44
2026-01-08 13:24:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
68296文章數(shù) 656051關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營銷這兩個字都有點惡心

頭條要聞

委內(nèi)瑞拉外長:感謝中方支持

頭條要聞

委內(nèi)瑞拉外長:感謝中方支持

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

不談顛覆與奇跡,智駕企業(yè)還能聊點什么?

態(tài)度原創(chuàng)

親子
游戲
家居
旅游
軍事航空

親子要聞

你別做飯了,讓孩子放學啃綠化帶!寶媽抱怨女兒挑食,曬照后被懟

《星際裂變》EA評測:老工廠游戲迷哈氣了

家居要聞

理性主義 冷調(diào)自由居所

旅游要聞

萬歲山武俠城:與錦上添花文旅簽署“排他協(xié)議”,非與萬歲山合作不再打造武俠類景區(qū)

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

無障礙瀏覽 進入關(guān)懷版