国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<dl id="kagae"></dl>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

西湖大學修宇亮：數(shù)字人重建，慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù) | GAIR 2025

2025-12-31 19:06:07　來源: 雷峰網(wǎng)

北京舉報

0

分享至

雷峰網(wǎng)訊 12月12日，第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天，由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦，高文院士任指導委員會主席，楊強院士與朱曉蕊教授任大會主席。大會共開設(shè)三個主題論壇，聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題，描繪AI最前沿的探索群像，折射學界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學研投界標桿盛會，GAIR自2016年創(chuàng)辦以來，始終堅守 “傳承+創(chuàng)新” 內(nèi)核，是 AI 學界思想接力的陣地、技術(shù)交流的平臺，更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革，歲末年初 GAIR 如約而至，以高質(zhì)量觀點碰撞，為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場，西湖大學助理教授，遠兮實驗室負責人修宇亮進行了以《走出蠟像館，交互新世界：開拓三維數(shù)字人研究新疆域》為主題的演講，分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作，分別為 UP2You，ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點，如何從無限制的日常采集圖像（如手機相冊）出發(fā)，進行高精度的三維重建，是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間，提出了第一套，先圖生文，再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應(yīng)用，但效率非常低，DreamBooth和SDS（Score Distillation Sampling）漫長的微調(diào)和優(yōu)化流程，導致單個數(shù)字人建模任務(wù)需要3至4個小時。

遠兮實驗室的最新成果UP2You，將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片，在此基礎(chǔ)上套用已有的多視角重建算法，實現(xiàn)提效。

相較于傳統(tǒng)方案，UP2You的優(yōu)勢，一是快——從一坨臟數(shù)據(jù)中，只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人；二是多多益善——用數(shù)量換質(zhì)量，重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié)，“無論圖片有多臟，這個方案只要保證圖片源源不斷灌進來，更細節(jié)的幾何和更完整的紋理，就可以立竿見影。”

修宇亮分享的第二項工作名為ETCH，旨在從穿衣服的人物三維掃描中，得到解剖學上正確的內(nèi)部人體。由于此前的其他嘗試，很少建模人體和衣服之間的厚度，往往直接將最外層服裝視為人體皮膚來做人體模型擬合，這就導致擬合結(jié)果普遍偏胖。而ETCH則是通過等變向量，定義了衣服和皮膚之間的厚度關(guān)系，從而獲得更準確的內(nèi)部人體結(jié)構(gòu)，而且由于旋轉(zhuǎn)等變性的引入，也可以大大減少訓練數(shù)據(jù)。在今年的ICCV上，ETCH獲評Highlight Paper。

最后一項工作名為Human3R，旨在實現(xiàn)人物及場景的實時動態(tài)重建。“你很難只從人體動作出發(fā)，就看懂人在做什么”，修宇亮解釋，“但如果把場景也給到你，語義就相對清晰。”

據(jù)介紹，Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預(yù)測、追蹤的基礎(chǔ)上，可以做到實時15FPS 的推理，8GB顯存占用。這意味著僅需一張商用GPU，即可實現(xiàn)SOTA級性能。單張顯卡訓一天，單個模型跑一遍，多人跟蹤實時出，場景還更準了些。

為了實現(xiàn)這一點，Human3R基本保留了CUT3R的 backbone，同時新增了一條人體回歸的分支，借鑒了VPT（Visual-Prompt Tuning）策略，以實現(xiàn)高效微調(diào)，這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎(chǔ)上，對人體相關(guān)的幾何信息解碼成 SMPL，場景在這里，可以視為一種上下文，保證人體被正確的放置到場景中。

展望未來，修宇亮最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務(wù)迎刃而解?！皵?shù)字人的重建任務(wù)，慢慢都會變成基礎(chǔ)模型的微調(diào)任務(wù)?！毙抻盍林赋觥?/p>

以下為修宇亮的現(xiàn)場演講內(nèi)容，雷峰網(wǎng)進行了不改變原意的編輯整理：

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館，交互新世界》，起這個題目的主要原因是，在我看來，數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài)，就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài)，怎么讓這個人可以活靈活現(xiàn)地動起來，這是兩個非常關(guān)鍵的問題。

我今天分享的有三個工作。第一個工作是關(guān)于三維形象重建，怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH，如果我們已經(jīng)拿到了一個高精度的，穿著衣服的人體幾何建模，怎么能夠再從這里拿到一個解剖學上正確的內(nèi)部的人體結(jié)構(gòu)？第三個是Human3R，我們往往要把人的行為放到一個場景里才能更好地理解，所以我們最新的工作Human3R，就是把人和場景放到一起去做重建。

在講之前，我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結(jié)一下。我們以相機和人動不動作為量綱，比如Snapshot這個數(shù)據(jù)集，它是相機靜止，但是人在運動著的數(shù)據(jù)，綠色就是運動，紅色就是靜止，那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻，它也是相機靜止，人在運動。當然這件事也可以反過來。我們也可以讓人固定不動，讓相機進行轉(zhuǎn)動。這邊這個就是，因為要保持人的穩(wěn)定，就加了兩個三腳架做人的姿態(tài)固定，這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集，從單個相機來看，它是相機固定，人在動的情況。如果我們把具體的某一時刻的多相機采集結(jié)果拿出來看，就又變成了一個相機在動，但是人靜止的情況。也就是本質(zhì)上來講，密集陣列相機采集能夠work，還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的，就是單張圖片，相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題，如果相機是動的，人也是動的，我們有沒有辦法去做重建？我給出一個例子，手機相冊，實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服，其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例，然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下，我們能不能夠把重建這個事情給做了？這就是我博士期間開始研究的一個問題。

這個問題的難點在哪呢？坦誠地講，我們不算是第一個來嘗試解決這個問題的。最早一個相關(guān)工作就是Photo Tourism，做場景重建的同學或者老師肯定知道。比如我要重建巴黎圣母院，這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來，嘗試去跑SFM（Structure from Motion），拿到相機位姿，然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢？因為巴黎圣母院是不會動的。它燒了之后當然形變了，但它沒燒之前是不形變的，永遠是那個樣子，所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景，人的動作是會動的，相機也是動的，你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn)，于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的，一句話就可以講清楚。我們首先嘗試把這些圖片壓成token，或者說壓縮成文字，然后我們再做文生3D，就這么簡單，這是個非常符合直覺的做法。然后人分很多個part，我們有上衣、褲子、臉，為了保證從圖像到文字的壓縮是無損的，我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后，首先嘗試去做分割，這樣就可以分割出一堆褲子、一堆臉、一堆鞋，然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學習到一個文生圖模型里。比如臉是asset 01，上衣是asset 02，以此類推，這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D，因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式，我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程，先嘗試恢復幾何，然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了，我們就嘗試固定幾何，再跑它的紋理，這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢？因為我們相當于把所有圖片都壓縮成文字了，那就可以做這樣的事情。大家可以看到，左側(cè)是我的圖片，右側(cè)是我同事的圖片，都壓縮成文字之后，文字之間是可以進行交換的。那我們就做最簡單的事情，比如我的shirt叫A shirt，她的shirt叫B shirt，我們做一下交換，我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務(wù)，虛擬試衣。同時因為我的所有圖像都壓縮成文字了，文字是很容易編輯的，我們可以把褲子改成牛仔褲，或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理，所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題，就是這個工作是沒有辦法落地的，因為它時間非常長。如果訓過DreamBooth，或者用過SDS的肯定知道，這兩個流程是曠日持久。在那種普通的GPU上，DreamBooth大概微調(diào)要一個小時左右，SDS 優(yōu)化要3個小時，那4個小時出一個人，這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作，嘗試把這個時間從4個小時壓縮到了1.5分鐘。

我們嘗試了一種全新的思路去做這個問題。直白來講，PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字，然后從文字恢復3D。現(xiàn)在我們換了一種思路，就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data，把它洗干凈。什么叫洗干凈呢？洗干凈就是說，把這些圖片全轉(zhuǎn)化成多視角的正交圖片，像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的，你可以套用任何現(xiàn)有的多視角重建算法，很快就能出來我們想要的結(jié)果，所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務(wù)，就好像是你拿了一個卡片相機，圍著一個動的人不斷地拍。拍下來的圖片，我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片，包括RGB，包括法向，我們就可以重建出質(zhì)量比較高的數(shù)字人。這個工作叫UP2You，UP是unconstrained photos的縮寫，you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片，首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形，也就是這個人到底胖還是瘦。有了這個大概的人體形狀，我們就可以渲染出多視角的法向圖。接下來的問題就是，我有一些法向圖控制人體姿態(tài)，我又有一些臟臟的圖片，它們定義了這個人的外表，那我們怎么把這兩個結(jié)合起來，最后生成一個多視角的圖像？

關(guān)鍵就是這個Correlation Map。它是做啥的呢？簡單地講，就是我現(xiàn)在給你一個人體的pose，我需要按需去取這上面的像素，拿到每一張臟圖片和這個姿態(tài)之間的相關(guān)性。大家看右邊的可視化，可以看出來，當這個姿態(tài)是一個正面姿態(tài)的時候，那些圖像的正面部分，權(quán)重或者置信度就會相對高。那這個人不斷旋轉(zhuǎn)，置信度也在不斷變化，這個模塊非常非常關(guān)鍵。

我們這個方法最大的優(yōu)勢是什么呢？這也是一個我特別喜歡的性質(zhì)，就是隨著輸入圖片的增多，重建質(zhì)量可以穩(wěn)定地變好。換句話來講，我們輸入的是大量非常臟的圖片，但無論它有多臟，只要能夠保證源源不斷地輸入圖片，最后重建的質(zhì)量就可以穩(wěn)定變好，多多益善。

中間就是我們的重建結(jié)果。最右邊是光場掃描的一個ground truth，你可以看到一張圖片的結(jié)果、兩張圖片，十張圖片，隨著輸入圖片的增多，我能拿到這個人的外表、正面、反面、背面、側(cè)面，我能拿到的信息更全面，那理論上講我們也可以恢復出更好的幾何和紋理。

我們的整個訓練是在合成數(shù)據(jù)上完成的，所以我們也測試了在真實場景下的效果。這是我們實驗室的同學，我們用他們隨便拍的照片做測試，發(fā)現(xiàn)也是可以泛化的。這是第一個工作，UP2You，主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結(jié)構(gòu)，怎么拿到解剖學正確的內(nèi)部人體結(jié)構(gòu)？今年ICCV，我們這項工作被選為了Highlight Paper。簡單來說，我們這個任務(wù)就是將一個參數(shù)化的人體模型，最常見的比如SMPL?X或者 MHR，想辦法把它準確塞到三維掃描里。

這個準確怎么定義呢？大家可以看到，這張圖最左邊是原始的輸入，一個三維掃描的穿衣服人體建模，藍色部分是真實的人體。用之前一些方法拿到的結(jié)果，你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單，之前我們分不清到底是衣服還是內(nèi)部皮膚，所以我們只能把衣服當成皮膚，然后去做body fitting，最后得到的結(jié)果往往就是偏胖。而第四個fitting，就是我們現(xiàn)在方案的結(jié)果。

在這個工作里，我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關(guān)系，把這個厚度關(guān)系減掉，就可以把衣服剝離，這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline，首先是掃描，在上面做均勻的采樣變成點云，對于每個點，我們找到一個指向內(nèi)部人體的向量，我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker，然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺，過程也非?？?，大概幾秒鐘就可以搞定。這邊是一些最后的人體擬合結(jié)果。你會看到第三列的紅色、黃色，其實就是定義了衣服到底距離人體有多遠。

我們應(yīng)該是第一個嘗試用向量來定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢？因為如果用向量，我們就可以利用旋轉(zhuǎn)等變性來訓練這個網(wǎng)絡(luò)。那為什么要用旋轉(zhuǎn)等變性呢？因為這樣訓練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā)，簡單來講它的輸入是裸體的人，我們做的是穿著衣服的點云，但其實問題本質(zhì)上是比較相似的。衣服有非剛體形變，所以我們的旋轉(zhuǎn)等變性并不完美，但我們依然可以利用這樣的性質(zhì)，大大減少訓練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集，往往相機和人只能動一個，而我們?nèi)粘Ｏ鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況，就是我們?nèi)粘Ｗ畛Ｒ姷?，在互?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候，相機不可能是靜止不動的，它往往也會隨著人去移動，只是和相冊比起來，相冊的圖片比較離散，視頻里面的這種采集，相對更連續(xù)一些，但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作，叫Human3R。這個工作的這個初衷是，我們能不能夠?qū)崟r地，并且前用前饋式的方式同時重建人和場景，并且只用一個模型。

這邊是結(jié)果，右下角是一個電影場景，我們可以看到隨著這個電影場景的播放，這個場景本身是可以重建出來的，包括場景中人的姿態(tài)我們也可以很準確地預(yù)測出來，并且不同人體的tracking也可以做到。這整個重建的pipeline，我們可以做到實時15 FPS，8GB顯存占用，所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建，很重要的一個原因是為了更好地理解人的行為。我舉一個例子，其實你其實很難單純從動作里面看到，一個人究竟在做什么。但是如果我們把場景也給到你，你就可以非常清晰地看出來，這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建，因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone，Everywhere，All at Once，是借鑒了楊紫瓊老師的電影Everything，Everywhere，All at Once。這個名字是我起的，我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢？首先我們只有一個模型，沒有很多個part，one model，而且one stage。我們也是 one shot，也就是說不需要一個人一個人地出，我們是所有人一塊出。另外我們整個訓練只需要一張GPU，訓一天就可以了。五個one，all at once，一股腦地、實時地把所有結(jié)果全部跑出來。

我們的輸入就是一個普通的單目視頻，輸出包括一個全局坐標系下的人體姿態(tài)，包括三維場景重建以及camera pose。

我們這個工作和之前的工作，最大的差別是什么？我們把之前的很多工作總結(jié)了一下，大概就是這樣的范式，它們都是multi stage。比如我給一個視頻，首先要做detection，檢測到人的bounding box，然后對每個bounding box里面的人做tracking，拿到trajectory，再然后每個人都要做HMR（Human Mesh Recovery），都要跑出一個人體的pose，同時我們還要做整個場景的深度估計，還要做分割，要預(yù)測相機的pose。最后所有的這些，場景的點云，人的pose，全部要放到一個框架里面進行聯(lián)合優(yōu)化，整個流程基本上都要跑幾個小時。

這是大家之前的做法。我們現(xiàn)在把這些非常復雜的流程全部砍掉，只用一個模型，一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā)，它是一個online的4D重建工作，圖片一張一張往里面進，整個4D的場景，包括人，包括物，一幀一幀地重建，都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章，它也是在一個非常大規(guī)模的數(shù)據(jù)上訓練的。我們?nèi)绻猣rom scratch去訓練的話，也同樣需要大量的數(shù)據(jù)。但是問題在于，其實人和場景交互沒有那么多的數(shù)據(jù)，我們可能可以拿到很多的3D場景數(shù)據(jù)，但是很難拿到一個場景和人都在，而且場景和人的深度交互也都有的數(shù)據(jù)，所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到，上面所有帶雪花的都是CUT3R原始的backbone，我們沒有改動，因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch，專門從這個場景里面read out出人的點云，然后read out出這個人體的pose。然后我們還借鑒了VPT（Visual-Prompt Tuning），這樣可以非常高效地做微調(diào)，就可以實現(xiàn)一天、一張GPU，把這個模型給訓出來，而且達到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個3DPW（3D Pose in the Wild）的場景，兩個人在一條路上行走，你可以看到這個人的軌跡是非常平滑的，整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測，這個人跑一圈，最后整個場景和人是不是也都能重建出來？效果其實也是比較滿意的。這是在一個相對長程的場景里，這是一個實驗室，你可以看到隨著這個人在各個房間里面走動，最后整個房間被重建出來，然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case，一個電影場景，兩個人，不光做pose，人的ID也可以同時做跟蹤，而且隨著視頻跑得越來越多，整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預(yù)測和ground truth之間的對比，黑色的影子就是 ground truth，藍色的就是人體估計的動作，大家可以看到幾乎是嚴絲合縫的，我們的準確性是非常高的。

當然也有一些failure case，這是比較經(jīng)典的一個，因為我們這個方法還是前饋式的，就是一步到位把所有結(jié)果給到你，沒有任何后續(xù)的優(yōu)化，所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里，或者腳跑到地底下穿模，這種情況還是有的。以及如果這個人在和場景交互的同時，還和一些物體交互，比如說拿了一把吉他，那這個吉他相當于也是一個動態(tài)的，那這種情況我們目前沒有辦法建模，只能在處理的過程中我們把這個東西摳掉，只做靜態(tài)場景和人的重建，動態(tài)場景目前沒法處理。

這里可以順勢講一下，其實我們認為這個工作有個非常自然的extension，就是把Everyone，Everywhere，All at Once，拓展成Everything，Everyone，Everywhere All at Once，人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模，然后只做 6D pose，也可以online地去把這物體重建出來。那這個問題怎么解決呢？各位老師如果感興趣的話，一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢？因為我是做數(shù)字人的，這其實是一個比較悲傷的事情，我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大，正在迎刃而解。比如Human3R，簡單來講，我們拿了一個有場景感知能力的視覺基礎(chǔ)模型，稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作，叫KaoLRM，他們拿object centric的LRM，去做臉部的重建，和之前的方法相比，在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是，可能未來數(shù)字人的很多重建任務(wù)，慢慢都會變?yōu)橐粋€基礎(chǔ)模型的微調(diào)任務(wù)。

剛才講的三個工作我們?nèi)慷奸_源了，也在網(wǎng)站上提供了一些可以交互的demo，歡迎大家去我們的網(wǎng)站上使用下載，如果有bug也可以和我講，我們盡快修復。

最后summarize一下，我們今天講了三個工作。第一個是三維形象重建UP2You，主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶，怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器，就好像交流電變直流電一樣，我們把臟數(shù)據(jù)變成干凈數(shù)據(jù)，重建的問題就更好解決。

第二個工作是三維體型估計ETCH，我們和之前的工作不一樣的點是，之前做相關(guān)任務(wù)是從一個幾何視角出發(fā)的，把衣服當成皮膚，然后去做fitting。而我們是解剖學視角，我們希望拿到衣服之下那個真實人體的、解剖學正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度，我們叫它Thightness Vector，等變緊度向量。

第三個是Human3R，人和場景的實時動態(tài)重建。之前的工作都是先分后總，先做人，再做場景，然后人和場景聯(lián)合優(yōu)化，非常費時費力。我們的思路反過來，先總后分，先拿到一個大的重建結(jié)果，然后再從這個大的重建結(jié)果里面，一點一點把我們需要的，比如人體的pose或者物體的pose給讀出來，最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教，我們實驗室主要還是做關(guān)于人的一切，我們做人臉，做人體，做人和物的交互，人和場景的交互，人和人的交互，我們做衣服，我們做肌肉，我們做骨骼，做靜態(tài)的人、動態(tài)的動作，我們都會做，只要是和人相關(guān)的，都是我們研究的重點，另外，小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學，實習生，RA，PhD以及 Postdoc，所以如果大家對我們的工作感興趣，歡迎后續(xù)跟蹤我們的最新進展，也歡迎加入我們一起干，謝謝。

雷峰網(wǎng)文章

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

三亞一游客稱被司機誘導就餐，4道海鮮1868元，職能部門：會積極處理

環(huán)球網(wǎng)資訊 2026-01-07 13:36:42
9956 跟貼 9956
黃鶴樓景區(qū)應(yīng)修北門？建議來了

極目新聞 2026-01-06 10:23:04
819 跟貼 819

中國2025年12月外匯儲備為33578.69億美元

每日經(jīng)濟新聞 2026-01-07 16:17:05
2027 跟貼 2027

調(diào)查顯示日本2026年約1.5萬種食品將漲價

財聯(lián)社 2026-01-07 19:58:11
4494 跟貼 4494
18號線未獲批 14號線東延暫無法建設(shè)

南方都市報 2026-01-08 07:05:19
31 跟貼 31

午后突變！貴金屬，全線跳水！

證券時報 2026-01-07 14:55:07
402 跟貼 402

七旬大爺拍攝“素顏巴黎”爆火：巴黎鐵塔像電線塔、塞納河像水溝。真實畫風顛覆“浪漫之都”印象

封面新聞 2026-01-07 15:49:09
249 跟貼 249
王毅將訪問非洲4國

財聯(lián)社 2026-01-07 09:26:33
56 跟貼 56

一男子高速開車呼呼大睡，20公里后撞了！這功能很多司機愛用，看得人膽戰(zhàn)心驚

新民晚報 2026-01-07 20:31:44
392 跟貼 392
遼寧：專項集中整治中小學（幼兒園）教師違規(guī)收受禮品禮金

新京報 2026-01-07 18:00:32
234 跟貼 234
一人中542萬大獎，目前尚未聯(lián)系，兌獎期限不足12小時！

浙江之聲 2026-01-07 17:47:56
650 跟貼 650
突傳消息！毛戈平和妻子、姐姐等擬套現(xiàn)14億港元！“用于投資，改善個人生活等”

海峽網(wǎng) 2026-01-08 09:09:01
32 跟貼 32
WTT多哈冠軍賽|蒯曼王藝迪林詩棟三戰(zhàn)零封對手國乒打響新賽季開門紅

揚子晚報 2026-01-08 12:20:42
1 跟貼 1
班凱羅30+14打板三分絕殺魔術(shù)加時賽險勝籃網(wǎng)

北青網(wǎng)-北京青年報 2026-01-08 11:50:01
2 跟貼 2
比亞迪繼續(xù)穩(wěn)坐新能源榜首，海外市場表現(xiàn)強勁

藍鯨新聞 2026-01-08 11:55:26
4 跟貼 4
向新向優(yōu)發(fā)展，中國經(jīng)濟向好

金臺資訊 2026-01-08 06:40:04
17 跟貼 17
殲-35開啟新年第一飛媒體揭秘試飛機為何是"綠皮機"

央視新聞 2026-01-08 09:21:10
0 跟貼 0
國內(nèi)多條航線機票價格“大跳水” 1折機票來了

環(huán)球網(wǎng)資訊 2026-01-08 11:26:53
0 跟貼 0
幼兒園員工被指粗暴對待幼兒江西奉新通報：辭退處理責令整頓

新京報 2026-01-08 13:00:08
0 跟貼 0
南充：這個樓盤破產(chǎn)清算后仍處于停工狀態(tài)！業(yè)主盼能盡快重啟

路人市井生活 2026-01-08 12:55:07
0 跟貼 0
特朗普指示美國退出“不符合該國利益”的66個國際組織

環(huán)球網(wǎng)資訊 2026-01-08 06:29:06
0 跟貼 0

許晴一看就老了，竟然還沒張凱麗顯年輕！

許晴一看就老了，竟然還沒張凱麗顯年輕！

草莓解說體育

2026-01-07 09:12:50

中方是否計劃采取行動幫助馬杜羅夫婦獲釋？外交部回應(yīng)

中方是否計劃采取行動幫助馬杜羅夫婦獲釋？外交部回應(yīng)

新京報政事兒

2026-01-07 15:41:25

李在明也沒想到，訪華僅3天，59歲妻子竟憑一個舉動給他長臉了

李在明也沒想到，訪華僅3天，59歲妻子竟憑一個舉動給他長臉了

浮光驚掠影

2026-01-08 00:49:35

演員閆學晶陷輿論爭議，遭網(wǎng)友集體抵制！兒子發(fā)聲：網(wǎng)上所有回應(yīng)都不實

演員閆學晶陷輿論爭議，遭網(wǎng)友集體抵制！兒子發(fā)聲：網(wǎng)上所有回應(yīng)都不實

現(xiàn)代快報

2026-01-07 17:23:46

馬杜羅有救了？48小時內(nèi)，中方兩次要求放人，特朗普對華作出承諾

馬杜羅有救了？48小時內(nèi)，中方兩次要求放人，特朗普對華作出承諾

近史博覽

2026-01-07 11:39:25

比田樸珺更瀟灑！王石邀請眾人到家打牌聚餐，3位美女暗送秋波

比田樸珺更瀟灑！王石邀請眾人到家打牌聚餐，3位美女暗送秋波

攬星河的筆記

2026-01-07 19:21:08

南京“一混凝土攪拌車撞電動兩輪車致3死1傷”事故，調(diào)查報告公布

南京“一混凝土攪拌車撞電動兩輪車致3死1傷”事故，調(diào)查報告公布

澎湃新聞

2026-01-07 16:30:26

中國留學生講述“日本梅毒擴散”：東京病例下降，但其他城市病例增多，自己接受檢測被口頭告知結(jié)果

中國留學生講述“日本梅毒擴散”：東京病例下降，但其他城市病例增多，自己接受檢測被口頭告知結(jié)果

極目新聞

2026-01-07 15:34:59

馬杜羅拘留單間內(nèi)部情景曝光：洗手池和廁所一體，有多道鐵門隔離

馬杜羅拘留單間內(nèi)部情景曝光：洗手池和廁所一體，有多道鐵門隔離

史料布籍

2026-01-07 22:33:34

“一個杯子開15次會”？小米徐潔云：至少開了16次

“一個杯子開15次會”？小米徐潔云：至少開了16次

三言科技

2026-01-07 22:29:04

3大國家保密中成藥：中風急救、心?？祻停难艿淖o身符！

3大國家保密中成藥：中風急救、心?？祻?，心血管的護身符！

展望云霄

2025-12-25 21:39:14

伊朗···美國可能護送巴列維進入并接管能源等

伊朗···美國可能護送巴列維進入并接管能源等

邵旭峰域

2026-01-08 09:50:03

人一定要大量讀書：否則你弱到連說話、吵架都不會

人一定要大量讀書：否則你弱到連說話、吵架都不會

木言觀

2026-01-04 15:05:01

不是馬琳！不是王皓！王勵勤背后大招曝光，奧運冠軍或殺回戰(zhàn)場！

不是馬琳！不是王皓！王勵勤背后大招曝光，奧運冠軍或殺回戰(zhàn)場！

籃球看比賽

2026-01-08 11:38:31

凌晨打車22公里收98元？乘客拒付耗到天亮，的哥委屈：是政府定價

凌晨打車22公里收98元？乘客拒付耗到天亮，的哥委屈：是政府定價

奇思妙想草葉君

2026-01-07 22:36:16

魯比奧一言，美國又倒退到大航海時代了

魯比奧一言，美國又倒退到大航海時代了

新民晚報

2026-01-08 10:06:50

留給大清的時間，真的不多了

我是歷史其實挺有趣

2026-01-03 08:50:37

女網(wǎng)紅流落柬埔寨后續(xù)，醫(yī)生檢查結(jié)果曝光：小便困難，毒品呈陽性

女網(wǎng)紅流落柬埔寨后續(xù)，醫(yī)生檢查結(jié)果曝光：小便困難，毒品呈陽性

凡知

2026-01-08 07:46:45

唐嫣在國外很豪放！穿連體衣下面不系扣，難道不好好穿衣就時髦？

唐嫣在國外很豪放！穿連體衣下面不系扣，難道不好好穿衣就時髦？

章眽八卦

2026-01-05 12:27:07

廣東外援薩姆納：NBA合同實際到手嚇你一跳很多人說運動員退役了就會破產(chǎn)

廣東外援薩姆納：NBA合同實際到手嚇你一跳很多人說運動員退役了就會破產(chǎn)

籃球大圖

2026-01-08 11:53:44

雷峰網(wǎng)

關(guān)注智能與未來！

68296文章數(shù) 656051關(guān)注度

往期回顧全部

科技要聞

雷軍：現(xiàn)在聽到營銷這兩個字都有點惡心

頭條要聞

委內(nèi)瑞拉外長：感謝中方支持

頭條要聞

委內(nèi)瑞拉外長：感謝中方支持

體育要聞

約基奇倒下后，一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經(jīng)要聞

微軟CTO韋青：未來人類會花錢"戒手機"

汽車要聞

不談顛覆與奇跡，智駕企業(yè)還能聊點什么？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

游戲

家居

旅游

軍事航空

親子要聞

你別做飯了，讓孩子放學啃綠化帶！寶媽抱怨女兒挑食，曬照后被懟

《星際裂變》EA評測：老工廠游戲迷哈氣了

家居要聞

理性主義冷調(diào)自由居所

溫暖色調(diào) 大空間不冷清
溫潤質(zhì)感打造干凈空間
歐式風格純粹優(yōu)雅氣質(zhì)

旅游要聞

萬歲山武俠城：與錦上添花文旅簽署“排他協(xié)議”，非與萬歲山合作不再打造武俠類景區(qū)

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<blockquote id="igm00"></blockquote>

<li id="igm00"><menu id="igm00"></menu></li>