![]()
計(jì)算機(jī)圖形學(xué)、三維視覺、虛擬人、XR 領(lǐng)域,SIGGRAPH 是毫無爭議的 “天花板級會(huì)議”。SIGGRAPH Asia作為 SIGGRAPH 系列兩大主會(huì)之一,每年只接收全球最頂尖研究團(tuán)隊(duì)的成果稿件,代表著學(xué)術(shù)與工業(yè)界的最高研究水平與最前沿技術(shù)趨勢
![]()
我們是淘寶技術(shù) - Meta 技術(shù)團(tuán)隊(duì),在 3D、XR、3D 真人數(shù)字人和三維重建等方向擁有深厚的技術(shù)積累和業(yè)務(wù)沉淀,我們自研了專業(yè)的多視角拍攝影棚,在今年 CVPR 2025 會(huì)議上作為 Highlight Paper 發(fā)表了TaoAvatar,并在淘寶未來旗艦店中實(shí)現(xiàn)了業(yè)內(nèi)首個(gè) 3D 真人導(dǎo)購體驗(yàn),下面視頻展示了杭州西溪園區(qū) C 區(qū)淘寶未來旗艦店的精彩瞬間,歡迎大家到來訪園區(qū)進(jìn)行體驗(yàn)。
![]()
今年我們團(tuán)隊(duì)迎來另一個(gè)重要里程碑:我們撰寫的針對移動(dòng)端的高保真實(shí)時(shí) 3D 數(shù)字人重建與渲染系統(tǒng)論文首次登錄了國際頂級計(jì)算機(jī)圖形學(xué)會(huì)議 SIGGRAPH Asia!這是我們技術(shù)實(shí)力的一次正式 “官宣”,也是我們在 3D/XR 方向長期投入的階段性成果展示。
我們研發(fā)的基于手機(jī)單目視頻生成高保真且可實(shí)時(shí)驅(qū)動(dòng)的 3D 數(shù)字人的系統(tǒng)名叫HRM2Avatar,不同于依賴多相機(jī)陣列或深度硬件的方案,其在普通手機(jī)拍攝條件下重建人物形體、服飾結(jié)構(gòu)以及細(xì)節(jié)級外觀表達(dá),并支持在移動(dòng)設(shè)備上實(shí)時(shí)渲染與動(dòng)畫驅(qū)動(dòng)。系統(tǒng)采用顯式服裝網(wǎng)格與高斯表示相結(jié)合的建模方式:網(wǎng)格提供穩(wěn)定的結(jié)構(gòu)與可控性,高斯則用于呈現(xiàn)褶皺、材質(zhì)和光照變化等細(xì)節(jié),使虛擬人在不同姿態(tài)下依舊保持連續(xù)、自然的外觀表現(xiàn)。此外,基于輕量化推理設(shè)計(jì)與移動(dòng)端渲染優(yōu)化策略,生成的數(shù)字人可在手機(jī)、頭顯等移動(dòng)設(shè)備上流暢運(yùn)行。實(shí)驗(yàn)結(jié)果表明,我們的系統(tǒng)在視覺真實(shí)感、跨姿態(tài)一致性以及移動(dòng)端實(shí)時(shí)渲染之間取得了良好平衡。
![]()
- 論文主頁:https://acennr-engine.github.io/HRM2Avatar/
- TaoAvatar 主頁:https://pixelai-team.github.io/TaoAvatar/
- Taobao3D GitHub 倉庫:https://github.com/alibaba/Taobao3D
- MNN GitHub 倉庫:https://github.com/alibaba/MNN
問題定義
![]()
HRM2Avatar整體框架
想生成一個(gè)真實(shí)又能動(dòng)的 3D 數(shù)字人,聽起來很酷,但門檻非常高,現(xiàn)在高精度建模方式如 TaoAvatar、CodecAvatar 等,通常需要使用昂貴的三維重建設(shè)備。這些系統(tǒng)確實(shí)效果好,但搭建復(fù)雜、調(diào)試?yán)щy,還很難攜帶出實(shí)驗(yàn)室,普通人幾乎無法自己操作。而我們正是從 “普通人也能用” 的角度出發(fā),重新思考:如何只用一部手機(jī),就能創(chuàng)建和渲染高質(zhì)量 3D 數(shù)字人?
但是僅使用手機(jī)條件下,會(huì)存在多個(gè)關(guān)鍵難題:
- 幾何與局部細(xì)節(jié)缺失:由于手機(jī)拍攝距離遠(yuǎn)、視角有限,衣物褶皺、材質(zhì)結(jié)構(gòu)、頭發(fā)等高頻細(xì)節(jié)難以穩(wěn)定恢復(fù);
- 外觀-動(dòng)作耦合:外觀變化、布料形變、光照變化與姿態(tài)變化混雜,導(dǎo)致姿勢相關(guān)的形變與光照難以獨(dú)立建模;
- 實(shí)時(shí)推理受限:盡管神經(jīng)渲染與 3DGS 表示提升了表達(dá)能力,但許多方法仍依賴高性能桌面級 GPU 實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng),在移動(dòng)端設(shè)備上運(yùn)行仍具有挑戰(zhàn)。
因此,如何在僅依賴手機(jī)單目輸入的條件下,重建高保真、可動(dòng)畫的數(shù)字人,并實(shí)現(xiàn)移動(dòng)端實(shí)時(shí)渲染,仍是一個(gè)尚未充分解決的問題。
方法概覽
基于上述挑戰(zhàn),我們提出了針對移動(dòng)端的高保真實(shí)時(shí) 3D 數(shù)字人重建與渲染系統(tǒng) HRM2Avatar,核心采用兩階段采集方式、顯式衣物網(wǎng)格表示與基于高斯的動(dòng)態(tài)細(xì)節(jié)建模,并結(jié)合面向移動(dòng)端設(shè)備的高效渲染優(yōu)化策略,在保證外觀質(zhì)量與動(dòng)態(tài)表現(xiàn)的同時(shí),實(shí)現(xiàn)從掃描到實(shí)時(shí)驅(qū)動(dòng)的完整重建流程。
![]()
HRM2Avatar 流程概覽
核心模塊包括:
- 手機(jī)掃描采集,采用靜態(tài)與動(dòng)態(tài)結(jié)合的手機(jī)掃描方式,同時(shí)獲取全身結(jié)構(gòu)與局部細(xì)節(jié)變化,為后續(xù)動(dòng)態(tài)建模提供可靠外觀與姿態(tài)變化信號。
- 表征與重建,系統(tǒng)構(gòu)建可動(dòng)畫的穿衣人體模型,并采用顯式網(wǎng)格與高斯的混合表達(dá)方式:網(wǎng)格提供穩(wěn)定的結(jié)構(gòu)與動(dòng)畫一致性,而高斯用于建模隨姿態(tài)變化的細(xì)節(jié)與光照(姿態(tài)相關(guān)的形變和陰影建模),從而在運(yùn)動(dòng)過程中保持材質(zhì)、細(xì)節(jié)與視覺一致性。
- 移動(dòng)端渲染,結(jié)合輕量化推理模型和面向移動(dòng)設(shè)備的渲染優(yōu)化策略,生成的數(shù)字人可在手機(jī)等設(shè)備上實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)與高質(zhì)量顯示
采集與預(yù)處理
系統(tǒng)在進(jìn)入重建階段前,需要將手機(jī)掃描得到的視頻轉(zhuǎn)換為結(jié)構(gòu)一致、可用于建模的輸入數(shù)據(jù),過程包括拍攝協(xié)議相機(jī)與人體參數(shù)初始化,以及服飾網(wǎng)格提取
拍攝協(xié)議
![]()
采集采用雙序列拍攝方式,包括靜態(tài)掃描和動(dòng)態(tài)掃描。靜態(tài)掃描階段,用戶保持相對固定姿態(tài),手機(jī)圍繞身體移動(dòng)拍攝,覆蓋全身結(jié)構(gòu)和局部紋理細(xì)節(jié)。動(dòng)態(tài)掃描階段,用戶執(zhí)行自然動(dòng)作,用于捕捉衣物褶皺、遮擋變化和光照響應(yīng)。該流程無需額外硬件或標(biāo)記,可在單目條件下提供重建與動(dòng)態(tài)建模所需的信號。
初始相機(jī)參數(shù)和姿態(tài)估計(jì)
系統(tǒng)對采集到的靜態(tài)序列和動(dòng)態(tài)序列進(jìn)行處理,以獲得后續(xù)重建所需的相機(jī)參數(shù)和初始人體姿態(tài)估計(jì),其中靜態(tài)序列是核心階段
靜態(tài)序列
![]()
靜態(tài)序列由近景(Close-up)全身(Full-body)兩類圖像組成,它們承擔(dān)不同但互補(bǔ)的作用:
- 全身幀
全身視角提供穩(wěn)定的人體輪廓與結(jié)構(gòu),使系統(tǒng)能夠估計(jì)初始人體姿態(tài)參數(shù)。該姿態(tài)不僅用于靜態(tài)階段的重建,還作為動(dòng)態(tài)序列處理時(shí)的參考姿態(tài)來源。
- 近景幀
此類幀主要覆蓋局部區(qū)域,如頭部、胸部或衣物細(xì)節(jié),視野中人體結(jié)構(gòu)比例有限,因此通常無法檢測到可靠的人體關(guān)鍵點(diǎn),也無法直接推斷出合理姿態(tài)。然而,這些圖像對于恢復(fù)高頻紋理和幾何區(qū)域至關(guān)重要。為了使這些幀參與建模,我們對近景與全身幀聯(lián)合運(yùn)行SfM,并利用跨尺度視角一致性來穩(wěn)定近景幀的相機(jī)軌跡。
通過聯(lián)合利用近景與全身幀,系統(tǒng)既獲得了穩(wěn)定的相機(jī)軌跡,也為后續(xù)網(wǎng)格重建與動(dòng)態(tài)建模奠定了可靠的初始化條件。
動(dòng)態(tài)序列
在動(dòng)態(tài)序列中,系統(tǒng)不再更新形體參數(shù),而是直接使用靜態(tài)階段得到的 SMPL-X身體參數(shù)作為固定模板。在此基礎(chǔ)上,僅對每一幀估計(jì)姿態(tài)變化,用于捕獲隨動(dòng)作產(chǎn)生的衣物變形、遮擋變化和光照響應(yīng)。
服飾網(wǎng)格提取
![]()
HRM2Avatar 服飾網(wǎng)格提取流程
在獲得相機(jī)與姿態(tài)初始化后,系統(tǒng)從靜態(tài)序列中構(gòu)建可動(dòng)畫的穿衣人體網(wǎng)格。這一過程包括以下步驟:
1.幾何重建,使用靜態(tài)序列圖像運(yùn)行 NeuS2,生成服飾表面的幾何代理,用于提供連續(xù)且高質(zhì)量的體表結(jié)構(gòu)。
2.服裝區(qū)域提取,通過語義分割引導(dǎo)從代理幾何中提取衣物區(qū)域,確保服飾邊界清晰,避免身體與衣物表面混合。
3.重拓?fù)渑c蒙皮綁定,對提取的服飾網(wǎng)格進(jìn)行重網(wǎng)格化,并將其轉(zhuǎn)移至與身體一致的蒙皮權(quán)重體系,使其具備一致的動(dòng)畫控制結(jié)構(gòu)。
4.綁定對齊,將綁定后的網(wǎng)格逆皮膚回歸到綁定模板姿態(tài),得到拓?fù)涓蓛?、結(jié)構(gòu)一致、可綁定動(dòng)畫的最終服飾網(wǎng)格。
生成的穿衣人體網(wǎng)格作為幾何基底參與后續(xù)混合表示學(xué)習(xí),并用于支持姿態(tài)變化下的外觀建模與實(shí)時(shí)動(dòng)畫驅(qū)動(dòng)。
實(shí)時(shí)可驅(qū)動(dòng)的數(shù)字人重建
為了重建實(shí)時(shí)可驅(qū)動(dòng)的數(shù)字人,我們著重從混合表示,幾何生成,動(dòng)態(tài)光照建模,訓(xùn)練流程,輕量網(wǎng)絡(luò)蒸餾五個(gè)方面進(jìn)行了細(xì)致的考慮和設(shè)計(jì)。
混合表示
![]()
HRM2Avatar 混合表達(dá)
在穿衣人體網(wǎng)格上,我們?yōu)槊總€(gè)三角形附著高斯點(diǎn),構(gòu)建混合數(shù)字人表征:
1.高斯位置與綁定
每個(gè)高斯用重心坐標(biāo)和法向在三角形上定位:
![]()
![]()
2.協(xié)方差構(gòu)造
高斯的尺度由三角形雅可比矩陣、旋轉(zhuǎn)和縮放組合得到:
![]()
![]()
3.可見性與語義分區(qū)
每個(gè)高斯關(guān)聯(lián)可見性標(biāo)記,僅在三角形朝向視點(diǎn)時(shí)參與渲染?;谡Z義分割,將高斯分為兩個(gè)區(qū)域:
- 頭發(fā)區(qū)域,使用 3DGS 建模軟性過渡,
- 非頭發(fā)區(qū)域,使用 2DGS 貼合網(wǎng)格表面。
該混合表示在保持結(jié)構(gòu)約束的同時(shí),為后續(xù)姿態(tài)相關(guān)的形變與光照建模提供了可控的高斯參數(shù)空間。
幾何生成
![]()
HRM2Avatar 幾何生成模塊
![]()
其中偏移量定義為:
![]()
![]()
動(dòng)態(tài)光照建模
![]()
HRM2Avatar動(dòng)態(tài)光照建模
人體姿態(tài)變化會(huì)導(dǎo)致光照分布發(fā)生變化,例如陰影位置偏移、局部亮度變化等。為建模這種隨動(dòng)作變化的光照效應(yīng),我們引入一個(gè)輕量化的單通道姿態(tài)相關(guān)光照項(xiàng),用于描述運(yùn)動(dòng)驅(qū)動(dòng)的光照變化特征。
渲染過程中,高斯的外觀屬性會(huì)與該光照項(xiàng)進(jìn)行調(diào)制,最終顏色計(jì)算如下:
![]()
![]()
訓(xùn)練流程
![]()
HRM2Avatar訓(xùn)練流程
系統(tǒng)的完整優(yōu)化過程如圖所示。訓(xùn)練階段同時(shí)使用近景與全身圖像作為監(jiān)督信號,其中近景提供更強(qiáng)的外觀約束,全身圖像用于保持整體一致性。模型渲染結(jié)果與輸入圖像通過多種監(jiān)督方式進(jìn)行對齊,包括:
- 顏色一致性監(jiān)督,
- 語義掩碼約束,
- 身體與服飾區(qū)域的碰撞約束,
- 幾何與參數(shù)平滑正則化。
在優(yōu)化策略上,高斯屬性、幾何偏移與光照參數(shù)從零開始訓(xùn)練,而相機(jī)姿態(tài)與人體姿勢只進(jìn)行輕量微調(diào),用于消除殘余配準(zhǔn)誤差,而非重新估計(jì)結(jié)構(gòu)。經(jīng)過訓(xùn)練,系統(tǒng)得到姿態(tài)無關(guān)的高斯表示,以及針對每一幀的幾何形變與光照變化,從而支持后續(xù)實(shí)時(shí)驅(qū)動(dòng)與渲染。
輕量網(wǎng)絡(luò)蒸餾
![]()
HRM2Avatar網(wǎng)絡(luò)蒸餾模塊
在重建階段,我們已經(jīng)獲得了逐幀的姿態(tài)、幾何偏移和光照參數(shù)?;谶@些結(jié)果,我們采用蒸餾方式訓(xùn)練一個(gè)輕量級的預(yù)測網(wǎng)絡(luò),使其學(xué)習(xí)姿態(tài)到幾何形變與光照變化的映射關(guān)系。訓(xùn)練完成后,系統(tǒng)不再依賴逐幀重建數(shù)據(jù),僅輸入姿態(tài)即可實(shí)時(shí)預(yù)測對應(yīng)的幾何偏移與光照參數(shù),從而支持移動(dòng)端的實(shí)時(shí)驅(qū)動(dòng)與渲染。
高性能移動(dòng)端實(shí)時(shí)渲染
為了實(shí)現(xiàn)移動(dòng)端實(shí)時(shí)運(yùn)行,我們對渲染階段進(jìn)行了系統(tǒng)性優(yōu)化,包括層級裁剪、高效投影、量化排序和基于顯卡硬件的加速渲染。該設(shè)計(jì)避免了傳統(tǒng) 3DGS 渲染中高帶寬、高冗余計(jì)算的瓶頸,使最終數(shù)字人能夠在手機(jī)上穩(wěn)定運(yùn)行。
![]()
HRM2Avatar實(shí)時(shí)渲染模塊
層級裁剪
為了盡量減少無效高斯的冗余計(jì)算,系統(tǒng)采用多級裁剪策略:
- 網(wǎng)格級視錐裁剪(CPU 側(cè)):剔除完全不在視野范圍內(nèi)的身體部件;
- 三角片級背面裁剪(GPU 側(cè)):丟棄背對攝像機(jī)的三角面;
- 高斯級視錐裁剪(GPU 側(cè)):進(jìn)一步剔除不可見的高斯實(shí)例。
這種多級裁剪方式顯著減少了需要參與排序與渲染的高斯數(shù)量,極大地提升了渲染效率。
投影
對于參與渲染的高斯點(diǎn),我們采用基于需求的精簡投影流程:
- 按需解碼存儲(chǔ)塊,避免一次性展開全部數(shù)據(jù);
- 優(yōu)先提取空間位置和索引用于可見性判斷;
- 僅對可見高斯點(diǎn)進(jìn)行完整屬性解碼(旋轉(zhuǎn)、尺度、不透明度、球諧系數(shù)等)。
這種按需處理方式有效降低了解碼帶寬開銷。
排序
渲染高斯需要按深度順序合成。我們采用量化排序以提升效率:
- 將連續(xù)深度范圍映射至緊湊區(qū)間;
- 使用 16 Bit 或 12 Bit 深度存儲(chǔ)替代 32Bit 浮點(diǎn);
- 結(jié)合 GPU 并行 Radix Sort 與硬件 Wave 操作加速排序。
- 該方法在保持排序精度的同時(shí),大幅減少排序負(fù)擔(dān)和顯存帶寬使用。
渲染
最終渲染階段使用 GPU 的硬件柵格化,對每個(gè)高斯生成面元并進(jìn)行屏幕合成。為進(jìn)一步提升性能和視覺質(zhì)量,我們采用:
- 自適應(yīng)面元縮放:在保證外觀一致的前提下縮小面元面積;
- 基于透明度修剪:剔除貢獻(xiàn)極小的邊界像素;
- 反向透明度估計(jì):根據(jù)高斯分布推斷最小必要面元尺寸。
這些策略使系統(tǒng)在有限算力環(huán)境下仍能保持高質(zhì)量渲染。
通過上述優(yōu)化,數(shù)字人渲染不依賴實(shí)時(shí)體渲染混合或高開銷著色器,而采用緊湊、高度可并行、緩存友好的繪制方式,最終達(dá)成在移動(dòng)端平臺(tái)上的實(shí)時(shí)表現(xiàn)。
結(jié)果展示
AR|MR效果
![]()
與現(xiàn)有方法對比
我們在自構(gòu)的服飾人體數(shù)據(jù)上對HRM2Avatar進(jìn)行了系統(tǒng)評測,并與現(xiàn)有單目輸入條件下的可動(dòng)畫數(shù)字人方法進(jìn)行了對比,包括基于隱式場、可動(dòng)畫神經(jīng)表示以及基于高斯表示的方案。對比實(shí)驗(yàn)主要關(guān)注兩個(gè)方面:靜態(tài)重建質(zhì)量與姿態(tài)驅(qū)動(dòng)下的外觀一致性
![]()
從定性結(jié)果可以觀察到,在僅使用單目輸入的條件下,現(xiàn)有方法在衣物邊界、高頻紋理和細(xì)節(jié)區(qū)域(如褶皺、印花、層次結(jié)構(gòu)等)往往表現(xiàn)較弱,容易出現(xiàn)模糊化或紋理漂移,而 HRM2Avatar 依托顯式衣物網(wǎng)格與高斯表示相結(jié)合的結(jié)構(gòu),能夠保持更穩(wěn)定的視覺細(xì)節(jié)和結(jié)構(gòu)表達(dá)。尤其在跨視角與跨姿態(tài)驅(qū)動(dòng)條件下,我們的方法在外觀一致性上表現(xiàn)更穩(wěn)定,未出現(xiàn)明顯的拉伸或表面扭曲偽影。
![]()
在客觀指標(biāo)上,我們使用 PSNR、SSIM 和 LPIPS 對方法進(jìn)行量化比較。結(jié)果表明,HRM2Avatar 在所有指標(biāo)上均取得更優(yōu)表現(xiàn):在 LPIPS 上分?jǐn)?shù)更低,而在 PSNR 和 SSIM 上更高,顯示出更清晰的紋理保留和更穩(wěn)定的結(jié)構(gòu)一致性。值得注意的是,即使在新的姿態(tài)條件下,這一優(yōu)勢仍然保持,說明所建模的姿態(tài)相關(guān)的外表建模能夠有效避免紋理漂移并提升跨姿態(tài)一致性。
![]()
我們進(jìn)一步在 Neuman 數(shù)據(jù)集上評估了 HRM2Avatar 的泛化性能。該數(shù)據(jù)集包含更復(fù)雜的服飾結(jié)構(gòu)與動(dòng)態(tài)動(dòng)作模式,可用于驗(yàn)證方法在非自采場景下的適應(yīng)能力。
![]()
![]()
在 Neuman 數(shù)據(jù)集上,我們進(jìn)一步評估了模型的泛化表現(xiàn)。該數(shù)據(jù)集包含更豐富的動(dòng)態(tài)動(dòng)作與服飾外觀變化,可用于檢驗(yàn)?zāi)P驮诜亲圆蓤鼍跋碌姆€(wěn)定性。從定性結(jié)果來看,現(xiàn)有方法在快速動(dòng)作或較大姿態(tài)變化條件下,容易出現(xiàn)紋理模糊、漂移或表面結(jié)構(gòu)不穩(wěn)定等現(xiàn)象,而HRM2Avatar 能保持較為穩(wěn)定的外觀呈現(xiàn),服飾細(xì)節(jié)在動(dòng)作驅(qū)動(dòng)過程中仍具備可辨識(shí)度。同時(shí),在袖口、褶皺等高頻區(qū)域,模型能夠維持視覺上連續(xù)且合理的外觀變化。值得注意的是,即使目標(biāo)姿態(tài)未在掃描序列中出現(xiàn),基于兩階段采集策略學(xué)習(xí)的姿態(tài)相關(guān)的外表建模仍能生成與動(dòng)作一致的外觀響應(yīng),沒有出現(xiàn)明顯視覺斷層或重建不連續(xù)情況。
總體而言,Neuman 數(shù)據(jù)集實(shí)驗(yàn)表明,在具有動(dòng)作變化和服飾結(jié)構(gòu)復(fù)雜性的場景中,模型能夠保持重建外觀與姿態(tài)一致性,并具備跨姿態(tài)條件下的穩(wěn)定表現(xiàn)。
消融實(shí)驗(yàn)
我們進(jìn)一步進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證系統(tǒng)中各個(gè)組成模塊對最終效果的影響。實(shí)驗(yàn)依次移除關(guān)鍵設(shè)計(jì),包括顯式服裝網(wǎng)格、姿態(tài)相關(guān)的外表建模以及兩階段掃描協(xié)議,并在相同條件下比較生成結(jié)果。
![]()
從定性結(jié)果可以看到,當(dāng)移除顯式服裝網(wǎng)格時(shí),重建表面在服飾邊界區(qū)域出現(xiàn)不連續(xù)或拓?fù)淠:那闆r,且局部細(xì)節(jié)難以保持一致。進(jìn)一步移除姿態(tài)相關(guān)的外表建模后,模型在動(dòng)作變化過程中易產(chǎn)生紋理漂移或不穩(wěn)定現(xiàn)象,尤其在手臂抬起等較大姿態(tài)變化階段更為明顯。此外,若不采用兩階段掃描采集策略,僅依賴單序列輸入,模型在訓(xùn)練階段難以獲得可靠的靜態(tài)參考,表現(xiàn)為紋理分辨率下降以及動(dòng)作驅(qū)動(dòng)時(shí)局部外觀變化不合理。
總體來看,消融實(shí)驗(yàn)表明,各設(shè)計(jì)模塊在系統(tǒng)中均發(fā)揮必要作用:顯式服裝網(wǎng)格用于提供穩(wěn)定的拓?fù)浣Y(jié)構(gòu),姿態(tài)相關(guān)的外表建模對于跨姿態(tài)一致性至關(guān)重要,而兩階段掃描策略為重建細(xì)節(jié)和外觀穩(wěn)定性提供有效約束。
性能表現(xiàn)
我們評估了 HRM2Avatar 在移動(dòng)端設(shè)備上的運(yùn)行表現(xiàn),并在 iPhone 15 Pro Max 與 Apple Vision Pro 上進(jìn)行了實(shí)時(shí)驅(qū)動(dòng)測試。實(shí)驗(yàn)使用相同渲染配置,并控制高斯數(shù)量以驗(yàn)證模型在不同數(shù)字人規(guī)模下的運(yùn)行穩(wěn)定性。
![]()
在單個(gè)數(shù)字人配置下(約 53 萬高斯點(diǎn)),系統(tǒng)能夠在 iPhone 15 Pro Max 上以2K 分辨率、120 FPS穩(wěn)定運(yùn)行;多數(shù)字人場景下仍可保持實(shí)時(shí)表現(xiàn),例如同時(shí)渲染三個(gè)數(shù)字人時(shí),可達(dá)到2K@30 FPS。在 Apple Vision Pro 上,系統(tǒng)同樣實(shí)現(xiàn)了2K@90 FPS的實(shí)時(shí)渲染效果。
![]()
我們進(jìn)一步分析了各渲染優(yōu)化策略對系統(tǒng)性能的影響,包括分級裁剪(Hierarchical Culling)、按需屬性解碼(On-demand Decoding)、深度量化排序(Depth Quantization)以及單通道視圖渲染等策略。實(shí)驗(yàn)結(jié)果表明,這些設(shè)計(jì)能夠有效降低計(jì)算與內(nèi)存開銷,使混合的高斯和網(wǎng)格表示能夠在移動(dòng)硬件上實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)。
整體來看,性能測試表明 HRM2Avatar 能夠在移動(dòng)設(shè)備上維持穩(wěn)定的實(shí)時(shí)運(yùn)行表現(xiàn),同時(shí)兼顧高分辨率渲染質(zhì)量與系統(tǒng)響應(yīng)延遲,為實(shí)際交互場景部署提供可行性基礎(chǔ)。
總結(jié)與展望
圍繞“讓普通人也能擁有高質(zhì)量數(shù)字人”這一目標(biāo),我們提出了 HRM2Avatar,一種基于手機(jī)單目掃描,即可生成可動(dòng)畫、高保真數(shù)字人的系統(tǒng)方案。在真實(shí)應(yīng)用場景中,HRM2Avatar 能夠應(yīng)對不同服飾結(jié)構(gòu)、姿態(tài)變化與光照條件,在穩(wěn)定性和一致性方面表現(xiàn)良好,為移動(dòng)端數(shù)字人應(yīng)用提供了可行技術(shù)路徑。
我們也客觀看待當(dāng)前技術(shù)階段,作為一項(xiàng)前沿探索,HRM2Avatar 仍然存在進(jìn)一步優(yōu)化空間。例如對于結(jié)構(gòu)復(fù)雜或非固定拓?fù)涞姆棧ㄈ顼h帶、寬松衣物等),重建精度仍有改善余地,此外在極端光照或動(dòng)態(tài)遮擋場景下,效果仍有提升空間。這些也正是我們下一階段持續(xù)投入攻關(guān)的方向。
HRM2Avatar 并不是 “終點(diǎn)”,而是我們推動(dòng):數(shù)字人從專業(yè)設(shè)備走向普通用戶,從實(shí)驗(yàn)室能力走向真實(shí)應(yīng)用場景過程中的一個(gè)重要里程碑。我們相信,隨著算法、模型工程與硬件能力的共同進(jìn)化,高質(zhì)量、實(shí)時(shí)、可普及的數(shù)字人體驗(yàn),將不再遙遠(yuǎn)。
團(tuán)隊(duì)介紹
我們是大淘寶技術(shù) Meta Team,負(fù)責(zé)面向消費(fèi)場景的 3D/XR 基礎(chǔ)技術(shù)建設(shè)和創(chuàng)新應(yīng)用探索,通過技術(shù)和應(yīng)用創(chuàng)新找到以手機(jī)及 XR 新設(shè)備為載體的消費(fèi)購物 3D/XR 新體驗(yàn)。團(tuán)隊(duì)在端智能、商品三維重建、3D 引擎、XR 引擎等方面有深厚的技術(shù)積累,同時(shí)在 OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI、SIGGRAPH 等頂級學(xué)術(shù)會(huì)議和期刊上發(fā)表了多篇論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.