国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別“黑箱”:LIA-X用稀疏運動字典重定義可控肖像動畫生成

0
分享至

Latent Image Animator (LIA)作為隱式圖像動畫模型的代表性工作,憑借其卓越性能,已成為當(dāng)前音視頻驅(qū)動Talking Head任務(wù)的重要基礎(chǔ)模型。本文介紹由上海AI實驗室與法國Inria聯(lián)合推出的升級框架 --LIA-X。該模型在LIA基礎(chǔ)上進(jìn)行了全面增強,其核心創(chuàng)新在于提出了稀疏運動字典技術(shù),通過自監(jiān)督學(xué)習(xí)實現(xiàn)了運動表征的語義解耦,有效突破了原始LIA在隱空間可控性方面的限制,使得對局部區(qū)域?qū)崿F(xiàn)細(xì)粒度分離控制(如精準(zhǔn)調(diào)控"眨眼"、"嘴角上揚"、"轉(zhuǎn)動頭部"等獨立動作)。實驗證明,LIA-X在肖像動畫任務(wù)的多項指標(biāo)上均達(dá)到當(dāng)前最優(yōu)水平。同時,其單步推理特性,相比基于擴散模型的方案,在生成效率上展現(xiàn)出顯著優(yōu)勢。


論文題目: LIA-X: Interpretable Latent Portrait Animator 論文鏈接: https://arxiv.org/pdf/2508.09959 代碼鏈接: https://github.com/wyhsirius/LIA-X 項目主頁: https://wyhsirius.github.io/LIA-X-project/
一、研究動機

LIA-X的核心目標(biāo)是解決當(dāng)前視頻驅(qū)動肖像動畫(Portrait Animation)領(lǐng)域在可控性與可解釋性方面存在的根本性挑戰(zhàn)?,F(xiàn)有方法主要面臨兩類問題:

  • 基于顯式特征(如人臉關(guān)鍵點、3D模型)的方法,其表示能力受限于預(yù)定義模型,對復(fù)雜表情和未知人物泛化能力不足;

  • 基于隱空間自監(jiān)督學(xué)習(xí)的方法(如LIA),雖能生成高質(zhì)量視頻,但其運動控制機制如同"黑箱",因無法理解每個運動基對應(yīng)的具體語義,難以對輸出結(jié)果進(jìn)行控制。

針對上述問題,LIA-X提出了一種全新的可解釋隱空間肖像動畫框架。該框架首次在自監(jiān)督學(xué)習(xí)范式下,實現(xiàn)了高度可解釋的運動表示與精準(zhǔn)控制。其核心創(chuàng)新在于設(shè)計了稀疏運動字典(Sparse Motion Dictionary),通過將復(fù)雜的面部運動分解為多個正交的基向量,使模型能夠?qū)Ⅱ?qū)動視頻中的復(fù)雜運動自動解耦為若干語義方向的稀疏線性組合(如"眨眼"、"點頭"、"嘴角上揚"等)。這一機制使用戶能夠通過直接調(diào)整不同語義方向的組合系數(shù),直觀、精準(zhǔn)地編輯與控制所生成的動畫效果,實現(xiàn)了從"黑箱生成"到"白盒控制"的范式轉(zhuǎn)變。

二、方法

LIA-X繼承了LIA的核心思想,將顯式運動建模轉(zhuǎn)化為運動編碼在隱空間中的"線性導(dǎo)航(Linear Navigation)",同時提出了通過對語義分解與重組進(jìn)行稀疏化限制,從而實現(xiàn)高度可控的生成結(jié)果。其方法框架主要包括以下三個關(guān)鍵環(huán)節(jié):

2.1 隱空間編碼與語義基底構(gòu)建LIA-X模型框架

LIA-X首先將源圖像 與驅(qū)動圖像 分別編碼至隱空間,得到源編碼 與驅(qū)動編碼 。模型通過隱空間"線性導(dǎo)航",將從源到驅(qū)動的運動編碼表示為:


同時建立一個運動字典(Motion Dictionary) ,即一組可學(xué)習(xí)的正交基底來表示驅(qū)動編碼:


其中,每一個 對應(yīng)一個潛在的語義運動方向; 為對應(yīng)基底的系數(shù)。通過這種線性表示,模型將連續(xù)運動分解為語義基底的線性組合。

2.2 稀疏運動字典與語義解耦

為實現(xiàn)基底的可解釋性與離散化,LIA-X提出稀疏運動字典機制。在訓(xùn)練過程中,通過對系數(shù) 施加稀疏正則項 ,迫使模型僅使用少數(shù)基底重建目標(biāo)運動。其優(yōu)化目標(biāo)為:


其中 為重建函數(shù), 為稀疏權(quán)重。該約束使得每一驅(qū)動輸入僅激活少量具有明確語義的基底(如"嘴角上揚"、"眨眼"等),其余系數(shù)趨近于零,從而實現(xiàn)運動表示的語義解耦。


對比使用稠密(左)與稀疏(右)運動字典對同一視頻重建的系數(shù) 激活圖 2.3 基于語義系數(shù)的可控生成

在生成階段,目標(biāo)隱編碼 通過線性組合源編碼 與稀疏激活的語義基底得到:


其中 為被激活的基底索引集合。用戶可通過編輯系數(shù) 對生成動作進(jìn)行細(xì)粒度控制,例如增強某一語義強度或抑制無關(guān)運動。該方法支持單張圖像與視頻級別的編輯,在保持身份特征的同時可實現(xiàn)高效、精準(zhǔn)的生成。

三、實驗分析

為驗證LIA-X的卓越性能,作者整合了VoxCelebHQ、TalkingHead-1KH、HDTF、MEAD以及內(nèi)部數(shù)據(jù)集進(jìn)行了統(tǒng)一的大規(guī)模訓(xùn)練,數(shù)據(jù)集總計包含0.5M視頻(約55,000個不同ID)。實驗將LIA-X與現(xiàn)有主流方法在肖像動畫與視頻重建兩大任務(wù)上進(jìn)行了系統(tǒng)比較。

3.1 定量分析


定量分析肖像驅(qū)動任務(wù)(左)與視頻重建任務(wù)(右)

結(jié)果表明,在肖像動畫任務(wù)中,LIA-X在256與512兩種分辨率下,幾乎在所有評估指標(biāo)上超越了當(dāng)前SOTA方法,相較于前代LIA模型也實現(xiàn)了顯著性能提升。在視頻重建任務(wù)中,LIA-X在身份保持度與圖像質(zhì)量方面同樣取得了當(dāng)前最優(yōu)的表現(xiàn)。

3.2 定性分析


定性對比LIA-X與當(dāng)前SOTA結(jié)果

定性實驗顯示,LIA-X通過語義基控制能夠生成視覺效果最佳的驅(qū)動結(jié)果。與現(xiàn)有SOTA模型相比,LIA-X能更好地保持源圖像的身份特征,且未出現(xiàn)臉部形變或偽影等問題,展現(xiàn)出優(yōu)異的生成魯棒性。

3.3 可擴展性分析

作者進(jìn)一步分析了LIA-X的可擴展性。在VoxCelebHQ與TalkingHead-1KH數(shù)據(jù)集上的實驗表明,隨著模型參數(shù)規(guī)模的擴大,LIA-X在各項指標(biāo)上均呈現(xiàn)穩(wěn)定提升,顯示出良好的性能擴展?jié)摿?;定性結(jié)果表示,擴大模型規(guī)模可以顯著提高生成細(xì)節(jié)(如牙齒)的質(zhì)量。


在VoxCelebHQ(左)與TalkingHead-1KH(右)定量驗證模型可擴展性


定性分析擴大模型規(guī)模所帶來的視覺效果提升 四、總結(jié)

LIA-X提出了一個具有高度可解釋性的肖像動畫框架,通過引入"稀疏運動字典"這一創(chuàng)新設(shè)計,成功將肖像動畫與可解釋性理論相結(jié)合,實現(xiàn)了模型從"黑盒"到"白盒"的轉(zhuǎn)變。該框架不僅能夠使靜態(tài)畫像生動地"活"起來,更使用戶能夠像操作調(diào)音臺一般,精準(zhǔn)而直觀地"調(diào)配"所需表情與動作。LIA-X的提出標(biāo)志著肖像動畫技術(shù)在交互性與可控性方面取得了新進(jìn)展,為下一代交互式智能內(nèi)容生成提供了潛在的方案。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
垂尾被打掉一大塊,美軍已經(jīng)有7架加油機受損

垂尾被打掉一大塊,美軍已經(jīng)有7架加油機受損

三叔的裝備空間
2026-03-14 13:58:35
紀(jì)實:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長很后怕

紀(jì)實:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長很后怕

談史論天地
2026-03-01 09:49:38
同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
記住作惡者的名字,是對罪惡的一種震懾

記住作惡者的名字,是對罪惡的一種震懾

寄居在世
2026-01-15 19:15:07
特朗普甩鍋,對伊朗開戰(zhàn),聽了3個人意見,對中國還有個“好處”

特朗普甩鍋,對伊朗開戰(zhàn),聽了3個人意見,對中國還有個“好處”

司馬平邦
2026-03-14 19:04:53
巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

一娛三分地
2026-03-12 19:11:45
多地網(wǎng)約車司機,集體拒接海量廉價訂單,司機表示:有苦說不出!

多地網(wǎng)約車司機,集體拒接海量廉價訂單,司機表示:有苦說不出!

侃故事的阿慶
2026-03-14 18:46:27
特朗普宣布對伊朗石油出口樞紐 哈爾克島發(fā)動空襲 美媒:美正向中東增派海軍陸戰(zhàn)隊和軍艦

特朗普宣布對伊朗石油出口樞紐 哈爾克島發(fā)動空襲 美媒:美正向中東增派海軍陸戰(zhàn)隊和軍艦

每日經(jīng)濟(jì)新聞
2026-03-14 13:37:31
功耗直降96%!三星和英偉達(dá)聯(lián)手研發(fā)新閃存,AI驅(qū)動擊碎傳統(tǒng)模式

功耗直降96%!三星和英偉達(dá)聯(lián)手研發(fā)新閃存,AI驅(qū)動擊碎傳統(tǒng)模式

爆角追蹤
2026-03-13 14:12:59
埃及媒體:中國反對美國以所謂“產(chǎn)能過剩”為借口進(jìn)行政治操縱

埃及媒體:中國反對美國以所謂“產(chǎn)能過?!睘榻杩谶M(jìn)行政治操縱

吃貨的分享
2026-03-14 18:48:17
“外交男神”王毅年輕舊照,與妻子罕見同框,岳父曾是周總理秘書

“外交男神”王毅年輕舊照,與妻子罕見同框,岳父曾是周總理秘書

樂趣紀(jì)史
2026-02-04 13:45:32
中國歷史為何從公元前841年才有準(zhǔn)確紀(jì)年?之前的紀(jì)年哪去了?

中國歷史為何從公元前841年才有準(zhǔn)確紀(jì)年?之前的紀(jì)年哪去了?

銘記歷史呀
2026-03-14 13:45:29
為什么突然允許征信修復(fù)?

為什么突然允許征信修復(fù)?

流蘇晚晴
2026-03-03 19:15:22
《逐玉》殺瘋了:港臺第一,東南亞多國第一,韓國第二,日本前五

《逐玉》殺瘋了:港臺第一,東南亞多國第一,韓國第二,日本前五

影像溫度
2026-03-14 10:16:17
6-0橫掃中亞勁旅,韓國昂首晉級2026女足亞洲杯4強+鎖定世界杯席位

6-0橫掃中亞勁旅,韓國昂首晉級2026女足亞洲杯4強+鎖定世界杯席位

側(cè)身凌空斬
2026-03-14 18:52:02
巴拿馬政府喊疼了,希望中國恢復(fù)在巴爾博亞港的運營!

巴拿馬政府喊疼了,希望中國恢復(fù)在巴爾博亞港的運營!

小企鵝侃世界
2026-03-14 10:09:00
理想的壞時刻遠(yuǎn)未結(jié)束

理想的壞時刻遠(yuǎn)未結(jié)束

虎嗅APP
2026-03-14 05:45:12
他生于1946年,已經(jīng)80了,這樣的歲數(shù)這樣的狀態(tài)!就問你服不服?

他生于1946年,已經(jīng)80了,這樣的歲數(shù)這樣的狀態(tài)!就問你服不服?

阿廢冷眼觀察所
2026-03-14 06:47:10
不裝了,瓜帥突爆爭議發(fā)言!曼城很意外,球迷:這是破防了

不裝了,瓜帥突爆爭議發(fā)言!曼城很意外,球迷:這是破防了

阿泰希特
2026-03-14 14:07:36
酒席上遇到這4種情況,放下筷子走人不是迷信,看完叮囑家人

酒席上遇到這4種情況,放下筷子走人不是迷信,看完叮囑家人

美食格物
2026-03-14 02:51:12
2026-03-14 20:03:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
教育
親子
旅游
家居

藝術(shù)要聞

李建鵬:90后第四屆“中國美術(shù)獎”銅獎獲得者

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

親子要聞

萌娃為何覺得自己和大人一樣?聽到答案的大人們繃不住了

旅游要聞

濟(jì)南2026花期預(yù)報來了,帶你精準(zhǔn)打卡春日花海

家居要聞

藝術(shù)之家 法式優(yōu)雅

無障礙瀏覽 進(jìn)入關(guān)懷版