国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中科大發(fā)布Live Avatar:AI數(shù)字人無(wú)限聊天不翻車

0
分享至

你愿意和一個(gè)數(shù)字人視頻通話嗎?如果它的嘴型、表情跟說(shuō)話的聲音完美配合,宛如真人。而且這場(chǎng)對(duì)話可以持續(xù)幾個(gè)小時(shí)甚至更久,這個(gè)數(shù)字人始終保持著同一張臉、同樣的膚色,不會(huì)突然變臉或者出現(xiàn)詭異的色彩偏差。


2025年12月,中科大和阿里巴巴的研究團(tuán)隊(duì),發(fā)布了一項(xiàng)名為L(zhǎng)ive Avatar的突破性技術(shù)。這項(xiàng)研究的核心成果是:他們成功讓一個(gè)擁有140億參數(shù)的大規(guī)模AI模型,實(shí)現(xiàn)了實(shí)時(shí)、無(wú)限時(shí)長(zhǎng)的高清數(shù)字人視頻生成。簡(jiǎn)單來(lái)說(shuō),就是讓超級(jí)大腦也能實(shí)時(shí)說(shuō)話,而且可以一直說(shuō)下去,不會(huì)越說(shuō)越糟糕。

為什么讓數(shù)字人無(wú)限聊天這么難?

讓AI生成的數(shù)字人持續(xù)說(shuō)話,究竟難在哪里?

你可以把AI生成視頻想象成一個(gè)特別挑剔的廚師在做飯。這位廚師(AI模型)需要一道菜一道菜地做(一幀一幀地生成畫(huà)面),而且每道菜都要和前面的菜完美搭配(保持視覺(jué)連貫性)。問(wèn)題來(lái)了:如果這位廚師要連續(xù)做幾百道菜,甚至上千道菜呢?

第一個(gè)大麻煩是速度。目前最厲害的AI視頻生成技術(shù)叫擴(kuò)散模型,它的工作原理有點(diǎn)像用橡皮擦慢慢擦掉一幅畫(huà)上的涂鴉。想象一下,一幅被完全涂花的畫(huà),AI需要一點(diǎn)一點(diǎn)地把雜亂的涂鴉擦掉,最終還原出清晰的圖像。這個(gè)擦除過(guò)程需要反復(fù)進(jìn)行很多次(通常幾十次甚至上百次),每次都要讓整個(gè)超大模型運(yùn)算一遍。對(duì)于140億參數(shù)的模型來(lái)說(shuō),這簡(jiǎn)直就像讓一頭大象跳芭蕾舞,雖然理論上可能,但實(shí)際操作起來(lái)慢得讓人抓狂。結(jié)果就是,生成一秒鐘的視頻可能需要好幾秒甚至更長(zhǎng)時(shí)間,完全無(wú)法實(shí)時(shí)使用。

第二個(gè)大麻煩是記憶衰退。當(dāng)數(shù)字人持續(xù)生成視頻時(shí),就像一個(gè)人在不斷地復(fù)印復(fù)印件。你可能玩過(guò)這個(gè)游戲:把一張紙復(fù)印一份,再把復(fù)印件復(fù)印一份,如此反復(fù)。最后你會(huì)發(fā)現(xiàn),字跡變得越來(lái)越模糊,甚至面目全非。AI生成長(zhǎng)視頻時(shí)也會(huì)出現(xiàn)類似的問(wèn)題,數(shù)字人可能慢慢變臉,膚色可能漸漸偏移,整體畫(huà)面質(zhì)量也會(huì)逐漸下降。這種現(xiàn)象被研究者們稱為身份漂移和色彩偏差。


在Live Avatar之前,市面上的技術(shù)要么只能做到實(shí)時(shí)但質(zhì)量一般(因?yàn)橛玫氖切∧P停促|(zhì)量很好但速度太慢(因?yàn)橛玫氖谴竽P停>秃帽饶阒荒苓x擇騎自行車快速到達(dá)目的地,或者坐豪華轎車舒適地慢慢抵達(dá),但沒(méi)法既快又舒適。研究團(tuán)隊(duì)在論文中專門做了一個(gè)對(duì)比表格,展示了目前主流方法的局限:大多數(shù)方法無(wú)法同時(shí)實(shí)現(xiàn)"流式生成"、"實(shí)時(shí)速度"和"無(wú)限時(shí)長(zhǎng)"三個(gè)目標(biāo),而Live Avatar是第一個(gè)全部做到的。

流水線式的聰明解法

那么,Live Avatar是怎么破解這個(gè)難題的呢?研究團(tuán)隊(duì)想出了一個(gè)特別巧妙的辦法,叫做"時(shí)間步流水線并行"(Timestep-forcing Pipeline Parallelism,簡(jiǎn)稱TPP)。


還記得我們說(shuō)過(guò),擴(kuò)散模型生成圖像就像擦除涂鴉嗎?通常情況下,這個(gè)擦除過(guò)程是串行的,必須先擦第一遍,等擦完了才能開(kāi)始擦第二遍,以此類推。這就像一個(gè)人在流水線上獨(dú)自完成所有工序,效率自然很低。

Live Avatar的做法是:請(qǐng)來(lái)一群幫手,讓每個(gè)人只負(fù)責(zé)一道工序。具體來(lái)說(shuō),他們用了5塊高性能顯卡(H800 GPU),每塊顯卡只負(fù)責(zé)擦除過(guò)程中的一個(gè)特定步驟。比如說(shuō),如果整個(gè)擦除過(guò)程需要4步,那么第一塊顯卡只做第一步(把涂鴉從最亂擦到稍微清晰一點(diǎn)),第二塊顯卡只做第二步(繼續(xù)擦得更清晰),以此類推。最后一塊顯卡負(fù)責(zé)把完成的畫(huà)面解碼成真正的視頻畫(huà)面。

這樣一來(lái),當(dāng)?shù)谝粔K顯卡處理完一幀畫(huà)面的第一步,它就可以把半成品傳遞給第二塊顯卡,然后立刻開(kāi)始處理下一幀畫(huà)面的第一步。與此同時(shí),第二塊顯卡在處理第一幀的第二步,第三塊顯卡可能在處理更早一幀的第三步……就像真正的工廠流水線一樣,每塊顯卡都在不停地忙碌,沒(méi)有人需要等待。

這個(gè)方法有一個(gè)特別關(guān)鍵的細(xì)節(jié):每塊顯卡都有自己的"記憶本"(KV緩存),記錄著它處理過(guò)的歷史信息。而且,每塊顯卡的記憶本只記錄同樣"擦除程度"的信息。這聽(tīng)起來(lái)有點(diǎn)奇怪,為什么要這樣設(shè)計(jì)呢?

研究團(tuán)隊(duì)專門做了實(shí)驗(yàn)來(lái)回答這個(gè)問(wèn)題。他們發(fā)現(xiàn),讓AI看著"同樣模糊程度"的歷史信息來(lái)處理當(dāng)前畫(huà)面,效果比看著"完全清晰"的歷史信息要好。這可能是因?yàn)锳I在訓(xùn)練時(shí)就是這樣學(xué)習(xí)的,它習(xí)慣了在特定的"模糊度"下工作,突然給它太清晰的參考反而會(huì)讓它困惑。就好比一個(gè)習(xí)慣戴眼鏡看譜的鋼琴家,你突然給他換成高清大屏幕顯示,他反而可能彈錯(cuò)音。

通過(guò)這套流水線系統(tǒng),Live Avatar在5塊顯卡上實(shí)現(xiàn)了每秒20幀的生成速度,這意味著它可以實(shí)時(shí)生成流暢的視頻,你說(shuō)話的同時(shí),數(shù)字人就在同步"說(shuō)話"。更重要的是,這種并行方式幾乎不需要顯卡之間傳輸太多數(shù)據(jù)(只傳遞半成品畫(huà)面,不傳遞記憶本),通信開(kāi)銷非常小,效率極高。

讓數(shù)字人記住自己長(zhǎng)什么樣

解決了速度問(wèn)題,還有一個(gè)更棘手的挑戰(zhàn):如何讓數(shù)字人在長(zhǎng)時(shí)間對(duì)話中保持一致的外貌?

想象你正在畫(huà)一幅連環(huán)畫(huà),每一格都要畫(huà)同一個(gè)人物。如果你畫(huà)了幾百格甚至幾千格,很可能畫(huà)著畫(huà)著就跑偏了,臉型變了一點(diǎn),發(fā)色深了一點(diǎn),背景色調(diào)也不太對(duì)了。AI生成長(zhǎng)視頻時(shí)也會(huì)遇到同樣的問(wèn)題,研究者稱之為"推理模式漂移"和"分布漂移"。

Live Avatar提出了一套叫做"滾動(dòng)錨點(diǎn)幀機(jī)制"(Rolling Sink Frame Mechanism,簡(jiǎn)稱RSFM)的解決方案。這個(gè)名字同樣很學(xué)術(shù),但背后的思想非常直觀。

核心想法是:給AI一張"標(biāo)準(zhǔn)照",讓它在整個(gè)生成過(guò)程中不斷參考這張照片,確保畫(huà)出來(lái)的人物始終像照片上的樣子。但這里有兩個(gè)精妙的設(shè)計(jì)。


第一個(gè)設(shè)計(jì)叫"自適應(yīng)注意力錨點(diǎn)"(Adaptive Attention Sink,簡(jiǎn)稱AAS)。一開(kāi)始,AI會(huì)參考用戶提供的原始參考圖片。但是,當(dāng)AI生成了第一幀視頻畫(huà)面后,系統(tǒng)會(huì)用這第一幀畫(huà)面來(lái)替換原始參考圖片。為什么要這樣做呢?因?yàn)锳I生成的畫(huà)面和原始照片在風(fēng)格上可能有微妙的差異。如果一直參考原始照片,這種差異會(huì)持續(xù)存在并慢慢累積。但如果參考的是AI自己生成的第一幀,后續(xù)所有畫(huà)面都會(huì)和第一幀保持一致,整體風(fēng)格也就統(tǒng)一了。這就像一個(gè)樂(lè)隊(duì)在演奏時(shí),指揮不是按照樂(lè)譜的節(jié)拍走,而是跟著樂(lè)隊(duì)實(shí)際演奏的節(jié)奏來(lái)調(diào)整,這樣雖然可能和原譜有一點(diǎn)點(diǎn)出入,但整個(gè)演奏會(huì)非常和諧統(tǒng)一。


第二個(gè)設(shè)計(jì)叫"滾動(dòng)位置編碼"(Rolling RoPE)。這涉及到AI如何理解"時(shí)間"的問(wèn)題。AI在處理視頻時(shí),需要知道每一幀畫(huà)面在時(shí)間軸上的位置,這一幀是第1幀還是第1000幀?位置編碼就是告訴AI這個(gè)信息的方式。問(wèn)題是,AI在訓(xùn)練時(shí)只見(jiàn)過(guò)幾分鐘長(zhǎng)度的視頻,它的"時(shí)間尺度"是有限的。如果你讓它處理一個(gè)幾小時(shí)長(zhǎng)的視頻,那些時(shí)間位置數(shù)字會(huì)變得巨大,超出AI的認(rèn)知范圍。

滾動(dòng)位置編碼的解決方案很聰明:它不讓錨點(diǎn)幀的位置數(shù)字固定不變,而是讓它隨著視頻進(jìn)度滾動(dòng)。具體來(lái)說(shuō),錨點(diǎn)幀的位置總是被設(shè)定為當(dāng)前幀位置加上一個(gè)固定偏移。這樣一來(lái),無(wú)論視頻生成到第100幀還是第10000幀,錨點(diǎn)幀和當(dāng)前幀之間的"相對(duì)距離"始終保持在一個(gè)合理的范圍內(nèi),就像一個(gè)永遠(yuǎn)走在你前面固定距離的向?qū)В瑹o(wú)論你走多遠(yuǎn),他都在那個(gè)位置等你。

研究團(tuán)隊(duì)還在訓(xùn)練階段引入了一個(gè)叫歷史污染(History Corrupt)的技術(shù)。這聽(tīng)起來(lái)有點(diǎn)反直覺(jué),為什么要污染歷史信息呢?原因是這樣的:在實(shí)際使用時(shí),AI參考的歷史幀都是它自己生成的,難免有一些小瑕疵;但在訓(xùn)練時(shí),如果給AI參考的都是完美的真實(shí)視頻幀,AI就會(huì)變得嬌氣,一遇到有瑕疵的歷史幀就不知道該怎么辦了。通過(guò)在訓(xùn)練時(shí)故意給歷史幀加一些噪聲,AI學(xué)會(huì)了在"不完美"的條件下依然能做出好的判斷,就像一個(gè)在嘈雜環(huán)境中練習(xí)過(guò)的歌手,到了正式演出時(shí)反而更穩(wěn)定。

兩階段訓(xùn)練:先打基礎(chǔ),再精雕細(xì)琢

Live Avatar的訓(xùn)練過(guò)程分為兩個(gè)階段,就像培養(yǎng)一個(gè)技能一樣,先學(xué)基礎(chǔ)動(dòng)作,再學(xué)高級(jí)技巧。


第一階段叫擴(kuò)散強(qiáng)迫預(yù)訓(xùn)練(Diffusion Forcing Pretraining)。在這個(gè)階段,研究團(tuán)隊(duì)教AI學(xué)會(huì)一個(gè)關(guān)鍵能力:逐塊生成視頻。他們把視頻分成一小塊一小塊的(每塊包含3幀畫(huà)面),讓AI學(xué)會(huì)一次只關(guān)注一塊,同時(shí)參考前面已經(jīng)生成的塊。這就像教一個(gè)人寫(xiě)連載小說(shuō),先學(xué)會(huì)寫(xiě)好每一章,同時(shí)記住前面的劇情,保持故事連貫。

在這個(gè)階段,研究團(tuán)隊(duì)使用了一種特殊的"因果遮罩"策略。簡(jiǎn)單來(lái)說(shuō),就是告訴AI:"你只能看到過(guò)去發(fā)生的事情,不能偷看未來(lái)。"每一塊畫(huà)面在生成時(shí),只能參考它前面的塊,不能參考后面的塊。這確保了AI能夠真正做到"邊走邊生成",而不是必須等整個(gè)視頻都規(guī)劃好才能開(kāi)始。

第二階段叫自強(qiáng)迫分布匹配蒸餾(Self-Forcing Distribution Matching Distillation)。核心思想是:讓AI學(xué)會(huì)偷懶,用更少的步驟完成同樣質(zhì)量的工作。

還記得我們說(shuō)過(guò),擴(kuò)散模型生成圖像需要反復(fù)"擦除涂鴉"很多次嗎?在第一階段訓(xùn)練完后,AI還是需要很多步驟才能生成高質(zhì)量的畫(huà)面。第二階段的目標(biāo)就是把這個(gè)步驟數(shù)大幅壓縮,從幾十步壓縮到只要4步。

這種壓縮不是簡(jiǎn)單的加速,而是一種知識(shí)轉(zhuǎn)移,學(xué)術(shù)上叫蒸餾。想象一下,有一個(gè)經(jīng)驗(yàn)豐富的老師傅(原始的多步模型),做一道菜需要慢工出細(xì)活,走很多步驟。現(xiàn)在要訓(xùn)練一個(gè)學(xué)徒(蒸餾后的少步模型),讓他用更少的步驟做出同樣好吃的菜。方法是:讓學(xué)徒先嘗試做菜,然后讓老師傅品嘗評(píng)價(jià),告訴學(xué)徒哪里做得不夠好。學(xué)徒根據(jù)反饋調(diào)整,反復(fù)練習(xí),最終學(xué)會(huì)了用更簡(jiǎn)潔的方法達(dá)到同樣的效果。

研究團(tuán)隊(duì)發(fā)現(xiàn),這種蒸餾過(guò)程不僅加快了速度,還意外地提升了畫(huà)面質(zhì)量。這個(gè)發(fā)現(xiàn)和之前一些研究的結(jié)論一致,蒸餾過(guò)程中使用的"分布匹配"損失函數(shù),某種程度上起到了類似"強(qiáng)化學(xué)習(xí)"的作用,能夠優(yōu)化模型的美學(xué)表現(xiàn)和整體質(zhì)量。就好比學(xué)徒在學(xué)習(xí)老師傅技藝的過(guò)程中,居然發(fā)展出了一些老師傅都沒(méi)有的新技巧。

真實(shí)效果如何?

說(shuō)了這么多技術(shù)細(xì)節(jié),Live Avatar的實(shí)際表現(xiàn)到底怎么樣呢?研究團(tuán)隊(duì)做了大量的實(shí)驗(yàn)來(lái)驗(yàn)證他們的系統(tǒng)。

首先是速度測(cè)試。在5塊H800顯卡上,Live Avatar實(shí)現(xiàn)了每秒20幀的端到端生成速度,這意味著它可以流暢地實(shí)時(shí)生成視頻。作為對(duì)比,其他使用類似規(guī)模模型的方法,速度通常只有每秒0.16到0.26幀,比Live Avatar慢了將近100倍。有一些方法確實(shí)能達(dá)到實(shí)時(shí)速度(比如Ditto方法能達(dá)到每秒21.8幀),但它們使用的模型規(guī)模只有Live Avatar的七十分之一(2億參數(shù)對(duì)比140億參數(shù)),畫(huà)面質(zhì)量自然也有差距。


關(guān)于畫(huà)面質(zhì)量,研究團(tuán)隊(duì)使用了多個(gè)標(biāo)準(zhǔn)指標(biāo)來(lái)評(píng)估,包括美學(xué)得分(ASE)、圖像質(zhì)量(IQA)、唇形同步度(Sync-C和Sync-D)以及身份一致性(Dino-S)。在短視頻測(cè)試中,Live Avatar的各項(xiàng)指標(biāo)都達(dá)到了競(jìng)爭(zhēng)力水平,與使用相同基礎(chǔ)模型但速度慢100倍的方法相當(dāng)甚至更好。

更令人印象深刻的是長(zhǎng)視頻測(cè)試。研究團(tuán)隊(duì)測(cè)試了7分鐘長(zhǎng)度的視頻生成,發(fā)現(xiàn)Live Avatar在所有指標(biāo)上都大幅領(lǐng)先競(jìng)爭(zhēng)對(duì)手。其他方法在長(zhǎng)時(shí)間生成時(shí)普遍出現(xiàn)明顯的畫(huà)質(zhì)下降,而Live Avatar的畫(huà)面質(zhì)量始終保持穩(wěn)定。論文中的對(duì)比圖清楚地展示了這一點(diǎn):在生成400秒視頻后,其他方法的數(shù)字人或者臉型變了,或者色調(diào)偏了,或者細(xì)節(jié)模糊了;而Live Avatar生成的數(shù)字人依然保持著和開(kāi)始時(shí)一樣的清晰面貌。

研究團(tuán)隊(duì)甚至做了一個(gè)極限測(cè)試:讓系統(tǒng)連續(xù)生成10000秒(將近3小時(shí))的視頻。要知道,他們的模型在訓(xùn)練時(shí)只見(jiàn)過(guò)5秒鐘長(zhǎng)度的視頻片段。按照常理,讓模型處理比訓(xùn)練時(shí)長(zhǎng)幾千倍的內(nèi)容,肯定會(huì)"崩潰"。但實(shí)驗(yàn)結(jié)果顯示,無(wú)論是在10秒、100秒、1000秒還是10000秒的時(shí)間點(diǎn)上采樣,視頻的畫(huà)質(zhì)指標(biāo)幾乎沒(méi)有變化。這證明了滾動(dòng)錨點(diǎn)幀機(jī)制的強(qiáng)大有效性。


除了客觀指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了主觀評(píng)測(cè)。他們邀請(qǐng)了20位參與者,對(duì)各種方法生成的視頻進(jìn)行盲評(píng),從"自然度"、"同步性"和"一致性"三個(gè)維度打分。結(jié)果顯示,雖然有些方法在某些客觀指標(biāo)上表現(xiàn)更好(比如OmniAvatar在唇形同步度指標(biāo)上得分很高),但人類評(píng)審反而給它的打分較低。原因是這些方法為了優(yōu)化客觀指標(biāo),讓數(shù)字人的嘴巴動(dòng)作變得過(guò)于夸張,反而顯得不自然。而Live Avatar在三個(gè)維度上的人類評(píng)分都名列前茅,這說(shuō)明它確實(shí)做到了讓數(shù)字人看起來(lái)自然、同步、一致。

每個(gè)技術(shù)組件的價(jià)值

為了證明每個(gè)技術(shù)組件都是必要的,研究團(tuán)隊(duì)還做了詳細(xì)的消融實(shí)驗(yàn),也就是把各個(gè)組件一個(gè)一個(gè)去掉,看看效果會(huì)變差多少。

關(guān)于流水線并行(TPP),如果去掉這個(gè)設(shè)計(jì),速度會(huì)從每秒20幀降到每秒4幀,減慢了5倍。嘗試用傳統(tǒng)的多GPU并行方式(序列并行)來(lái)代替,也只能達(dá)到每秒5幀,遠(yuǎn)不如TPP高效。這證明了TPP不只是一個(gè)簡(jiǎn)單的工程優(yōu)化,而是一個(gè)真正突破性的系統(tǒng)設(shè)計(jì)。


關(guān)于長(zhǎng)視頻生成的各個(gè)組件,去掉自適應(yīng)注意力錨點(diǎn)后,美學(xué)得分從3.38降到3.13,圖像質(zhì)量從4.73降到4.44;去掉滾動(dòng)位置編碼后,身份一致性分?jǐn)?shù)從0.93降到0.86;去掉歷史污染機(jī)制后,美學(xué)得分更是暴跌到2.90,圖像質(zhì)量降到3.88。這些數(shù)據(jù)清楚地表明,每個(gè)組件都在發(fā)揮重要作用,缺一不可。

研究團(tuán)隊(duì)還專門對(duì)比了"同步驟記憶"和"清晰記憶"兩種策略。所謂同步驟記憶,就是讓AI在處理第N步去噪時(shí),參考?xì)v史幀的第N步中間結(jié)果;清晰記憶則是讓AI始終參考?xì)v史幀的最終清晰版本。實(shí)驗(yàn)結(jié)果令人意外,同步驟記憶在所有指標(biāo)上都優(yōu)于清晰記憶,而且還能支持流水線并行(因?yàn)椴恍枰却龤v史幀完全處理完)。這個(gè)發(fā)現(xiàn)對(duì)于理解擴(kuò)散模型的工作原理很有價(jià)值。

這項(xiàng)技術(shù)能用來(lái)做什么?

Live Avatar的應(yīng)用場(chǎng)景非常廣泛。最直接的應(yīng)用是虛擬主播和數(shù)字人直播。想象一下,一個(gè)24小時(shí)不間斷的新聞播報(bào)數(shù)字人,它可以持續(xù)工作幾個(gè)小時(shí),始終保持一致的形象和高質(zhì)量的畫(huà)面。又或者是在線教育場(chǎng)景中的虛擬教師,能夠?qū)崟r(shí)回答學(xué)生的問(wèn)題,用自然的表情和口型進(jìn)行講解。

另一個(gè)重要應(yīng)用是實(shí)時(shí)視頻通話中的虛擬形象。你可以用自己的聲音說(shuō)話,但屏幕上顯示的是一個(gè)定制的數(shù)字人形象,這在隱私保護(hù)、匿名交流等場(chǎng)景中很有價(jià)值。Live Avatar的實(shí)時(shí)性能意味著這種應(yīng)用可以流暢地進(jìn)行,不會(huì)有明顯的延遲。

研究團(tuán)隊(duì)特意展示了Live Avatar的泛化能力,它不僅能處理真實(shí)人臉,還能驅(qū)動(dòng)卡通角色、動(dòng)畫(huà)人物,甚至是擬人化的非人類對(duì)象。論文中展示的一個(gè)有趣例子是讓一團(tuán)火焰說(shuō)話,火焰的形態(tài)隨著音頻節(jié)奏變化,仿佛真的在開(kāi)口說(shuō)話一樣。這種創(chuàng)造性的應(yīng)用展示了技術(shù)的靈活性和想象空間。

當(dāng)然,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的局限性。雖然TPP大幅提升了幀率(每秒能生成多少幀),但"首幀延遲"(從收到音頻到輸出第一幀畫(huà)面的時(shí)間)并沒(méi)有明顯改善,這在需要極低延遲的交互場(chǎng)景中可能是個(gè)問(wèn)題。另外,系統(tǒng)對(duì)錨點(diǎn)幀機(jī)制的依賴很強(qiáng),在一些復(fù)雜場(chǎng)景中可能影響長(zhǎng)時(shí)間的時(shí)序一致性。團(tuán)隊(duì)表示,未來(lái)會(huì)繼續(xù)研究如何降低延遲和進(jìn)一步提升時(shí)序連貫性。

至頂AI實(shí)驗(yàn)室洞見(jiàn)

Live Avatar研究團(tuán)隊(duì)通過(guò)巧妙的流水線并行系統(tǒng)設(shè)計(jì)和滾動(dòng)錨點(diǎn)幀機(jī)制算法創(chuàng)新,同時(shí)解決了速度和質(zhì)量?jī)蓚€(gè)看似矛盾的問(wèn)題。而且他們的方法具有很強(qiáng)的通用性,同樣的思路可以應(yīng)用到其他需要實(shí)時(shí)生成的AI任務(wù)中。

我們離真假難辨的數(shù)字人又近了一步。未來(lái),你在視頻通話中看到的人,可能是一個(gè)AI驅(qū)動(dòng)的數(shù)字形象,而你完全無(wú)法分辨。這帶來(lái)了便利,也帶來(lái)了新的思考:我們應(yīng)該如何應(yīng)對(duì)這種技術(shù)帶來(lái)的信任問(wèn)題?如何防止技術(shù)被濫用于欺騙?研究團(tuán)隊(duì)在論文中也特別提到了倫理考量,表示他們的技術(shù)僅用于合法的遠(yuǎn)程呈現(xiàn)和交互應(yīng)用,并建議在實(shí)際部署時(shí)采取訪問(wèn)控制和數(shù)字水印等措施。

科技的發(fā)展總是比我們想象的更快。而Live Avatar,正是這個(gè)加速進(jìn)程中的一個(gè)重要節(jié)點(diǎn)。

論文地址:https://arxiv.org/abs/2512.04677v3

本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1:Live Avatar是什么?

A:Live Avatar是由阿里巴巴集團(tuán)聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)等高校研發(fā)的AI數(shù)字人視頻生成技術(shù),它能夠根據(jù)音頻實(shí)時(shí)生成高清數(shù)字人說(shuō)話視頻,而且可以無(wú)限時(shí)長(zhǎng)地持續(xù)生成而不出現(xiàn)畫(huà)質(zhì)下降或"變臉"問(wèn)題。

Q2:Live Avatar需要什么硬件才能運(yùn)行?

A:論文中的實(shí)驗(yàn)使用了5塊NVIDIA H800顯卡才能達(dá)到每秒20幀的實(shí)時(shí)生成速度。這意味著目前它還是一個(gè)需要高端硬件支持的專業(yè)級(jí)技術(shù),短期內(nèi)可能主要用于企業(yè)級(jí)應(yīng)用而非普通消費(fèi)者設(shè)備。

Q3:這項(xiàng)技術(shù)會(huì)不會(huì)被用來(lái)制作"深度偽造"假視頻?

A:這確實(shí)是一個(gè)值得關(guān)注的問(wèn)題。研究團(tuán)隊(duì)在論文中專門討論了倫理考量,強(qiáng)調(diào)技術(shù)僅用于合法用途,并建議采用訪問(wèn)控制和數(shù)字水印等措施來(lái)防止濫用。不過(guò),任何強(qiáng)大技術(shù)都存在被誤用的風(fēng)險(xiǎn),社會(huì)需要在技術(shù)普及的同時(shí)建立相應(yīng)的監(jiān)管和檢測(cè)機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇州“放煙花大軍”跨年點(diǎn)燃湖邊干草,消防員及時(shí)滅火并在旁守候,市民點(diǎn)贊

蘇州“放煙花大軍”跨年點(diǎn)燃湖邊干草,消防員及時(shí)滅火并在旁守候,市民點(diǎn)贊

極目新聞
2026-01-01 19:24:34
為什么,很多子女到了五六十歲后,慢慢對(duì)家里老人變得不孝了?

為什么,很多子女到了五六十歲后,慢慢對(duì)家里老人變得不孝了?

詩(shī)詞中國(guó)
2026-01-01 18:58:07
中國(guó)最珍貴的資源,不是石油,不是稀土,而是北方最常見(jiàn)的黃土層

中國(guó)最珍貴的資源,不是石油,不是稀土,而是北方最常見(jiàn)的黃土層

花花娛界
2026-01-01 15:42:29
西部最新排名:掘金創(chuàng)NBA奇跡,湖人收大禮,快船劍指前十

西部最新排名:掘金創(chuàng)NBA奇跡,湖人收大禮,快船劍指前十

籃球大視野
2026-01-01 16:08:54
凌晨3點(diǎn)屏東以南發(fā)生激烈對(duì)峙,052D不顧阻擾,強(qiáng)行壓向臺(tái)護(hù)衛(wèi)艦

凌晨3點(diǎn)屏東以南發(fā)生激烈對(duì)峙,052D不顧阻擾,強(qiáng)行壓向臺(tái)護(hù)衛(wèi)艦

墨蘭史書(shū)
2025-12-31 04:55:03
“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

蜉蝣說(shuō)
2025-12-23 20:00:55
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

瓜汁橘長(zhǎng)Dr
2025-12-30 17:03:39
戈貝爾:我們到底在不在乎贏球?還是說(shuō)反正掙著大錢就隨意打打

戈貝爾:我們到底在不在乎贏球?還是說(shuō)反正掙著大錢就隨意打打

北青網(wǎng)-北京青年報(bào)
2026-01-01 21:30:23
父親再婚后沒(méi)聯(lián)系,我39歲申請(qǐng)車貸,銀行經(jīng)理:您名下有一賬戶

父親再婚后沒(méi)聯(lián)系,我39歲申請(qǐng)車貸,銀行經(jīng)理:您名下有一賬戶

紅豆講堂
2025-12-23 12:50:05
難受!廣東慘敗,戰(zhàn)術(shù)被限制球星們不會(huì)打球,賽后還有四個(gè)壞消息

難受!廣東慘敗,戰(zhàn)術(shù)被限制球星們不會(huì)打球,賽后還有四個(gè)壞消息

陳赩愛(ài)體育
2026-01-01 21:47:21
高市早苗終于開(kāi)口反思,盼望得到中國(guó)原諒,語(yǔ)氣中透露著羞愧

高市早苗終于開(kāi)口反思,盼望得到中國(guó)原諒,語(yǔ)氣中透露著羞愧

面包夾知識(shí)
2025-12-19 13:07:36
2026 新一輪 “ 國(guó)補(bǔ) ” 開(kāi)搶!網(wǎng)友炸了:準(zhǔn)備集體漲價(jià)?

2026 新一輪 “ 國(guó)補(bǔ) ” 開(kāi)搶!網(wǎng)友炸了:準(zhǔn)備集體漲價(jià)?

科技狐
2025-12-31 23:29:50
52歲朱迅主持跨年晚會(huì),被吐槽像芭比娃娃,網(wǎng)友:給整懵圈了

52歲朱迅主持跨年晚會(huì),被吐槽像芭比娃娃,網(wǎng)友:給整懵圈了

丫頭舫
2026-01-01 21:39:17
上?!笆讏?chǎng)雪”終于來(lái)了,氣溫降至冰點(diǎn),“熱鬧”模式開(kāi)啟,最高峰就在今天

上?!笆讏?chǎng)雪”終于來(lái)了,氣溫降至冰點(diǎn),“熱鬧”模式開(kāi)啟,最高峰就在今天

新民晚報(bào)
2026-01-01 15:21:49
郭可盈在豪宅過(guò)節(jié),與女兒在圣誕樹(shù)前合照,屋內(nèi)燈火通明市值半億

郭可盈在豪宅過(guò)節(jié),與女兒在圣誕樹(shù)前合照,屋內(nèi)燈火通明市值半億

民間平哥
2026-01-01 20:01:39
奇瑞再次否認(rèn)與追覓合作:雙方并未進(jìn)行合作簽約

奇瑞再次否認(rèn)與追覓合作:雙方并未進(jìn)行合作簽約

IT之家
2026-01-01 20:23:11
羽超!15-1橫掃世界第二!臨時(shí)組合19分鐘打崩蔣振邦/魏雅欣

羽超!15-1橫掃世界第二!臨時(shí)組合19分鐘打崩蔣振邦/魏雅欣

小蘭看體育
2026-01-01 20:11:21
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
股民坐穩(wěn)扶好!下周A股2026年行情開(kāi)啟,或?qū)⒅噩F(xiàn)19年歷史行情了?

股民坐穩(wěn)扶好!下周A股2026年行情開(kāi)啟,或?qū)⒅噩F(xiàn)19年歷史行情了?

股市皆大事
2026-01-01 12:10:26
2026-01-01 23:04:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國(guó)

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

頭條要聞

滬漂外國(guó)網(wǎng)紅包丟了報(bào)警 警察到現(xiàn)場(chǎng)后發(fā)現(xiàn)"神秘字條"

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂(lè)要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤(rùn)被網(wǎng)友喊話

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬(wàn)輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

健康
教育
手機(jī)
游戲
藝術(shù)

元旦舉家出行,注意防流感

教育要聞

有些孩子,上了初中就掉線了

手機(jī)要聞

REDMI Note 15 系列新春版開(kāi)售,本月新機(jī)蓄勢(shì)待發(fā)

飛燕群島新動(dòng)作射擊IP公布 設(shè)定在民國(guó)時(shí)期、斧頭幫

藝術(shù)要聞

私房照揭秘:你不知道的陰柔之美!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版