国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻生成三大難題,被智譜這四項開源技術(shù)攻克了

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

過去一周,智譜 GLM 先后開源了多模態(tài)模型家族:從「眼睛看得見」的視覺理解模型 GLM?4.6V,到「手能動起來」的 AutoGLM,再到「語音聽得懂」的 GLM?ASR,與「話能說出口」的 GLM?TTS。

GLM 團隊希望讓大模型逐步擁有人的世界知識、記憶能力、復(fù)雜推理能力,以及擁有多模態(tài)處理能力,最終實現(xiàn) AGI。在一周內(nèi),智譜 GLM 開源了覆蓋視覺理解、設(shè)備操作、語音的多模態(tài)模型,從文本擴展到多模態(tài),不斷探尋智能邊界。

在多模態(tài)開源周的收官之日,智譜 GLM 再開源四項面向視頻生成的核心技術(shù)成果:SCAIL、RealVideo、Kaleido 與 SSVAE。它們對準當(dāng)前視頻生成領(lǐng)域的三大難點:精細化可控生成、復(fù)雜時空結(jié)構(gòu)建模,以及大規(guī)模訓(xùn)練成本控制

SCAIL:影視級角色動畫生成框架,實現(xiàn) SOTA 姿態(tài)控制;

RealVideo:實時流式視頻生成系統(tǒng),僅 2-3 秒首響延遲;

Kaleido:多主體視頻生成框架,一致性開源 SOTA;

SSVAE:頻譜結(jié)構(gòu)化變分自編碼器 VAE,3 倍收斂加速。

智譜 GLM 希望通過開源這四項底層技術(shù),為繁榮的視頻生成技術(shù)社區(qū)、產(chǎn)品社區(qū),提供一些工程方案與理論研究,方便社區(qū)直接復(fù)現(xiàn)與二次開發(fā)。已上線始智AI-wisemodel開源社區(qū),歡迎體驗。


模型地址

https://wisemodel.cn/organization/ZhipuAI

01.

SCAIL:影視級復(fù)雜姿態(tài)控制角色動畫

開源周謝幕之

,來自SCAIL復(fù)雜
姿態(tài)控

姿態(tài)可控角色動畫生成(Pose Controlled Character Animation)可以實現(xiàn)讓一張照片根據(jù)指定動作運動。然而,基于2D骨骼點的傳統(tǒng)方法由于無法編碼深度信息與遮擋關(guān)系,在處理復(fù)雜動作(如空翻、街舞)時,常導(dǎo)致肢體結(jié)構(gòu)崩壞或違反物理規(guī)律。進一步,由于姿態(tài)編碼和姿態(tài)輸入方式的限制,該技術(shù)始終難以實現(xiàn)多人復(fù)雜交互動作的生成,難以面對影視級專業(yè)需求。

智譜與清華劉永進教授課題組合作提出了一套面向影視級標準的角色動畫生成框架SCAIL(Studio-grade Character Animation via In-context Learning),通過識別角色動畫中的關(guān)鍵瓶頸,即姿態(tài)表征與注入機制,解決了生成過程中的時空一致性問題,不僅在單人運動上取得了SOTA效果,更將角色動畫應(yīng)用場景擴展到復(fù)雜多人交互。


3D一致性姿態(tài)表征3D-Consistent Pose RepresentationSCAIL摒棄了傳統(tǒng)的2D關(guān)鍵點或帶有身份 信息 的SMPL Mesh方案。 通過 利用3D關(guān)節(jié)點估計,并在3D空間中將其拓撲結(jié)構(gòu) 光柵化 渲染為柱體 骨骼 。這種表征方式顯式地編碼了深度與遮擋關(guān)系,使模型能夠區(qū)分肢體的前后空間位置,從而在復(fù)雜遮擋場景下保持結(jié)構(gòu)完整 ,并且能夠進行運動信息保持的增強 ( Augmentation ) 和重定向 ( Retarget ) 。

全上下文姿態(tài)注入Full-Context Pose Injection)針對傳統(tǒng)ControlNet或Adapter逐幀控制缺乏全局視野的問題,SCAIL在DiT架構(gòu)中設(shè)計了全上下文注入機制 ,并 在序列維度上通過 Pose-Shifted RoPE (姿態(tài)偏移旋轉(zhuǎn)位置編碼) 區(qū)分控制信號, 迫使模型在生成每一幀時,不僅關(guān)注當(dāng)前時刻,還能對整個動作序列進行時空推理(Spatio-temporal reasoning)。



SCAIL的模型架構(gòu)圖

02.

RealVideo:實時視頻生成對話系統(tǒng)


基于RealVideo和GLM-TTS聲音克隆,一張圖片+三秒語音,即可與AI角色開啟實時對話。

如今,生成式模型已在視聽質(zhì)量上取得驚人突破,但目前主流的視頻生成模型往往延遲很高,需要等待1分鐘以上,才能生成一個5秒左右長度的視頻。

為了解決這一問題,團隊研發(fā)了實時流式視頻生成系統(tǒng)RealVideo。

RealVideo的核心突破在于將視頻生成的首響延遲從數(shù)分鐘大幅壓縮到了2至3秒。正如大家在演示視頻中看到的,用戶只需提供一張靜態(tài)照片并提問,兩三秒后,畫面中的人物就能開始流暢、自然地進行回答。這種低延遲的生成能力,支持輸出長達數(shù)分鐘的連續(xù)對話或演講視頻,讓AI交互從單純的文字或語音對話真正邁向了“實時視頻對話”。

為了實現(xiàn)這一效果,RealVideo在模型架構(gòu)和工程鏈路上進行了以下三項關(guān)鍵改進:

  • 自回歸模型對抗訓(xùn)練:RealVideo 使用了Self-forcing的框架在雙向視頻生成模型作為教師模型的監(jiān)督下可以很快的學(xué)習(xí)到自回歸生成的模式,同時使用了對抗損失進行監(jiān)督,將視頻漂移的問題大幅減少。

  • 滑動注意力窗口與Dynamic Sink RoPE:為了保證實時生成的延遲在可控的范圍內(nèi), RealVideo 使用了滑動窗口的策略,當(dāng)視頻的整體長度大于k時會對之前幀的kv cache進行截斷,從而保證了模型上下文窗口大小為常數(shù),為無限長生成提供了可能。同時Dynamic Sink RoPE策略可以保證相對位置編碼的訓(xùn)練-推理一致,防止人物形象出現(xiàn)漂移。

  • 流水線Pipeline:針對大模型對話、文本轉(zhuǎn)語音、視頻生成、VAE解碼等多個流程搭建了一套流水線并行的管線,將CPU、GPU以及API的運行時間盡可能重疊從而極大的降低了首響延遲且提高了生成幀率。從而達到了實時對話的效果。

03.

Kaleido:多主體一致性生成框架

Kaleido在多主體(如人物+物體)及受控背景下的生成效果

在多主體(Multi-Subject)視頻生成任務(wù)中,現(xiàn)有模型難以在保持多個參考形象一致性的同時,有效提取參考主體的真正身份特征。常見問題是在生成視頻中直接復(fù)制參考圖像,將參考圖中的背景和主體的姿態(tài)等信息誤認為主體身份特征,導(dǎo)致生成的主體運動不夠靈活、表現(xiàn)力不足。

Kaleido 針對多主體生成的挑戰(zhàn),提出了一套從數(shù)據(jù)構(gòu)建到參考信息注入的完整解決方案,在開源模型中達到了SOTA表現(xiàn)。


  • Reference Rotary Positional EncodingR-ROPE:為了在 DiT 架構(gòu)中精確區(qū)分不同的參考圖像與視頻 Token,Kaleido 引入了 R-ROPE 機制。該機制對參考圖像的 Token 進行獨立的旋轉(zhuǎn)位置編碼,通過顯式的空間位移,在注意力計算層面確立了不同主體與視頻幀之間的清晰邊界,有效解決了多主體特征混淆的問題。

  • Cross-Paired 數(shù)據(jù)構(gòu)建管線針對背景糾纏問題,構(gòu)建了包含背景修復(fù)與運動增強的數(shù)據(jù)處理管線,合成了大量跨配對訓(xùn)練數(shù)據(jù)。這一策略強迫模型在訓(xùn)練時必須從參考圖中解耦出主體特征,而非簡單復(fù)制像素,從而大幅提升了背景解耦能力。


Kaleido的模型架構(gòu)圖

04.

SSVAE:基于譜分析的視頻VAE隱空間優(yōu)化

視頻生成模型的訓(xùn)練成本極高,而業(yè)界傳統(tǒng)的視頻VAE優(yōu)化目標主要針對像素級重構(gòu)質(zhì)量。但研究發(fā)現(xiàn),相比于重構(gòu)質(zhì)量,隱變量結(jié)構(gòu)對擴散模型的收斂貢獻更大。

SSVAE(Spectral-Structured VAE)從譜分析的第一性原理出發(fā),揭示了影響擴散模型訓(xùn)練效率的關(guān)鍵統(tǒng)計特性,并據(jù)此優(yōu)化 VAE 的訓(xùn)練目標。

  • 譜特性分析與正則化 :通過大量實驗發(fā)現(xiàn),具有 時空低頻偏置 ( Low-Frequency Bias ) 和通道特征值的 少 模式 偏置 ( Few-Mode Bias ) 的隱空間分布,能顯著加速擴散模型的訓(xùn)練。



  • 訓(xùn)練效率提升實驗數(shù)據(jù)表明,使用SSVAE提取的Latent訓(xùn)練視頻擴散模型,在達到相同生成質(zhì)量的前提下, 收斂速度提升了3倍 。同時,SSVAE僅需1.3B 參數(shù)量的擴散模型 即可在性能上超越 基于Wan 2.2 VAE的 4B參數(shù)量的 擴散模型 。


SSVAE通過譜正則化,在訓(xùn)練收斂速度和 Video Reward 上相對于 Baseline 的顯著提升,超越Wan 2.2 VAE。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
高速服務(wù)區(qū)如何盈利?多數(shù)人只上廁所或接熱水,聽保安怎么說?

高速服務(wù)區(qū)如何盈利?多數(shù)人只上廁所或接熱水,聽保安怎么說?

番外行
2026-03-26 09:00:53
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
擊敗楊柳奪冠!哈利夫此生無法再參加奧運會:僅生物學(xué)女性可參賽

擊敗楊柳奪冠!哈利夫此生無法再參加奧運會:僅生物學(xué)女性可參賽

風(fēng)過鄉(xiāng)
2026-03-26 21:36:40
張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

180視角
2026-03-26 08:43:01
人情世故是怎么學(xué)會的 看網(wǎng)友講述魏忠賢處事方式 思想上一個臺階

人情世故是怎么學(xué)會的 看網(wǎng)友講述魏忠賢處事方式 思想上一個臺階

侃神評故事
2026-03-16 15:10:03
被伊朗打疼了?美以一邊要求停火30天,一邊密集調(diào)動特種部隊!

被伊朗打疼了?美以一邊要求?;?0天,一邊密集調(diào)動特種部隊!

軍武次位面
2026-03-26 14:29:00
學(xué)醫(yī)后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

學(xué)醫(yī)后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

荷蘭豆愛健康
2026-03-23 15:42:28
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂享人生風(fēng)雨
2025-12-28 04:19:13
鵝蛋營養(yǎng)價值驚人,發(fā)現(xiàn):常吃鵝蛋的人,不用多久,或有4個改善

鵝蛋營養(yǎng)價值驚人,發(fā)現(xiàn):常吃鵝蛋的人,不用多久,或有4個改善

垚垚分享健康
2026-03-23 17:30:11
不是試點是強制執(zhí)行!2026村村必建的部門,農(nóng)村這波紅利別錯過

不是試點是強制執(zhí)行!2026村村必建的部門,農(nóng)村這波紅利別錯過

三農(nóng)雷哥
2026-03-26 19:35:03
馬英九真正翻臉原因是鄭麗文聘請王金平為最高顧問,把馬晾在一邊

馬英九真正翻臉原因是鄭麗文聘請王金平為最高顧問,把馬晾在一邊

雪中風(fēng)車
2026-03-26 09:16:02
遲遲都等不到中企復(fù)工,巴拿馬頭號幫手已介入,中方加強港口管制

遲遲都等不到中企復(fù)工,巴拿馬頭號幫手已介入,中方加強港口管制

風(fēng)干迷茫人
2026-03-27 03:38:32
原油危機當(dāng)前,美國三大友國選邊站,歐爾班直言:中國已不可戰(zhàn)勝

原油危機當(dāng)前,美國三大友國選邊站,歐爾班直言:中國已不可戰(zhàn)勝

鐵錘妹妹是只貓
2026-03-27 01:40:41
曝張雪峰心臟驟停ICU搶救,知情人曝搶救細節(jié),微博上線不發(fā)聲

曝張雪峰心臟驟停ICU搶救,知情人曝搶救細節(jié),微博上線不發(fā)聲

古希臘掌管松餅的神
2026-03-24 18:51:41
李鑫拒絕和親姐一起帶貨,結(jié)果養(yǎng)家姐姐等不及了,給自家打起廣告

李鑫拒絕和親姐一起帶貨,結(jié)果養(yǎng)家姐姐等不及了,給自家打起廣告

離離言幾許
2026-03-26 20:58:46
第80波打擊!以色列防空被撕碎,美航母遭襲擊,特朗普惱羞成怒

第80波打擊!以色列防空被撕碎,美航母遭襲擊,特朗普惱羞成怒

介知
2026-03-27 01:21:22
巴爾韋德被禁賽1場,馬競曬裁判報告:同樣的表述不同的標準

巴爾韋德被禁賽1場,馬競曬裁判報告:同樣的表述不同的標準

懂球帝
2026-03-27 03:08:07
為啥一聽說給農(nóng)民漲養(yǎng)老金,就有一群人激烈反對?真相太沉重

為啥一聽說給農(nóng)民漲養(yǎng)老金,就有一群人激烈反對?真相太沉重

復(fù)轉(zhuǎn)這些年
2026-03-14 23:48:05
【2026.3.26】扒醬料不停:那些你不知道的八卦一二三

【2026.3.26】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-03-26 23:36:55
姆巴佩對陣世界排名前10球隊打進17球,法國隊史第1

姆巴佩對陣世界排名前10球隊打進17球,法國隊史第1

懂球帝
2026-03-27 05:16:05
2026-03-27 06:03:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:對伊朗能源設(shè)施空襲再推遲10天

頭條要聞

特朗普:對伊朗能源設(shè)施空襲再推遲10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
本地
數(shù)碼
藝術(shù)
軍事航空

教育要聞

2026青島要取消高中特色班招生?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

藝術(shù)要聞

最美花卉圖譜!記住后保你啥花都認識!

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版