国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

StreamDiffusionV2: 將視頻生成從「離線生成」帶入「實(shí)時交互」

0
分享至



擴(kuò)散生成模型的發(fā)展改變了實(shí)時視頻直播的內(nèi)容創(chuàng)作,一些基于圖片擴(kuò)散模型的 AI 直播系統(tǒng)如 StreamDiffusion 和 StreamV2V 以其方便可控和快速響應(yīng)的特點(diǎn)被廣泛應(yīng)用。但是這些基于圖片擴(kuò)散模型的方法時間一致性較差,而視頻擴(kuò)散模型生成過程中的前后幀依賴關(guān)系提供了極佳的時間一致性。

最近的一些自回歸視頻生成研究能夠促使視頻生成的吞吐量接近「實(shí)時」 的目標(biāo),這使得在流式直播中應(yīng)用這些模型成為可能。

然而,一個被忽視的問題尚未得到解答:吞吐量達(dá)到「實(shí)時」表現(xiàn)但忽略延遲的系統(tǒng),能直接用于實(shí)時交互生成嗎?

近日,一項(xiàng)已經(jīng)被計算機(jī)系統(tǒng)頂級會議 MLSys 2026 接收的工作 StreamDiffusionV2,對這一問題進(jìn)行了詳細(xì)討論并給出了解決方案。來自德克薩斯大學(xué)奧斯汀分校等機(jī)構(gòu)的研究者組成的團(tuán)隊(duì)提出了一種無需訓(xùn)練、面向交互式直播的流式視頻生成系統(tǒng)。該系統(tǒng)可在多種類型 GPU 上穩(wěn)定運(yùn)行,同時實(shí)現(xiàn)低延遲與高質(zhì)量生成。

StreamDiffusionV2 已全面開源,對個人用戶部署友好,在未應(yīng)用 TensorRT 或量化的情況下,能夠在僅配備雙卡 RTX 4090 的設(shè)備上穩(wěn)定 16 FPS 實(shí)時推理。其在 H100 上首幀延遲低于 0.5 秒,并在 4 卡設(shè)備上穩(wěn)定實(shí)現(xiàn) 14B 模型 58.28 FPS、1.3B 模型 64.52 FPS 的吞吐量。



  • 論文鏈接:https://arxiv.org/abs/2511.07399
  • 項(xiàng)目主頁:https://streamdiffusionv2.github.io/
  • 代碼鏈接:https://github.com/chenfengxu714/StreamDiffusionV2



圖 1 有限長度的批量視頻生成 vs. 該研究提出的流式低延遲的無限長度視頻生成

挑戰(zhàn):實(shí)時交互式生成的系統(tǒng)性瓶頸

最近,以 CausVid 和 Self-Forcing 等為代表的自回歸視頻生成模型(Auto-regressive Video Generation),在一定程度上維持了生成質(zhì)量的同時極大地加快了推理速度。

盡管這些方法亦能在離線模式下進(jìn)行視頻到視頻(Video-to-video)生成,但其推理范式仍然難以直接適配實(shí)時直播場景。通過分析,研究團(tuán)隊(duì)指出當(dāng)前方法面臨以下挑戰(zhàn):



圖 2 Baseline 視頻生成模型在 V2V 任務(wù)中的缺陷

  1. 實(shí)時 SLO 無法滿足:現(xiàn)有視頻擴(kuò)散模型主要面向離線生成優(yōu)化,雖然提升了整體吞吐量,卻顯著拉高了首幀延遲,且難以滿足直播場景對每一幀嚴(yán)格時限和低抖動的服務(wù)級目標(biāo)(SLO)。
  2. 長時間生成中的時序漂移:主流視頻擴(kuò)散系統(tǒng)在持續(xù)運(yùn)行的直播場景中,內(nèi)容分布與用戶輸入會不斷變化,加劇了自回歸視頻生成模型的誤差累積,導(dǎo)致生成過程中出現(xiàn)風(fēng)格漂移和時間一致性退化。
  3. 高速動作下的畫面撕裂:現(xiàn)有模型多基于慢動作或平穩(wěn)運(yùn)動數(shù)據(jù)訓(xùn)練,在面對快速鏡頭切換或劇烈運(yùn)動時表現(xiàn)受限,生成中發(fā)生模糊、重影和動作撕裂等問題。
  4. 難以實(shí)現(xiàn)多 GPU 擴(kuò)展:現(xiàn)有的序列并行帶來大量通信開銷抵消了計算的加速。在以單幀延遲為主導(dǎo)的實(shí)時負(fù)載下,無法擴(kuò)展到多 GPU 并行推理。

綜上所述,這些挑戰(zhàn)表明,實(shí)時視頻擴(kuò)散無法僅依賴離線生成范式的延伸,而亟需一種從系統(tǒng)層面重新設(shè)計、以實(shí)時約束為核心目標(biāo)的推理架構(gòu)。

深入分析:內(nèi)存帶寬約束導(dǎo)致的性能受限

為了對現(xiàn)有系統(tǒng)進(jìn)行加速優(yōu)化,文章深入分析了當(dāng)前推理系統(tǒng)所處的性能瓶頸模式(Performance Regime):





圖 3 上圖:Roofline 模型分析不同批次大小和并行模式下的系統(tǒng)性能瓶頸;下圖:不同并行方式下的通信開銷。

先前雙向注意力 DiT 主要受計算能力限制,而在自回歸視頻生成中,尤其是低延遲的單幀 latent 參數(shù)下,因?yàn)樾枰虞d長序列的 KV Cache,卻只對當(dāng)前輸入進(jìn)行計算,使得內(nèi)存訪問開銷超過計算開銷,系統(tǒng)性能由內(nèi)存帶寬而非算力主導(dǎo)。

通過 Nsight Systems 等性能分析工具對實(shí)際推理過程中的內(nèi)存帶寬利用率、計算資源使用情況氣泡時間進(jìn)行分析,并結(jié)合理論計算量與內(nèi)存訪問量估計,團(tuán)隊(duì)驗(yàn)證了當(dāng)前系統(tǒng)確實(shí)處于內(nèi)存帶寬受限(Memory-bound)的性能瓶頸狀態(tài)。

進(jìn)一步地,序列并行(Sequence Parallelism)方法(如 Deepspeed-Ulysses 和 Ring-Attention)在推理中需要在每個 DiT Block 執(zhí)行一次跨設(shè)備通信,從而引入了顯著的通信開銷。通信過程本質(zhì)上也屬于數(shù)據(jù)搬運(yùn)操作,與內(nèi)存訪問共同加劇了系統(tǒng)數(shù)據(jù)傳輸開銷。

上述發(fā)現(xiàn)促使作者從優(yōu)化內(nèi)存 - 計算平衡并降低并行推理通信開銷入手,構(gòu)建全新的流式視頻生成系統(tǒng)。

方法:算法與系統(tǒng)層面的聯(lián)合優(yōu)化

綜合前面對現(xiàn)有挑戰(zhàn)和性能瓶頸的分析,研究團(tuán)隊(duì)從算法和系統(tǒng)兩方面給出了解決方案。



圖 4 系統(tǒng)的整體流程圖

算法層面:為了緩解長視頻生成下自回歸模型的誤差累計和風(fēng)格漂移的問題,文章引入 Sink-tokens 和動作感知的加噪機(jī)制,具體的方法如下:

  1. Sink-token 和滾動 KV Cache:早期生成的幀受誤差累計的影響小,故將其 KV 保持在 KV Cache 中作為 Sink-token 指導(dǎo)后續(xù)的生成。同時后續(xù)的 KV Cache 滾動更新,以實(shí)現(xiàn)無限長流式生成;
  2. 動作感知的動態(tài)加噪機(jī)制:根據(jù)相鄰幀之間的 L2 距離估計視頻的運(yùn)動強(qiáng)度,并自適應(yīng)調(diào)整加噪比例。在運(yùn)動劇烈時降低噪音以保留運(yùn)動一致性,在運(yùn)動較弱時提高噪音以提升生成質(zhì)量。



圖 5 動作程度估計和動態(tài)噪音策略示例

系統(tǒng)層面:在內(nèi)存帶寬受限情境下提升吞吐量,StreamDiffusionV2 采用了流水線化批量去噪策略,再將其擴(kuò)展至模型網(wǎng)絡(luò)層的流水線并行,并加入了其他輔助的高效推理設(shè)計,具體內(nèi)容如下:

  1. SLO 感知的流水線化的批量去噪(Batch Denoising):采用流水線化批量去噪,將不同噪音程度的幀組成流水線并行處理,使得每次 DiT 推理都得到去噪完全的幀;同時使用 SLO 感知的 profiling 動態(tài)確定批處理規(guī)模和調(diào)度參數(shù);
  2. 模型網(wǎng)絡(luò)層的流水線并行(Pipeline Parallelism):將 DiT 的多 GPU 流水線并行推理結(jié)合分片批量去噪,實(shí)現(xiàn)穩(wěn)定的逐幀生成;利用異步通信使計算和通信重合,并引入 DiT 層調(diào)度器平衡不同設(shè)備開銷,以緩解流水線氣泡,提升系統(tǒng)整體吞吐量。



圖 6 批量去噪和流水線并行示意圖


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

視頻 1 并行推理示例動畫

通過這樣的協(xié)同設(shè)計,StreamDiffusionV2 系統(tǒng)實(shí)現(xiàn)了高效、穩(wěn)定的流式生成,并通過 Cache 機(jī)制來保證時間一致性和生成質(zhì)量。

實(shí)驗(yàn)結(jié)果

StreamDiffusionV2 論文實(shí)現(xiàn)了低延遲和高吞吐的平衡,具體效果如何,一圖勝千言!



圖 7 不同設(shè)置下吞吐量結(jié)果,1.3B 模型,H100 和 4090 顯卡



圖 8 不同設(shè)置下吞吐量結(jié)果,14B 模型,H100 顯卡





圖 9 上圖:第一幀時間對比,體現(xiàn)了 StreamDiffusionV2 的低延遲優(yōu)勢;下圖:系統(tǒng)端到端延遲統(tǒng)計分布圖,StreamDiffusionV2 有著緊密分布,低抖動,并達(dá)到亞秒級實(shí)時應(yīng)用要求。

與此同時,該系統(tǒng)同時也在實(shí)現(xiàn)了穩(wěn)定的高質(zhì)量生成,擁有良好的時間一致性,并對復(fù)雜 prompt 有著更好的適應(yīng)。


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

視頻 2 Video-to-video 生成結(jié)果對比。從左至右,從上到下,分別為原視頻、StreamDiffusion、CausVid,以及 StreamDiffusionV2。


https://mp.weixin.qq.com/s/dIhwxHZ_zbaZBFC-vECPEA

視頻 3 實(shí)際場景交互式生成應(yīng)用實(shí)例

總結(jié)與展望

StreamDiffusionV2 彌合了離線視頻擴(kuò)散與實(shí)時直播之間長期存在的系統(tǒng)鴻溝。使高質(zhì)量生成式直播首次具備工程可行性。





圖 10 上圖:計算設(shè)備的計算能力和內(nèi)存帶寬變化趨勢,內(nèi)存帶寬的增長速度更慢;下圖:自回歸視頻生成模型,計算和內(nèi)存操作開銷比例隨輸入幀序列長度的變化趨勢。

進(jìn)一步地,這一工作順應(yīng)了硬件與算法發(fā)展的長期趨勢。由于 GPU 計算能力增長速度明顯超過顯存帶寬,自回歸推理正處于內(nèi)存訪問約束區(qū)域;與此同時,視頻生成算法不斷采用更高壓縮率與更結(jié)構(gòu)化的表示方式,也進(jìn)一步加劇了推理階段的內(nèi)存訪問壓力。

在這樣的演進(jìn)背景下,圍繞內(nèi)存訪問與實(shí)時約束進(jìn)行系統(tǒng)級調(diào)度設(shè)計,將成為生成式服務(wù)的關(guān)鍵能力。

StreamDiffusionV2 提供的不僅是一套可運(yùn)行的系統(tǒng)方案,更是一種面向未來實(shí)時生成場景的設(shè)計思路。

隨著生成模型持續(xù)擴(kuò)展規(guī)模與應(yīng)用場景,這種以 SLO 為核心、以系統(tǒng)協(xié)同為驅(qū)動的流式推理架構(gòu),有望成為下一階段生成式直播基礎(chǔ)設(shè)施的重要方向。

作者介紹

本文作者來自德克薩斯大學(xué)奧斯汀分校、加州大學(xué)伯克利分校、Nunchaku AI、斯坦福大學(xué)、獨(dú)立研究者、First Intelligent、麻省理工學(xué)院以及 Shizuku AI。

該工作的主要研究由德克薩斯大學(xué)奧斯汀分校團(tuán)隊(duì)完成,第一作者為博士生馮天瑞,通訊作者為助理教授徐晨豐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1-2!亞洲杯3冠王提前回家,首個四強(qiáng)已出爐,中國隊(duì)沖冠軍更難了

1-2!亞洲杯3冠王提前回家,首個四強(qiáng)已出爐,中國隊(duì)沖冠軍更難了

侃球熊弟
2026-03-13 20:00:02
劉強(qiáng)東500億接盤48座萬達(dá)廣場,救王健林于水火,真相遠(yuǎn)不止救急

劉強(qiáng)東500億接盤48座萬達(dá)廣場,救王健林于水火,真相遠(yuǎn)不止救急

老特有話說
2026-03-13 14:20:28
網(wǎng)傳西安一女子從行駛中出租車跳下,警方通報

網(wǎng)傳西安一女子從行駛中出租車跳下,警方通報

界面新聞
2026-03-13 17:29:11
記者臥底全國連鎖輕食外賣后廚 拍下的畫面讓人后背發(fā)涼

記者臥底全國連鎖輕食外賣后廚 拍下的畫面讓人后背發(fā)涼

閃電新聞
2026-03-13 18:16:54
華為新品官宣:3月18日,正式上市首銷!

華為新品官宣:3月18日,正式上市首銷!

科技堡壘
2026-03-13 12:22:44
特朗普拆東墻補(bǔ)西墻,伊朗成功反殺,讓美國失去針對中國的王牌

特朗普拆東墻補(bǔ)西墻,伊朗成功反殺,讓美國失去針對中國的王牌

空天力量
2026-03-13 20:10:39
伊朗最高領(lǐng)袖穆杰塔巴·哈梅內(nèi)伊發(fā)布個人照片

伊朗最高領(lǐng)袖穆杰塔巴·哈梅內(nèi)伊發(fā)布個人照片

每日經(jīng)濟(jì)新聞
2026-03-13 07:50:44
360集團(tuán)創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

360集團(tuán)創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

中國經(jīng)營報
2026-03-13 17:38:11
被盜國保琉璃在閑魚被公開售賣,標(biāo)價3.6萬,閑魚回應(yīng):積極主動配合警方;涉事店鋪的商品均已下架

被盜國保琉璃在閑魚被公開售賣,標(biāo)價3.6萬,閑魚回應(yīng):積極主動配合警方;涉事店鋪的商品均已下架

瀟湘晨報
2026-03-13 16:23:25
韓佳人又想來中國圈錢了?體驗(yàn)景區(qū)網(wǎng)紅妝惹爭議,小心思藏不住

韓佳人又想來中國圈錢了?體驗(yàn)景區(qū)網(wǎng)紅妝惹爭議,小心思藏不住

萌神木木
2026-03-13 17:57:34
伊朗新任最高領(lǐng)袖,傷情有多重?

伊朗新任最高領(lǐng)袖,傷情有多重?

中國新聞周刊
2026-03-13 20:21:03
47歲男子娶82歲老太,硬塞1000元和20個雞蛋當(dāng)彩禮!“以為是假結(jié)婚沒想到是真的” 老人家人氣憤找上門去質(zhì)問

47歲男子娶82歲老太,硬塞1000元和20個雞蛋當(dāng)彩禮!“以為是假結(jié)婚沒想到是真的” 老人家人氣憤找上門去質(zhì)問

大風(fēng)新聞
2026-03-13 17:34:11
太慘了!廣西命案刷屏!4死1傷,51歲嫌犯落網(wǎng),知情者爆料太扎心

太慘了!廣西命案刷屏!4死1傷,51歲嫌犯落網(wǎng),知情者爆料太扎心

今朝牛馬
2026-03-13 21:56:07
凌晨在北京去世?75歲“風(fēng)流妖精”劉曉慶,給內(nèi)娛明星們上了一課

凌晨在北京去世?75歲“風(fēng)流妖精”劉曉慶,給內(nèi)娛明星們上了一課

鄉(xiāng)野小珥
2026-03-11 19:44:41
9000萬人打不過900萬人:伊朗的潰敗,撕開了一個殘酷的真相

9000萬人打不過900萬人:伊朗的潰敗,撕開了一個殘酷的真相

蘇格拉高
2026-03-13 07:42:17
外交部:中方將提供20萬美元緊急人道主義援助,撫恤伊朗遇難學(xué)生家長

外交部:中方將提供20萬美元緊急人道主義援助,撫恤伊朗遇難學(xué)生家長

澎湃新聞
2026-03-13 15:32:26
07年快男全員內(nèi)斗、賽區(qū)撕、兄弟反目、資本背刺,比電視劇還敢拍

07年快男全員內(nèi)斗、賽區(qū)撕、兄弟反目、資本背刺,比電視劇還敢拍

一盅情懷
2026-03-13 15:30:34
美軍中央司令部:在伊拉克墜毀的加油機(jī)上確認(rèn)4人死亡

美軍中央司令部:在伊拉克墜毀的加油機(jī)上確認(rèn)4人死亡

界面新聞
2026-03-13 17:39:25
廣電總局公布演員將用姓氏筆畫定番位 95生花不用撕番了

廣電總局公布演員將用姓氏筆畫定番位 95生花不用撕番了

手工制作阿殲
2026-03-13 17:24:09
“3·15”小周爆料 | 剛買新車就“被迭代”!比亞迪到底有沒有“背刺”客戶?

“3·15”小周爆料 | 剛買新車就“被迭代”!比亞迪到底有沒有“背刺”客戶?

新民周刊
2026-03-13 18:15:46
2026-03-14 01:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12497文章數(shù) 142583關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

“十五五”規(guī)劃綱要,全文來了!

汽車要聞

置換補(bǔ)貼價8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

手機(jī)
本地
藝術(shù)
時尚
數(shù)碼

手機(jī)要聞

OPPO、vivo、一加、華為齊發(fā),折疊屏、小屏旗艦全都有!

本地新聞

坐標(biāo)北京,過敏季反向遷徒

藝術(shù)要聞

她的美,竟是用粉彩描繪的,太震撼了!

扎十一惹:像鳥飛往她的山

數(shù)碼要聞

3999元!KTC G32P5S電競顯示器開啟新品預(yù)約

無障礙瀏覽 進(jìn)入關(guān)懷版