国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術(shù)解讀

0
分享至

MiniMax 的視頻向來很頂,但技術(shù)上一直是個黑盒

剛剛,海螺團(tuán)隊(duì)第一次自揭面紗,帶來了首個開源項(xiàng)目:VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣:搞圖像、視頻生成的團(tuán)隊(duì),或都能因此受益


Tech Report

先做個信息鋪墊,現(xiàn)在主流的 AI 生圖模型,底層都是兩步走:

第一步,壓縮
把一張圖像壓縮成一組數(shù)字,這組數(shù)字能代表這張圖的核心信息

第二步,生成
AI 在這組數(shù)字的空間里做生成,生成完再還原成圖像


兩階段架構(gòu)

其中,負(fù)責(zé)第一步的模塊,就叫「分詞器」,Tokenizer;負(fù)責(zé)第二步的,則是擴(kuò)散模型Diffusion Model

論文中,發(fā)現(xiàn)一個反直覺的現(xiàn)象
分詞器訓(xùn)練得越久,還原能力越強(qiáng),生成效果反而越差
論文把這個困境叫做預(yù)訓(xùn)練縮放問題


預(yù)訓(xùn)練縮放問題

進(jìn)一步,論文中也發(fā)現(xiàn)了
讓分詞器學(xué)會「理解」,比學(xué)會「還原」更重要
論文管這叫理解力驅(qū)動生成

于是,對于分詞器,就有了

理解力越強(qiáng),壓出的數(shù)字越有意義,擴(kuò)散模型越容易學(xué),生成效果越好
問題在哪

視覺分詞器是怎么訓(xùn)練的?
傳統(tǒng)做法,是讓它學(xué)「重建」:把圖像壓縮成一組數(shù)字,再從這組數(shù)字還原回圖像,還原得越接近原圖越好

這個訓(xùn)練目標(biāo)聽起來很合理
壓縮再還原,損失越小,說明這組數(shù)字保留的信息越完整

但論文做了一組實(shí)驗(yàn),發(fā)現(xiàn)了問題


訓(xùn)練越久,重建越好,生成越差

具體來說,就是,隨著訓(xùn)練時間增加,模型產(chǎn)生了一些有趣的現(xiàn)象

重建能力持續(xù)變強(qiáng)
rFID(衡量還原質(zhì)量,越小越好)從2.0降到0.5

生成能力持續(xù)變差
gFID(衡量生成質(zhì)量,越小越好)從55漲到58

這就是論文定義的「預(yù)訓(xùn)練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


持續(xù)投入,并不會帶來顯著結(jié)果

對于做圖像生成、視頻生成的團(tuán)隊(duì)來說,這是個壞消息
論文數(shù)據(jù)顯示,傳統(tǒng)方法在總算力的1/10處就開始停滯了
之后再加算力,生成效果不升反降

為什么會這樣

重建任務(wù),讓模型學(xué)錯了東西
論文給出了這樣的解釋

當(dāng)視覺分詞器學(xué)習(xí)「還原像素」時,它會把注意力放在「底層信息」上:
邊緣在哪、紋理是什么樣、顏色的精確數(shù)值是多少
這些信息對于「還原」很重要
像素級的細(xì)節(jié)越準(zhǔn)確,還原出來的圖像越接近原圖


底層信息(重建) vs 高層語義(生成)

但生成的時候,其實(shí)需要的不是這些
生成模型需要的是「高層語義」:
這張圖里有什么東西、是什么場景、物體之間是什么關(guān)系整體氛圍是什么

在分詞器被過度訓(xùn)練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
到了生成的時候,,很難從中「理解」圖像應(yīng)該是什么樣的,效果自然變差

于是,從結(jié)果上,我們就看到了做得越好,效果越差
(像不像辦公室里,讓你加班改細(xì)節(jié)的老板)


理解力與生成質(zhì)量的關(guān)系

可以看一下這個圖,是論文的核心發(fā)現(xiàn)
對于傳統(tǒng)自編碼器,理解力和生成質(zhì)量都卡在左下角,增加訓(xùn)練量也不動
對于 VTP(紅色點(diǎn)),理解力越強(qiáng),生成質(zhì)量越好,持續(xù)往右上角走

綜上:理解力才是驅(qū)動生成的關(guān)鍵因素

怎么解決

既然問題定位到了:分詞器學(xué)偏了
那么,解決方案也很清晰:讓分詞器學(xué)全
一邊學(xué)重建,一邊學(xué)理解

VTP 正式這個思路
把三種訓(xùn)練目標(biāo)合在一起,聯(lián)合優(yōu)化

其一、圖文對比學(xué)習(xí)

圖文對比學(xué)習(xí)這一過程中,VTP 采用 CLIP 的訓(xùn)練方式

大致是這樣 給模型看大量的「圖像 + 文字描述」配對數(shù)據(jù),讓圖像壓縮出來的數(shù)字表示和對應(yīng)文字的數(shù)字表示靠近

比如,給一張狗的照片,壓縮后的數(shù)字表示要和「一只金毛犬在草地上奔跑」這句話的數(shù)字表示相似


圖文對比學(xué)習(xí)

這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

其二、感知空間結(jié)構(gòu)

感知空間結(jié)構(gòu)中,VTP 采用 DINOv2 的訓(xùn)練方式,具體包括兩類任務(wù)

第一類:
遮住圖像的一部分,讓模型預(yù)測被遮住的內(nèi)容
這迫使模型理解圖像的整體結(jié)構(gòu),而不是只記住局部像素

第二類
是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

這樣,模型就會被迫使著學(xué)習(xí)圖像的本質(zhì)特征,而不是被具體的像素值干擾


通過自監(jiān)督,學(xué)習(xí)空間結(jié)構(gòu)其三、像素重建

上面說了,要一邊學(xué)重建,一邊學(xué)理解
所以,傳統(tǒng)的還原任務(wù)不能完全丟掉,但權(quán)重要調(diào)低

論文發(fā)現(xiàn),把重建任務(wù)的損失權(quán)重設(shè)成0.1,對生成效果最好
(相比而言,理解任務(wù)的權(quán)重為1.0


權(quán)重需要調(diào)整

至此,把這三個目標(biāo)聯(lián)合訓(xùn)練,讓視覺分詞器同時具備三種能力
理解圖像內(nèi)容、感知空間結(jié)構(gòu)保留像素細(xì)節(jié)


就這樣,VTP 有了三種能力

額外的,VTP 用的是 Vision Transformer(ViT),不是傳統(tǒng)的 CNN
實(shí)驗(yàn)數(shù)據(jù)顯示,ViT 架構(gòu)在同等配置下生成效果更好,計(jì)算量還更低

還有一個有關(guān)于 batch size 的細(xì)節(jié)
不同訓(xùn)練任務(wù),對 batch size 的需求差異很大:

  • ? 圖文對比學(xué)習(xí)需要很大的 batch(16k

  • ? 自監(jiān)督和重建任務(wù)用小 batch 就夠(4k2k


對于 batch 這個問題,解決方法是這樣:
每個 batch 里,全部樣本用于圖文對比學(xué)習(xí),隨機(jī)抽取一部分用于自監(jiān)督和重建

效果如何

論文做了大量對比實(shí)驗(yàn),從三個維度驗(yàn)證 VTP 的效果

維度一:理解、重建、生成的關(guān)系

先看下對比吧

純重建訓(xùn)練:越練越差


重建越好、生成越差

隨著訓(xùn)練時間增加:

  • ? 重建能力持續(xù)變強(qiáng):rFID2.07降到0.51

  • ? 生成能力反而變差:gFID55.04漲到58.56

加入理解任務(wù):三項(xiàng)全漲


CLIP+SSL+AE 聯(lián)合訓(xùn)練

用 CLIP + SSL + 重建 聯(lián)合訓(xùn)練后:

  • ? 生成能力大幅提升:gFID降到27.8

  • ? 理解能力同步提升:Linear Probe 達(dá)到74.9%

  • ? 重建能力也沒掉:rFID降到0.36

三種能力不沖突,可以同時提升

維度二:縮放特性

傳統(tǒng)方法存在天花板,VTP 則打破了這個天花板


縮放特性對比:算力、參數(shù)、數(shù)據(jù)

數(shù)據(jù)縮放

  • ? 傳統(tǒng)自編碼器:訓(xùn)練數(shù)據(jù)從 10 萬張擴(kuò)到 1 億張,gFID只從58.37降到56.71

  • ? VTP:同樣的數(shù)據(jù)擴(kuò)展,gFID47.59降到27.45

算力縮放

  • ? 傳統(tǒng)自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

  • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

參數(shù)縮放

  • ? 傳統(tǒng)自編碼器:模型從20M參數(shù)擴(kuò)到300M參數(shù),gFID卡在57不動

  • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

這意味著:在視覺分詞器階段投入更多資源,終于能換來持續(xù)的回報(bào)了

維度三:與現(xiàn)有方法對比VTP 與主流方案的效果對比

  • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

  • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

  • ? 在生成能力上超過了此前的改進(jìn)方法 VA-VAE(gFID 2.81vs4.29

收斂速度方面:

  • ? 比 VA-VAE 快4.1 倍

  • ? 比原版 LDM 快5.7 倍

收斂速度 最后

MiniMax 的視頻能力很能打,實(shí)屬第一梯隊(duì),但技術(shù)上幾乎不對外

而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業(yè)里很多人遇到過、但沒人系統(tǒng)解釋過的問題:
為什么分詞器訓(xùn)得越好,生成效果反而沒提升

過去一年的動作看,隔段時間,總能掏出點(diǎn)新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國連一桶都不肯買了

明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國連一桶都不肯買了

南宮一二
2026-01-11 12:18:10
我滴天!大家已經(jīng)窮到這種地步了嗎?評論區(qū)一個比一個節(jié)儉!

我滴天!大家已經(jīng)窮到這種地步了嗎?評論區(qū)一個比一個節(jié)儉!

另子維愛讀史
2026-01-03 20:55:53
王思聰送99朵玫瑰示愛,懶懶早搬進(jìn)2億豪宅,倆人只差一張結(jié)婚證

王思聰送99朵玫瑰示愛,懶懶早搬進(jìn)2億豪宅,倆人只差一張結(jié)婚證

瘋說時尚
2026-01-11 11:09:04
剛剛,下周有大消息,1000億!液冷,或進(jìn)入超級大周期(附名單)

剛剛,下周有大消息,1000億!液冷,或進(jìn)入超級大周期(附名單)

三農(nóng)老歷
2026-01-11 17:13:34
天呀,杜海濤竟然現(xiàn)成這樣了,沈夢辰對他是真愛啊

天呀,杜海濤竟然現(xiàn)成這樣了,沈夢辰對他是真愛啊

草莓解說體育
2026-01-07 01:43:18
兩國派兵烏克蘭?澤連斯基樂開花,喊話特朗普,卻被反手潑冷水,和平之路,越走越窄

兩國派兵烏克蘭?澤連斯基樂開花,喊話特朗普,卻被反手潑冷水,和平之路,越走越窄

荷蘭豆愛健康
2026-01-12 05:32:49
57歲香港富商雙喜臨門!告別多年單身,竟把新歡直接帶回家?

57歲香港富商雙喜臨門!告別多年單身,竟把新歡直接帶回家?

智凌縱橫
2026-01-11 14:22:07
空中“貨拉拉”來了!“天馬-1000”無人運(yùn)輸機(jī)成功首飛

空中“貨拉拉”來了!“天馬-1000”無人運(yùn)輸機(jī)成功首飛

澎湃新聞
2026-01-11 09:55:03
我只認(rèn)出了萬梓良 ,你們呢 ?

我只認(rèn)出了萬梓良 ,你們呢 ?

小椰的奶奶
2026-01-12 01:45:27
2輪搶4分,歷史性一夜!中國隊(duì)揚(yáng)眉吐氣,U23亞洲杯排名最新如下

2輪搶4分,歷史性一夜!中國隊(duì)揚(yáng)眉吐氣,U23亞洲杯排名最新如下

侃球熊弟
2026-01-11 21:42:56
世外高人通靈查看特朗普前世今生,他是東西方神界交戰(zhàn)的產(chǎn)物!

世外高人通靈查看特朗普前世今生,他是東西方神界交戰(zhàn)的產(chǎn)物!

史論縱橫
2024-04-16 16:15:32
山東男籃主場迎戰(zhàn)吉林,有望沖擊7連勝,克里斯再會攤手好搭檔

山東男籃主場迎戰(zhàn)吉林,有望沖擊7連勝,克里斯再會攤手好搭檔

臻體育
2026-01-12 00:11:18
黎明前的驚雷:一個時代的落幕與中東秩序的重塑

黎明前的驚雷:一個時代的落幕與中東秩序的重塑

高博新視野
2026-01-05 18:13:59
100億元!ETF史上最大單次分紅來了

100億元!ETF史上最大單次分紅來了

中國基金報(bào)
2026-01-11 22:49:01
伊朗總統(tǒng):決心解決好經(jīng)濟(jì)困難 騷亂是美以陰謀

伊朗總統(tǒng):決心解決好經(jīng)濟(jì)困難 騷亂是美以陰謀

國際在線
2026-01-12 00:39:03
心臟支架一放,人生倒計(jì)時就開始了?醫(yī)生說出實(shí)話:這4點(diǎn)要注意

心臟支架一放,人生倒計(jì)時就開始了?醫(yī)生說出實(shí)話:這4點(diǎn)要注意

醫(yī)學(xué)原創(chuàng)故事會
2026-01-05 12:18:04
皇帝讓自己姑姑侍寢,姑姑開始反對后來順從,還慫恿他殺自己丈夫

皇帝讓自己姑姑侍寢,姑姑開始反對后來順從,還慫恿他殺自己丈夫

銘記歷史呀
2025-12-17 18:02:13
國產(chǎn)防風(fēng)衣,已經(jīng)進(jìn)化到這種程度了......

國產(chǎn)防風(fēng)衣,已經(jīng)進(jìn)化到這種程度了......

超級數(shù)學(xué)建模
2026-01-10 22:47:45
北京110-118深圳1喜3憂!曾凡博+許利民遭質(zhì)疑,欠缺關(guān)鍵球員!

北京110-118深圳1喜3憂!曾凡博+許利民遭質(zhì)疑,欠缺關(guān)鍵球員!

籃球資訊達(dá)人
2026-01-12 01:14:37
哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊(duì)將與中俄軍演,伊朗進(jìn)入關(guān)鍵期

哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊(duì)將與中俄軍演,伊朗進(jìn)入關(guān)鍵期

溫讀史
2026-01-10 07:33:53
2026-01-12 06:55:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
249文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

游戲
藝術(shù)
家居
房產(chǎn)
手機(jī)

Epic喜加二/LPL、KPL春季賽開戰(zhàn)| 下周玩什么

藝術(shù)要聞

10位著名畫家的女性人物繪畫,張張經(jīng)典!

家居要聞

木色留白 演繹現(xiàn)代自由

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

手機(jī)要聞

全員Pro Max?多款旗艦手機(jī)陣容要變!

無障礙瀏覽 進(jìn)入關(guān)懷版