国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax海螺視頻團隊首次開源:Tokenizer也具備明確Scaling Law

0
分享至

MiniMax海螺視頻團隊不藏了!

首次開源就揭曉了一個困擾行業(yè)已久的問題的答案——

為什么往第一階段的視覺分詞器里砸再多算力,也無法提升第二階段的生成效果?



翻譯成大白話就是,雖然圖像/視頻生成模型的參數(shù)越做越大、算力越堆越猛,但用戶實際體驗下來總有一種微妙的感受——這些龐大的投入與產(chǎn)出似乎不成正比,模型離完全真正可用總是差一段距離。

So why?問題,大概率就出在視覺分詞器(Tokenizer)這個東西身上了。

當算力不再是答案時,真正需要被重新審視的,其實是生成模型的“起點”。

在當前主流的兩階段生成框架中(分詞器+生成模型),業(yè)界已經(jīng)在視覺分詞器的預訓練上投入了大量算力與數(shù)據(jù),但一個尷尬的事實是:

  • 這些成本,幾乎沒有線性地轉化為生成質(zhì)量的提升

而MiniMax海螺視頻團隊,不止挑戰(zhàn)了這一現(xiàn)實——用實驗證明“Tokenizer的scaling能夠提升模型性能”。

更關鍵的是,還帶來了一款開箱即用、專為“下一代生成模型”打造的可擴展視覺分詞器預訓練框架——Visual Tokenizer Pre-training(以下簡稱VTP)。

只需換上這個視覺分詞器,即可在不改變下游主模型(如DiT)任何訓練配置的情況下,實現(xiàn)端到端生成性能的倍數(shù)級提升。

下面詳細來看——

傳統(tǒng)Tokenizer的缺陷:更好的重建≠更好的生成

要理解VTP存在的意義,首先我們需要回到更基礎的問題上——

Tokenizer是什么?它又為何如此關鍵?

以AI生圖為例,當前主流的生圖模型幾乎清一色采用了“兩階段”生成框架:

  • 第一階段(壓縮):使用視覺Tokenizer(如VAE)這個組件,將原始圖像壓縮并映射到一個潛在空間(latent space)中;
  • 第二階段(還原生成):再由以擴散模型為核心的生成器(如DiT),在這個潛在空間中學習分布,并逐步還原、生成最終圖像。

用一張圖來形容這個過程be like(先壓縮后還原):



而Tokenizer,就是在第一階段中負責壓縮圖片信息的組件。

如果沒有這個組件,擴散模型就得直接在數(shù)百萬像素組成的原始像素空間中進行“去噪”和生成——其計算復雜度和內(nèi)存開銷將是天文數(shù)字。

因此,Tokenizer稱得上是讓模型能夠在消費級顯卡上運行起來的“關鍵功臣”。

除此之外,Tokenize過程所得的低維潛在表征,其質(zhì)量直接決定了最終生成圖像的語義保真度、細節(jié)豐富度以及整體真實性,所以業(yè)界也普遍認為——

從某種程度上來說,Tokenize幾乎決定了后續(xù)生成模型的上限

基于此,人們在研究如何提升下游生成模型的質(zhì)量時,也不約而同地將重點放在了“如何精準復刻原始像素”上,即要求模型將壓縮后的潛在特征(latent)盡可能精準地還原為原始圖像。



而問題,也正出在這里。

傳統(tǒng)Tokenizer在追求“像素級重建”時,往往會過度沉迷于捕捉圖像的局部紋理、噪點等低層信息,從而忽視了生成任務真正依賴的高層語義與整體結構。

這就像學渣為了應付考試,只想著死記硬背各種試題,卻完全不理解題目背后的知識點與邏輯結構。結果真正到了需要舉一反三、解決新問題的時候,一下就傻眼了。

在論文中,海螺視頻團隊將這一現(xiàn)象定義為“預訓練縮放問題”(Pre-training Scaling Problem):

  • 更好的像素級重建精度并不能帶來更高質(zhì)量的生成效果

如圖所示,傳統(tǒng)僅基于“重建”目標訓練的Tokenizer(灰線),隨著算力投入增加,模型的生成性能不僅沒有提升,反而逐漸趨于飽和甚至略微下降。(ps:gFID衡量生成質(zhì)量,越小越好)



由此,論文得出第一個關鍵發(fā)現(xiàn):重建做得越好,生成反而可能越差。換言之,傳統(tǒng)VAE所依賴的純重建訓練范式,在面向生成任務時存在根本性局限。

那么,VTP是如何破局的呢?

VTP破局之道:從像素級重建到強調(diào)“理解力”的重要性

事實上,VTP并非橫空出世,而是海螺視頻團隊在長期實踐中反復試錯與認知迭代的產(chǎn)物。

一些早期探索:從易學性到通用表征學習

在早期工作VA-VAE中,團隊注意到:

  • 有些“壓縮后的特征”能讓后續(xù)的擴散模型學得又快又好,而另一些則不能。

基于此,他們提出了“易學性”這一概念——即不同的潛在表征(latents)對于下游生成模型的學習難度截然不同,并期望通過優(yōu)化latent的某些“友好特性”(如均勻性、頻域分布等)來間接改善生成效果。

然而實踐發(fā)現(xiàn),這些方法雖有一定效果,卻未觸及本質(zhì)。按團隊自己的話來說就是:

  • 嘗試將易學性等價為可精確計算的單一指標(例如頻域分布、均勻性、scale不變性、低秩效應等等)有些過于理想了,這些指標可能和易學性有一定關聯(lián),但遠不是全部。

就是說,當優(yōu)化目標被限制在少數(shù)可測量指標上時,模型往往只是學會了在特定指標上“刷分”,而沒有從根本上學會理解圖像的結構與語義(本質(zhì)上仍未脫離“重建”范疇)。

△在VA-VAE中,團隊曾嘗試將易學性對應到latent分布的“均勻性”

而經(jīng)過持續(xù)反思,團隊逐漸意識到VA-VAE和后來的很多嘗試,其深層目標并非僅僅是優(yōu)化幾個指標,而是在試圖讓latents具備某些更高級的“結構”。其背后邏輯在于:

  • 假如某種latents對于圖像中的實體、位置關系具有高度結構化的表達,那么這種結構化表達對于下游diffusion建模來說也會更簡潔、更容易,這些方面的生成效果也自然會更好。

這就好比另一種層面上的“大道至簡”——當模型真正掌握了物體、關系與語義這些視覺世界的本質(zhì)規(guī)律時,它能應對的任務自然也就越多了(以不變應萬變)。



因此,與其為“易學性”設計脆弱的代理指標,不如直接讓Tokenizer去學習人類視覺系統(tǒng)本身所依賴的那種高度結構化、語義化的通用表征。

畢竟像CLIP、DINOv2這樣的現(xiàn)代通用表征學習方法,正是在大規(guī)模數(shù)據(jù)上自動化地學習了這種“人類對齊”的視覺表達,才在多種下游任務中表現(xiàn)出強大的泛化能力。

至此,團隊的研究重心正式從“像素級重建”轉向了強調(diào)理解力的“通用表征學習”。

VTP:回歸“壓縮即智能”本質(zhì)

基于這一認知轉變,VTP的設計原則變得異常清晰。團隊表示:

  • 我們應該融合所有已知有效的表征學習方法來構建一個Tokenizer



具體而言,VTP這次率先實現(xiàn)了從只練“重建”到“理解、重建、生成”的聯(lián)合優(yōu)化。

一是通過圖文對比學習,建立高層語義理解。

在訓練時,團隊會給模型看大量圖像-文本配對數(shù)據(jù)(如“一只貓在沙發(fā)上”與對應圖片),然后要求圖片的特征向量和文字的特征向量盡可能接近。

這和之前的CLIP思路一脈相承,但目標更聚焦。CLIP追求的是廣義的圖文匹配能力,而VTP則要求Tokenizer在壓縮圖像為緊湊的潛在編碼時,必須保留與文本對齊的語義結構。

這意味著,生成模型后續(xù)接收到的每一個潛在表示,本身就已經(jīng)是“有語義的”——它不只是一堆像素的壓縮,而是攜帶了“貓”、“沙發(fā)”等概念及其關系的結構化表達。和以往相比,“語義注入”被提前到了壓縮階段。

二是通過自監(jiān)督學習,掌握空間結構與視覺常識。

在VTP框架中,自監(jiān)督學習模塊通過結合掩碼圖像建模(MIM) 和自蒸餾(DINO風格),“迫使”模型去理解圖片的空間關系和物體結構。

這個過程會“逼著”Tokenizer來回答不同問題:

  • 通過自蒸餾回答:拋開具體的像素細節(jié),這張圖片最核心的視覺主題或概念是什么?(全局語義)
  • 通過MIM回答:根據(jù)你看到的“冰山一角”,你能推斷出整個“冰山”的形狀和結構嗎?(結構推理)
  • 二者協(xié)同回答:為了識別圖片主題或從局部重建整體,哪些視覺線索是決定性、不可缺失的?(聚焦核心)

這一套流程走下來,模型對圖像的理解便不再停留在像素層面,而是構建起了結構化的視覺認知。

三是通過重建,保留必要的底層視覺細節(jié)。

VTP依然保留了重建目標,但它的定位發(fā)生了變化——其作用不再是“越準越好”,而是確保潛在空間中仍然保有生成所需的紋理、顏色與邊緣等細節(jié)信息。

這三重目標并非孤立進行,而是通過一個統(tǒng)一的多任務損失函數(shù)進行聯(lián)合優(yōu)化:



最終,VTP得到的不是一個在某個指標上“特別優(yōu)秀”的壓縮器,而是一個自帶理解能力、對生成模型非常友好的視覺Tokenizer。

這里也補充一個細節(jié):為什么他們不像很多工作一樣直接使用現(xiàn)有的CLIP或DINOv2作為Tokenizer,而非要投入巨大算力從頭預訓練一個?

其核心思考在于兩點(團隊原話如下):

  • 表征真的很重要,我們想要做到很極致。在我們的視角下表征包含了自監(jiān)督、對比學習、甚至是重建(這些只是已知比較成熟的方法,實際上理想的表征遠不止這些),市面上沒有一個能夠很好地融匯這些方法的模型,我們需要自己訓練一個。
  • 基于表征的Tokenizer方案具備scaling的潛力,預訓練是最合理的實現(xiàn)方式。如果直接利用已有模型蒸餾或者遷移,會因為setting過于復雜而破壞scaling的性質(zhì),也會受限于已有的模型規(guī)格而無法做充分的論證。

所以,選擇“從頭開始”的VTP,其實際表現(xiàn)究竟如何呢?

首次展示了Tokenizer的Scaling Law

概括而言,團隊通過VTP得出了兩大關鍵發(fā)現(xiàn):

  • 理解力是驅動生成的關鍵因素
  • 視覺Tokenizer也具備明確的Scaling Law

先說第一點。

VTP用實驗證明,如果只做重建的話,投入資源越多生成反而可能越差。

下圖中,代表重建能力的rFID從2.0降至0.5,重建效果變好;但代表生成能力的gFID從55.04升至58.56,生成效果變差。



而一旦注入“理解力”(即引入CLIP圖文對比/SSL自監(jiān)督任務),模型的生成質(zhì)量(gFID)會隨著理解能力(Linear Probe)的提升而同步變好——

二者呈現(xiàn)明顯的正相關,且這種提升會隨著訓練計算量增加持續(xù)推進。相比之下,缺少“理解力”的傳統(tǒng)AE Only方案,其生成質(zhì)量和理解能力很快陷入停滯。



更進一步,團隊在同等算力下對比了不同組合,證明“CLIP+SSL+AE”的聯(lián)合訓練方式上限最高,生成與理解指標均最優(yōu)。



基于此,團隊訓練的VTP在理解、重建、生成方面均交出了不錯的答卷——

在ImageNet上的零樣本分類準確率達到78.2%,超過了原版CLIP的75.5%,已經(jīng)具備強通用視覺理解能力;在重建能力上超過了Stable Diffusion的VAE, rFID低至0.36;在生成能力上超過了此前的改進方法VA-VAE,gFID低至2.81



更關鍵的是,在達到相同生成質(zhì)量的前提下,VTP的訓練收斂速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了訓練成本。



這一系列表現(xiàn)共同印證了團隊的判斷:Tokenizer的“語義理解力”而非單純的像素重建精度,才是驅動生成性能與效率提升的核心動力。

再說第二點,也是更具突破性的一點。

團隊在實驗中發(fā)現(xiàn),VTP首次展示了Tokenizer的Scaling Law,即生成性能可以隨預訓練中投入的計算量、參數(shù)量和數(shù)據(jù)規(guī)模有效增長。

僅從算力維度對比,在不改動下游DiT標準訓練配置的前提下,單純將Tokenizer的預訓練計算量放大,VTP就能為最終生成效果帶來65.8%的性能提升,且提升曲線仍未觸頂。

反觀傳統(tǒng)自編碼器(AE),其性能在僅投入約1/10計算量時便已飽和,且繼續(xù)增加算力不僅收益微乎其微,甚至可能導致生成質(zhì)量倒退。



以上發(fā)現(xiàn)表明,接下來除了在主模型上投入更多參數(shù)/算力/數(shù)據(jù)之外,還可以通過Tokenizer的scaling來提升整個生成系統(tǒng)的性能

這個結論,乍一看可能會讓人有點轉不過彎:什么時候,Tokenizer也開始談scaling了?

在大模型語境里,“Scaling Law”幾乎天然只屬于主模型——參數(shù)更大、數(shù)據(jù)更多、算力更猛,性能就該繼續(xù)往上走。至于Tokenizer,則長期被視作一個“前置模塊”,主打一個夠用就行,做完重建任務就退場。

但VTP的出現(xiàn)卻改變了這一現(xiàn)實,團隊表示:

  • VTP在latents易學性和通用表征學習之間建立起了明確關聯(lián),從而第一次將Tokenizer作為scaling的主角,展現(xiàn)出全面的scaling曲線和擴展方向

就是說,如果Tokenizer只是被用來精準復刻像素,那么無論怎么堆算力,提升都將很快見頂;而一旦Tokenizer學到的是具備語義結構、對下游更友好的通用表征,事情就完全不一樣了。



比如對整個行業(yè)來說,由于VTP在Tokenizer層面就已經(jīng)統(tǒng)一了語義對齊、結構認知和細節(jié)表達,因此其產(chǎn)出的視覺表征天然具備多任務協(xié)同的潛力。

這有點像先把世界翻譯成了一種統(tǒng)一、結構化的“視覺語言”。

一旦這套語言確定下來,下游無論是理解任務(如分類、檢測),還是生成任務(如圖像合成、編輯),都不再需要各自“重新學怎么描述這個世界”,而只是站在同一套底層表達之上,做不同的事情。

從這個角度看,VTP天然適合用來構建“理解-生成統(tǒng)一模型”。正如團隊所言:

  • Tokenizer層面的統(tǒng)一,是更本質(zhì)的統(tǒng)一

也因此,此次VTP的開源就不單單只是提供了一個組件那么簡單了。

其更大的價值或許在于,它為整個行業(yè)提供了一條新的、且被實驗證明行之有效的路徑——

在主模型之外,Tokenizer同樣是一個值得長期投入、且具備明確scaling回報的核心環(huán)節(jié)。

目前,VTP的論文和模型權重已經(jīng)公開,動手能力強的朋友也可以嘗試體驗下:

換一個視覺Tokenizer,模型性能就能變得不一樣的feeling(手動狗頭)。

【傳送門】
代碼:https://github.com/MiniMax-AI/VTP
論文:https://arxiv.org/abs/2512.13687v1
模型:https://huggingface.co/collections/MiniMaxAI/vtp

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國務院最新任命!成立2年多的國家局,領導班子有調(diào)整

國務院最新任命!成立2年多的國家局,領導班子有調(diào)整

上觀新聞
2026-01-08 12:40:13
西方人突然發(fā)現(xiàn),中國預設的世界大戰(zhàn),是“1VS所有”的生死局

西方人突然發(fā)現(xiàn),中國預設的世界大戰(zhàn),是“1VS所有”的生死局

一網(wǎng)打盡全球焦點
2026-01-07 09:09:29
感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

邱澤云
2026-01-09 01:07:50
高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

紅豆講堂
2025-07-14 17:21:43
廣東外援薩姆納:NBA合同實際到手嚇你一跳 很多人說運動員退役了就會破產(chǎn)

廣東外援薩姆納:NBA合同實際到手嚇你一跳 很多人說運動員退役了就會破產(chǎn)

籃球大圖
2026-01-08 11:53:44
中美差距開始縮??!我國GDP爆增3.36萬億,再次接近美國70%水平

中美差距開始縮??!我國GDP爆增3.36萬億,再次接近美國70%水平

南宗歷史
2025-11-14 15:54:19
廣州小學生被抽血事件:告訴爸媽就扣小紅花

廣州小學生被抽血事件:告訴爸媽就扣小紅花

每日一見
2026-01-02 12:21:28
有反轉?閆學晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

有反轉?閆學晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

奇思妙想草葉君
2026-01-08 01:03:26
上海美女博主淺檸去世,身體一塌糊涂仍在直播,最后家人忍痛拔管

上海美女博主淺檸去世,身體一塌糊涂仍在直播,最后家人忍痛拔管

林雁飛
2026-01-06 15:16:11
伊朗街道爆發(fā)沖突,兩名警察死亡,30人受傷:有示威者攜帶武器并向警察開槍

伊朗街道爆發(fā)沖突,兩名警察死亡,30人受傷:有示威者攜帶武器并向警察開槍

魯中晨報
2026-01-08 07:05:03
中央音樂學院發(fā)布嚴正聲明

中央音樂學院發(fā)布嚴正聲明

現(xiàn)代快報
2026-01-08 18:17:02
中信證券:預計2025年四季度美國實際GDP增速較2025年三季度或將有所回落

中信證券:預計2025年四季度美國實際GDP增速較2025年三季度或將有所回落

證券時報
2026-01-08 09:03:05
為啥說生命的盡頭是玄學?網(wǎng)友:我去那家公司上班,后期公司就垮

為啥說生命的盡頭是玄學?網(wǎng)友:我去那家公司上班,后期公司就垮

帶你感受人間冷暖
2026-01-07 00:10:05
???WTT冠軍賽:女單大爆冷!奧運冠軍0:3出局,伊藤美誠一輪游

???WTT冠軍賽:女單大爆冷!奧運冠軍0:3出局,伊藤美誠一輪游

國乒二三事
2026-01-08 06:51:25
逃離加州!加州連續(xù)6年成為人口流出最多的州,德州則是凈流入最多的州

逃離加州!加州連續(xù)6年成為人口流出最多的州,德州則是凈流入最多的州

大洛杉磯LA
2026-01-08 04:09:57
算了,不寫陳志了,他就是一個“臉大頭圓光有錢”的馬仔

算了,不寫陳志了,他就是一個“臉大頭圓光有錢”的馬仔

熱點菌本君
2025-11-03 15:04:39
德媒:安世半導體才值幾分錢?歐洲沒搶對地方,真正值錢的是中國

德媒:安世半導體才值幾分錢?歐洲沒搶對地方,真正值錢的是中國

小熊侃史
2026-01-08 07:05:05
吹楊被交易至奇才!掏出手機起身離場 落寞背影預示老鷹時代落幕

吹楊被交易至奇才!掏出手機起身離場 落寞背影預示老鷹時代落幕

顏小白的籃球夢
2026-01-08 10:44:54
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
醫(yī)生再三提醒:糖尿病必做6項檢查!少做一項,都可能釀成大禍

醫(yī)生再三提醒:糖尿病必做6項檢查!少做一項,都可能釀成大禍

健康之光
2025-12-27 18:40:03
2026-01-09 03:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11988文章數(shù) 176357關注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

家居
健康
手機
房產(chǎn)
軍事航空

家居要聞

理性主義 冷調(diào)自由居所

這些新療法,讓化療不再那么痛苦

手機要聞

1699一加Turbo6首發(fā)測評丨 9000mAh 大電池165超高幀

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

無障礙瀏覽 進入關懷版