国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

僅用64個(gè)token生成高清圖像,MacTok攻破連續(xù)分詞器后驗(yàn)坍塌難題

0
分享至



本文作者團(tuán)隊(duì)來(lái)自復(fù)旦大學(xué),共同第一作者為復(fù)旦大學(xué)曾恒宇(生物醫(yī)學(xué)工程專(zhuān)業(yè)二年級(jí)碩士)和高鑫(應(yīng)用數(shù)學(xué)專(zhuān)業(yè)三年級(jí)碩士,即將赴耶魯大學(xué)攻讀計(jì)算機(jī)科學(xué)博士),通訊作者為浦劍教授。

在視覺(jué)生成領(lǐng)域,提升擴(kuò)散模型或自回歸模型的推理效率,關(guān)鍵在于將圖像壓縮為更少量的 token。當(dāng)前主流的圖像分詞器分為離散(如 VQ-VAE、VQ-GAN)與連續(xù)(如 KL-VAE)兩派。離散分詞器雖然應(yīng)用廣泛,但其不可求導(dǎo)的量化過(guò)程需要進(jìn)行梯度近似,容易引入量化誤差。相比之下,連續(xù)分詞器摒棄了硬性的離散碼本,保留了連續(xù)平滑的潛在空間,原生支持梯度優(yōu)化并能容納更豐富的表征細(xì)節(jié),因此被視為更具潛力的壓縮范式。

然而,連續(xù)分詞器在極度壓縮(例如僅使用 64 個(gè) token)時(shí),會(huì)面臨一個(gè)核心挑戰(zhàn):強(qiáng) KL 正則化會(huì)導(dǎo)致潛在空間嚴(yán)重退化。編碼器常常無(wú)法有效寫(xiě)入語(yǔ)義特征,而是直接向先驗(yàn)分布妥協(xié),引發(fā)嚴(yán)重的「后驗(yàn)坍塌」(posterior collapse)。這往往會(huì)導(dǎo)致重建或生成的圖像失去細(xì)節(jié)。

本文提出的MacTok(Masked Augmenting 1D Continuous Tokenizer)從連續(xù)分詞器的底層邏輯出發(fā),提出了一種簡(jiǎn)潔實(shí)用的核心洞察:只有讓潛在空間學(xué)會(huì)真正「富含語(yǔ)義」的表征,才能徹底杜絕后驗(yàn)坍塌。為了達(dá)成這一目標(biāo),MacTok 脫離了單一層面的局部魔改,而是在圖像空間與表征空間進(jìn)行了雙管齊下的協(xié)同設(shè)計(jì)。



  • 論文標(biāo)題:MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2603.29634

在圖像空間層面,MacTok 引入了隨機(jī)掩碼與語(yǔ)義掩碼(Semantic Masking)的混合機(jī)制,強(qiáng)迫模型在最殘缺的條件下補(bǔ)全最高信息密度的焦點(diǎn)區(qū)域;在表征空間層面,則利用全局(Global)與局部(Local)的表征同時(shí)對(duì)齊來(lái)直接約束潛在空間的語(yǔ)義結(jié)構(gòu)。

結(jié)合兩者的協(xié)同機(jī)制,MacTok 僅需 64 或 128 個(gè) token,便在 ImageNet 256×256 上實(shí)現(xiàn)了 1.44 的 gFID,在 512×512 上達(dá)到了 1.52 的 gFID,其實(shí)際使用的 token 數(shù)量相比傳統(tǒng)方法壓縮了 64 倍。該工作已被 CVPR 2026 錄用并入選為Highlight論文!



「化繁為簡(jiǎn)」:重新認(rèn)知連續(xù)分詞器與后驗(yàn)坍塌

既然離散分詞器技術(shù)已相對(duì)成熟,為何業(yè)界仍需深入探討連續(xù)分詞器?主要原因在于離散碼本的表征瓶頸逐漸顯現(xiàn),而連續(xù)空間擁有良好的數(shù)學(xué)連續(xù)性和原生梯度優(yōu)勢(shì),具備更高的優(yōu)化潛力。但是,要讓連續(xù)分詞器走向商業(yè)可用,就必須解決「后驗(yàn)坍塌」這一技術(shù)阻礙。

后驗(yàn)坍塌的直觀表現(xiàn)是,潛在空間中的各類(lèi)特征嚴(yán)重重疊,解碼器生成的往往是一片模糊。從本質(zhì)上看,這是由于在強(qiáng)正則約束與稀缺 Token 的雙重限制下,模型傾向于選擇最容易滿(mǎn)足先驗(yàn)分布的優(yōu)化路徑,而非去刻畫(huà)復(fù)雜的圖像語(yǔ)義。



學(xué)術(shù)界此前的解法大多專(zhuān)注于調(diào)低正則強(qiáng)度或加入循環(huán)退火系數(shù),這類(lèi)基于損失函數(shù)層面的調(diào)整難以觸及問(wèn)題根源。若直接套用普通的隨機(jī)掩碼策略(如直接遮擋 Latent Token),在 64 Token 的苛刻限制下,也會(huì)因后期訓(xùn)練的信息流失而再度引發(fā)坍塌。

MacTok 團(tuán)隊(duì)提出,改變模型這種「優(yōu)化怠情」的唯一做法是促使其學(xué)習(xí)到具備豐富語(yǔ)義信息的表征。為此,MacTok 放棄了單一維度的修修補(bǔ)補(bǔ),提出了一個(gè)統(tǒng)籌圖像空間(Image Space)與表征空間(Representation Space)的雙管齊下方案:在圖像端通過(guò)掩碼提高「考題難度」,在表征端通過(guò)對(duì)齊直接注入語(yǔ)義引導(dǎo),構(gòu)建了一個(gè)魯棒的抗坍塌學(xué)習(xí)環(huán)境。

雙空間協(xié)同設(shè)計(jì):從圖像到表征的語(yǔ)義注入

MacTok 團(tuán)隊(duì)意識(shí)到,避免后驗(yàn)坍塌的核心宗旨只有一個(gè):必須迫使模型學(xué)到具有豐富語(yǔ)義信息的表征。為了達(dá)成這一目標(biāo),不能僅僅依賴(lài)常規(guī)的特征對(duì)齊,必須在圖像空間和表征空間同時(shí)作用,完成雙管齊下的語(yǔ)義注入。

首先是在圖像空間的設(shè)計(jì)。在輸入端施加重度掩碼可以為模型提供一個(gè)更難的預(yù)測(cè)目標(biāo),從而提升模型特征提取的魯棒性。為進(jìn)一步強(qiáng)化對(duì)語(yǔ)義的關(guān)注,MacTok 引入了混合掩碼策略:

  • 隨機(jī)掩碼(Random Masking):提供基礎(chǔ)的重建挑戰(zhàn),促使模型建立更穩(wěn)健的結(jié)構(gòu)映射。

  • 語(yǔ)義掩碼(Semantic Masking):這是在圖像層面注入語(yǔ)義保留意識(shí)的關(guān)鍵。系統(tǒng)會(huì)評(píng)估圖像各個(gè)區(qū)域的語(yǔ)義重要性,并優(yōu)先遮擋「富含最高語(yǔ)義」的區(qū)域。使得模型在預(yù)測(cè)殘缺圖像時(shí),必須更加關(guān)注深層語(yǔ)義信息的推理與關(guān)聯(lián),而非基于簡(jiǎn)單紋理的像素填補(bǔ)。

如下方曲線圖所示,引入語(yǔ)義掩碼后其生成質(zhì)量有顯著提升,實(shí)驗(yàn)測(cè)定最優(yōu)的圖像掩碼比例在 70% 左右:



其次是在表征空間的直接約束。在圖像空間的重建約束之外,MacTok 還引入了全局與局部表征對(duì)齊(Global and Local Alignment)。具體而言,分詞器的 Latent token 不僅在局部維度上與細(xì)粒度的 Patch 特征對(duì)齊,還在全局維度上與高度濃縮宏觀語(yǔ)義的 CLS 特征對(duì)齊。

圖像空間層面的語(yǔ)義掩碼(增加理解難度),配合表征空間層面的全局-局部對(duì)齊(指明優(yōu)化方向),兩者相輔相成。這套雙空間協(xié)同機(jī)制共同構(gòu)筑了連續(xù)潛在空間高度的語(yǔ)義魯棒性,從根本上阻斷了后驗(yàn)坍塌的發(fā)生。



突破壓縮極限:主流 Benchmark 上的表現(xiàn)

在主流驗(yàn)證基準(zhǔn)上,主打極少 token 的 MacTok 保持了極高的運(yùn)行效率和視覺(jué)質(zhì)量。

1. 256×256 分辨率下的表現(xiàn)



與使用大基數(shù) token 的生成模型相比,MacTok 具備較為明顯的單 token 信息密度優(yōu)勢(shì)。

可以看到,僅使用 64 個(gè) token 的 MacTok,在無(wú) CFG 的測(cè)試條件下獲得了優(yōu)于 SoftVQ-VAE 的生成結(jié)果(gFID 降低了 2.21)。128 token 的 MacTok 則達(dá)到了與擁有 1024 token 的主流基線模型(如 REPA 對(duì)應(yīng) gFID 1.42)相近的水平。

2. 512×512 分辨率下的擴(kuò)展能力

在 512×512 分辨率下,模型需處理的圖像信息量成倍增長(zhǎng),而 MacTok 的各項(xiàng)核心指標(biāo)并未出現(xiàn)衰減:



在 512×512 測(cè)試中,MacTok 的 128 token 與 64 token 版本均取得了 1.52 的 gFID 與超過(guò) 306.0 的 IS(Inception Score),在大幅縮減序列長(zhǎng)度的同時(shí)維持了該量級(jí)的領(lǐng)先效果。

總結(jié)

借助 UMAP 降維可視化,我們可以客觀地評(píng)估該方法在潛在空間特征分布上的改善:相比以往方法常出現(xiàn)的因坍塌而嚴(yán)重重疊的隨機(jī)點(diǎn)陣,MacTok 更能明確保持各語(yǔ)義類(lèi)別的聚類(lèi)結(jié)構(gòu)。



MacTok 的研究成果說(shuō)明,后驗(yàn)坍塌的根源在于強(qiáng)正則條件體系下缺乏足夠有效的數(shù)據(jù)特征引導(dǎo)約束。在不改變?cè)衷~架構(gòu)基礎(chǔ)結(jié)構(gòu)的前提下,僅僅通過(guò)在圖像輸入層引入具有挑戰(zhàn)性的語(yǔ)義掩碼重建任務(wù),即可極大激活連續(xù)潛在空間編碼深層信息的潛能。面對(duì)未來(lái)對(duì)圖像生成分辨率、吞吐延遲要求越來(lái)越苛刻的大模型場(chǎng)景,MacTok 提供了一項(xiàng)具有較高實(shí)用價(jià)值的技術(shù)參照方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔣家后人要在奉化動(dòng)土!半世紀(jì)未歸根,兩蔣大遷徙卡殼難圓落葉夢(mèng)

蔣家后人要在奉化動(dòng)土!半世紀(jì)未歸根,兩蔣大遷徙卡殼難圓落葉夢(mèng)

聞識(shí)
2026-04-24 11:22:44
有一種后悔叫買(mǎi)了“高層的2樓”,不好住賣(mài)不掉,徹底成為不動(dòng)產(chǎn)

有一種后悔叫買(mǎi)了“高層的2樓”,不好住賣(mài)不掉,徹底成為不動(dòng)產(chǎn)

裝修秀
2026-04-23 11:15:03
因?yàn)榇蟊亲佑只鹆?北大校友會(huì)副會(huì)長(zhǎng)給泰華中學(xué)做宣傳,鼻子太搶眼

因?yàn)榇蟊亲佑只鹆?北大校友會(huì)副會(huì)長(zhǎng)給泰華中學(xué)做宣傳,鼻子太搶眼

趣筆談
2026-04-23 12:35:03
芯片觀察者:美國(guó)先將中國(guó)芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

芯片觀察者:美國(guó)先將中國(guó)芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

蜉蝣說(shuō)
2026-04-24 11:38:51
注意!5月1日起全面嚴(yán)查,這8種行為直接入刑,普通人千萬(wàn)別大意

注意!5月1日起全面嚴(yán)查,這8種行為直接入刑,普通人千萬(wàn)別大意

芳姐侃社會(huì)
2026-04-23 17:24:10
冰箱里的凍肉,超過(guò)這個(gè)時(shí)間直接扔。ǜ奖鋬(nèi)各類(lèi)食物保存期)

冰箱里的凍肉,超過(guò)這個(gè)時(shí)間直接扔。ǜ奖鋬(nèi)各類(lèi)食物保存期)

齊魯壹點(diǎn)
2026-04-02 23:14:06
山東大師王興夫被抓捕歸案,99名女徒弟揭露內(nèi)幕,真相讓人意外

山東大師王興夫被抓捕歸案,99名女徒弟揭露內(nèi)幕,真相讓人意外

詭譎怪談
2025-03-25 17:25:18
女籃疑似內(nèi)訌?四大國(guó)手加盟海外聯(lián)賽:或?yàn)槎惚軐m魯鳴長(zhǎng)期集訓(xùn)?

女籃疑似內(nèi)訌?四大國(guó)手加盟海外聯(lián)賽:或?yàn)槎惚軐m魯鳴長(zhǎng)期集訓(xùn)?

籃球快餐車(chē)
2026-04-24 01:39:29
官方:馬寧以四官身份執(zhí)法亞冠精英賽決賽,周飛擔(dān)任邊裁

官方:馬寧以四官身份執(zhí)法亞冠精英賽決賽,周飛擔(dān)任邊裁

懂球帝
2026-04-24 11:23:16
伊朗處決米爾賈法里

伊朗處決米爾賈法里

新京報(bào)政事兒
2026-04-22 08:20:10
超級(jí)牛散,舉牌300295!曾押中“10倍股”朗姿股份

超級(jí)牛散,舉牌300295!曾押中“10倍股”朗姿股份

證券時(shí)報(bào)e公司
2026-04-24 14:33:22
三峽大壩蓄水近22年,成了魚(yú)類(lèi)的天堂,如今里面最大的魚(yú)有多大?

三峽大壩蓄水近22年,成了魚(yú)類(lèi)的天堂,如今里面最大的魚(yú)有多大?

探源歷史
2026-04-03 16:55:38
微軟向約7%美國(guó)員工提供自愿退休方案 工齡與年齡之和需至少達(dá)到70

微軟向約7%美國(guó)員工提供自愿退休方案 工齡與年齡之和需至少達(dá)到70

新浪財(cái)經(jīng)
2026-04-24 00:47:09
WTA爆大冷:首位前八種子出局!鄭欽文巨星待遇,組委會(huì)贏得尊重

WTA爆大冷:首位前八種子出局!鄭欽文巨星待遇,組委會(huì)贏得尊重

侃球熊弟
2026-04-24 07:01:41
18歲女孩奶茶店打暑假工 辭職后因店里繁忙被臨時(shí)召回 上班途中遇車(chē)禍搶救3個(gè)月不幸身亡

18歲女孩奶茶店打暑假工 辭職后因店里繁忙被臨時(shí)召回 上班途中遇車(chē)禍搶救3個(gè)月不幸身亡

閃電新聞
2026-04-24 12:14:16
中國(guó)游客暴跌55.9%,日本361萬(wàn)游客擠爆櫻花季,缺口被全球填平

中國(guó)游客暴跌55.9%,日本361萬(wàn)游客擠爆櫻花季,缺口被全球填平

芳姐侃社會(huì)
2026-04-21 16:37:18
余承東話含金量還在上升!日產(chǎn)3月在華新車(chē)銷(xiāo)量增長(zhǎng)23% 靠華為拉爆豐田本田

余承東話含金量還在上升!日產(chǎn)3月在華新車(chē)銷(xiāo)量增長(zhǎng)23% 靠華為拉爆豐田本田

快科技
2026-04-23 11:56:29
5月1日起全面嚴(yán)查!在職退休無(wú)一例外,這5類(lèi)人好日子到頭了

5月1日起全面嚴(yán)查!在職退休無(wú)一例外,這5類(lèi)人好日子到頭了

細(xì)說(shuō)職場(chǎng)
2026-04-23 10:38:58
太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

譚談社會(huì)
2026-04-23 01:58:02
福島核電站反應(yīng)堆內(nèi)測(cè)出極強(qiáng)輻射

福島核電站反應(yīng)堆內(nèi)測(cè)出極強(qiáng)輻射

界面新聞
2026-04-24 14:24:15
2026-04-24 16:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12847文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價(jià)格依然"屠夫級(jí)"

頭條要聞

男子拍下蔣介石故居對(duì)面別墅區(qū)兩廁所 兩年來(lái)無(wú)法使用

頭條要聞

男子拍下蔣介石故居對(duì)面別墅區(qū)兩廁所 兩年來(lái)無(wú)法使用

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂(lè)要聞

停工16個(gè)月!趙露思證實(shí)接拍新劇

財(cái)經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車(chē)要聞

零跑Lafa5 Ultra北京車(chē)展上市:11.88-12.48萬(wàn)

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
游戲
公開(kāi)課
軍事航空

手機(jī)要聞

榮耀暢玩70C手機(jī)上架,799元起

數(shù)碼要聞

哈趣H3 Ultra Max的120Hz高刷屏:LCD投影終于撕掉了殘影標(biāo)簽

PS6掌機(jī)全新爆料!索尼第一方工作室已同步信息

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版