網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)跳動(dòng)發(fā)布GRN：像畫(huà)家一樣"邊畫(huà)邊改"的AI圖像生成新范式

2026-04-22 22:32:16　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由字節(jié)跳動(dòng)研究團(tuán)隊(duì)完成的研究以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.13030，有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

每當(dāng)我們談到AI生成圖片或視頻，大多數(shù)人腦海中浮現(xiàn)的場(chǎng)景是：機(jī)器從一團(tuán)噪點(diǎn)出發(fā)，一步步"去噪"，最終呈現(xiàn)出一幅清晰的畫(huà)面。這就是目前最流行的擴(kuò)散模型的工作方式，就像把一張被雨水打濕模糊的照片，一遍遍擦干，直到圖像清晰。這套方法確實(shí)強(qiáng)大，但有一個(gè)根本性的問(wèn)題——不管你畫(huà)的是一只簡(jiǎn)單的貓，還是一幅復(fù)雜的城市夜景，機(jī)器都要花同樣多的時(shí)間和計(jì)算力去"擦照片"，完全不分輕重緩急。

另一條技術(shù)路線叫做自回歸模型，它的靈感來(lái)自大語(yǔ)言模型（比如ChatGPT）。這類(lèi)模型會(huì)像寫(xiě)文章一樣，一個(gè)字一個(gè)字地預(yù)測(cè)圖像的每個(gè)小塊，聽(tīng)起來(lái)很聰明，但它有一個(gè)致命弱點(diǎn)：一旦某個(gè)塊寫(xiě)錯(cuò)了，后面的內(nèi)容全部在錯(cuò)誤的基礎(chǔ)上繼續(xù)疊加，就像在一張已經(jīng)畫(huà)歪的草稿上繼續(xù)描繪，越畫(huà)越錯(cuò)，卻沒(méi)有辦法回頭修改。

字節(jié)跳動(dòng)的研究團(tuán)隊(duì)注意到了這兩條路線各自的短板，并提出了一套全新的框架——生成式精化網(wǎng)絡(luò)（Generative Refinement Networks，簡(jiǎn)稱(chēng)GRN）。這套方法的核心理念來(lái)自一個(gè)樸素的觀察：人類(lèi)畫(huà)家是怎么畫(huà)畫(huà)的？他們不會(huì)一筆定終稿，而是先勾勒輪廓，再逐步細(xì)化，隨時(shí)可以擦掉不滿意的地方重畫(huà)。GRN就是在模仿這種"邊畫(huà)邊改、全局打磨"的創(chuàng)作方式，同時(shí)還能根據(jù)畫(huà)面內(nèi)容的復(fù)雜程度，自動(dòng)決定要花多少時(shí)間和精力來(lái)完成這幅作品。

在ImageNet這個(gè)圖像生成領(lǐng)域最權(quán)威的測(cè)試臺(tái)上，GRN創(chuàng)下了圖像重建分?jǐn)?shù)0.56（rFID）和圖像生成質(zhì)量1.81（gFID）的雙項(xiàng)新紀(jì)錄，超越了包括擴(kuò)散模型和其他自回歸模型在內(nèi)的眾多方法。研究團(tuán)隊(duì)還將這套框架擴(kuò)展到了文本生成圖像（最高支持1024×1024分辨率）和文本生成視頻（支持480p、2到10秒的動(dòng)態(tài)視頻），在同等參數(shù)規(guī)模下均取得了領(lǐng)先表現(xiàn)。

一、AI畫(huà)畫(huà)的兩條老路，各有各的煩惱

要理解GRN為什么重要，先得明白現(xiàn)有方法卡在哪里。

擴(kuò)散模型的工作原理，本質(zhì)上像是反向播放一段"把畫(huà)攪亂"的視頻。訓(xùn)練時(shí)，系統(tǒng)學(xué)習(xí)如何把一張清晰的圖片逐漸加入噪聲直到變成一團(tuán)雜亂；生成時(shí)，系統(tǒng)從這團(tuán)雜亂出發(fā)，反向走完這段路，還原出一張新圖像。整個(gè)過(guò)程需要走固定的步數(shù)，比如50步或者100步，不多也不少。無(wú)論你要生成的是一張純色背景上的蘋(píng)果，還是一個(gè)充滿人物、建筑、光影的復(fù)雜場(chǎng)景，計(jì)算機(jī)都得走完這固定的步數(shù)，沒(méi)有任何節(jié)省的余地。更關(guān)鍵的是，擴(kuò)散模型的訓(xùn)練目標(biāo)是最小化圖像像素上的誤差，它并不像語(yǔ)言模型那樣能給每個(gè)預(yù)測(cè)結(jié)果賦予一個(gè)"我有多少把握"的概率值，因此它天然不知道什么時(shí)候該"少走幾步"、什么時(shí)候該"多花力氣"。

自回歸模型則借鑒了ChatGPT"預(yù)測(cè)下一個(gè)詞"的思路，把圖像切成一個(gè)個(gè)小塊，依次預(yù)測(cè)每一塊應(yīng)該長(zhǎng)什么樣子。這種方法有一個(gè)天然的優(yōu)點(diǎn)：每一步預(yù)測(cè)都帶有概率，模型"知道"自己對(duì)某個(gè)塊有多少把握，這為自適應(yīng)計(jì)算提供了可能。然而，這條路有一道幾乎無(wú)法繞過(guò)的坎——圖像需要先被壓縮成離散的"圖塊編碼"（就像把連續(xù)的色彩畫(huà)面轉(zhuǎn)成一組有限的數(shù)字代碼），這個(gè)壓縮過(guò)程本身就會(huì)損失細(xì)節(jié)；更麻煩的是，預(yù)測(cè)是嚴(yán)格按順序進(jìn)行的，前面的塊一旦確定就無(wú)法更改，哪怕后來(lái)發(fā)現(xiàn)它畫(huà)錯(cuò)了，也只能將錯(cuò)就錯(cuò)地在錯(cuò)誤基礎(chǔ)上繼續(xù)。

一些改進(jìn)方案嘗試用"先遮住再猜"的方式（類(lèi)似完形填空）來(lái)并行預(yù)測(cè)多個(gè)塊，比如MaskGIT這樣的模型。但這類(lèi)方法依然有一個(gè)核心局限：高置信度的塊一旦確定下來(lái)，就再也不能被修改。整個(gè)過(guò)程中從來(lái)沒(méi)有一個(gè)"通盤(pán)審視、全面修正"的機(jī)會(huì)，錯(cuò)誤只能一路積累，無(wú)從糾偏。

二、把圖像壓縮做到"幾乎無(wú)損"——層級(jí)二進(jìn)制量化的原理

在正式介紹GRN的生成機(jī)制之前，有必要先理解團(tuán)隊(duì)為圖像"編碼"方式所做的革新，因?yàn)檫@是整個(gè)框架能夠高質(zhì)量運(yùn)作的基礎(chǔ)。

通常，AI生成模型在處理圖像之前，會(huì)先用一個(gè)稱(chēng)為"變分自編碼器"（VAE）的工具，把高分辨率圖像壓縮成一個(gè)緊湊的數(shù)學(xué)表示（稱(chēng)為"潛在空間"）。這個(gè)壓縮后的表示可以是連續(xù)的數(shù)值（就像一個(gè)精確的小數(shù)，比如3.14159...），也可以是離散的整數(shù)代碼（就像把顏色四舍五入為一個(gè)有限顏色板上的編號(hào)）。連續(xù)表示精度高但不適合直接做"語(yǔ)言模型式"的逐步預(yù)測(cè)；離散代碼適合預(yù)測(cè)，但壓縮時(shí)會(huì)損失細(xì)節(jié)。

字節(jié)跳動(dòng)的團(tuán)隊(duì)引入了一種叫做"層級(jí)二進(jìn)制量化"（Hierarchical Binary Quantization，簡(jiǎn)稱(chēng)HBQ）的方法，巧妙地在兩者之間找到了一條新路。

可以用一個(gè)猜數(shù)字游戲來(lái)理解HBQ的原理。假設(shè)你心里想著一個(gè)0到1之間的小數(shù)，比如0.73。規(guī)則是每次你只能告訴我"大還是小"，然后我來(lái)縮小猜測(cè)范圍。第一次，我猜0.5，你說(shuō)"大"，所以我知道答案在0.5到1之間；第二次，我猜0.75，你說(shuō)"小"，所以答案在0.5到0.75之間；第三次，我猜0.625，你說(shuō)"大"，范圍縮小到0.625到0.75……每次猜測(cè)，我需要記錄的只有你的回答："大"（用1表示）或"小"（用0表示）。經(jīng)過(guò)足夠多輪的"大/小"問(wèn)答，我就能把這個(gè)小數(shù)猜得無(wú)比精確，誤差以指數(shù)速度縮小。

HBQ就是把這個(gè)游戲應(yīng)用在圖像編碼的每一個(gè)數(shù)值上。VAE輸出的每個(gè)連續(xù)數(shù)值，經(jīng)過(guò)多輪"大/小"的二進(jìn)制判斷，被轉(zhuǎn)換成一串01序列。輪數(shù)越多，編碼越精確：4輪之后，誤差上界不超過(guò)原始范圍的6.25%；8輪之后，誤差已經(jīng)可以忽略不計(jì)，與不做量化的連續(xù)表示幾乎一致。研究團(tuán)隊(duì)用一幅艾菲爾鐵塔蛋糕的圖像直觀展示了這一點(diǎn)：僅用1輪量化時(shí)圖像模糊粗糙，但隨著輪數(shù)增加，圖像越來(lái)越接近原圖，到第4輪時(shí)已經(jīng)非常清晰，而這整個(gè)過(guò)程中，編碼所需的"通道數(shù)"（可以理解為存儲(chǔ)每個(gè)位置信息需要的數(shù)字個(gè)數(shù)）完全沒(méi)有增加。

這一點(diǎn)很關(guān)鍵，因?yàn)槠渌恍┰噲D縮小離散編碼與連續(xù)編碼質(zhì)量差距的方法（比如Infinity、BitDance），通常是靠大幅擴(kuò)展編碼維度來(lái)實(shí)現(xiàn)的，這就像為了記錄更精確的顏色，把調(diào)色板從256色擴(kuò)展到百萬(wàn)色。維度擴(kuò)展固然有效，但會(huì)直接導(dǎo)致生成模型需要處理更長(zhǎng)的序列，訓(xùn)練更慢，模型更大。HBQ則通過(guò)更聰明的量化策略，在不擴(kuò)展通道數(shù)的前提下實(shí)現(xiàn)了精度的大幅提升。

在實(shí)際測(cè)試中，僅使用4輪HBQ的圖像專(zhuān)用編碼器，在ImageNet 256×256的圖像重建測(cè)試中取得了0.56的rFID分?jǐn)?shù)，顯著優(yōu)于業(yè)界廣泛使用的SD-VAE（0.87）、LlamaGen所用的離散編碼器（2.19）以及Open-MAGVIT2（1.17），甚至超過(guò)了RAE這一專(zhuān)門(mén)為高質(zhì)量重建設(shè)計(jì)的連續(xù)編碼器（0.62）。對(duì)于視頻編碼，使用8輪HBQ的版本可以達(dá)到與同類(lèi)最優(yōu)連續(xù)編碼器（Wan 2.1）幾乎相同的重建質(zhì)量，但壓縮率是后者的4倍以上。

三、像畫(huà)家一樣"邊畫(huà)邊改"——GRN的核心生成機(jī)制

有了高質(zhì)量的離散編碼工具，GRN的生成框架才能在堅(jiān)實(shí)的基礎(chǔ)上運(yùn)作。

GRN的生成過(guò)程，從一張完全隨機(jī)的"亂碼圖"開(kāi)始。把這張亂碼圖想象成一張空白畫(huà)布上隨機(jī)撒了一把五彩碎片，什么都看不出來(lái)。GRN的任務(wù)就是把這堆碎片逐步整理成一幅完整的畫(huà)。

每一步，GRN會(huì)做三件事：第一，觀察當(dāng)前畫(huà)布的狀態(tài)（哪些位置已經(jīng)有了相對(duì)可靠的預(yù)測(cè)結(jié)果，哪些還是亂碼）；第二，基于當(dāng)前狀態(tài)，對(duì)所有位置同時(shí)做出一次完整的預(yù)測(cè)，給出它認(rèn)為整張畫(huà)應(yīng)該長(zhǎng)什么樣子；第三，隨機(jī)挑選一部分新預(yù)測(cè)的結(jié)果"落筆"到畫(huà)布上（替換掉原來(lái)那里的內(nèi)容，無(wú)論那里之前是亂碼還是上一步的預(yù)測(cè)），同時(shí)把剩余位置重新設(shè)為隨機(jī)亂碼，等待下一輪。

這個(gè)過(guò)程有三種操作被自然地統(tǒng)一在一起：對(duì)空白處"落筆填充"，對(duì)已有內(nèi)容"精化改進(jìn)"，以及對(duì)不合適的內(nèi)容"擦除重來(lái)"。隨著迭代步數(shù)增加，畫(huà)布上可靠預(yù)測(cè)覆蓋的比例從0%逐步上升到100%，亂碼區(qū)域越來(lái)越少，最終整張畫(huà)收斂到一個(gè)完整清晰的狀態(tài)。

這與傳統(tǒng)自回歸模型最根本的區(qū)別在于：在GRN的框架里，沒(méi)有任何一個(gè)位置的預(yù)測(cè)是"永久鎖定"的。每一步，模型都在重新審視整張畫(huà)，如果之前某個(gè)位置的預(yù)測(cè)在積累了更多上下文信息之后顯得不合適，它完全可以在下一步被"擦掉重畫(huà)"。這就像一位畫(huà)家不會(huì)在草圖階段就用永久記號(hào)筆落筆，而是一直用鉛筆，隨時(shí)準(zhǔn)備修改，直到整體效果令人滿意才最終定稿。

在訓(xùn)練階段，GRN會(huì)接受一種特殊的"殘缺輸入"：把真實(shí)圖像的一部分位置替換成隨機(jī)亂碼，然后要求模型預(yù)測(cè)出完整的真實(shí)圖像。替換比例在每次訓(xùn)練中隨機(jī)變化，從幾乎全部都是亂碼，到幾乎全部都是真實(shí)值，覆蓋各種場(chǎng)景。通過(guò)這種訓(xùn)練方式，模型學(xué)會(huì)了在"部分信息可靠、部分信息是噪聲"的混合狀態(tài)下，準(zhǔn)確辨別哪些輸入值得信賴(lài)、哪些需要忽略，并在此基礎(chǔ)上給出高質(zhì)量預(yù)測(cè)。

研究團(tuán)隊(duì)還驗(yàn)證了一個(gè)關(guān)鍵發(fā)現(xiàn)：在生成時(shí)，隨機(jī)選擇哪些預(yù)測(cè)結(jié)果被保留，比基于置信度選擇更有效。如果總是優(yōu)先保留"模型最有把握"的那些預(yù)測(cè)，會(huì)導(dǎo)致輸入的分布與訓(xùn)練時(shí)學(xué)到的分布不匹配，生成質(zhì)量反而大幅下降（FID從3.63跌至10.64）。這是因?yàn)槟Ｐ陀?xùn)練時(shí)接觸的輸入是隨機(jī)分布的，而高置信度選擇會(huì)造成輸入在空間上"扎堆"，破壞了模型賴(lài)以正常運(yùn)作的基本假設(shè)。

四、聰明地分配計(jì)算力——根據(jù)復(fù)雜度自動(dòng)調(diào)整步數(shù)

GRN解決的第二個(gè)大問(wèn)題，是如何根據(jù)生成內(nèi)容的難度自動(dòng)分配計(jì)算資源。

在生成過(guò)程中，GRN的每一步都會(huì)給出一個(gè)概率分布，表明它對(duì)每個(gè)位置的預(yù)測(cè)有多大把握。把這些把握程度匯總起來(lái)，就得到一個(gè)叫做"熵"（entropy）的指標(biāo)——熵越低，說(shuō)明模型越自信、內(nèi)容越簡(jiǎn)單；熵越高，說(shuō)明模型越迷茫、內(nèi)容越復(fù)雜。

GRN利用這個(gè)熵值來(lái)動(dòng)態(tài)決定還需要走多少步。對(duì)于一張只有藍(lán)天白云的簡(jiǎn)單圖像，模型很快就會(huì)表現(xiàn)出高度自信（低熵），GRN因此可以在較少的步數(shù)內(nèi)完成生成，節(jié)省大量計(jì)算；對(duì)于一張充滿細(xì)節(jié)的復(fù)雜城市夜景，模型的熵值會(huì)持續(xù)較高，GRN就會(huì)自動(dòng)安排更多步數(shù)來(lái)細(xì)細(xì)打磨。

實(shí)驗(yàn)中，研究團(tuán)隊(duì)將最大步數(shù)設(shè)為50、最小步數(shù)設(shè)為20，對(duì)6.3萬(wàn)張圖像進(jìn)行了生成。結(jié)果顯示，超過(guò)62.7%的圖像在不到50步時(shí)就達(dá)到了令人滿意的質(zhì)量，大約200張圖像甚至只用了最少的20步。與固定50步生成所有圖像相比，這種自適應(yīng)方案僅帶來(lái)了極小的質(zhì)量損失（FID從3.6微增至3.8），卻顯著減少了簡(jiǎn)單圖像的計(jì)算開(kāi)銷(xiāo)。

這種策略在文本生成圖像任務(wù)中同樣適用，研究團(tuán)隊(duì)將最小步數(shù)設(shè)為10。他們展示了同一批提示詞在10步、30步和50步下生成的對(duì)比結(jié)果，可以清晰看到：對(duì)于內(nèi)容簡(jiǎn)單的提示，10步的結(jié)果已經(jīng)相當(dāng)不錯(cuò)；對(duì)于需要精確細(xì)節(jié)的復(fù)雜場(chǎng)景，50步的額外打磨才能完全體現(xiàn)出優(yōu)勢(shì)。

五、兩種預(yù)測(cè)方式：預(yù)測(cè)"編號(hào)"還是預(yù)測(cè)"二進(jìn)制位"

GRN支持兩種不同的預(yù)測(cè)目標(biāo)，這兩種方式代表了不同的技術(shù)權(quán)衡。

第一種叫GRNind：把每個(gè)位置的HBQ編碼結(jié)果合并成一個(gè)整數(shù)編號(hào)（比如4輪量化后每個(gè)通道有16種可能，就預(yù)測(cè)0到15之間的哪個(gè)數(shù)字），有點(diǎn)像在一個(gè)有16色的色板上選顏色。第二種叫GRNbit：直接逐位預(yù)測(cè)每個(gè)二進(jìn)制值（每次只在0和1之間選一個(gè)），顆粒度更細(xì)，但每個(gè)位獨(dú)立預(yù)測(cè)，不同位之間沒(méi)有顯式的聯(lián)動(dòng)關(guān)系。

在比較簡(jiǎn)單的圖像分類(lèi)條件生成（C2I）任務(wù)上，兩種方式的表現(xiàn)幾乎相當(dāng)，小規(guī)模模型（GRN-B，1.3億參數(shù)）下預(yù)測(cè)編號(hào)略好，大規(guī)模模型（GRN-L，4.58億參數(shù)）下預(yù)測(cè)二進(jìn)制位略勝。但在更復(fù)雜的文本生成視頻任務(wù)上，預(yù)測(cè)二進(jìn)制位的方式明顯產(chǎn)生了更少的視覺(jué)瑕疵。研究團(tuán)隊(duì)分析認(rèn)為，這是因?yàn)轭A(yù)測(cè)編號(hào)時(shí)，相近的編號(hào)（如7和8）在數(shù)值上很接近，但它們代表的視覺(jué)內(nèi)容可能完全不同，容易出現(xiàn)"編號(hào)混淆"導(dǎo)致畫(huà)面失真；而預(yù)測(cè)二進(jìn)制位時(shí)，每一位的含義更清晰，監(jiān)督信號(hào)也更直接。至于"獨(dú)立預(yù)測(cè)每一位會(huì)不會(huì)忽視位與位之間的關(guān)聯(lián)"這個(gè)傳統(tǒng)顧慮，GRN的全局精化機(jī)制在多輪迭代中自然地處理了這種依賴(lài)關(guān)系，因此實(shí)際上并沒(méi)有造成明顯的質(zhì)量損失。

此外，研究團(tuán)隊(duì)還比較了"預(yù)測(cè)絕對(duì)值"與"預(yù)測(cè)差值"兩種策略。前者直接預(yù)測(cè)目標(biāo)編碼是什么，后者預(yù)測(cè)當(dāng)前編碼需要做哪些改動(dòng)（翻轉(zhuǎn)哪些二進(jìn)制位）。實(shí)驗(yàn)結(jié)果清晰地表明，預(yù)測(cè)絕對(duì)值的方式在生成結(jié)構(gòu)穩(wěn)定性方面明顯更好，預(yù)測(cè)差值的方式生成的圖像有時(shí)會(huì)出現(xiàn)結(jié)構(gòu)性錯(cuò)亂。

六、實(shí)驗(yàn)結(jié)果：新紀(jì)錄是怎么煉成的

在圖像生成的標(biāo)準(zhǔn)測(cè)試場(chǎng)景——ImageNet 256×256的類(lèi)別條件圖像生成任務(wù)上，GRN以四種規(guī)模（1.3億、4.58億、9.52億和20億參數(shù)）參與了與當(dāng)前最先進(jìn)方法的全面對(duì)比。

規(guī)模最小的GRN-B（1.3億參數(shù)）以3.56的FID分?jǐn)?shù)超越了參數(shù)量接近兩倍的MaskGIT（2.27億參數(shù)，F(xiàn)ID 6.18），效率優(yōu)勢(shì)非常突出。規(guī)模最大的GRN-G（20億參數(shù)）取得了1.81的FID，超越了同等規(guī)模的擴(kuò)散模型DiT-XL/2（2.27）、流匹配模型SiT-XL/2（2.06），以及同樣是20億參數(shù)的VAR-d30（1.92），也超越了更大規(guī)模的自回歸模型LlamaGen-XXL（14億參數(shù)，F(xiàn)ID 2.34）。

研究團(tuán)隊(duì)還做了一個(gè)頗具說(shuō)服力的對(duì)照實(shí)驗(yàn)，直接比較GRN的"全局精化"機(jī)制與MaskGIT風(fēng)格的"掩碼填充"機(jī)制。兩者使用完全相同的模型權(quán)重和解碼參數(shù)，唯一區(qū)別是生成時(shí)已確定的塊是否可以被修改。結(jié)果令人印象深刻：掩碼填充方式的FID直接崩到185.62，生成的圖像幾乎是無(wú)意義的噪聲；即使專(zhuān)門(mén)為掩碼填充方式調(diào)整解碼參數(shù)（提高CFG強(qiáng)度、降低溫度），最好也只能達(dá)到18.13的FID，與GRN精化機(jī)制的3.63相比差距懸殊。這個(gè)實(shí)驗(yàn)直接證明，允許"事后修改"的全局精化機(jī)制，才是這套框架能夠正常工作的根本所在。

在文本生成圖像任務(wù)上，GRN使用20億參數(shù)、基于約8000萬(wàn)圖像數(shù)據(jù)訓(xùn)練，在GenEval基準(zhǔn)測(cè)試上取得了0.76的綜合分?jǐn)?shù)。這一成績(jī)?cè)谕葏?shù)規(guī)模的方法中處于領(lǐng)先位置，顯著超越了同為20億參數(shù)的SD3 Medium（0.62）和Infinity（0.71）。與更大規(guī)模方法（如HiDream的170億參數(shù)、Qwen-Image的200億參數(shù)）相比，GRN以更小的體量取得了有競(jìng)爭(zhēng)力的表現(xiàn)，差距主要來(lái)自規(guī)模而非方法本身的局限。

在文本生成視頻任務(wù)上，GRN使用20億參數(shù)，在VBench綜合評(píng)分上取得了82.99分，超越了5倍參數(shù)規(guī)模的CogVideoX-5B（81.61）、同為離散方法的URSA（82.40），以及自回歸模型Nova、Emu3和Lumos-1。與擁有80億參數(shù)的InfinityStar（83.74）相比略低，研究團(tuán)隊(duì)認(rèn)為這一差距完全可以通過(guò)擴(kuò)展模型規(guī)模來(lái)彌合。

七、這套框架的局限與未來(lái)

研究團(tuán)隊(duì)坦誠(chéng)地指出了GRN目前存在的一些不足。由于計(jì)算資源的限制，GRN尚未被訓(xùn)練到與當(dāng)前最頂尖視覺(jué)生成模型（如Sora、Wan 2.1等）同等的規(guī)模，因此整體質(zhì)量上限尚未得到充分驗(yàn)證。在視頻生成方面，GRN在包含人物的場(chǎng)景中表現(xiàn)較好，但在生成具有豐富視覺(jué)細(xì)節(jié)的自然場(chǎng)景或非人物主導(dǎo)的內(nèi)容時(shí)，有時(shí)會(huì)出現(xiàn)細(xì)節(jié)不夠豐富或局部失真的問(wèn)題，研究團(tuán)隊(duì)認(rèn)為這主要與訓(xùn)練數(shù)據(jù)的分布不均衡有關(guān)，通過(guò)調(diào)整數(shù)據(jù)配比和擴(kuò)大模型規(guī)?？梢愿纳?。

在未來(lái)的研究方向上，研究團(tuán)隊(duì)特別提到了一個(gè)很有潛力的想法：將"步數(shù)蒸餾"技術(shù)引入GRN。這類(lèi)技術(shù)的作用類(lèi)似于培訓(xùn)一位效率極高的學(xué)徒——原本需要50步才能完成的精化過(guò)程，通過(guò)蒸餾可以壓縮成更少的步數(shù)，同時(shí)不損失太多質(zhì)量。由于GRN的自適應(yīng)步數(shù)機(jī)制天然兼容這種蒸餾方式，兩者結(jié)合有望進(jìn)一步降低生成成本。

研究團(tuán)隊(duì)還指出，GRN作為一個(gè)完全基于離散文本式 token 的自回歸框架，與現(xiàn)有大語(yǔ)言模型的整合非常自然。如果把文字 token 和圖像/視頻 token 放在同一個(gè)模型里統(tǒng)一訓(xùn)練，有望在一個(gè)模型內(nèi)同時(shí)實(shí)現(xiàn)多模態(tài)理解和生成能力，這是目前業(yè)界非常關(guān)注的一個(gè)研究方向。從這個(gè)角度來(lái)看，GRN可能成為目前主流的Transfusion架構(gòu)（把語(yǔ)言模型和擴(kuò)散模型混合在一起的方法）的有力競(jìng)爭(zhēng)者。

說(shuō)到底，GRN做的事情用一句話可以概括：它教會(huì)了AI按照人類(lèi)畫(huà)家的直覺(jué)來(lái)工作——不是機(jī)械地從噪點(diǎn)走到清晰，也不是一筆一畫(huà)地按順序落筆，而是像真正有經(jīng)驗(yàn)的創(chuàng)作者那樣，在整體與局部之間反復(fù)打磨，隨時(shí)糾錯(cuò)，直到整幅作品達(dá)到令人滿意的狀態(tài)。這種思路能否在更大的模型和更多樣的任務(wù)上持續(xù)奏效，將會(huì)是未來(lái)研究中值得關(guān)注的核心問(wèn)題。有興趣深入研究細(xì)節(jié)的讀者，可通過(guò)arXiv編號(hào)2604.13030找到完整論文，包括所有算法偽代碼和更多消融實(shí)驗(yàn)結(jié)果。

Q&A

Q1：GRN的"全局精化機(jī)制"和MaskGIT這類(lèi)掩碼生成模型有什么本質(zhì)區(qū)別？

A：MaskGIT在每一輪生成中，高置信度的token一旦被確定就永久固定，后續(xù)步驟只填充剩余空白位置，無(wú)法修改已有預(yù)測(cè)。GRN則完全不同，每一步都會(huì)對(duì)所有位置重新預(yù)測(cè)，隨機(jī)選擇哪些位置更新，已有內(nèi)容隨時(shí)可能被擦掉重畫(huà)。正是這種"沒(méi)有任何位置永久鎖定"的機(jī)制，讓模型能在積累更多上下文后糾正早期錯(cuò)誤。實(shí)驗(yàn)顯示，相同模型權(quán)重下，掩碼生成方式的FID高達(dá)185.62，而GRN精化機(jī)制僅為3.63。

Q2：層級(jí)二進(jìn)制量化（HBQ）相比傳統(tǒng)離散編碼方法有什么優(yōu)勢(shì)？

A：傳統(tǒng)離散編碼（如VQ-VAE、FSQ等）把連續(xù)特征直接對(duì)應(yīng)到一個(gè)有限的碼本條目，壓縮時(shí)會(huì)丟失大量細(xì)節(jié)。HBQ用多輪"大/小"二分判斷來(lái)逼近連續(xù)值，每增加一輪，誤差上界就縮小一半，誤差隨輪數(shù)呈指數(shù)級(jí)下降。關(guān)鍵在于，這種精度提升完全不需要增加特征通道數(shù)，避免了其他高精度離散編碼器通常帶來(lái)的模型變大、訓(xùn)練變慢的副作用。4輪HBQ在圖像重建上就達(dá)到了0.56的rFID，8輪則可與不做量化的連續(xù)編碼器性能持平。

Q3：GRN的自適應(yīng)步數(shù)機(jī)制是怎么判斷一張圖需要多少步生成的？

A：GRN在每一步生成時(shí)，會(huì)計(jì)算當(dāng)前預(yù)測(cè)結(jié)果的"熵值"——這個(gè)值反映模型對(duì)整張圖每個(gè)位置的把握程度。熵低說(shuō)明模型非常自信，內(nèi)容相對(duì)簡(jiǎn)單，可以快速收斂；熵高說(shuō)明內(nèi)容復(fù)雜或存在較大不確定性，需要更多步驟來(lái)打磨。系統(tǒng)根據(jù)熵值動(dòng)態(tài)調(diào)整后續(xù)步數(shù)，在設(shè)定的最小步數(shù)（如20步）和最大步數(shù)（如50步）之間靈活分配。實(shí)驗(yàn)顯示，超過(guò)62.7%的圖像不需要走完50步，有效減少了簡(jiǎn)單內(nèi)容的計(jì)算浪費(fèi)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.