国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)跳動(dòng)發(fā)布GRN:像畫(huà)家一樣"邊畫(huà)邊改"的AI圖像生成新范式

0
分享至


這項(xiàng)由字節(jié)跳動(dòng)研究團(tuán)隊(duì)完成的研究以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.13030,有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

每當(dāng)我們談到AI生成圖片或視頻,大多數(shù)人腦海中浮現(xiàn)的場(chǎng)景是:機(jī)器從一團(tuán)噪點(diǎn)出發(fā),一步步"去噪",最終呈現(xiàn)出一幅清晰的畫(huà)面。這就是目前最流行的擴(kuò)散模型的工作方式,就像把一張被雨水打濕模糊的照片,一遍遍擦干,直到圖像清晰。這套方法確實(shí)強(qiáng)大,但有一個(gè)根本性的問(wèn)題——不管你畫(huà)的是一只簡(jiǎn)單的貓,還是一幅復(fù)雜的城市夜景,機(jī)器都要花同樣多的時(shí)間和計(jì)算力去"擦照片",完全不分輕重緩急。

另一條技術(shù)路線叫做自回歸模型,它的靈感來(lái)自大語(yǔ)言模型(比如ChatGPT)。這類(lèi)模型會(huì)像寫(xiě)文章一樣,一個(gè)字一個(gè)字地預(yù)測(cè)圖像的每個(gè)小塊,聽(tīng)起來(lái)很聰明,但它有一個(gè)致命弱點(diǎn):一旦某個(gè)塊寫(xiě)錯(cuò)了,后面的內(nèi)容全部在錯(cuò)誤的基礎(chǔ)上繼續(xù)疊加,就像在一張已經(jīng)畫(huà)歪的草稿上繼續(xù)描繪,越畫(huà)越錯(cuò),卻沒(méi)有辦法回頭修改。

字節(jié)跳動(dòng)的研究團(tuán)隊(duì)注意到了這兩條路線各自的短板,并提出了一套全新的框架——生成式精化網(wǎng)絡(luò)(Generative Refinement Networks,簡(jiǎn)稱(chēng)GRN)。這套方法的核心理念來(lái)自一個(gè)樸素的觀察:人類(lèi)畫(huà)家是怎么畫(huà)畫(huà)的?他們不會(huì)一筆定終稿,而是先勾勒輪廓,再逐步細(xì)化,隨時(shí)可以擦掉不滿意的地方重畫(huà)。GRN就是在模仿這種"邊畫(huà)邊改、全局打磨"的創(chuàng)作方式,同時(shí)還能根據(jù)畫(huà)面內(nèi)容的復(fù)雜程度,自動(dòng)決定要花多少時(shí)間和精力來(lái)完成這幅作品。

在ImageNet這個(gè)圖像生成領(lǐng)域最權(quán)威的測(cè)試臺(tái)上,GRN創(chuàng)下了圖像重建分?jǐn)?shù)0.56(rFID)和圖像生成質(zhì)量1.81(gFID)的雙項(xiàng)新紀(jì)錄,超越了包括擴(kuò)散模型和其他自回歸模型在內(nèi)的眾多方法。研究團(tuán)隊(duì)還將這套框架擴(kuò)展到了文本生成圖像(最高支持1024×1024分辨率)和文本生成視頻(支持480p、2到10秒的動(dòng)態(tài)視頻),在同等參數(shù)規(guī)模下均取得了領(lǐng)先表現(xiàn)。

一、AI畫(huà)畫(huà)的兩條老路,各有各的煩惱

要理解GRN為什么重要,先得明白現(xiàn)有方法卡在哪里。

擴(kuò)散模型的工作原理,本質(zhì)上像是反向播放一段"把畫(huà)攪亂"的視頻。訓(xùn)練時(shí),系統(tǒng)學(xué)習(xí)如何把一張清晰的圖片逐漸加入噪聲直到變成一團(tuán)雜亂;生成時(shí),系統(tǒng)從這團(tuán)雜亂出發(fā),反向走完這段路,還原出一張新圖像。整個(gè)過(guò)程需要走固定的步數(shù),比如50步或者100步,不多也不少。無(wú)論你要生成的是一張純色背景上的蘋(píng)果,還是一個(gè)充滿人物、建筑、光影的復(fù)雜場(chǎng)景,計(jì)算機(jī)都得走完這固定的步數(shù),沒(méi)有任何節(jié)省的余地。更關(guān)鍵的是,擴(kuò)散模型的訓(xùn)練目標(biāo)是最小化圖像像素上的誤差,它并不像語(yǔ)言模型那樣能給每個(gè)預(yù)測(cè)結(jié)果賦予一個(gè)"我有多少把握"的概率值,因此它天然不知道什么時(shí)候該"少走幾步"、什么時(shí)候該"多花力氣"。

自回歸模型則借鑒了ChatGPT"預(yù)測(cè)下一個(gè)詞"的思路,把圖像切成一個(gè)個(gè)小塊,依次預(yù)測(cè)每一塊應(yīng)該長(zhǎng)什么樣子。這種方法有一個(gè)天然的優(yōu)點(diǎn):每一步預(yù)測(cè)都帶有概率,模型"知道"自己對(duì)某個(gè)塊有多少把握,這為自適應(yīng)計(jì)算提供了可能。然而,這條路有一道幾乎無(wú)法繞過(guò)的坎——圖像需要先被壓縮成離散的"圖塊編碼"(就像把連續(xù)的色彩畫(huà)面轉(zhuǎn)成一組有限的數(shù)字代碼),這個(gè)壓縮過(guò)程本身就會(huì)損失細(xì)節(jié);更麻煩的是,預(yù)測(cè)是嚴(yán)格按順序進(jìn)行的,前面的塊一旦確定就無(wú)法更改,哪怕后來(lái)發(fā)現(xiàn)它畫(huà)錯(cuò)了,也只能將錯(cuò)就錯(cuò)地在錯(cuò)誤基礎(chǔ)上繼續(xù)。

一些改進(jìn)方案嘗試用"先遮住再猜"的方式(類(lèi)似完形填空)來(lái)并行預(yù)測(cè)多個(gè)塊,比如MaskGIT這樣的模型。但這類(lèi)方法依然有一個(gè)核心局限:高置信度的塊一旦確定下來(lái),就再也不能被修改。整個(gè)過(guò)程中從來(lái)沒(méi)有一個(gè)"通盤(pán)審視、全面修正"的機(jī)會(huì),錯(cuò)誤只能一路積累,無(wú)從糾偏。

二、把圖像壓縮做到"幾乎無(wú)損"——層級(jí)二進(jìn)制量化的原理

在正式介紹GRN的生成機(jī)制之前,有必要先理解團(tuán)隊(duì)為圖像"編碼"方式所做的革新,因?yàn)檫@是整個(gè)框架能夠高質(zhì)量運(yùn)作的基礎(chǔ)。

通常,AI生成模型在處理圖像之前,會(huì)先用一個(gè)稱(chēng)為"變分自編碼器"(VAE)的工具,把高分辨率圖像壓縮成一個(gè)緊湊的數(shù)學(xué)表示(稱(chēng)為"潛在空間")。這個(gè)壓縮后的表示可以是連續(xù)的數(shù)值(就像一個(gè)精確的小數(shù),比如3.14159...),也可以是離散的整數(shù)代碼(就像把顏色四舍五入為一個(gè)有限顏色板上的編號(hào))。連續(xù)表示精度高但不適合直接做"語(yǔ)言模型式"的逐步預(yù)測(cè);離散代碼適合預(yù)測(cè),但壓縮時(shí)會(huì)損失細(xì)節(jié)。

字節(jié)跳動(dòng)的團(tuán)隊(duì)引入了一種叫做"層級(jí)二進(jìn)制量化"(Hierarchical Binary Quantization,簡(jiǎn)稱(chēng)HBQ)的方法,巧妙地在兩者之間找到了一條新路。

可以用一個(gè)猜數(shù)字游戲來(lái)理解HBQ的原理。假設(shè)你心里想著一個(gè)0到1之間的小數(shù),比如0.73。規(guī)則是每次你只能告訴我"大還是小",然后我來(lái)縮小猜測(cè)范圍。第一次,我猜0.5,你說(shuō)"大",所以我知道答案在0.5到1之間;第二次,我猜0.75,你說(shuō)"小",所以答案在0.5到0.75之間;第三次,我猜0.625,你說(shuō)"大",范圍縮小到0.625到0.75……每次猜測(cè),我需要記錄的只有你的回答:"大"(用1表示)或"小"(用0表示)。經(jīng)過(guò)足夠多輪的"大/小"問(wèn)答,我就能把這個(gè)小數(shù)猜得無(wú)比精確,誤差以指數(shù)速度縮小。

HBQ就是把這個(gè)游戲應(yīng)用在圖像編碼的每一個(gè)數(shù)值上。VAE輸出的每個(gè)連續(xù)數(shù)值,經(jīng)過(guò)多輪"大/小"的二進(jìn)制判斷,被轉(zhuǎn)換成一串01序列。輪數(shù)越多,編碼越精確:4輪之后,誤差上界不超過(guò)原始范圍的6.25%;8輪之后,誤差已經(jīng)可以忽略不計(jì),與不做量化的連續(xù)表示幾乎一致。研究團(tuán)隊(duì)用一幅艾菲爾鐵塔蛋糕的圖像直觀展示了這一點(diǎn):僅用1輪量化時(shí)圖像模糊粗糙,但隨著輪數(shù)增加,圖像越來(lái)越接近原圖,到第4輪時(shí)已經(jīng)非常清晰,而這整個(gè)過(guò)程中,編碼所需的"通道數(shù)"(可以理解為存儲(chǔ)每個(gè)位置信息需要的數(shù)字個(gè)數(shù))完全沒(méi)有增加。

這一點(diǎn)很關(guān)鍵,因?yàn)槠渌恍┰噲D縮小離散編碼與連續(xù)編碼質(zhì)量差距的方法(比如Infinity、BitDance),通常是靠大幅擴(kuò)展編碼維度來(lái)實(shí)現(xiàn)的,這就像為了記錄更精確的顏色,把調(diào)色板從256色擴(kuò)展到百萬(wàn)色。維度擴(kuò)展固然有效,但會(huì)直接導(dǎo)致生成模型需要處理更長(zhǎng)的序列,訓(xùn)練更慢,模型更大。HBQ則通過(guò)更聰明的量化策略,在不擴(kuò)展通道數(shù)的前提下實(shí)現(xiàn)了精度的大幅提升。

在實(shí)際測(cè)試中,僅使用4輪HBQ的圖像專(zhuān)用編碼器,在ImageNet 256×256的圖像重建測(cè)試中取得了0.56的rFID分?jǐn)?shù),顯著優(yōu)于業(yè)界廣泛使用的SD-VAE(0.87)、LlamaGen所用的離散編碼器(2.19)以及Open-MAGVIT2(1.17),甚至超過(guò)了RAE這一專(zhuān)門(mén)為高質(zhì)量重建設(shè)計(jì)的連續(xù)編碼器(0.62)。對(duì)于視頻編碼,使用8輪HBQ的版本可以達(dá)到與同類(lèi)最優(yōu)連續(xù)編碼器(Wan 2.1)幾乎相同的重建質(zhì)量,但壓縮率是后者的4倍以上。

三、像畫(huà)家一樣"邊畫(huà)邊改"——GRN的核心生成機(jī)制

有了高質(zhì)量的離散編碼工具,GRN的生成框架才能在堅(jiān)實(shí)的基礎(chǔ)上運(yùn)作。

GRN的生成過(guò)程,從一張完全隨機(jī)的"亂碼圖"開(kāi)始。把這張亂碼圖想象成一張空白畫(huà)布上隨機(jī)撒了一把五彩碎片,什么都看不出來(lái)。GRN的任務(wù)就是把這堆碎片逐步整理成一幅完整的畫(huà)。

每一步,GRN會(huì)做三件事:第一,觀察當(dāng)前畫(huà)布的狀態(tài)(哪些位置已經(jīng)有了相對(duì)可靠的預(yù)測(cè)結(jié)果,哪些還是亂碼);第二,基于當(dāng)前狀態(tài),對(duì)所有位置同時(shí)做出一次完整的預(yù)測(cè),給出它認(rèn)為整張畫(huà)應(yīng)該長(zhǎng)什么樣子;第三,隨機(jī)挑選一部分新預(yù)測(cè)的結(jié)果"落筆"到畫(huà)布上(替換掉原來(lái)那里的內(nèi)容,無(wú)論那里之前是亂碼還是上一步的預(yù)測(cè)),同時(shí)把剩余位置重新設(shè)為隨機(jī)亂碼,等待下一輪。

這個(gè)過(guò)程有三種操作被自然地統(tǒng)一在一起:對(duì)空白處"落筆填充",對(duì)已有內(nèi)容"精化改進(jìn)",以及對(duì)不合適的內(nèi)容"擦除重來(lái)"。隨著迭代步數(shù)增加,畫(huà)布上可靠預(yù)測(cè)覆蓋的比例從0%逐步上升到100%,亂碼區(qū)域越來(lái)越少,最終整張畫(huà)收斂到一個(gè)完整清晰的狀態(tài)。

這與傳統(tǒng)自回歸模型最根本的區(qū)別在于:在GRN的框架里,沒(méi)有任何一個(gè)位置的預(yù)測(cè)是"永久鎖定"的。每一步,模型都在重新審視整張畫(huà),如果之前某個(gè)位置的預(yù)測(cè)在積累了更多上下文信息之后顯得不合適,它完全可以在下一步被"擦掉重畫(huà)"。這就像一位畫(huà)家不會(huì)在草圖階段就用永久記號(hào)筆落筆,而是一直用鉛筆,隨時(shí)準(zhǔn)備修改,直到整體效果令人滿意才最終定稿。

在訓(xùn)練階段,GRN會(huì)接受一種特殊的"殘缺輸入":把真實(shí)圖像的一部分位置替換成隨機(jī)亂碼,然后要求模型預(yù)測(cè)出完整的真實(shí)圖像。替換比例在每次訓(xùn)練中隨機(jī)變化,從幾乎全部都是亂碼,到幾乎全部都是真實(shí)值,覆蓋各種場(chǎng)景。通過(guò)這種訓(xùn)練方式,模型學(xué)會(huì)了在"部分信息可靠、部分信息是噪聲"的混合狀態(tài)下,準(zhǔn)確辨別哪些輸入值得信賴(lài)、哪些需要忽略,并在此基礎(chǔ)上給出高質(zhì)量預(yù)測(cè)。

研究團(tuán)隊(duì)還驗(yàn)證了一個(gè)關(guān)鍵發(fā)現(xiàn):在生成時(shí),隨機(jī)選擇哪些預(yù)測(cè)結(jié)果被保留,比基于置信度選擇更有效。如果總是優(yōu)先保留"模型最有把握"的那些預(yù)測(cè),會(huì)導(dǎo)致輸入的分布與訓(xùn)練時(shí)學(xué)到的分布不匹配,生成質(zhì)量反而大幅下降(FID從3.63跌至10.64)。這是因?yàn)槟P陀?xùn)練時(shí)接觸的輸入是隨機(jī)分布的,而高置信度選擇會(huì)造成輸入在空間上"扎堆",破壞了模型賴(lài)以正常運(yùn)作的基本假設(shè)。

四、聰明地分配計(jì)算力——根據(jù)復(fù)雜度自動(dòng)調(diào)整步數(shù)

GRN解決的第二個(gè)大問(wèn)題,是如何根據(jù)生成內(nèi)容的難度自動(dòng)分配計(jì)算資源。

在生成過(guò)程中,GRN的每一步都會(huì)給出一個(gè)概率分布,表明它對(duì)每個(gè)位置的預(yù)測(cè)有多大把握。把這些把握程度匯總起來(lái),就得到一個(gè)叫做"熵"(entropy)的指標(biāo)——熵越低,說(shuō)明模型越自信、內(nèi)容越簡(jiǎn)單;熵越高,說(shuō)明模型越迷茫、內(nèi)容越復(fù)雜。

GRN利用這個(gè)熵值來(lái)動(dòng)態(tài)決定還需要走多少步。對(duì)于一張只有藍(lán)天白云的簡(jiǎn)單圖像,模型很快就會(huì)表現(xiàn)出高度自信(低熵),GRN因此可以在較少的步數(shù)內(nèi)完成生成,節(jié)省大量計(jì)算;對(duì)于一張充滿細(xì)節(jié)的復(fù)雜城市夜景,模型的熵值會(huì)持續(xù)較高,GRN就會(huì)自動(dòng)安排更多步數(shù)來(lái)細(xì)細(xì)打磨。

實(shí)驗(yàn)中,研究團(tuán)隊(duì)將最大步數(shù)設(shè)為50、最小步數(shù)設(shè)為20,對(duì)6.3萬(wàn)張圖像進(jìn)行了生成。結(jié)果顯示,超過(guò)62.7%的圖像在不到50步時(shí)就達(dá)到了令人滿意的質(zhì)量,大約200張圖像甚至只用了最少的20步。與固定50步生成所有圖像相比,這種自適應(yīng)方案僅帶來(lái)了極小的質(zhì)量損失(FID從3.6微增至3.8),卻顯著減少了簡(jiǎn)單圖像的計(jì)算開(kāi)銷(xiāo)。

這種策略在文本生成圖像任務(wù)中同樣適用,研究團(tuán)隊(duì)將最小步數(shù)設(shè)為10。他們展示了同一批提示詞在10步、30步和50步下生成的對(duì)比結(jié)果,可以清晰看到:對(duì)于內(nèi)容簡(jiǎn)單的提示,10步的結(jié)果已經(jīng)相當(dāng)不錯(cuò);對(duì)于需要精確細(xì)節(jié)的復(fù)雜場(chǎng)景,50步的額外打磨才能完全體現(xiàn)出優(yōu)勢(shì)。

五、兩種預(yù)測(cè)方式:預(yù)測(cè)"編號(hào)"還是預(yù)測(cè)"二進(jìn)制位"

GRN支持兩種不同的預(yù)測(cè)目標(biāo),這兩種方式代表了不同的技術(shù)權(quán)衡。

第一種叫GRNind:把每個(gè)位置的HBQ編碼結(jié)果合并成一個(gè)整數(shù)編號(hào)(比如4輪量化后每個(gè)通道有16種可能,就預(yù)測(cè)0到15之間的哪個(gè)數(shù)字),有點(diǎn)像在一個(gè)有16色的色板上選顏色。第二種叫GRNbit:直接逐位預(yù)測(cè)每個(gè)二進(jìn)制值(每次只在0和1之間選一個(gè)),顆粒度更細(xì),但每個(gè)位獨(dú)立預(yù)測(cè),不同位之間沒(méi)有顯式的聯(lián)動(dòng)關(guān)系。

在比較簡(jiǎn)單的圖像分類(lèi)條件生成(C2I)任務(wù)上,兩種方式的表現(xiàn)幾乎相當(dāng),小規(guī)模模型(GRN-B,1.3億參數(shù))下預(yù)測(cè)編號(hào)略好,大規(guī)模模型(GRN-L,4.58億參數(shù))下預(yù)測(cè)二進(jìn)制位略勝。但在更復(fù)雜的文本生成視頻任務(wù)上,預(yù)測(cè)二進(jìn)制位的方式明顯產(chǎn)生了更少的視覺(jué)瑕疵。研究團(tuán)隊(duì)分析認(rèn)為,這是因?yàn)轭A(yù)測(cè)編號(hào)時(shí),相近的編號(hào)(如7和8)在數(shù)值上很接近,但它們代表的視覺(jué)內(nèi)容可能完全不同,容易出現(xiàn)"編號(hào)混淆"導(dǎo)致畫(huà)面失真;而預(yù)測(cè)二進(jìn)制位時(shí),每一位的含義更清晰,監(jiān)督信號(hào)也更直接。至于"獨(dú)立預(yù)測(cè)每一位會(huì)不會(huì)忽視位與位之間的關(guān)聯(lián)"這個(gè)傳統(tǒng)顧慮,GRN的全局精化機(jī)制在多輪迭代中自然地處理了這種依賴(lài)關(guān)系,因此實(shí)際上并沒(méi)有造成明顯的質(zhì)量損失。

此外,研究團(tuán)隊(duì)還比較了"預(yù)測(cè)絕對(duì)值"與"預(yù)測(cè)差值"兩種策略。前者直接預(yù)測(cè)目標(biāo)編碼是什么,后者預(yù)測(cè)當(dāng)前編碼需要做哪些改動(dòng)(翻轉(zhuǎn)哪些二進(jìn)制位)。實(shí)驗(yàn)結(jié)果清晰地表明,預(yù)測(cè)絕對(duì)值的方式在生成結(jié)構(gòu)穩(wěn)定性方面明顯更好,預(yù)測(cè)差值的方式生成的圖像有時(shí)會(huì)出現(xiàn)結(jié)構(gòu)性錯(cuò)亂。

六、實(shí)驗(yàn)結(jié)果:新紀(jì)錄是怎么煉成的

在圖像生成的標(biāo)準(zhǔn)測(cè)試場(chǎng)景——ImageNet 256×256的類(lèi)別條件圖像生成任務(wù)上,GRN以四種規(guī)模(1.3億、4.58億、9.52億和20億參數(shù))參與了與當(dāng)前最先進(jìn)方法的全面對(duì)比。

規(guī)模最小的GRN-B(1.3億參數(shù))以3.56的FID分?jǐn)?shù)超越了參數(shù)量接近兩倍的MaskGIT(2.27億參數(shù),F(xiàn)ID 6.18),效率優(yōu)勢(shì)非常突出。規(guī)模最大的GRN-G(20億參數(shù))取得了1.81的FID,超越了同等規(guī)模的擴(kuò)散模型DiT-XL/2(2.27)、流匹配模型SiT-XL/2(2.06),以及同樣是20億參數(shù)的VAR-d30(1.92),也超越了更大規(guī)模的自回歸模型LlamaGen-XXL(14億參數(shù),F(xiàn)ID 2.34)。

研究團(tuán)隊(duì)還做了一個(gè)頗具說(shuō)服力的對(duì)照實(shí)驗(yàn),直接比較GRN的"全局精化"機(jī)制與MaskGIT風(fēng)格的"掩碼填充"機(jī)制。兩者使用完全相同的模型權(quán)重和解碼參數(shù),唯一區(qū)別是生成時(shí)已確定的塊是否可以被修改。結(jié)果令人印象深刻:掩碼填充方式的FID直接崩到185.62,生成的圖像幾乎是無(wú)意義的噪聲;即使專(zhuān)門(mén)為掩碼填充方式調(diào)整解碼參數(shù)(提高CFG強(qiáng)度、降低溫度),最好也只能達(dá)到18.13的FID,與GRN精化機(jī)制的3.63相比差距懸殊。這個(gè)實(shí)驗(yàn)直接證明,允許"事后修改"的全局精化機(jī)制,才是這套框架能夠正常工作的根本所在。

在文本生成圖像任務(wù)上,GRN使用20億參數(shù)、基于約8000萬(wàn)圖像數(shù)據(jù)訓(xùn)練,在GenEval基準(zhǔn)測(cè)試上取得了0.76的綜合分?jǐn)?shù)。這一成績(jī)?cè)谕葏?shù)規(guī)模的方法中處于領(lǐng)先位置,顯著超越了同為20億參數(shù)的SD3 Medium(0.62)和Infinity(0.71)。與更大規(guī)模方法(如HiDream的170億參數(shù)、Qwen-Image的200億參數(shù))相比,GRN以更小的體量取得了有競(jìng)爭(zhēng)力的表現(xiàn),差距主要來(lái)自規(guī)模而非方法本身的局限。

在文本生成視頻任務(wù)上,GRN使用20億參數(shù),在VBench綜合評(píng)分上取得了82.99分,超越了5倍參數(shù)規(guī)模的CogVideoX-5B(81.61)、同為離散方法的URSA(82.40),以及自回歸模型Nova、Emu3和Lumos-1。與擁有80億參數(shù)的InfinityStar(83.74)相比略低,研究團(tuán)隊(duì)認(rèn)為這一差距完全可以通過(guò)擴(kuò)展模型規(guī)模來(lái)彌合。

七、這套框架的局限與未來(lái)

研究團(tuán)隊(duì)坦誠(chéng)地指出了GRN目前存在的一些不足。由于計(jì)算資源的限制,GRN尚未被訓(xùn)練到與當(dāng)前最頂尖視覺(jué)生成模型(如Sora、Wan 2.1等)同等的規(guī)模,因此整體質(zhì)量上限尚未得到充分驗(yàn)證。在視頻生成方面,GRN在包含人物的場(chǎng)景中表現(xiàn)較好,但在生成具有豐富視覺(jué)細(xì)節(jié)的自然場(chǎng)景或非人物主導(dǎo)的內(nèi)容時(shí),有時(shí)會(huì)出現(xiàn)細(xì)節(jié)不夠豐富或局部失真的問(wèn)題,研究團(tuán)隊(duì)認(rèn)為這主要與訓(xùn)練數(shù)據(jù)的分布不均衡有關(guān),通過(guò)調(diào)整數(shù)據(jù)配比和擴(kuò)大模型規(guī)??梢愿纳?。

在未來(lái)的研究方向上,研究團(tuán)隊(duì)特別提到了一個(gè)很有潛力的想法:將"步數(shù)蒸餾"技術(shù)引入GRN。這類(lèi)技術(shù)的作用類(lèi)似于培訓(xùn)一位效率極高的學(xué)徒——原本需要50步才能完成的精化過(guò)程,通過(guò)蒸餾可以壓縮成更少的步數(shù),同時(shí)不損失太多質(zhì)量。由于GRN的自適應(yīng)步數(shù)機(jī)制天然兼容這種蒸餾方式,兩者結(jié)合有望進(jìn)一步降低生成成本。

研究團(tuán)隊(duì)還指出,GRN作為一個(gè)完全基于離散文本式 token 的自回歸框架,與現(xiàn)有大語(yǔ)言模型的整合非常自然。如果把文字 token 和圖像/視頻 token 放在同一個(gè)模型里統(tǒng)一訓(xùn)練,有望在一個(gè)模型內(nèi)同時(shí)實(shí)現(xiàn)多模態(tài)理解和生成能力,這是目前業(yè)界非常關(guān)注的一個(gè)研究方向。從這個(gè)角度來(lái)看,GRN可能成為目前主流的Transfusion架構(gòu)(把語(yǔ)言模型和擴(kuò)散模型混合在一起的方法)的有力競(jìng)爭(zhēng)者。

說(shuō)到底,GRN做的事情用一句話可以概括:它教會(huì)了AI按照人類(lèi)畫(huà)家的直覺(jué)來(lái)工作——不是機(jī)械地從噪點(diǎn)走到清晰,也不是一筆一畫(huà)地按順序落筆,而是像真正有經(jīng)驗(yàn)的創(chuàng)作者那樣,在整體與局部之間反復(fù)打磨,隨時(shí)糾錯(cuò),直到整幅作品達(dá)到令人滿意的狀態(tài)。這種思路能否在更大的模型和更多樣的任務(wù)上持續(xù)奏效,將會(huì)是未來(lái)研究中值得關(guān)注的核心問(wèn)題。有興趣深入研究細(xì)節(jié)的讀者,可通過(guò)arXiv編號(hào)2604.13030找到完整論文,包括所有算法偽代碼和更多消融實(shí)驗(yàn)結(jié)果。

Q&A

Q1:GRN的"全局精化機(jī)制"和MaskGIT這類(lèi)掩碼生成模型有什么本質(zhì)區(qū)別?

A:MaskGIT在每一輪生成中,高置信度的token一旦被確定就永久固定,后續(xù)步驟只填充剩余空白位置,無(wú)法修改已有預(yù)測(cè)。GRN則完全不同,每一步都會(huì)對(duì)所有位置重新預(yù)測(cè),隨機(jī)選擇哪些位置更新,已有內(nèi)容隨時(shí)可能被擦掉重畫(huà)。正是這種"沒(méi)有任何位置永久鎖定"的機(jī)制,讓模型能在積累更多上下文后糾正早期錯(cuò)誤。實(shí)驗(yàn)顯示,相同模型權(quán)重下,掩碼生成方式的FID高達(dá)185.62,而GRN精化機(jī)制僅為3.63。

Q2:層級(jí)二進(jìn)制量化(HBQ)相比傳統(tǒng)離散編碼方法有什么優(yōu)勢(shì)?

A:傳統(tǒng)離散編碼(如VQ-VAE、FSQ等)把連續(xù)特征直接對(duì)應(yīng)到一個(gè)有限的碼本條目,壓縮時(shí)會(huì)丟失大量細(xì)節(jié)。HBQ用多輪"大/小"二分判斷來(lái)逼近連續(xù)值,每增加一輪,誤差上界就縮小一半,誤差隨輪數(shù)呈指數(shù)級(jí)下降。關(guān)鍵在于,這種精度提升完全不需要增加特征通道數(shù),避免了其他高精度離散編碼器通常帶來(lái)的模型變大、訓(xùn)練變慢的副作用。4輪HBQ在圖像重建上就達(dá)到了0.56的rFID,8輪則可與不做量化的連續(xù)編碼器性能持平。

Q3:GRN的自適應(yīng)步數(shù)機(jī)制是怎么判斷一張圖需要多少步生成的?

A:GRN在每一步生成時(shí),會(huì)計(jì)算當(dāng)前預(yù)測(cè)結(jié)果的"熵值"——這個(gè)值反映模型對(duì)整張圖每個(gè)位置的把握程度。熵低說(shuō)明模型非常自信,內(nèi)容相對(duì)簡(jiǎn)單,可以快速收斂;熵高說(shuō)明內(nèi)容復(fù)雜或存在較大不確定性,需要更多步驟來(lái)打磨。系統(tǒng)根據(jù)熵值動(dòng)態(tài)調(diào)整后續(xù)步數(shù),在設(shè)定的最小步數(shù)(如20步)和最大步數(shù)(如50步)之間靈活分配。實(shí)驗(yàn)顯示,超過(guò)62.7%的圖像不需要走完50步,有效減少了簡(jiǎn)單內(nèi)容的計(jì)算浪費(fèi)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說(shuō)NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

悠悠說(shuō)世界
2026-04-25 14:03:58
賴(lài)清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴(lài)清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說(shuō)
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

薛定諤的BUG
2026-04-27 22:37:44
賴(lài)清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

賴(lài)清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開(kāi)房,女人每次偷情都在車(chē)?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂(lè)悠悠
2026-04-27 09:21:13
5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

洞見(jiàn)小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

藝術(shù)
家居
本地
手機(jī)
數(shù)碼

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大?。?/h3>

家居要聞

江景風(fēng)格 流動(dòng)的秩序

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

手機(jī)要聞

三星裸眼3D屏來(lái)了,廣告牌能“跳”出來(lái)

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開(kāi)啟預(yù)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版