国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

預(yù)測(cè)下一個(gè)像素還需要幾年?谷歌:五年夠了

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

既然語言可以當(dāng)序列來學(xué),那圖像能不能也當(dāng)序列來學(xué)?

通過將圖像表示為像素序列,先前的研究表明通過下一像素預(yù)測(cè),可以以一種簡(jiǎn)單、端到端的方式同時(shí)學(xué)習(xí)視覺識(shí)別與生成。

從概念上講,下一像素預(yù)測(cè)非常容易擴(kuò)展,因?yàn)樗菬o監(jiān)督學(xué)習(xí):無需任何人工標(biāo)注。同時(shí),將圖像表示為像素序列,也對(duì)圖像結(jié)構(gòu)施加了最少的歸納偏置。

然而,盡管像素級(jí)端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

其主要原因在于出現(xiàn)了計(jì)算效率更高的方法,例如:使用視覺 tokenizer 進(jìn)行 patch 級(jí)別學(xué)習(xí)。

盡管研究重心已經(jīng)發(fā)生轉(zhuǎn)移,但一個(gè)簡(jiǎn)單卻極其關(guān)鍵的問題仍未被回答:我們距離真正大規(guī)模擴(kuò)展下一像素預(yù)測(cè),還有多遠(yuǎn)?

不可否認(rèn),相比自然語言中的下一詞預(yù)測(cè),下一像素預(yù)測(cè)要困難得多,主要有以下幾點(diǎn)原因:

  • 首先,像素的語義信息極低。一個(gè)句子里的詞通常包含豐富含義,而一個(gè)像素只是一點(diǎn)顏色信息,兩者差距巨大。
  • 其次,像素之間的空間關(guān)系非常復(fù)雜,不容易用序列方式來表示。一個(gè)像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結(jié)構(gòu)的影響。
  • 第三,隨著圖像分辨率升高,下一像素預(yù)測(cè)的計(jì)算量會(huì)急劇增加。例如,要生成一張 128 × 128 的圖片,一個(gè)自回歸模型必須逐個(gè)預(yù)測(cè) 16,384 個(gè)像素,一步都不能少。

在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預(yù)測(cè)在圖像識(shí)別與圖像生成兩類任務(wù)中的擴(kuò)展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現(xiàn)清晰的結(jié)構(gòu)與可辨識(shí)的物體交互,因此可被視為對(duì)原生高分辨率圖像的一種有意義的近似。

實(shí)驗(yàn)基于下一像素預(yù)測(cè)損失進(jìn)行了初始 scaling 實(shí)驗(yàn)。如圖 1 (a) 所示,結(jié)果表明:相較于文本 token,原始像素的學(xué)習(xí)需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實(shí)現(xiàn)計(jì)算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個(gè)數(shù)量級(jí)(約 400 vs. 20)。

這一初步發(fā)現(xiàn)促使研究者進(jìn)一步深入三個(gè)核心問題。第一,我們?nèi)绾慰煽康卦u(píng)估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實(shí)驗(yàn))?第二,基于下一像素預(yù)測(cè)損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(wù)(如分類與圖像補(bǔ)全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢(shì)會(huì)如何變化?

為回答這些問題,本文圍繞三類指標(biāo)進(jìn)行了系列可控實(shí)驗(yàn)。

在固定的 32×32 分辨率下,實(shí)驗(yàn)結(jié)果(見圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴目標(biāo)任務(wù),其中圖像生成質(zhì)量需要比分類任務(wù)或下一像素預(yù)測(cè)任務(wù)更大的 token-parameter 比例。此外,這些 scaling 動(dòng)態(tài)并非靜態(tài)不變;對(duì) 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長(zhǎng)必須顯著快于數(shù)據(jù)規(guī)模的增長(zhǎng)。

最后,鑒于訓(xùn)練算力正以每年四到五倍的速度增長(zhǎng),本文預(yù)測(cè)逐像素建模方式在未來五年內(nèi)將變得可行。



  • 論文標(biāo)題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 論文地址:https://arxiv.org/pdf/2511.08704

方法介紹

本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓(xùn)練了一系列 Transformer 模型,最大計(jì)算量達(dá)到 7e19 FLOPs,并從三個(gè)不同指標(biāo)對(duì)其性能進(jìn)行評(píng)估:下一像素預(yù)測(cè)目標(biāo)、ImageNet 分類準(zhǔn)確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結(jié)果發(fā)現(xiàn):

  • 首先,最佳擴(kuò)展策略強(qiáng)烈依賴任務(wù)類型:即使在固定的 32×32 分辨率下,分類任務(wù)與生成任務(wù)的最優(yōu) scaling 需求也完全不同,其中生成任務(wù)要達(dá)到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長(zhǎng)速度是分類任務(wù)的三到五倍。
  • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長(zhǎng)得更快。更令人意外的是,根據(jù)趨勢(shì)外推,像素級(jí)模型的主要瓶頸并不是訓(xùn)練數(shù)據(jù),而是計(jì)算量。

本文采用 Transformer 架構(gòu)進(jìn)行研究,共四種規(guī)模,參數(shù)從 2800 萬到 4.49 億不等。Transformer 架構(gòu)的詳細(xì)信息列在表 1 中。



本文在 JFT-300M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓(xùn)練集的 10 倍以上。在分辨率為 32×32 的條件下,對(duì)數(shù)據(jù)集完整遍歷一遍相當(dāng)于處理超過 3000 億個(gè)像素。訓(xùn)練過程采用標(biāo)準(zhǔn)的 Inception 風(fēng)格隨機(jī)裁剪,并以 50% 概率進(jìn)行水平翻轉(zhuǎn)。

在評(píng)估上,本文進(jìn)行了兩種評(píng)估方式,即圖像分類和圖像補(bǔ)全。

實(shí)驗(yàn)及結(jié)果

像素是否遵循與文本相同的規(guī)律?

答案是肯定的:對(duì)原始像素預(yù)測(cè)的擴(kuò)展趨勢(shì)與文本類似、可預(yù)測(cè),但效率要低得多。由于單個(gè)像素所攜帶的語義信息遠(yuǎn)少于語言 token,本文估計(jì)模型在學(xué)習(xí)原始像素時(shí),需要比語言模型多 10–20 倍的 token-per-parameter 才能達(dá)到有效學(xué)習(xí)。



本文進(jìn)一步計(jì)算了在不同訓(xùn)練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語言模型進(jìn)行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓(xùn)練預(yù)算下,學(xué)習(xí)原始像素仍然需要比語言 token 多 10–20 倍的數(shù)據(jù)量。

這表明,即便在低分辨率 32×32 圖像中,單個(gè)像素的語義信息密度仍遠(yuǎn)低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個(gè)詞是高度壓縮的符號(hào),攜帶著大量抽象信息:它是一種動(dòng)物,有毛,會(huì)喵叫,有胡須。而單個(gè)像素本身幾乎不包含語義,因?yàn)樗念伾悼赡芡瑫r(shí)對(duì)應(yīng)貓、汽車或天空的一部分。



總的來說,實(shí)驗(yàn)結(jié)果顯示,下一像素預(yù)測(cè)的最優(yōu)擴(kuò)展趨勢(shì)的確可以通過語言模型中已成熟的 scaling 框架進(jìn)行預(yù)測(cè)。

最優(yōu) scaling 是否能直接遷移到下游任務(wù)?

答案是不行,至少不是以一種簡(jiǎn)單方式。在固定的 32×32 分辨率下,由下一像素預(yù)測(cè)損失得到的最優(yōu)擴(kuò)展策略對(duì)圖像生成來說并非最優(yōu)。具體而言,要獲得良好的生成質(zhì)量,需要一種更加數(shù)據(jù)驅(qū)動(dòng)的 scaling 方式,即數(shù)據(jù)規(guī)模的增長(zhǎng)速度必須明顯快于模型規(guī)模的增長(zhǎng)速度。

不同任務(wù)的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨(dú)立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預(yù)測(cè)損失、ImageNet 分類 top-1 準(zhǔn)確率以及基于圖像補(bǔ)全的 Fréchet Distance 之間存在明顯差別。

隨著圖像分辨率提升,最優(yōu) scaling 會(huì)改變嗎?

答案是會(huì)的。隨著圖像分辨率的提高,最優(yōu)擴(kuò)展策略從在 32×32 分辨率下對(duì)模型規(guī)模與數(shù)據(jù)規(guī)模的平衡,轉(zhuǎn)變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數(shù)據(jù)。

圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓(xùn)練模型能夠提升下游任務(wù)表現(xiàn)。

對(duì)于圖像分類,從 16×16 切換到 32×32 時(shí)能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進(jìn)。這表明:對(duì)于 ImageNet 分類任務(wù),在 32×32 之后,進(jìn)一步提升分辨率的收益趨于減弱。

相比之下,對(duì)于圖像生成,32×32 附近的 scaling 趨勢(shì)并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進(jìn)。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結(jié)構(gòu)變得更復(fù)雜、更真實(shí)。抽象語義在低分辨率即可有效捕獲,而細(xì)粒度紋理則需要更高分辨率。



我們距離原始下一像素預(yù)測(cè)還有多遠(yuǎn)?

目前由于巨大的計(jì)算成本而難以實(shí)際執(zhí)行,但逐像素建模在未來五年內(nèi)仍是一條可行路徑,并能達(dá)到具有競(jìng)爭(zhēng)力的性能。其主要瓶頸是計(jì)算量,而不是訓(xùn)練數(shù)據(jù)的可獲得性。本文預(yù)計(jì)在未來五年內(nèi),基于原始像素的學(xué)習(xí)將成為一條可行的發(fā)展方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

影視情報(bào)室
2026-04-19 02:15:08
伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

小豫講故事
2026-04-19 06:00:10
50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國(guó)工廠贏了

50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國(guó)工廠贏了

隨遇而安之心
2026-04-20 03:17:52
與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

情感大頭說說
2026-04-18 21:06:00
不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

舊時(shí)光老師
2026-04-19 19:08:29
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

夜深愛雜談
2025-12-02 20:51:10
她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

以茶帶書
2026-04-19 16:46:39
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

天天熱點(diǎn)見聞
2026-04-18 08:09:59
極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

懂球帝
2026-04-20 00:22:46
性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

加油丁小文
2026-04-03 11:30:07
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢(shì)

巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢(shì)

新華社
2026-04-20 04:39:03
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

壹心理
2026-04-19 11:03:36
抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

懂球帝
2026-04-19 22:36:59
古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

奧拜爾
2026-04-19 13:40:33
韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

火山詩話
2026-04-19 15:02:27
2026-04-20 05:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時(shí)尚
親子
教育
數(shù)碼
手機(jī)

裝修“精神角落”,就是這么上癮

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

教育要聞

南昌縣全民閱讀活動(dòng)在斗柏路小學(xué)開展

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

無障礙瀏覽 進(jìn)入關(guān)懷版