国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

預測下一個像素還需要幾年?谷歌:五年夠了

0
分享至



機器之心報道

機器之心編輯部

既然語言可以當序列來學,那圖像能不能也當序列來學?

通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

從概念上講,下一像素預測非常容易擴展,因為它是無監(jiān)督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結(jié)構(gòu)施加了最少的歸納偏置。

然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

其主要原因在于出現(xiàn)了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

盡管研究重心已經(jīng)發(fā)生轉(zhuǎn)移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規(guī)模擴展下一像素預測,還有多遠?

不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

  • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
  • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結(jié)構(gòu)的影響。
  • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現(xiàn)清晰的結(jié)構(gòu)與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結(jié)果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實現(xiàn)計算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數(shù)量級(約 400 vs. 20)。

這一初步發(fā)現(xiàn)促使研究者進一步深入三個核心問題。第一,我們?nèi)绾慰煽康卦u估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

在固定的 32×32 分辨率下,實驗結(jié)果(見圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴目標任務,其中圖像生成質(zhì)量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態(tài)并非靜態(tài)不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長必須顯著快于數(shù)據(jù)規(guī)模的增長。

最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內(nèi)將變得可行。



  • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 論文地址:https://arxiv.org/pdf/2511.08704

方法介紹

本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結(jié)果發(fā)現(xiàn):

  • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優(yōu) scaling 需求也完全不同,其中生成任務要達到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長速度是分類任務的三到五倍。
  • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長得更快。更令人意外的是,根據(jù)趨勢外推,像素級模型的主要瓶頸并不是訓練數(shù)據(jù),而是計算量。

本文采用 Transformer 架構(gòu)進行研究,共四種規(guī)模,參數(shù)從 2800 萬到 4.49 億不等。Transformer 架構(gòu)的詳細信息列在表 1 中。



本文在 JFT-300M 數(shù)據(jù)集上進行預訓練,該數(shù)據(jù)集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數(shù)據(jù)集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉(zhuǎn)。

在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

實驗及結(jié)果

像素是否遵循與文本相同的規(guī)律?

答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



本文進一步計算了在不同訓練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數(shù)據(jù)量。

這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



總的來說,實驗結(jié)果顯示,下一像素預測的最優(yōu)擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

最優(yōu) scaling 是否能直接遷移到下游任務?

答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優(yōu)擴展策略對圖像生成來說并非最優(yōu)。具體而言,要獲得良好的生成質(zhì)量,需要一種更加數(shù)據(jù)驅(qū)動的 scaling 方式,即數(shù)據(jù)規(guī)模的增長速度必須明顯快于模型規(guī)模的增長速度。

不同任務的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

隨著圖像分辨率提升,最優(yōu) scaling 會改變嗎?

答案是會的。隨著圖像分辨率的提高,最優(yōu)擴展策略從在 32×32 分辨率下對模型規(guī)模與數(shù)據(jù)規(guī)模的平衡,轉(zhuǎn)變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數(shù)據(jù)。

圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現(xiàn)。

對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結(jié)構(gòu)變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



我們距離原始下一像素預測還有多遠?

目前由于巨大的計算成本而難以實際執(zhí)行,但逐像素建模在未來五年內(nèi)仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數(shù)據(jù)的可獲得性。本文預計在未來五年內(nèi),基于原始像素的學習將成為一條可行的發(fā)展方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

林輕吟
2026-03-01 19:35:00
《鏢人》背后資本局:吳京虧錢也要上,郭帆放棄投資

《鏢人》背后資本局:吳京虧錢也要上,郭帆放棄投資

光影新天地
2026-03-02 11:52:35
意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

王鶔吃吃喝喝
2026-01-16 13:57:53
股民系好安全帶了,明天3月3號,A股牛市能否再次歷史重演?

股民系好安全帶了,明天3月3號,A股牛市能否再次歷史重演?

股市皆大事
2026-03-02 16:12:09
國家正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

國家正式公布:2026年3月30日起全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

哄動一時啊
2026-03-02 17:21:01
鹿晗關曉彤集體辟謠,粉絲懸著的心終于放下了

鹿晗關曉彤集體辟謠,粉絲懸著的心終于放下了

喜歡歷史的阿繁
2026-03-02 16:23:13
特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動能持續(xù)多久?

特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動能持續(xù)多久?

新民晚報
2026-03-02 10:32:41
深圳市中心正在悄悄“搬家”?這2個區(qū)域正在強勢崛起!

深圳市中心正在悄悄“搬家”?這2個區(qū)域正在強勢崛起!

阿離家居
2026-03-02 12:48:09
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
中美沖突升級的下一步,一定是軍事較量,我們要做好全面準備

中美沖突升級的下一步,一定是軍事較量,我們要做好全面準備

曾經(jīng)年少
2025-04-14 16:03:33
前西甲球星穆尼爾駕車逃離伊朗,歷經(jīng)16小時陸路險境抵土

前西甲球星穆尼爾駕車逃離伊朗,歷經(jīng)16小時陸路險境抵土

星耀國際足壇
2026-03-02 11:46:44
哈梅內(nèi)伊被“斬首”,更大黑洞來了?

哈梅內(nèi)伊被“斬首”,更大黑洞來了?

中國新聞周刊
2026-03-01 23:26:00
中山醫(yī)學院不是中山大學醫(yī)學院,而是中山大學的醫(yī)學院!

中山醫(yī)學院不是中山大學醫(yī)學院,而是中山大學的醫(yī)學院!

金哥說新能源車
2026-03-02 00:42:53
為什么說臺海戰(zhàn)爭爆發(fā),日本的介入比美國支持臺灣還要可怕?

為什么說臺海戰(zhàn)爭爆發(fā),日本的介入比美國支持臺灣還要可怕?

細語
2025-11-17 10:23:19
韓國網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬韓幣!

韓國網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬韓幣!

奮斗在韓國
2026-03-02 11:00:03
氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

沒有偏旁的常慶
2026-03-01 07:00:11
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

夢史
2026-03-01 11:22:23
保命、保飯碗、保霸權(quán)!美以打擊伊朗的真實目的全露了

保命、保飯碗、保霸權(quán)!美以打擊伊朗的真實目的全露了

Ck的蜜糖
2026-03-03 00:21:07
輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

安珈使者啊
2025-12-25 14:25:42
美媒承認:B-21要執(zhí)行地球上最艱巨任務,但無法突破中國防空網(wǎng)!

美媒承認:B-21要執(zhí)行地球上最艱巨任務,但無法突破中國防空網(wǎng)!

小楊侃事
2026-03-03 00:15:52
2026-03-03 01:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術
手機
旅游
教育
時尚

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

手機要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動島

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

今年春天一定要擁有的4件衣服,太好看了!

無障礙瀏覽 進入關懷版