国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

預測下一個像素還需要幾年?谷歌:五年夠了

0
分享至



機器之心報道

機器之心編輯部

既然語言可以當序列來學,那圖像能不能也當序列來學?

通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

從概念上講,下一像素預測非常容易擴展,因為它是無監(jiān)督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

其主要原因在于出現了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

盡管研究重心已經發(fā)生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規(guī)模擴展下一像素預測,還有多遠?

不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

  • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
  • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
  • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實現計算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20)。

這一初步發(fā)現促使研究者進一步深入三個核心問題。第一,我們如何可靠地評估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴目標任務,其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態(tài)并非靜態(tài)不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長必須顯著快于數據規(guī)模的增長。

最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內將變得可行。



  • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 論文地址:https://arxiv.org/pdf/2511.08704

方法介紹

本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量。結果發(fā)現:

  • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優(yōu) scaling 需求也完全不同,其中生成任務要達到最優(yōu)效果所需的數據規(guī)模增長速度是分類任務的三到五倍。
  • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數據規(guī)模增長得更快。更令人意外的是,根據趨勢外推,像素級模型的主要瓶頸并不是訓練數據,而是計算量。

本文采用 Transformer 架構進行研究,共四種規(guī)模,參數從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



本文在 JFT-300M 數據集上進行預訓練,該數據集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數據集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

實驗及結果

像素是否遵循與文本相同的規(guī)律?

答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



本文進一步計算了在不同訓練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數據量。

這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



總的來說,實驗結果顯示,下一像素預測的最優(yōu)擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

最優(yōu) scaling 是否能直接遷移到下游任務?

答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優(yōu)擴展策略對圖像生成來說并非最優(yōu)。具體而言,要獲得良好的生成質量,需要一種更加數據驅動的 scaling 方式,即數據規(guī)模的增長速度必須明顯快于模型規(guī)模的增長速度。

不同任務的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

隨著圖像分辨率提升,最優(yōu) scaling 會改變嗎?

答案是會的。隨著圖像分辨率的提高,最優(yōu)擴展策略從在 32×32 分辨率下對模型規(guī)模與數據規(guī)模的平衡,轉變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數據。

圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現。

對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



我們距離原始下一像素預測還有多遠?

目前由于巨大的計算成本而難以實際執(zhí)行,但逐像素建模在未來五年內仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數據的可獲得性。本文預計在未來五年內,基于原始像素的學習將成為一條可行的發(fā)展方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

收藏大視界
2026-02-28 23:03:27
特朗普稱同意與伊朗新領導層對話

特朗普稱同意與伊朗新領導層對話

每日經濟新聞
2026-03-02 08:17:27
特朗普怎么都沒想到,哈梅內伊生前最后一項安排,讓美以進退兩難

特朗普怎么都沒想到,哈梅內伊生前最后一項安排,讓美以進退兩難

藍色海邊
2026-03-03 00:27:07
國際原子能機構總干事表示未發(fā)現伊朗核武制造計劃

國際原子能機構總干事表示未發(fā)現伊朗核武制造計劃

財聯社
2026-03-03 00:37:09
救命,國產爛片又刷新下限了

救命,國產爛片又刷新下限了

喵喵娛樂團
2026-02-28 16:41:47
凌晨浦東機場:四女孩險飛泰國,兩分鐘之差險釀悲劇

凌晨浦東機場:四女孩險飛泰國,兩分鐘之差險釀悲劇

劉拕說體壇
2026-03-02 09:03:39
2月車市,再給新能源汽車潑一大盆冷水,涼透了

2月車市,再給新能源汽車潑一大盆冷水,涼透了

互聯網.亂侃秀
2026-03-02 10:06:29
華國鋒擔任中央主席時,中央先后任命了15位開國將帥輔佐他

華國鋒擔任中央主席時,中央先后任命了15位開國將帥輔佐他

雍親王府
2026-03-02 15:55:03
欠中國的錢,委內瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

欠中國的錢,委內瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

萌城少年強
2026-01-22 12:47:40
伊朗戰(zhàn)事升級,對中國5大產業(yè)影響深遠,普通人別只看熱鬧

伊朗戰(zhàn)事升級,對中國5大產業(yè)影響深遠,普通人別只看熱鬧

觸摸史跡
2026-03-02 21:14:00
向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

談史論天地
2026-02-10 08:16:24
白忙活了?特朗普萬萬沒想到,哈梅內伊殉職后,伊朗軍隊沒人叛逃

白忙活了?特朗普萬萬沒想到,哈梅內伊殉職后,伊朗軍隊沒人叛逃

楠楠自語
2026-03-02 22:31:05
這個死磕王楚欽的裁判,決賽就沒讓她上場

這個死磕王楚欽的裁判,決賽就沒讓她上場

楊仔述
2026-03-02 11:13:02
人可以狠心到什么程度?看網友講述,發(fā)現我真做不到這般絕

人可以狠心到什么程度?看網友講述,發(fā)現我真做不到這般絕

侃神評故事
2026-02-27 07:40:03
回顧:女碩士被丈夫用拖鞋拍死,生前求饒2小時:我懷著你的弟弟

回顧:女碩士被丈夫用拖鞋拍死,生前求饒2小時:我懷著你的弟弟

談史論天地
2026-03-02 13:11:55
法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
歷史性轉折!黎巴嫩正式清場真主黨,中東格局一夜改寫

歷史性轉折!黎巴嫩正式清場真主黨,中東格局一夜改寫

老馬拉車莫少裝
2026-03-02 23:27:10
550億美元砸進炮火:一場工業(yè)體系的極限對沖

550億美元砸進炮火:一場工業(yè)體系的極限對沖

七分日記
2026-02-26 23:01:48
真香預警 低價MacBook性價比無敵!降維打擊Windows、等等黨最終歸宿

真香預警 低價MacBook性價比無敵!降維打擊Windows、等等黨最終歸宿

快科技
2026-03-02 10:50:12
內賈德遇害細節(jié)公布,家中遭毒手,本人和保鏢雙雙殞命?

內賈德遇害細節(jié)公布,家中遭毒手,本人和保鏢雙雙殞命?

小影的娛樂
2026-03-03 00:46:39
2026-03-03 01:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

油價飆升 美伊沖突將如何攪動全球經濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

健康
時尚
本地
家居
軍事航空

轉頭就暈的耳石癥,能開車上班嗎?

今年春天一定要擁有的4件衣服,太好看了!

本地新聞

津南好·四時總相宜

家居要聞

萬物互聯 享科技福祉

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版