国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自回歸也能做強(qiáng)視覺模型?NEPA「下一嵌入預(yù)測」時(shí)代,謝賽寧參與

0
分享至



編輯|Panda

眾所周知,LeCun 不喜自回歸,并且還提出了一種名為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的新方向,并且該方向也一直在有新成果涌現(xiàn)。

然而,自回歸模型的成功也是有目共睹的,尤其是在語言領(lǐng)域。那么,生成式預(yù)訓(xùn)練在自然語言上的成功能否在視覺領(lǐng)域重現(xiàn)呢?

近日,密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對(duì)此給出了肯定答案。

只不過,他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征,而是讓它們生成嵌入(embeddings)以直接執(zhí)行預(yù)測任務(wù)??梢哉f,這是從學(xué)習(xí)表征(learning representations)到學(xué)習(xí)模型(learning models)的一種范式轉(zhuǎn)變。

具體而言,模型會(huì)通過因果掩碼(causal masking)和停止梯度(stop gradient),以過去圖塊嵌入為條件,學(xué)習(xí)預(yù)測未來的圖塊嵌入。類似于下一 token 預(yù)測,該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測自回歸(Next-Embedding Predictive Autoregression),簡稱NEPA



  • 論文標(biāo)題:Next-Embedding Prediction Makes Strong Vision Learners
  • 論文地址:https://arxiv.org/abs/2512.16922v1
  • 項(xiàng)目地址:https://sihanxu.me/nepa/
  • 代碼地址:https://github.com/SihanXU/nepa
  • 模型地址:https://huggingface.co/collections/SixAILab/nepa

該論文目前正是 alphaXiv 上熱度第一的論文。



本文第一作者為 Sihan Xu,密歇根大學(xué)博士生,導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu;這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。

范式的轉(zhuǎn)變

視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石,使得無需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。

其核心目標(biāo)是學(xué)習(xí)表征(learn representations):優(yōu)化模型,從而將原始像素映射到固定維度的表征,這些表征隨后可被使用或針對(duì)下游任務(wù)進(jìn)行微調(diào)。

這一哲學(xué)統(tǒng)一了基于實(shí)例判別(instance discrimination)、自蒸餾(self-distillation)和掩碼重建(masked reconstruction)的方法。

其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊(從輕量級(jí)的特定于任務(wù)的頭到諸如視覺 - 語言模型等大型級(jí)聯(lián)系統(tǒng))所使用的視覺表征。

現(xiàn)代自然語言處理的成功則建立在一個(gè)根本不同的范式之上。

語言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器;而是作為生成式和預(yù)測式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入,而是通過一個(gè)簡單的因果目標(biāo)(causal objective)對(duì)數(shù)據(jù)分布本身進(jìn)行建模。

這種訓(xùn)練會(huì)迫使模型內(nèi)化語言中的語義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過程,而是由模型本身執(zhí)行的單一預(yù)測計(jì)算。

這一區(qū)別至關(guān)重要,涉及根本。它表明:生成式預(yù)測(而非表征學(xué)習(xí))可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。

最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如:

  • 早期的像素級(jí)生成式預(yù)訓(xùn)練(iGPT)展示了可遷移的特征,但在處理超長序列和弱語義對(duì)齊方面表現(xiàn)一般。
  • JEPA 超越了像素層面,通過預(yù)測潛在目標(biāo)(latent targets)來更緊密地與語義結(jié)構(gòu)對(duì)齊。然而,JEPA 依然是通過從動(dòng)量編碼器(momentum encoder)回歸到潛在目標(biāo)來進(jìn)行訓(xùn)練,而不是將生成式預(yù)測作為自監(jiān)督目標(biāo)。

基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。

具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器?

具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

該團(tuán)隊(duì)對(duì)目標(biāo)嵌入使用停止梯度(stop-gradient)以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測任務(wù)。這種形式是刻意保持極簡的。它不需要像素級(jí)解碼器、不需要離散的視覺 Tokenizer(分詞器),也不需要對(duì)比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對(duì)或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號(hào)源于模型在嵌入空間中預(yù)測未來的能力。

于是乎,一個(gè)新的模型家族誕生了:下一嵌入預(yù)測自回歸(NEPA)

下一嵌入預(yù)測自回歸(NEPA)

整體來看,NEPA 方法是極簡主義的。如果說現(xiàn)在的視覺模型都在比拼誰的裝備更復(fù)雜(動(dòng)量編碼器、解碼器、離散 Tokenizer……),那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場的選手。它的核心哲學(xué)非常簡單:像 GPT 預(yù)測下一個(gè)詞那樣,去預(yù)測圖像的下一個(gè)「特征塊」。



其核心思路可以總結(jié)如下:

  • 切塊與編碼:首先,把一張圖切成若干小塊(Patch),每一塊通過編碼器變成一個(gè)向量(Embedding)。
  • 預(yù)測未來:觀看前面的塊,猜下一塊長什么樣。這和語言模型(LLM)的「下一詞預(yù)測」相似,只不過這里處理的是連續(xù)的數(shù)學(xué)向量,而不是離散的詞。
  • 防止「作弊」:為了防止模型偷懶(比如輸出一樣的結(jié)果),作者借用了 SimSiam 的經(jīng)典招數(shù):停止梯度(Stop-Gradient)。簡單說,就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止,不參與反向傳播。這就像是射箭時(shí),靶子必須固定,不能讓你把靶子移到箭射中的地方。

具體到架構(gòu)設(shè)計(jì)上,他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer(ViT)主干網(wǎng)絡(luò)。

與像素級(jí)重建方法不同,該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過去的圖像塊嵌入來預(yù)測未來的圖像塊嵌入,使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測,這與自回歸語言模型類似。圖像通過一個(gè)二維卷積(Conv2d)圖像塊嵌入層被分割成不重疊的圖像塊,并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。

他們采用了帶有層歸一化(LayerNorm) 的預(yù)歸一化設(shè)計(jì),并對(duì)輸出特征應(yīng)用最終的層歸一化。

為了提高穩(wěn)定性和可擴(kuò)展性,該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法,如圖 2 所示。



這些模型設(shè)計(jì)有助于訓(xùn)練,但與核心框架無關(guān),感興趣的讀者可參閱原論文以及相關(guān)論文。

訓(xùn)練好之后怎么用呢?換個(gè)「頭」就行。下面是兩個(gè)例子:

  • 分類:取出最后一個(gè)預(yù)測出來的嵌入向量,接個(gè)簡單的分類頭,就能識(shí)別這是貓還是狗。
  • 分割:接一個(gè) UPerNet 頭。有趣的是,雖然訓(xùn)練時(shí)是「只看過去」的單向預(yù)測,但在做分割這種需要全局信息的任務(wù)時(shí),可以解除封印,開啟雙向注意力(Bidirectional Attention),讓模型看清全圖。

總之,NEPA 證明了,只要你有一個(gè)好的預(yù)測目標(biāo),就不需要那些花里胡哨的架構(gòu),一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧,就能成為頂級(jí)的視覺學(xué)習(xí)者。

實(shí)驗(yàn)結(jié)果

在量化性能方面,NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。

僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練,NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率,這一成績優(yōu)于 MoCo v3、BEiT,并與 MAE 和 JEPA 處于同一水平。



更重要的是,盡管預(yù)訓(xùn)練過程中從未涉及像素重建,NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力,在 ADE20K 語義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU,證明了純粹的嵌入預(yù)測足以學(xué)習(xí)到處理密集預(yù)測任務(wù)所需的豐富語義特征。



最后,通過對(duì)模型內(nèi)部注意力和嵌入的可視化分析,研究揭示了 NEPA 的有效性來源。



可視化結(jié)果顯示,模型自動(dòng)學(xué)會(huì)了長距離且以對(duì)象為中心的注意力模式,能夠忽略背景干擾,將注意力集中在語義相關(guān)的區(qū)域。同時(shí),預(yù)測出的嵌入向量在語義上與屬于同一物體的其他圖塊高度相似,表明模型并非死記硬背局部紋理,而是真正理解了物體層面的結(jié)構(gòu)。

這種通過簡單的「下一嵌入預(yù)測」所習(xí)得的全局語義依賴,不僅驗(yàn)證了該方法的有效性,也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無需復(fù)雜手工設(shè)計(jì)的通用視角。

消融實(shí)驗(yàn)和更多詳情請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張馨予曬媽媽織的圍巾!隨手一披美的驚艷,還被稱呼為寶寶好幸福

張馨予曬媽媽織的圍巾!隨手一披美的驚艷,還被稱呼為寶寶好幸福

暫停白晝
2026-01-09 17:28:41
沖上熱搜!中小學(xué)期末統(tǒng)考取消,包括高一高二,多地發(fā)出通知!

沖上熱搜!中小學(xué)期末統(tǒng)考取消,包括高一高二,多地發(fā)出通知!

南京擇校
2026-01-09 22:33:09
足總杯6-7大冷門,罰丟2點(diǎn)球釀苦果,英超球隊(duì)遭低級(jí)別球隊(duì)淘汰出局

足總杯6-7大冷門,罰丟2點(diǎn)球釀苦果,英超球隊(duì)遭低級(jí)別球隊(duì)淘汰出局

側(cè)身凌空斬
2026-01-10 06:15:26
2026換證大潮來襲!身份證“長期”竟是坑?這些人必須提前準(zhǔn)備

2026換證大潮來襲!身份證“長期”竟是坑?這些人必須提前準(zhǔn)備

老特有話說
2026-01-09 00:10:02
重磅:特朗普稱哈梅內(nèi)伊準(zhǔn)備逃亡!對(duì)伊朗發(fā)出打擊威脅

重磅:特朗普稱哈梅內(nèi)伊準(zhǔn)備逃亡!對(duì)伊朗發(fā)出打擊威脅

項(xiàng)鵬飛
2026-01-09 20:25:08
周琦失誤珀賽爾絕殺!謝智杰末節(jié)封神 山東4人滿分,許導(dǎo)驗(yàn)貨失敗

周琦失誤珀賽爾絕殺!謝智杰末節(jié)封神 山東4人滿分,許導(dǎo)驗(yàn)貨失敗

后仰大風(fēng)車
2026-01-09 21:38:37
臺(tái)退役上校呼吁:只要大陸答應(yīng)2個(gè)條件,臺(tái)灣隨時(shí)可以和平統(tǒng)一!

臺(tái)退役上校呼吁:只要大陸答應(yīng)2個(gè)條件,臺(tái)灣隨時(shí)可以和平統(tǒng)一!

科普100克克
2026-01-09 10:38:43
江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

界面新聞
2026-01-09 09:20:58
跟學(xué)歷低的妹子談戀愛是什么體驗(yàn)?如果你被她吸引,不妨放下預(yù)設(shè)

跟學(xué)歷低的妹子談戀愛是什么體驗(yàn)?如果你被她吸引,不妨放下預(yù)設(shè)

另子維愛讀史
2026-01-09 22:06:39
“走腎”黃暴,尺度盛宴,女主一個(gè)比一個(gè)“胸猛”,此片驚艷

“走腎”黃暴,尺度盛宴,女主一個(gè)比一個(gè)“胸猛”,此片驚艷

棱鏡電影
2025-12-07 19:24:26
WTT冠軍賽:國乒男單接近全軍覆沒!僅1人晉級(jí)4強(qiáng),全力以赴沖冠

WTT冠軍賽:國乒男單接近全軍覆沒!僅1人晉級(jí)4強(qiáng),全力以赴沖冠

國乒二三事
2026-01-10 06:13:21
外交上無知,軍事上無能,政治上無恥,最終拉開了中國近代史序幕

外交上無知,軍事上無能,政治上無恥,最終拉開了中國近代史序幕

何氽簡史
2026-01-09 21:20:17
綁架馬杜羅的“原班人馬”,全部飛抵歐洲,美軍第二戰(zhàn)已確定目標(biāo)

綁架馬杜羅的“原班人馬”,全部飛抵歐洲,美軍第二戰(zhàn)已確定目標(biāo)

依偎在角落
2026-01-07 10:30:44
一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

寄史言志
2026-01-09 17:55:10
閆學(xué)晶兒子上新疆班風(fēng)波升級(jí)!大量博主吐槽其違規(guī),網(wǎng)友義憤填膺

閆學(xué)晶兒子上新疆班風(fēng)波升級(jí)!大量博主吐槽其違規(guī),網(wǎng)友義憤填膺

小徐講八卦
2026-01-09 10:41:44
只差15分了!杜蘭特將超越張伯倫升至歷史第7 隊(duì)友期待見證里程碑

只差15分了!杜蘭特將超越張伯倫升至歷史第7 隊(duì)友期待見證里程碑

羅說NBA
2026-01-10 05:09:35
前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個(gè)產(chǎn)業(yè)鏈全干光

前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個(gè)產(chǎn)業(yè)鏈全干光

顧史
2026-01-03 17:17:39
官宣辟謠!鹿晗這波操作,關(guān)曉彤顏面何存?

官宣辟謠!鹿晗這波操作,關(guān)曉彤顏面何存?

搞笑娛樂笑話
2026-01-08 22:12:49
無錫博物院嚴(yán)正聲明!

無錫博物院嚴(yán)正聲明!

江南晚報(bào)
2026-01-09 17:46:57
一位47歲太太因布置太精致走紅,雖不奢華,卻滿滿生活氣息

一位47歲太太因布置太精致走紅,雖不奢華,卻滿滿生活氣息

時(shí)尚舒適家
2026-01-08 08:57:52
2026-01-10 07:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普:美扣押一艘離開委內(nèi)瑞拉油輪 石油將出售

頭條要聞

特朗普:美扣押一艘離開委內(nèi)瑞拉油輪 石油將出售

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

家居
健康
游戲
教育
時(shí)尚

家居要聞

木色留白 演繹現(xiàn)代自由

這些新療法,讓化療不再那么痛苦

怎么會(huì)有游戲上來就說自己的新服活不過10天?。?/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 怎么會(huì)有游戲上來就說自己的新服活不過10天?。?廉頗 202...

教育要聞

女生考中央司法警官學(xué)院?四大要求精準(zhǔn)達(dá)標(biāo)!

推廣中獎(jiǎng)名單-更新至2025年12月19日推廣

無障礙瀏覽 進(jìn)入關(guān)懷版