網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

自回歸也能做強(qiáng)視覺模型？NEPA「下一嵌入預(yù)測(cè)」時(shí)代，謝賽寧參與

2026-01-04 17:37:14　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Panda

眾所周知，LeCun 不喜自回歸，并且還提出了一種名為聯(lián)合嵌入預(yù)測(cè)架構(gòu)（JEPA）的新方向，并且該方向也一直在有新成果涌現(xiàn)。

然而，自回歸模型的成功也是有目共睹的，尤其是在語(yǔ)言領(lǐng)域。那么，生成式預(yù)訓(xùn)練在自然語(yǔ)言上的成功能否在視覺領(lǐng)域重現(xiàn)呢？

近日，密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對(duì)此給出了肯定答案。

只不過(guò)，他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征，而是讓它們生成嵌入（embeddings）以直接執(zhí)行預(yù)測(cè)任務(wù)?？梢哉f(shuō)，這是從學(xué)習(xí)表征（learning representations）到學(xué)習(xí)模型（learning models）的一種范式轉(zhuǎn)變。

具體而言，模型會(huì)通過(guò)因果掩碼（causal masking）和停止梯度（stop gradient），以過(guò)去圖塊嵌入為條件，學(xué)習(xí)預(yù)測(cè)未來(lái)的圖塊嵌入。類似于下一 token 預(yù)測(cè)，該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測(cè)自回歸（Next-Embedding Predictive Autoregression），簡(jiǎn)稱NEPA

論文標(biāo)題：Next-Embedding Prediction Makes Strong Vision Learners
論文地址：https://arxiv.org/abs/2512.16922v1
項(xiàng)目地址：https://sihanxu.me/nepa/
代碼地址：https://github.com/SihanXU/nepa
模型地址：https://huggingface.co/collections/SixAILab/nepa

該論文目前正是 alphaXiv 上熱度第一的論文。

本文第一作者為 Sihan Xu，密歇根大學(xué)博士生，導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu；這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問(wèn)期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。

范式的轉(zhuǎn)變

視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石，使得無(wú)需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。

其核心目標(biāo)是學(xué)習(xí)表征（learn representations）：優(yōu)化模型，從而將原始像素映射到固定維度的表征，這些表征隨后可被使用或針對(duì)下游任務(wù)進(jìn)行微調(diào)。

這一哲學(xué)統(tǒng)一了基于實(shí)例判別（instance discrimination）、自蒸餾（self-distillation）和掩碼重建（masked reconstruction）的方法。

其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊（從輕量級(jí)的特定于任務(wù)的頭到諸如視覺 - 語(yǔ)言模型等大型級(jí)聯(lián)系統(tǒng)）所使用的視覺表征。

現(xiàn)代自然語(yǔ)言處理的成功則建立在一個(gè)根本不同的范式之上。

語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器；而是作為生成式和預(yù)測(cè)式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入，而是通過(guò)一個(gè)簡(jiǎn)單的因果目標(biāo)（causal objective）對(duì)數(shù)據(jù)分布本身進(jìn)行建模。

這種訓(xùn)練會(huì)迫使模型內(nèi)化語(yǔ)言中的語(yǔ)義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過(guò)程，而是由模型本身執(zhí)行的單一預(yù)測(cè)計(jì)算。

這一區(qū)別至關(guān)重要，涉及根本。它表明：生成式預(yù)測(cè)（而非表征學(xué)習(xí)）可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。

最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如：

早期的像素級(jí)生成式預(yù)訓(xùn)練（iGPT）展示了可遷移的特征，但在處理超長(zhǎng)序列和弱語(yǔ)義對(duì)齊方面表現(xiàn)一般。
JEPA 超越了像素層面，通過(guò)預(yù)測(cè)潛在目標(biāo)（latent targets）來(lái)更緊密地與語(yǔ)義結(jié)構(gòu)對(duì)齊。然而，JEPA 依然是通過(guò)從動(dòng)量編碼器（momentum encoder）回歸到潛在目標(biāo)來(lái)進(jìn)行訓(xùn)練，而不是將生成式預(yù)測(cè)作為自監(jiān)督目標(biāo)。

基于這些觀察，Sihan Xu 等人想知道：極簡(jiǎn)的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。

具體來(lái)說(shuō)，圖像被分解為圖塊（patches），這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer，在給定所有先前嵌入的情況下預(yù)測(cè)下一個(gè)嵌入，這與語(yǔ)言模型中的「下一 Token 預(yù)測(cè)」范式非常近似。

基于這些觀察，Sihan Xu 等人想知道：極簡(jiǎn)的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器？

該團(tuán)隊(duì)對(duì)目標(biāo)嵌入使用停止梯度（stop-gradient）以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測(cè)任務(wù)。這種形式是刻意保持極簡(jiǎn)的。它不需要像素級(jí)解碼器、不需要離散的視覺 Tokenizer（分詞器），也不需要對(duì)比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對(duì)或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號(hào)源于模型在嵌入空間中預(yù)測(cè)未來(lái)的能力。

于是乎，一個(gè)新的模型家族誕生了：下一嵌入預(yù)測(cè)自回歸（NEPA）

下一嵌入預(yù)測(cè)自回歸（NEPA）

整體來(lái)看，NEPA 方法是極簡(jiǎn)主義的。如果說(shuō)現(xiàn)在的視覺模型都在比拼誰(shuí)的裝備更復(fù)雜（動(dòng)量編碼器、解碼器、離散 Tokenizer……），那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場(chǎng)的選手。它的核心哲學(xué)非常簡(jiǎn)單：像 GPT 預(yù)測(cè)下一個(gè)詞那樣，去預(yù)測(cè)圖像的下一個(gè)「特征塊」。

其核心思路可以總結(jié)如下：

切塊與編碼：首先，把一張圖切成若干小塊（Patch），每一塊通過(guò)編碼器變成一個(gè)向量（Embedding）。
預(yù)測(cè)未來(lái)：觀看前面的塊，猜下一塊長(zhǎng)什么樣。這和語(yǔ)言模型（LLM）的「下一詞預(yù)測(cè)」相似，只不過(guò)這里處理的是連續(xù)的數(shù)學(xué)向量，而不是離散的詞。
防止「作弊」：為了防止模型偷懶（比如輸出一樣的結(jié)果），作者借用了 SimSiam 的經(jīng)典招數(shù)：停止梯度（Stop-Gradient）。簡(jiǎn)單說(shuō)，就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止，不參與反向傳播。這就像是射箭時(shí)，靶子必須固定，不能讓你把靶子移到箭射中的地方。

具體到架構(gòu)設(shè)計(jì)上，他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer（ViT）主干網(wǎng)絡(luò)。

與像素級(jí)重建方法不同，該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過(guò)去的圖像塊嵌入來(lái)預(yù)測(cè)未來(lái)的圖像塊嵌入，使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測(cè)，這與自回歸語(yǔ)言模型類似。圖像通過(guò)一個(gè)二維卷積（Conv2d）圖像塊嵌入層被分割成不重疊的圖像塊，并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。

他們采用了帶有層歸一化（LayerNorm）的預(yù)歸一化設(shè)計(jì)，并對(duì)輸出特征應(yīng)用最終的層歸一化。

為了提高穩(wěn)定性和可擴(kuò)展性，該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語(yǔ)言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法，如圖 2 所示。

這些模型設(shè)計(jì)有助于訓(xùn)練，但與核心框架無(wú)關(guān)，感興趣的讀者可參閱原論文以及相關(guān)論文。

訓(xùn)練好之后怎么用呢？換個(gè)「頭」就行。下面是兩個(gè)例子：

分類：取出最后一個(gè)預(yù)測(cè)出來(lái)的嵌入向量，接個(gè)簡(jiǎn)單的分類頭，就能識(shí)別這是貓還是狗。
分割：接一個(gè) UPerNet 頭。有趣的是，雖然訓(xùn)練時(shí)是「只看過(guò)去」的單向預(yù)測(cè)，但在做分割這種需要全局信息的任務(wù)時(shí)，可以解除封印，開啟雙向注意力（Bidirectional Attention），讓模型看清全圖。

總之，NEPA 證明了，只要你有一個(gè)好的預(yù)測(cè)目標(biāo)，就不需要那些花里胡哨的架構(gòu)，一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧，就能成為頂級(jí)的視覺學(xué)習(xí)者。

實(shí)驗(yàn)結(jié)果

在量化性能方面，NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。

僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練，NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率，這一成績(jī)優(yōu)于 MoCo v3、BEiT，并與 MAE 和 JEPA 處于同一水平。

更重要的是，盡管預(yù)訓(xùn)練過(guò)程中從未涉及像素重建，NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力，在 ADE20K 語(yǔ)義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU，證明了純粹的嵌入預(yù)測(cè)足以學(xué)習(xí)到處理密集預(yù)測(cè)任務(wù)所需的豐富語(yǔ)義特征。

最后，通過(guò)對(duì)模型內(nèi)部注意力和嵌入的可視化分析，研究揭示了 NEPA 的有效性來(lái)源。

可視化結(jié)果顯示，模型自動(dòng)學(xué)會(huì)了長(zhǎng)距離且以對(duì)象為中心的注意力模式，能夠忽略背景干擾，將注意力集中在語(yǔ)義相關(guān)的區(qū)域。同時(shí)，預(yù)測(cè)出的嵌入向量在語(yǔ)義上與屬于同一物體的其他圖塊高度相似，表明模型并非死記硬背局部紋理，而是真正理解了物體層面的結(jié)構(gòu)。

這種通過(guò)簡(jiǎn)單的「下一嵌入預(yù)測(cè)」所習(xí)得的全局語(yǔ)義依賴，不僅驗(yàn)證了該方法的有效性，也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無(wú)需復(fù)雜手工設(shè)計(jì)的通用視角。

消融實(shí)驗(yàn)和更多詳情請(qǐng)參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.