国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自回歸也能做強(qiáng)視覺模型?NEPA「下一嵌入預(yù)測(cè)」時(shí)代,謝賽寧參與

0
分享至



編輯|Panda

眾所周知,LeCun 不喜自回歸,并且還提出了一種名為聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)的新方向,并且該方向也一直在有新成果涌現(xiàn)。

然而,自回歸模型的成功也是有目共睹的,尤其是在語(yǔ)言領(lǐng)域。那么,生成式預(yù)訓(xùn)練在自然語(yǔ)言上的成功能否在視覺領(lǐng)域重現(xiàn)呢?

近日,密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對(duì)此給出了肯定答案。

只不過(guò),他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征,而是讓它們生成嵌入(embeddings)以直接執(zhí)行預(yù)測(cè)任務(wù)??梢哉f(shuō),這是從學(xué)習(xí)表征(learning representations)到學(xué)習(xí)模型(learning models)的一種范式轉(zhuǎn)變。

具體而言,模型會(huì)通過(guò)因果掩碼(causal masking)和停止梯度(stop gradient),以過(guò)去圖塊嵌入為條件,學(xué)習(xí)預(yù)測(cè)未來(lái)的圖塊嵌入。類似于下一 token 預(yù)測(cè),該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測(cè)自回歸(Next-Embedding Predictive Autoregression),簡(jiǎn)稱NEPA



  • 論文標(biāo)題:Next-Embedding Prediction Makes Strong Vision Learners
  • 論文地址:https://arxiv.org/abs/2512.16922v1
  • 項(xiàng)目地址:https://sihanxu.me/nepa/
  • 代碼地址:https://github.com/SihanXU/nepa
  • 模型地址:https://huggingface.co/collections/SixAILab/nepa

該論文目前正是 alphaXiv 上熱度第一的論文。



本文第一作者為 Sihan Xu,密歇根大學(xué)博士生,導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu;這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問(wèn)期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。

范式的轉(zhuǎn)變

視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石,使得無(wú)需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。

其核心目標(biāo)是學(xué)習(xí)表征(learn representations):優(yōu)化模型,從而將原始像素映射到固定維度的表征,這些表征隨后可被使用或針對(duì)下游任務(wù)進(jìn)行微調(diào)。

這一哲學(xué)統(tǒng)一了基于實(shí)例判別(instance discrimination)、自蒸餾(self-distillation)和掩碼重建(masked reconstruction)的方法。

其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊(從輕量級(jí)的特定于任務(wù)的頭到諸如視覺 - 語(yǔ)言模型等大型級(jí)聯(lián)系統(tǒng))所使用的視覺表征。

現(xiàn)代自然語(yǔ)言處理的成功則建立在一個(gè)根本不同的范式之上。

語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器;而是作為生成式和預(yù)測(cè)式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入,而是通過(guò)一個(gè)簡(jiǎn)單的因果目標(biāo)(causal objective)對(duì)數(shù)據(jù)分布本身進(jìn)行建模。

這種訓(xùn)練會(huì)迫使模型內(nèi)化語(yǔ)言中的語(yǔ)義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過(guò)程,而是由模型本身執(zhí)行的單一預(yù)測(cè)計(jì)算。

這一區(qū)別至關(guān)重要,涉及根本。它表明:生成式預(yù)測(cè)(而非表征學(xué)習(xí))可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。

最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如:

  • 早期的像素級(jí)生成式預(yù)訓(xùn)練(iGPT)展示了可遷移的特征,但在處理超長(zhǎng)序列和弱語(yǔ)義對(duì)齊方面表現(xiàn)一般。
  • JEPA 超越了像素層面,通過(guò)預(yù)測(cè)潛在目標(biāo)(latent targets)來(lái)更緊密地與語(yǔ)義結(jié)構(gòu)對(duì)齊。然而,JEPA 依然是通過(guò)從動(dòng)量編碼器(momentum encoder)回歸到潛在目標(biāo)來(lái)進(jìn)行訓(xùn)練,而不是將生成式預(yù)測(cè)作為自監(jiān)督目標(biāo)。

基于這些觀察,Sihan Xu 等人想知道:極簡(jiǎn)的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。

具體來(lái)說(shuō),圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測(cè)下一個(gè)嵌入,這與語(yǔ)言模型中的「下一 Token 預(yù)測(cè)」范式非常近似。

基于這些觀察,Sihan Xu 等人想知道:極簡(jiǎn)的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器?

具體來(lái)說(shuō),圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測(cè)下一個(gè)嵌入,這與語(yǔ)言模型中的「下一 Token 預(yù)測(cè)」范式非常近似。

該團(tuán)隊(duì)對(duì)目標(biāo)嵌入使用停止梯度(stop-gradient)以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測(cè)任務(wù)。這種形式是刻意保持極簡(jiǎn)的。它不需要像素級(jí)解碼器、不需要離散的視覺 Tokenizer(分詞器),也不需要對(duì)比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對(duì)或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號(hào)源于模型在嵌入空間中預(yù)測(cè)未來(lái)的能力。

于是乎,一個(gè)新的模型家族誕生了:下一嵌入預(yù)測(cè)自回歸(NEPA)

下一嵌入預(yù)測(cè)自回歸(NEPA)

整體來(lái)看,NEPA 方法是極簡(jiǎn)主義的。如果說(shuō)現(xiàn)在的視覺模型都在比拼誰(shuí)的裝備更復(fù)雜(動(dòng)量編碼器、解碼器、離散 Tokenizer……),那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場(chǎng)的選手。它的核心哲學(xué)非常簡(jiǎn)單:像 GPT 預(yù)測(cè)下一個(gè)詞那樣,去預(yù)測(cè)圖像的下一個(gè)「特征塊」。



其核心思路可以總結(jié)如下:

  • 切塊與編碼:首先,把一張圖切成若干小塊(Patch),每一塊通過(guò)編碼器變成一個(gè)向量(Embedding)。
  • 預(yù)測(cè)未來(lái):觀看前面的塊,猜下一塊長(zhǎng)什么樣。這和語(yǔ)言模型(LLM)的「下一詞預(yù)測(cè)」相似,只不過(guò)這里處理的是連續(xù)的數(shù)學(xué)向量,而不是離散的詞。
  • 防止「作弊」:為了防止模型偷懶(比如輸出一樣的結(jié)果),作者借用了 SimSiam 的經(jīng)典招數(shù):停止梯度(Stop-Gradient)。簡(jiǎn)單說(shuō),就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止,不參與反向傳播。這就像是射箭時(shí),靶子必須固定,不能讓你把靶子移到箭射中的地方。

具體到架構(gòu)設(shè)計(jì)上,他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer(ViT)主干網(wǎng)絡(luò)。

與像素級(jí)重建方法不同,該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過(guò)去的圖像塊嵌入來(lái)預(yù)測(cè)未來(lái)的圖像塊嵌入,使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測(cè),這與自回歸語(yǔ)言模型類似。圖像通過(guò)一個(gè)二維卷積(Conv2d)圖像塊嵌入層被分割成不重疊的圖像塊,并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。

他們采用了帶有層歸一化(LayerNorm) 的預(yù)歸一化設(shè)計(jì),并對(duì)輸出特征應(yīng)用最終的層歸一化。

為了提高穩(wěn)定性和可擴(kuò)展性,該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語(yǔ)言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法,如圖 2 所示。



這些模型設(shè)計(jì)有助于訓(xùn)練,但與核心框架無(wú)關(guān),感興趣的讀者可參閱原論文以及相關(guān)論文。

訓(xùn)練好之后怎么用呢?換個(gè)「頭」就行。下面是兩個(gè)例子:

  • 分類:取出最后一個(gè)預(yù)測(cè)出來(lái)的嵌入向量,接個(gè)簡(jiǎn)單的分類頭,就能識(shí)別這是貓還是狗。
  • 分割:接一個(gè) UPerNet 頭。有趣的是,雖然訓(xùn)練時(shí)是「只看過(guò)去」的單向預(yù)測(cè),但在做分割這種需要全局信息的任務(wù)時(shí),可以解除封印,開啟雙向注意力(Bidirectional Attention),讓模型看清全圖。

總之,NEPA 證明了,只要你有一個(gè)好的預(yù)測(cè)目標(biāo),就不需要那些花里胡哨的架構(gòu),一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧,就能成為頂級(jí)的視覺學(xué)習(xí)者。

實(shí)驗(yàn)結(jié)果

在量化性能方面,NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。

僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練,NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率,這一成績(jī)優(yōu)于 MoCo v3、BEiT,并與 MAE 和 JEPA 處于同一水平。



更重要的是,盡管預(yù)訓(xùn)練過(guò)程中從未涉及像素重建,NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力,在 ADE20K 語(yǔ)義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU,證明了純粹的嵌入預(yù)測(cè)足以學(xué)習(xí)到處理密集預(yù)測(cè)任務(wù)所需的豐富語(yǔ)義特征。



最后,通過(guò)對(duì)模型內(nèi)部注意力和嵌入的可視化分析,研究揭示了 NEPA 的有效性來(lái)源。



可視化結(jié)果顯示,模型自動(dòng)學(xué)會(huì)了長(zhǎng)距離且以對(duì)象為中心的注意力模式,能夠忽略背景干擾,將注意力集中在語(yǔ)義相關(guān)的區(qū)域。同時(shí),預(yù)測(cè)出的嵌入向量在語(yǔ)義上與屬于同一物體的其他圖塊高度相似,表明模型并非死記硬背局部紋理,而是真正理解了物體層面的結(jié)構(gòu)。

這種通過(guò)簡(jiǎn)單的「下一嵌入預(yù)測(cè)」所習(xí)得的全局語(yǔ)義依賴,不僅驗(yàn)證了該方法的有效性,也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無(wú)需復(fù)雜手工設(shè)計(jì)的通用視角。

消融實(shí)驗(yàn)和更多詳情請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大漲日,加倉(cāng)!

大漲日,加倉(cāng)!

中國(guó)基金報(bào)
2026-01-12 15:15:48
詹姆斯41歲生日后,2026年再次打出聯(lián)盟頂級(jí)巨星表現(xiàn)

詹姆斯41歲生日后,2026年再次打出聯(lián)盟頂級(jí)巨星表現(xiàn)

大眼瞄世界
2026-01-12 10:38:58
大連8米高夢(mèng)露雕像悄然被撤,商場(chǎng)人員:我也是今天上班才知道,集團(tuán)有新的規(guī)劃

大連8米高夢(mèng)露雕像悄然被撤,商場(chǎng)人員:我也是今天上班才知道,集團(tuán)有新的規(guī)劃

極目新聞
2026-01-12 13:00:56
消失的150萬(wàn)契丹人找到了?DNA比對(duì)結(jié)果一出,原來(lái)就在我們身邊

消失的150萬(wàn)契丹人找到了?DNA比對(duì)結(jié)果一出,原來(lái)就在我們身邊

近史博覽
2025-12-24 11:01:01
2026年海港應(yīng)該是最忙的球隊(duì) 去年還有申花陪 今年只能是孤勇者

2026年海港應(yīng)該是最忙的球隊(duì) 去年還有申花陪 今年只能是孤勇者

80后體育大蜀黍
2026-01-12 23:12:20
在股票市場(chǎng)上,90%的人根本不是在投資,甚至連投機(jī)都算不上

在股票市場(chǎng)上,90%的人根本不是在投資,甚至連投機(jī)都算不上

流蘇晚晴
2025-12-07 16:55:20
哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

尚曦讀史
2025-12-06 08:27:08
懶懶陪王思聰?shù)驼{(diào)過(guò)38歲生日,曬甜蜜日常,對(duì)男友稱呼很有意思!

懶懶陪王思聰?shù)驼{(diào)過(guò)38歲生日,曬甜蜜日常,對(duì)男友稱呼很有意思!

丁丁鯉史紀(jì)
2026-01-12 19:46:11
搞笑圖片第1111期:自己要有數(shù),男女生在父母心中的分量有區(qū)別的

搞笑圖片第1111期:自己要有數(shù),男女生在父母心中的分量有區(qū)別的

今天的快樂
2026-01-11 20:29:11
突發(fā)公告!暫停對(duì)外開放!

突發(fā)公告!暫停對(duì)外開放!

江南晚報(bào)
2026-01-12 11:13:40
警惕!父母的“愚蠢”現(xiàn)實(shí)有多可怕?因?yàn)橐粋€(gè)玩笑,小叔瘋了

警惕!父母的“愚蠢”現(xiàn)實(shí)有多可怕?因?yàn)橐粋€(gè)玩笑,小叔瘋了

另子維愛讀史
2025-12-16 16:45:54
因凡蒂諾:馬拉多納對(duì)陣英格蘭的進(jìn)球是世界杯歷史上最佳進(jìn)球

因凡蒂諾:馬拉多納對(duì)陣英格蘭的進(jìn)球是世界杯歷史上最佳進(jìn)球

懂球帝
2026-01-12 21:20:54
江蘇南京一模特太漂亮 身高177cm體重55kg五官精致到無(wú)懈可擊

江蘇南京一模特太漂亮 身高177cm體重55kg五官精致到無(wú)懈可擊

陳意小可愛
2026-01-10 01:19:36
看完楊冪《生萬(wàn)物》,再看趙麗穎《小城大事》,沒對(duì)比就沒有傷害

看完楊冪《生萬(wàn)物》,再看趙麗穎《小城大事》,沒對(duì)比就沒有傷害

聽風(fēng)喃
2026-01-12 13:34:42
帥惟浩需要出頭,蓉城隊(duì)如何衡量,租借給兄弟球隊(duì)不失為良策。

帥惟浩需要出頭,蓉城隊(duì)如何衡量,租借給兄弟球隊(duì)不失為良策。

格斗聯(lián)盟
2026-01-12 22:30:52
香港知名男星和同性密友出游,對(duì)方家庭背景顯赫,戀情傳足五年

香港知名男星和同性密友出游,對(duì)方家庭背景顯赫,戀情傳足五年

粵睇先生
2026-01-10 12:30:03
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

澎湃新聞
2026-01-12 21:38:27
白刃戰(zhàn)碾壓俄軍!鬼子的白刃突擊,遇到美軍蘇軍就完全不行了

白刃戰(zhàn)碾壓俄軍!鬼子的白刃突擊,遇到美軍蘇軍就完全不行了

鷹眼Defence
2026-01-12 17:46:36
女人喜歡你的三大“暗語(yǔ)”,聽不懂“含義”,那你就傻了

女人喜歡你的三大“暗語(yǔ)”,聽不懂“含義”,那你就傻了

每一次點(diǎn)擊
2026-01-12 23:18:31
2026-01-13 00:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12100文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

體育要聞

一場(chǎng)安東尼奧式勝利,給中國(guó)足球帶來(lái)驚喜

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

旅游
本地
游戲
健康
公開課

旅游要聞

四川米易一條街的冬櫻花都開了 粉色花海夢(mèng)幻綻放

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

任天堂社長(zhǎng)承諾:多款備受期待的熱門IP新作開發(fā)中!

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版