国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

密歇根大學(xué)NEPA:預(yù)測游戲賦予AI類人視覺理解力

0
分享至


這項(xiàng)由密歇根大學(xué)的徐思翰、馬子喬,紐約大學(xué)的謝賽寧、于星,以及普林斯頓大學(xué)的柴文浩、弗吉尼亞大學(xué)的陳緒威、金偉陽等研究者合作完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(論文編號:arXiv:2512.16922v1)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過這個(gè)編號查詢完整論文。

過去幾年里,人工智能在理解圖片方面取得了驚人進(jìn)步,但這種進(jìn)步往往依賴復(fù)雜的訓(xùn)練方法。研究團(tuán)隊(duì)突然意識到一個(gè)問題:為什么不能像人類學(xué)語言那樣,讓機(jī)器通過簡單的"預(yù)測下一個(gè)"游戲來學(xué)會看懂圖片呢?這個(gè)看似簡單的想法,卻帶來了一場視覺人工智能領(lǐng)域的革命。

當(dāng)我們看一張圖片時(shí),大腦會自然地從一個(gè)區(qū)域移動(dòng)到另一個(gè)區(qū)域,預(yù)測接下來會看到什么內(nèi)容。研究團(tuán)隊(duì)受到這種認(rèn)知過程的啟發(fā),開發(fā)了一種名為NEPA(Next-Embedding Predictive Autoregression,下一嵌入預(yù)測自回歸)的技術(shù)。這個(gè)技術(shù)的核心思想就像教孩子認(rèn)字一樣簡單:給機(jī)器看圖片的一部分,讓它猜測下一部分會是什么樣子。

整個(gè)過程可以比作拼圖游戲。當(dāng)你拿到一盒拼圖時(shí),通常會先找邊緣部分,然后根據(jù)已經(jīng)拼好的部分來預(yù)測下一塊應(yīng)該放在哪里。NEPA技術(shù)也是這樣工作的:它把一張完整的圖片切割成許多小塊,就像把拼圖分成若干片段,然后讓機(jī)器按順序觀察這些片段,每看到一片就預(yù)測下一片應(yīng)該是什么樣子。

這種方法的巧妙之處在于,機(jī)器不需要重新構(gòu)建整張圖片的每個(gè)像素點(diǎn),而是在一種叫做"嵌入空間"的抽象層面進(jìn)行預(yù)測??梢园亚度肟臻g想象成一個(gè)翻譯器,它把復(fù)雜的圖像信息轉(zhuǎn)換成機(jī)器更容易理解的數(shù)字表示。就像我們在心里描述一張圖片時(shí),會用"藍(lán)色的天空"、"綠色的草地"這樣的概念,而不是記住每個(gè)像素的確切顏色值。

更令人印象深刻的是,NEPA技術(shù)只需要在ImageNet-1K這個(gè)包含一百多萬張圖片的數(shù)據(jù)集上進(jìn)行訓(xùn)練,就能達(dá)到令人滿意的效果。這就像一個(gè)學(xué)生只需要看過一百多萬張圖片,就能掌握識別各種物體的能力。相比之下,以往的技術(shù)往往需要更復(fù)雜的訓(xùn)練過程,包括對比不同圖片的相似性,或者試圖重建圖片的每個(gè)細(xì)節(jié)。

研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),使用NEPA技術(shù)訓(xùn)練的機(jī)器在ImageNet-1K圖片分類任務(wù)上達(dá)到了83.8%的準(zhǔn)確率(使用ViT-B模型)和85.3%的準(zhǔn)確率(使用ViT-L模型)。這個(gè)成績與目前最先進(jìn)的方法相當(dāng),但訓(xùn)練過程卻簡單得多。

為了驗(yàn)證這種技術(shù)的通用性,研究團(tuán)隊(duì)還在語義分割任務(wù)上測試了NEPA技術(shù)。語義分割就像給圖片中的每個(gè)像素貼標(biāo)簽,比如這個(gè)像素屬于"天空",那個(gè)像素屬于"汽車"。在ADE20K這個(gè)復(fù)雜的場景解析數(shù)據(jù)集上,NEPA技術(shù)同樣表現(xiàn)出色,基礎(chǔ)模型達(dá)到了48.3%的平均交并比,大型模型達(dá)到了54.0%。

NEPA技術(shù)的架構(gòu)設(shè)計(jì)也體現(xiàn)出簡約之美。它采用標(biāo)準(zhǔn)的Vision Transformer作為骨干網(wǎng)絡(luò),這是目前最成功的圖像處理架構(gòu)之一。但與其他方法不同的是,NEPA不需要額外的解碼器或復(fù)雜的預(yù)測頭,整個(gè)系統(tǒng)就像一個(gè)精簡的預(yù)測引擎。

在訓(xùn)練過程中,研究團(tuán)隊(duì)采用了一種叫做"停止梯度"的技巧。這就像在學(xué)習(xí)過程中給答案加上一層保護(hù)膜,防止機(jī)器偷懶地直接復(fù)制答案,而是真正學(xué)會預(yù)測的能力。同時(shí),他們使用因果掩碼確保機(jī)器在預(yù)測下一個(gè)圖片塊時(shí),只能看到之前的內(nèi)容,不能偷看后面的部分,這樣才能真正學(xué)會預(yù)測能力。

研究團(tuán)隊(duì)還在架構(gòu)中融入了幾個(gè)現(xiàn)代化的改進(jìn)技巧。他們使用了旋轉(zhuǎn)位置編碼(RoPE)來幫助機(jī)器更好地理解圖片中各個(gè)部分的空間關(guān)系,就像給拼圖的每一塊標(biāo)注上它在整幅畫中的相對位置。層級縮放(LayerScale)技術(shù)則像調(diào)節(jié)學(xué)習(xí)的步伐,確保訓(xùn)練過程穩(wěn)定進(jìn)行。SwiGLU激活函數(shù)和查詢鍵標(biāo)準(zhǔn)化(QK-Norm)則進(jìn)一步提升了模型的性能和穩(wěn)定性。

當(dāng)機(jī)器經(jīng)過NEPA技術(shù)訓(xùn)練后,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:機(jī)器學(xué)會了像人類一樣關(guān)注圖片中的重要區(qū)域。通過分析注意力圖,他們發(fā)現(xiàn)機(jī)器在預(yù)測下一個(gè)圖片塊時(shí),會自動(dòng)將注意力集中在語義相關(guān)的區(qū)域上。比如,當(dāng)看到動(dòng)物的頭部時(shí),機(jī)器會自動(dòng)關(guān)注身體的其他部分;當(dāng)看到建筑物的一角時(shí),會關(guān)注建筑的整體結(jié)構(gòu)。

這種行為完全是機(jī)器自發(fā)學(xué)習(xí)到的,沒有人為設(shè)計(jì)。這表明NEPA技術(shù)不僅能夠識別圖片,還能理解圖片中對象之間的關(guān)系和整體結(jié)構(gòu)。更有趣的是,當(dāng)研究團(tuán)隊(duì)分析機(jī)器預(yù)測的嵌入向量時(shí),發(fā)現(xiàn)這些向量在相似物體之間表現(xiàn)出高度相似性,在不相關(guān)物體之間則差異明顯,這說明機(jī)器真正學(xué)會了抽象的視覺概念。

從計(jì)算效率角度來看,NEPA技術(shù)也表現(xiàn)出明顯優(yōu)勢。傳統(tǒng)的對比學(xué)習(xí)方法需要在每個(gè)訓(xùn)練步驟中處理大量的正負(fù)樣本對,而掩碼重建方法需要復(fù)雜的解碼器來重建圖片細(xì)節(jié)。相比之下,NEPA技術(shù)只需要一次前向傳播,不需要額外的解碼器或復(fù)雜的采樣策略,這使得整個(gè)訓(xùn)練過程更加高效。

研究團(tuán)隊(duì)還發(fā)現(xiàn),NEPA技術(shù)在不同規(guī)模的模型上都表現(xiàn)出良好的擴(kuò)展性。隨著模型參數(shù)量的增加和訓(xùn)練時(shí)間的延長,性能持續(xù)提升,沒有出現(xiàn)過擬合現(xiàn)象。這種良好的擴(kuò)展特性意味著,隨著計(jì)算資源的增加,NEPA技術(shù)有望達(dá)到更高的性能水平。

在實(shí)際應(yīng)用中,經(jīng)過NEPA預(yù)訓(xùn)練的模型可以很容易地適配到各種下游任務(wù)。對于圖像分類任務(wù),只需要在模型輸出層添加一個(gè)簡單的線性分類器。對于語義分割任務(wù),可以連接標(biāo)準(zhǔn)的UperNet解碼器。這種靈活性使得NEPA技術(shù)能夠廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)。

值得注意的是,研究團(tuán)隊(duì)在微調(diào)階段發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:雖然NEPA是用因果注意力訓(xùn)練的(即只能看到前面的內(nèi)容),但在微調(diào)時(shí)使用雙向注意力(可以看到全部內(nèi)容)能夠進(jìn)一步提升性能。這說明自回歸預(yù)訓(xùn)練學(xué)到的表示具有很好的泛化能力,能夠適應(yīng)不同的注意力模式。

當(dāng)前的研究還揭示了NEPA技術(shù)的一些局限性。在線性探測實(shí)驗(yàn)中,NEPA的表現(xiàn)不如一些專門設(shè)計(jì)的表示學(xué)習(xí)方法。這是因?yàn)镹EPA的輸出表示非常接近原始的嵌入層特征,主要的表示能力存儲在預(yù)測器部分。這種設(shè)計(jì)選擇是有意為之的,因?yàn)樗沟谜麄€(gè)系統(tǒng)更加簡潔統(tǒng)一。

研究團(tuán)隊(duì)還分析了一些失敗案例,發(fā)現(xiàn)NEPA技術(shù)在處理包含復(fù)雜反射、陰影和遮擋的場景時(shí)仍有改進(jìn)空間。在多物體重疊的復(fù)雜場景中,模型有時(shí)會產(chǎn)生不一致的預(yù)測。這些問題反映了當(dāng)前訓(xùn)練數(shù)據(jù)集的局限性,也為未來的改進(jìn)指明了方向。

從更宏觀的角度來看,NEPA技術(shù)代表了計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要轉(zhuǎn)變。傳統(tǒng)的方法往往專注于學(xué)習(xí)靜態(tài)的視覺表示,而NEPA技術(shù)將重點(diǎn)轉(zhuǎn)向?qū)W習(xí)預(yù)測模型本身。這種范式轉(zhuǎn)變與自然語言處理領(lǐng)域的發(fā)展軌跡相呼應(yīng),語言模型的成功正是基于這種生成式預(yù)訓(xùn)練的思想。

這種統(tǒng)一的預(yù)訓(xùn)練范式還暗示著更廣闊的可能性。研究團(tuán)隊(duì)指出,現(xiàn)代大型語言模型越來越多地采用綁定嵌入的設(shè)計(jì),即輸入和輸出嵌入矩陣共享參數(shù)。這種設(shè)計(jì)本質(zhì)上就是在嵌入空間中進(jìn)行下一個(gè)token預(yù)測,與NEPA的核心思想完全一致。這意味著,不同模態(tài)的數(shù)據(jù)可能可以在統(tǒng)一的框架下進(jìn)行訓(xùn)練,為多模態(tài)人工智能的發(fā)展開辟了新的道路。

展望未來,NEPA技術(shù)還具有向生成式建模擴(kuò)展的潛力。通過與合適的圖像解碼器或擴(kuò)散模型結(jié)合,同一個(gè)自回歸嵌入預(yù)測器可以用于圖像生成或編輯任務(wù)。這種統(tǒng)一的架構(gòu)能夠在表示學(xué)習(xí)和生成建模之間架起橋梁,為構(gòu)建更加通用的視覺智能系統(tǒng)提供可能。

歸根結(jié)底,NEPA技術(shù)的成功證明了一個(gè)重要觀點(diǎn):有時(shí)候,最簡單的想法往往最有效。通過回歸到最基本的預(yù)測原理,研究團(tuán)隊(duì)創(chuàng)造出了一種既簡單又強(qiáng)大的視覺學(xué)習(xí)方法。這種方法不需要復(fù)雜的工程技巧或者精巧的理論設(shè)計(jì),只是忠實(shí)地模仿了人類視覺認(rèn)知的基本過程。正如研究團(tuán)隊(duì)在論文中所說,他們提供的不僅僅是一個(gè)新算法,更是一種新的視角:自回歸預(yù)測的簡潔性,當(dāng)恰當(dāng)?shù)貞?yīng)用于視覺領(lǐng)域時(shí),能夠幫助統(tǒng)一不同模態(tài)之間的預(yù)訓(xùn)練范式。這種統(tǒng)一性可能是人工智能向更通用智能發(fā)展的關(guān)鍵一步。

Q&A

Q1:NEPA技術(shù)是如何工作的?

A:NEPA技術(shù)像拼圖游戲一樣工作,把圖片切成小塊,讓機(jī)器按順序觀察這些片段,每看到一片就預(yù)測下一片應(yīng)該是什么樣子。機(jī)器不需要重建每個(gè)像素,而是在抽象的"嵌入空間"進(jìn)行預(yù)測,就像我們用概念描述圖片而不是記住每個(gè)細(xì)節(jié)。

Q2:NEPA技術(shù)比其他圖像識別方法有什么優(yōu)勢?

A:NEPA最大的優(yōu)勢是簡單高效。它只需要一次前向傳播,不需要復(fù)雜的解碼器或?qū)Ρ葘W(xué)習(xí)的負(fù)樣本,訓(xùn)練過程比傳統(tǒng)方法簡單得多。同時(shí)它在ImageNet分類上達(dá)到了83.8%到85.3%的準(zhǔn)確率,與最先進(jìn)方法相當(dāng),但架構(gòu)更簡潔。

Q3:NEPA技術(shù)能應(yīng)用到哪些實(shí)際場景中?

A:NEPA技術(shù)可以廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)。它已經(jīng)在圖像分類和語義分割任務(wù)上取得優(yōu)秀表現(xiàn),未來還可能擴(kuò)展到圖像生成和編輯領(lǐng)域。由于其簡潔的架構(gòu)設(shè)計(jì),它可以很容易地適配到不同的應(yīng)用場景中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時(shí),美悍然宣布:中國違法,我們九屆政府都護(hù)臺

中方反制不到24小時(shí),美悍然宣布:中國違法,我們九屆政府都護(hù)臺

博覽歷史
2025-12-27 16:31:18
普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

18家大國企全軍覆沒!昔日世界第一的中國機(jī)床,現(xiàn)還有翻身機(jī)會嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺灣距離邪惡時(shí)代不遠(yuǎn)了

5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺灣距離邪惡時(shí)代不遠(yuǎn)了

海峽導(dǎo)報(bào)社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟(jì)新聞
2025-12-27 19:22:17
李兆會的18年復(fù)仇路

李兆會的18年復(fù)仇路

詩意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國家勿向?yàn)跖杀?>
    </a>
        <h3>
      <a href=界面新聞
2025-12-28 14:26:52
姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
家居
教育
房產(chǎn)
親子

這些新療法,讓化療不再那么痛苦

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

教育要聞

于潔:教師怎樣走出這10個(gè)認(rèn)知誤區(qū)

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

親子要聞

千萬別把孩子,養(yǎng)成這種“奴隸”?

無障礙瀏覽 進(jìn)入關(guān)懷版