国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

楊立昆路線的新勝利:VL-JEPA來了,拋棄預(yù)測下一個(gè)詞,不靠生成,照樣SOTA

0
分享至

算泥社區(qū)是集 “AI 大模型開發(fā)服務(wù) + 算法 + 算力” 于一體的開源生態(tài)社區(qū),歡迎關(guān)注!

人工智能研究中,Yann LeCun(楊立昆)有一個(gè)獨(dú)特且經(jīng)常引起爭議的觀點(diǎn)。

他認(rèn)為僅靠以語言為中心、基于預(yù)測下一個(gè)詞的規(guī)?;P?,無法通向真正具備常識(shí)、因果理解和規(guī)劃能力的通用智能;它們?nèi)狈?duì)物理世界的內(nèi)在表征與世界模型,無法自主學(xué)習(xí)和可靠推理,因此最多是強(qiáng)大的工具,而不是通往 AGI 的終極路徑。


在他的《通往自主機(jī)器智能的道路》的重要立場論文中,他提出了實(shí)現(xiàn)人工智能的替代框架。


他還提出了一種預(yù)測世界模型的新架構(gòu): 聯(lián)合嵌入預(yù)測架構(gòu) (Joint Embedding Predictive Architecture,JEPA)。

Yann LeCun已經(jīng)離開了Meta,他的學(xué)術(shù)成果仍然在Meta發(fā)揮余熱。

剛剛,Meta FAIR、香港科技大學(xué)、索邦大學(xué)、紐約大學(xué)聯(lián)合發(fā)布了一個(gè)基于JEPA的視覺-語言模型VL-JEPA。


VL-JEPA架構(gòu)徹底拋棄了傳統(tǒng)視覺語言模型逐個(gè)Token生成的低效模式,轉(zhuǎn)而在抽象的嵌入空間中直接預(yù)測語義,以一半的參數(shù)量實(shí)現(xiàn)了SOTA的性能,并為實(shí)時(shí)視頻理解帶來了近3倍的效率提升。

回歸語義本質(zhì)

現(xiàn)在的AI界都是被基于Transformer的自回歸模型統(tǒng)治。

給AI看一張圖,它就像個(gè)絮絮叨叨的解說員,必須一個(gè)詞接一個(gè)詞地往外蹦句子。這種方式看似直觀,實(shí)則在訓(xùn)練和推理上都極其昂貴。

Yann LeCun早已對(duì)這種低效模式感到不滿。

這篇論文的研究者也認(rèn)為,智能的核心在于理解和預(yù)測,而不在于是否能把每一句話都修飾得文采飛揚(yáng)。

基于這種理念,他們推出了VL-JEPA的視覺語言模型。


傳統(tǒng)模型在訓(xùn)練時(shí)不得不關(guān)注每一個(gè)單詞的選擇、句式的排列甚至語氣的模仿。

這對(duì)理解圖像內(nèi)容來說,其實(shí)是巨大的浪費(fèi)。

就像你問一個(gè)人“燈關(guān)了嗎?”,他回答“燈滅了”或者“房間變暗了”在意思上是完全一樣的,但在傳統(tǒng)的訓(xùn)練中,模型卻要為了這兩個(gè)在字面上完全正交(不重疊)的句子耗費(fèi)大量算力去擬合。

VL-JEPA換了一種活法。

它不再執(zhí)著于預(yù)測下一個(gè)單詞是什么,而是直接預(yù)測目標(biāo)文本在數(shù)學(xué)空間中的“坐標(biāo)”——也就是連續(xù)的語義嵌入(Embeddings)。

在這個(gè)高維空間里,“燈滅了”和“房間變暗了”的坐標(biāo)靠得非常近。模型只需要學(xué)會(huì)指那個(gè)方向,而不需要糾結(jié)具體用哪個(gè)詞來描述。

這種非生成式(Non-generative)的設(shè)計(jì),讓模型得以剝離掉那些與任務(wù)無關(guān)的語言表象,專注于最核心的語義信息。

這不僅簡化了學(xué)習(xí)目標(biāo),更讓模型在參數(shù)量減少50%的情況下,依然能打出比肩甚至超越龐大生成式模型的戰(zhàn)績。

架構(gòu)的精密運(yùn)轉(zhuǎn)邏輯

VL-JEPA的設(shè)計(jì)哲學(xué)體現(xiàn)在其精簡而高效的四個(gè)核心組件中。這套架構(gòu)不需要在那兒猜詞,而是通過計(jì)算向量的距離來理解世界。


X-Encoder(視覺編碼器)負(fù)責(zé)看。

它接收視頻或圖像輸入,將其壓縮成一串緊湊的視覺嵌入向量。這里研究團(tuán)隊(duì)選用的是凍結(jié)參數(shù)的V-JEPA 2 ViT-L模型。這個(gè)模型本身就在自監(jiān)督視覺任務(wù)上表現(xiàn)優(yōu)異,能把復(fù)雜的視頻畫面濃縮成高密度的信息流。

Y-Encoder(文本編碼器)負(fù)責(zé)聽和理解目標(biāo)。

它將目標(biāo)文本(比如問題的答案或圖片的描述)映射到一個(gè)連續(xù)的潛在空間中。這個(gè)空間就是模型學(xué)習(xí)的靶場。在這個(gè)空間里,語義相近的句子會(huì)聚在一起,無關(guān)的信息被過濾。這一步至關(guān)重要,它決定了模型思考的質(zhì)量。

Predictor(預(yù)測器)是整個(gè)架構(gòu)的大腦。

它接收來自X-Encoder的視覺信息,同時(shí)接收一個(gè)文本查詢(Query,比如“這人在干嘛?”),然后它的任務(wù)就是預(yù)測出Y-Encoder會(huì)生成什么樣的嵌入向量。注意,它預(yù)測的是一個(gè)數(shù)學(xué)向量,而不是具體的文字。這部分采用的是Llama-3的Transformer層進(jìn)行初始化,讓它天生就具備一定的語言理解底子。

Y-Decoder(文本解碼器)是一個(gè)輕量級(jí)的翻譯官。

它在訓(xùn)練階段完全不參與,只有在人類真的需要看文字結(jié)果時(shí),它才會(huì)被喚醒,把模型預(yù)測出來的數(shù)學(xué)向量翻譯成人類能讀懂的句子。

這套系統(tǒng)的訓(xùn)練目標(biāo)非常純粹:最小化預(yù)測出的嵌入向量和真實(shí)文本嵌入向量之間的距離。

為了防止模型偷懶(比如把所有輸入都映射成同一個(gè)點(diǎn)),團(tuán)隊(duì)使用了InfoNCE損失函數(shù)。

這種對(duì)比學(xué)習(xí)的方法,一邊拉近正確答案的距離,一邊把無關(guān)的干擾項(xiàng)推遠(yuǎn),迫使模型在那個(gè)抽象的數(shù)學(xué)空間里構(gòu)建出清晰的語義地圖。

這種設(shè)計(jì)讓VL-JEPA在處理那些沒有標(biāo)準(zhǔn)答案的任務(wù)時(shí)如魚得水。

在真實(shí)世界里,同一個(gè)動(dòng)作的描述千變?nèi)f化,傳統(tǒng)模型要在離散的詞表中尋找唯一解極其痛苦,而VL-JEPA只需要在連續(xù)空間里找到那個(gè)語義聚類中心即可。

選擇性解碼藝術(shù)

視頻理解一直是AI領(lǐng)域的硬骨頭,尤其是實(shí)時(shí)視頻流。

以前的模型每一幀都要處理,每一秒都要嘗試生成描述,計(jì)算量大到無法在可穿戴設(shè)備或機(jī)器人上實(shí)時(shí)運(yùn)行。

VL-JEPA在這里展現(xiàn)了它作為非自回歸模型的巨大優(yōu)勢(shì)。

由于VL-JEPA輸出的是連續(xù)的語義嵌入流,它可以像心電圖一樣實(shí)時(shí)監(jiān)測這個(gè)信號(hào)的變化。

如果畫面中的語義沒有發(fā)生劇烈波動(dòng),模型就保持沉默,不做任何繁重的文字解碼工作。

只有當(dāng)監(jiān)測到的語義方差超過某個(gè)閾值——意味著畫面中發(fā)生了新的事件時(shí),它才喚醒解碼器,輸出一段文字描述。

這種選擇性解碼(Selective Decoding)機(jī)制,讓計(jì)算資源得到了極致的優(yōu)化。


實(shí)驗(yàn)數(shù)據(jù)顯示,在保證同等語義捕捉質(zhì)量(CIDEr分?jǐn)?shù))的前提下,VL-JEPA的解碼操作次數(shù)減少了約2.85倍。

對(duì)于智能眼鏡、家庭機(jī)器人這種對(duì)延遲和功耗極其敏感的設(shè)備來說,這幾乎是質(zhì)的飛躍。

模型可以始終在線觀察世界,但只在必要時(shí)開口匯報(bào),既省電又敏捷。

相比之下,傳統(tǒng)的VLM(視覺語言模型)受限于自回歸的生成方式,必須把上一個(gè)詞算出來才能算下一個(gè)詞,這不僅延遲高,而且無法在生成過程中動(dòng)態(tài)更新語義。

VL-JEPA的嵌入流則是并行的、連續(xù)的,能跟隨視頻流即時(shí)刷新對(duì)世界的認(rèn)知。

在嚴(yán)苛對(duì)比下的性能統(tǒng)治力

為了證明這套架構(gòu)不僅僅是理論上好聽,Meta團(tuán)隊(duì)進(jìn)行了一場極其嚴(yán)苛的對(duì)比實(shí)驗(yàn)。他們構(gòu)建了一個(gè)對(duì)照組:一個(gè)標(biāo)準(zhǔn)的Token生成式VLM。

這個(gè)對(duì)照組使用了完全相同的視覺編碼器、相同的空間分辨率、相同的幀率、完全一樣的訓(xùn)練數(shù)據(jù)(包括DataComp、YFCC-100M等海量圖文對(duì)以及HowTo100M視頻數(shù)據(jù))、一樣的Batch Size,甚至訓(xùn)練迭代次數(shù)都一模一樣。

唯一的區(qū)別就在于,一個(gè)是在數(shù)據(jù)空間里預(yù)測Token,一個(gè)是在潛在空間里預(yù)測Embedding。

結(jié)果令人信服。在同等算力預(yù)算下,VL-JEPA在零樣本(Zero-shot)分類和描述任務(wù)上,性能曲線爬升得比傳統(tǒng)VLM快得多。


在訓(xùn)練了500萬個(gè)樣本后,VL-JEPA的Top-5分類準(zhǔn)確率達(dá)到了35.3%,而對(duì)照組只有27.2%。

這種差距隨著訓(xùn)練的進(jìn)行一直保持著。

更關(guān)鍵的是,VL-JEPA的訓(xùn)練參數(shù)只有1.6B(16億),比許多動(dòng)輒百億參數(shù)的大模型輕量得多,卻干出了更好的活。


在廣泛的視頻分類和檢索基準(zhǔn)測試中,VL-JEPA的表現(xiàn)全面超越了CLIP、SigLIP2和Perception Encoder這些赫赫有名的前輩。

特別是在SSv2、EgoExo4D這種強(qiáng)調(diào)動(dòng)作和過程的視頻數(shù)據(jù)集上,VL-JEPA的優(yōu)勢(shì)尤為明顯。

這說明它不僅僅是看懂了畫面里的物體(外觀),更看懂了物體在如何運(yùn)動(dòng)和交互(動(dòng)態(tài))。

VL-JEPA不僅僅是一個(gè)只會(huì)看視頻的分類器,經(jīng)過第二階段的監(jiān)督微調(diào)(SFT)后,它搖身一變成了一個(gè)全能選手。

在視覺問答(VQA)任務(wù)上,盡管參數(shù)量只有1.6B,VL-JEPA依然與InstructBLIP、Qwen-VL這些大塊頭打得有來有回。

在GQA(組合視覺推理)、TallyQA(復(fù)雜計(jì)數(shù))以及POPE(物體幻覺檢測)等數(shù)據(jù)集上,它的表現(xiàn)都接近了SOTA水平。


更令人興奮的是它在世界預(yù)測(World Prediction)任務(wù)上的表現(xiàn)。

這個(gè)任務(wù)要求模型看一張起始圖和一張終點(diǎn)圖,然后判斷中間發(fā)生了什么動(dòng)作。這實(shí)際上是在測試模型是否理解物理世界的因果關(guān)系。

在這個(gè)領(lǐng)域,VL-JEPA不僅擊敗了同量級(jí)的VLM,甚至在準(zhǔn)確率上超過了GPT-4o、Claude-3.5和Gemini-2這些頂級(jí)的大語言模型。


雖然這些大模型擁有千億級(jí)的參數(shù),但在純粹的視覺因果推理上,專注于嵌入空間預(yù)測的VL-JEPA展現(xiàn)出了更敏銳的物理直覺。

這種能力意味著VL-JEPA非常適合作為具身智能(Embodied AI)的大腦。

機(jī)器人需要理解它所處環(huán)境的物理規(guī)律,預(yù)測自己動(dòng)作的后果,而不需要每一步都停下來寫一篇小作文來分析現(xiàn)狀。

Meta團(tuán)隊(duì)還非常誠實(shí)地展示了各種失敗的嘗試,告訴大家什么行得通,什么行不通。


關(guān)于預(yù)訓(xùn)練,他們發(fā)現(xiàn)如果跳過第一階段的海量圖文預(yù)訓(xùn)練,直接上SFT,分類準(zhǔn)確率會(huì)暴跌21.7%。

這說明地基必須打牢,沒有大規(guī)模數(shù)據(jù)的浸泡,模型學(xué)不到通用的視覺語言對(duì)齊。

關(guān)于學(xué)習(xí)率,Y-Encoder的學(xué)習(xí)率必須非常小心地調(diào)整。

實(shí)驗(yàn)表明,給文本編碼器設(shè)置0.05到0.1倍的學(xué)習(xí)率乘數(shù)是最佳甜點(diǎn)。太快了模型會(huì)發(fā)散,太慢了學(xué)不動(dòng)。

關(guān)于損失函數(shù),InfoNCE展現(xiàn)了統(tǒng)治力。

相比于簡單的余弦距離(Cosine)或L1/L2距離,InfoNCE自帶的抗坍縮(Anti-collapse)屬性對(duì)于維持嵌入空間的多樣性至關(guān)重要。雖然在VQA任務(wù)上余弦距離表現(xiàn)稍好,但在分類和檢索等通用任務(wù)上,InfoNCE是絕對(duì)的最優(yōu)解。

有趣的是,他們還嘗試了不同的文本編碼器。

雖然默認(rèn)使用的是EmbeddingGemma-300M,但實(shí)驗(yàn)證明更大的編碼器確實(shí)能帶來更好的性能。

特別是那些視覺對(duì)齊過的文本編碼器(如PE模型),能讓分類和檢索分?jǐn)?shù)進(jìn)一步上漲。

這暗示了VL-JEPA架構(gòu)還有巨大的潛力可挖,只要換上更強(qiáng)的組件,性能天花板還能往上頂。

VL-JEPA標(biāo)志著視覺語言模型從學(xué)會(huì)說話向?qū)W會(huì)思考邁出了堅(jiān)實(shí)的一步。

參考資料:

https://arxiv.org/pdf/2512.10942

https://openreview.net/pdf?id=BZ5a1r-kVsf

??

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
微胖女生照著這樣穿就對(duì)了,黑色休閑西服搭配破洞牛仔褲,美美的

微胖女生照著這樣穿就對(duì)了,黑色休閑西服搭配破洞牛仔褲,美美的

朝史暮夕
2025-12-28 08:54:23
特大省級(jí)建工集團(tuán)崩了!

特大省級(jí)建工集團(tuán)崩了!

黯泉
2025-12-27 17:24:51
溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無人性

溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無人性

小豫講故事
2025-12-27 06:00:06
貴州省人社廳黨組副書記、副廳長高曉昀履新安順市委副書記

貴州省人社廳黨組副書記、副廳長高曉昀履新安順市委副書記

澎湃新聞
2025-12-27 19:02:26
合租5年的男室友,突然說要回老家訂婚,我調(diào)侃說:干脆娶我算了

合租5年的男室友,突然說要回老家訂婚,我調(diào)侃說:干脆娶我算了

朝暮書屋
2025-12-22 18:14:10
人一過60,永遠(yuǎn)不要在熟人面前,說以下幾句話,誰說誰后悔,切記

人一過60,永遠(yuǎn)不要在熟人面前,說以下幾句話,誰說誰后悔,切記

游戲收藏指南
2025-12-27 08:22:53
蔣緯國晚年回憶道:父親在洗澡的時(shí)候喊媽媽,聲音很大,歇斯底里

蔣緯國晚年回憶道:父親在洗澡的時(shí)候喊媽媽,聲音很大,歇斯底里

嘮叨說歷史
2025-12-25 10:39:44
比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
海南封關(guān)成照妖鏡,東南亞國家挨個(gè)現(xiàn)行,新加坡直言不準(zhǔn)自給自足

海南封關(guān)成照妖鏡,東南亞國家挨個(gè)現(xiàn)行,新加坡直言不準(zhǔn)自給自足

眼底星碎
2025-12-26 19:35:35
律師全部失業(yè)!佛山一律所被吊銷執(zhí)照,起因是非法“購買案源”…

律師全部失業(yè)!佛山一律所被吊銷執(zhí)照,起因是非法“購買案源”…

火山詩話
2025-12-27 14:50:55
善惡終有報(bào)!“銷聲匿跡”的宋祖英,已經(jīng)走上了另一條康莊大道

善惡終有報(bào)!“銷聲匿跡”的宋祖英,已經(jīng)走上了另一條康莊大道

芳芳?xì)v史燴
2025-09-09 16:56:18
五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

老范談史
2025-12-10 19:22:28
中南大學(xué)老校長黃伯云陷入尷尬境地:他力薦的院士候選人出事了

中南大學(xué)老校長黃伯云陷入尷尬境地:他力薦的院士候選人出事了

Delete丨CC
2025-12-27 20:26:04
奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

千言娛樂記
2025-12-27 18:55:00
衡水兄弟做“尊嚴(yán)生意”從虧損3200萬到年入6億,登上歐美市場TOP

衡水兄弟做“尊嚴(yán)生意”從虧損3200萬到年入6億,登上歐美市場TOP

天下網(wǎng)商
2025-12-08 10:49:58
重磅!2026年起6大新規(guī)生效,你的生活將徹底改變!

重磅!2026年起6大新規(guī)生效,你的生活將徹底改變!

復(fù)轉(zhuǎn)這些年
2025-12-27 23:52:26
越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

墨染時(shí)光
2025-12-27 21:13:25
0分,0分!遼寧隊(duì)重磅引援太低迷 球迷:楊鳴看走眼了?

0分,0分!遼寧隊(duì)重磅引援太低迷 球迷:楊鳴看走眼了?

體育哲人
2025-12-28 09:16:01
陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

來科點(diǎn)譜
2025-12-28 08:57:40
打30分鐘比賽就又傷了!32歲昔日“世界第一中場”,失去作戰(zhàn)之力

打30分鐘比賽就又傷了!32歲昔日“世界第一中場”,失去作戰(zhàn)之力

里芃芃體育
2025-12-28 00:10:09
2025-12-28 09:59:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37358關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長葉寒冰被通報(bào):長期出入私人會(huì)所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報(bào):長期出入私人會(huì)所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

親子
數(shù)碼
旅游
本地
公開課

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔(dān)憂的惡心一幕曝光!

數(shù)碼要聞

彩殼版蘋果初代AirPods耳機(jī)曝光:風(fēng)格酷似iPhone 5C

旅游要聞

來松江,就放松丨連續(xù)4天上演煙花秀!上海歡樂谷閃耀歡禧節(jié)開啟

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版