網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

楊立昆路線的新勝利：VL-JEPA來了，拋棄預(yù)測下一個(gè)詞，不靠生成，照樣SOTA

2025-12-25 19:06:05　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

算泥社區(qū)是集 “AI 大模型開發(fā)服務(wù) + 算法 + 算力” 于一體的開源生態(tài)社區(qū)，歡迎關(guān)注！

人工智能研究中，Yann LeCun（楊立昆）有一個(gè)獨(dú)特且經(jīng)常引起爭議的觀點(diǎn)。

他認(rèn)為僅靠以語言為中心、基于預(yù)測下一個(gè)詞的規(guī)?；Ｐ?，無法通向真正具備常識(shí)、因果理解和規(guī)劃能力的通用智能；它們?nèi)狈?duì)物理世界的內(nèi)在表征與世界模型，無法自主學(xué)習(xí)和可靠推理，因此最多是強(qiáng)大的工具，而不是通往 AGI 的終極路徑。

在他的《通往自主機(jī)器智能的道路》的重要立場論文中，他提出了實(shí)現(xiàn)人工智能的替代框架。

他還提出了一種預(yù)測世界模型的新架構(gòu): 聯(lián)合嵌入預(yù)測架構(gòu) (Joint Embedding Predictive Architecture，JEPA)。

Yann LeCun已經(jīng)離開了Meta，他的學(xué)術(shù)成果仍然在Meta發(fā)揮余熱。

剛剛，Meta FAIR、香港科技大學(xué)、索邦大學(xué)、紐約大學(xué)聯(lián)合發(fā)布了一個(gè)基于JEPA的視覺-語言模型VL-JEPA。

VL-JEPA架構(gòu)徹底拋棄了傳統(tǒng)視覺語言模型逐個(gè)Token生成的低效模式，轉(zhuǎn)而在抽象的嵌入空間中直接預(yù)測語義，以一半的參數(shù)量實(shí)現(xiàn)了SOTA的性能，并為實(shí)時(shí)視頻理解帶來了近3倍的效率提升。

回歸語義本質(zhì)

現(xiàn)在的AI界都是被基于Transformer的自回歸模型統(tǒng)治。

給AI看一張圖，它就像個(gè)絮絮叨叨的解說員，必須一個(gè)詞接一個(gè)詞地往外蹦句子。這種方式看似直觀，實(shí)則在訓(xùn)練和推理上都極其昂貴。

Yann LeCun早已對(duì)這種低效模式感到不滿。

這篇論文的研究者也認(rèn)為，智能的核心在于理解和預(yù)測，而不在于是否能把每一句話都修飾得文采飛揚(yáng)。

基于這種理念，他們推出了VL-JEPA的視覺語言模型。

傳統(tǒng)模型在訓(xùn)練時(shí)不得不關(guān)注每一個(gè)單詞的選擇、句式的排列甚至語氣的模仿。

這對(duì)理解圖像內(nèi)容來說，其實(shí)是巨大的浪費(fèi)。

就像你問一個(gè)人“燈關(guān)了嗎？”，他回答“燈滅了”或者“房間變暗了”在意思上是完全一樣的，但在傳統(tǒng)的訓(xùn)練中，模型卻要為了這兩個(gè)在字面上完全正交（不重疊）的句子耗費(fèi)大量算力去擬合。

VL-JEPA換了一種活法。

它不再執(zhí)著于預(yù)測下一個(gè)單詞是什么，而是直接預(yù)測目標(biāo)文本在數(shù)學(xué)空間中的“坐標(biāo)”——也就是連續(xù)的語義嵌入（Embeddings）。

在這個(gè)高維空間里，“燈滅了”和“房間變暗了”的坐標(biāo)靠得非常近。模型只需要學(xué)會(huì)指那個(gè)方向，而不需要糾結(jié)具體用哪個(gè)詞來描述。

這種非生成式（Non-generative）的設(shè)計(jì)，讓模型得以剝離掉那些與任務(wù)無關(guān)的語言表象，專注于最核心的語義信息。

這不僅簡化了學(xué)習(xí)目標(biāo)，更讓模型在參數(shù)量減少50%的情況下，依然能打出比肩甚至超越龐大生成式模型的戰(zhàn)績。

架構(gòu)的精密運(yùn)轉(zhuǎn)邏輯

VL-JEPA的設(shè)計(jì)哲學(xué)體現(xiàn)在其精簡而高效的四個(gè)核心組件中。這套架構(gòu)不需要在那兒猜詞，而是通過計(jì)算向量的距離來理解世界。

X-Encoder（視覺編碼器）負(fù)責(zé)看。

它接收視頻或圖像輸入，將其壓縮成一串緊湊的視覺嵌入向量。這里研究團(tuán)隊(duì)選用的是凍結(jié)參數(shù)的V-JEPA 2 ViT-L模型。這個(gè)模型本身就在自監(jiān)督視覺任務(wù)上表現(xiàn)優(yōu)異，能把復(fù)雜的視頻畫面濃縮成高密度的信息流。

Y-Encoder（文本編碼器）負(fù)責(zé)聽和理解目標(biāo)。

它將目標(biāo)文本（比如問題的答案或圖片的描述）映射到一個(gè)連續(xù)的潛在空間中。這個(gè)空間就是模型學(xué)習(xí)的靶場。在這個(gè)空間里，語義相近的句子會(huì)聚在一起，無關(guān)的信息被過濾。這一步至關(guān)重要，它決定了模型思考的質(zhì)量。

Predictor（預(yù)測器）是整個(gè)架構(gòu)的大腦。

它接收來自X-Encoder的視覺信息，同時(shí)接收一個(gè)文本查詢（Query，比如“這人在干嘛？”），然后它的任務(wù)就是預(yù)測出Y-Encoder會(huì)生成什么樣的嵌入向量。注意，它預(yù)測的是一個(gè)數(shù)學(xué)向量，而不是具體的文字。這部分采用的是Llama-3的Transformer層進(jìn)行初始化，讓它天生就具備一定的語言理解底子。

Y-Decoder（文本解碼器）是一個(gè)輕量級(jí)的翻譯官。

它在訓(xùn)練階段完全不參與，只有在人類真的需要看文字結(jié)果時(shí)，它才會(huì)被喚醒，把模型預(yù)測出來的數(shù)學(xué)向量翻譯成人類能讀懂的句子。

這套系統(tǒng)的訓(xùn)練目標(biāo)非常純粹：最小化預(yù)測出的嵌入向量和真實(shí)文本嵌入向量之間的距離。

為了防止模型偷懶（比如把所有輸入都映射成同一個(gè)點(diǎn)），團(tuán)隊(duì)使用了InfoNCE損失函數(shù)。

這種對(duì)比學(xué)習(xí)的方法，一邊拉近正確答案的距離，一邊把無關(guān)的干擾項(xiàng)推遠(yuǎn)，迫使模型在那個(gè)抽象的數(shù)學(xué)空間里構(gòu)建出清晰的語義地圖。

這種設(shè)計(jì)讓VL-JEPA在處理那些沒有標(biāo)準(zhǔn)答案的任務(wù)時(shí)如魚得水。

在真實(shí)世界里，同一個(gè)動(dòng)作的描述千變?nèi)f化，傳統(tǒng)模型要在離散的詞表中尋找唯一解極其痛苦，而VL-JEPA只需要在連續(xù)空間里找到那個(gè)語義聚類中心即可。

選擇性解碼藝術(shù)

視頻理解一直是AI領(lǐng)域的硬骨頭，尤其是實(shí)時(shí)視頻流。

以前的模型每一幀都要處理，每一秒都要嘗試生成描述，計(jì)算量大到無法在可穿戴設(shè)備或機(jī)器人上實(shí)時(shí)運(yùn)行。

VL-JEPA在這里展現(xiàn)了它作為非自回歸模型的巨大優(yōu)勢(shì)。

由于VL-JEPA輸出的是連續(xù)的語義嵌入流，它可以像心電圖一樣實(shí)時(shí)監(jiān)測這個(gè)信號(hào)的變化。

如果畫面中的語義沒有發(fā)生劇烈波動(dòng)，模型就保持沉默，不做任何繁重的文字解碼工作。

只有當(dāng)監(jiān)測到的語義方差超過某個(gè)閾值——意味著畫面中發(fā)生了新的事件時(shí)，它才喚醒解碼器，輸出一段文字描述。

這種選擇性解碼（Selective Decoding）機(jī)制，讓計(jì)算資源得到了極致的優(yōu)化。

實(shí)驗(yàn)數(shù)據(jù)顯示，在保證同等語義捕捉質(zhì)量（CIDEr分?jǐn)?shù)）的前提下，VL-JEPA的解碼操作次數(shù)減少了約2.85倍。

對(duì)于智能眼鏡、家庭機(jī)器人這種對(duì)延遲和功耗極其敏感的設(shè)備來說，這幾乎是質(zhì)的飛躍。

模型可以始終在線觀察世界，但只在必要時(shí)開口匯報(bào)，既省電又敏捷。

相比之下，傳統(tǒng)的VLM（視覺語言模型）受限于自回歸的生成方式，必須把上一個(gè)詞算出來才能算下一個(gè)詞，這不僅延遲高，而且無法在生成過程中動(dòng)態(tài)更新語義。

VL-JEPA的嵌入流則是并行的、連續(xù)的，能跟隨視頻流即時(shí)刷新對(duì)世界的認(rèn)知。

在嚴(yán)苛對(duì)比下的性能統(tǒng)治力

為了證明這套架構(gòu)不僅僅是理論上好聽，Meta團(tuán)隊(duì)進(jìn)行了一場極其嚴(yán)苛的對(duì)比實(shí)驗(yàn)。他們構(gòu)建了一個(gè)對(duì)照組：一個(gè)標(biāo)準(zhǔn)的Token生成式VLM。

這個(gè)對(duì)照組使用了完全相同的視覺編碼器、相同的空間分辨率、相同的幀率、完全一樣的訓(xùn)練數(shù)據(jù)（包括DataComp、YFCC-100M等海量圖文對(duì)以及HowTo100M視頻數(shù)據(jù)）、一樣的Batch Size，甚至訓(xùn)練迭代次數(shù)都一模一樣。

唯一的區(qū)別就在于，一個(gè)是在數(shù)據(jù)空間里預(yù)測Token，一個(gè)是在潛在空間里預(yù)測Embedding。

結(jié)果令人信服。在同等算力預(yù)算下，VL-JEPA在零樣本（Zero-shot）分類和描述任務(wù)上，性能曲線爬升得比傳統(tǒng)VLM快得多。

在訓(xùn)練了500萬個(gè)樣本后，VL-JEPA的Top-5分類準(zhǔn)確率達(dá)到了35.3%，而對(duì)照組只有27.2%。

這種差距隨著訓(xùn)練的進(jìn)行一直保持著。

更關(guān)鍵的是，VL-JEPA的訓(xùn)練參數(shù)只有1.6B（16億），比許多動(dòng)輒百億參數(shù)的大模型輕量得多，卻干出了更好的活。

在廣泛的視頻分類和檢索基準(zhǔn)測試中，VL-JEPA的表現(xiàn)全面超越了CLIP、SigLIP2和Perception Encoder這些赫赫有名的前輩。

特別是在SSv2、EgoExo4D這種強(qiáng)調(diào)動(dòng)作和過程的視頻數(shù)據(jù)集上，VL-JEPA的優(yōu)勢(shì)尤為明顯。

這說明它不僅僅是看懂了畫面里的物體（外觀），更看懂了物體在如何運(yùn)動(dòng)和交互（動(dòng)態(tài)）。

VL-JEPA不僅僅是一個(gè)只會(huì)看視頻的分類器，經(jīng)過第二階段的監(jiān)督微調(diào)（SFT）后，它搖身一變成了一個(gè)全能選手。

在視覺問答（VQA）任務(wù)上，盡管參數(shù)量只有1.6B，VL-JEPA依然與InstructBLIP、Qwen-VL這些大塊頭打得有來有回。

在GQA（組合視覺推理）、TallyQA（復(fù)雜計(jì)數(shù)）以及POPE（物體幻覺檢測）等數(shù)據(jù)集上，它的表現(xiàn)都接近了SOTA水平。

更令人興奮的是它在世界預(yù)測（World Prediction）任務(wù)上的表現(xiàn)。

這個(gè)任務(wù)要求模型看一張起始圖和一張終點(diǎn)圖，然后判斷中間發(fā)生了什么動(dòng)作。這實(shí)際上是在測試模型是否理解物理世界的因果關(guān)系。

在這個(gè)領(lǐng)域，VL-JEPA不僅擊敗了同量級(jí)的VLM，甚至在準(zhǔn)確率上超過了GPT-4o、Claude-3.5和Gemini-2這些頂級(jí)的大語言模型。

雖然這些大模型擁有千億級(jí)的參數(shù)，但在純粹的視覺因果推理上，專注于嵌入空間預(yù)測的VL-JEPA展現(xiàn)出了更敏銳的物理直覺。

這種能力意味著VL-JEPA非常適合作為具身智能（Embodied AI）的大腦。

機(jī)器人需要理解它所處環(huán)境的物理規(guī)律，預(yù)測自己動(dòng)作的后果，而不需要每一步都停下來寫一篇小作文來分析現(xiàn)狀。

Meta團(tuán)隊(duì)還非常誠實(shí)地展示了各種失敗的嘗試，告訴大家什么行得通，什么行不通。

關(guān)于預(yù)訓(xùn)練，他們發(fā)現(xiàn)如果跳過第一階段的海量圖文預(yù)訓(xùn)練，直接上SFT，分類準(zhǔn)確率會(huì)暴跌21.7%。

這說明地基必須打牢，沒有大規(guī)模數(shù)據(jù)的浸泡，模型學(xué)不到通用的視覺語言對(duì)齊。

關(guān)于學(xué)習(xí)率，Y-Encoder的學(xué)習(xí)率必須非常小心地調(diào)整。

實(shí)驗(yàn)表明，給文本編碼器設(shè)置0.05到0.1倍的學(xué)習(xí)率乘數(shù)是最佳甜點(diǎn)。太快了模型會(huì)發(fā)散，太慢了學(xué)不動(dòng)。

關(guān)于損失函數(shù)，InfoNCE展現(xiàn)了統(tǒng)治力。

相比于簡單的余弦距離（Cosine）或L1/L2距離，InfoNCE自帶的抗坍縮（Anti-collapse）屬性對(duì)于維持嵌入空間的多樣性至關(guān)重要。雖然在VQA任務(wù)上余弦距離表現(xiàn)稍好，但在分類和檢索等通用任務(wù)上，InfoNCE是絕對(duì)的最優(yōu)解。

有趣的是，他們還嘗試了不同的文本編碼器。

雖然默認(rèn)使用的是EmbeddingGemma-300M，但實(shí)驗(yàn)證明更大的編碼器確實(shí)能帶來更好的性能。

特別是那些視覺對(duì)齊過的文本編碼器（如PE模型），能讓分類和檢索分?jǐn)?shù)進(jìn)一步上漲。

這暗示了VL-JEPA架構(gòu)還有巨大的潛力可挖，只要換上更強(qiáng)的組件，性能天花板還能往上頂。

VL-JEPA標(biāo)志著視覺語言模型從學(xué)會(huì)說話向?qū)W會(huì)思考邁出了堅(jiān)實(shí)的一步。

參考資料：

https://arxiv.org/pdf/2512.10942

https://openreview.net/pdf?id=BZ5a1r-kVsf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.