網易首頁 > 網易號 > 正文申請入駐

Meta與斯坦福阿波羅計劃：3B視頻模型性能超越7B大模型

2026-03-09 16:31:45　來源: 科技行者

北京舉報

分享至

這項由Meta GenAI與斯坦福大學聯合開展的突破性研究發(fā)表于2024年12月16日，論文編號為arXiv:2412.10360v1。研究團隊深入探索了視頻理解大型多模態(tài)模型的設計奧秘，最終推出了革命性的Apollo模型系列。有興趣深入了解的讀者可以通過該編號查詢完整論文。

就像烹飪界一直在尋找完美食譜一樣，人工智能領域也在不斷摸索如何讓機器更好地理解視頻內容。雖然文字和圖片處理技術已經相當成熟，但讓AI看懂動態(tài)視頻這道"大菜"仍然是個巨大挑戰(zhàn)。視頻不僅包含豐富的空間信息，更承載著復雜的時間變化，就像一部精彩的電影需要觀眾同時理解畫面和情節(jié)發(fā)展一樣。

現有的視頻理解模型面臨著三個主要困境，好比廚師面臨的經典難題。首先是"食材"問題——訓練這些模型需要海量的計算資源，成本高昂得讓人望而卻步。其次是"配方"問題——業(yè)界對于如何設計最佳的模型架構缺乏系統(tǒng)性認知，很多關鍵決策都缺乏科學依據。最后是"品嘗"問題——現有的評估方法效率低下，評估一個模型需要消耗184個GPU小時，這就像品嘗一道菜需要等待數天一樣不切實際。

研究團隊發(fā)現了一個令人驚喜的現象，他們稱之為"縮放一致性"。這就像發(fā)現了烹飪的黃金法則——在小鍋里調試成功的調料配比，放到大鍋里同樣有效。具體來說，當研究人員在較小的模型（約2-4B參數）和數據集上測試各種設計方案時，這些方案的優(yōu)劣排序在更大的模型上幾乎完全一致。這個發(fā)現徹底改變了游戲規(guī)則，讓研究人員可以用較小的成本快速驗證設計思路，然后放心地應用到更大的模型上。

基于這個重大發(fā)現，研究團隊開始了一場全方位的"配方優(yōu)化"之旅。他們系統(tǒng)性地測試了視頻處理的各個環(huán)節(jié)，從視頻采樣方法到模型架構，從訓練策略到數據配比，每一個細節(jié)都被仔細檢驗。這種全面性的探索在業(yè)界尚屬首次，就像第一次有人系統(tǒng)性地研究了完美蛋糕制作的每一個變量。

一、重新定義評估標準：ApolloBench的誕生

就像品酒師需要一套標準化的品鑒流程一樣，評估視頻理解模型也需要科學合理的基準測試。研究團隊發(fā)現，現有的評估體系存在嚴重問題，很多測試實際上并不需要真正的視頻理解能力。

研究人員設計了一個巧妙的實驗來驗證這個猜測。他們讓十個開源模型在三種不同條件下回答視頻問題：完整視頻模式、單幀圖片模式和純文本模式。結果令人震驚——許多所謂的"視頻理解"任務實際上只需要閱讀問題文本或查看單幀圖片就能正確回答。這就像發(fā)現某些"品酒"測試實際上只要聞一聞就能得出正確答案，根本不需要真正品嘗。

更有趣的是，研究團隊發(fā)現隨著視頻長度增加，模型對真實視頻理解的依賴反而降低了。這種反?，F象揭示了一個深層問題：現有評估方法可能誤導了整個研究方向。就好比一個廚藝比賽，參賽者發(fā)現評委其實主要根據菜品外觀打分，而不是真正品嘗味道。

面對這些問題，研究團隊精心打造了ApolloBench評估體系。他們從現有測試中篩選出400道真正需要視頻理解能力的題目，每道題都經過嚴格驗證，確保不能僅憑文字或單幀圖片回答。這些題目被分為五個核心類別：時序文字識別、第一人稱視角理解、空間關系分析、感知任務和推理任務。整個篩選過程就像從海量食譜中挑選出最能考驗廚師真實水平的經典菜品。

ApolloBench的效率提升令人驚嘆——評估速度比傳統(tǒng)方法快了41倍，但評估質量反而更高。這就像發(fā)明了一種新的品嘗方法，既能快速得出結果，又能更準確地判斷食物品質。通過相關性分析，研究人員證實ApolloBench與現有各種測試基準高度相關，但更加專注于真正的視頻理解能力。

二、架構設計的藝術：從采樣到編碼的全鏈路優(yōu)化

就像烹飪需要精心選擇食材和烹飪方法一樣，視頻理解模型的設計也涉及眾多關鍵決策。研究團隊系統(tǒng)性地探索了從視頻采樣到最終輸出的每個環(huán)節(jié)，發(fā)現了許多顛覆傳統(tǒng)認知的重要發(fā)現。

視頻采樣策略的革命性發(fā)現可能是整個研究中最具實用價值的成果之一。傳統(tǒng)方法普遍采用"均勻幀采樣"，也就是從視頻中等間隔地選取固定數量的幀。這種做法看似合理，但研究團隊發(fā)現了一個嚴重問題：對于不同長度的視頻，這種方法實際上改變了視頻的"播放速度"。

以一個簡單例子說明這個問題：假設模型需要從視頻中采樣32幀。對于一個10秒的視頻，這32幀代表了每秒3.2幀的播放速度。但對于一個100秒的視頻，同樣的32幀就變成了每秒0.32幀的"慢動作"。這就像要求學生用同樣的時間閱讀不同厚度的書籍——薄書可以仔細品味每個詞句，厚書只能粗略瀏覽標題。

相比之下，"幀率采樣"方法保持固定的采樣頻率，比如每秒采集2幀。這種方法確保了時間一致性，讓模型能夠學習到穩(wěn)定的時間特征。實驗結果證實，幀率采樣的效果顯著優(yōu)于均勻采樣，特別是在需要理解物體運動速度和時間關系的任務中。研究團隊還發(fā)現，采樣頻率和每幀token數量之間存在巧妙的平衡關系，最優(yōu)配置是每幀8-32個token。

在視覺編碼器的選擇上，研究揭示了一個令人意外的真相。盡管直覺上認為專門的視頻編碼器應該更適合處理視頻內容，但實驗表明，圖像編碼器SigLIP-SO400M在單一編碼器配置中表現最佳。這個發(fā)現挑戰(zhàn)了業(yè)界的普遍認知，就像發(fā)現某種通用調料比專門的調料更能提升菜品味道。

然而，故事并未就此結束。研究團隊進一步發(fā)現，將圖像編碼器和視頻編碼器結合使用能夠帶來更大的性能提升。最佳組合是SigLIP-SO400M配合InternVideo2，這種組合在ApolloBench上的表現比單一編碼器提升了約7%。這種協(xié)同效應的機制很有趣：圖像編碼器提供高質量的空間表征，視頻編碼器補充時序信息，兩者相得益彰。

Token重采樣環(huán)節(jié)的優(yōu)化同樣關鍵。由于視覺編碼器輸出的特征維度通常低于語言模型的隱藏層維度，需要進行維度變換和token數量壓縮。研究測試了三種方法：簡單的MLP映射加平均池化、2D卷積加平均池化，以及Perceiver重采樣器。結果顯示，Perceiver重采樣器在各項指標上都明顯優(yōu)于其他方法，特別是在需要精細特征整合的任務中優(yōu)勢更加明顯。

視頻token與文本token的整合策略也經過了細致的對比研究。最初的方法是簡單地將視頻token直接插入文本序列，但研究發(fā)現，在不同視頻片段的token之間添加分隔符能夠帶來2-3%的性能提升。最終選擇的方案是使用時間戳格式（如"clip from 00:00-00:05:"），這種方法既不需要學習新的token嵌入，又能有效提升模型的時序理解能力。

三、訓練策略的深度解析：從數據配比到學習調度

就像烹飪大師需要掌握火候控制和食材搭配的精髓一樣，訓練優(yōu)秀的視頻理解模型也需要精妙的策略設計。研究團隊通過大量實驗，揭示了訓練過程中的諸多關鍵要素。

訓練階段的設計是整個策略的核心。研究對比了單階段、兩階段和三階段訓練方案的效果。單階段訓練雖然計算效率最高，但性能表現不夠理想。兩階段訓練在效率和效果之間取得了良好平衡，而三階段訓練則能夠實現最佳性能。

三階段訓練的精妙之處在于漸進式解凍策略。第一階段是"對齊階段"，只訓練連接器模塊，讓視覺特征和語言特征初步對接，就像讓不同食材的味道初步融合。第二階段是"視覺預訓練階段"，在保持語言模型凍結的同時訓練視覺編碼器，專門使用視頻數據來增強時序理解能力。第三階段是"監(jiān)督微調階段"，解凍整個模型進行端到端訓練，使用包含文本、圖像、多圖像和視頻的混合數據集。

視覺編碼器的訓練策略研究揭示了一個重要原則：專一化訓練的效果遠超混合訓練。當視覺編碼器需要同時處理圖像和視頻數據時，性能會顯著下降，就像要求一個廚師同時精通中餐和西餐往往兩邊都不夠專精。因此，最佳實踐是在需要訓練視覺編碼器時，專門使用視頻數據，這樣能夠最大化時序特征學習的效果。

數據配比的研究產生了一些反直覺的發(fā)現。雖然模型的最終目標是視頻理解，但完全去除文本數據會導致災難性的性能下降。研究發(fā)現，保持10-14%的文本數據比例對于維持模型的語言理解能力至關重要。這就像烹飪時即使主料是海鮮，也需要適量的調料來平衡味道。

更具體地說，最優(yōu)的數據配比方案是：14%文本數據，其余86%在圖像、多圖像和視頻數據之間分配，其中視頻數據略多一些。這種"視頻偏重"的配比既能充分訓練視頻理解能力，又能利用高質量圖像數據集來增強視覺表征。文本數據的作用主要是防止"災難性遺忘"，確保模型在專注視頻理解的同時不會喪失基礎的語言處理能力。

訓練過程中的一個關鍵發(fā)現是學習率的精細調節(jié)。研究團隊發(fā)現，不同組件需要不同的學習率策略。語言模型的學習率需要根據模型大小進行調整，遵循平方根縮放規(guī)律。連接器模塊使用相對較高的學習率能夠加速收斂。視覺編碼器的學習率則需要更加保守，避免破壞預訓練的特征表征。

四、Apollo模型：小而強的新標桿

基于前述所有研究發(fā)現，團隊打造了Apollo模型系列，這個命名不僅致敬了人類的太空探索精神，更象征著在視頻理解領域的重大突破。Apollo系列包含1.5B、3B和7B三個版本，每個版本都在同等規(guī)模的模型中創(chuàng)造了新的性能記錄。

Apollo的架構設計體現了研究團隊的所有重要發(fā)現。視覺編碼部分采用SigLIP-SO400M和InternVideo2的雙編碼器組合，兩個編碼器的輸出特征經過插值和通道拼接后，通過Perceiver重采樣器壓縮為每個視頻片段32個token。語言模型基于Qwen2.5系列，采用三階段漸進式訓練策略。

訓練數據的構成經過精心設計。由于許可限制，團隊沒有使用基于ChatGPT生成的數據集，而是構建了一個多樣化的訓練語料庫。數據組成包括33%的圖像數據、16.6%的多圖像數據、14.4%的文本數據和36%的視頻數據。為了豐富訓練素材，團隊還使用LLaMA 3.1 70B生成了多輪視頻對話數據，增強模型的交互能力。

Apollo-3B的表現令人震撼。在多個基準測試中，這個只有30億參數的"小模型"擊敗了大部分70億參數的競爭對手。在MLVU基準上，Apollo-3B取得了68.7分，超過了Oryx-7B的67.5分。在Video-MME測試中，Apollo-3B達到58.4分，相比同等規(guī)模的最佳競爭對手提升了12.8分。在專門設計的ApolloBench上，Apollo-3B獲得62.7分，比基線模型高出14.1分。

Apollo-7B更是在70億參數級別建立了新的標桿。MLVU測試中的70.9分不僅超越了所有同級別模型，甚至可以媲美一些300億參數的大模型。Video-MME的63.3分和ApolloBench的66.3分都顯示出顯著的領先優(yōu)勢。這種性能提升不是通過暴力堆疊參數實現的，而是源于精心的架構設計和訓練策略優(yōu)化。

Apollo系列的另一個突出特點是對長視頻的處理能力。通過優(yōu)化的采樣策略和token管理，Apollo模型能夠有效處理小時級別的長視頻內容。在LongVideoBench測試中，Apollo-3B取得了55.1分的優(yōu)異成績，證明了其在長時序理解方面的能力。

模型的效率優(yōu)勢同樣值得關注。相比于需要數百GPU小時的傳統(tǒng)評估方法，基于Apollo模型和ApolloBench的評估流程大大降低了計算成本。這種效率提升不僅降低了研究門檻，也為實際應用奠定了基礎。

五、技術創(chuàng)新的深層影響

Apollo項目的意義遠超單一模型的性能突破，它為整個視頻理解領域建立了新的研究范式。"縮放一致性"的發(fā)現改變了大模型研究的成本結構，讓更多研究團隊有能力參與到前沿探索中來。這就像發(fā)現了一種新的實驗方法，讓科學研究變得更加高效和民主化。

ApolloBench評估體系的建立解決了困擾業(yè)界已久的評估難題。通過41倍的效率提升和更準確的能力測評，這套體系有望成為視頻理解領域的標準測試平臺。更重要的是，它揭示了現有評估方法的系統(tǒng)性問題，推動整個領域重新審視研究方向和質量標準。

在實際應用層面，Apollo模型的優(yōu)異表現為視頻理解技術的普及奠定了基礎。3B模型能夠超越7B模型的現象表明，通過精心的設計優(yōu)化，可以在資源受限的環(huán)境中部署高性能的視頻理解系統(tǒng)。這對于移動設備、邊緣計算等場景具有重要意義。

研究中發(fā)現的各種設計原則也具有廣泛的指導價值。幀率采樣優(yōu)于均勻采樣的發(fā)現可以指導其他視頻處理任務的設計。雙編碼器協(xié)同的成功經驗可能啟發(fā)多模態(tài)融合的新思路。漸進式訓練策略的有效性則為大模型訓練提供了新的參考方案。

Apollo項目還展現了產學研合作的典型范例。Meta GenAI和斯坦福大學的聯合研究既有工業(yè)界的實踐經驗，又有學術界的理論深度，這種結合產生了超越單一機構能力的創(chuàng)新成果。這種合作模式值得在人工智能領域進一步推廣。

說到底，Apollo項目最大的價值在于它改變了我們對視頻理解問題的根本認知。過去，業(yè)界普遍認為處理視頻內容必須依賴大規(guī)模模型和海量計算資源。Apollo證明，通過科學的方法論和精細的工程實踐，可以用相對較小的模型實現更好的效果。這種"小而精"的理念可能會引領整個領域的發(fā)展方向，讓AI技術更加實用和普及。

研究團隊開源了相關代碼和模型權重，這為學術界和工業(yè)界的后續(xù)研究提供了寶貴資源。相信基于Apollo的發(fā)現，會有更多團隊投入到視頻理解技術的研發(fā)中，推動這個領域的快速發(fā)展。毫無疑問，Apollo項目為人工智能理解動態(tài)視覺世界的能力樹立了新的里程碑。

Q&A

Q1：什么是Apollo模型的"縮放一致性"原理？

A：縮放一致性是指在小模型（2-4B參數）上驗證的設計方案，在大模型上同樣有效。就像小鍋里調試好的調料配比放到大鍋里也管用。這個發(fā)現讓研究團隊可以用較小成本快速測試各種設計思路，然后放心地應用到更大的模型上，相關性高達90%以上。

Q2：為什么Apollo-3B能夠擊敗更大的7B模型？

A：Apollo-3B的優(yōu)勢來自精心的架構設計而非參數堆疊。它采用了幀率采樣替代傳統(tǒng)均勻采樣、雙編碼器協(xié)同工作、Perceiver重采樣器優(yōu)化，以及三階段漸進式訓練。這些優(yōu)化讓小模型也能高效處理視頻內容，在MLVU等基準測試中超越了大部分7B競爭對手。

Q3：ApolloBench相比傳統(tǒng)評估方法有什么優(yōu)勢？

A：ApolloBench評估速度比傳統(tǒng)方法快41倍，但質量更高。它篩選出400道真正需要視頻理解能力的題目，排除了那些僅憑文字或單幀圖片就能回答的問題。這就像從海量食譜中挑選最能考驗廚師水平的經典菜品，確保測試結果真正反映模型的視頻理解能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.