DeepMind讓AI"讀懂"每一塊圖像碎片:視覺語言模型的局部對齊突破

2026-04-28 17:35:09　來源: 科技行者

天津舉報

分享至

這篇論文來自谷歌DeepMind（Google DeepMind）的研究團(tuán)隊，于2026年4月13日以預(yù)印本形式發(fā)布，編號為arXiv:2604.12012v1，感興趣的讀者可以通過該編號在arXiv平臺上查閱完整原文。

一、一張照片背后的"理解鴻溝"

手機(jī)拍下一張公園里的照片，照片里有一條狗、一棵樹、三個小朋友和遠(yuǎn)處的一輛藍(lán)色汽車?，F(xiàn)在問一個AI："藍(lán)色的汽車在哪里？"你會期待它能精確地在照片里框出那輛汽車，而不是僅僅回答"照片里有一輛藍(lán)色汽車"。

這個看似簡單的要求，恰恰揭示了當(dāng)前AI視覺模型中一個長期懸而未決的難題——它們能"看懂"整張圖的大意，卻往往無法精準(zhǔn)地把語言描述與圖像中某個具體的局部區(qū)域?qū)?yīng)起來。

這就好比有一個非常聰明的人，他看完一本書后能告訴你大概講了什么故事，但當(dāng)你問"第三章第七頁那個穿紅衣服的女孩叫什么名字"時，他卻支支吾吾答不上來。整體印象有了，細(xì)節(jié)定位沒了。這種"整體明白、局部模糊"的狀態(tài)，正是谷歌DeepMind這項研究想要破解的核心問題。

研究團(tuán)隊將他們的新方法命名為TIPSv2，這是他們之前一個叫做TIPS的模型的第二代升級版。TIPS的全稱是"具備空間感知的文本-圖像預(yù)訓(xùn)練"（Text-Image Pretraining with Spatial awareness）。第二代版本在第一代的基礎(chǔ)上做出了若干關(guān)鍵改進(jìn)，最終在零樣本語義分割等核心評測任務(wù)上刷新了業(yè)界最高水準(zhǔn)。

二、發(fā)現(xiàn)一個反常識的秘密：小模型竟然打敗了大模型

在正式介紹新方法之前，研究團(tuán)隊先講了一個令人意外的故事。

在AI領(lǐng)域，有一條幾乎被奉為鐵律的經(jīng)驗：模型越大，能力越強(qiáng)。就像一個經(jīng)驗更豐富的廚師，掌握的技法更多，做出的菜自然也更好。然而，研究團(tuán)隊在檢驗自家TIPS模型時，卻發(fā)現(xiàn)了一個完全違反這條定律的怪現(xiàn)象。

他們的大型旗艦?zāi)Ｐ停╒iT-g規(guī)格，約11億參數(shù)）在零樣本圖像分割這項任務(wù)上，表現(xiàn)竟然遠(yuǎn)不如從它身上"蒸餾"出來的小模型（ViT-L規(guī)格）。具體的對比數(shù)字很能說明問題：在ADE150這個標(biāo)準(zhǔn)測試集上，大型ViT-g模型的得分只有2.6，而從它派生出來的小型ViT-L模型得分高達(dá)20.8，差距超過8倍。在另外三個測試集上，大模型同樣全面落后于小模型。

所謂"零樣本圖像分割"，可以用一個生活場景來理解：給AI看一張從未見過的野外照片，然后讓它把照片里所有屬于"樹"的區(qū)域都涂上綠色，把所有屬于"天空"的區(qū)域涂上藍(lán)色——完全不給任何額外訓(xùn)練樣本。這個任務(wù)要求模型能夠把文字概念（"樹"這個詞）精確地對應(yīng)到圖像中的每一個像素塊上，這正是"局部對齊"能力的直接體現(xiàn)。

研究團(tuán)隊意識到，這個反?，F(xiàn)象背后一定有某種特殊機(jī)制在起作用。小模型是通過"知識蒸餾"得到的——這個過程就好比一位大廚手把手地教一位學(xué)徒，學(xué)徒不僅學(xué)到了菜譜，還在練習(xí)過程中獲得了某種大廚自己反而沒有充分訓(xùn)練到的能力。

三、拆解秘密：究竟是什么讓小模型更擅長"局部對齊"

為了弄清楚這個反?，F(xiàn)象的成因，研究團(tuán)隊做了一系列嚴(yán)謹(jǐn)?shù)膶Ρ葘嶒灒拖褚晃粋商皆诎赴l(fā)現(xiàn)場逐一排查線索。

他們的核心實驗框架是這樣設(shè)計的：固定一個已經(jīng)訓(xùn)練好的大模型作為"老師"，然后用不同的方式訓(xùn)練同等大小的"學(xué)生"模型，通過改變不同的條件來追蹤是哪個關(guān)鍵變量造成了結(jié)果差異。

他們首先排查了"遮罩比例"這個變量。在常規(guī)的視覺預(yù)訓(xùn)練中，有一種叫做"掩碼圖像建模"（Masked Image Modeling）的技術(shù)，其核心思路是：把圖像的一部分遮住，讓模型根據(jù)可見部分猜測被遮住的內(nèi)容，以此迫使模型學(xué)習(xí)深層次的圖像語義。常規(guī)設(shè)置是遮住75%的圖像區(qū)塊，只讓25%保持可見。

實驗發(fā)現(xiàn)，當(dāng)把遮罩比例從75%逐步降低到0%（即完全不遮，讓學(xué)生和老師看同一張完整圖像），局部對齊能力會隨之持續(xù)提升。ADE150測試集上的得分從5.9一路升到20.0，變化相當(dāng)顯著。這個發(fā)現(xiàn)揭示了一個關(guān)鍵線索：**對可見圖像區(qū)塊施加監(jiān)督損失，是提升局部對齊的關(guān)鍵所在**。

在常規(guī)的預(yù)訓(xùn)練設(shè)置中，可見區(qū)塊的學(xué)習(xí)目標(biāo)只是"幫助重建那些被遮住的區(qū)塊"，本身并沒有被直接要求跟老師的特征對齊。而在蒸餾過程中，因為完全不遮，所有區(qū)塊都被直接要求與老師的特征保持一致，每一塊圖像區(qū)域都得到了充分的監(jiān)督。

接著，他們排查了另一個變量："初始化方式"。一個直覺上很合理的想法是：既然大模型已經(jīng)學(xué)了很多，那直接用大模型的權(quán)重來初始化小模型的訓(xùn)練，應(yīng)該會更有優(yōu)勢。然而實驗結(jié)果給出了截然相反的答案。當(dāng)學(xué)生模型的視覺編碼器被初始化為大模型的權(quán)重并固定時，局部對齊能力幾乎完全消失，得分跌回到2.4，與原始大模型的水平幾乎持平。

這個發(fā)現(xiàn)揭示了另一條關(guān)鍵線索：學(xué)生模型必須從隨機(jī)初始化開始訓(xùn)練，徹底擺脫大模型原有的"收斂狀態(tài)"，才能在蒸餾過程中真正學(xué)到局部對齊能力。大模型陷在自己的"學(xué)習(xí)慣性"里，而學(xué)生正是因為"一張白紙"，才能被塑造成不同的樣子。

四、把蒸餾的精髓移植到預(yù)訓(xùn)練：iBOT++的誕生

在找到了上述兩條關(guān)鍵線索之后，研究團(tuán)隊面臨一個更進(jìn)一步的問題：蒸餾只能訓(xùn)練小模型，那能不能把蒸餾的精髓直接融入大模型的預(yù)訓(xùn)練過程，讓大模型從一開始就具備強(qiáng)局部對齊能力？

他們提出的解決方案就是iBOT++，一個對廣泛使用的iBOT預(yù)訓(xùn)練目標(biāo)的簡潔升級。

iBOT（Image BERT Pre-training with Online Tokenizer）是一種經(jīng)典的視覺預(yù)訓(xùn)練方法，它的工作方式可以用"填空題"來類比。在iBOT中，有一個"學(xué)生"模型和一個"老師"模型。老師看到完整的圖像，學(xué)生只能看到被遮住了75%的殘缺圖像。然后，學(xué)生被要求根據(jù)那25%可見的區(qū)塊，猜測被遮住區(qū)塊在老師眼中應(yīng)該是什么樣子。這個"猜測"過程迫使學(xué)生學(xué)會理解圖像的深層語義結(jié)構(gòu)。

然而，這個設(shè)計有一個隱患：那25%可見區(qū)塊本身，對學(xué)生來說是"已知答案"，不需要被猜測，因此它們在原始iBOT中并不直接參與損失函數(shù)的計算，換句話說，學(xué)生對于"自己已經(jīng)看見的部分"根本沒有被要求與老師對齊。這就像在一門課上，老師只考期末試卷中被遮住的題目，對于已經(jīng)寫好的部分完全不做檢查，學(xué)生自然對那些"已知部分"的標(biāo)準(zhǔn)答案漠不關(guān)心。

iBOT++的改動極其簡潔，幾乎只修改了一行邏輯：把損失函數(shù)擴(kuò)展到所有圖像區(qū)塊，無論該區(qū)塊是被遮住的還是可見的，學(xué)生都必須使自己的特征表示與老師對齊?？梢妳^(qū)塊不再享有"免檢"待遇，每一塊圖像區(qū)域都得到了直接的監(jiān)督。

這個改動帶來的效果非常直觀。在研究團(tuán)隊展示的一張訓(xùn)練過程曲線圖中，使用iBOT++時，可見區(qū)塊的"損失值"（衡量學(xué)生與老師之間差距的數(shù)字）會隨著訓(xùn)練進(jìn)行持續(xù)下降，說明學(xué)生越來越擅長在可見區(qū)塊上與老師對齊。而使用原始iBOT時，可見區(qū)塊的損失值幾乎紋絲不動，說明學(xué)生完全沒有在這個方向上學(xué)習(xí)。

從實驗數(shù)字來看，在相同的TIPS ViT-g訓(xùn)練框架下，僅僅把iBOT替換為iBOT++，ADE150零樣本分割得分就從3.5暴漲到17.6，PASCAL Context測試集上的得分也從約14分跳升到約27分。這個提升幅度，遠(yuǎn)超同等計算量下通常能獲得的改進(jìn)。

值得一提的是，iBOT++保留了75%的高遮罩比例，而沒有像蒸餾那樣直接去掉遮罩。進(jìn)一步的消融實驗（Tab.12）驗證了這一選擇的合理性：當(dāng)在iBOT++預(yù)訓(xùn)練中把遮罩比例降為0時，其他圖像任務(wù)上的性能會明顯下降。研究團(tuán)隊對此的解釋是，在預(yù)訓(xùn)練階段，大模型還沒有從足夠強(qiáng)的老師那里獲得局部語義理解，仍然需要通過填空題式的遮罩訓(xùn)練來自主發(fā)展這種能力；而在蒸餾階段，因為老師已經(jīng)足夠強(qiáng)，學(xué)生可以直接"照單全收"，不需要通過遮罩來倒逼自己。

五、減輕訓(xùn)練負(fù)擔(dān)：頭部專用EMA機(jī)制

除了iBOT++，研究團(tuán)隊還提出了另一項工程層面的重要改進(jìn)，解決了一個長期困擾這類模型訓(xùn)練的資源問題。

在DINO、iBOT這類自監(jiān)督學(xué)習(xí)方法中，為了讓"老師"給出穩(wěn)定可靠的學(xué)習(xí)目標(biāo)，老師模型并不直接訓(xùn)練，而是通過一種叫做"指數(shù)移動平均"（Exponential Moving Average，EMA）的機(jī)制慢慢更新——本質(zhì)上是老師的參數(shù)以一種滯后、平滑的方式跟隨學(xué)生變化，就像一個行事穩(wěn)重的前輩，不會被學(xué)生每一次新的嘗試立刻帶偏，而是緩慢地吸收那些經(jīng)過驗證的改變。

這種機(jī)制的代價是：訓(xùn)練時內(nèi)存中必須同時保存學(xué)生和老師兩套完整的模型參數(shù)，資源開銷翻了將近一倍。

研究團(tuán)隊發(fā)現(xiàn)，在他們的框架中，圖像-文字對比學(xué)習(xí)損失（CLIP損失）本身已經(jīng)為視覺編碼器提供了足夠穩(wěn)定的學(xué)習(xí)信號，防止了模型陷入"特征坍塌"（即所有輸入的特征表示收斂到同一個常數(shù)，模型因此失去區(qū)分能力）的危險。既然視覺編碼器已經(jīng)有了獨立的穩(wěn)定器，EMA機(jī)制只需要保護(hù)那些沒有獨立穩(wěn)定器的部分——也就是投影頭（projector head，負(fù)責(zé)把特征映射到更高維度的小型網(wǎng)絡(luò)層）就夠了。

基于這個判斷，他們提出了"頭部專用EMA"：只對投影頭部分應(yīng)用EMA更新，主干視覺編碼器則由學(xué)生和老師完全共用同一套參數(shù)。這個改動對ViT-B規(guī)模的模型可以減少約42%的可訓(xùn)練參數(shù)量，顯著降低了顯存占用和訓(xùn)練時間。實驗驗證表明，這種簡化之后，大多數(shù)任務(wù)上的性能幾乎沒有損失，零樣本分割甚至還略有提升。

不過研究團(tuán)隊也提到，完全去掉EMA（即連投影頭也不用EMA）會導(dǎo)致訓(xùn)練不穩(wěn)定和性能下降，所以頭部專用EMA是一個恰好找到的平衡點，而非一路簡化到底。

六、讓模型讀懂"更豐富的文字描述"：多粒度字幕策略

TIPSv2的第三項改進(jìn)聚焦于訓(xùn)練數(shù)據(jù)中圖像配套的文字描述質(zhì)量問題。

在視覺語言預(yù)訓(xùn)練中，模型通過大量的"圖像-文字配對"來學(xué)習(xí)把視覺概念和語言概念聯(lián)系起來。文字描述的質(zhì)量直接決定了模型能學(xué)到多豐富的語義理解。

然而，互聯(lián)網(wǎng)上圖片自帶的"原始標(biāo)注文字"（alt-text）往往質(zhì)量很差。比如，一張熊貓照片的alt-text可能只是"giant panda young animal china"這樣幾個孤零零的詞，完全沒有描述熊貓的姿態(tài)、所在環(huán)境或具體行為。

為了改善這個問題，研究團(tuán)隊的前作TIPS已經(jīng)引入了PaliGemma（谷歌的一個視覺語言模型）自動生成的合成字幕。PaliGemma能夠生成相對完整的一兩句描述，比如"A panda bear laying on a branch in a tree"。相比原始alt-text已經(jīng)進(jìn)步不少，但仍然缺乏細(xì)節(jié)——沒有描述熊貓腿是否懸空、頭是否搭在樹枝上、周圍是否有綠植。

TIPSv2進(jìn)一步引入了Gemini Flash（谷歌的另一個更強(qiáng)大的多模態(tài)模型）來生成更詳細(xì)、更豐富的描述。同樣是那張熊貓照片，Gemini的描述變成了"A giant panda naps on a wooden branch in a tree, with its legs dangling and head on the branch, surrounded by greenery"——姿態(tài)、細(xì)節(jié)、環(huán)境一應(yīng)俱全。

然而，細(xì)節(jié)更豐富的字幕并非直接拿來用就更好。研究團(tuán)隊發(fā)現(xiàn)，如果一張圖像對應(yīng)的文字描述過于詳盡，在一大批圖像組成的訓(xùn)練批次中，每張圖都因為描述太獨特而自帶區(qū)分性，模型不需要真正理解語義就能區(qū)分不同圖像，導(dǎo)致對比學(xué)習(xí)的難度下降，訓(xùn)練效果反而打折扣。這就像一道"看圖選詞"的考題，如果每道題的答案都寫在圖片旁邊，學(xué)生不用思考就能答對，自然什么也學(xué)不到。

解決方案是隨機(jī)切換：在訓(xùn)練過程中，用于監(jiān)督第二個CLS全局特征的字幕，隨機(jī)從PaliGemma簡潔字幕和Gemini詳細(xì)字幕之間交替采樣。這樣模型既能在簡單字幕下接受難度適中的對比學(xué)習(xí)挑戰(zhàn)，又能在詳細(xì)字幕下吸收豐富的細(xì)節(jié)語義，兩者相互補(bǔ)充，共同提升模型的魯棒性。

消融實驗的數(shù)字印證了這套策略的價值：雙CLS結(jié)合隨機(jī)切換PaliGemma和Gemini字幕的方案，在ADE20k分割、NYUv2深度估計、ImageNet分類和COCO圖文檢索多項任務(wù)上均優(yōu)于只用單一字幕來源的方案。

七、放到擂臺上：與業(yè)界頂尖模型的全面較量

TIPSv2在9個任務(wù)、20個數(shù)據(jù)集上與業(yè)界最先進(jìn)的視覺模型進(jìn)行了全面比較，競爭對手包括CLIP、SigLIP2、DINOv2、DINOv3、PE（Perception Encoder）、SILC等。

在局部對齊能力的直接考驗——零樣本語義分割上，TIPSv2的表現(xiàn)尤為突出。以ViT-L規(guī)格的模型為基準(zhǔn)（這是各家都有發(fā)布的通用比較規(guī)格），TIPSv2在PC59測試集上達(dá)到37.1的mIoU得分，而之前最好的TIPS得分為33.5，更早的SILC和DINOv2（附加文字對齊訓(xùn)練版本）分別為31.6和30.9。在VOC21測試集上，TIPSv2以44.4的得分大幅領(lǐng)先其他模型，幾乎是原始TIPS的1.5倍。

在圖文檢索這類考驗全局理解能力的任務(wù)上，TIPSv2 ViT-g模型在COCO數(shù)據(jù)集的圖到文檢索上得到75.7，優(yōu)于PE-core ViT-G的75.4；在文到圖檢索上得到60.7，也超過了PE的58.1——盡管PE-core處理的圖文配對數(shù)量是TIPSv2的47倍，模型參數(shù)量也多56%。在長文本描述匹配的DOCCI測試集上，TIPSv2的優(yōu)勢更為明顯，圖到文檢索得到68.9，而TIPS僅為57.2，提升超過10個百分點。

在純視覺任務(wù)上，TIPSv2在ADE20k語義分割（線性探針評測）上得到51.6，超過DINOv2的49.5和TIPS的49.9，也優(yōu)于PE-spatial（49.3）。在NYUv2室內(nèi)深度估計任務(wù)上，誤差降低到0.334，優(yōu)于此前最好的TIPS（0.353）和DINOv2（0.372）。

研究團(tuán)隊還專門與最新發(fā)布的DINOv3進(jìn)行了對比。DINOv3是一個規(guī)格極大的模型，其教師模型的參數(shù)量是TIPSv2教師模型的6倍，訓(xùn)練圖像數(shù)量是TIPSv2的15倍。盡管如此，在雙方都有發(fā)布的最大公共規(guī)格（ViT-L）上進(jìn)行比較，TIPSv2在6個測試指標(biāo)中的4個上取得了更好的成績，僅在ADE20k分割和ImageNet零樣本分類上略遜于DINOv3。

研究團(tuán)隊還在論文中展示了一組PCA可視化圖，直觀地體現(xiàn)了不同模型在圖像特征質(zhì)量上的差異。PCA可視化是把模型對圖像每個區(qū)塊的特征向量壓縮到三維顏色空間后的可視化展示，可以直觀反映模型對圖像結(jié)構(gòu)的"感知"是否清晰。TIPSv2的可視化圖中，物體邊界清晰，相同語義的區(qū)域顏色高度一致；而同類競爭模型的圖則更嘈雜，或者邊界模糊，或者同一物體內(nèi)部顏色變化過大。

此外，iBOT++的通用性也得到了驗證。研究團(tuán)隊在標(biāo)準(zhǔn)CLIP模型上疊加了iBOT和iBOT++，結(jié)果顯示iBOT++相比iBOT在多個任務(wù)上都帶來了進(jìn)一步的提升，尤其是零樣本分割從8.0提升到22.9（PC60測試集），這表明iBOT++并非專為TIPSv2的特定架構(gòu)設(shè)計，而是一種具有普遍適用性的改進(jìn)方案。

八、TIPSv2家族：從輕量到旗艦的完整陣容

TIPSv2不是一個單一模型，而是一個包含四種規(guī)格的模型家族，可以根據(jù)不同應(yīng)用場景的計算資源和性能需求靈活選擇。

旗艦版本ViT-g的圖像編碼器約有11億參數(shù)，文本編碼器約有3.9億參數(shù)，合計約15億參數(shù)，直接通過完整預(yù)訓(xùn)練流程得到。其余三個規(guī)格——ViT-L（約4.9億參數(shù)）、SO-400m（約8.6億參數(shù)）和ViT-B（約2億參數(shù)）——都是以ViT-g為老師，通過知識蒸餾獲得的。蒸餾完成后，所有規(guī)格的學(xué)生模型都會經(jīng)過一個高分辨率適應(yīng)階段，進(jìn)一步打磨在高分辨率圖像上的性能。

一個有趣的現(xiàn)象是，在TIPSv2家族內(nèi)部，同樣出現(xiàn)了類似文章開頭提到的"小模型反超大模型"的現(xiàn)象。在零樣本分割任務(wù)上，ViT-L（24.7）和SO-400m（23.3）的表現(xiàn)均優(yōu)于旗艦ViT-g（17.8）。這再次印證了研究團(tuán)隊的核心發(fā)現(xiàn)：局部對齊能力在蒸餾過程中能夠得到額外強(qiáng)化，而這一效應(yīng)甚至在TIPSv2改進(jìn)版的預(yù)訓(xùn)練基礎(chǔ)上依然存在。SigLIP2家族也出現(xiàn)了完全類似的規(guī)律，最小的B/16模型在多個測試集上超過了更大的SO/14和g/16模型，進(jìn)一步支持了這一發(fā)現(xiàn)的普遍性。

歸根結(jié)底，TIPSv2做的這些事情，都是為了解決同一個問題：讓AI不僅能看懂一張圖的整體意思，還能精確地把每一塊圖像區(qū)域與相應(yīng)的語言概念對應(yīng)起來。這種能力是開放詞匯目標(biāo)檢測、精細(xì)圖像檢索、機(jī)器人視覺理解等一系列實際應(yīng)用的基礎(chǔ)，隨著模型逐步走向?qū)嵱貌渴?，它的價值會越來越凸顯。

一個值得繼續(xù)思考的問題是：蒸餾能夠帶來大模型預(yù)訓(xùn)練所不能提供的局部對齊能力，這是否意味著現(xiàn)有的大模型預(yù)訓(xùn)練范式本身存在某種系統(tǒng)性的局限？TIPSv2通過iBOT++在預(yù)訓(xùn)練階段部分彌補(bǔ)了這個缺口，但蒸餾后的小模型仍然超越了預(yù)訓(xùn)練的大模型，說明這個問題還沒有被徹底解決。這或許是未來研究中一個值得深耕的方向。有興趣深入研究這些問題的讀者，可以通過arXiv編號2604.12012查閱完整論文。

Q&A

Q1：iBOT++和原來的iBOT到底有什么區(qū)別？

A：原始iBOT在預(yù)訓(xùn)練時只對被遮住的圖像區(qū)塊要求學(xué)生模型與老師對齊，那些可見的區(qū)塊完全沒有被直接監(jiān)督。iBOT++的改動非常簡單：把監(jiān)督范圍擴(kuò)展到所有區(qū)塊，無論是被遮住的還是可見的，學(xué)生都必須讓自己的特征與老師保持一致。這個小改動讓每一塊圖像區(qū)域都得到了充分的語義訓(xùn)練，大幅提升了模型把語言概念對應(yīng)到圖像局部區(qū)域的能力。

Q2：為什么TIPSv2蒸餾出來的小模型在某些任務(wù)上比大模型表現(xiàn)更好？

A：核心原因在于蒸餾過程中的兩個關(guān)鍵設(shè)置：第一，學(xué)生模型從隨機(jī)初始化開始，不繼承大模型的訓(xùn)練慣性，可以被重新塑造；第二，蒸餾時對所有可見區(qū)塊都直接施加對齊損失，相當(dāng)于給每一塊圖像區(qū)域都上了"精細(xì)輔導(dǎo)課"。大模型預(yù)訓(xùn)練時只監(jiān)督被遮住部分，可見區(qū)塊缺乏直接監(jiān)督，導(dǎo)致局部對齊能力不足。蒸餾恰好彌補(bǔ)了這個缺陷。

Q3：TIPSv2的多粒度字幕策略為什么要交替使用不同詳細(xì)程度的描述，而不是直接都用最詳細(xì)的？

A：當(dāng)圖像配套的文字描述過于詳盡時，每張圖都因描述內(nèi)容高度獨特而變得很容易區(qū)分，模型不需要真正理解語義就能完成對比學(xué)習(xí)任務(wù)，訓(xùn)練難度下降，學(xué)到的知識反而更少。通過隨機(jī)交替使用簡潔的PaliGemma字幕和詳細(xì)的Gemini字幕，模型既能接受有適度難度的對比學(xué)習(xí)挑戰(zhàn)，又能吸收豐富的細(xì)節(jié)語義，兩者相互補(bǔ)充，整體性能更優(yōu)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.