国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind讓AI"讀懂"每一塊圖像碎片:視覺語言模型的局部對齊突破

0
分享至


這篇論文來自谷歌DeepMind(Google DeepMind)的研究團(tuán)隊,于2026年4月13日以預(yù)印本形式發(fā)布,編號為arXiv:2604.12012v1,感興趣的讀者可以通過該編號在arXiv平臺上查閱完整原文。

一、一張照片背后的"理解鴻溝"

手機(jī)拍下一張公園里的照片,照片里有一條狗、一棵樹、三個小朋友和遠(yuǎn)處的一輛藍(lán)色汽車?,F(xiàn)在問一個AI:"藍(lán)色的汽車在哪里?"你會期待它能精確地在照片里框出那輛汽車,而不是僅僅回答"照片里有一輛藍(lán)色汽車"。

這個看似簡單的要求,恰恰揭示了當(dāng)前AI視覺模型中一個長期懸而未決的難題——它們能"看懂"整張圖的大意,卻往往無法精準(zhǔn)地把語言描述與圖像中某個具體的局部區(qū)域?qū)?yīng)起來。

這就好比有一個非常聰明的人,他看完一本書后能告訴你大概講了什么故事,但當(dāng)你問"第三章第七頁那個穿紅衣服的女孩叫什么名字"時,他卻支支吾吾答不上來。整體印象有了,細(xì)節(jié)定位沒了。這種"整體明白、局部模糊"的狀態(tài),正是谷歌DeepMind這項研究想要破解的核心問題。

研究團(tuán)隊將他們的新方法命名為TIPSv2,這是他們之前一個叫做TIPS的模型的第二代升級版。TIPS的全稱是"具備空間感知的文本-圖像預(yù)訓(xùn)練"(Text-Image Pretraining with Spatial awareness)。第二代版本在第一代的基礎(chǔ)上做出了若干關(guān)鍵改進(jìn),最終在零樣本語義分割等核心評測任務(wù)上刷新了業(yè)界最高水準(zhǔn)。

二、發(fā)現(xiàn)一個反常識的秘密:小模型竟然打敗了大模型

在正式介紹新方法之前,研究團(tuán)隊先講了一個令人意外的故事。

在AI領(lǐng)域,有一條幾乎被奉為鐵律的經(jīng)驗:模型越大,能力越強(qiáng)。就像一個經(jīng)驗更豐富的廚師,掌握的技法更多,做出的菜自然也更好。然而,研究團(tuán)隊在檢驗自家TIPS模型時,卻發(fā)現(xiàn)了一個完全違反這條定律的怪現(xiàn)象。

他們的大型旗艦?zāi)P停╒iT-g規(guī)格,約11億參數(shù))在零樣本圖像分割這項任務(wù)上,表現(xiàn)竟然遠(yuǎn)不如從它身上"蒸餾"出來的小模型(ViT-L規(guī)格)。具體的對比數(shù)字很能說明問題:在ADE150這個標(biāo)準(zhǔn)測試集上,大型ViT-g模型的得分只有2.6,而從它派生出來的小型ViT-L模型得分高達(dá)20.8,差距超過8倍。在另外三個測試集上,大模型同樣全面落后于小模型。

所謂"零樣本圖像分割",可以用一個生活場景來理解:給AI看一張從未見過的野外照片,然后讓它把照片里所有屬于"樹"的區(qū)域都涂上綠色,把所有屬于"天空"的區(qū)域涂上藍(lán)色——完全不給任何額外訓(xùn)練樣本。這個任務(wù)要求模型能夠把文字概念("樹"這個詞)精確地對應(yīng)到圖像中的每一個像素塊上,這正是"局部對齊"能力的直接體現(xiàn)。

研究團(tuán)隊意識到,這個反?,F(xiàn)象背后一定有某種特殊機(jī)制在起作用。小模型是通過"知識蒸餾"得到的——這個過程就好比一位大廚手把手地教一位學(xué)徒,學(xué)徒不僅學(xué)到了菜譜,還在練習(xí)過程中獲得了某種大廚自己反而沒有充分訓(xùn)練到的能力。

三、拆解秘密:究竟是什么讓小模型更擅長"局部對齊"

為了弄清楚這個反?,F(xiàn)象的成因,研究團(tuán)隊做了一系列嚴(yán)謹(jǐn)?shù)膶Ρ葘嶒灒拖褚晃粋商皆诎赴l(fā)現(xiàn)場逐一排查線索。

他們的核心實驗框架是這樣設(shè)計的:固定一個已經(jīng)訓(xùn)練好的大模型作為"老師",然后用不同的方式訓(xùn)練同等大小的"學(xué)生"模型,通過改變不同的條件來追蹤是哪個關(guān)鍵變量造成了結(jié)果差異。

他們首先排查了"遮罩比例"這個變量。在常規(guī)的視覺預(yù)訓(xùn)練中,有一種叫做"掩碼圖像建模"(Masked Image Modeling)的技術(shù),其核心思路是:把圖像的一部分遮住,讓模型根據(jù)可見部分猜測被遮住的內(nèi)容,以此迫使模型學(xué)習(xí)深層次的圖像語義。常規(guī)設(shè)置是遮住75%的圖像區(qū)塊,只讓25%保持可見。

實驗發(fā)現(xiàn),當(dāng)把遮罩比例從75%逐步降低到0%(即完全不遮,讓學(xué)生和老師看同一張完整圖像),局部對齊能力會隨之持續(xù)提升。ADE150測試集上的得分從5.9一路升到20.0,變化相當(dāng)顯著。這個發(fā)現(xiàn)揭示了一個關(guān)鍵線索:**對可見圖像區(qū)塊施加監(jiān)督損失,是提升局部對齊的關(guān)鍵所在**。

在常規(guī)的預(yù)訓(xùn)練設(shè)置中,可見區(qū)塊的學(xué)習(xí)目標(biāo)只是"幫助重建那些被遮住的區(qū)塊",本身并沒有被直接要求跟老師的特征對齊。而在蒸餾過程中,因為完全不遮,所有區(qū)塊都被直接要求與老師的特征保持一致,每一塊圖像區(qū)域都得到了充分的監(jiān)督。

接著,他們排查了另一個變量:"初始化方式"。一個直覺上很合理的想法是:既然大模型已經(jīng)學(xué)了很多,那直接用大模型的權(quán)重來初始化小模型的訓(xùn)練,應(yīng)該會更有優(yōu)勢。然而實驗結(jié)果給出了截然相反的答案。當(dāng)學(xué)生模型的視覺編碼器被初始化為大模型的權(quán)重并固定時,局部對齊能力幾乎完全消失,得分跌回到2.4,與原始大模型的水平幾乎持平。

這個發(fā)現(xiàn)揭示了另一條關(guān)鍵線索:學(xué)生模型必須從隨機(jī)初始化開始訓(xùn)練,徹底擺脫大模型原有的"收斂狀態(tài)",才能在蒸餾過程中真正學(xué)到局部對齊能力。大模型陷在自己的"學(xué)習(xí)慣性"里,而學(xué)生正是因為"一張白紙",才能被塑造成不同的樣子。

四、把蒸餾的精髓移植到預(yù)訓(xùn)練:iBOT++的誕生

在找到了上述兩條關(guān)鍵線索之后,研究團(tuán)隊面臨一個更進(jìn)一步的問題:蒸餾只能訓(xùn)練小模型,那能不能把蒸餾的精髓直接融入大模型的預(yù)訓(xùn)練過程,讓大模型從一開始就具備強(qiáng)局部對齊能力?

他們提出的解決方案就是iBOT++,一個對廣泛使用的iBOT預(yù)訓(xùn)練目標(biāo)的簡潔升級。

iBOT(Image BERT Pre-training with Online Tokenizer)是一種經(jīng)典的視覺預(yù)訓(xùn)練方法,它的工作方式可以用"填空題"來類比。在iBOT中,有一個"學(xué)生"模型和一個"老師"模型。老師看到完整的圖像,學(xué)生只能看到被遮住了75%的殘缺圖像。然后,學(xué)生被要求根據(jù)那25%可見的區(qū)塊,猜測被遮住區(qū)塊在老師眼中應(yīng)該是什么樣子。這個"猜測"過程迫使學(xué)生學(xué)會理解圖像的深層語義結(jié)構(gòu)。

然而,這個設(shè)計有一個隱患:那25%可見區(qū)塊本身,對學(xué)生來說是"已知答案",不需要被猜測,因此它們在原始iBOT中并不直接參與損失函數(shù)的計算,換句話說,學(xué)生對于"自己已經(jīng)看見的部分"根本沒有被要求與老師對齊。這就像在一門課上,老師只考期末試卷中被遮住的題目,對于已經(jīng)寫好的部分完全不做檢查,學(xué)生自然對那些"已知部分"的標(biāo)準(zhǔn)答案漠不關(guān)心。

iBOT++的改動極其簡潔,幾乎只修改了一行邏輯:把損失函數(shù)擴(kuò)展到所有圖像區(qū)塊,無論該區(qū)塊是被遮住的還是可見的,學(xué)生都必須使自己的特征表示與老師對齊??梢妳^(qū)塊不再享有"免檢"待遇,每一塊圖像區(qū)域都得到了直接的監(jiān)督。

這個改動帶來的效果非常直觀。在研究團(tuán)隊展示的一張訓(xùn)練過程曲線圖中,使用iBOT++時,可見區(qū)塊的"損失值"(衡量學(xué)生與老師之間差距的數(shù)字)會隨著訓(xùn)練進(jìn)行持續(xù)下降,說明學(xué)生越來越擅長在可見區(qū)塊上與老師對齊。而使用原始iBOT時,可見區(qū)塊的損失值幾乎紋絲不動,說明學(xué)生完全沒有在這個方向上學(xué)習(xí)。

從實驗數(shù)字來看,在相同的TIPS ViT-g訓(xùn)練框架下,僅僅把iBOT替換為iBOT++,ADE150零樣本分割得分就從3.5暴漲到17.6,PASCAL Context測試集上的得分也從約14分跳升到約27分。這個提升幅度,遠(yuǎn)超同等計算量下通常能獲得的改進(jìn)。

值得一提的是,iBOT++保留了75%的高遮罩比例,而沒有像蒸餾那樣直接去掉遮罩。進(jìn)一步的消融實驗(Tab.12)驗證了這一選擇的合理性:當(dāng)在iBOT++預(yù)訓(xùn)練中把遮罩比例降為0時,其他圖像任務(wù)上的性能會明顯下降。研究團(tuán)隊對此的解釋是,在預(yù)訓(xùn)練階段,大模型還沒有從足夠強(qiáng)的老師那里獲得局部語義理解,仍然需要通過填空題式的遮罩訓(xùn)練來自主發(fā)展這種能力;而在蒸餾階段,因為老師已經(jīng)足夠強(qiáng),學(xué)生可以直接"照單全收",不需要通過遮罩來倒逼自己。

五、減輕訓(xùn)練負(fù)擔(dān):頭部專用EMA機(jī)制

除了iBOT++,研究團(tuán)隊還提出了另一項工程層面的重要改進(jìn),解決了一個長期困擾這類模型訓(xùn)練的資源問題。

在DINO、iBOT這類自監(jiān)督學(xué)習(xí)方法中,為了讓"老師"給出穩(wěn)定可靠的學(xué)習(xí)目標(biāo),老師模型并不直接訓(xùn)練,而是通過一種叫做"指數(shù)移動平均"(Exponential Moving Average,EMA)的機(jī)制慢慢更新——本質(zhì)上是老師的參數(shù)以一種滯后、平滑的方式跟隨學(xué)生變化,就像一個行事穩(wěn)重的前輩,不會被學(xué)生每一次新的嘗試立刻帶偏,而是緩慢地吸收那些經(jīng)過驗證的改變。

這種機(jī)制的代價是:訓(xùn)練時內(nèi)存中必須同時保存學(xué)生和老師兩套完整的模型參數(shù),資源開銷翻了將近一倍。

研究團(tuán)隊發(fā)現(xiàn),在他們的框架中,圖像-文字對比學(xué)習(xí)損失(CLIP損失)本身已經(jīng)為視覺編碼器提供了足夠穩(wěn)定的學(xué)習(xí)信號,防止了模型陷入"特征坍塌"(即所有輸入的特征表示收斂到同一個常數(shù),模型因此失去區(qū)分能力)的危險。既然視覺編碼器已經(jīng)有了獨立的穩(wěn)定器,EMA機(jī)制只需要保護(hù)那些沒有獨立穩(wěn)定器的部分——也就是投影頭(projector head,負(fù)責(zé)把特征映射到更高維度的小型網(wǎng)絡(luò)層)就夠了。

基于這個判斷,他們提出了"頭部專用EMA":只對投影頭部分應(yīng)用EMA更新,主干視覺編碼器則由學(xué)生和老師完全共用同一套參數(shù)。這個改動對ViT-B規(guī)模的模型可以減少約42%的可訓(xùn)練參數(shù)量,顯著降低了顯存占用和訓(xùn)練時間。實驗驗證表明,這種簡化之后,大多數(shù)任務(wù)上的性能幾乎沒有損失,零樣本分割甚至還略有提升。

不過研究團(tuán)隊也提到,完全去掉EMA(即連投影頭也不用EMA)會導(dǎo)致訓(xùn)練不穩(wěn)定和性能下降,所以頭部專用EMA是一個恰好找到的平衡點,而非一路簡化到底。

六、讓模型讀懂"更豐富的文字描述":多粒度字幕策略

TIPSv2的第三項改進(jìn)聚焦于訓(xùn)練數(shù)據(jù)中圖像配套的文字描述質(zhì)量問題。

在視覺語言預(yù)訓(xùn)練中,模型通過大量的"圖像-文字配對"來學(xué)習(xí)把視覺概念和語言概念聯(lián)系起來。文字描述的質(zhì)量直接決定了模型能學(xué)到多豐富的語義理解。

然而,互聯(lián)網(wǎng)上圖片自帶的"原始標(biāo)注文字"(alt-text)往往質(zhì)量很差。比如,一張熊貓照片的alt-text可能只是"giant panda young animal china"這樣幾個孤零零的詞,完全沒有描述熊貓的姿態(tài)、所在環(huán)境或具體行為。

為了改善這個問題,研究團(tuán)隊的前作TIPS已經(jīng)引入了PaliGemma(谷歌的一個視覺語言模型)自動生成的合成字幕。PaliGemma能夠生成相對完整的一兩句描述,比如"A panda bear laying on a branch in a tree"。相比原始alt-text已經(jīng)進(jìn)步不少,但仍然缺乏細(xì)節(jié)——沒有描述熊貓腿是否懸空、頭是否搭在樹枝上、周圍是否有綠植。

TIPSv2進(jìn)一步引入了Gemini Flash(谷歌的另一個更強(qiáng)大的多模態(tài)模型)來生成更詳細(xì)、更豐富的描述。同樣是那張熊貓照片,Gemini的描述變成了"A giant panda naps on a wooden branch in a tree, with its legs dangling and head on the branch, surrounded by greenery"——姿態(tài)、細(xì)節(jié)、環(huán)境一應(yīng)俱全。

然而,細(xì)節(jié)更豐富的字幕并非直接拿來用就更好。研究團(tuán)隊發(fā)現(xiàn),如果一張圖像對應(yīng)的文字描述過于詳盡,在一大批圖像組成的訓(xùn)練批次中,每張圖都因為描述太獨特而自帶區(qū)分性,模型不需要真正理解語義就能區(qū)分不同圖像,導(dǎo)致對比學(xué)習(xí)的難度下降,訓(xùn)練效果反而打折扣。這就像一道"看圖選詞"的考題,如果每道題的答案都寫在圖片旁邊,學(xué)生不用思考就能答對,自然什么也學(xué)不到。

解決方案是隨機(jī)切換:在訓(xùn)練過程中,用于監(jiān)督第二個CLS全局特征的字幕,隨機(jī)從PaliGemma簡潔字幕和Gemini詳細(xì)字幕之間交替采樣。這樣模型既能在簡單字幕下接受難度適中的對比學(xué)習(xí)挑戰(zhàn),又能在詳細(xì)字幕下吸收豐富的細(xì)節(jié)語義,兩者相互補(bǔ)充,共同提升模型的魯棒性。

消融實驗的數(shù)字印證了這套策略的價值:雙CLS結(jié)合隨機(jī)切換PaliGemma和Gemini字幕的方案,在ADE20k分割、NYUv2深度估計、ImageNet分類和COCO圖文檢索多項任務(wù)上均優(yōu)于只用單一字幕來源的方案。

七、放到擂臺上:與業(yè)界頂尖模型的全面較量

TIPSv2在9個任務(wù)、20個數(shù)據(jù)集上與業(yè)界最先進(jìn)的視覺模型進(jìn)行了全面比較,競爭對手包括CLIP、SigLIP2、DINOv2、DINOv3、PE(Perception Encoder)、SILC等。

在局部對齊能力的直接考驗——零樣本語義分割上,TIPSv2的表現(xiàn)尤為突出。以ViT-L規(guī)格的模型為基準(zhǔn)(這是各家都有發(fā)布的通用比較規(guī)格),TIPSv2在PC59測試集上達(dá)到37.1的mIoU得分,而之前最好的TIPS得分為33.5,更早的SILC和DINOv2(附加文字對齊訓(xùn)練版本)分別為31.6和30.9。在VOC21測試集上,TIPSv2以44.4的得分大幅領(lǐng)先其他模型,幾乎是原始TIPS的1.5倍。

在圖文檢索這類考驗全局理解能力的任務(wù)上,TIPSv2 ViT-g模型在COCO數(shù)據(jù)集的圖到文檢索上得到75.7,優(yōu)于PE-core ViT-G的75.4;在文到圖檢索上得到60.7,也超過了PE的58.1——盡管PE-core處理的圖文配對數(shù)量是TIPSv2的47倍,模型參數(shù)量也多56%。在長文本描述匹配的DOCCI測試集上,TIPSv2的優(yōu)勢更為明顯,圖到文檢索得到68.9,而TIPS僅為57.2,提升超過10個百分點。

在純視覺任務(wù)上,TIPSv2在ADE20k語義分割(線性探針評測)上得到51.6,超過DINOv2的49.5和TIPS的49.9,也優(yōu)于PE-spatial(49.3)。在NYUv2室內(nèi)深度估計任務(wù)上,誤差降低到0.334,優(yōu)于此前最好的TIPS(0.353)和DINOv2(0.372)。

研究團(tuán)隊還專門與最新發(fā)布的DINOv3進(jìn)行了對比。DINOv3是一個規(guī)格極大的模型,其教師模型的參數(shù)量是TIPSv2教師模型的6倍,訓(xùn)練圖像數(shù)量是TIPSv2的15倍。盡管如此,在雙方都有發(fā)布的最大公共規(guī)格(ViT-L)上進(jìn)行比較,TIPSv2在6個測試指標(biāo)中的4個上取得了更好的成績,僅在ADE20k分割和ImageNet零樣本分類上略遜于DINOv3。

研究團(tuán)隊還在論文中展示了一組PCA可視化圖,直觀地體現(xiàn)了不同模型在圖像特征質(zhì)量上的差異。PCA可視化是把模型對圖像每個區(qū)塊的特征向量壓縮到三維顏色空間后的可視化展示,可以直觀反映模型對圖像結(jié)構(gòu)的"感知"是否清晰。TIPSv2的可視化圖中,物體邊界清晰,相同語義的區(qū)域顏色高度一致;而同類競爭模型的圖則更嘈雜,或者邊界模糊,或者同一物體內(nèi)部顏色變化過大。

此外,iBOT++的通用性也得到了驗證。研究團(tuán)隊在標(biāo)準(zhǔn)CLIP模型上疊加了iBOT和iBOT++,結(jié)果顯示iBOT++相比iBOT在多個任務(wù)上都帶來了進(jìn)一步的提升,尤其是零樣本分割從8.0提升到22.9(PC60測試集),這表明iBOT++并非專為TIPSv2的特定架構(gòu)設(shè)計,而是一種具有普遍適用性的改進(jìn)方案。

八、TIPSv2家族:從輕量到旗艦的完整陣容

TIPSv2不是一個單一模型,而是一個包含四種規(guī)格的模型家族,可以根據(jù)不同應(yīng)用場景的計算資源和性能需求靈活選擇。

旗艦版本ViT-g的圖像編碼器約有11億參數(shù),文本編碼器約有3.9億參數(shù),合計約15億參數(shù),直接通過完整預(yù)訓(xùn)練流程得到。其余三個規(guī)格——ViT-L(約4.9億參數(shù))、SO-400m(約8.6億參數(shù))和ViT-B(約2億參數(shù))——都是以ViT-g為老師,通過知識蒸餾獲得的。蒸餾完成后,所有規(guī)格的學(xué)生模型都會經(jīng)過一個高分辨率適應(yīng)階段,進(jìn)一步打磨在高分辨率圖像上的性能。

一個有趣的現(xiàn)象是,在TIPSv2家族內(nèi)部,同樣出現(xiàn)了類似文章開頭提到的"小模型反超大模型"的現(xiàn)象。在零樣本分割任務(wù)上,ViT-L(24.7)和SO-400m(23.3)的表現(xiàn)均優(yōu)于旗艦ViT-g(17.8)。這再次印證了研究團(tuán)隊的核心發(fā)現(xiàn):局部對齊能力在蒸餾過程中能夠得到額外強(qiáng)化,而這一效應(yīng)甚至在TIPSv2改進(jìn)版的預(yù)訓(xùn)練基礎(chǔ)上依然存在。SigLIP2家族也出現(xiàn)了完全類似的規(guī)律,最小的B/16模型在多個測試集上超過了更大的SO/14和g/16模型,進(jìn)一步支持了這一發(fā)現(xiàn)的普遍性。

歸根結(jié)底,TIPSv2做的這些事情,都是為了解決同一個問題:讓AI不僅能看懂一張圖的整體意思,還能精確地把每一塊圖像區(qū)域與相應(yīng)的語言概念對應(yīng)起來。這種能力是開放詞匯目標(biāo)檢測、精細(xì)圖像檢索、機(jī)器人視覺理解等一系列實際應(yīng)用的基礎(chǔ),隨著模型逐步走向?qū)嵱貌渴?,它的價值會越來越凸顯。

一個值得繼續(xù)思考的問題是:蒸餾能夠帶來大模型預(yù)訓(xùn)練所不能提供的局部對齊能力,這是否意味著現(xiàn)有的大模型預(yù)訓(xùn)練范式本身存在某種系統(tǒng)性的局限?TIPSv2通過iBOT++在預(yù)訓(xùn)練階段部分彌補(bǔ)了這個缺口,但蒸餾后的小模型仍然超越了預(yù)訓(xùn)練的大模型,說明這個問題還沒有被徹底解決。這或許是未來研究中一個值得深耕的方向。有興趣深入研究這些問題的讀者,可以通過arXiv編號2604.12012查閱完整論文。

Q&A

Q1:iBOT++和原來的iBOT到底有什么區(qū)別?

A:原始iBOT在預(yù)訓(xùn)練時只對被遮住的圖像區(qū)塊要求學(xué)生模型與老師對齊,那些可見的區(qū)塊完全沒有被直接監(jiān)督。iBOT++的改動非常簡單:把監(jiān)督范圍擴(kuò)展到所有區(qū)塊,無論是被遮住的還是可見的,學(xué)生都必須讓自己的特征與老師保持一致。這個小改動讓每一塊圖像區(qū)域都得到了充分的語義訓(xùn)練,大幅提升了模型把語言概念對應(yīng)到圖像局部區(qū)域的能力。

Q2:為什么TIPSv2蒸餾出來的小模型在某些任務(wù)上比大模型表現(xiàn)更好?

A:核心原因在于蒸餾過程中的兩個關(guān)鍵設(shè)置:第一,學(xué)生模型從隨機(jī)初始化開始,不繼承大模型的訓(xùn)練慣性,可以被重新塑造;第二,蒸餾時對所有可見區(qū)塊都直接施加對齊損失,相當(dāng)于給每一塊圖像區(qū)域都上了"精細(xì)輔導(dǎo)課"。大模型預(yù)訓(xùn)練時只監(jiān)督被遮住部分,可見區(qū)塊缺乏直接監(jiān)督,導(dǎo)致局部對齊能力不足。蒸餾恰好彌補(bǔ)了這個缺陷。

Q3:TIPSv2的多粒度字幕策略為什么要交替使用不同詳細(xì)程度的描述,而不是直接都用最詳細(xì)的?

A:當(dāng)圖像配套的文字描述過于詳盡時,每張圖都因描述內(nèi)容高度獨特而變得很容易區(qū)分,模型不需要真正理解語義就能完成對比學(xué)習(xí)任務(wù),訓(xùn)練難度下降,學(xué)到的知識反而更少。通過隨機(jī)交替使用簡潔的PaliGemma字幕和詳細(xì)的Gemini字幕,模型既能接受有適度難度的對比學(xué)習(xí)挑戰(zhàn),又能吸收豐富的細(xì)節(jié)語義,兩者相互補(bǔ)充,整體性能更優(yōu)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國基金報
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

阿七說史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個大白胸脯,在這兒干什么呢?

妹子,你露個大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價,39元起

中國聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價,39元起

TMT流程審計
2026-04-28 10:35:38
誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會議,傳遞三重利好

政治局會議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰拍下了那張后臺照片?

誰拍下了那張后臺照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

職場資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

家居
旅游
手機(jī)
藝術(shù)
公開課

家居要聞

江景風(fēng)格 流動的秩序

旅游要聞

莫讓內(nèi)卷式競爭削弱旅游消費信心

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大??!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版