国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICML 2025 | 從聯(lián)合空間到文本空間:測(cè)試時(shí)增強(qiáng)跨模態(tài)檢索新范式

0
分享至

本文圍繞跨模態(tài)檢索中的語(yǔ)義冗余與粒度錯(cuò)配問(wèn)題,提出在測(cè)試階段對(duì)候選圖像/視頻進(jìn)行“視覺(jué)抽象”,并在文本空間以查詢(xún)感知 QA 重排,實(shí)現(xiàn)即插即用、穩(wěn)定增益與可解釋性。本研究在圖像、視頻和長(zhǎng)文本三類(lèi)場(chǎng)景驗(yàn)證了該方法的有效性,并證明其可低成本嵌入現(xiàn)有召回—重排鏈路。


論文標(biāo)題: Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval 論文地址: https://pengxi.me/wp-content/uploads/2025/05/2025ICML.pdf 代碼地址: https://github.com/XLearning-SCU/2025-ICML-VISA
一、研究背景

跨模態(tài)檢索在 CLIP 等對(duì)比學(xué)習(xí)范式加持下整體進(jìn)步顯著,但在真實(shí)檢索里始終被兩類(lèi)根本性矛盾卡?。?/p>

  • 語(yǔ)義冗余:聯(lián)合空間的全局對(duì)齊會(huì)把與語(yǔ)義無(wú)關(guān)的底層視覺(jué)因素一并拉近,淹沒(méi)真正有用的語(yǔ)義線(xiàn)索。例如雪地紋理、樹(shù)枝線(xiàn)條、水面反光、舞臺(tái)燈光等,檢索時(shí)易出現(xiàn)“背景相似但語(yǔ)義不對(duì)”的假陽(yáng)性;在視頻場(chǎng)景中,也會(huì)出現(xiàn)時(shí)序冗余。

  • 粒度錯(cuò)配圖像/視頻天然具有“無(wú)限粒度”,而弱標(biāo)注文本往往短、粗、信息稀疏,難以覆蓋用戶(hù)查詢(xún)所需的細(xì)粒度與多約束組合。當(dāng)需要區(qū)分顏色/材質(zhì)/部件、小目標(biāo)相對(duì)位置(空間關(guān)系)時(shí),導(dǎo)致粗排召回相關(guān)但不精確,精排也難以給出明確、可解釋的依據(jù)。

二、方法

該論文從語(yǔ)言空間對(duì)齊的角度重新審視視覺(jué)語(yǔ)義的建模方式,提出了一種全新的跨模態(tài)檢索范式。該論文的核心觀察在于:相比原始稀疏且冗余的視覺(jué)信號(hào),自然語(yǔ)言具有更強(qiáng)的語(yǔ)義承載能力和表達(dá)濃度。


基于這一點(diǎn),該論文設(shè)計(jì)了一個(gè)即插即用的測(cè)試時(shí)增強(qiáng)方案——視覺(jué)抽象(VISual Abstraction, VISA),通過(guò)調(diào)用多模態(tài)大模型,將圖像或視頻內(nèi)容轉(zhuǎn)換為高度概括的語(yǔ)言描述,從而過(guò)濾冗余信息、強(qiáng)化語(yǔ)義聚焦。

同時(shí)引入基于用戶(hù)查詢(xún)的問(wèn)答機(jī)制,將復(fù)雜查詢(xún)解析為一系列細(xì)粒度語(yǔ)義子目標(biāo),并據(jù)此對(duì)候選視覺(jué)內(nèi)容進(jìn)行響應(yīng),實(shí)現(xiàn)跨粒度語(yǔ)義對(duì)齊。

最終,VISA 將原本的跨模態(tài)檢索過(guò)程轉(zhuǎn)化為統(tǒng)一文本空間內(nèi)的語(yǔ)義匹配任務(wù),在無(wú)需額外訓(xùn)練的前提下,顯著提升了現(xiàn)有模型在圖像與視頻檢索中的檢索精度。


1)視覺(jué)抽象:為每個(gè)候選生成"語(yǔ)義密集"的長(zhǎng)描述

先用原始 Vision language model (VLM) 在跨模態(tài)聯(lián)合空間里檢索,得到 Top-k 候選。對(duì) Top-k 候選逐個(gè)調(diào)用現(xiàn)成 LMM,生成覆蓋對(duì)象、屬性、關(guān)系與場(chǎng)景的通用長(zhǎng)描述(General Description)。長(zhǎng)文本相較原始視覺(jué)信號(hào)能天然過(guò)濾低層冗余(如背景紋理、噪聲),便于后續(xù)在文本空間穩(wěn)健匹配。

2)查詢(xún)感知的 QA 精修:補(bǔ)足所需粒度細(xì)節(jié)

通用長(zhǎng)描述覆蓋面廣,但可能缺少用戶(hù)當(dāng)前查詢(xún)所需的細(xì)粒度證據(jù)。為此,本文采用 CoT 思路先由 LLM 從查詢(xún)中抽取關(guān)鍵短語(yǔ)(對(duì)象、屬性、動(dòng)作、位置、交互等),據(jù)此生成可明確判定的問(wèn)題;再由 LMM逐候選作答:若圖像/視頻無(wú)法支撐判斷則明確輸出“Uncertain”,此類(lèi)回答會(huì)被丟棄以避免幻覺(jué)。最終將 QA 的有效回答與通用長(zhǎng)描述拼接,得到面向該查詢(xún)、更細(xì)粒度的文本表示。

3)與現(xiàn)有 VLM 的無(wú)縫集成:無(wú)需訓(xùn)練,分?jǐn)?shù)融合

文本檢索器在第二步得到的文本表示上打分,并與 VLM 分?jǐn)?shù)進(jìn)行兩路相加完成重排。 這一流程完全發(fā)生在測(cè)試時(shí),不改動(dòng)底座模型訓(xùn)練。

三、實(shí)驗(yàn)

本論文在圖像檢索、視頻檢索與長(zhǎng)文本檢索等任務(wù)上完成驗(yàn)證,部分實(shí)驗(yàn)結(jié)果如下。

1)圖像檢索

把 VISA 接到 SigLIP 與 EVA-CLIP 等主流底座上,在不訓(xùn)練的前提下即可穩(wěn)步提升召回率,說(shuō)明“測(cè)試時(shí)視覺(jué)轉(zhuǎn)寫(xiě) + 輕量重排”對(duì)不同規(guī)模都有效。

COCO 與 Flickr30K數(shù)據(jù)集為例,SigLIP疊加 VISA:R@1 54.2→57.2、83.0→85.1;EVA-CLIP疊加 VISA:R@1 55.6→59.5、83.1→86.1。

值得一提的是,即便直接“堆大”合并多模型(表中 SigLIP * + EVA-CLIP *),效果也不及本論文提出的測(cè)試時(shí)的路線(xiàn),更大≠一定更好,關(guān)鍵在于表示的方式與對(duì)齊的粒度。


2)視頻檢索

DiDeMo為代表,R@1+2.5。在MSR-VTT同樣呈現(xiàn)+2.4的增益。VISA在基座 InternVideo-C 和 -G 上的提升說(shuō)明對(duì)雙流與混合架構(gòu)的視頻底座都即插即用就漲分。


3)長(zhǎng)文本檢索

真實(shí)搜索往往是“長(zhǎng)描述 + 多約束”。把候選轉(zhuǎn)成語(yǔ)義密集文本后,排序更貼近用戶(hù)意圖,且配套 QA 片段可作為可解釋的重排證據(jù)。以DCI為代表,R@1 +12.1;在Urban1K也觀察到約+8.7的提升,說(shuō)明轉(zhuǎn)寫(xiě)后的密集文本更貼近用戶(hù)意圖,體現(xiàn)了在多概念、強(qiáng)約束場(chǎng)景下的優(yōu)勢(shì)。


4)分析實(shí)驗(yàn)

(a)關(guān)于通用長(zhǎng)描述(GD)質(zhì)量:即便不啟用 QA,僅依靠“長(zhǎng)描述”也能帶來(lái)可觀提升;而且隨著描述模型能力增強(qiáng),表述更到位、重排更穩(wěn)。

(b)在問(wèn)題數(shù)量(QA 個(gè)數(shù))上:總體呈現(xiàn)“適當(dāng)多問(wèn)更好”的趨勢(shì),但存在甜點(diǎn)區(qū);通常 3–5 個(gè)問(wèn)題在效果與開(kāi)銷(xiāo)之間最均衡,繼續(xù)增加容易出現(xiàn)重復(fù)、回報(bào)遞減(短查詢(xún)上尤為明顯)。

(c)就回答器選擇而言:更強(qiáng)回答器更可靠;同時(shí),像中等規(guī)模的模型在“答得準(zhǔn)”與對(duì)無(wú)關(guān)問(wèn)題果斷拒答(Uncertain)之間取得良好平衡,能夠有效抑制幻覺(jué)噪聲。

(d)面向文本檢索器的兼容性:?jiǎn)瘟鞣桨赋R蚓浼?jí)融合略占優(yōu)勢(shì),不過(guò)雙流與輕量檢索器同樣能穩(wěn)定增益。換句話(huà)說(shuō),VISA 對(duì)檢索器選型不敏感,遷移與落地成本低。


四、可視化

下圖展示了本論文在“藍(lán)色襯衫+圍裙+做飯”這一查詢(xún)下的混淆候選與真實(shí)匹配。上半部分中,通用描述將上衣誤寫(xiě)為 black shirt,QA 將其矯正為 black jacket。且 QA 對(duì)“是否系圍裙”給出 Uncertain,因此該候選在重排中被降權(quán)。

下半部分中,General Description 和 QA 明確識(shí)別出 blue shirt 與 apron,并確認(rèn)人物正在 preparing food;這些被紅框標(biāo)注為“證據(jù)句”的回答與查詢(xún)要點(diǎn)一一對(duì)應(yīng),使該樣本在 VISA 重排中上升為更高名次。整體說(shuō)明:查詢(xún)感知的 QA 能補(bǔ)足細(xì)粒度細(xì)節(jié),并以可解釋的證據(jù)提升最終排序。


五、總結(jié)與展望

本文聚焦跨模態(tài)檢索中的語(yǔ)義冗余與粒度錯(cuò)配難題,提出在測(cè)試時(shí)將候選圖像/視頻進(jìn)行“視覺(jué)抽象”,再以查詢(xún)感知的 QA 在文本空間完成重排的路線(xiàn),兼顧即插即用、穩(wěn)定增益與可解釋性。本論文在圖像、視頻與長(zhǎng)文本三類(lèi)場(chǎng)景驗(yàn)證了這一路線(xiàn)的有效性,也在工程上證明它能夠以極低的改動(dòng)嵌入現(xiàn)有召回—重排鏈路。

本論文作者期待與業(yè)界在大規(guī)模檢索業(yè)務(wù)中開(kāi)展更緊密的合作,特別是在電商搜索、內(nèi)容檢索、長(zhǎng)視頻檢索與廣告匹配(搜廣推)等高價(jià)值場(chǎng)景,共同推進(jìn)“視覺(jué)摘要索引”的生產(chǎn)級(jí)落地。如果您所在的團(tuán)隊(duì)正在升級(jí)檢索、推薦或廣告的相關(guān)能力,期待與您交流實(shí)踐經(jīng)驗(yàn),一同打磨可落地的方案。

作者:丁國(guó)峰 來(lái)源:公眾號(hào)【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線(xiàn)700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線(xiàn)上交流活動(dòng),不定期舉辦技術(shù)人線(xiàn)下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專(zhuān)業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶(hù)啟發(fā)更大的文章,做原創(chuàng)性?xún)?nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門(mén)”

將門(mén)是一家以專(zhuān)注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
浙江全省正在嚴(yán)查!“不要購(gòu)買(mǎi),更不要駕駛”

浙江全省正在嚴(yán)查!“不要購(gòu)買(mǎi),更不要駕駛”

極目新聞
2026-03-14 21:37:21
特朗普動(dòng)起歪腦筋,稱(chēng)美軍在伊朗打仗,給中國(guó)送了一份“大禮”

特朗普動(dòng)起歪腦筋,稱(chēng)美軍在伊朗打仗,給中國(guó)送了一份“大禮”

空天力量
2026-03-14 19:09:49
隨著廣廈加時(shí)輸3分!山東贏9分!上??駝?0分,CBA最新排名大變

隨著廣廈加時(shí)輸3分!山東贏9分!上??駝?0分,CBA最新排名大變

老吳說(shuō)體育
2026-03-14 22:14:20
第6輪會(huì)談美方表態(tài),魯比奧接受邀請(qǐng)將隨特朗普訪(fǎng)華

第6輪會(huì)談美方表態(tài),魯比奧接受邀請(qǐng)將隨特朗普訪(fǎng)華

似水流年忘我
2026-03-14 16:25:05
隨著中國(guó)女籃86-76勝南蘇丹,世預(yù)賽最新形勢(shì):4隊(duì)爭(zhēng)3個(gè)出線(xiàn)名額

隨著中國(guó)女籃86-76勝南蘇丹,世預(yù)賽最新形勢(shì):4隊(duì)爭(zhēng)3個(gè)出線(xiàn)名額

小火箭愛(ài)體育
2026-03-14 21:32:52
巴拿馬急了:中遠(yuǎn)海運(yùn),恢復(fù)運(yùn)營(yíng)吧

巴拿馬急了:中遠(yuǎn)海運(yùn),恢復(fù)運(yùn)營(yíng)吧

觀察者網(wǎng)
2026-03-14 09:24:05
2025霧霾最嚴(yán)重的十個(gè)城市

2025霧霾最嚴(yán)重的十個(gè)城市

電工知庫(kù)
2026-03-14 15:04:40
農(nóng)民自愿永久退出承包地:2026最新補(bǔ)償標(biāo)準(zhǔn)與辦理流程全說(shuō)明

農(nóng)民自愿永久退出承包地:2026最新補(bǔ)償標(biāo)準(zhǔn)與辦理流程全說(shuō)明

現(xiàn)代小青青慕慕
2026-03-14 12:56:29
今年的315,草莓第一個(gè)翻車(chē),重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

今年的315,草莓第一個(gè)翻車(chē),重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

Mr王的飯后茶
2026-03-14 13:15:36
“戰(zhàn)斧”首次交付日本,中方正告!

“戰(zhàn)斧”首次交付日本,中方正告!

環(huán)球時(shí)報(bào)國(guó)際
2026-03-14 17:02:11
大爭(zhēng)議!F1外媒官號(hào)曬合照“裁掉”頒獎(jiǎng)嘉賓吳艷妮 做法太low

大爭(zhēng)議!F1外媒官號(hào)曬合照“裁掉”頒獎(jiǎng)嘉賓吳艷妮 做法太low

醉臥浮生
2026-03-14 15:45:44
淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

大嘴說(shuō)天下
2026-03-14 19:36:56
特朗普越過(guò)紅線(xiàn)?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專(zhuān)家:奪島容易控島難

特朗普越過(guò)紅線(xiàn)?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專(zhuān)家:奪島容易控島難

紅星新聞
2026-03-14 10:18:18
“伊朗想放部分油輪過(guò)海峽,前提是石油以人民幣結(jié)算”

“伊朗想放部分油輪過(guò)海峽,前提是石油以人民幣結(jié)算”

觀察者網(wǎng)
2026-03-14 08:19:04
我國(guó)臺(tái)灣問(wèn)題不談判不退讓不惜一戰(zhàn),哪怕?tīng)奚鼉|人毀城百座城池

我國(guó)臺(tái)灣問(wèn)題不談判不退讓不惜一戰(zhàn),哪怕?tīng)奚鼉|人毀城百座城池

瀚霖學(xué)史
2026-03-14 08:58:49
突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

西樓飲月
2026-03-14 22:03:05
600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

澎湃新聞
2026-03-14 20:02:09
1984年,張宗遜之子張又俠8個(gè)多小時(shí)拿下松毛嶺:預(yù)備隊(duì)還沒(méi)上呢

1984年,張宗遜之子張又俠8個(gè)多小時(shí)拿下松毛嶺:預(yù)備隊(duì)還沒(méi)上呢

歷史甄有趣
2026-03-13 12:45:14
泰州市監(jiān)委通報(bào),于浩被查

泰州市監(jiān)委通報(bào),于浩被查

上觀新聞
2026-03-14 19:41:03
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

鞭牛士
2026-03-14 12:04:14
2026-03-15 03:31:00
將門(mén)創(chuàng)投 incentive-icons
將門(mén)創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開(kāi)數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開(kāi)數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線(xiàn)

娛樂(lè)要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪(fǎng)|神秘的“特供酒”

汽車(chē)要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

親子
旅游
房產(chǎn)
游戲
健康

親子要聞

從"疲憊帶娃"到"從容陪娃":每位家長(zhǎng)都能掌握的魔法轉(zhuǎn)變

旅游要聞

西藏林芝桃花節(jié)定了,與清明節(jié)重逢:只有15天花期;錯(cuò)過(guò)得等一年

房產(chǎn)要聞

不容易??!??诮K于又要賣(mài)地了!

FS社新作終于有新消息!NS2獨(dú)占 多人在線(xiàn)

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版