網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

多模態(tài)檢索新突破，用軟標簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

2025-11-15 13:18:07　來源: 量子位

北京舉報

分享至

UniME-V2團隊投稿
量子位 | 公眾號 QbitAI

統(tǒng)一多模態(tài)嵌入模型是眾多任務(wù)的技術(shù)基石。

當前主流方法通常采用批內(nèi)負例挖掘策略，通過計算查詢-候選對的相似度進行訓練。

但這類方法存在明顯局限：難以捕捉候選樣本間細微的語義差異，負例樣本多樣性不足，且模型在區(qū)分錯誤負例與困難負例時的判別能力有限。

針對這些問題，團隊提出全新解決方案——基于多模態(tài)大模型語義理解能力的統(tǒng)一多模態(tài)嵌入模型UniME-V2。

該方法首先通過全局檢索構(gòu)建潛在困難負例集，隨后創(chuàng)新性地引入“MLLM-as-a-Judge”機制：利用MLLM對查詢-候選對進行語義對齊評估，生成軟語義匹配分數(shù)。

這一設(shè)計帶來三重突破：

以匹配分數(shù)為依據(jù)實現(xiàn)精準困難負例挖掘，有效規(guī)避錯誤負例干擾
確保篩選出的困難負例兼具多樣性與高質(zhì)量特性
通過軟標簽機制打破傳統(tǒng)一對一的剛性映射約束

通過將模型相似度矩陣與軟語義匹配分數(shù)矩陣對齊，使模型真正學會辨析候選樣本間的語義差異，顯著提升判別能力。

為進一步提升性能，團隊基于挖掘的困難負例訓練出重排序模型UniME-V2-Reranker，采用配對與列表聯(lián)合優(yōu)化策略。

圖1 UniME-V2與以往方法的本質(zhì)不同，在于巧妙利用了多模態(tài)大模型（MLLM）的深層語義理解能力。它不僅能用此能力精準挖掘“困難負例”，更能生成一個軟語義匹配分數(shù)，如同一位資深導師，指導模型學會辨別候選樣本間微妙的語義差異。

方法

MLLM-as-a-Judge 困難負樣本挖掘

過去的研究主要依賴于批內(nèi)硬負樣本挖掘，其中計算查詢-候選嵌入相似性以采樣負樣本。

然而，這種方法通常受到負樣本多樣性有限和嵌入判別能力不足的困擾，難以有效區(qū)分錯誤和困難的負樣本。

為了克服這些挑戰(zhàn)，如圖2所示，首先利用全局檢索構(gòu)建一個潛在的困難負樣本集。

之后，利用MLLM的強大理解能力來評估每個查詢-候選對的語義對齊性，并生成軟語義匹配分數(shù)。

這個分數(shù)指導了硬負樣本挖掘，使得能夠識別出多樣化和高質(zhì)量的困難負樣本，同時減少錯誤負樣本的影響。

圖2：基于MLLM-as-a-Judge的困難負樣本挖掘流程。我們首先利用現(xiàn)有的多模態(tài)嵌入模型進行全局檢索，構(gòu)建一個潛在的困難負樣本集。然后，利用MLLM強大的理解能力根據(jù)語義對齊性對查詢-候選對進行評分，從而精確識別困難負樣本。

潛在困難負樣本集合為了從全局樣本中提取更高質(zhì)量的困難負樣本，首先使用VLM2Vec為查詢和候選生成嵌入。

接著，為每個查詢檢索出50個最相關(guān)的候選。

為了應(yīng)對錯誤負樣本并增加多樣性，我們基于查詢-候選相似度分數(shù)設(shè)定一個相似度閾值，并選擇前50名的候選作為潛在的困難負樣本集：

其中是由VLM2Vec模型計算得出的查詢與候選的相似度分數(shù)。

語義匹配分數(shù)在構(gòu)建潛在的困難負樣本集后，我們使用MLLM作為評判，為中的每個查詢-候選對計算語義匹配分數(shù)，具體指令如下：

隨后，根據(jù)（）和（）標記的logits計算語義匹配分數(shù)，其中。這里，表示查詢的數(shù)量。利用MLLMs的高級理解能力，語義匹配分數(shù)有效地捕捉了查詢和候選之間的語義對齊程度。

困難負樣本采樣為了提高困難負樣本的質(zhì)量，利用語義匹配分數(shù)對候選進行精煉。

候選樣本的分數(shù)超過閾值（其中表示正樣本，是控制閾值間隔的超參數(shù)）則會當作錯誤負樣本并排除。為保持多樣性，采用五步間隔的循環(huán)采樣策略。

如果精煉后的集合包含的候選少于十個，將重復選擇以確保至少有十個。

在極少數(shù)情況下（<1%），如果沒有候選符合條件，將從最初的五十個候選中隨機選擇10個，并給每個分配1.0的語義匹配分數(shù)。

最后，對于每個查詢，我們獲得困難負樣本集及其相應(yīng)的語義匹配分數(shù)。

圖3：基于MLLM判斷的訓練框架結(jié)構(gòu)。UniME-V2使用軟語義匹配分數(shù)作為監(jiān)督信號，以增強候選者間的語義區(qū)分學習。UniME-V2-Reranker采用pairwise和listwise聯(lián)合訓練以提升重排序性能。

基于MLLM判斷的訓練框架

UniME-V2為此提出了一個基于MLLM判斷的分布對齊框架，如圖3所示，利用軟語義匹配分數(shù)作為監(jiān)督信號來提高表征性能。

具體來說，給定一個查詢及其候選集，將它們輸入到MLLM中，并提取最后一個標記作為查詢和候選集的嵌入，其中是目標候選的嵌入，是每個查詢的困難負樣本數(shù)。然后計算查詢嵌入與候選嵌入之間的關(guān)系得分矩陣如下：

基于語義匹配分數(shù)，計算由MLLM判斷得出的語義匹配分數(shù)矩陣如下：

為了增強學習的穩(wěn)健性并確保矩陣對稱性，采用了JS-Divergence，這是KL-Divergence的一種對稱替代。最終的損失函數(shù)定義為：

除此之外，受前人工作啟發(fā)，UniME-V2聯(lián)合pairwise和listwise訓練了一個重排序模型UniME-V2-Reranker（如圖3所示）來提高基于初始嵌入的檢索精度。

在成對訓練中，為每個查詢構(gòu)造兩對，一對與正候選結(jié)合，另一對與最困難的負候選結(jié)合。然后指導UniME-V2-Reranker對正候選輸出，對負候選輸出。成對損失使用交叉熵損失函數(shù)計算如下：

其中表示UniME-V2-Reranker的自回歸輸出過程。對于列表訓練，基于語義匹配分數(shù)，從困難負候選中選擇前個候選，隨機插入目標候選并獲取其索引。

然后提示UniME-V2-Reranker輸出真實位置，公式為：

最終的損失函數(shù)定義為。

表1：MMEB基準測試結(jié)果。IND表示在分布內(nèi)，OOD表示在分布外。分數(shù)為補充材料中的平均精度結(jié)果。

實驗

多模態(tài)檢索

表1展示了在相同訓練數(shù)據(jù)和配置下UniME-V2與現(xiàn)有基線模型在MMEB基準上的性能對比。

UniME-V2在各種基礎(chǔ)模型上均有顯著的性能提升。

具體來說，UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。

當基于LLaVA-OneVision作為基礎(chǔ)時，UniME-V2比包括QQMM、LLaVE和UniME在內(nèi)的之前的最先進模型提高了0.5%-0.9%。此外，UniME-V2在分布外數(shù)據(jù)集上的得分為66.7，凸顯其魯棒性和卓越的遷移能力。

表2：在短描述（Flickr30K, MS-COCO）、長描述（ShareGPT4V, Urban1K）和組合（SugarCrepe）數(shù)據(jù)集上的零樣本文本-圖像檢索結(jié)果。

跨模態(tài)檢索

如表2所示，在零樣本跨模態(tài)檢索任務(wù)上評估UniME-V2。對于短描述數(shù)據(jù)集，包括Flickr30K和MS-COCO，UniME-V2在圖像到文本檢索中比UniME表現(xiàn)出了2.2%-9.7%的性能提升。

在文本到圖像檢索中，其性能與UniME相當，這主要歸因于兩個因素：

（1）MMEB訓練集中文本到圖像數(shù)據(jù)的比例有限；

（2）短描述中的語義信息不足。

對于長描述跨模態(tài)檢索任務(wù)，UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進，這得益于其增強的區(qū)分能力和詳細描述提供的豐富語義內(nèi)容。

值得注意的是，與EVA-CLIP-8B相比，UniME-V2展示了更為穩(wěn)健的檢索性能，這主要因為其通用多模態(tài)嵌入能顯著減少模態(tài)間的差距（如圖4所示）。

圖4：EVA-CLIP-8B與UniME-V2（LLaVA-OneVision-7B）之間的表示分布對比。

組合跨模態(tài)檢索

基于SugarCrepe評估UniME-V2模型區(qū)分困難負樣本的能力。

如表2所示，UniME-V2在所有評估指標上均表現(xiàn)出卓越性能。

與UniME相比在使用Qwen2-VL-2B時性能提升了5.3%，6.0%，4.5%。當模型從2B擴展到7B后也實現(xiàn)了9.0%，9.2%，9.2%的性能提升。

此外，與EVA-CLIP-8B相比，UniME-V2還顯示出2.7%，3.4%，和3.8%的改進，凸顯其在區(qū)分困難負樣本上的強大能力。

表3：使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。

重排序?qū)Ρ?/h5>
在表3中基于top5檢索結(jié)果對比了LamRA與UniME-V2-Reranker的性能。為確保公平，使用與LamRA相同的訓練參數(shù)和基礎(chǔ)模型（Qwen2.5-VL-7B）。
當使用LamRA和UniME-V2-Reranker對UniME-V2 (Qwen2-VL-2B) 檢索結(jié)果進行重排后在四個下游任務(wù)上均提升了性能。
UniME-V2-Reranker在只使用一半數(shù)據(jù)的情況下始終獲得更優(yōu)結(jié)果。類似地，使用UniME-V2 (Qwen2-VL-7B) 進行檢索時，UniME-V2-Reranker的表現(xiàn)也超過了LamRA，在四個任務(wù)中分別獲得了0.5%，0.4%，0.3%，和7.4%的性能提升。
值得注意的是，UniME-V2-Reranker在組合理解檢索任務(wù)中展示了對LamRA的顯著優(yōu)勢，這歸功于其利用MLLM的理解能力提取多樣化和高質(zhì)量的困難樣本，有效增強了模型的區(qū)分能力。
論文：
https://arxiv.org/abs/2510.13515
GitHub：
https://github.com/GaryGuTC/UniME-v2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

Claude Opus 4.7深夜上線，評分碾壓

機器之心Pro 2026-04-17 10:08:00
2 跟貼 2
編程智能體的隱藏bug，被上交IPADS團隊用數(shù)學邏輯給揪出來了

DeepTech深科技 2026-04-18 11:18:39
0 跟貼 0

從越用越便宜到越用越貴，誰在為AI的“算力饑渴”買單？

鈦媒體APP 2026-04-17 13:32:25
0 跟貼 0

OpenAI徹底重構(gòu)Codex！長出獨立鼠標，自己排班狂卷打工人

新智元 2026-04-17 14:43:06
1 跟貼 1
三層防御仍然不夠，一條PR標題就能偷走你的API密鑰：AI Agent安全裂痕再現(xiàn)

鈦媒體APP 2026-04-18 10:44:12
0 跟貼 0

XYZ曲線丈量萬億市場：智元給具身智能的演進定了新路徑

雷科技 2026-04-17 21:34:55
10 跟貼 10

π0.7的泛化能力有多強？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0
誰在決定AI手機的未來：模型、系統(tǒng)，還是生態(tài)？

DeepTech深科技 2026-01-13 16:16:47
0 跟貼 0

長安汽車獲得發(fā)明專利授權(quán)：“車輛的多模態(tài)融合感知方法、裝置、車輛及存儲介質(zhì)”

證券之星 2026-04-18 03:27:39
0 跟貼 0
獨家專訪元戎啟行周光：一場關(guān)于信任、偏見與未來定義的對話

汽車公社 2026-04-17 20:32:29
0 跟貼 0
又一個學歷爆雷的真實樣本，我們又該情何以堪

慧翔百科 2026-04-17 08:59:11
28 跟貼 28
月薪3萬，去內(nèi)蒙草原給DeepSeek守機房

算法與數(shù)學之美 2026-04-16 16:34:13
4 跟貼 4
MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規(guī)則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0
不用對伊朗戰(zhàn)爭中的C-130J頂禮膜拜，中國運-15憑實力已全面超越

矚望云霄 2026-04-16 17:52:41
1 跟貼 1
想做親子鑒定？先搞懂這2種類型，結(jié)果才有效！

新浪財經(jīng) 2026-04-18 04:42:49
0 跟貼 0
解放軍護衛(wèi)艦與外艦纏斗20小時細節(jié)披露

上觀新聞 2026-04-18 12:26:59
11294 跟貼 11294
Transformer與RNN合體，谷歌打下顯存門檻，解鎖超長上下文

機器之心Pro 2026-04-17 18:31:53
0 跟貼 0
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
12 跟貼 12
50歲和20歲女生，雙唇有什么差異，對比這幾個指標，都明白了

曉芙搞笑 2026-04-17 04:40:21
97 跟貼 97
π0.7發(fā)布，機器人迎來GPT-2時刻

智東西 2026-04-18 17:19:27
1 跟貼 1
具身智能缺數(shù)據(jù)？覓蜂科技發(fā)布MEgo：無本體采集，隨走隨采

雷科技 2026-04-18 19:44:51
0 跟貼 0
倫理防線不可靠！分布偏移誘導，大模型進入暗黑模式

新智元 2026-04-18 18:17:38
0 跟貼 0
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
3818 跟貼 3818
學校組織10元車費去春游，男孩下車秒哭，“這是我家，油菜花還是我和爺爺一起種的，我媽剛把我送學校，你又把我?guī)Щ貋砹恕?/a>

觀威海 2026-04-18 13:16:03
1622 跟貼 1622
廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點才收工，發(fā)文吐槽：這個雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
2674 跟貼 2674
和幼兒園小朋友猜拳，教官從“隨便玩玩”到“認真對決”，這一幕也太可愛了！

環(huán)球網(wǎng)資訊 2026-04-18 11:22:20
93 跟貼 93
中路最牛殺招，進右馬速勝公式，精準打擊飛相局，簡單實用

老劉說棋 2026-04-17 08:43:30
6 跟貼 6
在審查偏遠極地地區(qū)的衛(wèi)星掃描圖像時,研究

好奇趣世界 2026-04-18 13:36:13
1 跟貼 1
智元機器人，要做AI大模型平臺和開放生態(tài)

36氪 2026-04-18 10:05:08
1 跟貼 1
跨國搬家8次后，我發(fā)現(xiàn)"適應(yīng)力"是個偽概念

時光慢郵啊 2026-04-18 08:19:52
0 跟貼 0
直播15小時，1300公里，雷軍被逼急了

財天COVER 2026-04-18 22:38:33
10 跟貼 10
快檢查自家陽臺！有人家里已大量出現(xiàn)，官方提醒：千萬別摸

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
609 跟貼 609
男子爬上泰山“五岳獨尊”石刻拍照，景區(qū)：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1288 跟貼 1288
“真銅實料”互嗆升級，海信高管稱格力部分機型用鋁線電機

紅星資本局 2026-04-17 18:26:04
1784 跟貼 1784
AI開始接管實驗室了！玻爾·躍遷實驗室1800+設(shè)備即插即用

量子位 2026-04-18 23:54:30
0 跟貼 0
何潤東空降蘇超復刻霸王巡場

上游新聞 2026-04-18 19:42:01
716 跟貼 716
良莠不齊的“莠”不讀yòu，也不讀xiù，常見字，讀錯丟人!

未央看點 2026-04-19 00:49:51
3 跟貼 3
5個衰老的“指標”！如果一個沒有，說明你還很年輕！

康哥愛嘮嗑 2026-04-15 08:40:02
0 跟貼 0
組裝V8汽車發(fā)動機模型

制造科技 2026-04-16 13:26:17
0 跟貼 0
"地球或今年沖擊高溫極限" 國家氣候中心回應(yīng)

澎湃新聞 2026-04-18 11:03:07
316 跟貼 316

量子位

追蹤人工智能動態(tài)

12491文章數(shù) 176454關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

旅游

健康

親子

藝術(shù)

手機 / 數(shù)碼

房產(chǎn) / 家居

多模態(tài)檢索新突破，用軟標簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

方法

MLLM-as-a-Judge 困難負樣本挖掘

基于MLLM判斷的訓練框架

實驗

多模態(tài)檢索

跨模態(tài)檢索

組合跨模態(tài)檢索

傳Meta下月擬裁8000 大舉清退人力為AI騰位

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

時隔25年重返英超！沒有人再嘲笑他了

劉德華回應(yīng)潘宏彬去世，拒談喪禮細節(jié)

"影子萬科"2.0：管理層如何吸血萬物云？

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

“抱歉，我們只看第一學歷”，985碩士面試被拒，考研還有必要嗎

申城周末開啟“繁花”模式：前灘800米歐式花街變身莊園 全城百個櫥窗聯(lián)動“擁抱”春天

干細胞抗衰4大誤區(qū),90%的人都中招

退燒藥怎么用？90%家長都搞錯了

波蘭美女奧拉·卡茲馬雷克，絕美風情讓人驚艷！

多模態(tài)檢索新突破，用軟標簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

伊朗革命衛(wèi)隊向油輪開火伊朗最高領(lǐng)袖發(fā)聲

伊朗革命衛(wèi)隊向油輪開火伊朗最高領(lǐng)袖發(fā)聲

劉德華回應(yīng)潘宏彬去世，拒談喪禮細節(jié)

奇瑞威麟R08 PRO正式上市售價14.48萬元起

“抱歉，我們只看第一學歷”，985碩士面試被拒，考研還有必要嗎

申城周末開啟“繁花”模式：前灘800米歐式花街變身莊園全城百個櫥窗聯(lián)動“擁抱”春天

波蘭美女奧拉·卡茲馬雷克，絕美風情讓人驚艷！