網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙大團(tuán)隊(duì)破解多模態(tài)模型「盲目自信」：先校準(zhǔn)置信度，再分配算力

2026-03-22 15:13:44　來源: 量子位

北京舉報(bào)

分享至

多模態(tài)大模型，到底有多“嘴硬”？

浙江大學(xué)聯(lián)合阿里巴巴、香港城市大學(xué)、密歇根大學(xué)的研究團(tuán)隊(duì)做了一個(gè)很直接的實(shí)驗(yàn)：

把輸入圖像從清晰狀態(tài)一路加噪到接近不可辨認(rèn)，同時(shí)持續(xù)監(jiān)測(cè)模型的準(zhǔn)確率與置信度。

結(jié)果是，準(zhǔn)確率斷崖式下跌，但置信度幾乎不動(dòng)。也就是說，圖像已經(jīng)看不清了，模型仍然會(huì)高置信度地給出答案。

這類“盲目自信”，正是多模態(tài)大模型在復(fù)雜視覺推理中產(chǎn)生幻覺和誤判的重要根源。針對(duì)這一問題，研究團(tuán)隊(duì)提出了CA-TTS（Confidence-Aware Test-Time Scaling）框架：先通過置信度驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)校準(zhǔn)模型的自我評(píng)估能力，再把校準(zhǔn)后的置信度轉(zhuǎn)化為推理階段的資源分配信號(hào)。

效果也很直接：在四個(gè)主流視覺推理基準(zhǔn)上，CA-TTS全面達(dá)到SOTA，平均超越現(xiàn)有最優(yōu)方法8.8%。其中，在Math-Vision上，準(zhǔn)確率從基線的23.0%提升到42.4%。論文已被CVPR 2026接收。

達(dá)爾文早就說過：無知比知識(shí)更容易產(chǎn)生自信

這項(xiàng)工作的出發(fā)點(diǎn)，其實(shí)是一個(gè)長(zhǎng)期被忽視的問題：模型是否真的知道自己“不知道”？

研究團(tuán)隊(duì)將上述現(xiàn)象定義為“感知鈍化”（Perceptual Bluntness）。也就是，模型對(duì)視覺信息質(zhì)量的變化缺乏敏感性，視覺證據(jù)已經(jīng)明顯退化，但置信度仍維持在高位。放在人類語(yǔ)境里，這很像一個(gè)人在看不清題目的情況下，仍然非常篤定地報(bào)出答案。

為了在多模態(tài)場(chǎng)景下更穩(wěn)定地度量這種問題，研究團(tuán)隊(duì)沒有沿用文本模型里常見的token級(jí)校準(zhǔn)方式，而是將置信度定義為整個(gè)輸出序列的平均負(fù)對(duì)數(shù)概率（NMLP），建立響應(yīng)級(jí)別的置信度度量?；谶@一度量，整套方法分成兩個(gè)階段：訓(xùn)練階段的置信度校準(zhǔn)，以及推理階段的置信度感知擴(kuò)展。

第一步：CDRL讓視覺感知與置信度重新對(duì)齊

訓(xùn)練階段的核心模塊是CDRL（Confidence-Driven Reinforcement Learning）。它的目標(biāo)不是單純提升答題準(zhǔn)確率，而是讓模型在“看得清”和“看不清”兩種情況下，給出與視覺證據(jù)相匹配的置信度。

具體做法是，讓模型同時(shí)處理同一問題的原始圖像與加噪圖像，并通過強(qiáng)化學(xué)習(xí)優(yōu)化一個(gè)雙重獎(jiǎng)勵(lì)機(jī)制：

1. 感知敏感性獎(jiǎng)勵(lì)：鼓勵(lì)模型在原始圖像與噪聲圖像之間產(chǎn)生合理的置信度差異。差異越大，說明模型越能感知視覺退化。

2. 校準(zhǔn)一致性獎(jiǎng)勵(lì)：當(dāng)模型預(yù)測(cè)正確且置信度高時(shí)給予正向獎(jiǎng)勵(lì)；當(dāng)模型預(yù)測(cè)錯(cuò)誤但置信度仍高時(shí)施加懲罰。

這兩個(gè)獎(jiǎng)勵(lì)共同約束模型學(xué)會(huì)兩件事：一是對(duì)視覺退化保持敏感，二是對(duì)自身判斷保持誠(chéng)實(shí)

在訓(xùn)練數(shù)據(jù)上，研究團(tuán)隊(duì)從6個(gè)公開基準(zhǔn)中篩選出1936個(gè)高質(zhì)量樣本，并使用CLIP注意力圖定位關(guān)鍵視覺區(qū)域，生成更具針對(duì)性的擾動(dòng)，使噪聲集中施加在真正影響推理的局部區(qū)域。

從結(jié)果看，CDRL的效果并不只是“置信度變低”這么簡(jiǎn)單，而是“置信度終于跟視覺證據(jù)對(duì)上了”。面對(duì)噪聲圖像時(shí)，訓(xùn)練后的模型置信度下降幅度是訓(xùn)練前的4.3倍；面對(duì)遮擋條件時(shí)，這一比值達(dá)到4.7倍。

更值得注意的是，訓(xùn)練前模型在視角變換和馬賽克干擾下，置信度甚至還會(huì)反向上升，而CDRL訓(xùn)練后，所有視覺擾動(dòng)條件下的置信度都轉(zhuǎn)為顯著下降，ECE與AUC指標(biāo)也同步改善。

第二步：CA-TTS把校準(zhǔn)后的置信度變成推理信號(hào)

有了更可信的置信度之后，研究團(tuán)隊(duì)進(jìn)一步提出CA-TTS，把“模型對(duì)自己有多確定”轉(zhuǎn)化為推理階段的調(diào)度信號(hào)。它包含三個(gè)協(xié)同工作的模塊，并由專家模型動(dòng)態(tài)決定何時(shí)介入：

Self-Consistency：不再使用簡(jiǎn)單多數(shù)投票，而是采用置信度加權(quán)投票。模型生成多個(gè)候選答案后，先由內(nèi)部置信度進(jìn)行聚合，再引入專家模型作為外部校準(zhǔn)器，對(duì)候選答案進(jìn)行二次評(píng)估。

Self-Reflection：當(dāng)初步結(jié)果的置信度不足時(shí)，專家模型以Critic角色生成批評(píng)意見，引導(dǎo)基礎(chǔ)模型重新推理，避免它在原有錯(cuò)誤路徑上反復(fù)自洽。

Self-Check：在視覺層面對(duì)答案做進(jìn)一步驗(yàn)證。通過對(duì)比解碼，比較原始圖像與噪聲圖像下的輸出概率分布；如果答案確實(shí)依賴視覺證據(jù)，那么在噪聲圖像下其支持度應(yīng)當(dāng)下降。

與常見的Tree-of-Thoughts不同，CA-TTS的關(guān)鍵不只是“多想幾步”，而是建立了一個(gè)多階段驗(yàn)證閉環(huán)。前一階段即使給出錯(cuò)誤候選，后續(xù)模塊仍有機(jī)會(huì)糾正它。論文中的“墻上缺了多少塊磚”案例就體現(xiàn)了這一點(diǎn)：Tree-of-Thoughts在最終單點(diǎn)評(píng)估上失手，而CA-TTS通過加權(quán)投票、反思和視覺自檢三步糾偏，最終恢復(fù)出正確答案。

實(shí)驗(yàn)結(jié)果：四大基準(zhǔn)全面領(lǐng)先

在四個(gè)主流視覺推理基準(zhǔn)上，CA-TTS的表現(xiàn)如下。需要強(qiáng)調(diào)的是，這里的基座模型統(tǒng)一為Qwen2.5-VL-7B，因此提升主要來自方法本身，而不是底座差異。

幾組數(shù)字尤其有代表性。Math-Vision上，CA-TTS從基線的23.0%直接提升到42.4%，幾乎翻倍；MMMU上達(dá)到66.3%，相較基線提升17.5個(gè)百分點(diǎn)。這說明它帶來的不是單點(diǎn)收益，而是在不同類型視覺推理任務(wù)上的一致性改進(jìn)。

消融實(shí)驗(yàn)進(jìn)一步揭示了CDRL與CA-TTS的分工關(guān)系：

單獨(dú)使用CDRL，提升3.4個(gè)百分點(diǎn)，說明置信度校準(zhǔn)本身就有獨(dú)立價(jià)值；單獨(dú)使用CA-TTS，提升15.0個(gè)百分點(diǎn)，說明推理框架已經(jīng)能夠顯著改善決策質(zhì)量；兩者結(jié)合后總提升達(dá)到19.4個(gè)百分點(diǎn)，表明CDRL為CA-TTS提供了更可靠的策略基礎(chǔ)，二者存在明顯協(xié)同效應(yīng)。

研究團(tuán)隊(duì)還檢驗(yàn)了專家模型的依賴程度。即使讓Qwen2.5-VL-7B自身充當(dāng)“專家”，性能也仍比純Majority Voting高出接近5個(gè)百分點(diǎn)（32.57% vs. 27.65%）。換句話說，強(qiáng)專家模型確實(shí)能進(jìn)一步放大收益，但框架本身并不是靠“抱大腿”成立的。

Test-Time Scaling：斜率拉開，才是更關(guān)鍵的結(jié)果

如果說四個(gè)基準(zhǔn)上的SOTA說明方法“更準(zhǔn)”，那么test-time scaling曲線揭示的是它“為什么更值”。

在Math-Vision上，研究團(tuán)隊(duì)比較了采樣數(shù)量從1增加到32時(shí)，不同方法的準(zhǔn)確率增長(zhǎng)趨勢(shì)。結(jié)果顯示，CA-TTS的擴(kuò)展斜率β = 3.65，而Majority Voting為1.64，DeepConf為1.19。也就是說，CA-TTS的擴(kuò)展效率分別是后兩者的2.2倍和3.1倍。

這意味著，同樣是增加采樣次數(shù)，CA-TTS并不是“更頻繁地碰運(yùn)氣”，而是更有效地把額外算力投向真正不確定的問題上。當(dāng)Majority Voting和DeepConf在35%左右逐漸趨于飽和時(shí)，CA-TTS仍能繼續(xù)爬升，并最終突破45%。

從這個(gè)角度看，置信度校準(zhǔn)并不是一個(gè)附屬優(yōu)化項(xiàng)，而是在重新定義test-time scaling的效率上限。它讓“多算一點(diǎn)”這件事第一次變得更有方向感。

從“先推理后感知”到“先感知后推理”

這項(xiàng)工作最值得關(guān)注的地方，可能并不只是又一個(gè)更高的benchmark分?jǐn)?shù)，而是它提出了一種新的問題順序。

過去，多模態(tài)推理研究默認(rèn)的前提是：模型已經(jīng)在充分利用視覺信息，接下來只需要把推理能力做強(qiáng)。但這篇論文提醒我們，一個(gè)模型可能根本沒有真正“看懂”圖像，卻依然能給出高度自信的回答。若這個(gè)前提沒有被修正，后續(xù)再?gòu)?fù)雜的推理鏈條，也可能建立在不可靠的感知基礎(chǔ)上。

CA-TTS的思路正好反過來：先通過CDRL建立對(duì)視覺證據(jù)變化敏感、且與準(zhǔn)確性一致的置信度，再讓這種置信度去指導(dǎo)推理資源的分配。這是一種明確的Perceive-then-Reason范式，也就是從“先推理后感知”轉(zhuǎn)向“先感知后推理”。

當(dāng)然，這一方向也并非沒有代價(jià)。多次采樣與專家模型調(diào)用會(huì)帶來額外推理成本，當(dāng)前實(shí)驗(yàn)也主要集中在數(shù)學(xué)推理和通用VQA任務(wù)上。但如果目標(biāo)是讓多模態(tài)大模型在高風(fēng)險(xiǎn)場(chǎng)景中真正做到“知道自己什么時(shí)候不該太自信”，那么這條路線已經(jīng)給出了一個(gè)很有說服力的起點(diǎn)。

論文標(biāo)題：
Linking Perception, Confidence and Accuracy in MLLMs
作者：
Yuetian Du*, Yucheng Wang*, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu#, Qiang Zhu#
單位：
浙江大學(xué)、阿里巴巴集團(tuán)、香港城市大學(xué)、密歇根大學(xué)
發(fā)表：
CVPR 2026
項(xiàng)目鏈接：
https://github.com/anotherbricki/CA-TTS

作者簡(jiǎn)介：
本文第一作者為杜越天，浙江大學(xué)博士生，研究方向?yàn)槎嗄B(tài)大模型的置信度校準(zhǔn)與test-time scaling，導(dǎo)師為朱強(qiáng)教授。本文在朱強(qiáng)教授和劉潔博士的指導(dǎo)下完成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.