国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICCV 2025 | MRGD:Mila聯(lián)合Meta等提出獎(jiǎng)勵(lì)探索的解碼框架,有效緩解MLLMs的生成幻覺難題

0
分享至

在多模態(tài)大語(yǔ)言模型(MLLMs)不斷突破性能邊界的同時(shí),其輸出不可控、“幻覺”頻發(fā)的問(wèn)題也日益凸顯。本文介紹一篇由Mila、蒙特利爾大學(xué)、麥吉爾大學(xué)以及Meta FAIR等研究團(tuán)隊(duì)共同完成的工作,目前已經(jīng)發(fā)表在視覺頂級(jí)會(huì)議ICCV 2025上。該工作提出了一種"多模態(tài)獎(jiǎng)勵(lì)引導(dǎo)解碼"(Multimodal Reward-guided Decoding, MRGD)的方法。MRGD無(wú)需重新訓(xùn)練模型即可在推理階段精準(zhǔn)調(diào)控MLLM的生成效果。MRGD主要構(gòu)建了兩個(gè)獨(dú)立且互補(bǔ)的獎(jiǎng)勵(lì)信號(hào):“精確度獎(jiǎng)勵(lì)”(嚴(yán)控幻覺,提升輸出可靠性)與“召回率獎(jiǎng)勵(lì)”(促進(jìn)細(xì)節(jié)覆蓋,增強(qiáng)描述豐富性)。MRGD不僅有效緩解了物體幻覺問(wèn)題,還賦予了用戶在生成內(nèi)容時(shí)的高度可控性,使得用戶能夠根據(jù)具體需求,靈活地調(diào)節(jié)精度與召回之間的平衡,或者在計(jì)算資源和生成質(zhì)量之間作出權(quán)衡。


論文題目: Controlling Multimodal LLMs via Reward-guided Decoding 文章鏈接: https://arxiv.org/abs/2508.11616
一、引言

近年來(lái),多模態(tài)大語(yǔ)言模型(MLLMs) 在圖像描述、視覺問(wèn)答等任務(wù)上展現(xiàn)出卓越的能力。然而,其生成過(guò)程中頻繁出現(xiàn)的“物體幻覺”(Object Hallucination)問(wèn)題(即生成圖像中并不存在的物體描述,如下圖Greedy生成的內(nèi)容所示)嚴(yán)重限制了其在可信度要求高的場(chǎng)景(如自動(dòng)駕駛、醫(yī)療影像分析)中的應(yīng)用。


現(xiàn)有的主流解決方案普遍依賴于有監(jiān)督微調(diào)(SFT)[1] 和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)[2][3]來(lái)調(diào)整模型參數(shù)提升性能。盡管這些方法在一定程度上能夠提升模型性能,但其固有缺陷也十分顯著。首先,這些方法需要投入大量的計(jì)算資源與人工標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行重新訓(xùn)練,帶來(lái)顯著的開發(fā)成本。更重要的是,經(jīng)過(guò)訓(xùn)練后的模型其行為模式即被固化,缺乏必要的靈活性,無(wú)法在推理階段根據(jù)用戶的實(shí)際需求對(duì)輸出風(fēng)格進(jìn)行動(dòng)態(tài)調(diào)整,難以適應(yīng)多樣化場(chǎng)景的應(yīng)用要求。因此,目前亟需開發(fā)一種無(wú)需重新訓(xùn)練且可供用戶實(shí)時(shí)調(diào)控的解碼機(jī)制,以實(shí)現(xiàn)適應(yīng)多樣化場(chǎng)景的可控生成。

二、本文方法

本文所提MRGD方法的主要框架流程如下圖所示,MRGD通過(guò)迭代生成和獎(jiǎng)勵(lì)引導(dǎo)的過(guò)程,動(dòng)態(tài)地控制生成內(nèi)容的精度與召回率。這是一個(gè)類似于迭代搜索的過(guò)程:



  1. 生成候選:在每一步,基于當(dāng)前生成的前綴,讓MLLM采樣生成 個(gè)可能的后續(xù)詞序列。

  2. 評(píng)估候選:每個(gè)候選句子都會(huì)經(jīng)過(guò)物體精確度獎(jiǎng)勵(lì)( )和物體召回率獎(jiǎng)勵(lì)( )的獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估。

  3. 選擇最優(yōu):選擇得分最高的候選,將其追加到當(dāng)前輸出中。

  4. 循環(huán)往復(fù):重復(fù)上述過(guò)程,直到生成結(jié)束。

在每輪生成中,用戶可以靈活調(diào)整精確度與召回率的平衡,從而定制化生成的文本,達(dá)到最優(yōu)的生成效果。

2.1 獎(jiǎng)勵(lì)引導(dǎo)

MRGD方法的核心創(chuàng)新在于其使用了獎(jiǎng)勵(lì)引導(dǎo)解碼,在生成文本的每一步依據(jù)兩個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型動(dòng)態(tài)選擇最優(yōu)的候選輸出。

  1. 物體精確度獎(jiǎng)勵(lì)( ):該模型旨在減少虛假物體的生成,確保描述中的物體與圖像中的實(shí)際物體一致。通過(guò)評(píng)估候選句子中描述物體的準(zhǔn)確性,模型懲罰生成錯(cuò)誤的或不存在的物體,降低幻覺現(xiàn)象

  2. 物體召回率獎(jiǎng)勵(lì)( ):該模型鼓勵(lì)生成更多真實(shí)存在的物體描述,確保圖像中所有物體都被覆蓋。它通過(guò)比較圖像中檢測(cè)到的物體與候選句子中提到的物體,來(lái)評(píng)估召回率。覆蓋的物體越多,召回率越高,獎(jiǎng)勵(lì)得分越大。 首先利用開放詞匯檢測(cè)器(如OWLv2)從圖像中提取所有物體作為參考集 ,同時(shí)使用語(yǔ)法工具(如NLTK)從生成文本中抽取出所有名詞作為預(yù)測(cè)集 。隨后通過(guò)語(yǔ)義編碼模型(如Sentence-BERT)將兩類物體名稱映射為向量,并計(jì)算預(yù)測(cè)物體與參考物體之間的最大余弦相似度。若某預(yù)測(cè)物體與任意參考物體的相似度超過(guò)閾值 ,則判定該物體被正確召回。最終獎(jiǎng)勵(lì)值為被正確召回的物體數(shù)量與參考集物體總數(shù)的比值:


2.2 調(diào)控策略

MRGD并未將兩個(gè)獎(jiǎng)勵(lì)模型固化為一個(gè)單一的指標(biāo),而是通過(guò)巧妙的設(shè)計(jì),將控制權(quán)交給了用戶。作者首先設(shè)計(jì)了精度和召回權(quán)衡控制策略,這種策略允許用戶通過(guò)調(diào)節(jié)一個(gè)簡(jiǎn)單的超參數(shù) 來(lái)線性組合兩個(gè)獎(jiǎng)勵(lì):


其中,當(dāng) 時(shí),可以最大限度減少幻覺,優(yōu)化精確度,生成內(nèi)容極其可靠,但可能過(guò)于簡(jiǎn)潔。當(dāng) 時(shí),模型會(huì)盡可能描述更多細(xì)節(jié),追求高召回率,但可能包含幻覺。而當(dāng) 時(shí),模型處于平衡模式,可以同時(shí)兼顧準(zhǔn)確性與豐富度。

此外,作者還設(shè)計(jì)了一種計(jì)算性能權(quán)衡控制策略,該策略通過(guò)調(diào)整采樣數(shù) ,來(lái)控制每一步生成的候選數(shù),增大 值可提升搜索充分性和生成質(zhì)量,但也會(huì)線性增加計(jì)算成本,下面展示了獎(jiǎng)勵(lì)引導(dǎo)解碼的算法流程。


三、實(shí)驗(yàn)效果

本文在CHAIR和AMBER兩個(gè)標(biāo)準(zhǔn)對(duì)象幻覺基準(zhǔn)上系統(tǒng)評(píng)估了MRGD方法的性能,重點(diǎn)考察其在長(zhǎng)字幕生成中緩解對(duì)象幻覺的效果。實(shí)驗(yàn)除報(bào)告實(shí)例級(jí)與句子級(jí)幻覺率( / CHAIR 和 / Hal.)之外,還引入對(duì)象召回率( Rec. / Cov.)和字幕長(zhǎng)度(Len.)作為輔助指標(biāo),以確保生成內(nèi)容不僅準(zhǔn)確,且保持豐富性。此外,實(shí)驗(yàn)部分還進(jìn)一步分析了視覺基礎(chǔ)能力與測(cè)試時(shí)計(jì)算開銷之間的權(quán)衡關(guān)系。

3.1 定量實(shí)驗(yàn)分析

下表展示了本文方法與其他幻覺緩解方法之間的性能對(duì)比。結(jié)果表明,MRGD在物體幻覺基準(zhǔn)測(cè)試中全面優(yōu)于現(xiàn)有方法。在COCO數(shù)據(jù)集上,MRGD( )將實(shí)例級(jí)幻覺率從15.05%顯著降至4.53%,且僅帶來(lái)輕微召回率損失。


通過(guò)調(diào)節(jié)權(quán)重 ,MGRD可靈活平衡精度與召回。在 時(shí)實(shí)現(xiàn)最低幻覺率, 時(shí)達(dá)到最高覆蓋率。MRGD不僅大幅超越LLaVA-RLHF等微調(diào)方法,也明顯優(yōu)于CGD等解碼時(shí)引導(dǎo)方法,在COCO數(shù)據(jù)集上比CGD進(jìn)一步降低約50%的幻覺率。這些結(jié)果證明,MRGD能夠在無(wú)需重新訓(xùn)練的情況下,為用戶提供高效且可控的解碼時(shí)生成方案。


此外,MRGD在應(yīng)用于更新且架構(gòu)多樣化的 MLLMs(例如 Llama-3.2-Vision 和 SmolVLM-2)時(shí)仍然有效。值得一提的是,本文的獎(jiǎng)勵(lì)模型可以即插即用在任何新的MLLM上,無(wú)需重新訓(xùn)練。

3.2 定性實(shí)驗(yàn)分析

下圖直觀對(duì)比了在相同輸入圖像下,默認(rèn)貪婪解碼與MRGD方法生成圖像描述的效果差異。從上圖可以看到,貪婪解碼的的描述往往與實(shí)際圖像內(nèi)容不符,描述出的物體數(shù)量可能多于或少于實(shí)際存在的對(duì)象。例如,貪婪解碼的描述內(nèi)容包含了幻覺物體“樓梯”和“建筑物”,卻沒有提到船和河流。


相比之下,MRGD方法在不同權(quán)重配置下表現(xiàn)出顯著的可控生成能力。當(dāng)設(shè)置 (側(cè)重精確度)時(shí),模型生成的字幕準(zhǔn)確提到了圖像中存在的元素,且完全避免幻覺,但代價(jià)是未能提及“梯田臺(tái)階”這一細(xì)節(jié)。當(dāng)設(shè)置 (平衡模式)時(shí),生成結(jié)果包含了更多細(xì)節(jié),如“木棚或亭子”,但也引入了一些幻覺。當(dāng)設(shè)置 (側(cè)重召回率)時(shí),模型成功識(shí)別最多的物體,但也出現(xiàn)了大量幻覺內(nèi)容,如“火車車廂”、“軌道”。這展示了MRGD在精度和召回之間的靈活平衡,用戶可通過(guò)調(diào)整 來(lái)控制生成的準(zhǔn)確性和豐富性。

3.3 消融實(shí)驗(yàn)

為了驗(yàn)證MRGD在校準(zhǔn)模型精確度和召回率之間的權(quán)衡控制能力,作者對(duì) 值的使用進(jìn)行了消融分析,結(jié)果如下圖所示。


其中,較低的 值導(dǎo)致較高的召回率和較低的精確度。隨著 的增大,權(quán)衡曲線接近理想狀態(tài),表明精確度與召回率之間存在固有權(quán)衡。該方法允許用戶通過(guò)調(diào)整 和 來(lái)靈活選擇最適合需求的平衡點(diǎn)。

四、總結(jié)

本文提出了一種名為多模態(tài)獎(jiǎng)勵(lì)引導(dǎo)解碼(MRGD)的創(chuàng)新方法,用于在推理階段動(dòng)態(tài)控制多模態(tài)大語(yǔ)言模型的輸出效果。該方法通過(guò)引入雙獎(jiǎng)勵(lì)機(jī)制,使用戶能夠通過(guò)調(diào)節(jié)單一參數(shù)靈活權(quán)衡生成內(nèi)容的準(zhǔn)確性與豐富性,無(wú)需重新訓(xùn)練模型即可有效抑制物體幻覺問(wèn)題。實(shí)驗(yàn)證明,MRGD在效果和效率上均顯著優(yōu)于現(xiàn)有方法,為構(gòu)建可控、可靠的多模態(tài)生成系統(tǒng)提供了實(shí)用而高效的解決方案。

參考

[1] Liu F, Lin K, Li L, et al. Mitigating hallucination in large multi-modal models via robust instruction tuning[J]. arXiv preprint arXiv:2306.14565, 2023.

[2] Sun Z, Shen S, Cao S, et al. Aligning large multimodal models with factually augmented rlhf[J]. arXiv preprint arXiv:2309.14525, 2023.

[3] Yu T, Yao Y, Zhang H, et al. Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13807-13816.

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長(zhǎng)要警惕

假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長(zhǎng)要警惕

趣文說(shuō)娛
2026-03-10 16:47:22
凌晨刷屏!中遠(yuǎn)海運(yùn)強(qiáng)硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

凌晨刷屏!中遠(yuǎn)海運(yùn)強(qiáng)硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

生活新鮮市
2026-03-14 00:18:55
美國(guó)“林肯”號(hào)航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國(guó)

美國(guó)“林肯”號(hào)航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國(guó)

安安說(shuō)
2026-03-14 18:53:39
中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

老馬拉車莫少裝
2026-03-14 18:34:48
阿德巴約:如果逝者能夠開口說(shuō)話,我堅(jiān)信科比一定會(huì)恭喜我

阿德巴約:如果逝者能夠開口說(shuō)話,我堅(jiān)信科比一定會(huì)恭喜我

懂球帝
2026-03-14 09:45:09
57歲王菲斷崖式衰老!臉腫皮膚松,十個(gè)月前和謝霆鋒秀恩愛差距大

57歲王菲斷崖式衰老!臉腫皮膚松,十個(gè)月前和謝霆鋒秀恩愛差距大

青梅侃史啊
2026-02-18 07:25:41
在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個(gè)股?

在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個(gè)股?

股市皆大事
2026-03-14 11:09:10
北京市屬公園春花觀賞季陸續(xù)啟幕

北京市屬公園春花觀賞季陸續(xù)啟幕

北京商報(bào)
2026-03-13 17:12:20
分手7年范冰冰也沒想到,46歲李晨隱藏身份曝光,王寶強(qiáng)沒說(shuō)錯(cuò)

分手7年范冰冰也沒想到,46歲李晨隱藏身份曝光,王寶強(qiáng)沒說(shuō)錯(cuò)

錯(cuò)過(guò)美好
2026-03-13 23:16:47
別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

諾媽家有男寶娃
2026-03-13 15:15:55
有很多人可能根本“撐不過(guò)”2026年了

有很多人可能根本“撐不過(guò)”2026年了

放牛娃的遐想
2026-03-12 08:29:33
早春外套別亂買!跟著博主解鎖3件王炸單品,顯瘦時(shí)髦一整季!

早春外套別亂買!跟著博主解鎖3件王炸單品,顯瘦時(shí)髦一整季!

虎哥說(shuō)衣不二
2026-03-14 19:10:10
蒙古總理?yè)Q人后,一下子硬氣了,當(dāng)面要求西方廢除不平等條款

蒙古總理?yè)Q人后,一下子硬氣了,當(dāng)面要求西方廢除不平等條款

知鑒明史
2026-03-13 18:31:46
蒙哥馬利:我們?cè)诙ㄎ磺蚍朗匦枳龅酶茫钌卟渴軅栊菹?>
    </a>
        <h3>
      <a href=懂球帝
2026-03-14 18:38:05
曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說(shuō)其他隊(duì)友返回伊朗

曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說(shuō)其他隊(duì)友返回伊朗

念洲
2026-03-14 13:47:06
上甘嶺戰(zhàn)役,美軍為什么不像對(duì)付日軍那樣,用噴火器向坑道里狂噴

上甘嶺戰(zhàn)役,美軍為什么不像對(duì)付日軍那樣,用噴火器向坑道里狂噴

朝子亥
2026-03-14 17:15:03
不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

起喜電影
2026-03-02 07:35:37
“美國(guó)不敢打”論誤國(guó)誤民!

“美國(guó)不敢打”論誤國(guó)誤民!

據(jù)說(shuō)無(wú)據(jù)
2026-03-12 15:56:59
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
以軍發(fā)動(dòng)大規(guī)??找u 伊朗首都發(fā)生爆炸

以軍發(fā)動(dòng)大規(guī)模空襲 伊朗首都發(fā)生爆炸

財(cái)聯(lián)社
2026-03-14 02:40:14
2026-03-14 20:00:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

健康
游戲
本地
時(shí)尚
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

《GTA》歷代開發(fā)成本對(duì)比:25年來(lái)暴增上百倍!

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

審美提升|| 來(lái)和時(shí)髦尖子生學(xué)幾招

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版