国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

打破文本記憶局限!ViLoMem要記視覺(jué)關(guān)注點(diǎn),顯著提升多模態(tài)推理能力!

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

你是否發(fā)現(xiàn),現(xiàn)在的多模態(tài)大模型(MLLMs)雖然在單次回答上表現(xiàn)驚艷,但往往像個(gè)“健忘癥患者”?它們處理每一個(gè)問(wèn)題時(shí)都是從零開(kāi)始(de novo),反復(fù)掉進(jìn)同一個(gè)坑里,昨天犯過(guò)的視覺(jué)識(shí)別錯(cuò)誤,今天換個(gè)姿勢(shì)又犯一遍。

已有的記憶增強(qiáng)Agent大多只是簡(jiǎn)單地把過(guò)去的“軌跡”存起來(lái)。但這種做法有兩個(gè)硬傷:一是“撿了芝麻丟了西瓜”,隨著記憶被反復(fù)壓縮,關(guān)鍵的領(lǐng)域知識(shí)逐漸流失;二是“偏科”,往往只記住了邏輯層面的總結(jié),卻丟掉了視覺(jué)感知的細(xì)節(jié)。這完全不符合人類(lèi)的認(rèn)知習(xí)慣——我們的語(yǔ)義記憶是“多模態(tài)且融合”的,既有對(duì)“長(zhǎng)什么樣”的視覺(jué)印象,也有對(duì)“怎么推理”的邏輯抽象。

針對(duì)這個(gè)痛點(diǎn),南京理工大學(xué)聯(lián)合百度等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的雙流記憶框架——ViLoMem(Visual-Logical Memory)。它像人類(lèi)大腦一樣,分門(mén)別類(lèi)地存儲(chǔ)“視覺(jué)干擾模式”和“邏輯推理錯(cuò)誤”,讓模型不僅知道“怎么想”,更知道“往哪看”。在六個(gè)多模態(tài)基準(zhǔn)測(cè)試中,ViLoMem顯著減少了重復(fù)的視覺(jué)和邏輯錯(cuò)誤,特別是在數(shù)學(xué)推理任務(wù)上表現(xiàn)搶眼。



  • 論文地址 :https://arxiv.org/abs/2511.21678

  • 機(jī)構(gòu) :南京理工大學(xué)、百度、阿德萊德大學(xué)AIML、新加坡科技設(shè)計(jì)大學(xué)

  • 作者 :Weihao Bo, Shan Zhang, Yanpeng Sun等

  • 項(xiàng)目主頁(yè) :https://weihao-bo.github.io/ViLoMeo-page/

  • 代碼倉(cāng)庫(kù) :https://github.com/weihao-bo/ViLoMem

為什么我們需要“視覺(jué)-邏輯”雙流記憶?

現(xiàn)有的多模態(tài)模型在解決復(fù)雜問(wèn)題(特別是數(shù)學(xué)和圖表題)時(shí),很多時(shí)候不是“腦子”不夠用,而是“眼睛”沒(méi)看準(zhǔn)。比如,把圖中的三角形看成了直角三角形,或者忽略了關(guān)鍵的陰影部分。

如下圖1所示,當(dāng)模型面對(duì)一個(gè)多模態(tài)問(wèn)題時(shí),早期的嘗試可能既包含邏輯錯(cuò)誤,也包含視覺(jué)錯(cuò)誤。如果只通過(guò)文本反饋來(lái)修正,模型往往難以糾正底層的感知偏差。


ViLoMem 的核心洞見(jiàn)在于:視覺(jué)注意力的錯(cuò)誤直接導(dǎo)致了下游的邏輯幻覺(jué),形成連鎖反應(yīng)。 因此,必須將“視覺(jué)干擾”和“邏輯幻覺(jué)”解耦,分別建立記憶。

  • 視覺(jué)流(Visual Stream) :負(fù)責(zé)記住“哪里容易看錯(cuò)”。比如,“當(dāng)看到這種反光的物體表面時(shí),不要誤以為是某種材質(zhì)”。

  • 邏輯流(Logical Stream) :負(fù)責(zé)記住“推理規(guī)則”。比如,“應(yīng)用垂直平分線定理前,先確認(rèn)點(diǎn)是否在直線上”。

這種設(shè)計(jì)靈感來(lái)源于人類(lèi)的認(rèn)知神經(jīng)科學(xué):人類(lèi)的大腦有專(zhuān)門(mén)的視覺(jué)聯(lián)想皮層(處理視覺(jué)語(yǔ)義)和頂下小葉等區(qū)域(處理抽象規(guī)則),并通過(guò)前顳葉(ATL)進(jìn)行整合。ViLoMem 正是模擬了這種機(jī)制。

ViLoMem 框架詳解:生長(zhǎng)與精煉

ViLoMem 是一個(gè)即插即用的雙流記憶框架,通過(guò)一個(gè)閉環(huán)的“記憶周期”(Memory Cycle)來(lái)實(shí)現(xiàn)持續(xù)學(xué)習(xí)。整個(gè)流程包括記憶的檢索、利用、生成和更新。


記憶生成:精準(zhǔn)歸因,結(jié)構(gòu)化存儲(chǔ)

當(dāng)模型在某個(gè)問(wèn)題上失敗時(shí),ViLoMem 不會(huì)籠統(tǒng)地記錄“這題做錯(cuò)了”,而是啟動(dòng)并行的錯(cuò)誤歸因生成機(jī)制

  1. 視覺(jué)記憶生成 :利用 MLLM 分析圖像和錯(cuò)誤軌跡,判斷是否發(fā)生了視覺(jué)誤解(如對(duì)象混淆、符號(hào)遺漏)。如果是,則生成一條 視覺(jué)指南(Visual Guideline) ,告訴模型“下次遇到類(lèi)似的圖,要特別注意查看XXX區(qū)域”。

  2. 邏輯記憶生成 :利用 LLM 純粹從文本層面分析推理鏈,識(shí)別計(jì)算錯(cuò)誤或公式誤用,生成 邏輯指南(Logic Guideline) 。

為了避免記憶庫(kù)無(wú)限膨脹導(dǎo)致檢索困難,ViLoMem 遵循“生長(zhǎng)與精煉(Grow-and-Refine)”原則。新生成的指南會(huì)與已有記憶進(jìn)行相似度比對(duì):如果發(fā)現(xiàn)相似的錯(cuò)誤模式,就進(jìn)行合并(Merge),提煉出更通用的規(guī)則;如果是新的錯(cuò)誤類(lèi)型,則創(chuàng)建(Create)新的記憶條目。這種機(jī)制有效防止了災(zāi)難性遺忘和知識(shí)碎片化。

記憶檢索:雙重策略,有的放矢

在解決新問(wèn)題時(shí),ViLoMem 采用差異化的檢索策略來(lái)獲取最相關(guān)的建議:

  • 視覺(jué)記憶檢索(兩階段法)

    • 第1步 :先用圖像嵌入(Image Embedding)快速召回視覺(jué)上相似的歷史案例。

    • 第2步 :再用文本嵌入(Text Embedding)結(jié)合當(dāng)前問(wèn)題的具體語(yǔ)義進(jìn)行重排序。

    • 高亮 :為了更直觀地指導(dǎo)模型“往哪看”,ViLoMem還會(huì)根據(jù)檢索到的錯(cuò)誤模式,生成 問(wèn)題感知注意力圖(Question-Aware Attention Map) ,高亮顯示圖像中容易出錯(cuò)的區(qū)域作為輔助輸入。

  • 邏輯記憶檢索(精準(zhǔn)定位)

    • 先對(duì)當(dāng)前問(wèn)題進(jìn)行分析,提取學(xué)科領(lǐng)域和關(guān)鍵概念(如“幾何”、“勾股定理”)。

    • 利用這些結(jié)構(gòu)化信息構(gòu)造查詢(xún)向量,在邏輯記憶庫(kù)中精準(zhǔn)匹配相關(guān)的推理規(guī)則。

如下圖3所示,無(wú)論是材質(zhì)識(shí)別的視覺(jué)陷阱,還是圖表讀數(shù)的細(xì)節(jié)錯(cuò)誤,ViLoMem 都能精準(zhǔn)地從歷史經(jīng)驗(yàn)中提取出對(duì)應(yīng)的“避坑指南”。


實(shí)驗(yàn)結(jié)果:全方位提升

研究團(tuán)隊(duì)在 MMMU、MathVista、MathVision 等六個(gè)主流多模態(tài)基準(zhǔn)上對(duì) ViLoMem 進(jìn)行了廣泛評(píng)估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規(guī)模的模型。

主實(shí)驗(yàn)結(jié)果

如表1所示,ViLoMem 在所有模型和基準(zhǔn)上均取得了一致的性能提升。



  • 數(shù)學(xué)推理提升顯著 :在 MathVision 上,GPT-4.1 結(jié)合 ViLoMem 后準(zhǔn)確率提升了 6.48% 。這印證了論文的觀點(diǎn):數(shù)學(xué)任務(wù)對(duì)視覺(jué)感知的精確度要求極高,消除視覺(jué)誤差能帶來(lái)巨大的收益。

  • 小模型也有大智慧 :8B 參數(shù)量的 Qwen3-VL 在 MMMU 上提升了 4.38% ,說(shuō)明結(jié)構(gòu)化的外部記憶可以有效補(bǔ)充小模型參數(shù)知識(shí)的不足。

消融實(shí)驗(yàn)與分析

為了驗(yàn)證雙流記憶的必要性,研究者進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)(下表2)。


結(jié)果顯示,單獨(dú)去掉邏輯記憶或視覺(jué)記憶都會(huì)導(dǎo)致性能下降。更有趣的是,視覺(jué)錯(cuò)誤主導(dǎo)了記憶生成(如圖4 (a)所示,約59%-93%的生成事件源于視覺(jué)錯(cuò)誤),這再次強(qiáng)調(diào)了在多模態(tài)任務(wù)中關(guān)注視覺(jué)感知的重要性。


跨模型與跨領(lǐng)域遷移

ViLoMem 還展現(xiàn)出了優(yōu)秀的通用性:

  • 跨模型遷移 :把強(qiáng)模型(如 Qwen3-VL-235B)生成的記憶給弱模型(如 8B)使用,弱模型的性能甚至超過(guò)了自我生成的記憶(下表3)。這意味著我們可以用大模型“教”小模型避坑。

  • 跨領(lǐng)域遷移 :雖然任務(wù)對(duì)齊的記憶效果最好,但在 MathVision 和 RealWorldQA 這樣都依賴(lài)空間推理的任務(wù)間,記憶也表現(xiàn)出了正向的遷移效果(下表4)。

一點(diǎn)思考

ViLoMem 的成功給我們帶來(lái)了一個(gè)重要的啟示:在追求更大的模型參數(shù)之前,也許我們應(yīng)該先優(yōu)化模型“從錯(cuò)誤中學(xué)習(xí)”的能力。人類(lèi)之所以聰明,很大程度上是因?yàn)槲覀兡苡涀 吧洗挝以谶@里跌了一跤”。

這種將感知(視覺(jué))與認(rèn)知(邏輯)解耦并協(xié)同的記憶機(jī)制,或許能成為大模型能力不斷進(jìn)階的“錯(cuò)題集”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

夜深?lèi)?ài)雜談
2025-12-21 17:57:28
又一百年巨頭塌了!從技術(shù)神話(huà)到貼牌代工,網(wǎng)友:買(mǎi)了個(gè)牌子殼!

又一百年巨頭塌了!從技術(shù)神話(huà)到貼牌代工,網(wǎng)友:買(mǎi)了個(gè)牌子殼!

青眼財(cái)經(jīng)
2025-11-18 23:16:47
定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話(huà)

定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話(huà)

白日追夢(mèng)人
2025-12-24 04:30:11
宗慶后被曝有7子,看了宗馥莉?yàn)樗⒌哪贡胖浪缇筒季至?>
    </a>
        <h3>
      <a href=麥大人
2025-07-18 12:05:16
紫牛頭條|下班遭車(chē)禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

紫牛頭條|下班遭車(chē)禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

揚(yáng)子晚報(bào)
2025-12-23 09:06:09
南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣(mài)幾個(gè)兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣(mài)幾個(gè)兵馬俑行不行?

攬星河的筆記
2025-12-22 18:12:17
突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車(chē)內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車(chē)內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

每日經(jīng)濟(jì)新聞
2025-12-23 15:06:07
受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣(mài)鐵也要建新航母

受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣(mài)鐵也要建新航母

云舟史策
2025-12-24 07:22:16
CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

弄月公子
2025-12-23 23:10:43
錢(qián)多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買(mǎi)提,走上了另外一條道路

錢(qián)多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買(mǎi)提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
南京博物院盜賣(mài)文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

南京博物院盜賣(mài)文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

讀懂世界歷史
2025-12-23 20:31:37
卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

以茶帶書(shū)
2025-12-09 23:33:58
向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶(hù)紙,捅穿了

向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶(hù)紙,捅穿了

科普100克克
2025-12-24 00:10:32
哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

尚曦讀史
2025-12-06 08:27:08
廣東5連勝,杜鋒:在廣東打球是幸福的!

廣東5連勝,杜鋒:在廣東打球是幸福的!

帶你領(lǐng)略快樂(lè)真諦
2025-12-24 02:50:13
黃金狂飆,一種交易正在悄悄進(jìn)行

黃金狂飆,一種交易正在悄悄進(jìn)行

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-23 09:08:05
美國(guó)外交開(kāi)始大洗牌

美國(guó)外交開(kāi)始大洗牌

陸棄
2025-12-23 08:25:03
肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

看世界的人
2025-12-04 10:51:31
2025-12-24 08:47:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64597關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開(kāi)拓者遭活塞雙殺

娛樂(lè)要聞

朱孝天回應(yīng)阿信感謝,自曝沒(méi)再收到邀約

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車(chē)要聞

四款新車(chē)集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

數(shù)碼
教育
房產(chǎn)
健康
公開(kāi)課

數(shù)碼要聞

華為鴻蒙智選小豚當(dāng)家智能攝像頭鯨瞳Max現(xiàn)身,功能強(qiáng)大價(jià)格揭曉

教育要聞

揭秘!淮南師范學(xué)院數(shù)學(xué)專(zhuān)業(yè)代碼一鍵鎖定

房產(chǎn)要聞

獨(dú)家猛料!16.1億,浙江老板搶下雅居樂(lè)清水灣261畝重磅宅地!

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版