網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

復(fù)旦突破：AI實(shí)現(xiàn)過(guò)期記憶場(chǎng)景下未知新事物識(shí)別能力

2026-04-23 21:19:18　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與人工智能學(xué)院大數(shù)據(jù)研究院主導(dǎo)的研究，以預(yù)印本形式于2026年4月15日發(fā)布在arXiv平臺(tái)，編號(hào)為arXiv:2604.14147。感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

你有沒(méi)有試過(guò)問(wèn)一個(gè)朋友"最新款的手機(jī)長(zhǎng)什么樣"，然后發(fā)現(xiàn)他完全沒(méi)聽(tīng)說(shuō)過(guò)那款手機(jī)，因?yàn)樗呀?jīng)好幾年沒(méi)怎么關(guān)注科技新聞了？現(xiàn)實(shí)生活中，這類情況司空見(jiàn)慣，我們會(huì)提醒他"去查一下最新資訊"。然而，當(dāng)同樣的問(wèn)題發(fā)生在AI身上，情況就變得復(fù)雜了。復(fù)旦大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)棘手的問(wèn)題，并且找到了一種頗具創(chuàng)意的解決方案，讓AI能夠認(rèn)出它從未"見(jiàn)過(guò)"的新事物，甚至還能把這些新事物從圖片里精準(zhǔn)地"圈"出來(lái)。

一、AI的記憶有保質(zhì)期——問(wèn)題是怎么來(lái)的

每一個(gè)AI模型在正式投入使用之前，都需要經(jīng)歷一段漫長(zhǎng)的學(xué)習(xí)過(guò)程。工程師們把海量的圖片、文字、新聞、百科知識(shí)全部"喂"給它，它學(xué)著認(rèn)人、認(rèn)物、理解語(yǔ)言。這個(gè)學(xué)習(xí)過(guò)程結(jié)束后，AI的知識(shí)庫(kù)就被"封存"了，就像一本印刷完成的百科全書(shū)——印刷之后發(fā)生的事，書(shū)里永遠(yuǎn)找不到。

這種封存的時(shí)間點(diǎn)，學(xué)術(shù)上叫做"知識(shí)截止日期"。比如論文中提到，LLaMA 3這款著名的AI大模型，知識(shí)截止于2023年底；GPT-4截止于2023年4月；DeepSeek-V3則截止于2024年6月。這意味著，如果你拿著一張2025年發(fā)布的蘋(píng)果iPhone 17 Pro Max的照片問(wèn)這些AI"圖里哪個(gè)是iPhone 17 Pro Max"，它們會(huì)一臉茫然——因?yàn)槟强钍謾C(jī)在它們的"記憶"里根本不存在。

研究團(tuán)隊(duì)把這類AI無(wú)從認(rèn)起的新事物分成了兩種情況。第一種叫做"全新實(shí)體"，指的是在AI訓(xùn)練結(jié)束之后才誕生的東西，比如2025年新推出的產(chǎn)品、新上映的電影角色、新發(fā)布的手機(jī)型號(hào)。AI完全沒(méi)有接觸過(guò)這些，就像讓一個(gè)在深山閉關(guān)修煉了五年的人認(rèn)出最新款的電子產(chǎn)品，根本不可能。第二種叫做"涌現(xiàn)實(shí)體"，這些事物AI其實(shí)"認(rèn)識(shí)"，但它們隨著時(shí)間推移發(fā)生了變化，需要最新信息才能準(zhǔn)確判斷。比如AI可以分別認(rèn)出拜登和特朗普，但"現(xiàn)任美國(guó)總統(tǒng)是誰(shuí)"這個(gè)問(wèn)題，隨著政治局勢(shì)變化，AI給出的答案可能已經(jīng)過(guò)時(shí)了。

正是基于這兩類問(wèn)題，復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全新的研究課題——新興實(shí)體分割任務(wù)，英文簡(jiǎn)稱NEST。這個(gè)任務(wù)的核心不只是讓AI"認(rèn)出"新事物，還要讓它在圖片里把對(duì)應(yīng)的目標(biāo)精確地"圈"出來(lái)，生成一個(gè)精細(xì)的分割遮罩。這比單純的問(wèn)答要難得多，因?yàn)锳I不僅要知道"那是什么"，還要知道"它在圖里的哪個(gè)位置、邊界在哪里"。

二、給AI配一個(gè)"實(shí)時(shí)查資料的助手"——ROSE框架誕生

面對(duì)AI記憶有保質(zhì)期這個(gè)難題，研究團(tuán)隊(duì)的思路很直接：既然AI自己的知識(shí)庫(kù)是封閉的，那就給它配一個(gè)能隨時(shí)上網(wǎng)查資料的助手。這個(gè)思路在自然語(yǔ)言處理領(lǐng)域有一個(gè)專門(mén)的名字，叫做"檢索增強(qiáng)生成"，英文縮寫(xiě)RAG。簡(jiǎn)單來(lái)說(shuō)，就是在AI回答問(wèn)題之前，先讓它去互聯(lián)網(wǎng)上搜一搜最新的相關(guān)信息，然后把搜到的內(nèi)容作為參考，再給出更準(zhǔn)確的答案。

研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上，開(kāi)發(fā)了一套專門(mén)為圖像分割設(shè)計(jì)的框架，命名為ROSE，也就是"面向檢索的分割增強(qiáng)"系統(tǒng)。ROSE不是一個(gè)全新的、從頭訓(xùn)練的AI，而是一套可以像插件一樣接入任何現(xiàn)有圖像分割模型的工具包。無(wú)論是已經(jīng)很成熟的LISA、SESAME還是READ這些分割模型，都可以把ROSE"插"進(jìn)去，立刻獲得處理新興實(shí)體的能力。這種設(shè)計(jì)思路被研究團(tuán)隊(duì)稱為"即插即用"。

ROSE整套框架由四個(gè)核心模塊組成，它們分工明確、相互配合，共同解決AI面對(duì)陌生新事物時(shí)束手無(wú)策的問(wèn)題。接下來(lái)，我們一個(gè)一個(gè)地拆開(kāi)來(lái)看。

三、四個(gè)關(guān)鍵組件——ROSE是怎么工作的

第一個(gè)模塊叫做"互聯(lián)網(wǎng)檢索增強(qiáng)生成模塊"，簡(jiǎn)稱IRAG。當(dāng)用戶提出一個(gè)問(wèn)題，比如"圖里誰(shuí)主辦了2025年的Mayhem Ball巡演"，IRAG會(huì)先把這個(gè)問(wèn)題交給一個(gè)語(yǔ)言模型，生成優(yōu)化過(guò)的搜索關(guān)鍵詞，然后用這些關(guān)鍵詞去互聯(lián)網(wǎng)上抓取相關(guān)網(wǎng)頁(yè)內(nèi)容。抓回來(lái)的內(nèi)容往往非常多、非常雜，IRAG會(huì)把它們切分成小塊，用一種叫做"向量化"的技術(shù)把每塊內(nèi)容轉(zhuǎn)換成數(shù)學(xué)形式存起來(lái)，形成一個(gè)臨時(shí)的小型知識(shí)庫(kù)。接下來(lái)，系統(tǒng)會(huì)用一種"分而治之"的處理方法，從這些碎片信息里提煉出一個(gè)候選答案摘要，列出所有可能的答案。

然而，光有文字答案還不夠。一個(gè)問(wèn)題的答案有時(shí)不止一個(gè)，比如同一首歌的表演者可能有好幾位。這時(shí)候，IRAG會(huì)調(diào)用谷歌云視覺(jué)服務(wù)來(lái)分析用戶上傳的那張圖片，識(shí)別圖中出現(xiàn)的實(shí)體，然后把這些實(shí)體和候選答案對(duì)比，找出最匹配的那一個(gè)作為最終答案。如果圖片里找不到匹配項(xiàng)，系統(tǒng)就會(huì)選取置信度最高的候選答案。確定了答案之后，系統(tǒng)會(huì)再拿著這個(gè)答案去互聯(lián)網(wǎng)上搜索相關(guān)圖片，為后續(xù)步驟做準(zhǔn)備。

這里有一個(gè)細(xì)節(jié)值得關(guān)注：研究團(tuán)隊(duì)特意沒(méi)有用AI大模型來(lái)識(shí)別圖中的實(shí)體，而是用了谷歌云視覺(jué)這樣的專用工具。原因在于，AI大模型本身就不認(rèn)識(shí)那些"新實(shí)體"，用它來(lái)識(shí)別新事物是繞圈子，專用視覺(jué)識(shí)別服務(wù)反而更可靠。

第二個(gè)模塊叫做"文本提示增強(qiáng)器"，簡(jiǎn)稱TPE。拿到IRAG找到的答案之后，光把答案直接告訴原來(lái)的分割模型是不夠的。TPE會(huì)做更多的工作：它把原來(lái)用戶的問(wèn)題、IRAG找到的答案，以及從網(wǎng)上另外檢索到的關(guān)于這個(gè)目標(biāo)的背景知識(shí)，三者整合起來(lái)，生成一段經(jīng)過(guò)精心設(shè)計(jì)的、更豐富的文字描述，再喂給分割模型。比如原來(lái)的問(wèn)題只是"誰(shuí)主辦了巡演"，經(jīng)過(guò)TPE處理后，分割模型收到的信息變成了"Lady Gaga，女性，黑色長(zhǎng)發(fā)，以其夸張前衛(wèi)的舞臺(tái)風(fēng)格著稱，2025年發(fā)布了新專輯MAYHEM并開(kāi)啟巡演……"。這種信息量更豐富、指向性更精準(zhǔn)的描述，讓分割模型能更準(zhǔn)確地在圖中鎖定目標(biāo)。

第三個(gè)模塊叫做"視覺(jué)提示增強(qiáng)器"，簡(jiǎn)稱VPE，專門(mén)用來(lái)對(duì)付那些完全陌生的全新實(shí)體。當(dāng)AI對(duì)某個(gè)新產(chǎn)品或新人物毫無(wú)概念時(shí)，即使文字描述再詳細(xì)，AI仍然可能找錯(cuò)目標(biāo)，因?yàn)樗X海里根本沒(méi)有那個(gè)東西的"長(zhǎng)相"。VPE的辦法是從IRAG檢索到的互聯(lián)網(wǎng)圖片里提取視覺(jué)特征。這些圖片經(jīng)過(guò)聚類處理，過(guò)濾掉不相關(guān)的噪聲，然后用一個(gè)叫做CLIP的視覺(jué)模型提取出目標(biāo)實(shí)體的"視覺(jué)指紋"，也叫做原型特征。

有了這個(gè)"視覺(jué)指紋"，VPE會(huì)先檢查分割模型給出的結(jié)果是否正確——如果模型圈出來(lái)的區(qū)域和"視覺(jué)指紋"差異很大，說(shuō)明分割出錯(cuò)了。這時(shí)VPE會(huì)接手：用目標(biāo)檢測(cè)器把用戶圖片里所有可能的實(shí)體都標(biāo)記出來(lái)，逐一提取它們的視覺(jué)特征，然后和"視覺(jué)指紋"比對(duì)，找出最相似的那一個(gè)，再調(diào)用SAM（一種專門(mén)生成精細(xì)分割遮罩的工具）生成最終的分割結(jié)果。通俗地說(shuō)，VPE的工作就像是拿著一張目標(biāo)的照片去人群中認(rèn)臉，先確認(rèn)原來(lái)的AI有沒(méi)有認(rèn)對(duì)，沒(méi)認(rèn)對(duì)的話自己親自上陣找。

第四個(gè)模塊叫做"WebSense"，是整套系統(tǒng)的守門(mén)人。不是每一個(gè)問(wèn)題都需要上網(wǎng)查資料的——如果有人問(wèn)"圖里哪個(gè)是蘋(píng)果"，顯然不需要聯(lián)網(wǎng)搜索，AI自己完全能判斷。如果每個(gè)問(wèn)題都觸發(fā)聯(lián)網(wǎng)檢索，系統(tǒng)會(huì)變得極其低效，響應(yīng)時(shí)間也會(huì)大幅延長(zhǎng)。WebSense的職責(zé)就是在用戶提問(wèn)之后，先判斷這個(gè)問(wèn)題是否真的需要檢索最新信息。它采用兩級(jí)判斷機(jī)制：第一級(jí)是簡(jiǎn)單快速的規(guī)則過(guò)濾，比如問(wèn)題里有沒(méi)有出現(xiàn)年份、"最新"、"現(xiàn)任"這類時(shí)間敏感詞；如果規(guī)則判斷不了，第二級(jí)則調(diào)用一個(gè)語(yǔ)言模型進(jìn)行更深入的語(yǔ)義分析，判斷是否需要聯(lián)網(wǎng)。只有真正需要最新信息的查詢，才會(huì)觸發(fā)后續(xù)的檢索流程，大幅提升系統(tǒng)效率。

四、自動(dòng)化數(shù)據(jù)工廠——NEST基準(zhǔn)數(shù)據(jù)集是怎么建起來(lái)的

研究團(tuán)隊(duì)在提出ROSE框架的同時(shí)，還面臨一個(gè)棘手的評(píng)估問(wèn)題：沒(méi)有專門(mén)針對(duì)新興實(shí)體分割的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集，就無(wú)法衡量ROSE到底有多好。建立這樣一個(gè)數(shù)據(jù)集本身就是個(gè)難題，因?yàn)?新興實(shí)體"天然地會(huì)隨時(shí)間變化——今天的新實(shí)體，一年后可能已經(jīng)被AI模型學(xué)進(jìn)去了，數(shù)據(jù)集就失效了。而且手動(dòng)收集、標(biāo)注這些數(shù)據(jù)費(fèi)時(shí)費(fèi)力，根本無(wú)法持續(xù)更新。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)設(shè)計(jì)了一套完全自動(dòng)化的數(shù)據(jù)生產(chǎn)流水線。整個(gè)流水線從谷歌趨勢(shì)——一個(gè)實(shí)時(shí)追蹤全球熱搜關(guān)鍵詞的公共平臺(tái)——出發(fā)，抓取當(dāng)下最熱門(mén)的搜索詞。這些熱搜詞往往集中在體育、娛樂(lè)和政治領(lǐng)域，為了讓數(shù)據(jù)集涵蓋更廣的范圍，團(tuán)隊(duì)還手動(dòng)補(bǔ)充了科技、經(jīng)濟(jì)等領(lǐng)域的關(guān)鍵詞。

原始的熱搜詞里有很多抽象概念，比如"谷歌股價(jià)"，這類詞根本沒(méi)有可以在圖里被分割的具體物體，需要過(guò)濾掉。團(tuán)隊(duì)用語(yǔ)言模型對(duì)這些詞進(jìn)行篩選，最終保留的都是具體可辨的人物或產(chǎn)品。

有了過(guò)濾后的關(guān)鍵詞列表，流水線會(huì)去搜索引擎上抓取相關(guān)圖片。但這里有個(gè)問(wèn)題：直接搜索"Lady Gaga"往往只能得到她一個(gè)人的獨(dú)照，沒(méi)有干擾項(xiàng)，分割任務(wù)太簡(jiǎn)單了，不能真實(shí)反映現(xiàn)實(shí)場(chǎng)景的復(fù)雜性。為此，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"查詢?cè)鰪?qiáng)"策略：把原始搜索詞擴(kuò)展成更復(fù)雜的組合，比如"Lady Gaga和Taylor Swift以及Billie Eilish同框"，這樣搜到的圖片往往包含多個(gè)人物，大幅提升了任務(wù)難度和現(xiàn)實(shí)感。

圖片搜集完成后，流水線還需要為每張圖片生成問(wèn)答對(duì)和精確的分割遮罩。問(wèn)答對(duì)的生成依賴與關(guān)鍵詞配套的新聞報(bào)道：系統(tǒng)會(huì)從搜索引擎里抓取相關(guān)新聞，過(guò)濾掉重復(fù)報(bào)道（以三天為窗口，同一事件只保留一篇），然后讓語(yǔ)言模型基于新聞內(nèi)容生成自然語(yǔ)言問(wèn)題，同時(shí)確保問(wèn)題不直接提及答案，要求真正的理解才能答對(duì)。

分割遮罩的生成則是整個(gè)流水線最精巧的部分。系統(tǒng)首先從那些只包含單一目標(biāo)的圖片里提取目標(biāo)的視覺(jué)特征，作為"長(zhǎng)相模板"；然后對(duì)包含多個(gè)人物的復(fù)雜圖片運(yùn)行目標(biāo)檢測(cè)器，識(shí)別出所有可能的實(shí)體；最后把每個(gè)實(shí)體的視覺(jué)特征和"長(zhǎng)相模板"進(jìn)行相似度比對(duì)，選出最像的那個(gè)，再用SAM工具生成精細(xì)的分割遮罩。整個(gè)過(guò)程無(wú)需人工干預(yù)，可以持續(xù)自動(dòng)運(yùn)行。

最終，研究團(tuán)隊(duì)利用這套流水線，采集了2025年3月23日至4月11日期間的網(wǎng)絡(luò)數(shù)據(jù)，構(gòu)建了包含1548個(gè)樣本的NEST數(shù)據(jù)集。這些樣本涵蓋經(jīng)濟(jì)、科技、政治、娛樂(lè)、體育和社會(huì)等多個(gè)領(lǐng)域，平均每張圖片包含2.7個(gè)有效實(shí)體，平均每張圖片對(duì)應(yīng)1.6個(gè)不同問(wèn)法的問(wèn)題，保證了足夠的任務(wù)難度和查詢多樣性。

五、實(shí)驗(yàn)結(jié)果——ROSE到底強(qiáng)在哪里

研究團(tuán)隊(duì)在NEST數(shù)據(jù)集上對(duì)多個(gè)現(xiàn)有方法進(jìn)行了橫向比較，結(jié)果頗為直觀地說(shuō)明了問(wèn)題所在，以及ROSE的改進(jìn)幅度。

現(xiàn)有的圖像分割模型，包括CRIS、GRES、Grounded-SAM、SEEM，以及基于大語(yǔ)言模型的LISA-7B、SESAME-7B和READ-7B，在面對(duì)NEST任務(wù)時(shí)表現(xiàn)普遍有限。其中LISA-7B作為最具代表性的基線方法，整體gIoU（一種衡量分割精度的指標(biāo)，可以理解為"分割框和真實(shí)邊界的重合程度"）為48.7，但這個(gè)數(shù)字對(duì)全新實(shí)體只有38.4，因?yàn)锳I根本不認(rèn)識(shí)那些從未見(jiàn)過(guò)的東西。相比之下，SESAME-7B在這個(gè)任務(wù)上表現(xiàn)更差，gIoU只有13.1，READ-7B也只有22.5。

為了設(shè)立更強(qiáng)的對(duì)比基線，研究團(tuán)隊(duì)還構(gòu)建了"兩階段商業(yè)檢索基線"：先用具備聯(lián)網(wǎng)能力的GPT-4o mini Search或Gemini 2.0 Flash Search來(lái)回答"圖里的目標(biāo)是誰(shuí)/是什么"，然后把答案交給LISA等模型進(jìn)行分割。這是業(yè)界能想到的比較直接的解決方案，但結(jié)果顯示，即便是最強(qiáng)的組合——Gemini 2.0 Flash Search搭配LISA-7B——整體gIoU也只有53.8。

而ROSE搭配LISA-7B之后，整體gIoU直接跳到73.0，比Gemini 2.0 Flash Search的兩階段方法高出整整19.2個(gè)百分點(diǎn)。對(duì)全新實(shí)體的gIoU從38.4提升到67.0，對(duì)涌現(xiàn)實(shí)體的gIoU從56.5提升到77.5，兩類任務(wù)都有大幅改善。ROSE搭配READ-7B的效果略高于搭配LISA-7B，整體gIoU達(dá)到72.2；搭配SESAME-7B也達(dá)到了70.6。

研究團(tuán)隊(duì)還進(jìn)行了混合數(shù)據(jù)集實(shí)驗(yàn)，把NEST和另外三個(gè)傳統(tǒng)分割數(shù)據(jù)集（ReasonSeg、RefCOCO、RefCOCO+、RefCOCOg）合并在一起測(cè)試，驗(yàn)證ROSE在處理新興實(shí)體的同時(shí)，會(huì)不會(huì)把原來(lái)的傳統(tǒng)任務(wù)能力破壞掉。結(jié)果顯示，ROSE在NEST部分的性能大幅提升，在傳統(tǒng)分割任務(wù)上的表現(xiàn)也與原始模型基本持平，說(shuō)明ROSE不是"拆東墻補(bǔ)西墻"，而是真正擴(kuò)展了模型的能力邊界。

為了弄清楚ROSE的四個(gè)模塊各自貢獻(xiàn)了多少，研究團(tuán)隊(duì)還做了拆解實(shí)驗(yàn)。在LISA-7B基礎(chǔ)上只加IRAG模塊，整體gIoU從48.7提升到55.7，提升7個(gè)百分點(diǎn)，說(shuō)明聯(lián)網(wǎng)檢索本身確實(shí)有效，但效果有限。在IRAG基礎(chǔ)上再加TPE模塊，整體gIoU進(jìn)一步提升到59.6，主要改善來(lái)自涌現(xiàn)實(shí)體（gIoU+6.2），因?yàn)樨S富的文字背景知識(shí)幫助AI更好地理解目標(biāo)。在IRAG基礎(chǔ)上加VPE模塊（不加TPE），整體gIoU大幅跳升到68.7，對(duì)全新實(shí)體的提升最為顯著（cIoU+24.5），因?yàn)?視覺(jué)指紋"對(duì)比機(jī)制專門(mén)解決了AI看不認(rèn)新東西的問(wèn)題。而四個(gè)模塊全部啟用之后，整體gIoU達(dá)到74.7，說(shuō)明四個(gè)模塊之間存在互補(bǔ)效應(yīng)，缺一不可。

六、真實(shí)案例——從實(shí)驗(yàn)數(shù)字到具體場(chǎng)景

研究論文中呈現(xiàn)了若干直觀的對(duì)比案例，讓這些數(shù)字變得更有說(shuō)服力。

在全新實(shí)體的例子中，有一張圖展示了任天堂Switch 2游戲機(jī)。用戶的問(wèn)題是"請(qǐng)分割圖中的Nintendo Switch 2"。LISA對(duì)這款2025年發(fā)布的游戲機(jī)毫無(wú)印象，給出了錯(cuò)誤的分割結(jié)果；READ同樣表現(xiàn)不佳。ROSE則憑借從互聯(lián)網(wǎng)上找到的Switch 2參考圖片，成功識(shí)別并精準(zhǔn)圈出了目標(biāo)。另一個(gè)例子是小米SU7汽車(chē)，LISA對(duì)這款車(chē)型一無(wú)所知，輸出為空，而ROSE正確地在圖中找到并分割了這輛車(chē)。

在涌現(xiàn)實(shí)體的例子中，有一個(gè)關(guān)于《魷魚(yú)游戲2》（2024年上映）的問(wèn)題，詢問(wèn)誰(shuí)選擇重返游戲。LISA對(duì)劇中人物身份的理解已經(jīng)過(guò)時(shí)，圈出了錯(cuò)誤的人物；ROSE通過(guò)檢索最新的相關(guān)信息，正確識(shí)別并分割了目標(biāo)角色。另一個(gè)案例更貼近體育新聞：?jiǎn)栴}是"2025年5月9日，哪位MLB球員為道奇隊(duì)打出關(guān)鍵三分全壘打"，LISA因?yàn)橹R(shí)截止而圈錯(cuò)了人，ROSE檢索了當(dāng)天的體育新聞后，準(zhǔn)確找到了那位球員并完成分割。

這些案例共同說(shuō)明了一個(gè)規(guī)律：對(duì)于全新實(shí)體，視覺(jué)參考圖片（VPE模塊）是關(guān)鍵；對(duì)于涌現(xiàn)實(shí)體，文字背景知識(shí)（TPE模塊）和準(zhǔn)確的實(shí)體識(shí)別（IRAG模塊）缺一不可。ROSE把這兩類能力整合在一套框架里，才能同時(shí)應(yīng)對(duì)兩種不同類型的挑戰(zhàn)。

說(shuō)到底，這項(xiàng)研究揭示了一個(gè)我們平時(shí)可能沒(méi)有意識(shí)到的問(wèn)題：我們使用的AI工具，其實(shí)活在一個(gè)"時(shí)間凍結(jié)"的世界里。它們認(rèn)識(shí)2023年之前的所有明星、產(chǎn)品和事件，卻對(duì)此后發(fā)生的一切一無(wú)所知。這就像是一個(gè)非常博學(xué)但已經(jīng)隱居多年的老學(xué)者，問(wèn)他歷史上的任何知識(shí)都能對(duì)答如流，但一旦問(wèn)起最近的新聞，他只能搖搖頭說(shuō)"不知道"。

復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出的ROSE框架，本質(zhì)上是給這位老學(xué)者配了一臺(tái)可以隨時(shí)上網(wǎng)的電腦，讓他在回答問(wèn)題之前先快速查一下最新資訊。這個(gè)思路看似簡(jiǎn)單，但工程實(shí)現(xiàn)上卻涉及信息檢索、視覺(jué)識(shí)別、文本理解和精確分割等多個(gè)環(huán)節(jié)的協(xié)同配合，每一個(gè)環(huán)節(jié)出了問(wèn)題都會(huì)影響最終結(jié)果。這也是為什么單純地把商業(yè)搜索引擎（如Gemini 2.0 Flash Search）和分割模型簡(jiǎn)單拼接，效果遠(yuǎn)不如ROSE——前者只解決了"知道答案是什么"的問(wèn)題，后者還額外解決了"怎么讓AI看懂并圈出來(lái)"的問(wèn)題。

這項(xiàng)研究對(duì)普通用戶的實(shí)際意義在于，未來(lái)基于大模型的圖像處理工具或許能夠持續(xù)更新對(duì)現(xiàn)實(shí)世界的認(rèn)知，而不必每隔一兩年就重新訓(xùn)練一次整個(gè)模型。對(duì)于醫(yī)療影像分析、安防監(jiān)控、新聞圖片理解等需要處理"最新信息"的應(yīng)用場(chǎng)景，這種能力尤為關(guān)鍵。當(dāng)然，任何依賴網(wǎng)絡(luò)檢索的系統(tǒng)都面臨信息質(zhì)量和網(wǎng)絡(luò)延遲的挑戰(zhàn)，如何在速度和準(zhǔn)確性之間找到更好的平衡，仍然是未來(lái)值得繼續(xù)探索的方向。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)arXiv編號(hào)2604.14147查閱完整論文，論文中還包含更多實(shí)驗(yàn)案例和補(bǔ)充材料。

Q&A

Q1：ROSE框架和普通的帶搜索功能的AI有什么區(qū)別？

A：普通的帶搜索功能AI（如Gemini Flash Search或GPT-4o mini Search）只能告訴你"答案是什么"，但無(wú)法進(jìn)一步把目標(biāo)在圖片里圈出來(lái)。ROSE在獲取答案的基礎(chǔ)上，還額外從網(wǎng)上下載參考圖片，提取目標(biāo)的視覺(jué)特征，幫助分割模型真正"認(rèn)出"并精準(zhǔn)勾勒出目標(biāo)的邊界。兩者的差距在實(shí)驗(yàn)中體現(xiàn)為：商業(yè)搜索方案最高gIoU約53.8，ROSE則達(dá)到73.0，差距約19個(gè)百分點(diǎn)。

Q2：NEST數(shù)據(jù)集是如何保證持續(xù)更新不過(guò)時(shí)的？

A：NEST數(shù)據(jù)集采用全自動(dòng)化的流水線構(gòu)建，核心數(shù)據(jù)源是谷歌趨勢(shì)實(shí)時(shí)熱搜詞。系統(tǒng)會(huì)自動(dòng)抓取最新新聞、搜索相關(guān)圖片、生成問(wèn)答對(duì)，并自動(dòng)標(biāo)注分割遮罩，全程無(wú)需人工干預(yù)。這意味著只要系統(tǒng)持續(xù)運(yùn)行，數(shù)據(jù)集就能不斷納入最新出現(xiàn)的新事物，避免隨時(shí)間失效的問(wèn)題。

Q3：WebSense模塊是如何判斷一個(gè)問(wèn)題要不要聯(lián)網(wǎng)查資料的？

A：WebSense采用兩級(jí)判斷機(jī)制。第一級(jí)是快速的規(guī)則過(guò)濾：如果問(wèn)題里包含年份、"最新"、"現(xiàn)任"等時(shí)間敏感詞，系統(tǒng)就直接判定需要檢索。如果問(wèn)題比較模糊，第二級(jí)會(huì)調(diào)用一個(gè)語(yǔ)言模型進(jìn)行更深入的語(yǔ)義分析，判斷問(wèn)題是否涉及知識(shí)截止日期之后的內(nèi)容。這樣設(shè)計(jì)的目的是避免每個(gè)問(wèn)題都觸發(fā)聯(lián)網(wǎng)檢索，節(jié)省計(jì)算和網(wǎng)絡(luò)資源，讓系統(tǒng)運(yùn)行更高效。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.