国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦突破:AI實(shí)現(xiàn)過(guò)期記憶場(chǎng)景下未知新事物識(shí)別能力

0
分享至


這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與人工智能學(xué)院大數(shù)據(jù)研究院主導(dǎo)的研究,以預(yù)印本形式于2026年4月15日發(fā)布在arXiv平臺(tái),編號(hào)為arXiv:2604.14147。感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

你有沒(méi)有試過(guò)問(wèn)一個(gè)朋友"最新款的手機(jī)長(zhǎng)什么樣",然后發(fā)現(xiàn)他完全沒(méi)聽(tīng)說(shuō)過(guò)那款手機(jī),因?yàn)樗呀?jīng)好幾年沒(méi)怎么關(guān)注科技新聞了?現(xiàn)實(shí)生活中,這類情況司空見(jiàn)慣,我們會(huì)提醒他"去查一下最新資訊"。然而,當(dāng)同樣的問(wèn)題發(fā)生在AI身上,情況就變得復(fù)雜了。復(fù)旦大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)棘手的問(wèn)題,并且找到了一種頗具創(chuàng)意的解決方案,讓AI能夠認(rèn)出它從未"見(jiàn)過(guò)"的新事物,甚至還能把這些新事物從圖片里精準(zhǔn)地"圈"出來(lái)。

一、AI的記憶有保質(zhì)期——問(wèn)題是怎么來(lái)的

每一個(gè)AI模型在正式投入使用之前,都需要經(jīng)歷一段漫長(zhǎng)的學(xué)習(xí)過(guò)程。工程師們把海量的圖片、文字、新聞、百科知識(shí)全部"喂"給它,它學(xué)著認(rèn)人、認(rèn)物、理解語(yǔ)言。這個(gè)學(xué)習(xí)過(guò)程結(jié)束后,AI的知識(shí)庫(kù)就被"封存"了,就像一本印刷完成的百科全書(shū)——印刷之后發(fā)生的事,書(shū)里永遠(yuǎn)找不到。

這種封存的時(shí)間點(diǎn),學(xué)術(shù)上叫做"知識(shí)截止日期"。比如論文中提到,LLaMA 3這款著名的AI大模型,知識(shí)截止于2023年底;GPT-4截止于2023年4月;DeepSeek-V3則截止于2024年6月。這意味著,如果你拿著一張2025年發(fā)布的蘋(píng)果iPhone 17 Pro Max的照片問(wèn)這些AI"圖里哪個(gè)是iPhone 17 Pro Max",它們會(huì)一臉茫然——因?yàn)槟强钍謾C(jī)在它們的"記憶"里根本不存在。

研究團(tuán)隊(duì)把這類AI無(wú)從認(rèn)起的新事物分成了兩種情況。第一種叫做"全新實(shí)體",指的是在AI訓(xùn)練結(jié)束之后才誕生的東西,比如2025年新推出的產(chǎn)品、新上映的電影角色、新發(fā)布的手機(jī)型號(hào)。AI完全沒(méi)有接觸過(guò)這些,就像讓一個(gè)在深山閉關(guān)修煉了五年的人認(rèn)出最新款的電子產(chǎn)品,根本不可能。第二種叫做"涌現(xiàn)實(shí)體",這些事物AI其實(shí)"認(rèn)識(shí)",但它們隨著時(shí)間推移發(fā)生了變化,需要最新信息才能準(zhǔn)確判斷。比如AI可以分別認(rèn)出拜登和特朗普,但"現(xiàn)任美國(guó)總統(tǒng)是誰(shuí)"這個(gè)問(wèn)題,隨著政治局勢(shì)變化,AI給出的答案可能已經(jīng)過(guò)時(shí)了。

正是基于這兩類問(wèn)題,復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全新的研究課題——新興實(shí)體分割任務(wù),英文簡(jiǎn)稱NEST。這個(gè)任務(wù)的核心不只是讓AI"認(rèn)出"新事物,還要讓它在圖片里把對(duì)應(yīng)的目標(biāo)精確地"圈"出來(lái),生成一個(gè)精細(xì)的分割遮罩。這比單純的問(wèn)答要難得多,因?yàn)锳I不僅要知道"那是什么",還要知道"它在圖里的哪個(gè)位置、邊界在哪里"。

二、給AI配一個(gè)"實(shí)時(shí)查資料的助手"——ROSE框架誕生

面對(duì)AI記憶有保質(zhì)期這個(gè)難題,研究團(tuán)隊(duì)的思路很直接:既然AI自己的知識(shí)庫(kù)是封閉的,那就給它配一個(gè)能隨時(shí)上網(wǎng)查資料的助手。這個(gè)思路在自然語(yǔ)言處理領(lǐng)域有一個(gè)專門(mén)的名字,叫做"檢索增強(qiáng)生成",英文縮寫(xiě)RAG。簡(jiǎn)單來(lái)說(shuō),就是在AI回答問(wèn)題之前,先讓它去互聯(lián)網(wǎng)上搜一搜最新的相關(guān)信息,然后把搜到的內(nèi)容作為參考,再給出更準(zhǔn)確的答案。

研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上,開(kāi)發(fā)了一套專門(mén)為圖像分割設(shè)計(jì)的框架,命名為ROSE,也就是"面向檢索的分割增強(qiáng)"系統(tǒng)。ROSE不是一個(gè)全新的、從頭訓(xùn)練的AI,而是一套可以像插件一樣接入任何現(xiàn)有圖像分割模型的工具包。無(wú)論是已經(jīng)很成熟的LISA、SESAME還是READ這些分割模型,都可以把ROSE"插"進(jìn)去,立刻獲得處理新興實(shí)體的能力。這種設(shè)計(jì)思路被研究團(tuán)隊(duì)稱為"即插即用"。

ROSE整套框架由四個(gè)核心模塊組成,它們分工明確、相互配合,共同解決AI面對(duì)陌生新事物時(shí)束手無(wú)策的問(wèn)題。接下來(lái),我們一個(gè)一個(gè)地拆開(kāi)來(lái)看。

三、四個(gè)關(guān)鍵組件——ROSE是怎么工作的

第一個(gè)模塊叫做"互聯(lián)網(wǎng)檢索增強(qiáng)生成模塊",簡(jiǎn)稱IRAG。當(dāng)用戶提出一個(gè)問(wèn)題,比如"圖里誰(shuí)主辦了2025年的Mayhem Ball巡演",IRAG會(huì)先把這個(gè)問(wèn)題交給一個(gè)語(yǔ)言模型,生成優(yōu)化過(guò)的搜索關(guān)鍵詞,然后用這些關(guān)鍵詞去互聯(lián)網(wǎng)上抓取相關(guān)網(wǎng)頁(yè)內(nèi)容。抓回來(lái)的內(nèi)容往往非常多、非常雜,IRAG會(huì)把它們切分成小塊,用一種叫做"向量化"的技術(shù)把每塊內(nèi)容轉(zhuǎn)換成數(shù)學(xué)形式存起來(lái),形成一個(gè)臨時(shí)的小型知識(shí)庫(kù)。接下來(lái),系統(tǒng)會(huì)用一種"分而治之"的處理方法,從這些碎片信息里提煉出一個(gè)候選答案摘要,列出所有可能的答案。

然而,光有文字答案還不夠。一個(gè)問(wèn)題的答案有時(shí)不止一個(gè),比如同一首歌的表演者可能有好幾位。這時(shí)候,IRAG會(huì)調(diào)用谷歌云視覺(jué)服務(wù)來(lái)分析用戶上傳的那張圖片,識(shí)別圖中出現(xiàn)的實(shí)體,然后把這些實(shí)體和候選答案對(duì)比,找出最匹配的那一個(gè)作為最終答案。如果圖片里找不到匹配項(xiàng),系統(tǒng)就會(huì)選取置信度最高的候選答案。確定了答案之后,系統(tǒng)會(huì)再拿著這個(gè)答案去互聯(lián)網(wǎng)上搜索相關(guān)圖片,為后續(xù)步驟做準(zhǔn)備。

這里有一個(gè)細(xì)節(jié)值得關(guān)注:研究團(tuán)隊(duì)特意沒(méi)有用AI大模型來(lái)識(shí)別圖中的實(shí)體,而是用了谷歌云視覺(jué)這樣的專用工具。原因在于,AI大模型本身就不認(rèn)識(shí)那些"新實(shí)體",用它來(lái)識(shí)別新事物是繞圈子,專用視覺(jué)識(shí)別服務(wù)反而更可靠。

第二個(gè)模塊叫做"文本提示增強(qiáng)器",簡(jiǎn)稱TPE。拿到IRAG找到的答案之后,光把答案直接告訴原來(lái)的分割模型是不夠的。TPE會(huì)做更多的工作:它把原來(lái)用戶的問(wèn)題、IRAG找到的答案,以及從網(wǎng)上另外檢索到的關(guān)于這個(gè)目標(biāo)的背景知識(shí),三者整合起來(lái),生成一段經(jīng)過(guò)精心設(shè)計(jì)的、更豐富的文字描述,再喂給分割模型。比如原來(lái)的問(wèn)題只是"誰(shuí)主辦了巡演",經(jīng)過(guò)TPE處理后,分割模型收到的信息變成了"Lady Gaga,女性,黑色長(zhǎng)發(fā),以其夸張前衛(wèi)的舞臺(tái)風(fēng)格著稱,2025年發(fā)布了新專輯MAYHEM并開(kāi)啟巡演……"。這種信息量更豐富、指向性更精準(zhǔn)的描述,讓分割模型能更準(zhǔn)確地在圖中鎖定目標(biāo)。

第三個(gè)模塊叫做"視覺(jué)提示增強(qiáng)器",簡(jiǎn)稱VPE,專門(mén)用來(lái)對(duì)付那些完全陌生的全新實(shí)體。當(dāng)AI對(duì)某個(gè)新產(chǎn)品或新人物毫無(wú)概念時(shí),即使文字描述再詳細(xì),AI仍然可能找錯(cuò)目標(biāo),因?yàn)樗X海里根本沒(méi)有那個(gè)東西的"長(zhǎng)相"。VPE的辦法是從IRAG檢索到的互聯(lián)網(wǎng)圖片里提取視覺(jué)特征。這些圖片經(jīng)過(guò)聚類處理,過(guò)濾掉不相關(guān)的噪聲,然后用一個(gè)叫做CLIP的視覺(jué)模型提取出目標(biāo)實(shí)體的"視覺(jué)指紋",也叫做原型特征。

有了這個(gè)"視覺(jué)指紋",VPE會(huì)先檢查分割模型給出的結(jié)果是否正確——如果模型圈出來(lái)的區(qū)域和"視覺(jué)指紋"差異很大,說(shuō)明分割出錯(cuò)了。這時(shí)VPE會(huì)接手:用目標(biāo)檢測(cè)器把用戶圖片里所有可能的實(shí)體都標(biāo)記出來(lái),逐一提取它們的視覺(jué)特征,然后和"視覺(jué)指紋"比對(duì),找出最相似的那一個(gè),再調(diào)用SAM(一種專門(mén)生成精細(xì)分割遮罩的工具)生成最終的分割結(jié)果。通俗地說(shuō),VPE的工作就像是拿著一張目標(biāo)的照片去人群中認(rèn)臉,先確認(rèn)原來(lái)的AI有沒(méi)有認(rèn)對(duì),沒(méi)認(rèn)對(duì)的話自己親自上陣找。

第四個(gè)模塊叫做"WebSense",是整套系統(tǒng)的守門(mén)人。不是每一個(gè)問(wèn)題都需要上網(wǎng)查資料的——如果有人問(wèn)"圖里哪個(gè)是蘋(píng)果",顯然不需要聯(lián)網(wǎng)搜索,AI自己完全能判斷。如果每個(gè)問(wèn)題都觸發(fā)聯(lián)網(wǎng)檢索,系統(tǒng)會(huì)變得極其低效,響應(yīng)時(shí)間也會(huì)大幅延長(zhǎng)。WebSense的職責(zé)就是在用戶提問(wèn)之后,先判斷這個(gè)問(wèn)題是否真的需要檢索最新信息。它采用兩級(jí)判斷機(jī)制:第一級(jí)是簡(jiǎn)單快速的規(guī)則過(guò)濾,比如問(wèn)題里有沒(méi)有出現(xiàn)年份、"最新"、"現(xiàn)任"這類時(shí)間敏感詞;如果規(guī)則判斷不了,第二級(jí)則調(diào)用一個(gè)語(yǔ)言模型進(jìn)行更深入的語(yǔ)義分析,判斷是否需要聯(lián)網(wǎng)。只有真正需要最新信息的查詢,才會(huì)觸發(fā)后續(xù)的檢索流程,大幅提升系統(tǒng)效率。

四、自動(dòng)化數(shù)據(jù)工廠——NEST基準(zhǔn)數(shù)據(jù)集是怎么建起來(lái)的

研究團(tuán)隊(duì)在提出ROSE框架的同時(shí),還面臨一個(gè)棘手的評(píng)估問(wèn)題:沒(méi)有專門(mén)針對(duì)新興實(shí)體分割的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集,就無(wú)法衡量ROSE到底有多好。建立這樣一個(gè)數(shù)據(jù)集本身就是個(gè)難題,因?yàn)?新興實(shí)體"天然地會(huì)隨時(shí)間變化——今天的新實(shí)體,一年后可能已經(jīng)被AI模型學(xué)進(jìn)去了,數(shù)據(jù)集就失效了。而且手動(dòng)收集、標(biāo)注這些數(shù)據(jù)費(fèi)時(shí)費(fèi)力,根本無(wú)法持續(xù)更新。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套完全自動(dòng)化的數(shù)據(jù)生產(chǎn)流水線。整個(gè)流水線從谷歌趨勢(shì)——一個(gè)實(shí)時(shí)追蹤全球熱搜關(guān)鍵詞的公共平臺(tái)——出發(fā),抓取當(dāng)下最熱門(mén)的搜索詞。這些熱搜詞往往集中在體育、娛樂(lè)和政治領(lǐng)域,為了讓數(shù)據(jù)集涵蓋更廣的范圍,團(tuán)隊(duì)還手動(dòng)補(bǔ)充了科技、經(jīng)濟(jì)等領(lǐng)域的關(guān)鍵詞。

原始的熱搜詞里有很多抽象概念,比如"谷歌股價(jià)",這類詞根本沒(méi)有可以在圖里被分割的具體物體,需要過(guò)濾掉。團(tuán)隊(duì)用語(yǔ)言模型對(duì)這些詞進(jìn)行篩選,最終保留的都是具體可辨的人物或產(chǎn)品。

有了過(guò)濾后的關(guān)鍵詞列表,流水線會(huì)去搜索引擎上抓取相關(guān)圖片。但這里有個(gè)問(wèn)題:直接搜索"Lady Gaga"往往只能得到她一個(gè)人的獨(dú)照,沒(méi)有干擾項(xiàng),分割任務(wù)太簡(jiǎn)單了,不能真實(shí)反映現(xiàn)實(shí)場(chǎng)景的復(fù)雜性。為此,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"查詢?cè)鰪?qiáng)"策略:把原始搜索詞擴(kuò)展成更復(fù)雜的組合,比如"Lady Gaga和Taylor Swift以及Billie Eilish同框",這樣搜到的圖片往往包含多個(gè)人物,大幅提升了任務(wù)難度和現(xiàn)實(shí)感。

圖片搜集完成后,流水線還需要為每張圖片生成問(wèn)答對(duì)和精確的分割遮罩。問(wèn)答對(duì)的生成依賴與關(guān)鍵詞配套的新聞報(bào)道:系統(tǒng)會(huì)從搜索引擎里抓取相關(guān)新聞,過(guò)濾掉重復(fù)報(bào)道(以三天為窗口,同一事件只保留一篇),然后讓語(yǔ)言模型基于新聞內(nèi)容生成自然語(yǔ)言問(wèn)題,同時(shí)確保問(wèn)題不直接提及答案,要求真正的理解才能答對(duì)。

分割遮罩的生成則是整個(gè)流水線最精巧的部分。系統(tǒng)首先從那些只包含單一目標(biāo)的圖片里提取目標(biāo)的視覺(jué)特征,作為"長(zhǎng)相模板";然后對(duì)包含多個(gè)人物的復(fù)雜圖片運(yùn)行目標(biāo)檢測(cè)器,識(shí)別出所有可能的實(shí)體;最后把每個(gè)實(shí)體的視覺(jué)特征和"長(zhǎng)相模板"進(jìn)行相似度比對(duì),選出最像的那個(gè),再用SAM工具生成精細(xì)的分割遮罩。整個(gè)過(guò)程無(wú)需人工干預(yù),可以持續(xù)自動(dòng)運(yùn)行。

最終,研究團(tuán)隊(duì)利用這套流水線,采集了2025年3月23日至4月11日期間的網(wǎng)絡(luò)數(shù)據(jù),構(gòu)建了包含1548個(gè)樣本的NEST數(shù)據(jù)集。這些樣本涵蓋經(jīng)濟(jì)、科技、政治、娛樂(lè)、體育和社會(huì)等多個(gè)領(lǐng)域,平均每張圖片包含2.7個(gè)有效實(shí)體,平均每張圖片對(duì)應(yīng)1.6個(gè)不同問(wèn)法的問(wèn)題,保證了足夠的任務(wù)難度和查詢多樣性。

五、實(shí)驗(yàn)結(jié)果——ROSE到底強(qiáng)在哪里

研究團(tuán)隊(duì)在NEST數(shù)據(jù)集上對(duì)多個(gè)現(xiàn)有方法進(jìn)行了橫向比較,結(jié)果頗為直觀地說(shuō)明了問(wèn)題所在,以及ROSE的改進(jìn)幅度。

現(xiàn)有的圖像分割模型,包括CRIS、GRES、Grounded-SAM、SEEM,以及基于大語(yǔ)言模型的LISA-7B、SESAME-7B和READ-7B,在面對(duì)NEST任務(wù)時(shí)表現(xiàn)普遍有限。其中LISA-7B作為最具代表性的基線方法,整體gIoU(一種衡量分割精度的指標(biāo),可以理解為"分割框和真實(shí)邊界的重合程度")為48.7,但這個(gè)數(shù)字對(duì)全新實(shí)體只有38.4,因?yàn)锳I根本不認(rèn)識(shí)那些從未見(jiàn)過(guò)的東西。相比之下,SESAME-7B在這個(gè)任務(wù)上表現(xiàn)更差,gIoU只有13.1,READ-7B也只有22.5。

為了設(shè)立更強(qiáng)的對(duì)比基線,研究團(tuán)隊(duì)還構(gòu)建了"兩階段商業(yè)檢索基線":先用具備聯(lián)網(wǎng)能力的GPT-4o mini Search或Gemini 2.0 Flash Search來(lái)回答"圖里的目標(biāo)是誰(shuí)/是什么",然后把答案交給LISA等模型進(jìn)行分割。這是業(yè)界能想到的比較直接的解決方案,但結(jié)果顯示,即便是最強(qiáng)的組合——Gemini 2.0 Flash Search搭配LISA-7B——整體gIoU也只有53.8。

而ROSE搭配LISA-7B之后,整體gIoU直接跳到73.0,比Gemini 2.0 Flash Search的兩階段方法高出整整19.2個(gè)百分點(diǎn)。對(duì)全新實(shí)體的gIoU從38.4提升到67.0,對(duì)涌現(xiàn)實(shí)體的gIoU從56.5提升到77.5,兩類任務(wù)都有大幅改善。ROSE搭配READ-7B的效果略高于搭配LISA-7B,整體gIoU達(dá)到72.2;搭配SESAME-7B也達(dá)到了70.6。

研究團(tuán)隊(duì)還進(jìn)行了混合數(shù)據(jù)集實(shí)驗(yàn),把NEST和另外三個(gè)傳統(tǒng)分割數(shù)據(jù)集(ReasonSeg、RefCOCO、RefCOCO+、RefCOCOg)合并在一起測(cè)試,驗(yàn)證ROSE在處理新興實(shí)體的同時(shí),會(huì)不會(huì)把原來(lái)的傳統(tǒng)任務(wù)能力破壞掉。結(jié)果顯示,ROSE在NEST部分的性能大幅提升,在傳統(tǒng)分割任務(wù)上的表現(xiàn)也與原始模型基本持平,說(shuō)明ROSE不是"拆東墻補(bǔ)西墻",而是真正擴(kuò)展了模型的能力邊界。

為了弄清楚ROSE的四個(gè)模塊各自貢獻(xiàn)了多少,研究團(tuán)隊(duì)還做了拆解實(shí)驗(yàn)。在LISA-7B基礎(chǔ)上只加IRAG模塊,整體gIoU從48.7提升到55.7,提升7個(gè)百分點(diǎn),說(shuō)明聯(lián)網(wǎng)檢索本身確實(shí)有效,但效果有限。在IRAG基礎(chǔ)上再加TPE模塊,整體gIoU進(jìn)一步提升到59.6,主要改善來(lái)自涌現(xiàn)實(shí)體(gIoU+6.2),因?yàn)樨S富的文字背景知識(shí)幫助AI更好地理解目標(biāo)。在IRAG基礎(chǔ)上加VPE模塊(不加TPE),整體gIoU大幅跳升到68.7,對(duì)全新實(shí)體的提升最為顯著(cIoU+24.5),因?yàn)?視覺(jué)指紋"對(duì)比機(jī)制專門(mén)解決了AI看不認(rèn)新東西的問(wèn)題。而四個(gè)模塊全部啟用之后,整體gIoU達(dá)到74.7,說(shuō)明四個(gè)模塊之間存在互補(bǔ)效應(yīng),缺一不可。

六、真實(shí)案例——從實(shí)驗(yàn)數(shù)字到具體場(chǎng)景

研究論文中呈現(xiàn)了若干直觀的對(duì)比案例,讓這些數(shù)字變得更有說(shuō)服力。

在全新實(shí)體的例子中,有一張圖展示了任天堂Switch 2游戲機(jī)。用戶的問(wèn)題是"請(qǐng)分割圖中的Nintendo Switch 2"。LISA對(duì)這款2025年發(fā)布的游戲機(jī)毫無(wú)印象,給出了錯(cuò)誤的分割結(jié)果;READ同樣表現(xiàn)不佳。ROSE則憑借從互聯(lián)網(wǎng)上找到的Switch 2參考圖片,成功識(shí)別并精準(zhǔn)圈出了目標(biāo)。另一個(gè)例子是小米SU7汽車(chē),LISA對(duì)這款車(chē)型一無(wú)所知,輸出為空,而ROSE正確地在圖中找到并分割了這輛車(chē)。

在涌現(xiàn)實(shí)體的例子中,有一個(gè)關(guān)于《魷魚(yú)游戲2》(2024年上映)的問(wèn)題,詢問(wèn)誰(shuí)選擇重返游戲。LISA對(duì)劇中人物身份的理解已經(jīng)過(guò)時(shí),圈出了錯(cuò)誤的人物;ROSE通過(guò)檢索最新的相關(guān)信息,正確識(shí)別并分割了目標(biāo)角色。另一個(gè)案例更貼近體育新聞:?jiǎn)栴}是"2025年5月9日,哪位MLB球員為道奇隊(duì)打出關(guān)鍵三分全壘打",LISA因?yàn)橹R(shí)截止而圈錯(cuò)了人,ROSE檢索了當(dāng)天的體育新聞后,準(zhǔn)確找到了那位球員并完成分割。

這些案例共同說(shuō)明了一個(gè)規(guī)律:對(duì)于全新實(shí)體,視覺(jué)參考圖片(VPE模塊)是關(guān)鍵;對(duì)于涌現(xiàn)實(shí)體,文字背景知識(shí)(TPE模塊)和準(zhǔn)確的實(shí)體識(shí)別(IRAG模塊)缺一不可。ROSE把這兩類能力整合在一套框架里,才能同時(shí)應(yīng)對(duì)兩種不同類型的挑戰(zhàn)。

說(shuō)到底,這項(xiàng)研究揭示了一個(gè)我們平時(shí)可能沒(méi)有意識(shí)到的問(wèn)題:我們使用的AI工具,其實(shí)活在一個(gè)"時(shí)間凍結(jié)"的世界里。它們認(rèn)識(shí)2023年之前的所有明星、產(chǎn)品和事件,卻對(duì)此后發(fā)生的一切一無(wú)所知。這就像是一個(gè)非常博學(xué)但已經(jīng)隱居多年的老學(xué)者,問(wèn)他歷史上的任何知識(shí)都能對(duì)答如流,但一旦問(wèn)起最近的新聞,他只能搖搖頭說(shuō)"不知道"。

復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出的ROSE框架,本質(zhì)上是給這位老學(xué)者配了一臺(tái)可以隨時(shí)上網(wǎng)的電腦,讓他在回答問(wèn)題之前先快速查一下最新資訊。這個(gè)思路看似簡(jiǎn)單,但工程實(shí)現(xiàn)上卻涉及信息檢索、視覺(jué)識(shí)別、文本理解和精確分割等多個(gè)環(huán)節(jié)的協(xié)同配合,每一個(gè)環(huán)節(jié)出了問(wèn)題都會(huì)影響最終結(jié)果。這也是為什么單純地把商業(yè)搜索引擎(如Gemini 2.0 Flash Search)和分割模型簡(jiǎn)單拼接,效果遠(yuǎn)不如ROSE——前者只解決了"知道答案是什么"的問(wèn)題,后者還額外解決了"怎么讓AI看懂并圈出來(lái)"的問(wèn)題。

這項(xiàng)研究對(duì)普通用戶的實(shí)際意義在于,未來(lái)基于大模型的圖像處理工具或許能夠持續(xù)更新對(duì)現(xiàn)實(shí)世界的認(rèn)知,而不必每隔一兩年就重新訓(xùn)練一次整個(gè)模型。對(duì)于醫(yī)療影像分析、安防監(jiān)控、新聞圖片理解等需要處理"最新信息"的應(yīng)用場(chǎng)景,這種能力尤為關(guān)鍵。當(dāng)然,任何依賴網(wǎng)絡(luò)檢索的系統(tǒng)都面臨信息質(zhì)量和網(wǎng)絡(luò)延遲的挑戰(zhàn),如何在速度和準(zhǔn)確性之間找到更好的平衡,仍然是未來(lái)值得繼續(xù)探索的方向。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv編號(hào)2604.14147查閱完整論文,論文中還包含更多實(shí)驗(yàn)案例和補(bǔ)充材料。

Q&A

Q1:ROSE框架和普通的帶搜索功能的AI有什么區(qū)別?

A:普通的帶搜索功能AI(如Gemini Flash Search或GPT-4o mini Search)只能告訴你"答案是什么",但無(wú)法進(jìn)一步把目標(biāo)在圖片里圈出來(lái)。ROSE在獲取答案的基礎(chǔ)上,還額外從網(wǎng)上下載參考圖片,提取目標(biāo)的視覺(jué)特征,幫助分割模型真正"認(rèn)出"并精準(zhǔn)勾勒出目標(biāo)的邊界。兩者的差距在實(shí)驗(yàn)中體現(xiàn)為:商業(yè)搜索方案最高gIoU約53.8,ROSE則達(dá)到73.0,差距約19個(gè)百分點(diǎn)。

Q2:NEST數(shù)據(jù)集是如何保證持續(xù)更新不過(guò)時(shí)的?

A:NEST數(shù)據(jù)集采用全自動(dòng)化的流水線構(gòu)建,核心數(shù)據(jù)源是谷歌趨勢(shì)實(shí)時(shí)熱搜詞。系統(tǒng)會(huì)自動(dòng)抓取最新新聞、搜索相關(guān)圖片、生成問(wèn)答對(duì),并自動(dòng)標(biāo)注分割遮罩,全程無(wú)需人工干預(yù)。這意味著只要系統(tǒng)持續(xù)運(yùn)行,數(shù)據(jù)集就能不斷納入最新出現(xiàn)的新事物,避免隨時(shí)間失效的問(wèn)題。

Q3:WebSense模塊是如何判斷一個(gè)問(wèn)題要不要聯(lián)網(wǎng)查資料的?

A:WebSense采用兩級(jí)判斷機(jī)制。第一級(jí)是快速的規(guī)則過(guò)濾:如果問(wèn)題里包含年份、"最新"、"現(xiàn)任"等時(shí)間敏感詞,系統(tǒng)就直接判定需要檢索。如果問(wèn)題比較模糊,第二級(jí)會(huì)調(diào)用一個(gè)語(yǔ)言模型進(jìn)行更深入的語(yǔ)義分析,判斷問(wèn)題是否涉及知識(shí)截止日期之后的內(nèi)容。這樣設(shè)計(jì)的目的是避免每個(gè)問(wèn)題都觸發(fā)聯(lián)網(wǎng)檢索,節(jié)省計(jì)算和網(wǎng)絡(luò)資源,讓系統(tǒng)運(yùn)行更高效。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開(kāi)始慌了

倒查13年,央國(guó)企開(kāi)始慌了

職場(chǎng)資深秘書(shū)
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

時(shí)尚
游戲
數(shù)碼
房產(chǎn)
公開(kāi)課

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫(huà)面

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開(kāi)啟預(yù)約

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4??!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版