国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海交大與螞蟻集團突破:AI模型實現(xiàn)單眼視覺細(xì)節(jié)識別能力

0
分享至


想看清楚手機屏幕上的小字,你會自然而然地把手機拿近一些,或者用手指放大畫面。這個簡單的動作背后,其實蘊含著人類視覺系統(tǒng)的一個重要特征——當(dāng)我們需要觀察細(xì)節(jié)時,會主動調(diào)整視角,把注意力聚焦到關(guān)鍵區(qū)域。然而,當(dāng)前的人工智能視覺模型卻還做不到這一點,它們只能像近視眼一樣,模糊地看著整幅畫面,經(jīng)常錯過重要的細(xì)節(jié)信息。

這項由上海交通大學(xué)計算機科學(xué)學(xué)院聯(lián)合螞蟻集團等機構(gòu)完成的突破性研究,發(fā)表于2026年2月的arXiv平臺(論文編號:arXiv:2602.11858v1 [cs.CV]),首次提出了一種名為"區(qū)域到圖像蒸餾"的全新技術(shù),讓AI模型學(xué)會了在不需要任何輔助工具的情況下,僅憑"一眼"就能準(zhǔn)確識別圖像中的細(xì)節(jié)信息。研究團隊將這項技術(shù)形象地稱為"無需放大的放大技術(shù)"(Zooming without Zooming),成功解決了多模態(tài)大語言模型在細(xì)節(jié)感知方面的關(guān)鍵短板。

傳統(tǒng)的AI視覺模型面對一張高分辨率圖片時,就像一個人站在博物館里,距離一幅巨大的油畫很遠(yuǎn),想要看清畫面中某個人物的表情細(xì)節(jié),卻又不能走近。雖然整體畫面盡收眼底,但想要識別畫中人物手里拿著什么小物件,或者讀清楚遠(yuǎn)處招牌上的文字,就顯得力不從心了。為了解決這個問題,近年來出現(xiàn)了一些"思維與圖像結(jié)合"的方法,這些方法讓AI模型像人類一樣,可以在推理過程中主動"走近"畫面,放大感興趣的區(qū)域進行仔細(xì)觀察。

然而,這種做法帶來了一個致命的缺陷:速度太慢。每當(dāng)模型需要"走近"觀察細(xì)節(jié)時,就需要重新處理圖像,反復(fù)進行多次計算。這就像一個人每次想看清楚一個細(xì)節(jié),都需要重新從頭到尾仔細(xì)掃視整幅畫面一遍。這種反復(fù)的"zoom in"和"zoom out"操作雖然提高了準(zhǔn)確率,但讓推理時間大大延長,在實際應(yīng)用中很難被接受。

研究團隊巧妙地將這個問題轉(zhuǎn)化為一個全新的角度:既然我們知道"放大觀察"能夠幫助模型看得更準(zhǔn)確,那能不能讓模型在訓(xùn)練階段就學(xué)會這種能力,這樣在實際使用時就不需要真的"放大"了?這就像教會一個人練就"火眼金睛",即使站在遠(yuǎn)處也能看清細(xì)節(jié),而不需要每次都走近觀察。

為了實現(xiàn)這個想法,研究團隊設(shè)計了一套精巧的訓(xùn)練方案。他們首先讓能力強大的"老師"模型在放大的圖像區(qū)域上工作,因為在這些放大的小區(qū)域中,細(xì)節(jié)信息非常清晰,老師模型很容易給出準(zhǔn)確的問答對。接著,研究團隊將這些在小區(qū)域上得到的"標(biāo)準(zhǔn)答案"重新映射回原始的完整圖像上,并在圖像上用邊界框明確標(biāo)注出關(guān)鍵區(qū)域的位置,形成新的訓(xùn)練數(shù)據(jù)。

這個過程就像制作一本特殊的練習(xí)冊。老師先用放大鏡仔細(xì)觀察一幅畫的某個角落,準(zhǔn)確地描述出那里有什么東西。然后,老師把這個描述寫在練習(xí)冊上,但題目給出的是完整的畫面,并用紅框圈出了需要觀察的區(qū)域。學(xué)生通過大量練習(xí)這樣的題目,逐漸學(xué)會了即使看完整畫面,也能準(zhǔn)確識別紅框區(qū)域里的細(xì)節(jié)內(nèi)容。更神奇的是,當(dāng)學(xué)生真正熟練之后,即使沒有紅框的提示,也能自動將注意力集中到正確的位置。

研究團隊將這種訓(xùn)練方法應(yīng)用到了包括Qwen3-VL等多個主流模型上,訓(xùn)練數(shù)據(jù)量僅為7.4萬條。令人驚喜的是,經(jīng)過這種特殊訓(xùn)練的模型在各種細(xì)節(jié)識別任務(wù)上都表現(xiàn)出了顯著的提升。更重要的是,這些模型在推理時只需要進行一次前向計算,完全不需要反復(fù)的放大操作,推理速度比那些需要多次"zoom in"的方法快了約10倍。

為了全面評估這種能力,研究團隊還構(gòu)建了一個名為ZoomBench的專門測試基準(zhǔn)。這個測試集包含了845個精心設(shè)計的視覺問答樣本,涵蓋了六個不同的細(xì)節(jié)感知維度:精細(xì)計數(shù)、文字識別、顏色屬性、結(jié)構(gòu)屬性、材料屬性和物體識別。每個測試樣本都同時提供完整圖像和對應(yīng)的關(guān)鍵區(qū)域裁剪圖,這樣就可以直接對比模型在看"全圖"和看"局部放大圖"時的表現(xiàn)差異。

在精細(xì)計數(shù)任務(wù)中,模型需要準(zhǔn)確統(tǒng)計圖像中密集排列的小物體數(shù)量,比如數(shù)清楚一個魚缸里有多少條小魚,或者統(tǒng)計一片花叢中開了多少朵花。這類任務(wù)對人類來說都不是特別容易,需要仔細(xì)觀察才能避免重復(fù)計數(shù)或遺漏。在文字識別任務(wù)中,模型需要準(zhǔn)確讀出圖像中的文本內(nèi)容,特別是那些字體較小、背景復(fù)雜的文字。在屬性識別任務(wù)中,模型需要識別物體的顏色、材料、結(jié)構(gòu)等細(xì)節(jié)特征,比如判斷一個瓶子是玻璃材質(zhì)還是塑料材質(zhì),或者識別一個標(biāo)志牌是圓形還是三角形。

測試結(jié)果顯示,經(jīng)過區(qū)域到圖像蒸餾訓(xùn)練的模型在所有測試維度上都取得了顯著的性能提升。以ZwZ-8B模型為例,它在ZoomBench上的得分從基礎(chǔ)模型的37.87分提升到了58.11分,提升幅度超過50%。更令人印象深刻的是,這個僅有80億參數(shù)的模型,在多個細(xì)節(jié)感知任務(wù)上的表現(xiàn)已經(jīng)能夠與那些參數(shù)量達(dá)到2350億的超大模型相媲美,甚至在某些任務(wù)上還略有優(yōu)勢。

為了深入理解模型性能提升的原因,研究團隊引入了"雙視角評估"方法。他們讓模型分別在完整圖像和裁剪的關(guān)鍵區(qū)域上回答相同的問題,通過對比兩種情況下的準(zhǔn)確率差異,量化出模型的"縮放差距"。結(jié)果發(fā)現(xiàn),傳統(tǒng)模型在看完整圖像時的表現(xiàn)往往比看裁剪區(qū)域時要差很多,這個差距就反映了模型在全局環(huán)境中定位和利用關(guān)鍵信息的能力不足。而經(jīng)過區(qū)域到圖像蒸餾訓(xùn)練的模型,這個差距被顯著縮小了,說明它們確實學(xué)會了在復(fù)雜的全局環(huán)境中準(zhǔn)確找到和利用關(guān)鍵細(xì)節(jié)。

研究團隊還通過注意力圖分析技術(shù),直觀地展示了模型的"視覺注意力"是如何分布的。結(jié)果顯示,經(jīng)過特殊訓(xùn)練的模型確實學(xué)會了將更多的注意力集中在與問題相關(guān)的關(guān)鍵區(qū)域上。這就像一個經(jīng)驗豐富的偵探,能夠在復(fù)雜的犯罪現(xiàn)場中迅速找到關(guān)鍵證據(jù),而不是像新手一樣在現(xiàn)場無目的地四處張望。

除了在專門設(shè)計的細(xì)節(jié)感知任務(wù)上表現(xiàn)優(yōu)異,這種技術(shù)還展現(xiàn)出了良好的泛化能力。研究團隊發(fā)現(xiàn),經(jīng)過訓(xùn)練的模型在一些看似無關(guān)的任務(wù)上也獲得了性能提升,包括視覺推理、AIGC檢測和圖形用戶界面代理任務(wù)。這說明學(xué)會準(zhǔn)確感知細(xì)節(jié)的能力,對于提升模型的整體視覺理解能力具有重要意義。

這項研究的意義不僅僅在于技術(shù)本身的突破,更在于它為人工智能視覺理解領(lǐng)域指出了一個全新的發(fā)展方向。長期以來,提高模型性能的主要方式是增加模型規(guī)模、使用更多數(shù)據(jù)或者在推理時使用更復(fù)雜的策略。而這項研究證明了,通過巧妙的訓(xùn)練方法設(shè)計,可以讓較小的模型獲得接近甚至超越大模型的能力,同時還能保持更高的推理效率。

在實際應(yīng)用場景中,這項技術(shù)具有廣泛的應(yīng)用前景。在醫(yī)學(xué)圖像分析中,模型可以在不需要醫(yī)生手動圈定病灶區(qū)域的情況下,自動識別X光片或CT圖像中的細(xì)微異常。在自動駕駛系統(tǒng)中,模型可以更準(zhǔn)確地識別遠(yuǎn)處的交通標(biāo)志或者行人,提高行車安全。在工業(yè)質(zhì)檢領(lǐng)域,模型可以在產(chǎn)品圖像中自動發(fā)現(xiàn)細(xì)小的瑕疵,提高檢測效率和準(zhǔn)確率。在文檔理解場景中,模型可以準(zhǔn)確識別復(fù)雜表格或圖表中的細(xì)節(jié)信息,提升辦公自動化水平。

當(dāng)然,這項技術(shù)也還有一些局限性需要進一步改進。目前的方法主要針對靜態(tài)圖像中的細(xì)節(jié)感知問題,對于視頻中的時序細(xì)節(jié)變化、復(fù)雜的空間推理任務(wù)等還需要進一步的研究。同時,如何讓模型在面對完全陌生的場景和任務(wù)時,仍然保持良好的細(xì)節(jié)感知能力,也是一個需要持續(xù)探索的問題。

研究團隊在論文中還深入討論了這種方法與現(xiàn)有"思維與圖像結(jié)合"技術(shù)的關(guān)系。他們指出,并不是所有的工具輔助操作都可以通過訓(xùn)練時蒸餾來替代。當(dāng)工具操作能夠帶來全新的、無法預(yù)測的信息時,比如通過網(wǎng)絡(luò)搜索獲取額外圖像或文檔,這種操作就是必需的,無法被蒸餾替代。但是當(dāng)工具操作主要是為了重新組織或突出現(xiàn)有信息時,比如放大、旋轉(zhuǎn)、裁剪等操作,這些操作的效果就可以通過巧妙的訓(xùn)練方法內(nèi)化到模型中。

這種區(qū)分為未來的研究指出了明確的方向:對于那些可以預(yù)測的、基于現(xiàn)有信息的操作,應(yīng)該通過訓(xùn)練時的蒸餾方法來提升模型能力;而對于那些需要獲取新信息的操作,則應(yīng)該保留在推理階段,作為模型的外部工具。這樣的混合方案既能保證模型的推理效率,又能保持其在復(fù)雜任務(wù)上的能力。

從更廣闊的視角來看,這項研究體現(xiàn)了人工智能發(fā)展的一個重要趨勢:從簡單的規(guī)?;瘮U展轉(zhuǎn)向更加精細(xì)化的能力設(shè)計。隨著計算資源成本的不斷上升和應(yīng)用場景對實時性要求的提高,如何讓模型變得更加"聰明"而不僅僅是更加"龐大",成為了一個越來越重要的研究方向。這項研究提供的"區(qū)域到圖像蒸餾"方法,正是這種精細(xì)化設(shè)計思路的一個典型例子。

說到底,這項研究最大的價值在于它證明了一個重要觀點:人工智能的進步不一定要依賴于更大的模型或更復(fù)雜的推理過程,有時候一個巧妙的訓(xùn)練策略就能帶來顯著的性能提升。就像人類學(xué)習(xí)一樣,通過科學(xué)的訓(xùn)練方法,我們可以讓學(xué)生在相對較短的時間內(nèi)掌握原本需要大量經(jīng)驗才能獲得的技能。對于人工智能模型來說,這種"教學(xué)方法"的創(chuàng)新同樣重要。

這項研究的代碼已經(jīng)在GitHub平臺上開源,研究團隊希望這項技術(shù)能夠被更廣泛地應(yīng)用和改進。隨著更多研究者的參與和不同應(yīng)用場景的測試,我們有理由相信,這種讓AI"一眼看清細(xì)節(jié)"的能力將會在未來的智能系統(tǒng)中發(fā)揮越來越重要的作用,為構(gòu)建更加智能、高效的視覺理解系統(tǒng)奠定堅實的技術(shù)基礎(chǔ)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2602.11858v1查詢完整的研究論文。

Q&A

Q1:區(qū)域到圖像蒸餾技術(shù)是如何讓AI模型學(xué)會看細(xì)節(jié)的?

A:這項技術(shù)采用了類似"老師教學(xué)生"的方法。首先讓強大的老師模型在放大的圖像小區(qū)域上生成準(zhǔn)確的問答對,因為在小區(qū)域中細(xì)節(jié)很清楚,老師很容易給出正確答案。然后將這些答案重新映射到完整圖像上,并用邊界框標(biāo)注關(guān)鍵位置,形成訓(xùn)練數(shù)據(jù)。學(xué)生模型通過大量練習(xí)這樣的數(shù)據(jù),逐漸學(xué)會即使看完整圖像也能準(zhǔn)確識別細(xì)節(jié),最終甚至不需要邊界框提示也能自動關(guān)注正確位置。

Q2:這種方法比傳統(tǒng)的放大觀察方法有什么優(yōu)勢?

A:最大的優(yōu)勢是速度快很多。傳統(tǒng)方法需要在推理時反復(fù)進行放大操作,每次都要重新處理圖像,就像每次想看清細(xì)節(jié)都要重新掃視整幅畫面。而區(qū)域到圖像蒸餾讓模型在訓(xùn)練階段就學(xué)會了這種能力,推理時只需要一次計算就能得到結(jié)果,速度比傳統(tǒng)方法快約10倍。同時準(zhǔn)確性還更高,比如ZwZ-8B模型在細(xì)節(jié)識別任務(wù)上的得分從37.87分提升到58.11分。

Q3:ZoomBench測試基準(zhǔn)包含哪些類型的細(xì)節(jié)識別任務(wù)?

A:ZoomBench包含845個測試樣本,涵蓋六個細(xì)節(jié)感知維度。精細(xì)計數(shù)任務(wù)需要準(zhǔn)確統(tǒng)計密集小物體的數(shù)量,比如數(shù)魚缸里的魚或花叢中的花朵。文字識別任務(wù)要求讀出圖像中的小字或復(fù)雜背景下的文本。顏色、結(jié)構(gòu)、材料屬性任務(wù)需要識別物體的細(xì)節(jié)特征,比如判斷瓶子材質(zhì)或標(biāo)志形狀。物體識別任務(wù)則要求識別圖像中的特定物品或標(biāo)志。每個樣本都提供完整圖像和關(guān)鍵區(qū)域裁剪圖,可以直接對比模型的全局和局部識別能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時,頂級名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時,頂級名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

留學(xué)生日報
2026-03-14 15:34:12
52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場愣住

52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場愣住

老杉說歷史
2026-03-13 23:00:06
國乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

國乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

生活新鮮市
2026-03-14 11:18:04
第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

萬物知識圈
2026-03-14 09:40:59
蘋果首款折疊屏機型頂配版定價超2萬元!將成為蘋果最貴手機

蘋果首款折疊屏機型頂配版定價超2萬元!將成為蘋果最貴手機

大象新聞
2026-03-12 08:41:03
蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

叮當(dāng)當(dāng)科技
2026-03-14 01:50:37
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
茅臺1935酒(尊享)上線i茅臺,首秀超預(yù)期

茅臺1935酒(尊享)上線i茅臺,首秀超預(yù)期

微酒
2026-03-14 19:15:12
054A抵達(dá)伊朗海域護航

054A抵達(dá)伊朗海域護航

烽火觀天下
2026-03-10 11:54:38
伊朗革命衛(wèi)隊已經(jīng)事實獨立

伊朗革命衛(wèi)隊已經(jīng)事實獨立

難得君
2026-03-04 12:29:04
3·15影子暗訪|神秘的“特供酒”

3·15影子暗訪|神秘的“特供酒”

澎湃新聞
2026-03-14 08:04:32
老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

長安一孤客
2026-03-12 16:00:24
獲全場最低分 U23國足紅星坑慘申花 空門踢偏失絕殺 補時假摔染紅

獲全場最低分 U23國足紅星坑慘申花 空門踢偏失絕殺 補時假摔染紅

我愛英超
2026-03-14 18:10:23
淚目!中國女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

淚目!中國女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

李喜林籃球絕殺
2026-03-14 22:05:19
反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國四子幾近全塌房

反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國四子幾近全塌房

姩姩有娛
2026-03-14 14:41:47
被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對稱

被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對稱

卡靈頓分析師
2026-03-14 21:48:41
七歲兒子寫詩向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

七歲兒子寫詩向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

柳絮憶史
2026-03-14 09:07:10
歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

風(fēng)眼軍情
2026-03-14 21:25:39
特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

觀察者網(wǎng)
2026-03-14 09:34:10
委內(nèi)瑞拉5億美元石油1億美元黃金,為何運向美國?

委內(nèi)瑞拉5億美元石油1億美元黃金,為何運向美國?

中國新聞周刊
2026-03-14 12:42:09
2026-03-14 23:15:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

健康
游戲
教育
公開課
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

重磅!XGP熱門大作即將免費登陸PS Plus會員

教育要聞

童年的天空的云彩會伴隨孩子的一生

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關(guān)懷版