上海交大與螞蟻集團突破：AI模型實現(xiàn)單眼視覺細(xì)節(jié)識別能力

2026-03-11 16:26:39　來源: 科技行者

北京舉報

分享至

想看清楚手機屏幕上的小字，你會自然而然地把手機拿近一些，或者用手指放大畫面。這個簡單的動作背后，其實蘊含著人類視覺系統(tǒng)的一個重要特征——當(dāng)我們需要觀察細(xì)節(jié)時，會主動調(diào)整視角，把注意力聚焦到關(guān)鍵區(qū)域。然而，當(dāng)前的人工智能視覺模型卻還做不到這一點，它們只能像近視眼一樣，模糊地看著整幅畫面，經(jīng)常錯過重要的細(xì)節(jié)信息。

這項由上海交通大學(xué)計算機科學(xué)學(xué)院聯(lián)合螞蟻集團等機構(gòu)完成的突破性研究，發(fā)表于2026年2月的arXiv平臺（論文編號：arXiv:2602.11858v1 [cs.CV]），首次提出了一種名為"區(qū)域到圖像蒸餾"的全新技術(shù)，讓AI模型學(xué)會了在不需要任何輔助工具的情況下，僅憑"一眼"就能準(zhǔn)確識別圖像中的細(xì)節(jié)信息。研究團隊將這項技術(shù)形象地稱為"無需放大的放大技術(shù)"（Zooming without Zooming），成功解決了多模態(tài)大語言模型在細(xì)節(jié)感知方面的關(guān)鍵短板。

傳統(tǒng)的AI視覺模型面對一張高分辨率圖片時，就像一個人站在博物館里，距離一幅巨大的油畫很遠(yuǎn)，想要看清畫面中某個人物的表情細(xì)節(jié)，卻又不能走近。雖然整體畫面盡收眼底，但想要識別畫中人物手里拿著什么小物件，或者讀清楚遠(yuǎn)處招牌上的文字，就顯得力不從心了。為了解決這個問題，近年來出現(xiàn)了一些"思維與圖像結(jié)合"的方法，這些方法讓AI模型像人類一樣，可以在推理過程中主動"走近"畫面，放大感興趣的區(qū)域進行仔細(xì)觀察。

然而，這種做法帶來了一個致命的缺陷：速度太慢。每當(dāng)模型需要"走近"觀察細(xì)節(jié)時，就需要重新處理圖像，反復(fù)進行多次計算。這就像一個人每次想看清楚一個細(xì)節(jié)，都需要重新從頭到尾仔細(xì)掃視整幅畫面一遍。這種反復(fù)的"zoom in"和"zoom out"操作雖然提高了準(zhǔn)確率，但讓推理時間大大延長，在實際應(yīng)用中很難被接受。

研究團隊巧妙地將這個問題轉(zhuǎn)化為一個全新的角度：既然我們知道"放大觀察"能夠幫助模型看得更準(zhǔn)確，那能不能讓模型在訓(xùn)練階段就學(xué)會這種能力，這樣在實際使用時就不需要真的"放大"了？這就像教會一個人練就"火眼金睛"，即使站在遠(yuǎn)處也能看清細(xì)節(jié)，而不需要每次都走近觀察。

為了實現(xiàn)這個想法，研究團隊設(shè)計了一套精巧的訓(xùn)練方案。他們首先讓能力強大的"老師"模型在放大的圖像區(qū)域上工作，因為在這些放大的小區(qū)域中，細(xì)節(jié)信息非常清晰，老師模型很容易給出準(zhǔn)確的問答對。接著，研究團隊將這些在小區(qū)域上得到的"標(biāo)準(zhǔn)答案"重新映射回原始的完整圖像上，并在圖像上用邊界框明確標(biāo)注出關(guān)鍵區(qū)域的位置，形成新的訓(xùn)練數(shù)據(jù)。

這個過程就像制作一本特殊的練習(xí)冊。老師先用放大鏡仔細(xì)觀察一幅畫的某個角落，準(zhǔn)確地描述出那里有什么東西。然后，老師把這個描述寫在練習(xí)冊上，但題目給出的是完整的畫面，并用紅框圈出了需要觀察的區(qū)域。學(xué)生通過大量練習(xí)這樣的題目，逐漸學(xué)會了即使看完整畫面，也能準(zhǔn)確識別紅框區(qū)域里的細(xì)節(jié)內(nèi)容。更神奇的是，當(dāng)學(xué)生真正熟練之后，即使沒有紅框的提示，也能自動將注意力集中到正確的位置。

研究團隊將這種訓(xùn)練方法應(yīng)用到了包括Qwen3-VL等多個主流模型上，訓(xùn)練數(shù)據(jù)量僅為7.4萬條。令人驚喜的是，經(jīng)過這種特殊訓(xùn)練的模型在各種細(xì)節(jié)識別任務(wù)上都表現(xiàn)出了顯著的提升。更重要的是，這些模型在推理時只需要進行一次前向計算，完全不需要反復(fù)的放大操作，推理速度比那些需要多次"zoom in"的方法快了約10倍。

為了全面評估這種能力，研究團隊還構(gòu)建了一個名為ZoomBench的專門測試基準(zhǔn)。這個測試集包含了845個精心設(shè)計的視覺問答樣本，涵蓋了六個不同的細(xì)節(jié)感知維度：精細(xì)計數(shù)、文字識別、顏色屬性、結(jié)構(gòu)屬性、材料屬性和物體識別。每個測試樣本都同時提供完整圖像和對應(yīng)的關(guān)鍵區(qū)域裁剪圖，這樣就可以直接對比模型在看"全圖"和看"局部放大圖"時的表現(xiàn)差異。

在精細(xì)計數(shù)任務(wù)中，模型需要準(zhǔn)確統(tǒng)計圖像中密集排列的小物體數(shù)量，比如數(shù)清楚一個魚缸里有多少條小魚，或者統(tǒng)計一片花叢中開了多少朵花。這類任務(wù)對人類來說都不是特別容易，需要仔細(xì)觀察才能避免重復(fù)計數(shù)或遺漏。在文字識別任務(wù)中，模型需要準(zhǔn)確讀出圖像中的文本內(nèi)容，特別是那些字體較小、背景復(fù)雜的文字。在屬性識別任務(wù)中，模型需要識別物體的顏色、材料、結(jié)構(gòu)等細(xì)節(jié)特征，比如判斷一個瓶子是玻璃材質(zhì)還是塑料材質(zhì)，或者識別一個標(biāo)志牌是圓形還是三角形。

測試結(jié)果顯示，經(jīng)過區(qū)域到圖像蒸餾訓(xùn)練的模型在所有測試維度上都取得了顯著的性能提升。以ZwZ-8B模型為例，它在ZoomBench上的得分從基礎(chǔ)模型的37.87分提升到了58.11分，提升幅度超過50%。更令人印象深刻的是，這個僅有80億參數(shù)的模型，在多個細(xì)節(jié)感知任務(wù)上的表現(xiàn)已經(jīng)能夠與那些參數(shù)量達(dá)到2350億的超大模型相媲美，甚至在某些任務(wù)上還略有優(yōu)勢。

為了深入理解模型性能提升的原因，研究團隊引入了"雙視角評估"方法。他們讓模型分別在完整圖像和裁剪的關(guān)鍵區(qū)域上回答相同的問題，通過對比兩種情況下的準(zhǔn)確率差異，量化出模型的"縮放差距"。結(jié)果發(fā)現(xiàn)，傳統(tǒng)模型在看完整圖像時的表現(xiàn)往往比看裁剪區(qū)域時要差很多，這個差距就反映了模型在全局環(huán)境中定位和利用關(guān)鍵信息的能力不足。而經(jīng)過區(qū)域到圖像蒸餾訓(xùn)練的模型，這個差距被顯著縮小了，說明它們確實學(xué)會了在復(fù)雜的全局環(huán)境中準(zhǔn)確找到和利用關(guān)鍵細(xì)節(jié)。

研究團隊還通過注意力圖分析技術(shù)，直觀地展示了模型的"視覺注意力"是如何分布的。結(jié)果顯示，經(jīng)過特殊訓(xùn)練的模型確實學(xué)會了將更多的注意力集中在與問題相關(guān)的關(guān)鍵區(qū)域上。這就像一個經(jīng)驗豐富的偵探，能夠在復(fù)雜的犯罪現(xiàn)場中迅速找到關(guān)鍵證據(jù)，而不是像新手一樣在現(xiàn)場無目的地四處張望。

除了在專門設(shè)計的細(xì)節(jié)感知任務(wù)上表現(xiàn)優(yōu)異，這種技術(shù)還展現(xiàn)出了良好的泛化能力。研究團隊發(fā)現(xiàn)，經(jīng)過訓(xùn)練的模型在一些看似無關(guān)的任務(wù)上也獲得了性能提升，包括視覺推理、AIGC檢測和圖形用戶界面代理任務(wù)。這說明學(xué)會準(zhǔn)確感知細(xì)節(jié)的能力，對于提升模型的整體視覺理解能力具有重要意義。

這項研究的意義不僅僅在于技術(shù)本身的突破，更在于它為人工智能視覺理解領(lǐng)域指出了一個全新的發(fā)展方向。長期以來，提高模型性能的主要方式是增加模型規(guī)模、使用更多數(shù)據(jù)或者在推理時使用更復(fù)雜的策略。而這項研究證明了，通過巧妙的訓(xùn)練方法設(shè)計，可以讓較小的模型獲得接近甚至超越大模型的能力，同時還能保持更高的推理效率。

在實際應(yīng)用場景中，這項技術(shù)具有廣泛的應(yīng)用前景。在醫(yī)學(xué)圖像分析中，模型可以在不需要醫(yī)生手動圈定病灶區(qū)域的情況下，自動識別X光片或CT圖像中的細(xì)微異常。在自動駕駛系統(tǒng)中，模型可以更準(zhǔn)確地識別遠(yuǎn)處的交通標(biāo)志或者行人，提高行車安全。在工業(yè)質(zhì)檢領(lǐng)域，模型可以在產(chǎn)品圖像中自動發(fā)現(xiàn)細(xì)小的瑕疵，提高檢測效率和準(zhǔn)確率。在文檔理解場景中，模型可以準(zhǔn)確識別復(fù)雜表格或圖表中的細(xì)節(jié)信息，提升辦公自動化水平。

當(dāng)然，這項技術(shù)也還有一些局限性需要進一步改進。目前的方法主要針對靜態(tài)圖像中的細(xì)節(jié)感知問題，對于視頻中的時序細(xì)節(jié)變化、復(fù)雜的空間推理任務(wù)等還需要進一步的研究。同時，如何讓模型在面對完全陌生的場景和任務(wù)時，仍然保持良好的細(xì)節(jié)感知能力，也是一個需要持續(xù)探索的問題。

研究團隊在論文中還深入討論了這種方法與現(xiàn)有"思維與圖像結(jié)合"技術(shù)的關(guān)系。他們指出，并不是所有的工具輔助操作都可以通過訓(xùn)練時蒸餾來替代。當(dāng)工具操作能夠帶來全新的、無法預(yù)測的信息時，比如通過網(wǎng)絡(luò)搜索獲取額外圖像或文檔，這種操作就是必需的，無法被蒸餾替代。但是當(dāng)工具操作主要是為了重新組織或突出現(xiàn)有信息時，比如放大、旋轉(zhuǎn)、裁剪等操作，這些操作的效果就可以通過巧妙的訓(xùn)練方法內(nèi)化到模型中。

這種區(qū)分為未來的研究指出了明確的方向：對于那些可以預(yù)測的、基于現(xiàn)有信息的操作，應(yīng)該通過訓(xùn)練時的蒸餾方法來提升模型能力；而對于那些需要獲取新信息的操作，則應(yīng)該保留在推理階段，作為模型的外部工具。這樣的混合方案既能保證模型的推理效率，又能保持其在復(fù)雜任務(wù)上的能力。

從更廣闊的視角來看，這項研究體現(xiàn)了人工智能發(fā)展的一個重要趨勢：從簡單的規(guī)?；瘮U展轉(zhuǎn)向更加精細(xì)化的能力設(shè)計。隨著計算資源成本的不斷上升和應(yīng)用場景對實時性要求的提高，如何讓模型變得更加"聰明"而不僅僅是更加"龐大"，成為了一個越來越重要的研究方向。這項研究提供的"區(qū)域到圖像蒸餾"方法，正是這種精細(xì)化設(shè)計思路的一個典型例子。

說到底，這項研究最大的價值在于它證明了一個重要觀點：人工智能的進步不一定要依賴于更大的模型或更復(fù)雜的推理過程，有時候一個巧妙的訓(xùn)練策略就能帶來顯著的性能提升。就像人類學(xué)習(xí)一樣，通過科學(xué)的訓(xùn)練方法，我們可以讓學(xué)生在相對較短的時間內(nèi)掌握原本需要大量經(jīng)驗才能獲得的技能。對于人工智能模型來說，這種"教學(xué)方法"的創(chuàng)新同樣重要。

這項研究的代碼已經(jīng)在GitHub平臺上開源，研究團隊希望這項技術(shù)能夠被更廣泛地應(yīng)用和改進。隨著更多研究者的參與和不同應(yīng)用場景的測試，我們有理由相信，這種讓AI"一眼看清細(xì)節(jié)"的能力將會在未來的智能系統(tǒng)中發(fā)揮越來越重要的作用，為構(gòu)建更加智能、高效的視覺理解系統(tǒng)奠定堅實的技術(shù)基礎(chǔ)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2602.11858v1查詢完整的研究論文。

Q&A

Q1：區(qū)域到圖像蒸餾技術(shù)是如何讓AI模型學(xué)會看細(xì)節(jié)的？

A：這項技術(shù)采用了類似"老師教學(xué)生"的方法。首先讓強大的老師模型在放大的圖像小區(qū)域上生成準(zhǔn)確的問答對，因為在小區(qū)域中細(xì)節(jié)很清楚，老師很容易給出正確答案。然后將這些答案重新映射到完整圖像上，并用邊界框標(biāo)注關(guān)鍵位置，形成訓(xùn)練數(shù)據(jù)。學(xué)生模型通過大量練習(xí)這樣的數(shù)據(jù)，逐漸學(xué)會即使看完整圖像也能準(zhǔn)確識別細(xì)節(jié)，最終甚至不需要邊界框提示也能自動關(guān)注正確位置。

Q2：這種方法比傳統(tǒng)的放大觀察方法有什么優(yōu)勢？

A：最大的優(yōu)勢是速度快很多。傳統(tǒng)方法需要在推理時反復(fù)進行放大操作，每次都要重新處理圖像，就像每次想看清細(xì)節(jié)都要重新掃視整幅畫面。而區(qū)域到圖像蒸餾讓模型在訓(xùn)練階段就學(xué)會了這種能力，推理時只需要一次計算就能得到結(jié)果，速度比傳統(tǒng)方法快約10倍。同時準(zhǔn)確性還更高，比如ZwZ-8B模型在細(xì)節(jié)識別任務(wù)上的得分從37.87分提升到58.11分。

Q3：ZoomBench測試基準(zhǔn)包含哪些類型的細(xì)節(jié)識別任務(wù)？

A：ZoomBench包含845個測試樣本，涵蓋六個細(xì)節(jié)感知維度。精細(xì)計數(shù)任務(wù)需要準(zhǔn)確統(tǒng)計密集小物體的數(shù)量，比如數(shù)魚缸里的魚或花叢中的花朵。文字識別任務(wù)要求讀出圖像中的小字或復(fù)雜背景下的文本。顏色、結(jié)構(gòu)、材料屬性任務(wù)需要識別物體的細(xì)節(jié)特征，比如判斷瓶子材質(zhì)或標(biāo)志形狀。物體識別任務(wù)則要求識別圖像中的特定物品或標(biāo)志。每個樣本都提供完整圖像和關(guān)鍵區(qū)域裁剪圖，可以直接對比模型的全局和局部識別能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.