国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「Thinking with Images」推理速度太慢?「Zooming without Zooming」 讓AI不調(diào)用工具也能「明察秋毫」!

0
分享至


ZwZ 通過"區(qū)域到圖像蒸餾"將推理時的 Zooming 操作轉(zhuǎn)化為訓練目標,讓多模態(tài)大模型不需要調(diào)用工具、僅在單次前向傳播中實現(xiàn)細粒度感知,同時達到開源SOTA性能。


上海交通大學與螞蟻集團聯(lián)合研究團隊發(fā)布最新多模態(tài)大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。這項研究讓多模態(tài)大模型在單次前向傳播中就能實現(xiàn)原本需要反復"放大-觀察"才能完成的細粒度感知任務,真正做到"既快又準"。團隊開源的 ZwZ(4/7/8B)模型家族在多模態(tài)細粒度感知任務中達到開源模型 SOTA 性能,超越 Kimi-K2.5、Qwen3-VL-235B 等眾多行業(yè)標桿模型。


論文信息

標題: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

論文: https://arxiv.org/pdf/2602.11858

作者: 魏來、何梁博、蘭鈞、董凌眾、蔡雨彤、李思遠、?;奂?、王維強、孔令和、汪躍、張倬勝、黃維然

單位: 上海交通大學、螞蟻集團、北京中關(guān)村學院、上海創(chuàng)智學院

代碼: https://github.com/inclusionAI/Zooming-without-Zooming

模型/數(shù)據(jù): https://huggingface.co/collections/inclusionAI/zooming-without-zooming

01


痛點:AI看圖的"近視困境"

當前多模態(tài)大語言模型(MLLMs)雖然已具備不錯的圖像理解能力,但在細粒度感知任務上卻仍然容易變成"近視眼":面對圖片中的微小文字與符號常常視而不見,難以辨別細膩的顏色差異和材質(zhì)紋理,在密集小物體的計數(shù)任務上也頻繁出錯。這類任務的共同特點是:關(guān)鍵證據(jù)往往只占圖像的很小區(qū)域,極易被全局上下文淹沒,模型必須從成千上萬的視覺 tokens 中精準檢索這些"滄海遺珠",難度可想而知。

為破解這一困局,當前主流方案是“Thinking-with-Images”范式,即讓AI像人一樣反復縮放、裁剪、觀察感興趣區(qū)域。這種交互式方法確實能緩解感知壓力,一旦微小區(qū)塊被單獨提取出來,模型便能專注于細節(jié)識別,將"大海撈針"轉(zhuǎn)化為直接辨認。然而,代價同樣明顯:多次工具調(diào)用與反復視覺編碼帶來嚴重的延遲開銷,讓實時應用成為奢望。

核心問題:能否既享受"放大觀察"的準確性,又保持"一眼掃過"的速度?

02


破局:把"縮放"從推理工具轉(zhuǎn)成訓練目標


為此,研究團隊提出了Region-to-Image Distillation(R2I,區(qū)域到圖像蒸餾)方法,核心思路簡潔而巧妙:先通過Zoom in讓模型聚焦“小圖”合成高質(zhì)量數(shù)據(jù);隨后再Zoom out將這些合成的數(shù)據(jù)映射回全圖視角,并基于這些數(shù)據(jù)進行強化學習,使模型逐步學會直接“從全圖看”。最終,模型在推理階段無需再執(zhí)行 Zoom in and out 操作,相當于將模型在局部區(qū)域(Region)上的高精度能力蒸餾到全圖(Image)視角中。

具體而言,R2I 包含以下幾個關(guān)鍵步驟:

1、首先利用目標檢測系統(tǒng)定位圖像中的微小區(qū)塊(面積小于原圖的10%),確保這些區(qū)域包含關(guān)鍵視覺證據(jù);

2、接著讓 Qwen3-VL-235B、GLM-4.5V 等強模型在裁剪后的清晰小圖上生成感知相關(guān)問題;

3、通過多模型投票達成共識答案,只保留高置信度的標注以最大限度抑制幻覺;

4、為避免指代歧義,將邊界框疊加到原圖上,并在問題中加入空間約束(如"只看紅框內(nèi)的物體");

5、隨后用拒絕采樣過濾掉太簡單的樣本確保訓練效率;

6、最后基于視覺錨定后的全圖、合成的問題與答案,通過純強化學習訓練,讓模型學會直接從全圖中定位并看清關(guān)鍵證據(jù),無需任何工具調(diào)用。

總結(jié)來說:我們在合成數(shù)據(jù)時為多模態(tài)大模型"戴上放大鏡",利用"Zooming"確保合成數(shù)據(jù)的高質(zhì)量;訓練時基于原圖訓練,讓模型只看原圖就能回答正確,實現(xiàn)"裸眼看清"!

03


ZoomBench:細粒度感知的新基準


為嚴格評估這種"不縮放也能看清"的能力,研究團隊專門構(gòu)建了ZoomBench基準測試。該 benchmark 包含 845 個高質(zhì)量樣本,涵蓋大量高分辨率圖片,采用 AI 合成與人工驗證相結(jié)合的高效混合構(gòu)建方式——每個問答對先由 AI 合成,再經(jīng) 3 位作者獨立審核,確保問題有效、答案準確。與現(xiàn)有基準相比,ZoomBench 實現(xiàn)了六大感知維度的全覆蓋,包括細粒度計數(shù)(24%)、OCR(15%)、顏色屬性(29%)、結(jié)構(gòu)屬性(18%)、材質(zhì)屬性(7%)和物體識別(7%),同時支持多選題與開放題兩種格式。


ZoomBench 的核心創(chuàng)新在于雙視角評估模式(Dual-View)。每個樣本都提供完整原圖和對應的關(guān)鍵區(qū)域裁剪圖,分別對應"全局視角"和"局部視角"兩種測試條件。局部視角準確率可視為理論上限(證據(jù)明確可見時模型能否答對),全局視角準確率則反映真實場景下的感知能力(能否從完整圖片中定位關(guān)鍵證據(jù))。兩者之差即為"縮放差距"(Zooming Gap),這一指標直接量化了模型"找不到關(guān)鍵證據(jù)"的瓶頸,為診斷細粒度感知能力提供了精確標尺。此外,ZoomBench 還配備自動標注的關(guān)鍵區(qū)域邊界框,支持基于注意力可視化的可解釋性分析。

04


效果:ZwZ 打敗超大規(guī)模模型

研究團隊基于 Qwen-VL 用 Region-to-Image Distillation 合成的數(shù)據(jù)進行強化微調(diào),得到的ZwZ 系列模型(4B/7B/8B 參數(shù))在多項基準測試上表現(xiàn)亮眼。值得注意的是,8B 參數(shù)的 ZwZ-8B 在綜合感知任務平均性能上超過了 235B 參數(shù)的 Qwen3-VL-235B,108B 參數(shù)的 GLM-4.5V,以及最新發(fā)布的 1T 參數(shù)的 Kimi-K2.5,并且逼近最頂尖的閉源模型 Gemini-3-Flash。


同時,ZwZ-8B 僅通過測試時單次推理,性能即可超越 Qwen3-VL-8B 結(jié)合官方工具的多輪交互效果,以及其他 Thinking with Images Agentic 模型(比如 Deepeyes,Thyme),速度提升約 10 倍。


此外,ZwZ 在 AIGC 檢測、GUI Agent 等真實任務上也展現(xiàn)出強勁的泛化能力。


ZoomBench 的獨特設計也讓我們能精確診斷模型的"視力問題"。在雙視角評估模式中,基線模型(Qwen3-VL-8B)呈現(xiàn)出明顯的"放大看得懂,不放大找不著"現(xiàn)象:局部視角準確率 63% versus 全局視角 38%,差距高達 25%。而 ZwZ 將這一"縮放差距"顯著縮小至 15%,證明模型真正學會了從全局中定位微證據(jù)。注意力可視化結(jié)果進一步佐證:ZwZ-8B 在關(guān)鍵邊界框內(nèi)的注意力覆蓋率從 17.39% 提升至 21.64%,提升了 4.25 個百分點。


05


深入洞察:什么時候該用工具,什么時候不需要?

論文深入探討了 “Thinking with Images” 范式的邊界,提出信息增益判別準則,將工具動作分為兩類:


信息增益型如網(wǎng)頁搜索、檢索外部知識,這類操作引入當前視圖不可預測的新信息,必須使用工具;無信息增益型如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)、2D/3D 定位、去噪等,僅是對已有信息的重新格式化或突出顯示,其結(jié)果完全可以基于當前視圖預測,可通過訓練內(nèi)化到模型中。


核心洞察:如果工具調(diào)用只是"重新格式化"已有信息(讓關(guān)鍵細節(jié)更容易看),而非獲取新信息,那么它的收益完全可以用 Algorithm 1 所示的方法,通過訓練內(nèi)化到模型權(quán)重中,無需在推理時犧牲速度。

Zooming 正是典型的無信息增益型操作——裁剪后的內(nèi)容本就存在于原圖中,只是被全局上下文"淹沒"。R2I 通過訓練讓模型學會"腦內(nèi)縮放",將工具收益壓縮進單次前向傳播。展望未來,研究團隊認為下一代 “Thinking with Images” 范式應當盡可能內(nèi)化無信息增益的工具調(diào)用,同時學會動態(tài)靈活地調(diào)用能帶來信息增益的工具,在速度與能力之間取得最佳平衡。

06


總結(jié)

這項研究不僅提出了一種高效的數(shù)據(jù)合成方法,更重新定義了"工具使用"與"模型能力"的邊界——通過 Region-to-Image Distillation 將"縮放"從推理時工具轉(zhuǎn)化為訓練時目標,讓多模態(tài)大模型在保持單遍推理速度的同時,獲得媲美工具調(diào)用的細粒度感知能力,為實際部署提供了"既快又準"的新范式。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
駐韓美軍部分“薩德”反導系統(tǒng)轉(zhuǎn)往中東

駐韓美軍部分“薩德”反導系統(tǒng)轉(zhuǎn)往中東

環(huán)球網(wǎng)資訊
2026-03-10 13:06:08
人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

人在庫姆卻被拒之門外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

老馬拉車莫少裝
2026-03-09 19:03:45
新歡上位成功?買超又曝喜當?shù)?,新歡似是當年那個女大學生

新歡上位成功?買超又曝喜當?shù)?,新歡似是當年那個女大學生

悅君兮君不知
2026-03-09 21:42:31
A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

A股:不出意外 明天周三 牛市很有可能會迎大級別的反彈!

夜深愛雜談
2026-03-10 20:50:27
只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

只有一個女兒的父母千萬記住:女婿對你啥樣,都別交這五樣底

楓紅染山徑
2026-03-06 00:41:37
為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評故事
2026-03-09 11:15:03
粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

浩渺青史
2026-03-10 18:31:00
眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說不出話

萌神木木
2026-03-10 11:43:57
滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

滅國級絞殺!伊朗新領(lǐng)袖剛上臺,美軍基地全面開放,這要徹底亡國

東極妙嚴
2026-03-09 17:19:50
伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當選伊朗最高領(lǐng)袖

伊各方誓言贏得戰(zhàn)爭,美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當選伊朗最高領(lǐng)袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊瀕臨降級區(qū)

葉青足球世界
2026-03-10 15:18:17
48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

博士觀察
2026-03-09 16:22:08
追覓手機外觀確認:奢華設計叫板華為小米 三分天下

追覓手機外觀確認:奢華設計叫板華為小米 三分天下

快科技
2026-03-09 16:32:10
48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

48小時生成500萬字小說?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來自AI

藍鯨新聞
2026-03-09 12:14:45
為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

為面子與左翎離婚29年,前妻幸福美滿他卻銷聲匿跡

心靈的觸動a
2026-03-09 22:33:30
伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計難奏效

伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計難奏效

深度財線
2026-03-10 15:46:07
2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

PChome電腦之家
2026-03-09 15:16:03
外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

外媒:法國要求聯(lián)合國安理會召開緊急會議,討論黎巴嫩當前局勢

環(huán)球網(wǎng)資訊
2026-03-09 19:57:22
巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

巴薩棄將巴甲閃耀 計劃世界杯后離開帕爾梅拉斯 標價超5000萬歐

智道足球
2026-03-10 19:16:51
寶馬銷售直播狂踩小米汽車!小米高管回應

寶馬銷售直播狂踩小米汽車!小米高管回應

鞭牛士
2026-03-10 14:32:06
2026-03-10 23:15:00
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
本地
游戲

教育要聞

近10年,全國普通高校畢業(yè)生規(guī)模連年增長!

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

羨慕嗎?國外圖書館都能借上3A大作了

無障礙瀏覽 進入關(guān)懷版