国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AdaResoner實現(xiàn)Agentic Vision的主動「視覺工具思考」

0
分享至



你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎?

不是靠堆參數(shù),不是靠更大的數(shù)據(jù),而是靠一件事:學會「什么時候該用工具」。

大多數(shù)「工具增強」模型是這樣的:遇到任務 X → 調(diào)用固定工具 Y → 祈禱結果正確。一旦場景稍微變化,模型就開始抽風——不知道什么工具該用、什么工具不該用。

AdaReasoner 解決的是更本質(zhì)的問題:把 what / when / how(用什么、何時用、怎么用)當成推理能力來學。



  • 論文標題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
  • 論文(arXiv):https://arxiv.org/abs/2601.18631
  • 項目主頁:https://adareasoner.github.io
  • 代碼:https://github.com/ssmisya/AdaReasoner
  • 模型與數(shù)據(jù):https://huggingface.co/collections/hitsmy/adareasoner
  • 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM

先看 10 秒效果:


https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli

AdaReasoner 工作流程示意

Google 近期宣布,為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」(代理視覺)的新能力。

這項更新標志著多模態(tài) AI 處理圖像的方式發(fā)生了根本性轉(zhuǎn)變:從傳統(tǒng)的靜態(tài)識別,升級為具備「思考、行動、觀察」循環(huán)的主動調(diào)查模式。

在此之前,包括 GPT 在內(nèi)的大多數(shù)前沿多模態(tài)模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收圖像,進行一次性處理并輸出結果。這種方式在面對需要細致觀察的任務時,往往會因為細節(jié)丟失而產(chǎn)生幻覺或猜測。

Agentic Vision 的工作機制:Gemini 3 Flash 現(xiàn)在能夠像人類調(diào)查員一樣通過以下循環(huán)進行推理:

  • 思考(Think)——分析用戶指令和圖像初步內(nèi)容,制定調(diào)查計劃。
  • 行動(Act)——自動生成并執(zhí)行 Python 代碼來操作圖像。例如,對圖像進行縮放、裁剪特定區(qū)域、旋轉(zhuǎn)視角或繪制輔助線。
  • 觀察(Observe)——檢查代碼執(zhí)行后的新視圖或數(shù)據(jù),獲取更精確的視覺證據(jù)。

上述過程可以多次迭代,直到模型收集到足夠的確鑿證據(jù)來回答問題。

有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實現(xiàn)并驗證了幾乎相同的范式:



工業(yè)界與學術界同時押注「主動工具使用」,說明這個方向正在成為多模態(tài)推理的主流范式。

AdaReasoner 的獨特價值在于:我們不只是驗證了這套范式有效,更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內(nèi)容。

01 痛點:多模態(tài)推理為什么

總是「看起來很會,細節(jié)就開始猜」?

在多模態(tài)推理里,「看清細節(jié)」和「多步推理」經(jīng)?;ハ嗫ú弊樱?/p>

感知不夠精確 → 證據(jù)不足 → 推理再漂亮也容易變成「guided guessing」;

反過來,如果能把關鍵證據(jù)用工具查出來、畫出來、驗證出來,模型就能把算力用在判斷與規(guī)劃上。

換句話說:工具不是外掛,而是把推理從「猜」拉回「查」的關鍵路徑。

02 一句話介紹 AdaReasoner:

把工具使用當成「通用推理技能」

AdaReasoner 是一個訓練范式:讓模型不僅會「調(diào)用工具」,更會做三類決策:

  • 選擇:該用哪個工具?要不要組合多個工具?
  • 時機:什么時候該用?什么時候不該用?
  • 魯棒性:工具失敗/無用怎么辦?是否回退、是否換策略?



AdaReasoner 把「工具使用」當成推理技能來學習:會采納有用工具、丟棄無關工具,并按任務調(diào)節(jié)調(diào)用頻率。

03 三個關鍵設計:

讓「會用工具」從口號變成能力

3.1 Tool Cold Start (TC):把「犯錯-修正」寫進數(shù)據(jù)里

我們不是只給模型看「完美路徑」,而是刻意加入兩類真實世界會發(fā)生的場景:

  • 反思與回溯:試一下 → 檢查 → 不對就撤回/換方案。
  • 工具失敗處理:工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力。



定性案例:多輪工具規(guī)劃 + 反思糾錯 + 組合工具完成復雜視覺推理

3.2 Tool-GRPO (TG):優(yōu)化「多輪工具編排」,而不是單次調(diào)用

多模態(tài)工具推理往往不是「一次調(diào)用結束」,而是多回合:

觀察 → 調(diào)用 → 再觀察 → 再調(diào)用 → 最終回答。

Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優(yōu)化,并用自適應獎勵把工具使用變成「不確定時的可靠后備」,而不是強制流程。

3.3 Adaptive Learning (ADL):逼模型學「語義」,別背「名字」

為了避免模型死記硬背某個工具名(比如看到 "Point" 就條件反射),我們做了兩件事:

  • 工具名/參數(shù)名隨機化(去掉字面提示)。
  • 工具描述改寫(同一語義、多種表達)。



隨機化訓練的直觀示意



AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning

04 最硬的證據(jù):

小模型為什么能「跨級打怪」?

先給結論:AdaReasoner-7B 相對 base 模型在多個基準上實現(xiàn)顯著提升(在選取的 8 個 benchmark 上平均 +24.9%),并在結構化推理任務上接近滿分。



主實驗結果:在 VSP、Jigsaw、GUIQA 等任務上顯著提升。

更重要的是:不是「工具越多越好」,而是訓練配方?jīng)Q定工具是否真的幫得上忙。

例如在單任務設置下:

  • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
  • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過 GPT-5 的 80.10)



瓶頸遷移示意:當工具規(guī)劃足夠好,性能瓶頸從「模型規(guī)?!共糠诌w移到「工具效用與工具規(guī)劃能力」

05 最有意思的部分:模型真的

學出了「三種自適應工具行為」

這部分是 AdaReasoner 最像「智能體」的地方:我們沒有寫規(guī)則讓它這么做,但它在 RL 過程中學會了。

行為 1:會「采納」有用的新工具(Adopt)

把 A* 規(guī)劃工具放進強化學習階段(Cold Start 沒見過),模型會逐步提高調(diào)用頻率并穩(wěn)定掌握:

VSP Navigation 從 44.83 → 96.33



Navigation 任務示意



A* 工具調(diào)用頻率隨 RL 訓練演化

行為 2:會「丟棄」無關工具(Discard)

更關鍵的是:A* 對 Verify 任務沒用,甚至是干擾項。

在「只在推理時提供 A*」的設置里,Verify 會出現(xiàn) 94.20 → 80.00 的下降。

而在 RL 訓練后,模型會逐步壓制無關調(diào)用,讓 Verify 維持在接近滿分(99.20)。

一句話:它不僅會用工具,還會學會「別亂用」。

行為 3:會「調(diào)節(jié)」調(diào)用頻率(Modulate)

工具也不是開/關二選一。模型會根據(jù)子任務「調(diào)頻」:

Point 工具在導航更關鍵(~3.2 calls/sample),在驗證更克制(~1.0 call/sample)



Point 工具調(diào)用頻率「調(diào)頻」:Navigation 中更關鍵,Verification 中更克制

06 換工具說明書

也能用:泛化與穩(wěn)健性

現(xiàn)實里最常見的崩潰方式是:工具定義、參數(shù)名、描述文案一變,模型就「不會用了」。

AdaReasoner 用 ADL(隨機化 + 改寫)把「工具規(guī)劃」從文本表面形式里解耦出來。

一個很直觀的證據(jù)來自工具使用統(tǒng)計:

  • 在 Jigsaw 上達到 3.54 CPS 且工具執(zhí)行成功率 98.50%,最終準確率 88.60。
  • 在 VStar 這種更開放的 VQA 上仍能主動調(diào)用工具(1.47 CPS)并取得 70.68。



工具使用統(tǒng)計(CPS、成功率)與性能

此外,使用 ADL,模型能夠更容易在新的任務上取得更好的表現(xiàn)。我們僅使用 Jigsaw 這一個任務的 SFT 數(shù)據(jù),在三個任務上 RL,可以看到,使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升。



ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上。

07 我們想強調(diào)的

學術結論(Takeaways)

多模態(tài)推理不只是 「think harder」。更關鍵的是:

actively seeing, verifying, and planning with tools.

當工具編排學得足夠好,瓶頸會發(fā)生遷移:

model scale → tool utility + tool planning

這對小模型尤其重要:參數(shù)有限時,「會用工具」就是最直接的能力放大器。

從 Agentic Vision 看趨勢:Google 用 Agentic Vision 把 Think-Act-Observe 內(nèi)置到 Gemini,學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值。對于希望在自己數(shù)據(jù)/場景上復現(xiàn)這種能力的研究者和開發(fā)者,AdaReasoner 提供了一套完整的開源方案。

Adaptive Learning 對提升模型的泛化性也有很大幫助,可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

洲洲影視娛評
2026-01-28 12:23:18
轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

閃電新聞
2026-02-27 19:30:43
50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

美食店主
2026-02-12 00:08:26
為什么你永遠存不到200萬?因為體系不允許

為什么你永遠存不到200萬?因為體系不允許

流蘇晚晴
2026-02-26 18:13:45
女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
巴拿馬總統(tǒng)攤牌:只要中國敢反制,巴方就回擊,外交部態(tài)度明確

巴拿馬總統(tǒng)攤牌:只要中國敢反制,巴方就回擊,外交部態(tài)度明確

二凱訓猛犬
2026-02-28 17:13:31
中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

芭比衣櫥
2026-02-28 07:02:51
梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

林雁飛
2026-02-27 16:36:10
伊朗吃肉的時候,對中國防得嚴嚴實實,生怕中國占一點便宜

伊朗吃肉的時候,對中國防得嚴嚴實實,生怕中國占一點便宜

百態(tài)人間
2026-02-24 15:37:37
美軍正從空中海上攻擊伊朗

美軍正從空中海上攻擊伊朗

財聯(lián)社
2026-02-28 15:26:27
中國50后還有多少人?多少人能活到80歲?權威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權威數(shù)據(jù)告訴你

深度報
2026-02-27 21:36:50
蕩寇志中梁山108好漢的下場:36人被凌遲,66人陣亡,3人被虐殺

蕩寇志中梁山108好漢的下場:36人被凌遲,66人陣亡,3人被虐殺

談史論天地
2026-02-28 09:14:10
國防部:美方是國際核秩序和全球戰(zhàn)略穩(wěn)定最大亂源

國防部:美方是國際核秩序和全球戰(zhàn)略穩(wěn)定最大亂源

環(huán)球網(wǎng)資訊
2026-02-28 15:13:28
向太沒想到,42歲郭碧婷高調(diào)官宣喜訊,讓香港闊太圈直接沉默了

向太沒想到,42歲郭碧婷高調(diào)官宣喜訊,讓香港闊太圈直接沉默了

奇怪的鯊魚們
2026-02-28 04:15:14
六位快樂的罕見病女孩相約長沙錄歌:一定要見面,怕再失去我們中的任何一個

六位快樂的罕見病女孩相約長沙錄歌:一定要見面,怕再失去我們中的任何一個

瀟湘晨報
2026-02-27 22:17:26
耗資12億建世界最高佛,如今水喝不起拜不起

耗資12億建世界最高佛,如今水喝不起拜不起

時光流轉(zhuǎn)追夢人
2026-02-20 13:09:13
日本男籃戰(zhàn)韓國12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

日本男籃戰(zhàn)韓國12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

狼叔評論
2026-02-28 17:34:11
成都小米SU7事故細節(jié)進一步曝光,小米汽車再陷安全爭議

成都小米SU7事故細節(jié)進一步曝光,小米汽車再陷安全爭議

澎湃新聞
2026-02-27 19:14:26
2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

我愛英超
2026-02-28 06:52:26
鄒市明一家馬代度假 冉瑩穎膘肥體壯不好惹 軒軒一頭白毛被嘲土氣

鄒市明一家馬代度假 冉瑩穎膘肥體壯不好惹 軒軒一頭白毛被嘲土氣

白面書誏
2026-02-28 19:11:30
2026-02-28 20:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

疑將燃料當白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

頭條要聞

疑將燃料當白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
游戲
親子
時尚
教育

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

粉絲出錢逼官方下場:我不信你們能打通最高難度!

親子要聞

波速球半圓平衡球

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

教育要聞

實操 | 尋找46個說話晚/說不清/語言發(fā)育遲緩的兒童,3-4月來這10城接受免費1v1言語實操

無障礙瀏覽 進入關懷版