網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AdaResoner實現(xiàn)Agentic Vision的主動「視覺工具思考」

2026-02-24 13:58:23　來源: 機器之心Pro

河北舉報

分享至

你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎？

不是靠堆參數(shù)，不是靠更大的數(shù)據(jù)，而是靠一件事：學會「什么時候該用工具」。

大多數(shù)「工具增強」模型是這樣的：遇到任務 X → 調(diào)用固定工具 Y → 祈禱結果正確。一旦場景稍微變化，模型就開始抽風——不知道什么工具該用、什么工具不該用。

AdaReasoner 解決的是更本質(zhì)的問題：把 what / when / how（用什么、何時用、怎么用）當成推理能力來學。

論文標題：AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
論文（arXiv）:https://arxiv.org/abs/2601.18631
項目主頁:https://adareasoner.github.io
代碼:https://github.com/ssmisya/AdaReasoner
模型與數(shù)據(jù):https://huggingface.co/collections/hitsmy/adareasoner
視頻（YouTube）:https://www.youtube.com/watch?v=_SOyD-lomOM

先看 10 秒效果：

https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli

AdaReasoner 工作流程示意

Google 近期宣布，為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」（代理視覺）的新能力。

這項更新標志著多模態(tài) AI 處理圖像的方式發(fā)生了根本性轉(zhuǎn)變：從傳統(tǒng)的靜態(tài)識別，升級為具備「思考、行動、觀察」循環(huán)的主動調(diào)查模式。

在此之前，包括 GPT 在內(nèi)的大多數(shù)前沿多模態(tài)模型處理圖像的方式類似于人類的「匆匆一瞥」：模型接收圖像，進行一次性處理并輸出結果。這種方式在面對需要細致觀察的任務時，往往會因為細節(jié)丟失而產(chǎn)生幻覺或猜測。

Agentic Vision 的工作機制：Gemini 3 Flash 現(xiàn)在能夠像人類調(diào)查員一樣通過以下循環(huán)進行推理：

思考（Think）——分析用戶指令和圖像初步內(nèi)容，制定調(diào)查計劃。
行動（Act）——自動生成并執(zhí)行 Python 代碼來操作圖像。例如，對圖像進行縮放、裁剪特定區(qū)域、旋轉(zhuǎn)視角或繪制輔助線。
觀察（Observe）——檢查代碼執(zhí)行后的新視圖或數(shù)據(jù)，獲取更精確的視覺證據(jù)。

上述過程可以多次迭代，直到模型收集到足夠的確鑿證據(jù)來回答問題。

有意思的是：AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實現(xiàn)并驗證了幾乎相同的范式：

工業(yè)界與學術界同時押注「主動工具使用」，說明這個方向正在成為多模態(tài)推理的主流范式。

AdaReasoner 的獨特價值在于：我們不只是驗證了這套范式有效，更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內(nèi)容。

01 痛點：多模態(tài)推理為什么

總是「看起來很會，細節(jié)就開始猜」？

在多模態(tài)推理里，「看清細節(jié)」和「多步推理」經(jīng)?；ハ嗫ú弊樱?/p>

感知不夠精確 → 證據(jù)不足 → 推理再漂亮也容易變成「guided guessing」；

反過來，如果能把關鍵證據(jù)用工具查出來、畫出來、驗證出來，模型就能把算力用在判斷與規(guī)劃上。

換句話說：工具不是外掛，而是把推理從「猜」拉回「查」的關鍵路徑。

02 一句話介紹 AdaReasoner：

把工具使用當成「通用推理技能」

AdaReasoner 是一個訓練范式：讓模型不僅會「調(diào)用工具」，更會做三類決策：

選擇：該用哪個工具？要不要組合多個工具？
時機：什么時候該用？什么時候不該用？
魯棒性：工具失敗/無用怎么辦？是否回退、是否換策略？

AdaReasoner 把「工具使用」當成推理技能來學習：會采納有用工具、丟棄無關工具，并按任務調(diào)節(jié)調(diào)用頻率。

03 三個關鍵設計：

讓「會用工具」從口號變成能力

3.1 Tool Cold Start (TC)：把「犯錯-修正」寫進數(shù)據(jù)里

我們不是只給模型看「完美路徑」，而是刻意加入兩類真實世界會發(fā)生的場景：

反思與回溯：試一下 → 檢查 → 不對就撤回/換方案。
工具失敗處理：工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力。

定性案例：多輪工具規(guī)劃 + 反思糾錯 + 組合工具完成復雜視覺推理

3.2 Tool-GRPO (TG)：優(yōu)化「多輪工具編排」，而不是單次調(diào)用

多模態(tài)工具推理往往不是「一次調(diào)用結束」，而是多回合：

觀察 → 調(diào)用 → 再觀察 → 再調(diào)用 → 最終回答。

Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優(yōu)化，并用自適應獎勵把工具使用變成「不確定時的可靠后備」，而不是強制流程。

3.3 Adaptive Learning (ADL)：逼模型學「語義」，別背「名字」

為了避免模型死記硬背某個工具名（比如看到 "Point" 就條件反射），我們做了兩件事：

工具名/參數(shù)名隨機化（去掉字面提示）。
工具描述改寫（同一語義、多種表達）。

隨機化訓練的直觀示意

AdaReasoner 框架總覽：Tool Cold Start → Tool-GRPO → Adaptive Learning

04 最硬的證據(jù)：

小模型為什么能「跨級打怪」？

先給結論：AdaReasoner-7B 相對 base 模型在多個基準上實現(xiàn)顯著提升（在選取的 8 個 benchmark 上平均 +24.9%），并在結構化推理任務上接近滿分。

主實驗結果：在 VSP、Jigsaw、GUIQA 等任務上顯著提升。

更重要的是：不是「工具越多越好」，而是訓練配方?jīng)Q定工具是否真的幫得上忙。

例如在單任務設置下：

VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60（超過 GPT-5 的 80.10）

瓶頸遷移示意：當工具規(guī)劃足夠好，性能瓶頸從「模型規(guī)?！共糠诌w移到「工具效用與工具規(guī)劃能力」

05 最有意思的部分：模型真的

學出了「三種自適應工具行為」

這部分是 AdaReasoner 最像「智能體」的地方：我們沒有寫規(guī)則讓它這么做，但它在 RL 過程中學會了。

行為 1：會「采納」有用的新工具（Adopt）

把 A* 規(guī)劃工具放進強化學習階段（Cold Start 沒見過），模型會逐步提高調(diào)用頻率并穩(wěn)定掌握：

VSP Navigation 從 44.83 → 96.33

Navigation 任務示意

A* 工具調(diào)用頻率隨 RL 訓練演化

行為 2：會「丟棄」無關工具（Discard）

更關鍵的是：A* 對 Verify 任務沒用，甚至是干擾項。

在「只在推理時提供 A*」的設置里，Verify 會出現(xiàn) 94.20 → 80.00 的下降。

而在 RL 訓練后，模型會逐步壓制無關調(diào)用，讓 Verify 維持在接近滿分（99.20）。

一句話：它不僅會用工具，還會學會「別亂用」。

行為 3：會「調(diào)節(jié)」調(diào)用頻率（Modulate）

工具也不是開/關二選一。模型會根據(jù)子任務「調(diào)頻」：

Point 工具在導航更關鍵（~3.2 calls/sample），在驗證更克制（~1.0 call/sample）

Point 工具調(diào)用頻率「調(diào)頻」：Navigation 中更關鍵，Verification 中更克制

06 換工具說明書

也能用：泛化與穩(wěn)健性

現(xiàn)實里最常見的崩潰方式是：工具定義、參數(shù)名、描述文案一變，模型就「不會用了」。

AdaReasoner 用 ADL（隨機化 + 改寫）把「工具規(guī)劃」從文本表面形式里解耦出來。

一個很直觀的證據(jù)來自工具使用統(tǒng)計：

在 Jigsaw 上達到 3.54 CPS 且工具執(zhí)行成功率 98.50%，最終準確率 88.60。
在 VStar 這種更開放的 VQA 上仍能主動調(diào)用工具（1.47 CPS）并取得 70.68。

工具使用統(tǒng)計（CPS、成功率）與性能

此外，使用 ADL，模型能夠更容易在新的任務上取得更好的表現(xiàn)。我們僅使用 Jigsaw 這一個任務的 SFT 數(shù)據(jù)，在三個任務上 RL，可以看到，使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升。

ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上。

07 我們想強調(diào)的

學術結論（Takeaways）

多模態(tài)推理不只是「think harder」。更關鍵的是：

actively seeing, verifying, and planning with tools.

當工具編排學得足夠好，瓶頸會發(fā)生遷移：

model scale → tool utility + tool planning

這對小模型尤其重要：參數(shù)有限時，「會用工具」就是最直接的能力放大器。

從 Agentic Vision 看趨勢：Google 用 Agentic Vision 把 Think-Act-Observe 內(nèi)置到 Gemini，學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值。對于希望在自己數(shù)據(jù)/場景上復現(xiàn)這種能力的研究者和開發(fā)者，AdaReasoner 提供了一套完整的開源方案。

Adaptive Learning 對提升模型的泛化性也有很大幫助，可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.